Será que o Brasil é mesmo o país do futebol?
By Neale Ahmed El-Dash on Aug 12, 2019
Introdução
É comum ouvir pessoas falarem que o Brasil é o país do futebol. Essa frase pode ser interpretada como tendo vários significados distintos, se referindo ao número de praticantes, jogadores, torcedores, times ou estádios. Ou então pela história do futebol nacional, pelos títulos conquistados nos últimos séculos. Ou pelos jogadores que marcaram época, eleitos ou não como melhores do mundo. Nesse post vou interpretar a frase como se referindo a qualidade do futebol da seleção brasileira (masculina?1) de futebol.
O objetivo principal desse post é tentar avaliar se o Brasil é, de fato, o país do futebol. O Brasil tem 5 copas do mundo, mais que qualquer outro país, então se existe um país do futebol, porque ele não seria o Brasil? Minha dúvida com relação a esse tema sempre foi associada a dois fatores principais:
- População - O Brasil é o 5º país mais populoso do planeta. Porém os países mais populosos que o Brasil não são conhecidos pela prática do futebol, com exceção dos Estados Únidos, onde o futebol feminino é muito popular.
- Esportes - No Brasil, o esporte mais práticado é o futebol. Numa pesquisa realizada pelo IBGE em 2013, apenas 25.6% da população entre 14 e 75 anos pratica esporte. E desses, 42.7% têm futebol como o esporte mais praticado. Entre os homens, esse percentual sobe para 66,2%.
Sempre considerei que pelo fato do Brasil ter tantos praticantes de futebol, provavelmente mais que qualquer outro país do mundo, era esperado que ganhasse mais Copas do Mundo que os outros competidores. Ou seja, considerando esse potencial enorme de jogadores que existe no país, será que o Brasil ganhou mais ou menos do que seria esperado? O Brasil ganhou mais vezes porque nosso futebol é melhor, ou porque temos mais jogadores? Se ajustarmos o número de títulos (ou participações em finais) da Copa do Mundo pelo número de jogadores profissionais de futebol, qual país será considerado o mais eficiente?
O objetivo secundário dessa publicação é testar uma nova forma de apresentar um post. Quero poder escrever um post acessível, para que qualquer pessoa interessada no tema possa ler. Porém também gostaria de explicar como fiz as contas, mostrar o código do software R e discutir temas mais técnicos, mas sem perder a fluídez do texto. A ideia é que eu possa escrever um único post, porém atender a dois públicos distintos. Quando houver uma seção mais técnica, ela estará contida dentro de uma área em destaque, com contorno laranja. Para ver o conteúdo dessas áreas, basta clicar no botão Mostrar Código. Se quiser esconder o código, basta clicar novamente no botão, que agora estará com o label Esconder Código. Abaixo uma área destacada foi incluída como exemplo, que só ficará visível após clicar no botão abaixo (no lado direito da página).
Exemplo
O texto dentro dessas áreas destacadas é mais técnico, usualmente focado em estatística ou programação. Para quem quiser ler apenas o texto principal, basta clicar no botão Esconder Código localizado acima do post e nas próprias áreas, para ocultar todas as áreas destacadas. Se quiser mostrar novamente todas as áreas destacadas, basta clicar novamente no botão.
Os dados
Para utilizar o critério descrito acima pra avaliar qual é o país do futebol, a dificuldade está na obtenção dos dados sobre o número de jogadores profissionais de futebol de cada país. Procurando na internet, encontrei uma pesquisa divulgada pela FIFA, chamada Big Count, que contém essas estatísticas. Os dados em si foram divulgados nesse pdf.
A fonte dos dados são as 207 federações filiadas a FIFA em 2006. Pelo próprio documento da FIFA fica evidente que não é possível saber com precisão a fonte das informações compartilhadas pelas federações. Além dos dados já terem mais de 12 anos, não distinguem o sexo dos jogadores profissionais. Como não consegui encontrar dados mais novos ou mais confiáveis, vou utilizar essa pesquisa da FIFA. Apenas como um pequeno exercício de validação, a estimativa de jogadores de futebol no Brasil em 2013, baseada na pesquisa do IBGE é de 16.041.317. A mesma estimativa em 2006 obtida pelo FIFA Big Count é de 13.197.733. Um crescimento de mais de 21%, sendo que nesse mesmo período a população brasileira cresceu apenas 7%. A justificativa mais plausível pra esse aumento é o aumento de mulheres jogando futebol. Ou seja, existe algum discrepância entre as fontes, mas que pode ter uma justificativa plausível. Porém é praticamente impossível avaliar a qualidade das informações para todas as federações.
Extraindo dados de um PDF
Quem já trabalhou com dados gravados em tabelas dentro de um arquivo no formato pdf sabe a dificuldade que é para importar os dados para o R. A dificuldade ocorre porque muitas vezes os dados ficam corrompidos, linhas e colunas se perdem. Se você já tentou manualmente copiar e colar tabelas do pdf para o excel, provavelmente já sentiu na pele problemas similares.
Depois do lançamento do pacote tabulizer, baseado na ferramenta tabula para extração de tabelas contidas dentro de arquivos pdf, essa tarefa ficou mais fácil. Porém ainda apresenta várias dificuldades. Se puder evitar qualquer tabela em pdf, evite. Erros não detectados, tabelas mal-formadas e muitos ajustes manuais são inevitáveis.
Ao extrair tabelas em pdf, é sempre necessário checar os dados sendo extraídos. No pacote tabulizer existem dois métodos básicos de extração de tabela: lattice e stream. Usualmente é uma boa ideia extrair os dados usandos os 2 métodos e comparar os dados obtidos. A estratégia que utilizei abaixo foi extrair apenas a primeira tabela do arquivo, e comparar os métodos. Depois criei uma função pra cada caso, que transforma a tabela extraída num formato compatível entre os dois métodos. Depois comparo os dois resultados finais pra ver onde houveram discrepâncias. Depois disso utilizo alguns ajustes manuais pra criar a base de dados final.
Para extrair a primeira tabela do pdf, utilizando o método lattice utilize o código abaixo.
url <- "https://resources.fifa.com/image/upload/big-count-summary-report-association-520044.pdf?cloudid=vrnjcgakvf7nds6sl5rx"
td = tempdir()
file.data = tempfile(tmpdir=td, fileext=".pdf")
download.file(url,file.data,method="curl")
require(tidyverse)
require(tabulizer)
tab <- extract_tables(file.data, method="lattice", pages = 1)
V1 | V2 | V3 | V4 | V5 | V6 | V7 | V8 | V9 | V10 | V11 | V12 | V13 | V14 | V15 | V16 | V17 | V18 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
AFG - Afghanistan Football Federation | 31056997 | 526781 | 1.70 | 526441 | 340 | 0 | 4928 | 13188 | 1665 | 0 | 4000 | 100 | 45 | 224 | 500* | 1 | |
AIA - Anguilla Football Association | 13477 | 1597 | 11.85 | 1160 | 437 | 10 | 230 | 662 | 0 | 0 | 195 | 7 | 63 | 11 | 16 | 4 | |
ALB - The Football Association of AFlubtasnaila | 3581655 | 164730 | 4.60 | 149730 | 15000 | 550 | 38800 | 14000 | 380 | 0 | 34000* | 1200 | 5000 | 440* | 574 | 16* | |
ALG - Fédération Algérienne de Football | 32930091 | 1790200 | 5.44 | 1719100 | 71100 | 300 | 138800* | 64800 | 0 | 0 | 248300* | 1700* | 22800* | 2090* | 2560* | 0 | |
AND - Federació Andorrana de Fútbol | 71201 | 5037 | 7.07 | 4681 | 356 | 0 | 804 | 1366 | 867 | 0 | 700 | 52 | 116 | 26 | 34 | 1* | |
ANG - Federaçao Angolana de FutYeobuotlh (u | der 1182)127071 | 664690 | 5.48 | 634090 | 30600 | 0 | 5240 | 10800 | 400* | 0 | 36250 | 259 | 1800 | 100 | 500 | 3 | |
ANT - Nederlands Antilliaanse Voetbal Unie | 221736 | 4220 | 1.90 | 3940 | 280 | 0 | 780 | 980 | 60 | 0 | 2400* | 42 | 320 | 40 | 75 | 1* | |
ARG - Asociación del Fútbol ArgenAtimnoateur | (18 a3n9d9 2o1v8e3r)3 | 2658811 | 6.66 | 2349811 | 309000 | 3530 | 88090 | 231196 | 8975 | 20 | 1225000* | 3340 | 33821 | 3348 | 23623 | 29 | |
ARM - Football Federation of Armenia | 2976372 | 151353 | 5.09 | 136212 | 15141 | 656 | 37228 | 2915 | 654 | 0 | 37900* | 134 | 4810 | 80 | 178 | 3 | |
ARU - Arubaanse Voetbal Bond | 71891 | 10700 | 14.88 | 9900 | 800 | 0 | 2400 | 3500 | 0 | 0 | 1000 | 26* | 100* | 60* | 140* | 2* | |
ASA - American Samoa Football Professi Association | nals57794 | 3248 | 5.62 | 2406 | 842 | 0 | 810 | 1000 | 228 | 0 | 410 | 102 | 135 | 27 | 33 | 6 | |
ATG - Antigua/Barbuda Football Association | 69108 | 6600 | 9.55 | 6000 | 600 | 0 | 1100 | 1100 | 0 | 0 | 800 | 33 | 100 | 20* | 60* | 1* | |
AUS - Football Federation Australia Limited | 20264082 | 970728 | 4.79 | 781246 | 189482 | 200 | 107013 | 299775 | 23740 | 5000 | 338000 | 8650 | 58982 | 2316 | 29018 | 1552 | |
AUT - Österreichischer Fussball-Bund | 8192880 | 967281 | 11.81 | 912580 | 54701 | 906 | 370828 | 221547 | 3000 | 0 | 260000 | 2302 | 390500 | 2211 | 9685 | 100 | |
AZE - Association of Football FedeMraatlieons of Azerbaijan | 7961619 | 306370 | 3.85 | 267900 | 38470 | 400 | 3150* | 14120 | 2000 | 0 | 82700* | 100 | 12900* | 80* | 320 | 3* | |
BAH - Bahamas Football Association | 303770 | 17944 | 5.91 | 14536 | 3408 | 0 | 820 | 1652 | 72 | 0 | 2400* | 36 | 230 | 34 | 111 | 7 | |
BAN - Bangladesh Football Federation | 147365352 | 6280300 | 4.26 | 6070200 | 210100 | 0 | 98980 | 172320 | 0 | 0 | 5815000 | 4304 | 71300 | 4100 | 8200 | 0 |
V1 | V2 | V3 | V4 | V5 | V6 | V7 | V8 | V9 | V10 | V11 | V12 | V13 | V14 | V15 | V16 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
AFG - Afghanistan Football Federation 31056997 | 526781 | 1.70 | 526441 | 340 | 0 | 4928 | 13188 | 1665 | 0 | 4000 | 100 | 45 | 224 | 500* | 1 |
AIA - Anguilla Football Association 13477 | 1597 | 11.85 | 1160 | 437 | 10 | 230 | 662 | 0 | 0 | 195 | 7 | 63 | 11 | 16 | 4 |
ALB - The Football Association of AFlubtasnaila 3581655 | 164730 | 4.60 | 149730 | 15000 | 550 | 38800 | 14000 | 380 | 0 | 34000* | 1200 | 5000 | 440* | 574 | 16* |
ALG - Fédération Algérienne de Football 32930091 | 1790200 | 5.44 | 1719100 | 71100 | 300 | 138800* | 64800 | 0 | 0 | 248300* | 1700* | 22800* | 2090* | 2560* | 0 |
AND - Federació Andorrana de Fútbol 71201 | 5037 | 7.07 | 4681 | 356 | 0 | 804 | 1366 | 867 | 0 | 700 | 52 | 116 | 26 | 34 | 1* |
ANG - Federaçao Angolana de FutYeobuotlh (under 1182)127071 | 664690 | 5.48 | 634090 | 30600 | 0 | 5240 | 10800 | 400* | 0 | 36250 | 259 | 1800 | 100 | 500 | 3 |
ANT - Nederlands Antilliaanse Voetbal 221736 | 4220 | 1.90 | 3940 | 280 | 0 | 780 | 980 | 60 | 0 | 2400* | 42 | 320 | 40 | 75 | 1* |
Unie | |||||||||||||||
ARG - Asociación del Fútbol ArgenAtimnoateurs (18 a3n9d9 2o1v8e3r)3 | 2658811 | 6.66 | 2349811 | 309000 | 3530 | 88090 | 231196 | 8975 | 20 | 1225000* | 3340 | 33821 | 3348 | 23623 | 29 |
ARM - Football Federation of Armenia 2976372 | 151353 | 5.09 | 136212 | 15141 | 656 | 37228 | 2915 | 654 | 0 | 37900* | 134 | 4810 | 80 | 178 | 3 |
ARU - Arubaanse Voetbal Bond 71891 | 10700 | 14.88 | 9900 | 800 | 0 | 2400 | 3500 | 0 | 0 | 1000 | 26* | 100* | 60* | 140* | 2* |
ASA - American Samoa Football Professionals 57794 | 3248 | 5.62 | 2406 | 842 | 0 | 810 | 1000 | 228 | 0 | 410 | 102 | 135 | 27 | 33 | 6 |
Association | |||||||||||||||
ATG - Antigua/Barbuda Football 69108 | 6600 | 9.55 | 6000 | 600 | 0 | 1100 | 1100 | 0 | 0 | 800 | 33 | 100 | 20* | 60* | 1* |
Association | |||||||||||||||
FemaleAUS - Football Federation Australia 20264082 | 970728 | 4.79 | 781246 | 189482 | 200 | 107013 | 299775 | 23740 | 5000 | 338000 | 8650 | 58982 | 2316 | 29018 | 1552 |
Limited | |||||||||||||||
AUT - Österreichischer Fussball-Bund 8192880 | 967281 | 11.81 | 912580 | 54701 | 906 | 370828 | 221547 | 3000 | 0 | 260000 | 2302 | 390500 | 2211 | 9685 | 100 |
AZE - Association of Football FedeMraatlieons 7961619 | 306370 | 3.85 | 267900 | 38470 | 400 | 3150* | 14120 | 2000 | 0 | 82700* | 100 | 12900* | 80* | 320 | 3* |
of Azerbaijan | |||||||||||||||
BAH - Bahamas Football Association 303770 | 17944 | 5.91 | 14536 | 3408 | 0 | 820 | 1652 | 72 | 0 | 2400* | 36 | 230 | 34 | 111 | 7 |
BAN - Bangladesh Football Federation 147365352 | 6280300 | 4.26 | 6070200 | 210100 | 0 | 98980 | 172320 | 0 | 0 | 5815000 | 4304 | 71300 | 4100 | 8200 | 0 |
formatar_lattice <- function(df,nomes,corte=3){
df <- as_tibble(df)
df$pais <- str_extract(df$V1,"[A-Z]{3}")
df <- df %>% filter(!(is.na(pais)))
aux <- map_lgl(df,~ sum(. == "") <= corte)
df <- df[,aux] %>% set_names(c(nomes,"pais"))
df <- df %>% mutate_at(vars(-federacao,-pais),list(~as.numeric(str_replace_all(.,'[^.0-9]',''))))
df <- df %>% filter(!is.na(pop))
return(df)
}
formatar_stream <- function(df,nomes,corte=3){
if (ncol(df) == 16){
nomes <- setdiff(nomes,'pop')
}
df <- as_tibble(df)
df$pais <- str_extract(df$V1,"[A-Z]{3}")
df <- df %>% filter(!(is.na(pais)))
aux <- map_lgl(df,~ sum(. == "") <= corte)
df <- df[,aux] %>% set_names(c(nomes,"pais"))
df <- df %>% mutate_at(vars(-federacao,-pais),list(~as.numeric(str_replace_all(.,'[^.0-9]',''))))
if (!("pop" %in% names(df))){
df$pop <- as.numeric(str_extract(df$federacao,"[0-9]*$"))
df$federacao <- str_replace(df$federacao,"[0-9]*$","")
}
return(df)
}
Independentemente do método utilizado, cada tabela extraída terá o formato da tabela 3. A ideia é que possamos comparar diretamente o resultado da extração dos dados utilizando os dois métodos.
federacao | jogadores | perc_pop | homens | mulheres | profissionais | amadores | jovens | futsal | futpraia | outros | juizes | tecnicos | clubes | times | clubes_feminino | pais | pop |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
AFG - Afghanistan Football Federation | 526781 | 1.70 | 526441 | 340 | 0 | 4928 | 13188 | 1665 | 0 | 4000 | 100 | 45 | 224 | 500 | 1 | AFG | 31056997 |
AIA - Anguilla Football Association | 1597 | 11.85 | 1160 | 437 | 10 | 230 | 662 | 0 | 0 | 195 | 7 | 63 | 11 | 16 | 4 | AIA | 13477 |
ALB - The Football Association of AFlubtasnaila | 164730 | 4.60 | 149730 | 15000 | 550 | 38800 | 14000 | 380 | 0 | 34000 | 1200 | 5000 | 440 | 574 | 16 | ALB | 3581655 |
ALG - Fédération Algérienne de Football | 1790200 | 5.44 | 1719100 | 71100 | 300 | 138800 | 64800 | 0 | 0 | 248300 | 1700 | 22800 | 2090 | 2560 | 0 | ALG | 32930091 |
AND - Federació Andorrana de Fútbol | 5037 | 7.07 | 4681 | 356 | 0 | 804 | 1366 | 867 | 0 | 700 | 52 | 116 | 26 | 34 | 1 | AND | 71201 |
ANG - Federaçao Angolana de FutYeobuotlh (under 1182) | 664690 | 5.48 | 634090 | 30600 | 0 | 5240 | 10800 | 400 | 0 | 36250 | 259 | 1800 | 100 | 500 | 3 | ANG | 127071 |
ANT - Nederlands Antilliaanse Voetbal | 4220 | 1.90 | 3940 | 280 | 0 | 780 | 980 | 60 | 0 | 2400 | 42 | 320 | 40 | 75 | 1 | ANT | 221736 |
ARG - Asociación del Fútbol ArgenAtimnoateurs (18 a3n9d9 2o1v8e3r) | 2658811 | 6.66 | 2349811 | 309000 | 3530 | 88090 | 231196 | 8975 | 20 | 1225000 | 3340 | 33821 | 3348 | 23623 | 29 | ARG | 3 |
ARM - Football Federation of Armenia | 151353 | 5.09 | 136212 | 15141 | 656 | 37228 | 2915 | 654 | 0 | 37900 | 134 | 4810 | 80 | 178 | 3 | ARM | 2976372 |
ARU - Arubaanse Voetbal Bond | 10700 | 14.88 | 9900 | 800 | 0 | 2400 | 3500 | 0 | 0 | 1000 | 26 | 100 | 60 | 140 | 2 | ARU | 71891 |
ASA - American Samoa Football Professionals | 3248 | 5.62 | 2406 | 842 | 0 | 810 | 1000 | 228 | 0 | 410 | 102 | 135 | 27 | 33 | 6 | ASA | 57794 |
ATG - Antigua/Barbuda Football | 6600 | 9.55 | 6000 | 600 | 0 | 1100 | 1100 | 0 | 0 | 800 | 33 | 100 | 20 | 60 | 1 | ATG | 69108 |
FemaleAUS - Football Federation Australia | 970728 | 4.79 | 781246 | 189482 | 200 | 107013 | 299775 | 23740 | 5000 | 338000 | 8650 | 58982 | 2316 | 29018 | 1552 | AUS | 20264082 |
AUT - Österreichischer Fussball-Bund | 967281 | 11.81 | 912580 | 54701 | 906 | 370828 | 221547 | 3000 | 0 | 260000 | 2302 | 390500 | 2211 | 9685 | 100 | AUT | 8192880 |
AZE - Association of Football FedeMraatlieons | 306370 | 3.85 | 267900 | 38470 | 400 | 3150 | 14120 | 2000 | 0 | 82700 | 100 | 12900 | 80 | 320 | 3 | AZE | 7961619 |
BAH - Bahamas Football Association | 17944 | 5.91 | 14536 | 3408 | 0 | 820 | 1652 | 72 | 0 | 2400 | 36 | 230 | 34 | 111 | 7 | BAH | 303770 |
BAN - Bangladesh Football Federation | 6280300 | 4.26 | 6070200 | 210100 | 0 | 98980 | 172320 | 0 | 0 | 5815000 | 4304 | 71300 | 4100 | 8200 | 0 | BAN | 147365352 |
Agora o próximo passo é extrair todas as tabelas com os dois métodos e depois comparar os resultados. No código abaixo estou usando algumas funções dos pacotes purrr e dplyr, mas não vou entrar em detalhes sobre elas pois já existem muitos tutoriais sobre as mesmas.
#tabelas lattice
tabs_lattice <- extract_tables(file.data,method = "lattice")
dados_lattice <- map(tabs_lattice,~formatar_lattice(.,nomes))
dados_lattice <- reduce(dados_lattice,bind_rows)
dados_lattice <- dados_lattice %>% select(federacao,pais,pop,everything())
#tabelas stream
tabs_stream <- extract_tables(file.data,method = "stream")
dados_stream <- map(tabs_stream,~formatar_stream(.,nomes))
dados_stream <- reduce(dados_stream,bind_rows)
dados_stream <- dados_stream %>% select(federacao,pais,pop,everything())
#comparacao
dados.check <- map2_df(dados_lattice,dados_stream,~sum(!(.x == .y),na.rm = TRUE))
O resultado da comparação pode ser visto na tabela 4. Fica claro que existem muitas diferenças na coluna federacao e somente duas diferenças na coluna pop. As outras colunas estão idênticas.
federacao | pais | pop | jogadores | perc_pop | homens | mulheres | profissionais | amadores | jovens | futsal | futpraia | outros | juizes | tecnicos | clubes | times | clubes_feminino |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
78 | 0 | 2 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
Vamos ignorar a coluna federacao pois ela não será utilizada na análise. Porém teremos que corrigir manualmente a coluna pop com o código abaixo, pois a população dos países ANG e ARG não conseguiu ser corretamente extraída por nenhum dos dois métodos. Todas as outras variáveis estão corretas. A estratégia apresentada aqui é útil para reduzir o número de comparações manuais necessárias, mas mesmo assim elas tem que ser feitas. Até onde eu sei, não há uma forma totalmente segura, automatizada, de extrair dados de um arquivo em formato pdf, pois depende muito de como foi gerado o arquivo em questão. Cada caso é um caso. Sempre é necessário verificar os resultados!
Minha intuição sobre a quantidade de praticantes de futebol no mundo estava mais ou menos certa. Analisando os dados da pesquisa mostrados na tabela 5, fica claro que existem alguns países com mais praticantes de futebol do que o Brasil, porém no Brasil é onde há mais jogadores profissionais no mundo. Também é interessante notar nessa tabela que a proporção de praticantes de futebol na Alemanha é muito grande, próxima a 20% da população, muito maior do que no Brasil, onde é em torno de 7%. O único país com uma proporção maior do que a Alemanhã é a Costa Rica, onde 26% da população pratica o futebol. Para quem tiver interesse, nesse link vários mapas mundiais foram feitos utilizando estatísticas dessa pesquisa.
Sigla | País | População | Praticantes | Profissionais |
---|---|---|---|---|
CHN | China PR | 1.313.973.713 | 26.166.335 | 2.239 |
USA | United States | 298.444.215 | 24.472.778 | 1.513 |
IND | India | 1.095.351.995 | 20.587.900 | 400 |
GER | Germany | 82.422.299 | 16.308.946 | 864 |
BRA | Brazil | 188.078.227 | 13.197.733 | 16.200 |
MEX | Mexico | 107.499.525 | 8.479.595 | 4.593 |
IDN | Indonesia | 245.452.739 | 7.094.260 | 800 |
NGA | Nigeria | 131.859.731 | 6.653.710 | 2.440 |
RUS | Russian Federation | 142.893.540 | 5.802.536 | 3.724 |
ITA | Italy | 58.133.509 | 4.980.296 | 3.541 |
O país do futebol é…
Qual critério utilizar para avaliar qual país é mais eficiente no jogo de futebol é subjetivo. A ideia principal é fazer um ranking, baseado na taxa de títulos mundiais por jogador profissional. Mas poderíamos considerar também participações em finais da Copa do Mundo ao invês de títulos, pois muito poucos países conseguiram ganhar uma Copa. Também poderíamos considerar praticantes de futebol ao invês de jogadores de futebol, pois todo praticante de futebol poderia ser visto como um potencial jogador profissional. Apesar de similares conceitualmente, existem algumas diferenças importantes entre essas taxas.
É importante enfatizar que esse ranking do futebol tem vários problemas, então não deve ser levado muito a sério. Além dos problemas com os dados, conceitualmente existem outros problemas. O principal problema são as diferentes dinâmicas populacionais, que se alteraram ao longo dos últimos 90 anos, período em que a Copa do Mundo é disputada. Ou seja, quando cada Copa foi disputada, a quantidade de jogadores profissionais em cada país era bem diferente. Além disso, a questão da participação feminina no futebol também é bastante relevante, com Copas do Mundo femininas sendo disputadas apenas desde 1991.
Nesse post vou considerar o denominador como sendo o número de jogadores profissionais. Acredito que o número de jogadores profissionais é mais importante para medir o potencial do país do que o número de praticantes, principalmente porque é uma forma de também levar em conta a infra-estrutura e a quantidade de clubes existentes no país. É como se o número de praticantes fosse a taxa bruta, e o número de jogadores a taxa líquida.
Quanto ao numerador da taxa, vou analisar apenas títulos mundiais. Além de ser uma medida mais simples, ao considerar finais não aumentamos muito o número de países considerados. Num primeiro momento, também não farei distinção entre homens e mulheres, até porque na base de dados da pesquisa não existe essa distinção entre os jogadores profissionais.
Assim, a taxa que vamos considerar será o percentual de títulos conquistados, dividido pelo percentual de jogadores profissionais: \(\frac{perc.titulos}{perc.profissionais}\). Ambos os percentuais são calculados com relação ao conjunto de todos os outros países. Ou seja, se um país possui 5% dos jogadores profissionais do mundo, esperamos que ganhe 5% dos títulos mundiais. Uma taxa maior que 1 indica que aquele país têm uma performance melhor do que esperada, levando em consideração apenas o seu estoque de jogadores profissionais. Uma taxa de 2, por exemplo, indica que aquele país ganhou 2 vezes mais do que o esperado. Na tabela 6 mostramos o ranking dos países que conquistaram algum título mundial. O Brasil aparece em penúltimo lugar, com uma taxa de apenas 1,2. Ou seja, o Brasil ganhou apenas 0,2 vezes mais do que o esperado. Já a Alemanha, em primeiro lugar, ganhou 27 vezes mais do que o esperado.
Código | País | Profissionais | Títulos | Tit. % | Prof. % | Taxa | Ranking |
---|---|---|---|---|---|---|---|
GER | Germany | 864 | 6 | 20.7% | 0.8% | 27.1 | 1 |
USA | United States | 1513 | 4 | 13.8% | 1.3% | 10.3 | 2 |
URU | Uruguay | 1100 | 2 | 6.9% | 1% | 7.1 | 3 |
ITA | Italy | 3541 | 4 | 13.8% | 3.1% | 4.4 | 4 |
FRA | France | 1825 | 2 | 6.9% | 1.6% | 4.3 | 5 |
JPN | Japan | 976 | 1 | 3.4% | 0.9% | 4.0 | 6 |
NOR | Norway | 1000 | 1 | 3.4% | 0.9% | 3.9 | 7 |
ESP | Spain | 1331 | 1 | 3.4% | 1.2% | 2.9 | 8 |
ARG | Argentina | 3530 | 2 | 6.9% | 3.1% | 2.2 | 9 |
BRA | Brazil | 16200 | 5 | 17.2% | 14.3% | 1.2 | 10 |
ENG | England | 6110 | 1 | 3.4% | 5.4% | 0.6 | 11 |
Como o Brasil ganhou sua fama de ser o país de futebol antes das mulheres participarem do jogo, vamos tentar fazer o mesmo ranking considerando apenas os homens. Além das diversas suposições já feitas no ranking anterior, teremos que fazer mais uma suposição. Como a base de dados não informa o número de jogadores profissionais homens, iremos estimar esse número como sendo proporcional ao números de clubes com times masculinos2. Por exemplo, no caso do Brasil, estamos supondo que 99% dos jogadores profissionais são homens. No caso dos EUA, essa proporção é 55%. Na tabela 7 mostramos o ranking dos países levando em consideração apenas o futebol masculino. Apesar da taxa do Brasil aumentar para 1,6, continuamos em penúltimo no ranking dos campeões.
Código | País | Profis. Masc. | Títulos Masc. | Tit. % | Prof. % | Taxa | Ranking |
---|---|---|---|---|---|---|---|
GER | Germany | 835 | 4 | 19% | 0.8% | 24.1 | 1 |
URU | Uruguay | 1091 | 2 | 9.5% | 1% | 9.2 | 2 |
ITA | Italy | 3420 | 4 | 19% | 3.2% | 5.9 | 3 |
FRA | France | 1712 | 2 | 9.5% | 1.6% | 5.9 | 4 |
ESP | Spain | 1324 | 1 | 4.8% | 1.3% | 3.8 | 5 |
ARG | Argentina | 3500 | 2 | 9.5% | 3.3% | 2.9 | 6 |
BRA | Brazil | 16068 | 5 | 23.8% | 15.2% | 1.6 | 7 |
ENG | England | 5752 | 1 | 4.8% | 5.5% | 0.9 | 8 |
Se fizermos o ranking masculino utilizando como denominador o número de praticantes de futebol, o ranking se altera consideravelmente. A Alemanha passa ao 7º lugar do ranking com uma taxa de 2,75, e o Brasil sobe para o 5º posto, com uma taxa de 4,2. Nesse ranking, o campeão é o Uruguai, com uma taxa de 92. Essa enorme diferença entre os rankings ocorre por causa da grande diferença entre os percentuais relativos de praticantes e jogadores profissionais de futebol. A correlação entre essas duas variáveis é de apenas 0,35.
Análise dos dados
url <- "http://www.pollingdata.com.br/blog/jogadores futebol - 12-08-2019/copas.rds"
td = tempdir()
file.data = tempfile(tmpdir=td, fileext=".rds")
download.file(url,file.data,method="curl")
df.copas <- readRDS(file.data)
#total - profissionais
df.copas$perc_tit <- df.copas$titulo / sum(df.copas$titulo,na.rm = TRUE)
df.copas$perc_prof <- df.copas$profissionais / sum(df.copas$profissionais,na.rm = TRUE)
df.copas$taxa <- round(df.copas$perc_tit / df.copas$perc_prof,1)
df.copas <- df.copas %>% arrange(desc(taxa))
df.copas$rank <- 1:nrow(df.copas)
df.copas.tot <- df.copas %>% filter(perc_tit > 0)
df.copas.tot <- df.copas.tot %>% mutate_at(vars(perc_tit,perc_prof),list(~paste0(round(100*.,1),"%")))
df.copas.tot <- df.copas.tot %>% select(pais,nome,profissionais,titulo,perc_tit,perc_prof,taxa,rank)
#masculino - profissionais
df.copas$profissionais.m <- round(df.copas$profissionais * (df.copas$clubes / (df.copas$clubes_feminino + df.copas$clubes)),0)
df.copas$perc_tit <- df.copas$titulo.m / sum(df.copas$titulo.m,na.rm = TRUE)
df.copas$perc_prof <- df.copas$profissionais.m / sum(df.copas$profissionais.m,na.rm = TRUE)
df.copas$taxa <- round(df.copas$perc_tit / df.copas$perc_prof,1)
df.copas <- df.copas %>% arrange(desc(taxa))
df.copas$rank <- 1:nrow(df.copas)
df.copas.masc <- df.copas %>% filter(perc_tit > 0)
df.copas.masc <- df.copas.masc %>% mutate_at(vars(perc_tit,perc_prof),list(~paste0(round(100*.,1),"%")))
df.copas.masc <- df.copas.masc %>% select(pais,nome,profissionais.m,titulo.m,perc_tit,perc_prof,taxa,rank)
#masculino - praticantes
df.copas$perc_tit <- round(100*df.copas$titulo.m / sum(df.copas$titulo.m,na.rm = TRUE),3)
df.copas$perc_jog <- round(100*df.copas$homens / sum(df.copas$homens,na.rm = TRUE),3)
df.copas$taxa <- df.copas$perc_tit / df.copas$perc_jog
df.copas <- df.copas %>% arrange(desc(taxa))
df.copas$rank <- 1:nrow(df.copas)
df.copas.masc2 <- df.copas %>% filter(perc_tit > 0)
df.copas.masc2 <- df.copas.masc2 %>% mutate_at(vars(perc_tit,perc_jog),list(~paste0(round(100*.,1),"%")))
df.copas.masc2 <- df.copas.masc2 %>% select(pais,nome,profissionais.m,titulo.m,perc_tit,perc_prof,taxa,rank)
Por causa dessas diferenças, não é claro qual indicador deve ser utilizado. Além disso foram feitas muitas suposições para chegar aos rankings, e os dados são antigos e não muito confiáveis. Ou seja, há muita incerteza cercando o tema. Porém um fato é claro: todas as análises indicam que o Brasil não é o país do futebol!
Também podemos argumentar que o país do futebol deveria estimular a participação feminina em todos os âmbitos do futebol.↩︎
Estou supondo que todos os clubes na base de dados têm times masculinos. Assim, a estimativa dessa proporção para cada país será dada por \(\frac{clubes}{clubes+clubes.feminino}\).↩︎