post-image

Será que o Brasil é mesmo o país do futebol?


Introdução

É comum ouvir pessoas falarem que o Brasil é o país do futebol. Essa frase pode ser interpretada como tendo vários significados distintos, se referindo ao número de praticantes, jogadores, torcedores, times ou estádios. Ou então pela história do futebol nacional, pelos títulos conquistados nos últimos séculos. Ou pelos jogadores que marcaram época, eleitos ou não como melhores do mundo. Nesse post vou interpretar a frase como se referindo a qualidade do futebol da seleção brasileira (masculina?1) de futebol.

O objetivo principal desse post é tentar avaliar se o Brasil é, de fato, o país do futebol. O Brasil tem 5 copas do mundo, mais que qualquer outro país, então se existe um país do futebol, porque ele não seria o Brasil? Minha dúvida com relação a esse tema sempre foi associada a dois fatores principais:

  • População - O Brasil é o 5º país mais populoso do planeta. Porém os países mais populosos que o Brasil não são conhecidos pela prática do futebol, com exceção dos Estados Únidos, onde o futebol feminino é muito popular.
  • Esportes - No Brasil, o esporte mais práticado é o futebol. Numa pesquisa realizada pelo IBGE em 2013, apenas 25.6% da população entre 14 e 75 anos pratica esporte. E desses, 42.7% têm futebol como o esporte mais praticado. Entre os homens, esse percentual sobe para 66,2%.


Sempre considerei que pelo fato do Brasil ter tantos praticantes de futebol, provavelmente mais que qualquer outro país do mundo, era esperado que ganhasse mais Copas do Mundo que os outros competidores. Ou seja, considerando esse potencial enorme de jogadores que existe no país, será que o Brasil ganhou mais ou menos do que seria esperado? O Brasil ganhou mais vezes porque nosso futebol é melhor, ou porque temos mais jogadores? Se ajustarmos o número de títulos (ou participações em finais) da Copa do Mundo pelo número de jogadores profissionais de futebol, qual país será considerado o mais eficiente?

O objetivo secundário dessa publicação é testar uma nova forma de apresentar um post. Quero poder escrever um post acessível, para que qualquer pessoa interessada no tema possa ler. Porém também gostaria de explicar como fiz as contas, mostrar o código do software R e discutir temas mais técnicos, mas sem perder a fluídez do texto. A ideia é que eu possa escrever um único post, porém atender a dois públicos distintos. Quando houver uma seção mais técnica, ela estará contida dentro de uma área em destaque, com contorno laranja. Para ver o conteúdo dessas áreas, basta clicar no botão Mostrar Código. Se quiser esconder o código, basta clicar novamente no botão, que agora estará com o label Esconder Código. Abaixo uma área destacada foi incluída como exemplo, que só ficará visível após clicar no botão abaixo (no lado direito da página).

Exemplo

O texto dentro dessas áreas destacadas é mais técnico, usualmente focado em estatística ou programação. Para quem quiser ler apenas o texto principal, basta clicar no botão Esconder Código localizado acima do post e nas próprias áreas, para ocultar todas as áreas destacadas. Se quiser mostrar novamente todas as áreas destacadas, basta clicar novamente no botão.

Os dados

Para utilizar o critério descrito acima pra avaliar qual é o país do futebol, a dificuldade está na obtenção dos dados sobre o número de jogadores profissionais de futebol de cada país. Procurando na internet, encontrei uma pesquisa divulgada pela FIFA, chamada Big Count, que contém essas estatísticas. Os dados em si foram divulgados nesse pdf.

A fonte dos dados são as 207 federações filiadas a FIFA em 2006. Pelo próprio documento da FIFA fica evidente que não é possível saber com precisão a fonte das informações compartilhadas pelas federações. Além dos dados já terem mais de 12 anos, não distinguem o sexo dos jogadores profissionais. Como não consegui encontrar dados mais novos ou mais confiáveis, vou utilizar essa pesquisa da FIFA. Apenas como um pequeno exercício de validação, a estimativa de jogadores de futebol no Brasil em 2013, baseada na pesquisa do IBGE é de 16.041.317. A mesma estimativa em 2006 obtida pelo FIFA Big Count é de 13.197.733. Um crescimento de mais de 21%, sendo que nesse mesmo período a população brasileira cresceu apenas 7%. A justificativa mais plausível pra esse aumento é o aumento de mulheres jogando futebol. Ou seja, existe algum discrepância entre as fontes, mas que pode ter uma justificativa plausível. Porém é praticamente impossível avaliar a qualidade das informações para todas as federações.

Extraindo dados de um PDF

Quem já trabalhou com dados gravados em tabelas dentro de um arquivo no formato pdf sabe a dificuldade que é para importar os dados para o R. A dificuldade ocorre porque muitas vezes os dados ficam corrompidos, linhas e colunas se perdem. Se você já tentou manualmente copiar e colar tabelas do pdf para o excel, provavelmente já sentiu na pele problemas similares.

Depois do lançamento do pacote tabulizer, baseado na ferramenta tabula para extração de tabelas contidas dentro de arquivos pdf, essa tarefa ficou mais fácil. Porém ainda apresenta várias dificuldades. Se puder evitar qualquer tabela em pdf, evite. Erros não detectados, tabelas mal-formadas e muitos ajustes manuais são inevitáveis.

Ao extrair tabelas em pdf, é sempre necessário checar os dados sendo extraídos. No pacote tabulizer existem dois métodos básicos de extração de tabela: lattice e stream. Usualmente é uma boa ideia extrair os dados usandos os 2 métodos e comparar os dados obtidos. A estratégia que utilizei abaixo foi extrair apenas a primeira tabela do arquivo, e comparar os métodos. Depois criei uma função pra cada caso, que transforma a tabela extraída num formato compatível entre os dois métodos. Depois comparo os dois resultados finais pra ver onde houveram discrepâncias. Depois disso utilizo alguns ajustes manuais pra criar a base de dados final.

Para extrair a primeira tabela do pdf, utilizando o método lattice utilize o código abaixo.

url <- "https://resources.fifa.com/image/upload/big-count-summary-report-association-520044.pdf?cloudid=vrnjcgakvf7nds6sl5rx"
td = tempdir()
file.data = tempfile(tmpdir=td, fileext=".pdf")
download.file(url,file.data,method="curl")

require(tidyverse)
require(tabulizer)
tab <- extract_tables(file.data, method="lattice", pages = 1)
Os resultados dessa extração são mostrados na tabela 1 (retirei a primeira linha para ficar mais claro). A primeira vista, tudo parece ok. Mas note que nas linhas 6 e 8 (destacadas em vermelho), os dados estão errados na coluna V2. Além disso, a coluna V7 está em branco (destacada em amarelo). Esses tipos de erro são muito comuns ao extrair tabelas de um pdf.


Table 1: Tabela extraída com o método Lattice.
V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 V11 V12 V13 V14 V15 V16 V17 V18
AFG - Afghanistan Football Federation 31056997 526781 1.70 526441 340 0 4928 13188 1665 0 4000 100 45 224 500* 1
AIA - Anguilla Football Association 13477 1597 11.85 1160 437 10 230 662 0 0 195 7 63 11 16 4
ALB - The Football Association of AFlubtasnaila 3581655 164730 4.60 149730 15000 550 38800 14000 380 0 34000* 1200 5000 440* 574 16*
ALG - Fédération Algérienne de Football 32930091 1790200 5.44 1719100 71100 300 138800* 64800 0 0 248300* 1700* 22800* 2090* 2560* 0
AND - Federació Andorrana de Fútbol 71201 5037 7.07 4681 356 0 804 1366 867 0 700 52 116 26 34 1*
ANG - Federaçao Angolana de FutYeobuotlh (u der 1182)127071 664690 5.48 634090 30600 0 5240 10800 400* 0 36250 259 1800 100 500 3
ANT - Nederlands Antilliaanse Voetbal Unie 221736 4220 1.90 3940 280 0 780 980 60 0 2400* 42 320 40 75 1*
ARG - Asociación del Fútbol ArgenAtimnoateur (18 a3n9d9 2o1v8e3r)3 2658811 6.66 2349811 309000 3530 88090 231196 8975 20 1225000* 3340 33821 3348 23623 29
ARM - Football Federation of Armenia 2976372 151353 5.09 136212 15141 656 37228 2915 654 0 37900* 134 4810 80 178 3
ARU - Arubaanse Voetbal Bond 71891 10700 14.88 9900 800 0 2400 3500 0 0 1000 26* 100* 60* 140* 2*
ASA - American Samoa Football Professi Association nals57794 3248 5.62 2406 842 0 810 1000 228 0 410 102 135 27 33 6
ATG - Antigua/Barbuda Football Association 69108 6600 9.55 6000 600 0 1100 1100 0 0 800 33 100 20* 60* 1*
AUS - Football Federation Australia Limited 20264082 970728 4.79 781246 189482 200 107013 299775 23740 5000 338000 8650 58982 2316 29018 1552
AUT - Österreichischer Fussball-Bund 8192880 967281 11.81 912580 54701 906 370828 221547 3000 0 260000 2302 390500 2211 9685 100
AZE - Association of Football FedeMraatlieons of Azerbaijan 7961619 306370 3.85 267900 38470 400 3150* 14120 2000 0 82700* 100 12900* 80* 320 3*
BAH - Bahamas Football Association 303770 17944 5.91 14536 3408 0 820 1652 72 0 2400* 36 230 34 111 7
BAN - Bangladesh Football Federation 147365352 6280300 4.26 6070200 210100 0 98980 172320 0 0 5815000 4304 71300 4100 8200 0


Para extrair a primeira tabela do pdf, utilizando o método stream, utilize o mesmo código, apenas alterando o método para method=“stream”. Note que os dados extraídos dessa vez, na tabela 2 (retirei as primeiras linhas para ficar mais claro), são um pouco diferentes, principalmente porque o dataframe extraído tem duas colunas a menos. As primeiras 2 colunas acabaram ficando misturadas de alguma forma, e a coluna V7 da tabela 1 que estava em branco foi removida. Além disso, diversas linhas extras foram inseridas na base, pois por algum motivo linhas muito longas da coluna V1 foram separadas em duas linhas.


Table 2: Tabela extraída com o método Stream.
V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 V11 V12 V13 V14 V15 V16
AFG - Afghanistan Football Federation 31056997 526781 1.70 526441 340 0 4928 13188 1665 0 4000 100 45 224 500* 1
AIA - Anguilla Football Association 13477 1597 11.85 1160 437 10 230 662 0 0 195 7 63 11 16 4
ALB - The Football Association of AFlubtasnaila 3581655 164730 4.60 149730 15000 550 38800 14000 380 0 34000* 1200 5000 440* 574 16*
ALG - Fédération Algérienne de Football 32930091 1790200 5.44 1719100 71100 300 138800* 64800 0 0 248300* 1700* 22800* 2090* 2560* 0
AND - Federació Andorrana de Fútbol 71201 5037 7.07 4681 356 0 804 1366 867 0 700 52 116 26 34 1*
ANG - Federaçao Angolana de FutYeobuotlh (under 1182)127071 664690 5.48 634090 30600 0 5240 10800 400* 0 36250 259 1800 100 500 3
ANT - Nederlands Antilliaanse Voetbal 221736 4220 1.90 3940 280 0 780 980 60 0 2400* 42 320 40 75 1*
Unie
ARG - Asociación del Fútbol ArgenAtimnoateurs (18 a3n9d9 2o1v8e3r)3 2658811 6.66 2349811 309000 3530 88090 231196 8975 20 1225000* 3340 33821 3348 23623 29
ARM - Football Federation of Armenia 2976372 151353 5.09 136212 15141 656 37228 2915 654 0 37900* 134 4810 80 178 3
ARU - Arubaanse Voetbal Bond 71891 10700 14.88 9900 800 0 2400 3500 0 0 1000 26* 100* 60* 140* 2*
ASA - American Samoa Football Professionals 57794 3248 5.62 2406 842 0 810 1000 228 0 410 102 135 27 33 6
Association
ATG - Antigua/Barbuda Football 69108 6600 9.55 6000 600 0 1100 1100 0 0 800 33 100 20* 60* 1*
Association
FemaleAUS - Football Federation Australia 20264082 970728 4.79 781246 189482 200 107013 299775 23740 5000 338000 8650 58982 2316 29018 1552
Limited
AUT - Österreichischer Fussball-Bund 8192880 967281 11.81 912580 54701 906 370828 221547 3000 0 260000 2302 390500 2211 9685 100
AZE - Association of Football FedeMraatlieons 7961619 306370 3.85 267900 38470 400 3150* 14120 2000 0 82700* 100 12900* 80* 320 3*
of Azerbaijan
BAH - Bahamas Football Association 303770 17944 5.91 14536 3408 0 820 1652 72 0 2400* 36 230 34 111 7
BAN - Bangladesh Football Federation 147365352 6280300 4.26 6070200 210100 0 98980 172320 0 0 5815000 4304 71300 4100 8200 0


Analisando os dados obtidos ao extrair a primeira tabela do pdf com os 2 métodos, criei as funções abaixo (formatar_lattice e formatar_stream) para ajustar os dados obtidos por cada método para obter uma base de dados compatível. Pra criar essas funções fiz muitas tentativas diferentes, ajustando pequenos detalhes, até chegar a versão final. Claro que o código poderia ser melhorado, porém para o objetivo à que se propõem são suficientes.


formatar_lattice <- function(df,nomes,corte=3){
  
  df <- as_tibble(df)
  df$pais <- str_extract(df$V1,"[A-Z]{3}")
  df <- df %>% filter(!(is.na(pais)))
  aux <- map_lgl(df,~ sum(. == "") <= corte)
  df <- df[,aux] %>% set_names(c(nomes,"pais"))
  df <- df %>% mutate_at(vars(-federacao,-pais),list(~as.numeric(str_replace_all(.,'[^.0-9]',''))))
  df <- df %>% filter(!is.na(pop))
  
  return(df)
  
}

formatar_stream <- function(df,nomes,corte=3){
  
  if (ncol(df) == 16){
    nomes <- setdiff(nomes,'pop')
  }
  
  df <- as_tibble(df)
  df$pais <- str_extract(df$V1,"[A-Z]{3}")
  df <- df %>% filter(!(is.na(pais)))
  aux <- map_lgl(df,~ sum(. == "") <= corte)
  df <- df[,aux] %>% set_names(c(nomes,"pais"))
  df <- df %>% mutate_at(vars(-federacao,-pais),list(~as.numeric(str_replace_all(.,'[^.0-9]',''))))

  if (!("pop" %in% names(df))){
    df$pop <- as.numeric(str_extract(df$federacao,"[0-9]*$"))
    df$federacao <- str_replace(df$federacao,"[0-9]*$","")
  }
  
  return(df)
  
}


Independentemente do método utilizado, cada tabela extraída terá o formato da tabela 3. A ideia é que possamos comparar diretamente o resultado da extração dos dados utilizando os dois métodos.


Table 3: Tabela formatada
federacao jogadores perc_pop homens mulheres profissionais amadores jovens futsal futpraia outros juizes tecnicos clubes times clubes_feminino pais pop
AFG - Afghanistan Football Federation 526781 1.70 526441 340 0 4928 13188 1665 0 4000 100 45 224 500 1 AFG 31056997
AIA - Anguilla Football Association 1597 11.85 1160 437 10 230 662 0 0 195 7 63 11 16 4 AIA 13477
ALB - The Football Association of AFlubtasnaila 164730 4.60 149730 15000 550 38800 14000 380 0 34000 1200 5000 440 574 16 ALB 3581655
ALG - Fédération Algérienne de Football 1790200 5.44 1719100 71100 300 138800 64800 0 0 248300 1700 22800 2090 2560 0 ALG 32930091
AND - Federació Andorrana de Fútbol 5037 7.07 4681 356 0 804 1366 867 0 700 52 116 26 34 1 AND 71201
ANG - Federaçao Angolana de FutYeobuotlh (under 1182) 664690 5.48 634090 30600 0 5240 10800 400 0 36250 259 1800 100 500 3 ANG 127071
ANT - Nederlands Antilliaanse Voetbal 4220 1.90 3940 280 0 780 980 60 0 2400 42 320 40 75 1 ANT 221736
ARG - Asociación del Fútbol ArgenAtimnoateurs (18 a3n9d9 2o1v8e3r) 2658811 6.66 2349811 309000 3530 88090 231196 8975 20 1225000 3340 33821 3348 23623 29 ARG 3
ARM - Football Federation of Armenia 151353 5.09 136212 15141 656 37228 2915 654 0 37900 134 4810 80 178 3 ARM 2976372
ARU - Arubaanse Voetbal Bond 10700 14.88 9900 800 0 2400 3500 0 0 1000 26 100 60 140 2 ARU 71891
ASA - American Samoa Football Professionals 3248 5.62 2406 842 0 810 1000 228 0 410 102 135 27 33 6 ASA 57794
ATG - Antigua/Barbuda Football 6600 9.55 6000 600 0 1100 1100 0 0 800 33 100 20 60 1 ATG 69108
FemaleAUS - Football Federation Australia 970728 4.79 781246 189482 200 107013 299775 23740 5000 338000 8650 58982 2316 29018 1552 AUS 20264082
AUT - Österreichischer Fussball-Bund 967281 11.81 912580 54701 906 370828 221547 3000 0 260000 2302 390500 2211 9685 100 AUT 8192880
AZE - Association of Football FedeMraatlieons 306370 3.85 267900 38470 400 3150 14120 2000 0 82700 100 12900 80 320 3 AZE 7961619
BAH - Bahamas Football Association 17944 5.91 14536 3408 0 820 1652 72 0 2400 36 230 34 111 7 BAH 303770
BAN - Bangladesh Football Federation 6280300 4.26 6070200 210100 0 98980 172320 0 0 5815000 4304 71300 4100 8200 0 BAN 147365352


Agora o próximo passo é extrair todas as tabelas com os dois métodos e depois comparar os resultados. No código abaixo estou usando algumas funções dos pacotes purrr e dplyr, mas não vou entrar em detalhes sobre elas pois já existem muitos tutoriais sobre as mesmas.


#tabelas lattice
tabs_lattice <- extract_tables(file.data,method = "lattice")
dados_lattice <- map(tabs_lattice,~formatar_lattice(.,nomes))
dados_lattice <- reduce(dados_lattice,bind_rows)
dados_lattice <- dados_lattice %>% select(federacao,pais,pop,everything())

#tabelas stream
tabs_stream <- extract_tables(file.data,method = "stream")
dados_stream <- map(tabs_stream,~formatar_stream(.,nomes))
dados_stream <- reduce(dados_stream,bind_rows)
dados_stream <- dados_stream %>% select(federacao,pais,pop,everything())

#comparacao
dados.check <- map2_df(dados_lattice,dados_stream,~sum(!(.x == .y),na.rm = TRUE))


O resultado da comparação pode ser visto na tabela 4. Fica claro que existem muitas diferenças na coluna federacao e somente duas diferenças na coluna pop. As outras colunas estão idênticas.


Table 4: Diferenças observadas entre os métodos
federacao pais pop jogadores perc_pop homens mulheres profissionais amadores jovens futsal futpraia outros juizes tecnicos clubes times clubes_feminino
78 0 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0


Vamos ignorar a coluna federacao pois ela não será utilizada na análise. Porém teremos que corrigir manualmente a coluna pop com o código abaixo, pois a população dos países ANG e ARG não conseguiu ser corretamente extraída por nenhum dos dois métodos. Todas as outras variáveis estão corretas. A estratégia apresentada aqui é útil para reduzir o número de comparações manuais necessárias, mas mesmo assim elas tem que ser feitas. Até onde eu sei, não há uma forma totalmente segura, automatizada, de extrair dados de um arquivo em formato pdf, pois depende muito de como foi gerado o arquivo em questão. Cada caso é um caso. Sempre é necessário verificar os resultados!


dados <- dados_lattice
dados$pop[dados$pais == "ANG"] <- 12127071
dados$pop[dados$pais == "ARG"] <- 39921833


Minha intuição sobre a quantidade de praticantes de futebol no mundo estava mais ou menos certa. Analisando os dados da pesquisa mostrados na tabela 5, fica claro que existem alguns países com mais praticantes de futebol do que o Brasil, porém no Brasil é onde há mais jogadores profissionais no mundo. Também é interessante notar nessa tabela que a proporção de praticantes de futebol na Alemanha é muito grande, próxima a 20% da população, muito maior do que no Brasil, onde é em torno de 7%. O único país com uma proporção maior do que a Alemanhã é a Costa Rica, onde 26% da população pratica o futebol. Para quem tiver interesse, nesse link vários mapas mundiais foram feitos utilizando estatísticas dessa pesquisa.

Table 5: Os 10 países com mais praticantes de futebol (em 2006)
Sigla País População Praticantes Profissionais
CHN China PR 1.313.973.713 26.166.335 2.239
USA United States 298.444.215 24.472.778 1.513
IND India 1.095.351.995 20.587.900 400
GER Germany 82.422.299 16.308.946 864
BRA Brazil 188.078.227 13.197.733 16.200
MEX Mexico 107.499.525 8.479.595 4.593
IDN Indonesia 245.452.739 7.094.260 800
NGA Nigeria 131.859.731 6.653.710 2.440
RUS Russian Federation 142.893.540 5.802.536 3.724
ITA Italy 58.133.509 4.980.296 3.541

O país do futebol é…

Qual critério utilizar para avaliar qual país é mais eficiente no jogo de futebol é subjetivo. A ideia principal é fazer um ranking, baseado na taxa de títulos mundiais por jogador profissional. Mas poderíamos considerar também participações em finais da Copa do Mundo ao invês de títulos, pois muito poucos países conseguiram ganhar uma Copa. Também poderíamos considerar praticantes de futebol ao invês de jogadores de futebol, pois todo praticante de futebol poderia ser visto como um potencial jogador profissional. Apesar de similares conceitualmente, existem algumas diferenças importantes entre essas taxas.

É importante enfatizar que esse ranking do futebol tem vários problemas, então não deve ser levado muito a sério. Além dos problemas com os dados, conceitualmente existem outros problemas. O principal problema são as diferentes dinâmicas populacionais, que se alteraram ao longo dos últimos 90 anos, período em que a Copa do Mundo é disputada. Ou seja, quando cada Copa foi disputada, a quantidade de jogadores profissionais em cada país era bem diferente. Além disso, a questão da participação feminina no futebol também é bastante relevante, com Copas do Mundo femininas sendo disputadas apenas desde 1991.

Nesse post vou considerar o denominador como sendo o número de jogadores profissionais. Acredito que o número de jogadores profissionais é mais importante para medir o potencial do país do que o número de praticantes, principalmente porque é uma forma de também levar em conta a infra-estrutura e a quantidade de clubes existentes no país. É como se o número de praticantes fosse a taxa bruta, e o número de jogadores a taxa líquida.

Quanto ao numerador da taxa, vou analisar apenas títulos mundiais. Além de ser uma medida mais simples, ao considerar finais não aumentamos muito o número de países considerados. Num primeiro momento, também não farei distinção entre homens e mulheres, até porque na base de dados da pesquisa não existe essa distinção entre os jogadores profissionais.

Assim, a taxa que vamos considerar será o percentual de títulos conquistados, dividido pelo percentual de jogadores profissionais: \(\frac{perc.titulos}{perc.profissionais}\). Ambos os percentuais são calculados com relação ao conjunto de todos os outros países. Ou seja, se um país possui 5% dos jogadores profissionais do mundo, esperamos que ganhe 5% dos títulos mundiais. Uma taxa maior que 1 indica que aquele país têm uma performance melhor do que esperada, levando em consideração apenas o seu estoque de jogadores profissionais. Uma taxa de 2, por exemplo, indica que aquele país ganhou 2 vezes mais do que o esperado. Na tabela 6 mostramos o ranking dos países que conquistaram algum título mundial. O Brasil aparece em penúltimo lugar, com uma taxa de apenas 1,2. Ou seja, o Brasil ganhou apenas 0,2 vezes mais do que o esperado. Já a Alemanha, em primeiro lugar, ganhou 27 vezes mais do que o esperado.

Table 6: Ranking dos países (Masculino+Feminino)
Código País Profissionais Títulos Tit. % Prof. % Taxa Ranking
GER Germany 864 6 20.7% 0.8% 27.1 1
USA United States 1513 4 13.8% 1.3% 10.3 2
URU Uruguay 1100 2 6.9% 1% 7.1 3
ITA Italy 3541 4 13.8% 3.1% 4.4 4
FRA France 1825 2 6.9% 1.6% 4.3 5
JPN Japan 976 1 3.4% 0.9% 4.0 6
NOR Norway 1000 1 3.4% 0.9% 3.9 7
ESP Spain 1331 1 3.4% 1.2% 2.9 8
ARG Argentina 3530 2 6.9% 3.1% 2.2 9
BRA Brazil 16200 5 17.2% 14.3% 1.2 10
ENG England 6110 1 3.4% 5.4% 0.6 11

Como o Brasil ganhou sua fama de ser o país de futebol antes das mulheres participarem do jogo, vamos tentar fazer o mesmo ranking considerando apenas os homens. Além das diversas suposições já feitas no ranking anterior, teremos que fazer mais uma suposição. Como a base de dados não informa o número de jogadores profissionais homens, iremos estimar esse número como sendo proporcional ao números de clubes com times masculinos2. Por exemplo, no caso do Brasil, estamos supondo que 99% dos jogadores profissionais são homens. No caso dos EUA, essa proporção é 55%. Na tabela 7 mostramos o ranking dos países levando em consideração apenas o futebol masculino. Apesar da taxa do Brasil aumentar para 1,6, continuamos em penúltimo no ranking dos campeões.

Table 7: Ranking dos países (apenas Masculino)
Código País Profis. Masc. Títulos Masc. Tit. % Prof. % Taxa Ranking
GER Germany 835 4 19% 0.8% 24.1 1
URU Uruguay 1091 2 9.5% 1% 9.2 2
ITA Italy 3420 4 19% 3.2% 5.9 3
FRA France 1712 2 9.5% 1.6% 5.9 4
ESP Spain 1324 1 4.8% 1.3% 3.8 5
ARG Argentina 3500 2 9.5% 3.3% 2.9 6
BRA Brazil 16068 5 23.8% 15.2% 1.6 7
ENG England 5752 1 4.8% 5.5% 0.9 8

Se fizermos o ranking masculino utilizando como denominador o número de praticantes de futebol, o ranking se altera consideravelmente. A Alemanha passa ao 7º lugar do ranking com uma taxa de 2,75, e o Brasil sobe para o 5º posto, com uma taxa de 4,2. Nesse ranking, o campeão é o Uruguai, com uma taxa de 92. Essa enorme diferença entre os rankings ocorre por causa da grande diferença entre os percentuais relativos de praticantes e jogadores profissionais de futebol. A correlação entre essas duas variáveis é de apenas 0,35.

Análise dos dados

A base de dados utilizada na análise dos resultados é a mesma criada na seção dados, porém com a adição do número de títulos de copas do mundo (feminino e masculino), e do nome dos paises. Não mostrarei como essas informações foram adicionadas a base, porém a base de dados final, no formato rds pode ser baixada aqui. O código abaixo pode ser utilizado pra criar a base de análise na seção ativa do R. No mesmo code chunck está o código para criar os ranking discutidos no post.


url <- "http://www.pollingdata.com.br/blog/jogadores futebol - 12-08-2019/copas.rds"
td = tempdir()
file.data = tempfile(tmpdir=td, fileext=".rds")
download.file(url,file.data,method="curl")

df.copas <- readRDS(file.data)

#total - profissionais
df.copas$perc_tit <- df.copas$titulo / sum(df.copas$titulo,na.rm = TRUE)
df.copas$perc_prof <- df.copas$profissionais / sum(df.copas$profissionais,na.rm = TRUE)
df.copas$taxa <- round(df.copas$perc_tit / df.copas$perc_prof,1)
df.copas <- df.copas %>% arrange(desc(taxa))
df.copas$rank <- 1:nrow(df.copas)
df.copas.tot <- df.copas %>% filter(perc_tit > 0)
df.copas.tot <- df.copas.tot %>% mutate_at(vars(perc_tit,perc_prof),list(~paste0(round(100*.,1),"%")))
df.copas.tot <- df.copas.tot %>% select(pais,nome,profissionais,titulo,perc_tit,perc_prof,taxa,rank)

#masculino  - profissionais
df.copas$profissionais.m <- round(df.copas$profissionais * (df.copas$clubes / (df.copas$clubes_feminino + df.copas$clubes)),0)
df.copas$perc_tit <- df.copas$titulo.m / sum(df.copas$titulo.m,na.rm = TRUE)
df.copas$perc_prof <- df.copas$profissionais.m / sum(df.copas$profissionais.m,na.rm = TRUE)
df.copas$taxa <- round(df.copas$perc_tit / df.copas$perc_prof,1)
df.copas <- df.copas %>% arrange(desc(taxa))
df.copas$rank <- 1:nrow(df.copas)
df.copas.masc <- df.copas %>% filter(perc_tit > 0)
df.copas.masc <- df.copas.masc %>% mutate_at(vars(perc_tit,perc_prof),list(~paste0(round(100*.,1),"%")))
df.copas.masc <- df.copas.masc %>% select(pais,nome,profissionais.m,titulo.m,perc_tit,perc_prof,taxa,rank)

#masculino  - praticantes
df.copas$perc_tit <- round(100*df.copas$titulo.m / sum(df.copas$titulo.m,na.rm = TRUE),3)
df.copas$perc_jog <- round(100*df.copas$homens / sum(df.copas$homens,na.rm = TRUE),3)
df.copas$taxa <- df.copas$perc_tit / df.copas$perc_jog
df.copas <- df.copas %>% arrange(desc(taxa))
df.copas$rank <- 1:nrow(df.copas)
df.copas.masc2 <- df.copas %>% filter(perc_tit > 0)
df.copas.masc2 <- df.copas.masc2 %>% mutate_at(vars(perc_tit,perc_jog),list(~paste0(round(100*.,1),"%")))
df.copas.masc2 <- df.copas.masc2 %>% select(pais,nome,profissionais.m,titulo.m,perc_tit,perc_prof,taxa,rank)


Por causa dessas diferenças, não é claro qual indicador deve ser utilizado. Além disso foram feitas muitas suposições para chegar aos rankings, e os dados são antigos e não muito confiáveis. Ou seja, há muita incerteza cercando o tema. Porém um fato é claro: todas as análises indicam que o Brasil não é o país do futebol!


  1. Também podemos argumentar que o país do futebol deveria estimular a participação feminina em todos os âmbitos do futebol.

  2. Estou supondo que todos os clubes na base de dados têm times masculinos. Assim, a estimativa dessa proporção para cada país será dada por \(\frac{clubes}{clubes+clubes.feminino}\).

Voltar ao blog

Especialistas em pesquisas de opinião pública e amostragem.

Prestamos consultoria em estatística. Entre em contato com a gente...

Consultoria