post-image

A Estatística é preconceituosa?


Nesse post discutiremos se a Estatística é preconceituosa. Mostraremos alguns exemplos de uso da estatística para ilustrar a discussão.

Introdução

O objetivo desse post é discutir a questão da natureza possivelmente preconceituosa da estatística. Desde que re-comecei a escrever meus posts, a questão do possível preconceito da Estatística têm me incomodado cada vez mais. Tenho refletido bastante sobre isso. Percebo que depois de quase todo post que eu escrevo, o tema ressurge na minha cabeça. Não é fácil para eu discutí-lo; é bastante pessoal. Diz respeito à profissão que eu exerço desde 1998. Eu não quero ser preconceituoso, porém se a minha profissão é, e tenho aplicado suas técnicas para decidir como agir por décadas, o que isso diz de mim? E de todos os meus colegas estatísticos? E de todos os usuários de estatística?

Antes de continuar a discussão, é importante definir com clareza o que queremos dizer por preconceito e discriminação. Usarei aqui a definição do site Diferença:

“O preconceito é uma opinião feita de forma superficial em relação a determinada pessoa ou grupo, que é baseada em estereótipos, não em uma experiência real ou na razão. A discriminação refere-se ao tratamento injusto ou negativo de uma pessoa ou grupo, por ela pertencer a certo grupo (como etnia, idade ou gênero). É o preconceito em forma de ação.”

Isto posto, preconceito está associado a agrupar pessoas, e discriminar está associado a tratar pessoas de um grupo de forma diferente, normalmente injusta, pois elas pertencem a esse grupo. A razão porque a questão do preconceito aparece recorrentemente quando usamos estatística é que a forma como a estatística funciona é, em grande parte, agrupando pessoas. Isso ocorre porque não conseguimos prever como um indivíduo vai se comportar1; porém conseguimos prever com bastante precisão como, em média, um grupo de indivíduos irá se comportar.

Nós estatísticos somos especialistas em agrupar pessoas. Durante séculos, técnicas estatísticas foram desenvolvidas justamente para agrupar pessoas de forma eficiente. Quase tudo na estatística gira em torno de médias, e na grande maioria das vezes, as médias se referem a um grupo de pessoas. Não é sempre que informações pessoais, que permitem identificar as pessoas como indivíduos, são coletadas. E mesmo quando são, o primeiro passo de qualquer análise de dados é ignorar essas informações pessoais (por exemplo nome, RG ou CPF), pois geralmente as pessoas são analisadas como sendo parte de algum grupo, não como indivíduos.

Apesar do fato de que as estatísticas serem relativas a um grupo de pessoas, elas podem ser utilizadas para prever o comportamento de um indivíduo. E é justamente nesse contexto onde reside o perigo real da Estatistica ser utilizada de forma discriminatória. Tal uso surge em função do grupo específico ao qual a pessoa foi associada e a maneira que utilizamos essa informação para decidir como agir com relação aos indivíduos que pertencem ao grupo.

Modelos estatísticos

Apesar de trabalhar a muitos anos na área de Estatística, até hoje eu acho difícil encontrar uma definição que representa corretamente o significado abrangente do termo. Para mim, a Estatística é, essencialmente, uma forma de transformar dados em informação. Entretanto, esta definição não engloba todos os diversos aspectos da profissão. No dicionário de Estatística de Oxford (Upton and Cook 2006), a Estatística é definida como sendo a “Ciência de coletar, visualizar e analisar dados”. Para o objetivo desse post, tal definição é suficiente.

Nesta discussão estamos preocupados somente com a parte analítica da estatística, a qual é comummente separada em duas partes: inferência e previsão. Inferência se refere a generalizar os resultados de uma amostra (pequena parcela da população) de forma que eles representem toda a população; previsão se refere a prever características e/ou comportamentos de grupos ou indivíduos.

Tanto para fazer inferência quanto previsão, é muito comum a utilização de modelos estatísticos. Modelos são a descrição da estrutura que supõem-se gerou (ou poderia ter gerado) o conjunto de dados sendo analisado. Esta descrição geralmente é um expressão matemática formal de um processo gerador dos dados. Modelos simplificam nossa visão do mundo, e são utilizados porque ajudam na compreensão dos dados. No caso de inferência, os modelos são utilizados para descrever a população sendo estudada; já no caso de previsão, os modelos são utilizados para prever o comportamento de unidades não presentes na amostra (novos casos).

Aqui discutiremos apenas situações onde a estatística é utilizada para mensurar características, atitudes ou opiniões de pessoas. As variáveis consideradas no modelo dependem do processo sendo modelado, como também da disponibilidade de informações. Por exemplo, em pesquisas eleitorais, modela-se a chance de uma pessoa votar em função de variáveis sócio-demográficas e políticas; em instituições financeiras, modela-se a chance de uma pessoa pagar suas contas em dia em função de variáveis sócio-demográficas e do histórico de pagamentos; em seguradoras, modela-se a chance de um sinistro2 ocorrer em função de variáveis sócio-demográficas e comportamentais.

Como visto nos exemplos acima, na maioria dos casos são utilizadas variáveis sócio-demográficas (como estado de residência, sexo, idade, escolaridade, situação trabalhista e renda), pois estas informações são comummente disponíveis. Essa é uma das grandes limitações dos modelos estatísticos: só é possível utilizar as informações disponíveis. Muitas vezes informações que são fundamentais para explicar um processo não são conhecidas ou mensuráveis; então não podem ser utilizadas no modelo. As variáveis que são conhecidas e podem ser utilizadas no modelo são chamadas de variáveis endógenas; já variáveis que não são utilizadas porque não foram mensuradas são denomindas exógenas.

De acordo com um modelo estatístico, todas as pessoas que possuem as mesmas características mensuradas nas variáveis endógenas serão classificadas igualmente, ignorando o fato de que as variáveis exógenas desses indivíduos podem ser diferentes. Para o modelo estatístico, é como se as variáveis exógenas não existissem. Fica claro então que todo modelo estatístico está, em algum sentido, agrupando pessoas de acordo somente com as variáveis endógenas.

Os modelos considerados neste post são utilizados para explicar uma variável \(Y\), usando outras variáveis explicativas \(\mathbf{X}\). Esses modelos podem ser representados pela equação \(Y = f(\mathbf{X}) + Erro\), onde a função \(f\) pode ter diversos formatos. Esta equação deixa claro que as variáveis \(\mathbf{X}\) explicam uma parte do comportamento da variável \(Y\), mas não tudo. Pode-se argumentar que o erro é a parte do modelo que seria explicada pelas variáveis exógenas.

Os modelos estatísticos são criados de forma a minimizar o erro. Diferentes critérios de erro podem ser escolhidos; porém, dado esta escolha, e supondo que apenas as variáveis endógenas são conhecidas, o modelo é estimado para explicar da melhor maneira possível a variável \(Y\) usando as variáveis \(\mathbf{X}\)3. A existência do termo de erro deixa explícito que é fundamental avaliar o grau de erro cometido pelo modelo.

Previsão estatística e o preconceito

Existem várias razões para tentar prever uma variável \(Y\) em função das variáveis \(\mathbf{X}\). Geralmente a variável \(Y\) é mais complexa, pode envolver comportamentos futuros ou ser de difícil mensuração, enquanto as variáveis \(\mathbf{X}\) são de fácil obtenção. Uma estratégia comum é utilizar uma base de dados completa, que tenha a variável \(Y\) e as variáveis \(\mathbf{X}\), para estimar uma função \(f\). Posteriormente, pode-se utilizar este modelo estimado para prever a variável \(Y\) para outra base de dados que inclue apenas as variáveis \(\mathbf{X}\).

No exemplo das seguradoras citado na seção anterior, é possível estimar um modelo baseado na base histórica de sinistros. Ou seja, uma seguradora tem registro das informações sócio-demográficas e comportamentais de todos os seus clientes. Além disso, também tem informações sobre todos os sinistros que ocorreram. Assim é possível estimar um modelo que reflete a importância de cada variável sócio-demográfica e comportamental para prever a ocorrência de um sinistro. Nesse exemplo, a importância relativa das variáveis está contida na função \(f\) estimada. Quando um novo cliente quer fazer um seguro, a seguradora não sabe qual a chance desse cliente em específico cometer um sinistro, ou seja, não sabe qual é a variável \(Y\) do potencial cliente. Porém essa informação seria importante para entender o risco que a seguradora correria com esse cliente, e para determinar qual deve ser o valor da apólice de seguro. Como a seguradora conhece todas as variáveis \(\mathbf{X}\) do novo cliente, pois elas estão no seu cadastro, ela pode utilizar essas informações combinadas com a função \(f\) previamente estimada para estimar a chance do cliente cometer um sinistro. Ou seja, estima-se \(Y\), valor esse que por sua vez é utilizado para determinar o preço da apólice de seguro para o novo cliente.

Neste exemplo fica claro que mesmo sem conhecer uma informação importante de um futuro cliente (\(Y\)), a previsão estatística permite que esse valor seja estimado. A quantificação desse valor é feita de forma preconceituosa pois projeta para esse cliente o comportamento de outros clientes com o mesmo perfil em relação às variáveis endógenas (que determinan quem pertence ao mesmo grupo). Apesar dessa estimativa ser preconceituosa, do ponto de vista da empresa, é a melhor forma de quantificar sua incerteza dado a falta de informação, e assim reduzir seus riscos. Se no exemplo acima o seguro for de veículos, é comum cobrar mais de um novo cliente que seja homem com menos de 24 anos de idade. Esse valor mais alto é definido não com base nas atitudes do novo cliente, mas pelo simples fato de que, historicamente, clientes com esse perfil cometem mais sinistros.

No contexto de preconceito na previsão estatística, é interessante tentar quantificar o quão preconceituoso estamos sendo ao fazer essas previsões. Pode-se argumentar que quanto melhor for o modelo, menos preconceituoso ele é. Ou seja, se o modelo fosse perfeito, e não existissem variáveis exógenas, teria erro zero e suas previsões seriam sempre corretas; assim não haveria preconceito nas estimativas. Por outro lado, se o modelo for muito ruim (existem muitas variáveis exógenas não consideradas) e errar quase todas as previsões, as estimativas obtidas seriam muito preconceituosas.

Para simplificar a discussão, vamos considerar apenas o caso onde a variável \(Y\) é categórica, podendo assumir apenas os valores sim e não. Por exemplo, ela pode indicar se uma pessoa cometeu um crime ou não, se cometeu sinistro ou não ou se votou numa eleição ou não. Existem muitas medidas que podem ser utilizadas para avaliar a qualidade de um modelo, mas neste post nos limitaremos a discutir uma estatística denominada de precisão (em inglês accuracy). Para avaliar a precisão de um modelo, é preciso considerar tanto os erros quantos os acertos da previsão. Um modelo que erra 1 vez em 5 é muito pior do que um modelo que erra 1 vez em 1000. Na tabela 1 mostramos as possibilidades dessa classificação: as linhas representam a situação real da pessoa, e as colunas a previsão. O conteúdo das células representa a abreviação utilizada para indicar as pessoas naquela situação. A cor das letras nas células indica a concordância entre a previsão e realidade, com verde identificando o acerto da previsão, e vermelho indicando um erro.

Table 1: Precisão da previsão
Previsão
Sim Não
Realidade Sim SS NS
Realidade Não SN NN

Nesse contexto, a precisão é definida como o percentual de vezes que o modelo acertou a classificação dividido pelo total de classificações feitas, ou seja, o percentual de vezes que o modelo acertou. Formalmente, a precisão é definida como:

\[Precisão\ =\ \frac{SS+NN}{SS+NS+SN+NN}.\]

Um Exemplo

Há algumas semanas escrevi um post sobre o projeto de lei (PL 1.174/2019) que restringeria às profissionais mulheres os cuidados íntimos de crianças na Educação Infantil, tais como trocar fralda, dar banho e ajudar a ir ao banheiro. A lógica do projeto de lei, ao impedir que profissionais do sexo masculino possam auxiliar crianças com tais cuidados íntimos, é que nesse cenário o cuidador estaria sozinho com a criança, a qual está mais exposta do que normalmente. Como, de acordo com o Sistema de Informação de Agravos de Notificação (Sinan Net), 92% dos casos de violência sexual são cometidos por homens, se TODOS eles forem impedidos de interagir com crianças nessas situações, pressupõem-se que centenas de casos de violência sexual seriam evitados.

Entretanto, esse projeto de lei propõem utilizar um modelo estatístico muito simples, que contém apenas uma variável endógena, sexo, para prever se uma pessoa cometeria violência sexual. Para calcular a precisão desse modelo, conforme discutido na seção anterior, vamos utilizar uma árvore de freqüência, como na figura 1. Nessa árvore calculamos o número de pessoas de cada sexo levando em consideração se já cometeram ou não uma violência sexual, utilizando dados do mesmo Sinan Net e da Pesquisa Nacional por Amostragem (PNAD), do Instituto Brasileiro de Geografia e Estatística (IBGE) de 2017. Esses dados são descritos com detalhes nesse post, e foram utilizados para desenhar o gráfico abaixo. Na penúltima coluna mostramos o número de pessoas em cada um dos quatro grupos principais: Homens que cometeram (SS) e que não cometeram violência sexual (SN); e Mulheres que cometeram (NS) e que não cometeram violência sexual (NN).

Figure 1: Árvore de freqüência da população de 18 a 65 anos

Árvore de freqüência

OS dados utilizados para gerar a árvore foram hard-coded no código. Isso ocorreu porque não tive acesso ao microdados do Sinan Net. Para obter os dados acessei o site, e criei os filtros de acordo com minha necessidade, então essa etapa foi manual.

Para criar a árvore de freqüência mostrada no post, utilizei o pacote DiagrammeR. As opções para criar diagramas são inumeras, e extremamente flexíveis. Acesse essa página para entender quantas soluções diferentes e úteis esse pacote tem.

Não tenho muita experiência trabalhando com essa biblioteca, então tive que fazer algumas adaptações para criar a árvore de freqüência do jeito que eu queria. Em primeiro lugar, criei um node chamado “nada,” que foi utilizado apenas separar os dois nodes de nível 2 (h e m), de forma que as setas saindo desses nodes estivessem alinhadas como eu queria. Além disso, tentei criar um sub-gráfico para cada nível, porém o resultado não ficou bom. Como alternativa, criei três nodes (l1, l2 e l3) que utilizei apenas para criar os nomes de cada nível. Minha intenção era que esses nomes ficassem no topo do diagrama, mas não consegui fazer isso - toda vez que colocava esses nodes encima do gráfico, os nodes ficavam sem formatação.


require(DiagrammeR)

widget <- grViz("
digraph dot {

graph [layout = dot, pad=0.5, fontsize = 14, nodesep = 0.8, ranksep = 0.25, rankdir = LR]

splines=false;

node [shape = plaintext,
      fillcolor = white,
      label = 'População']
l1

node [shape = plaintext,
      fillcolor = white,
      label = 'Sexo']
l2

node [shape = plaintext,
      fillcolor = white,
      label = 'Violência Sexual']
l3

node [shape = plaintext,
      fillcolor = white,
      label = 'Sigla']
l4


edge [color = white,
      label = '']
l1 -> l2

edge [color = white,
      label = '']
l2 -> l3

edge [color = white,
      label = '']
l3 -> l4


node [shape = Mrecord,
      style = filled,
      fixedsize = true,
      width=1.4,
      height=0.6,
      fontname = Helvetica,
      color = DimGray]

node [fillcolor = gray,
      label = '135 milhões']
p

node [fillcolor = lightblue,
      label = '65.238.506']
h

node [fillcolor = OliveDrab,
      label = '20.519']
ha

node [fillcolor = Gold,
      label = '65.217.987']
hn

node [fillcolor = none,
      color=none,
      height=0.7,
      label = '']
nada

edge [color = none,
      label = '']
p -> nada

node [fillcolor = Crimson,
      height=0.6,
      color = DimGray,
      label = '70.687.149']
m

node [fillcolor = OliveDrab,
      height=0.6,
      color = DimGray,
      label = '1.784']
ma

node [fillcolor = Gold,
      height=0.6,
      color = DimGray,
      label = '70.685.365']
mn

edge [color = grey,
      label = 'Homem']
p -> h

edge [color = grey,
      label = 'Mulher']
p -> m

edge [color = grey,
      label = 'Com Violência']
h -> ha

edge [color = grey,
      label = 'Sem Violência']
h -> hn

edge [color = grey,
      label = 'Com Violência']
m -> ma

edge [color = grey,
      label = 'Sem Violência']
m -> mn

node [shape = plaintext,
      fillcolor = white,
      label = 'SS']
sig1

node [shape = plaintext,
      fillcolor = white,
      label = 'SN']
sig2

node [shape = plaintext,
      fillcolor = white,
      label = 'NS']
sig3

node [shape = plaintext,
      fillcolor = white,
      label = 'NN']
sig4

edge [color = none,
      label = '']
ha -> sig1

edge [color = none,
      label = '']
hn -> sig2

edge [color = none,
      label = '']
ma -> sig3

edge [color = none,
      label = '']
mn -> sig4


}")

widget$width <- "100%"
widget


Neste exemplo, a precisão do modelo proposto é de \(\frac{SS+NN}{SS+SN+NS+NN} = \frac{70.705.884}{135.925.655} = 52\%\), o que quer dizer que em quase 48% das vezes o modelo erra a previsão. Tal regra não é muito mais precisa do que jogar uma moeda pra decidir quais profissionais são confiáveis o suficiente para ajudar crianças com cuidados íntimos na Educação Infantil.

Dado a péssima qualidade do modelo utilizado nessa proposta de lei, um passo natural seria tentar aumentar o numero de variáveis endógenas, com o objetivo de melhorar a precisão do modelo. Provavelmente nesse exemplo não seja possível melhorar sua performance de forma acionável, deixando claro então que este modelo que erra quase metade das previsões (e que não pode ser melhorado), não deveria ser utilizado para criar uma lei pois ele é muito preconceituoso. E é possível argumentar que esse projeto de lei, se aprovado, será discriminatório.

Conclusão

Muitas vezes a Estatística é preconceituosa, pois utiliza modelos baseados em grupos de pessoas para prever características de indivíduos. Apesar da conotação negativa do termo, preconceito é uma forma natural de lidar com a falta de informações, e a Estatística apenas racionaliza o processo. O preconceito pode ser visto como sendo um aspecto importante da nossa evolução, do nosso instinto de preservação. Quando nos deparamos com uma situação nunca vivida anteriormente, tentamos compará-la a situações similares que já foram vivenciadas; porém as únicas informações disponíveis para comparar as experiências geralmente são limitadas e superficiais.

Porém é preciso ter consciência, ao utilizar modelos estatísticos para classificar indivíduos, de que essas previsões são aproximações, e que provavelmente estão erradas. Tenha em mente que a precisão dessas estimativas depende das variáveis endógenas utilizadas na modelagem, e do refinamento dos agrupamentos considerados. Sempre é possível tentar melhorar o modelo, com o intuíto de sermos mais precisos e menos preconceituosos, baseando cada vez mais as nossas opiniões nos atos do próprio indíviduo sendo avaliado, e não nos atos de um grupo de pessoas similares. No limite, quando não houverem variáveis exógenas que não podem ser incluídas no modelo, talvez consigamos não ser preconceituosos.

Pensando dessa forma, talvez Big Data seja o caminho do futuro, pois cada vez mais permite que dados pessoais sejam coletados e utilizados para fazer previsões individualizadas, menos dependentes das informações de outras pessoas. Porém, por outro lado, você terá menos privacidade. Me parece então que a escolha terá que ser mais privacidade ou menos preconceito.

Uma pessoa (ou empresa) desconhecida classificará você com relação a todas as suas variáveis que ela conseguir observar/mensurar; colocará você em um grupo, e depois agirá da maneira que achar melhor. Se você tiver menos privacidade, existirão mais informações disponíveis sobre você, e aquela pessoa pode ser menos preconceituosa. Se você preferir mais privacidade, menos informações sobre você estarão disponíveis, e aquele desconhecido terá uma opinião mais preconceituosa de você, e a chance de agir de maneira discriminatória pode ser maior.

É importante reforçar a distinção entre preconceito e discriminação. Discriminação pode até ser um crime, dependendo da situação e da motivação; preconceito não o é. Preconceito simplesmente envolve inferir o comportamento de uma pessoa sem conhecê-la. Discriminação é tratar a pessoa de forma negativa (para ela, não pra você) com base no comportamento previsto por um modelo estatístico.

Agrupar pessoas é, até certo ponto, tentar prever o futuro. Estamos prevendo como alguém vai se comportar, sem conhecê-lo, baseado somente num modelo estatístico. Entretanto não está certo discriminar ou punir alguém por algo que achamos que ele vai fazer, ou que tem potencial para fazer. Senão seria como aquele filme Minority Report do Tom cruise, onde é possível prever o futuro com 100% de certeza. Nesse filme as pessoas são presas antes de cometer crimes, pois a polícia “já sabe” que elas os cometerão. No mundo real, nunca vamos saber o futuro com 100% de certeza. Se você leitor não quer cometer atos discriminatórios, nao aja como se já soubesse como alguém vai se comportar sem nem conhecê-lo.

Preconceito é um pensamento. Discriminação é um ato. Pense bem antes de agir. Como disse o famoso jornalista americano Edward R. Murrow:

“Todos são prisioneiros de suas próprias experiências. Ninguém consegue eliminar seus preconceitos - apenas reconhecê-los.”

Referências

Rosenberg, M. 1968. The Logic of Survey Analysis. Second Edition. Basic Books.
Upton, G., and I. Cook. 2006. Oxford Dictionary of Statistics. Second Edition. Oxford University Press.

  1. Na era do Big Data, com o grande volume de dados pessoais coletados hoje tem dia, tem se tornado possível fazer análises e previsões referentes às próprias pessoas.↩︎

  2. Sinistro é uma ocorrência de todo evento que tem cobertura no seguro contratado e esteja especificado na apólice. Basicamente, sinistro é quando você bate o seu carro de forma involuntária e havia sido contratado a cobertura para colisões, por exemplo.↩︎

  3. Note que mesmo que uma variável seja considerada importante para modelar outra variável, isso não quer dizer que existe uma relação de causa e efeito: basta que essas variáveis sejam correlacionadas. Um exemplo clássico de correlação espúria é entre a quantidade de bebês e de cegonhas. Diversos estudos já mostraram que áreas que têm mais cegonhas também têm mais bebês. Será que essa correlação corrobora a lenda de que as cegonhas trazem os bebês recem nascidos? Na realidade, tanto a quantidade maior de bebês quanto de cegonhas é causada por uma terceira variável: o nível de ruralidade da área. Quanto mais rural for um local, mais cegonhas e mais bebês haverão lá, em média. Quem tiver mais interesse em enteder os diferentes tipos de relações entre variáveis, recomendo o livro (Rosenberg 1968).↩︎


comments powered by Disqus

Voltar ao blog