sábado, 25 de abril de 2009

A Falácia Ecológica

Eu estou lendo um livro que fala sobre as análises de dados em níveis agregados para se tirar conclusões sobre níveis desagregados. O livro chama-se Cross-Level Inference e eu não sei muito bem como traduzir isso para o português, mas o Cross-Level é devido ao fato de se usar dados em um nível para tirar conclusões em outro nível. Esse é um dos primeiros artigos a ter ampla consideração em relação a este assunto. Eles chamam isso de "ecological fallacy" que eu estou traduzindo por "falácia ecológica", mas não tenho nem certeza como é o termo em portugues. A falácia ecológica consiste em se pensar que dados agregados podem dar informações sobre indivíduos, o que pode incorrer em inferências completamente erradas.

O que falei até aqui pode parecer um pouco abstrato demais, mas o assunto é simples, vou dar um exemplo bem conhecido da literatura, que vem do própria artigo que citei acima. Em 1930 (20 anos antes do artigo ser escrito) foi encontrado que havia uma alta correlação positiva entre o percentual de pessoas nascidas no exterior em um estado e o percentual de alfabetizados. Estados com maior percentual de pessoas nascidas no exterior eram em geral os com maior percentual de alfabetizados. Daí a conclusão poderia ser que os nascidos no exterior eram os mais alfabetizados. Mas dados do censo da mesma época mostrava o contrário, a taxa de alfabetizados entre os nascidos no exterior era menor! Veja, a falácia está em usar números de um nível agregado (estados) e tirar conclusões para o nível desagregado (indivíduos). Em outras palavras, não é porque estados (nível agregado) com mais nascidos no exterior tem maior taxa de alfabetização que indivídios nascidos no exterior (nível individual) são mais alfabetizados.

Da mesma forma que a pouco tempo eu falei um pouco sobre problemas em pesquisas e divulgação de dados, aqui temos o mesmo caso se repetindo. É comum vermos na mídia a galera dizer que o candidato X venceu em estados com maior percentual de pessoas com nível universitário, levando a concluir que pessoas com nível universitário votam mais para o candidato X - denovo, dados a nível do estado e conclusões a nível do indivíduo. E esse é apenas um exemplo. A população que ouve esse tipo de informação acaba sendo completamente enganada por não ter condições de saber que as coisas não são necessariamente relacionadas. Esse é apenas um exemplo, existe muito deste tipo de inferência sendo feita por aí.

É bom que se entenda que a inferência feita a nível agregado não é necessariamente errada. Mas, a não ser que se tenha informação do nível individual ou do processo de agregação, não há qualquer garantia de que ela esteja correta. Se alguem nota que estados com mais universitários votaram mais para o candidato X e diz que por isso universitários votam mais no candidato X, isso é uma conclusão sem base científica que é difícil saber se está correta ou não a não ser que existam outras informações para suportar que universitários votam mais no candidato X.

Vamos esperar que quem divulga informações o faça com boa fé, e que saiba o que está dizendo, pois como disse alguém que eu não me lembro quem - "O problema não é fazer as análises erradas, o problema é não saber que elas estão erradas".

Nenhum comentário:

Goal Pace - Recorde nos 5 e 10km

 Hoje foi dia de treino de Goal Pace de 1h. 15 minutos de aquecimento, 20 minutos de ritmo de corrida, entre 4:39 e 4:51 por km, continua po...