sexta-feira, 22 de fevereiro de 2008

Sobre amostras nao aleatorias

E o PH me obrigou a ler este artigo. Devo confessar antes de comenta-lo que o artigo se baseia muito em comparacoes entre inferencia descritiva e analitica, entre model-based inferencia e randomization inferencia, coisas nas quais eu nao sou muito fluente. Tem tambem os mecanismos de ignorabilidade, descritos com detalhes aqui e aqui, que eu faz tempo que nao vejo.

A parte que o PH gostou diz respeito ao comentario que o autor faz que a inferencia baseada em amostras eletorias nao eh livre de suposicoes. Sim, a galera sempre apela para o teorema do limite central e os resultados assintoticos e tal. Mas nao vou comentar essa parte, ates tentei delinear algumas conclusoes postas pelo autor sobre amostras nao aleatorias.

1)Do ponto de vista da inferencia model-based a amostra nao aleatoria eh aceitavel se o processo de selecao nao depende da variavel resposta da pesquisa, Y.
Essa nao dependencia de Y eh na verdade uma condicao que resumidamente diz tudo, e acho que poderiamos esquecer o tipo de inferencia, inclusive. Toda amostra nao aleatoria e aleatoria feita na populacao de humanos vai dar de cara com essa suposicao mais cedo ou mais tarde. Sobre model-based, diz respeito a inferencia que considera a populacao finita como amostra de uma superpopulacao. Assim vc pode postular um modelo para os parametros populacionais que voce quer estimar. Eu nao entendo muito disso, por isso nao deveria estar comentando, mas pra mim isso nao faz sentido em alguns casos, mas faz em geral nas pesquisas feitas em populacao, pois a rigor vc pode pensar que o parametro, por exemplo, percentual de votos, nao eh algo fixo. A sua amostra eh selecionada no decorrer de um periodo X, e nesse periodo hah mudancas e tal, entao acho que pensar em parametro fixo acaba sendo uma forte suposicao. Mas deixa eu passar para o proximo ponto, espero logo colocar aqui algo sobre model-based e randomization no que diz respeito a inferencia.

2) Ateh amostras aleatorias podem nao ser aceitaveis. Se voce tem uma informacao Z sobre a populacao, conhecida, e se sua amostra aleatoria acontece de nao estimar bem essa informacao Z, o que pode acontecer com probabilidade nao nula, entao a sua amostra aleatoria pode nao ser aceitavel. Nesse caso o autor fala em continuar amostrando ateh ela se tornar aceitavel, seja aleatoriamente ou mesmo por conveniencia. E cita referencias.
Sim, acho que o ponto eh valido mas nao pratico no nosso embiente de pesquisa. Primeiro porque nao temos amostras aleatorias, segundo porque supondo que tivessemos, achoque do ponto de vista pratico o que se faria seria uma ponderacao de pos estratificacao, nesse caso de ter conhecida uma informacao Z. Ninguem ia seguir coletando mais amostra.

3)Quando se usa a pos estratificacao, isto eh, definicao de estratos amostrais depois que amostra eh selecionada, a inferencia nao eh valida se o processo de selecao dependeu de algo alem das variaveis de pos-estratificacao.
Esse eh um ponto que eu precisaria pensar mais para comentar mas acho que a questao eh que quando se faz pos-estratificacao eh justamente porque descobre-se que o processo de selecao de alguma forma, talvez nao desejada, dependeu de algumas variaveis que temos informacoes populacionais. Entao por exemplo, vemos que a proporcao de homens eh 40% quando sabemos que deveria ser 48%. Usamos a pos estratificacao pelo sexo. Em situacoes praticas ach oque geralmente ha o cuidado de checar outras informacoes que julgamos poder ter relacao com o processo de selecao.

4) Amostras por cotas seriam validas se as condicoes de ignorabilidades puderem ser satisfeitas, o que eh equivalente a dizer que elas sao validas se toda informacao que o entrevistador pode usar que tem relacao com a variavel resposta puder ser controlada. Em outrs palavras, as variaveis de cotas precisam carregar toda informacao a respeito da variavel resposta que o entrevistador possa usar.
Essa eh a eterna questao... Como fazer isso? Praticantes da amsotra por cotas defendem que com controle rigido de campo, as escolhas do entrevistador sao muito limitadas e eh aceitavel a suposicao de que seja la onde for que ele escolha, isso nao ter relacao com a variavel Y. Hoje em dia, alem das cotas a amostragem por cota em geral inclui procedimentos relacionados a restricoes geograficas. O entrevistador pode escolher, mas ele tem uma rota a seguir, um procedimento de campo a obedecer, tipo, ele precisa rodar a quadra no sentido horario e abordar uma a cada 3 casas e fazer um arrolamento detalhado para que se possa conferir seu procedimento. Assim o entrevistador exerce muito pouco a sua liberdade de escolha, ela acaba se limitando a liberdade dentro do domicilio para selecionar o morador disponivel segundo suas cotas, ao inves de sortear aleatoriamente. Ele nao pode escolher os enhor que passa na rua ou aquele que cuida do jardim na casa anterior a selecionada, ainda que ele ve que seriam ideias para o cumprimento da cota. Outro pnto importante aqui eh a definicao de variaveis de cotas - quanto mais conseguirmos cobrir as variaveis infleunciadoras de Y, mias qualidade estamos garantindo aos resultados. Na pratica aqui tenta-se controlar tambem variaveis que embora nao fortemente ou comprovadamente relacionadas a Y, sao relacionadas a disponibilidade do entrevistado e aescolha subjetiva do entrevistador.

5) O autor diz que nao respostas e valores faltantes sao coisas muito mais provaveis de tornar o mecanismo de selecao nao ignoravel (e portanto a amostra nao valida) do que a selecao por cota em si.
Sim, se as cotas sao bem definidas e o campo sao bem controlados. E ai tende-se a pensar que essa eh uma critica a amostras completamente probabilisticas, que nao conseguem evitar a nao resposta, mas aqui eh importante o que vai ser colocado no proximo ponto. Antes de chegar lah eh bom lembrar que a amsotra probabilistica mesmo deveria conter a nao resposta mas nao a nao disponibilidade. A amostra por cota tem os dois. Acho que mesmo com controles em variaveis relacionadas a disponibilidade, como sexo e trabalho, nao podemos ignorar isso.

6) O autor sugere que o amior problema de amostras com cotas seria que ela esconde a nao resposta. Enquanto na amostra probabilistica vc consegue obter informacoes, as vezes bastante, sobre a nao resposta, na amostra por cotas ela continua existindo mas vc nao tem mais informacoes.
Bom, esse acho que eh um ponto importante, mas vale lembrar que a amostra por cota tenta controlar o problema de nao resposta a priori. Ela se baseia em suposicoes sobre a nao resposta e variavies relacionadas a ela. Mas mesmo assim eu acho que a amsotra probabilistica acaba sendo sim uma fonte muito rica de informacao sobre a nao resposta, e vc pode a partir disso tentar ajustar a amostra de forma muito mais eficiente do que somente controlando cotas.

Bom, acho que sao pontos importantes. O autor cita outros artigos, cita muitas coisas interessantes e aih eh aquela coisa, quanto mais aprendemos mais descobrimos que precisamos aprender. Tem muita coisa que eu goataria de checar, ir atras para poder comentar e entender melhor esse assunto que eh bastante importante. Vamos ver...

Nenhum comentário:

Goal Pace - Recorde nos 5 e 10km

 Hoje foi dia de treino de Goal Pace de 1h. 15 minutos de aquecimento, 20 minutos de ritmo de corrida, entre 4:39 e 4:51 por km, continua po...