quarta-feira, 27 de fevereiro de 2008

Nao cobertura em pesquisas por telefone

Eu terminei de ler outro artigo interessante da Survey Metodology. Ele pode ser acessado por completo neste link. O artigo trata do problema que temos quando fazemos amostra por telefone que eh de como representar a populacao sem telefone.

Um ponto interessante eh que a preocupacao do artigo eh com a populacao dos Estados Unidos, onde apenas cerca de 5% dos domicilios nao tem telefone. Nao representar essa populacao nao vai causar lah grandes distorcoes. Mas no Brasil o problema eh muito mais serio, eu nao me lembro ao certo mas ach oque a penetracao de telefone fixo eh em torno de 50%. Outra coisa interessante sobre o assunto eh que aqui no Canada, onde sao feitas muitas pesquisas por telefone e internet, a preocupacao jah estah um passo adiante(digo, em relacao a esse artigo, nao em relacao aos EUA). O pessoal estah preocupado com o fato de que a penetracao de telefone fixo esta diminuindo porque as pessoas optam pelo celular, e pior, isso eh muito acentuado entre os jovens. No Canada (eu nao sei quanto aos EUA) esta bem dificil atingir populacao de 15 a 30 anos por telefone, a pesquisa sempre termina sub representando essa populacao. Dizm que eh porque essa populacao realmente nao tem fixo, eles compram celular e boa. E alem disso sao naturalmente os que mais recusam. E lembro que nao se faz pesquisa com telefone celular.

Bom, vamos voltar ao artigo. O meu interesse aqui eh tentar passar os metodos discutidos no texto para corrigir pelo menos em parte os resultados devido ao fato da nao representacao dos individuos moradores em domicilios sem telefone, porque ach oque essa foi a parte interessante do artigo. O artigo tenta comparar metodologias, mas eu achei tudo muito limitado, voce nao tem como realmente saber qual procedimento eh melhor porque voce nao sabe qual o resultado que deveria ser encontrado.

Basicamente a populacao eh dividida em 4 grupos - (1) com telefone, (2) tem telefone mas em algum periodo do ultimo ano nao teve, (3) nao tem telefone mas em algum periodo do ultimo ano teve e (4) nao tem telefone. os grupos 1 e 2 sao chamados de populacao transiente. O grupo 2 eh entrevistado na pesquisa e representa o grupo 3, sendo que somente o grupo 4 realmente fica de fora e nao temos informacoes sobre ele e ele representa cerca de metade dos grupos 2 3 e 4, segundo o artigo em torno de 2.6% da populacao americana (dados de 1993!!!). Um comentario meu eh que para o Brasil tudo isso acaba sendo inutil proque o grupo 4 eh estremamente grande, no artigo eles ignoram o grupo 4. Entao, ok, eu sei que isso nao vai resolver o problema no Brasil, mas pode dar ideias... Isto posto, vamos aos metodos, resumidamente, supondo que vc tem lah sua pesquisa feita por telefone e pode separar os grupos 1 e 2 (os unicos representados).

Metodo 1- Para a os individuos do grupo 2, voce dah um peso para ele que e igual a 365 / (365 - numero medio de dias sem telefone). Quem ficou mais tempo sem telefone tem peso maior porque ele tem que representar muita gente como ele que teve telefone por um curto periodo de tempo e dificilmente seria amostrado. O problema deste peso eh que alguns fatores podem ser muito grande o que causa um aumento na variabilidade dos estimadores.

Metodo 2 - O mesmo que o metodo 1, mas para evitar pesos grandes divide-se o grupo 2 em subgrupos, para cada calcula-se o numero medio de dias sem telefone no ultimo ano, e aplica o mesmo peso para o grupo todo.

Metodo 3 - O peso [(2) + (3)]/(2) eh criado para varios estratos da populacao. Por (2) entenda-se aqui a populacao do grupo 2. Ou seja, estarei dando diferentes pesos para diferentes grupos populacionais (regiao, sexo, idade, renda...), e o peso sera o valor dessa expressao. O artigo fala de dois tipos de divisao dos demograficos - Educacao X raca e Raca por status do domicio (proprio/alugado).

Metodo 4 - Estima-se o tamanho do grupo (2) + (3) - o autor fala de dados de companhia telefonica - e inclui essa variavel no esquema de ponderacao. (2) + (3) eh a populacao transiente total. O esquema de ponderacao eh o raking weight. Entao, por exemplo, vc corrige as marginais de sexo, idade, instrucao, raca e populacao transiente, tal que tudo isso fique de acordo com o universo. Vc pode cruzer as variaveis se tiver sufienciente amostra pra isso.

Metodo 5 - Calcula-se um propensity weight, usando regressao logistica. Seguindo a ideia do propensity weighting, para calcular neste caso precisariamos ter a populacao transiente sem telefone no momento da pesquisa, tal que pudessemos colocar 1 para o grupo (3) ezero para o grupo (2) e rodar o modelo. Assim usando o inverso da probabilidade estimada pelo modelo, poderiamos tentar fazer com oque o grupo (2) representasse o (3) tambem. Como nao da para fazer isso o autro coloca zero para o grupo (1) e 1 para o grupo (2), roda o modelo e aplica o inverso da probabilidade estimada apenas no grupo (2).

Bom, enfim, estes sao os metodos. O autor achou o metodo 1 ruim, pois ele aumenta muito a variabilidade. O metodo 5 nao mudou muito os estimadores com relacao o metodo tradiconal, onde a ponderacao eh feita normalemtne sem levar em conta a deficiencia de cobertura. Por isso o metodo 5 foi considerado de pouca eficiencia, tipo, ele nao altera muito as coisas. Os demais metodos tiveram performance similares, mas nao ha com saber qual foi melhor pois nao sabemos qual o resultado correto para comparar.

Outro ponto interessante, talvez um que tenha mais aplicacao para a situacao no nosso pais, eh o calculo de uma medida de influencia dos pesos na variabilidade, dado pelo Kish. A medida [e dada por

VIF = 1+ CV(pesos)^2

onde VIF eh Fator de Inflacao da Variancia e CV eh Coeficiente de Variacao. Essa formula diz que o aumento da variabilidade devido a ponderacao depende da variabilidade dos pesos. Este eh o artigo que dizem que o Kish primeiro fala da formula. Eu nem olhei o artigo, afinal jah tenho tantas coisas na fila para ler... Mas eh um assunto importante para quem trabalha com pesquisa e ponderacao de dados.

Nenhum comentário:

Treino Leve

 Primeiro treino leve da nova planilha. Os treinos leves, que eram por tempo e tinham uma parte opcional, agora são por distância. Tanto ant...