domingo, 3 de fevereiro de 2008

Regressão e Calibração

Esta semana acabei de ler mais um artigo da Survey Methodology. É um artigo que fala sobre a calibração das pesquisas por amostragem. Eu sabia que o IBGE usava a ponderação por regressão, mas o nome calibração estava um pouco sem fazer sentido, eu imaginava que fosse relacionado ao raking weighting, que se usa frequentemente em pesquisa. É e não é. Antes de falar um pouco sobre o conteúdo do artigo, deixe-me dizer que ele a caba sendo uma ótima referência para outros artigos no assunto, bem como um bom artigo para dar uma geral nos métodos de ponderação.

Primeiramente o artigo deixou claro que tanto a calibração como a ponderação por regressão são muito bons para ajustar os totais da amostra aos todas da população. E sob certas condições, ambos são equivalentes. A base de ambos é usar informações auxiliares para tentar corrigir possíveis vieses e chegar mais perto de um estimador não viesado, embora, pelo que entendi, ele não terá mais a mínima variância, propriedade que é conseguida pelo estimador de Horvitz- Thompson. Se você tem uma variável X auxiliar, para a qual você conhece os valores populacionais, e se X é relacionada a sua variável Y, então você pode usar a informação que você tem na amostra a respeito de X e sua relação com Y para melhorar eliminar possíveis viés.

A diferença entre a calibração e a ponderação por regressão é que esta segunda assume um modelo, que pode ser linear ou não, embora o linear seja o geralmente usado. A calibração tem como foco a minimização da idstância entre o fator de ponderação final e o fator de ponderação de Horvitz Thompson, que é o inverso da probabilidade de seleção. Quanto mais nosso fator de ponderação se distancia do inverso da probabilidade de seleção, mais longe nosso estimador fica longo do não viciado de variância mínima. Essa preocupação em manter a tal distância pequena pe uma grande vantagem da calibração sobre a ponderação usual do tipo raking.

A calibração e a ponderação por regressão já é amplamente utilizada nos orgãos governamentais de pesquisas, como o IBGE e Statistic Canada, mas ainda não é assim difundido na pesquisa comercial. Quem sabe seja um bom caso para se estudar as potenciais vantagens e desvantagens dos métodos, usando dados reais.

2 comentários:

vanessa disse...

poderia me dizer se essa frase está correta: "Quanto mais nosso fator de ponderação se distancia do inverso da probabilidade de seleção, mais longe nosso estimador fica longo do não viciado de variância mínima."

mais longe o estimador fica de que?

Marcos Sanches disse...

Nossa, a frase está confusa, assim como outras frases no mesmo texto. A frase correta seria:

Quanto mais nosso fator de ponderação se distancia do inverso da probabilidade de seleção, mais longe ele fica do estimador não viciado de variância mínima.

Longo e volta ao bairro Avondale

 Outra Quinta-feira e outro bairro. Ontem o treino de 1h20m na planilha fez com que eu rumasse para um bairro não mutio grande e não muito l...