terça-feira, 11 de maio de 2010

Quem tem disciplina é outra coisa...





Depois de eu publicar os gráficos do duelo o Paulão resolveu liberar os dados dele pra galera. Ele é bastante disciplinado e marca todosos Km de corrida e caminhada, mesmo quando ele não corre! Eu gostaria de falar que é coisa de estatístico mas... eu não sou igual, na verdade tô muito longe de fazer o mesmo. E obviamente que ele não só guarda os Km arrumadinho na planilha, ele também analisa os dados.

Uma das engenhosidades do Paulo foi criar um índice de stress onde ele calcula uma média móvel dos Km dos 7 últimos dias dando peso maior para o último dia. Nesse tipo de média, se você for desenvolver a equação vai ver que não são só os 7 dias que são usados mas todos os dias anteriores, com os pesos decrescendo rapidamente, ou seja no final das contas vamos dizer que é uma média com peso maiores para os dias mais recentes. Acho que faz sentido e se o Paulo quiser podemos escreer um paper sobre isso (espero que ele não tenha copiado de algum paper...).

Então eu resolvi roubar os dados do Paulo e mostrar de vez pra todo mundo. Se ele ficar bravo eu apago esse post, então leia logo.

O primeiro gráfico é um histograma e msotra que ele corre muitas vezes zero Km. O histograma também mostra que ele tem umas corridas animais, com muitos Km, mas em geral ele fica em torno dos 10Km.

O segundo gráfico, de autocorrelação, mostra três autocorrelações altas, de lag 6, 7 e 8, indicando que os Km deles são correlacionados se considerarmos esse intervalos de dias. Isso faz sentido pois ele deve seguir mais ou menos um padrão, por exemplo, correr mais todo sábado e menos toda quarta feira, então a distância percorrida é associada com a distância percorrida em torno de 7 dias antes. O fato de 3 correlações erem altas uma perto da outra, com um leve decaimento também indica que a série é não estacionária, tendo alguma tendência ou algo assim. Para tirar isso faz-se uma diferença na série e calcula-se novamente a autocorrelação, o que nos leva para o terceiro gráfico. Aqui vemos uma alta correlação negativa no primeiro lag, o que indica que a distânci aque ele corre num dia é negativamente relacionada com a distância corrida no dia anterior. Isso também faz sentido pois é razoável pensar que se ele correu muito hoje ele vai aliviar e correr pouco amanhã. Se ele corre nada hoje as chances são maiores que ele vai correr bastante amanhã, ou seja, associação negativa.

Finalmente o último gráfico mostra a média de Km do Paulo por dia de semana, onde eu arredondei todos Km acima de 20 para 20. O resultado seria similar se não fizesse isso e também se excluísse os zeros. Vamos que ele gosta de correr aos sábados e domingos e parece que quartas e sextas são os dias de descanso do Paulo.

Os gráficos estão sem muita formatação, é que da mesma forma que eu tenho preguiça para marcar meus Km eu tenho para formatar os gráficos...

Enfim, interessante os dados do Paulo, quem sabe um dia eu consiga uma série grande assim...

Nenhum comentário: