lem-usp / EvolQG

Tools for Evolutionary Quantitative Genetics
http://cran.r-project.org/web/packages/evolqg/
Other
10 stars 8 forks source link

MonteCarloRepKrzCor versus BootstrapRepKrzCor #28

Closed alexhubbe closed 10 years ago

alexhubbe commented 10 years ago

Caro, quão semelhantes deveriam ser as repetibilidades entre os dois métodos?

testei pra um gênero meu e deu 0.94 versus 0.86. Será que essa diferença é aceitável?

abs

diogro commented 10 years ago

Boa pergunta...

Acho que é legal discutir um pouco as características e suposições de cada método.

MonteCarlo:

Esse é um método paramétrico, ou seja, ele assume uma distribuição analítica dos dados, que pode ser representada por parâmetros que definem completamente a distribuição. No caso, nós assumimos que os dados tem uma distribuição normal multivariada, estimamos uma matriz de covariância, amostramos populações simuladas a partir dessa distribuição induzida pelos dados e comparamos as matrizes de cada população simulada com a matriz original. A média das comparações é a repetibilidade.

Em algum sentido, é um método quasi-Bayesiano, que confia em amostras de uma distribuição a posteriori, utilizando um prior uniforme, para gerar uma distribuição do parâmetro e comparar ele com o estimador de máxima verossimilhança (é esse ultimo passo de comparação com ML que tira um pouco o caráter Bayesiano).

Atualmente ele tem algumas desvantagens, como alguma sensibilidade a outliers, pois a distribuição usada tem caldas muito leves e dá pouca probabilidade a eventos extremos. Talvez fosse melhor usar uma t multivariada em vez da normal.

Outra opção é tornar o procedimento completamente Bayesiano e comparar as matrizes geradas entre si e não com a matriz ML original. Isso tornaria a justificativa teórica bem mais forte, e o parâmetro "valor da correlação da matriz com amostras de mesmo tamanho" seria formalmente estimado.

Bootstrap:

Esse é um método não paramétrico, que não assume distribuição nenhuma dos dados. Amostras são tomadas dos seus dados com reposição e dessas populações amostradas uma matriz de covariância ML é estimada e comparada com a matriz da população original. Isso te daria uma ideia de quão homogênea é sua amostra. Não tenho muita certeza de como é a teoria de convergência de um método desse, nem quão dependente de amostra ele é. No geral eu tenho menos confiança em bootstrap, principalmente para amostras pequenas.

Gmarroig commented 10 years ago

Note no entanto que o viés na estimativa da repetibilidade via bootstrap com amostra pequenas deveria ser para super-estimar a repetibilidade e não o contrário....