Modelos de distribución de especies integrando diferentes fuentes de datos

¡Hola a todos!

Tenemos nueva nota ecoinformática, enviada por @jabiologo tras su flamante seminario sobre integración de distintas fuentes de datos para estimar abundancias.

Archivo Word: 2504-Texto del artículo-12094-1-2-20221201.docx

Archivo PDF: 2504-Texto del artículo-12094-1-2-20221201.pdf

Y no os perdáis el material suplementario: 2504-Material Suplementario-12093-1-2-20221201.pdf

Queda abierta pues la revisión grupal hasta el día 8 de Enero de 2023. Aquí podéis leer cómo funciona el proceso de revisión abierta

Muchas gracias a todos como siempre por vuestra participación y colaboración

Hola,

Es una nota super bonita! Muy bien explicada y detallada. Enhorabuena a los autores! Aquí unas pocas sugerencias:

L43: sería consistente a lo largo del texto y pondría todas las métricas en cursiva
L69: estaría bien poner un ejemplo de lo que significa el sesgo de muestreo para la gente menos familiarizada en estos temas. Lo de las distancia a carreteras creo que es un buen ejemplo ya que luego se menciona en la fig. 2. Creo que falsos positivos no hace falta ya que antes se explican los falsos negativos
Fig 2: creo que tendría más sentido poner la figura A arriba y debajo B y C
L75: Proceso de Puntos de Poisson por ser consistente
L78: creo que puede ayudar al lector recordar qué puede ser una variable latente: (p. ej. la abundancia de la especie, Figura 2).
Fig 3. Aunque se entiende, creo que estaría bien indicar qué significa la tercera fila de la figura
L100: en vez de linealidad correlación quizás se entiende mejor
L103: Además, la precisión de los parámetros...

Que buena nota! Me encanta como primero explicas las diferentes pizas del puzzle para al finar unirlas.

Algunos comentarios:

En la linea 35, quizás convendría dedicar un par de lineas a explicar la Poisson, ya que ahora se usa "area", "localidad", y "espacio continuo" de forma un tanto ambigua. Con un ejemplo ilustrando el significado de lambda quizas lo clarifique a todo el mundo. Una referencia para saber más no estaría mal tampoco.

Linea 63: Cuando te refieres a detecciones / No detecciones, te refieres a presencia / ausencia? Si es así, yo unificaría nomenclatura, y sino, explicaría su diferencia.

Linea 84. No se si eso alargaria mucho la nota, pero un ejemplo de que se consideraria un modelo latente "erroneo" para un tipo de datos concretos podria ayudar. Es solo una sugerencia, si crees que complica la historia, ignora el comentario.

Yo la figura 3 no se si la dejaria en el apendice, por que las notas tienen un limite de palabras/figuras.

A ver si un dñia aplico estos modelos a abejitas! Abrazo, Nacho

Hola @jabiologo

Muchas gracias por esta magnífica nota. Está espectacular. Muy completa (¡¡con su material suplementario reproducible con toda la simulación y análisis!!) y muy bien explicado todo. Una magnífica introducción a la modelización jerárquica con NIMBLE y los modelos integrados de distribución.

Coincido con los puntos señalados arriba, especialmente con

Fig 2: creo que tendría más sentido poner la figura A arriba y debajo B y C

La Fig. 3 sería una pena pasarla a material suplementario en mi opinión, pero es verdad que el espacio es muy limitado. A ver cómo queda al final

Un par de cosas más

Entiendo (viendo la Fig. 3) que todos los modelos acaban infraestimando la abundancia no? ¿Alguna explicación del porqué? Tal vez sería bueno mencionarlo
¿Las priors con distribución Normal y sd = 10 no te parecen un poco amplias? Creo que hoy día la tendencia es usar priors bastante más acotadas, ¿no te parece? Me gustaría saber tu opinión. Para esta nota en concreto me parece perfecto dejarlo así, pero si crees que en la práctica es mejor usar priors algo más restrictivas (¡que puedes no estar de acuerdo con esto!) tal vez sería bueno mencionarlo directamente en el código del material suplementario, al igual que haces cuando defines el número de cadenas e iteraciones?

¡Gracias de nuevo!

Saludos!

Muchas gracias a los tres por vuestros comentarios! Han sido muy útiles y han ayudado a mejorar la nota y clarificar muchos aspectos. Los detalles menores ya están corregidos en una nueva versión de la nota que enviaré enseguida. Os pongo por aquí unas respuestas breves a algunos comentarios:

@Julenasti he incluido los comentarios que me has puesto, gracias!

* Fig 2: creo que tendría más sentido poner la figura A arriba y debajo B y C
Con respecto a este, que también apunta @Pakillo, quería comentar algo, a ver que pensáis vosotros (también para ayudarme a mi en el futuro). Cada vez que hablo de modelos jerárquicos en charlas, clases, etc. me gusta poner en las figuras y diapos al proceso de estado o latente abajo, porque me parece una forma natural de hablar de algo "latente", "subyacente" o basal, que está ahí, presente, aunque no lo podamos ver, pero que el resto de cosas se "asientan sobre él". De la misma forma, me gusta poner los procesos observacionales encima, porque siempre hablo de procesos, conteos, detecciones, etc. que "emergen" del latente, y que son las que realmente están "a la vista"... Me parece que de esa forma se puede entender mejor... pero viendo vuestros comentarios quizás todo esto sólo esté en mi cabeza y confunda más esta distribución de las figuras... ¿Cómo lo véis? Pregunta... se os ocurre otra forma de mejorar la figura que no sea cambiando la distribución? Quizás es eso de que la "A", que es la letra por la que se empieza, se encuentre abajo, y que la lectura natural de una figura sea de arriba a abajo...? Igual quitando las letras? Ya me decís...

@ibartomeus gracias por los comentarios , están incluidos! Algunas respuestas

Linea 84. No se si eso alargaria mucho la nota, pero un ejemplo de que se consideraria un modelo latente "erroneo" para un tipo de datos concretos podria ayudar. Es solo una sugerencia, si crees que complica la historia, ignora el comentario.

He incluido un comentario a ver si queda mejor... quizás queda un poco raro que hable solo del proceso observacional, pero efectivamente, también aplica al latente.

Yo la figura 3 no se si la dejaria en el apendice, por que las notas tienen un limite de palabras/figuras. A ver si cuadra como dice @Pakillo , por mostrar que en el material suplementario se han hecho análsiis...

@Pakillo lo mismo, gracias por la revisión.

* Entiendo (viendo la Fig. 3) que todos los modelos acaban infraestimando la abundancia no? ¿Alguna explicación del porqué? Tal vez sería bueno mencionarlo
He hecho un comentario. En este caso creo que se debe al escaso número de conteos repetidos, sólo 10 y muy escorados (aposta) en un rincón del área de estudio, y a la "acumulación de carreteras" cerca del sitio de mayor abundancia, por lo que los registros de solo presencia se acumulan mucho ahí... Si te dás cuenta los parámetros que peor estima son los de la elevación, que es una variable muy autocorrelacionada espacialmente... esto hace que, por ejemplo, los conteos repetidos, que están muy agregados en el espacio, no muestreen bien la variablidad de la elevación, mientras que la cobertura del bosque, al estar más parcheada, si que tiene una mejor representación en esos muestreos.

¿Las priors con distribución Normal y sd = 10 no te parecen un poco amplias? Creo que hoy día la tendencia es usar priors bastante más acotadas, ¿no te parece? Me gustaría saber tu opinión. Para esta nota en concreto me parece perfecto dejarlo así, pero si crees que en la práctica es mejor usar priors algo más restrictivas (¡que puedes no estar de acuerdo con esto!) tal vez sería bueno mencionarlo directamente en el código del material suplementario, al igual que haces cuando defines el número de cadenas e iteraciones? La eterna pregunta en inferencia bayesiana! Qué hacer con los priors?! Te pongo mi opinión, pero dejo por aquí este curso de Olivier Gimenez que está genial, por si alguien está interesad@: https://www.youtube.com/watch?v=uvU-TmEt8_M Efectivamente, he optado por seleccionar unos priors "no informativos" (hay académicos a los que no les gusta este término puesto que argumentan que, de hecho, si son informativos: la información que aportan es que "todos los valores son igual de probables para ese parámetro en cuestión"). Y de hecho, la Normal(sd=10) no es que sea "no informativo" del todo... Por ejemplo, los priors no informativos que vienen por defecto para ajustar modelos site-occupancy con el paquete hSDM son normales con sd=1000 para asegurarse que son completamente flat en un rango de valores considerables (The default variance is large and set to 1.0E6 for an uninformative flat prior "https://ecology.ghislainv.fr/hSDM/reference/hSDM.siteocc.html"). Dejarlos más acotados sí que ayuda a la maquinaria del MCMC a que no esté explorando en un rango de valores en los que probablemente no va a estar tu parámetro. Lo que yo suelo aplicar es que, si no tienes absolutamente ni idea de qué valores podrían tomar tus parámetros, quizás lo mejor es que dejes los prior lo más "planos" posibles y dejar que tus datos "hablen". Hay casos en los que, por el contrario, tienes alguna idea de los valores que puede tomar un cierto parámetro (por ejemplo, solo valores positivos cuando sabemos que una variable favorece a una especie), por lo que esos priors pueden ajustarse más. En la práctica, cuanta más información contengan tus datos (cuanto mayor tamaño muestral por ejemplo, pero no solo en este caso), menos efecto van a tener tus priors y tu análisis bayesiano tiende a converger con uno ajustado mediante maximum likelihood de toda la vida (frecuentista). Por otro lado, si tus datos tienen poca información, la distribucion a posteriori va a estar demasiado influenciada por tu prior, lo cual también es un problema... Esto se puede demostrar analíticamente en el caso de los priors conjugados (está en el curso de Olivier). Aquí hay una discusión bien bonita sobre el tema: https://stats.stackexchange.com/questions/200982/do-bayesian-priors-become-irrelevant-with-large-sample-size . Aquí un ejemplo en R que escribí hace ya algunos años: https://allthiswasfield.blogspot.com/2019/04/understanding-bayesian-inference-with.html En definitiva, como casi siempre, yo diría que no hay una norma general, y es mejor atender caso por caso :)

Gracias de nuevo por las revisiones!

Hola @jabiologo

De nuevo muchas gracias por tu dedicación a mejorar la nota y responder a todos los comentarios. Muchas gracias por todas las explicaciones.

Solo dos comentarios finales:

Para la Fig. 2 es verdad que se puede aproximar también como tú dices, partiendo de las observaciones y a partir de ahí llegar al modelo de proceso subyacente. Pero yo creo que queda más claro si primero expones el modelo de proceso (abundancia real, subpanel A) y luego enlazas ese process model con los observation models para los dos tipos de datos. Fíjate que en los paneles B y C aparecen N y lambda sin que aún los hayas definido porque se definen en el panel de abajo (A). Por tanto para entender los paneles B y C necesitas ver primero el A, y por eso pienso que mejor el A arriba, y de ahí luego salen el B y el C. Dicho esto, si tienes una opinión clara al respecto por supuesto puedes dejarlo como está, que para eso eres el autor. No problem. Al fin y al cabo no es tan importante, porque todo está en la figura, y el lector puede navegar por ella como le plazca.

En cuanto a las priors yo creo que la práctica ha cambiado mucho en la última década. En los 2000 era frecuente usar priors normales con sd = 10000. Pero luego ha ido aumentando la certeza de que estas priors con colas tan amplias fijan demasiada probabilidad en zonas implausibles (e.g. Gelman et al, o Lemoine https://doi.org/10.1111/oik.05985). Si tienes datos muy informativos por supuesto, la prior se diluye. Pero con datasets limitados como los que suelen usarse en ecología, las priors suelen ser importantes. Y a buen seguro un prior predictive check con priors muy amplias iba a mostrar valores completamente irreales.

En cualquier caso, este es un debate más general y que para nada afecta a esta nota, que cumple con creces su objetivo de explicar los modelos integrados de distribución. Si quieres dejar las priors como están, por nuestra parte sin problema :)

Dicho esto, cuando quieras puedes subir la nota revisada a la plataforma de la revista

¡Muchas gracias por tu contribución!

ecoinfAEET / Notas_Ecosistemas

Modelos de distribución de especies integrando diferentes fuentes de datos #53