Gráficos y correlación

Hola @jvcasillas ,

Espero que todo bien. Hace unas semanas me comentaste que podría subir una copia de mi código con tal de que me ayudases a pensar en un gráfico que podría usar en mi manuscrito del QP. Debería haberlo hecho ya; la verdad es que he estado dedicando mi tiempo a lo último de la recogida de datos, y justo he acordado una fecha con Jennifer para mandarle el borrador del QP. Lo que estoy intentando ilustrar es que la consistencia en la producción del subjuntivo aumenta según la frecuencia léxica y la frecuencia de activación (la interacción entre ellas salió significativa, como anticipaba). Mis datos descriptivos están en "Subjunctive Descriptive Stats" bajo "Scripts."

Además, estoy un poco liado con cómo medir la correlación entre la frecuencia léxica del corpus de Davies y las autoevaluaciones de mis participantes de herencia. He empezado a codificarlo en "Lexical Item Analysis" (algo así) en la carpeta de Scripts. Usé t() para invertir las columnas y las filas, pero no creo que sea lo que tengo que hacer. Lo que necesito es sacar un promedio del valor que cada participante me ha dado para cada ítem (es decir, un promedio para todos los valores auto-reportados de la palabra "amar") y luego compararlo con la frecuencia léxica de Davies. Implica que tendría que estandarizar las dos variables, pero incluso no sé si necesito GLM o GLMM como es 1 DV y 1 IV. Espero que no sea mucho trabajo (lo dudo), pero es que no sé los pasos que seguir para correr este análisis.

Última cosilla que seguro que sería muy rápida: ¿cómo interpreto los valores beta? Sé que cuanto más grande, más probable, pero ¿hay un valor "mínimo" que determina si algo sea significativo o no? Posiblemente no tenga nada que ver como el p pero yo qué sé…

¡Muchas gracias y no te quedes inundado en la nieve!

¡Qué máquina! Estás avanzando mucho. Bien.

Hola @jvcasillas ,

Espero que todo bien. Hace unas semanas me comentaste que podría subir una copia de mi código con tal de que me ayudases a pensar en un gráfico que podría usar en mi manuscrito del QP. Debería haberlo hecho ya; la verdad es que he estado dedicando mi tiempo a lo último de la recogida de datos, y justo he acordado una fecha con Jennifer para mandarle el borrador del QP. Lo que estoy intentando ilustrar es que la consistencia en la producción del subjuntivo aumenta según la frecuencia léxica y la frecuencia de activación (la interacción entre ellas salió significativa, como anticipaba). Mis datos descriptivos están en "Subjunctive Descriptive Stats" bajo "Scripts."

Bueno, aquí no veo una pregunta concreta. ¿Cómo puedo ayudarte? Háblame de lo que has hecho y dónde/cómo te has quedado pillado. ¿Tienes errores de la consola que me puedes enseñar?

Además, estoy un poco liado con cómo medir la correlación entre la frecuencia léxica del corpus de Davies y las autoevaluaciones de mis participantes de herencia. He empezado a codificarlo en "Lexical Item Analysis" (algo así) en la carpeta de Scripts. Usé t() para invertir las columnas y las filas, pero no creo que sea lo que tengo que hacer. Lo que necesito es sacar un promedio del valor que cada participante me ha dado para cada ítem (es decir, un promedio para todos los valores auto-reportados de la palabra "amar") y luego compararlo con la frecuencia léxica de Davies. Implica que tendría que estandarizar las dos variables, pero incluso no sé si necesito GLM o GLMM como es 1 DV y 1 IV. Espero que no sea mucho trabajo (lo dudo), pero es que no sé los pasos que seguir para correr este análisis.

Ok, quieres comparar la frecuencia léxica davies y las autoevaluaciones. Bien. Si cada participante solo da un valor por item, entonces sacas un promedio por item (collapsing over participants). Entonces, creo que lo que vas a querer hacer aquí en una combinación de group_by y summarize para sacar un promedio por item. Luego te sirve un lm. Vas a querer que las dos variables estén en columnas diferentes para sacar un plot. Intuyo que no tienes este dataframe todavía, no? ¿Te ha dado algún error cuando has usado t()? Dudo que sea la mejor estrategia, pero quizá funcione.

Última cosilla que seguro que sería muy rápida: ¿cómo interpreto los valores beta? Sé que cuanto más grande, más probable, pero ¿hay un valor "mínimo" que determina si algo sea significativo o no? Posiblemente no tenga nada que ver como el p pero yo qué sé…

Un cambio de una unidad (de lo que sea) se asocia con un aumento (o disminución) de la DV igual al valor de beta. No puedo explicar todo por aquí, pero esto lo haremos en clase en un par de semanas.

¡Muchas gracias y no te quedes inundado en la nieve!

PT

¡Qué máquina! Estás avanzando mucho. Bien.

¡Gracias, @jvcasillas ! Me importa mucho que me lo digas, la verdad. Hoy creo que gané otra batalla (con una racha de frustración pero también un sentido de propósito): aprendí a trabajar con aggregate() y para hacer left_join() con la información "agregada," y con mi nuevo triunfo hice unos gráficos. No sé si son perfectos de ninguna manera, but they're a hell of a lot better than what I could do at this time last night… Estarán en la carpeta Graphs en breves momentos, pero son un plot de cada una de las variables, y no de la interacción entre ellas. El efecto que más me importa es la interacción entre la frecuencia léxica y la frecuencia de activación en la producción del subjuntivo (tipo Average ~ FofA_Std:Token_Main_Lemma_Std). Ya hice el gráfico de proficiencia, que fue la otra variable significativa, e hice uno para la frecuencia de activación, pero no reveló mucho (y por eso no me salió como efecto significativo, obvio). No tengo ningún código para crear el supuesto gráfico de la interacción porque no sé empezar con este tipo de operación. Todavía está a unos pasos por delante.

Ok, quieres comparar la frecuencia léxica davies y las autoevaluaciones. Bien. Si cada participante solo da un valor por item, entonces sacas un promedio por item (collapsing over participants). Entonces, creo que lo que vas a querer hacer aquí en una combinación de group_by y summarize para sacar un promedio por item. Luego te sirve un lm. Vas a querer que las dos variables estén en columnas diferentes para sacar un plot. Intuyo que no tienes este dataframe todavía, no? ¿Te ha dado algún error cuando has usado t()? Dudo que sea la mejor estrategia, pero quizá funcione.

No, ya no tengo esa dataframe "invertida." No creo que me ayude. Me salió el código con t(), pero se me quedó un poquito difícil de leer. Insertó una nueva fila diciendo X1,X2,X3 y tal, y se me habría hecho difícil sacar la info de allí. Lo que no entiendo es lo de "colapsing over parts" . Conseguí sacar un promedio de cada palabra con t(), pero seguiré trabajando. Una vez que tenga mis datos organizados, me será súper fácil añadir las frecuencias lemma al DF y correr el LM.

Ultima pregunta para hoy: lme = linear mixed effects. Is this a GLMM? And is LM a GLM? Silly questions, but obviously I'm going to need to say this in the manuscript.

Muchas gracias; seguiré jugando con lo de la comparación.

Saludos, PT

¡Qué máquina! Estás avanzando mucho. Bien.

¡Gracias, @jvcasillas ! Me importa mucho que me lo digas, la verdad. Hoy creo que gané otra batalla (con una racha de frustración pero también un sentido de propósito): aprendí a trabajar con aggregate() y para hacer left_join() con la información "agregada," y con mi nuevo triunfo hice unos gráficos. No sé si son perfectos de ninguna manera, but they're a hell of a lot better than what I could do at this time last night… Estarán en la carpeta Graphs en breves momentos, pero son un plot de cada una de las variables, y no de la interacción entre ellas. El efecto que más me importa es la interacción entre la frecuencia léxica y la frecuencia de activación en la producción del subjuntivo (tipo Average ~ FofA_Std:Token_Main_Lemma_Std). Ya hice el gráfico de proficiencia, que fue la otra variable significativa, e hice uno para la frecuencia de activación, pero no reveló mucho (y por eso no me salió como efecto significativo, obvio). No tengo ningún código para crear el supuesto gráfico de la interacción porque no sé empezar con este tipo de operación. Todavía está a unos pasos por delante.

Entiendo. Creo que tienes tres opciones. Un gráfico en tres dimensiones (x, y, z), un contour plot o un marginal effects plot. Este último quizá sea la mejor opción (ejemplo 1, ejemplo 2). Me gusta porque puedes usar el modelo.

Ok, quieres comparar la frecuencia léxica davies y las autoevaluaciones. Bien. Si cada participante solo da un valor por item, entonces sacas un promedio por item (collapsing over participants). Entonces, creo que lo que vas a querer hacer aquí en una combinación de group_by y summarize para sacar un promedio por item. Luego te sirve un lm. Vas a querer que las dos variables estén en columnas diferentes para sacar un plot. Intuyo que no tienes este dataframe todavía, no? ¿Te ha dado algún error cuando has usado t()? Dudo que sea la mejor estrategia, pero quizá funcione.

No, ya no tengo esa dataframe "invertida." No creo que me ayude. Me salió el código con t(), pero se me quedó un poquito difícil de leer. Insertó una nueva fila diciendo X1,X2,X3 y tal, y se me habría hecho difícil sacar la info de allí. Lo que no entiendo es lo de "colapsing over parts" . Conseguí sacar un promedio de cada palabra con t(), pero seguiré trabajando. Una vez que tenga mis datos organizados, me será súper fácil añadir las frecuencias lemma al DF y correr el LM.

Ultima pregunta para hoy: lme = linear mixed effects. Is this a GLMM? And is LM a GLM? Silly questions, but obviously I'm going to need to say this in the manuscript.

Muchas gracias; seguiré jugando con lo de la comparación.

Saludos, PT

jaja esta última pregunta es la más complicada. Las 4 cosas que nombras representan al menos 3 cosas diferentes (4 según con quién hables), pero en pocas palabras LME = GLMM. Hay diferencias entre LM y GLM (y en verdad hay dos versiones del GLM), pero bueno hablaremos de eso en clase en un par de semanas (fíjate en el calendario).

pthane / QP-Data

Gráficos y correlación #4