Preparing Model - Githubissues

pthane commented 4 years ago

Hi @jvcasillas ,

Gracias por charlar conmigo hoy. ¡Me gustó verte a ti y a Alicia! De nuevo, felicidades. Quisiera saber si puedes dejarme aquí el código que ibas apuntando y si podrías pasarme el nombre del modelo que correré. También me preguntaba si aconsejarías que fuese simulando los datos para hacer un análisis de poder a mano. Lo hice para mi proyecto en tu clase, y creo que valdría la pena porque es más práctica con R y a lo mejor me ahorraría tiempo si no tengo que recoger tantos datos. Si al final habré tardado más armando un modelo que recogiendo datos de cinco personas más, pues es lo que hay. También puedo mirar los datos estadísticos de David y Silvia si me dices qué es que tengo que buscar (beta score, ¿vd?), pero no usaron variables continuas…

¡Saludos! PT

jvcasillas commented 4 years ago

Esto es lo que apunté:

Modelo para RQ1: is_subj ~ group + lex_frq_m + lex_frq_s + (1|sub) + (1|items)

GLMM (logisitic regression, mixed effects)
DV: is_subj (binario, subj/not subj)
IVs:
- group (categorical)
- lexical freq. modal verb (continuous)
- lexical freq. sub. verb (continuous)

Modelo para RQ2: prop_subj ~ frq_act + lex_frq + prof

LM (linear model, probablemente no harán falta efectos aleatorios) DV: prop_subj (continua) IVs:
- frq_act (continua)
- frq_lex (continua)
- prof (continua)

Como dices, antes de simular datos habrá que revisar los estudios de David y Silvia para ver si podemos hacernos una idea del tamaño del efecto. Me temo que va a ser difícil porque si recuerdo bien no tienen los mismos factores. De todas formas, hacer best estimates basándote en su trabajo es mejor que no hacer nada. Recomiendo que investigues un poco los paquetes faux y simr porque te pueden ayudar cuando toque hacer simulaciones.

pthane commented 4 years ago

Hola Joseph,

Me dieron risa los nombres de los paquetes jajaja…Bueno, ¿también podrías compartir la fórmula para standardized score? Recién miraré sus datos.

Saludos, PT

jvcasillas commented 4 years ago

Supongamos que tienes un dataframe (df) con una columna con los valores de la frecuencia léxica de cada verbo (freq_l).

df %>%
  mutate(freq_l_std = (freq_l - mean(freq_l)) / sd(freq_l))

La función mutate crea una columna nueva freq_l_std que tiene un promedio de 0 y una desviación típica de 1.

Luego lo puedes comprobar:

mean(df$freq_l_std)
sd(df$freq_l_std)

pthane commented 4 years ago

Hola Joseph,

Me salió el código, pero lo que me pregunto es cómo representar esta información en prosa. En el manuscrito, tengo una tabla con la lista de verbos matrices/subordinados y sus frecuencias en el corpus Davies. Pues, me imagino que lo único que haría falta sería reportar el valor z para cada ítem, y este valor sería el número que me sale en la columna freq_l_std para cada item, ¿verdad? Entonces, si quisiera saber cuántos tokens habría cuando z = 0, ¿cómo lo haría?

jvcasillas commented 4 years ago

No tienes que reportar los valores estandarizados en el manuscrito. Es algo que se hace solamente para el modelo. De hecho es más útil para el lector ver los valores verdaderos en la tabla... son más fáciles de interpretar. Eso sí, cuando des una descripción del modelo en la sección de análisis estadístico tienes que mencionar que has estandarizado esas variables. ("the predictors x and z were centered and scaled to have a mean of 0 and a standard deviation of 1")

Centered and scaled is another way people say "standardized". También puedes decir "were converted to z-scores".

pthane commented 4 years ago

Riiiiiight. So, ¿no tengo que documentar los z-scores? Me parece que no es importante, pero siempre me temo que me vaya a tocar un reviewer muy tiquismiquis…

jvcasillas commented 4 years ago

No tienes que reportar los valores estandarizados en el manuscrito.

pthane commented 3 years ago

Hi Joseph,

Voy a actualizar los scripts que he ido haciendo para calcular las z.-scores. He revisado los estudios de Silvia y David como sugeriste. El estudio de Silvia tuvo 17 participantes y él de David 29. Salieron efectos principales para los dos estudios pero David los dividió en grupos de proficiencia. Pues si entiendo bien, 30 por grupo sería un buen punto de referencia para mí estudio puesto que tengo todas las variables como continuas. ¿Así ves? Dadas las circunstancias de la recogida de datos, si me saliera un efecto con menos participantes, estaría más contento, pero en el caso de que no pueda recoger de los aprendices en la primavera, tengo contactos en otras partes de NJ que pueden servirme si fuera necesario. Gracias en antelación.

Un saludo, PT

jvcasillas commented 3 years ago

Hi Joseph,

Voy a actualizar los scripts que he ido haciendo para calcular las z.-scores. He revisado los estudios de Silvia y David como sugeriste. El estudio de Silvia tuvo 17 participantes y él de David 29. Salieron efectos principales para los dos estudios pero David los dividió en grupos de proficiencia.

Quieres decir que dividió los 29 participantes en distintos grupos? Muy pocos participantes, no?

Pues si entiendo bien, 30 por grupo sería un buen punto de referencia para mí estudio puesto que tengo todas las variables como continuas. ¿Así ves?

Recuérdame lo que significa grupo en tu estudio (soy viejo y se me olvidan las cosas). Pregunto porque dices 30 por grupo y luego que todas las variables son continuas.

Dadas las circunstancias de la recogida de datos, si me saliera un efecto con menos participantes, estaría más contento, pero en el caso de que no pueda recoger de los aprendices en la primavera, tengo contactos en otras partes de NJ que pueden servirme si fuera necesario. Gracias en antelación.

Un saludo, PT

pthane commented 3 years ago

Hola Joseph,

Quieres decir que dividió los 29 participantes en distintos grupos? Muy pocos participantes, no?

Poquísimos, pero revisé el estudio incorrecto. Es que David ha publicado 3 artículos muy parecidos sobre el subjuntivo el año pasado, y elegí Giancaspro (2019a) y no (2019c). Oops. Entonces tuvo 22 "avanzados" de herencia y 20 participantes de control, pero no hubo otro grupo de hablantes de herencia. Todavía pocos, pero ahora se entiende más.

Recuérdame lo que significa grupo en tu estudio (soy viejo y se me olvidan las cosas). Pregunto porque dices 30 por grupo y luego que todas las variables son continuas.

No te preocupes, no tan viejo todavía… :) Me refiero a participantes de comparación, hablantes de herencia, y aprendices como los 3 grupos de mi estudio. Como variables continuas tengo la frecuencia léxica (token frequency in Davies), la proficiencia (DELE), y la frecuencia de activación/uso del español (suma de varias escalas en el cuestionario). Es decir, son grupos orgánicos (bueno, más auténticos que "high and low proficiency" pero no hay nada homogéneo en la lingüística).

pthane / QP-Data

Preparing Model #1