laurafdeza / Dissertation

0 stars 2 forks source link

Probabilities, z-scores and ranef #10

Open laurafdeza opened 3 years ago

laurafdeza commented 3 years ago

Hola, @jvcasillas :

Estuve mirando cómo interpretar el report de los modelos con pitch, rhythm y visuospatial abilities y tengo varias preguntas.

  1. En las probabilities, como por ejemplo, del modelo que incluye pitch anticipation como fixed effects (line 122), salen un montón de estimates según el valor de pitch. Cuando el predictor es categórico, entiendo que haya una probabilidad para cada posible valor porque los valores son limitados. Al ser pitch una variable continua, salen un montón de posibilidades pero, en realidad, en la tabla no me parece que sean tan informativas. En lugar de en una tabla, se podrían incluir como una figura con la distribución? O si se dejan en una tabla, coger sólo los extremos y algunas entre medias?

  2. Como medida de pitch y rhythm cogí los z-scores. Los z-scores son las desviaciones respecto a la media del grupo, no? Al intentar interpretar los resultados de rhythm, me entró la duda de si z-scores era lo que realmente quería, porque en rhythm quiero como medida cuál es la desviación del momento en el que empieza el beat con el que los participantes tenían que hacer el tap. Entonces, ese momento sería también 0, pero los scores que necesito no son exactamente los z-scores, no?

  3. En random effects (line 100), por qué para participante sí se incluyen los time terms como random slopes pero para targets no?

jvcasillas commented 3 years ago

Estuve mirando cómo interpretar el report de los modelos con pitch, rhythm y visuospatial abilities y tengo varias preguntas.

  1. En las probabilities, como por ejemplo, del modelo que incluye pitch anticipation como fixed effects (line 122), salen un montón de estimates según el valor de pitch. Cuando el predictor es categórico, entiendo que haya una probabilidad para cada posible valor porque los valores son limitados. Al ser pitch una variable continua, salen un montón de posibilidades pero, en realidad, en la tabla no me parece que sean tan informativas. En lugar de en una tabla, se podrían incluir como una figura con la distribución? O si se dejan en una tabla, coger sólo los extremos y algunas entre medias?

Si el modelo te está dando muchos parameter estimates para pitch será porque no lo has incluido como variable continua. Míralo otra vez para asegurarte.

  1. Como medida de pitch y rhythm cogí los z-scores. Los z-scores son las desviaciones respecto a la media del grupo, no? Al intentar interpretar los resultados de rhythm, me entró la duda de si z-scores era lo que realmente quería, porque en rhythm quiero como medida cuál es la desviación del momento en el que empieza el beat con el que los participantes tenían que hacer el tap. Entonces, ese momento sería también 0, pero los scores que necesito no son exactamente los z-scores, no?

No entiendo la pregunta. ¿Medida de pitch y rhythm para qué?

  1. En random effects (line 100), por qué para participante sí se incluyen los time terms como random slopes pero para targets no?

Incluiste random slopes para targets in el modelo? Creo que no.

laurafdeza commented 3 years ago

Si el modelo te está dando muchos parameter estimates para pitch será porque no lo has incluido como variable continua. Míralo otra vez para asegurarte.

Dice "numeric", pero si vuelvo a pasar los modelos con random slopes para targets puedo ver qué pasa entonces.

No entiendo la pregunta. ¿Medida de pitch y rhythm para qué?

En mi modelo, pitch score y rhythm score están incluidos como fixed effects de la habilidad de los hablantes para usar lexical stress como cue. Esos scores son los z-scores de los tiempos de cada participante en las pruebas en las que miro cuándo reaccionan al cambio en pitch y cómo anticipan cuándo empieza el siguiente beat. Ahora, los z-scores lo que hacen es tomar la media como 0 y calcular la desviación de la media a partir de 0 en lugar de, por ejemplo, 0.5 ms, no? Yo lo que querría para los scores de rhythm no es cuánto se desvía cada participante de la media temporal, sino cuánto se desvían del momento en el que empieza el beat con el que tienen que tap. Es decir, si z-score = (observation - mean)/sd, yo lo que quiero para rhythm es score = observation - "ms in which beat starts".

Incluiste random slopes para targets in el modelo? Creo que no.

No, sólo el intercept. Esa es mi pregunta, si no habría que incluir random slopes para cada time term.

jvcasillas commented 3 years ago

Si el modelo te está dando muchos parameter estimates para pitch será porque no lo has incluido como variable continua. Míralo otra vez para asegurarte.

Dice "numeric", pero si vuelvo a pasar los modelos con random slopes para targets puedo ver qué pasa entonces.

Tal como te ha salido en el summary no es numeric. Si lo fuera te daría sólo un número.

No entiendo la pregunta. ¿Medida de pitch y rhythm para qué?

En mi modelo, pitch score y rhythm score están incluidos como fixed effects de la habilidad de los hablantes para usar lexical stress como cue. Esos scores son los z-scores de los tiempos de cada participante en las pruebas en las que miro cuándo reaccionan al cambio en pitch y cómo anticipan cuándo empieza el siguiente beat. Ahora, los z-scores lo que hacen es tomar la media como 0 y calcular la desviación de la media a partir de 0 en lugar de, por ejemplo, 0.5 ms, no? Yo lo que querría para los scores de rhythm no es cuánto se desvía cada participante de la media temporal, sino cuánto se desvían del momento en el que empieza el beat con el que tienen que tap. Es decir, si z-score = (observation - mean)/sd, yo lo que quiero para rhythm es score = observation - "ms in which beat starts".

Pero a ver... qué es el z-score originalmente? Dices que representan los tiempos de cada participante en las pruebas en las que miras cuándo reaccionan al cambio en pitch y cómo anticipan cuándo empieza el siguiente beat. No es eso lo que quieres? Como es diferente esa medida con respecto a "observation - ms in which beat starts"? Al final necesitas un score de cada persona que dé una indicación de qué tan "bien" hacen la otra prueba. No importa si esta distribución se normalice o no. Tenía entendido que ibas a usar los efectos aleatorios de esos primeros modelos para sacar el score de cada participante. No es así?

Incluiste random slopes para targets in el modelo? Creo que no.

No, sólo el intercept. Esa es mi pregunta, si no habría que incluir random slopes para cada time term.

Ah ya veo. Supongo que hay 2 razones: 1) Tienes una hipótesis de por qué target fixation variaría para cada ítem según los time terms? 2) añades complejidad al modelo (mira la cantidad de parametros de efectos aleatorios que estima el modelo y multiplícala por 2)

laurafdeza commented 3 years ago

Tal como te ha salido en el summary no es numeric. Si lo fuera te daría sólo un número.

Probé otra vez y tanto en el dataset como en las predicciones sale considerado como numeric. Seguiré investigando.

Pero a ver... qué es el z-score originalmente? Dices que representan los tiempos de cada participante en las pruebas en las que miras cuándo reaccionan al cambio en pitch y cómo anticipan cuándo empieza el siguiente beat. No es eso lo que quieres? Como es diferente esa medida con respecto a "observation - ms in which beat starts"? Al final necesitas un score de cada persona que dé una indicación de qué tan "bien" hacen la otra prueba. No importa si esta distribución se normalice o no. Tenía entendido que ibas a usar los efectos aleatorios de esos primeros modelos para sacar el score de cada participante. No es así?

Sí sí, perdona, me estaba confundiendo con WM. Al final usé random effects. En el caso de pitch creo que sí sé cómo interpretarlos, pero en el caso de rhythym, cuanto más cerca esté de 0 mejor, no? Porque cuando menos diferencia haya, más cerca estaban del inicio del beat.

Ah ya veo. Supongo que hay 2 razones: 1) Tienes una hipótesis de por qué target fixation variaría para cada ítem según los time terms? 2) añades complejidad al modelo (mira la cantidad de parametros de efectos aleatorios que estima el modelo y multiplícala por 2)

Sí. Si los participantes están más familiarizados con un verbo es posible que anticipen antes, a pesar de que todos los verbos tengan la misma estructura fonológica. Esto ya lo entiendo.

jvcasillas commented 3 years ago

Tal como te ha salido en el summary no es numeric. Si lo fuera te daría sólo un número.

Probé otra vez y tanto en el dataset como en las predicciones sale considerado como numeric. Seguiré investigando.

Acabo de mirar el script 03_analysis_gca.R. ¿Qué son rhythm_dev y pitch_dev? O sea ¿qué significa dev? Parece que en la parte donde estimas las probabilidades has metido todos los valores unicos del dataframe para pitch y por eso sale una predicción para cada uno. Mira la línea 667.

Pero a ver... qué es el z-score originalmente? Dices que representan los tiempos de cada participante en las pruebas en las que miras cuándo reaccionan al cambio en pitch y cómo anticipan cuándo empieza el siguiente beat. No es eso lo que quieres? Como es diferente esa medida con respecto a "observation - ms in which beat starts"? Al final necesitas un score de cada persona que dé una indicación de qué tan "bien" hacen la otra prueba. No importa si esta distribución se normalice o no. Tenía entendido que ibas a usar los efectos aleatorios de esos primeros modelos para sacar el score de cada participante. No es así?

Sí sí, perdona, me estaba confundiendo con WM. Al final usé random effects. En el caso de pitch creo que sí sé cómo interpretarlos, pero en el caso de rhythym, cuanto más cerca esté de 0 mejor, no? Porque cuando menos diferencia haya, más cerca estaban del inicio del beat.

En los datos crudos, sí. Si los has estandarizados entonces 0 significa el promedio de las desviaciones (desde 0 al button press).

Ah ya veo. Supongo que hay 2 razones: 1) Tienes una hipótesis de por qué target fixation variaría para cada ítem según los time terms? 2) añades complejidad al modelo (mira la cantidad de parametros de efectos aleatorios que estima el modelo y multiplícala por 2)

Sí. Si los participantes están más familiarizados con un verbo es posible que anticipen antes, a pesar de que todos los verbos tengan la misma estructura fonológica. Esto ya lo entiendo.

laurafdeza commented 3 years ago

Acabo de mirar el script 03_analysis_gca.R. ¿Qué son rhythm_dev y pitch_dev? O sea ¿qué significa dev? Parece que en la parte donde estimas las probabilidades has metido todos los valores unicos del dataframe para pitch y por eso sale una predicción para cada uno. Mira la línea 667.

Cuando paso ranef() a los modelos de sus pruebas para sacar los scores, salen dos valores condval y condsd. Para saber cuál era de cada uno, condval pasó a ser pitch_dev y rhythm_dev y condsd pitch_sd y rhythm_sd. La línea 667, no es para seleccionar las variables que tengo que usar para hacer el fit del modelo? Es decir, si no incluía pitch_dev y rhythm_dev, luego me daba error porque en new_dat_all no estaban incluidas.

En los datos crudos, sí. Si los has estandarizados entonces 0 significa el promedio de las desviaciones (desde 0 al button press).

Vale, creo que entiendo. Gracias!