PUC-RecSys-Class / RecSysPUC-2020

Material del curso de Sistemas Recomendadores IIC3633 PUC Chile
MIT License
72 stars 16 forks source link

[Tarea] Consultas Enunciado Tarea 1 #9

Closed mcartagenah closed 3 years ago

Jiruiz2 commented 4 years ago

Hola,

Quería saber si es que un mismo usuario puede ver la misma imagen dos veces, es decir, si en la base de datos se pueden repetir valores de user_id y item_id

Saludos.

mcartagenah commented 3 years ago

En el dataset no se repiten valores user_id - item_id

Saludos!

FloValdes commented 3 years ago

Hola, cuando dicen que analicemos las métricas en ALS y BPR en función del tiempo, se refieren al número de iteraciones?

Gracias.

Jiruiz2 commented 3 years ago

Hola,

Tengo tres dudas sobre la tarea:

Saludos.

Regenschrim commented 3 years ago

¿Los valores de las medias y desviaciones estandar que debemos calcular en la primera parte deben incluir toda la matriz, es decir, considerando los 0's de las interacciones que no han ocurrido o solo considerando las interacciones ocurridas?

Gracias!

mcartagenah commented 3 years ago

Hola,

Tengo tres dudas sobre la tarea:

  • ¿Qué esperan que se haga en los análisis de sensibilidad además de calcular los map y ndcg? Por ejemplo, quieren que hagamos tablas y veamos que tanto afecta el cambio de un parámetro al mantener los otros fijos o se requiere otra cosa.

Claro, un análisis de sensibilidad implica mostrar cómo se comporta un modelo cuando solo varías un parámetro, por lo tanto, puedes probar distintos valores de un parámetro mientras los demás no los cambias y mostrar eso en una tabla.

  • ¿Qué esperan que muestren los gráficos? Por ejemplo, se debe graficar el map vs tiempo y el ndcg vs tiempo o se deben incluir los parámetros y sus resultados (entendiendo que hay 12 combinaciones para estos en BPR).

No me queda muy claro de las combinaciones que te refieres, pero puedes graficar ambas métricos en un solo gráfico para cada uno de los análisis de sensibilidad, y los tiempos en una tabla por ejemplo.

  • ¿A qué se refieren con negative sampling en BPR? Busqué en internet y me dice que es para valores negativos, sin embargo no entiendo como puede ocurrir esto con el dataset que nos entregaron.

Una estrategia de negative sampling se puede entender como la forma en que considerarás tus ejemplos positivos y negativos para un usuario al samplear, un ejemplo clásico sería tomar items dentro de los consumidos como positivos y los que no ha consumido como negativos. Se puede hacer ese sampleo de muchas formas distintas.

Saludos.

mcartagenah commented 3 years ago

¿Los valores de las medias y desviaciones estandar que debemos calcular en la primera parte deben incluir toda la matriz, es decir, considerando los 0's de las interacciones que no han ocurrido o solo considerando las interacciones ocurridas?

Solo considerando las interacciones.

Gracias!

VinceValence commented 3 years ago

Hola @mcartagenah , respecto a cuando dices "...puedes graficar ambas métricos en un solo gráfico para cada uno de los análisis de sensibilidad, y los tiempos en una tabla por ejemplo.", ¿en función de qué deberíamos graficar las métricas?

mcartagenah commented 3 years ago

Me refería que para un análisis de sensibilidad, por ejemplo para el learning rate, puedes hacer en un puro gráfico con map y ndcg en el eje Y, y en el eje X los valores de learning rate.

Para los tiempos puede ser una tabla o un gráfico, depende de ti, quizás si las escalas no son muy distintas puedes poner los valores en un gráfico, o sino en una tabla. Como creas que se entenderá mejor.

VinceValence commented 3 years ago

Ok, muchas gracias Manuel

lucastack commented 3 years ago

Hola, en el enunciado de la tarea, al principio, dice que tenemos que entregar 20 recomendaciones, pero después, en las secciones de los modelos 2 y 3, se dice que generemos listas de 10 recomendaciones por usuario, ¿cuántas son finalmente, 10 o 20?

afcarvallo commented 3 years ago

Hola @lucastack , las 10 recomendaciones por usuario son las que se tienen que generar en formato json con su mejor método para que nosotros hagamos el ranking de las mejores tareas ocupando un set de test que no tienen ustedes. Por otra parte las 20 recomendaciones se piden para que puedan reportar resultados de MAP@20 y NDCG@20 donde se pida. Saludos!