PUC-RecSys-Class / RecSysPUC-2021

MIT License
22 stars 6 forks source link

Tarea 1: Relevancia de los Items #6

Open BenjaLepe opened 3 years ago

BenjaLepe commented 3 years ago

Hola!

Al momento de evaluar cada modelo, no nos queda claro como utilizar la relevancia indicada en el enunciado (rating >= 7), puesto que en los ejemplos de los prácticos lo que se hace es calcular el vector de relevancia comparando los ítems que entrega el recomendador con los ítems que el usuario consumió realmente, para luego calcular las métricas con dicho vector. En uno de los prácticos (el de implicit) se hace un rating binario en el pre-procesamiento (similar a lo del rating >= 7 de la tarea), pero luego no pudimos ver dónde se utiliza realmente dentro del código, puesto que el vector de relevancia no considera dicho rating en ninguna parte de la comparación.

Teníamos pensado que, al momento de calcular el vector de relevancia, podíamos omitir aquellos ítems del usuario (del set de validación) que tuvieran rating < 7, y sólo utilizar los restantes al momento de comparar con los ítems recomendados (es decir, descartar ítems irrelevantes para el usuario y luego calcular el vector tal como se hacía en los prácticos).

¿Es correcto este approach? ¿o sino cómo se utiliza/interpreta la relevancia según rating dentro del cálculo del vector de relevancia que muestran en los prácticos?

afcarvallo commented 3 years ago

Hola @BenjaLepe el hecho de hacer que relevantes tengan rating mayor o igual a 7 y no relevante en caso contrario es para convertir un problema de predicción de rating a un problema binario (0 o 1) que sería el input que recibe un modelo de implicit feedback.

BFFV commented 3 years ago

Entonces, ¿estos modelos de implicit feedback aprenden a recomendar en base a los ítems que el usuario consumió y le gustaron (rating >= 7), ignorando los ítems que NO consumió o que NO le gustaron (rating < 7)?

afcarvallo commented 3 years ago

También se consideran para que aprenda a diferenciarlos. Ambos los que no consumió y los que tienen rating < = 7 son ejemplos negativos (0)

BFFV commented 3 years ago

Perfecto, entonces: ¿al momento de calcular las métricas, los ítems realmente consumidos por el usuario pero que tienen rating < 7 deberíamos ignorarlos (puesto que sino estaríamos castigando al modelo por no recomendar ítems que ni siquiera le gustaron al usuario)?

afcarvallo commented 3 years ago

Exacto, tendrían etiqueta 0 para el cálculo de la métricas

BFFV commented 3 years ago

Gracias!

BFFV commented 3 years ago

Y una última duda, para la parte del content based, cuando dice:

"Calcular una representación vectorial de cada usuario como el promedio de vectores de animes con los que ha interactuado el usuario en el dataset de entrenamiento"

¿para este cálculo los animes con rating < 7 los consideramos, o se ignoran también?

afcarvallo commented 3 years ago

También se ignoran