IIC2413 / Syllabus-2020-1

36 stars 22 forks source link

Scoring en Cross-Validation #402

Open benjaurr opened 4 years ago

benjaurr commented 4 years ago

En la pregunta 2.2 del control, al hacer la regresión con cross-validation, a partir del notebook de ML, me entrega scores de valores en los millones. Al probar con distintos parametros para scoring en el cross validation, me cambian estos valores.

¿Que significa este parametro scoring? ¿Los scores tienen que ser resultados entre 0 y 1?

juanreutter commented 4 years ago

En clases lo explicamos un poco, si tu scoring es neg_mean_squared_error, ese valor se saca como el cuadrado de el error entre el valor real y el predecido (en el set de test). Mira https://en.wikipedia.org/wiki/Mean_squared_error.

Pero hay miles de formas de asignar ese score. A un alto nivel, el score se trata de qué tan bien lograste fitear la curva, pero considerando ahora el set de test (que no fue usado para entrenar)

benjaurr commented 4 years ago

Si ocupo ese mismo scoring (neg_mean_squared_error), me da scores, medias y desviaciones muy altos, y si ocupo otros, me da valores mucho mas bajos (entre 0 y 1 de hecho). ¿Como se cual es el que debería ocupar, o no es realmente relevante?

juanreutter commented 4 years ago

No es relevante, no te preocupes, eso escapa de este curso. Lo que pasa es que algunos tipos de score se nornalizan para que den siempre valores entre ceros y unos, y otros no. La gracia de normalizar es poder comparar distintos modelos (como te vas a dar cuenta si haces tambien el fit con personal).

benjaurr commented 4 years ago

Ok, muchas gracias!