Dudas enunciado TG2 - Githubissues

Exploratorio-DCC-PUC / Syllabus

Página principal del curso IIC1005 - Computación: Ciencia y Tecnología del Mundo Digital en su versión 2020-1

65 stars 45 forks source link

Dudas enunciado TG2 #231

Closed nicobuzeta closed 4 years ago

nicobuzeta commented 4 years ago

Hola, tengo unas dudas sobre varias partes del enunciado. 1) En el enunciado sale que hay > 100,000 videojuegos pero el archivo en el syllabus solo tiene 16,755. Falta informacion o se refiere a otra cosa el enunciado? 2) Hacemos un algoritmo por target? Osea usamos el KNN classifier para buscar el "Publisher" y el SVM regressor para el "Other_Sales"? 3) Cuanta accuracy deberiamos poder llegar con el modelo, especialmente para classificar el "Publisher? Ya que alrededor de la mitad de los publishers tienen <= 3 juegos y no da suficiente informacion para poder estimarlos con un accuracy semi-decente. Y por lo tanto mi accuracy esta muy baja. 4) La parte 3 solo lo hacemos con la informacion que tiene target de "Publisher"? Gracias

AstridESMJ commented 4 years ago

Hola @Nicobuzeta,

Ese número solo es para describir la información de la base de datos, lo importante es que ustedes vean y verifiquen el contenido del dataset.
Tiene que realizar dos experimentos que se distinguen por la clase/etiqueta, es decir, tenemos un experimento con la clase "publisher" y otro experimento con clase "other_sales". El dataset a ocupar en cada algoritmo depende si van a hacer clasificación o si van a realizar regresión.
Debes ver qué dataset te sirve para hacer la parte 3, ¿es clasificación ó regresión? (misma idea que en la pregunta 2.)

Saludos,

Astrid

nicobuzeta commented 4 years ago

Gracias, la unica duda que me quedo es la de la accuracy esperada. Ya que no se si tengo algo malo o si es imposible llegar a una accuracy "buena" en la clasificacion de "Publisher" dada la cantidad de publishers con pocos juegos.

AstridESMJ commented 4 years ago

Sobre el accuracy, debes ir probando con los parámetros del algoritmo hasta que logres el mejor entrenamiento. Si a pesar de eso no logras una accuracy tan buena debes reportar por qué crees que es así, y si los datos son suficientes para obtener una buena accuracy (en este contexto ¿qué sería una buena accuracy?).