Closed nicobuzeta closed 4 years ago
Hola @Nicobuzeta,
Ese número solo es para describir la información de la base de datos, lo importante es que ustedes vean y verifiquen el contenido del dataset.
Tiene que realizar dos experimentos que se distinguen por la clase/etiqueta, es decir, tenemos un experimento con la clase "publisher" y otro experimento con clase "other_sales". El dataset a ocupar en cada algoritmo depende si van a hacer clasificación o si van a realizar regresión.
Debes ver qué dataset te sirve para hacer la parte 3, ¿es clasificación ó regresión? (misma idea que en la pregunta 2.)
Saludos,
Astrid
Gracias, la unica duda que me quedo es la de la accuracy esperada. Ya que no se si tengo algo malo o si es imposible llegar a una accuracy "buena" en la clasificacion de "Publisher" dada la cantidad de publishers con pocos juegos.
Sobre el accuracy, debes ir probando con los parámetros del algoritmo hasta que logres el mejor entrenamiento. Si a pesar de eso no logras una accuracy tan buena debes reportar por qué crees que es así, y si los datos son suficientes para obtener una buena accuracy (en este contexto ¿qué sería una buena accuracy?).
Hola, tengo unas dudas sobre varias partes del enunciado. 1) En el enunciado sale que hay > 100,000 videojuegos pero el archivo en el syllabus solo tiene 16,755. Falta informacion o se refiere a otra cosa el enunciado? 2) Hacemos un algoritmo por target? Osea usamos el KNN classifier para buscar el "Publisher" y el SVM regressor para el "Other_Sales"? 3) Cuanta accuracy deberiamos poder llegar con el modelo, especialmente para classificar el "Publisher? Ya que alrededor de la mitad de los publishers tienen <= 3 juegos y no da suficiente informacion para poder estimarlos con un accuracy semi-decente. Y por lo tanto mi accuracy esta muy baja. 4) La parte 3 solo lo hacemos con la informacion que tiene target de "Publisher"? Gracias