IIC2613 / Syllabus

Repositorio oficial Inteligencia Artificial 2020-2
6 stars 1 forks source link

Rendimiento excesivamente bueno por 'Reuters' #85

Open cnsfeir opened 3 years ago

cnsfeir commented 3 years ago

Implementé SVC con BoW y (asumiendo que no estoy haciendo nada mal) estoy obteniendo un accuracy de 99.5% . En el paper que se da de referencia se menciona que obtuvieron un accuracy de 92% por lo tanto, dudé de mis resultados. Buscando el por qué me di cuenta que todas las noticias verdaderas incluían la palabra 'reuters' (por el website desde donde fueron sacadas las noticias).

Descarté 'reuters' de la lista de palabras que analizo y mi modelo bajó a un accuracy de 94.1%. Sin embargo sigue siendo más alto que el 92% de referencia. Leí en el paper que al parecer ellos testaron su modelo con un dataset distinto al nuestro ¿Debería preocuparme por el alto accuracy y revisar si estoy haciendo algo mal? ¿Deberíamos descartar la palabra 'reuters' para hacer más realista el modelo?

Juan-AAS commented 3 years ago

La palabra 'reuters' es el nombre de la página web de donde sacan las noticias, por lo que no debería ser una causa muy significativa de los resultados obtenidos. En el paper mencionado, usan otro método para la extracción de features o codificación (TF-IDF), esto también podría ser un factor de la diferencia de resultados.

Lo que puedo decir de la palabra 'reuters' es una palabra que solo va aparecer en las noticias verdaderas y es bien frecuente (~30000 veces) ¿qué les puede decir esto a ustedes? es posible que al quitar esta palabra se modifique algún patrón al momento de la clasificación.

Siempre es preocupante tener accuracies altos ya que puede que algo ande mal, pero tampoco es bueno ver el vaso medio vacío ajja, confía en lo que estás haciendo :). Ahora ¿este accuracy lo estás obteniendo en el testeo o en la validación? No te preocupes si el modelo está bien generalizable o no, la idea de la tarea es que se familiarisen con los algoritmos de clasificación, manejo de datos, metodologías para tener buenos rendimientos, entre otras cosas. Si obtuvieron una mala exactitud no significa que van a tener menos puntos, mientras coloquen lo que creen, bien fundamentado obviamente, del porqué sus resultados estará bien. Si quieres mayor exactitud, quita la palabra que quizás genera ruido.