Malos resultados con w2v

JuanDlugo commented 3 years ago

Hola! Quería preguntar si es normal tener malos resultados en nuestros clasificadores al usar w2v? Por lo que decía el enunciado debería ser mejor que Bow, pero tuve resultados muy buenos con BoW y con w2v estoy teniendo alrededor de un 60% con Random Forest y 54% con SVM. Entonces creo que estoy procesando mal la data, pero pregunto por si acaso fuera normal. Lo otro que no me hace mucho sentido es que debamos entrenar el vector w2v con todas nuestras palabras y que luego lo usemos para entrenar el clasificador, no sería en parte esto overfitting?

Gracias de antemano

JuanDlugo commented 3 years ago

No pasa nada ya lo solucione :)

Juan-AAS commented 3 years ago

Con respecto a lo de entrenar word2vec, claro tienes razón que produce overfitting, aún así igual se hace, no se va a penalizar esta práctica para generar el embedding. Ahora, aquí puedes hacer lo siguiente, que es entrenar este word2vec con el set de entrenamiento y luego con este modelo entrenado generar el embedding de todo el dataset. Para alclarar aún más la duda, por lo general se descargan modelos w2v pre-entrenados para generar embeddings de otros sets. Sin embargo, estos igual pesan harto y no quise darles más problemas de memoria ya que el dataset con el que están trabajando es de por si pesado :/.

IIC2613 / Syllabus

Malos resultados con w2v #98