IIC2613 / Syllabus

Repositorio oficial Inteligencia Artificial 2020-2
6 stars 1 forks source link

Números negativos o decimales en BoW #83

Open FeBalla opened 3 years ago

FeBalla commented 3 years ago

¡Hola!, se supone que los vectores de BoW indican la ocurrencia de palabras en un texto y me he puesto a imprimir el vector luego de los pasos y obtengo valores negativos a veces o también decimales, lo que no me hace sentido con la definición. ¿Es esto correcto o me habré equivocado en algo? De ser correcto, ¿qué significarían este tipo de valores?

EDIT: Me di cuenta que esto ocurre al usar TruncatedSVC para reducir la dimensionalidad de la matriz, ¿esto no genera problemas posteriores en el modelo? ¿por qué cambian los valores si se supone que solo truncaba? ¿O es porque al truncar hace operaciones para no perder información? (Lo siento por tantas preguntas 🌵 )

Juan-AAS commented 3 years ago

Está bien hacer el proceso de truncar, No va a generar problemas en el modelo asi que tranqui. Vas bien!

Los valores cambian debido a productos matriciales internos que hace el método de la librería, para lograr obtener una matriz simétrica que pasa a ser una matriz de features. Si quieres saber más al respecto te invito a revisar la documentación del método en especial en qué consiste (latent semantic analysis o LSA). Generalmente este proceso es para quitar ruido de los datos y así ganar información o concentrar la información.

Haz todas las preguntas que quieras! :) Si llego a no saberla, buscaré la info e intentaré respondertela.

FeBalla commented 3 years ago

Muchas gracias!