magisterDataScienceUAI / analitcaTextual

todo lo relacionado al curso de analita textual
0 stars 0 forks source link

Guía #3

Open felipedonoso opened 2 years ago

felipedonoso commented 2 years ago

TDM

Una vez teniendo el corpus limpio, la matriz TDM o matriz término-documento (tdm) tiene cada palabras del corpus representada como una fila con los documentos como columnas.

ejemplo TDM:

image

felipedonoso commented 2 years ago

2) ¿Cuáles son los pasos necesarios para generar una representación estructurada de documentos?.

image

felipedonoso commented 2 years ago

3) La matrix de término x documento de abajo es un EJEMPLO de la representación vectorial (tf) para textos (ej. Doc1, Doc2, Doc3, etc) extraídos desde Internet (existen MUCHOS más datos que los mostrados):

Matriz de término: image

Si Ud. tuviera que realizar la tarea de clustering (utilizando cualquier técnica), por tanto tendría que “agrupar” documentos en base a las distancias entre sus vectores de representación, ¿Qué representación de las siguientes sería mejor y porqué?:

a) Transformar la matriz original en un espacio de frecuencia inversa de documento (tf x idf). Si Ud. tuviera que realizar la tarea de clustering (utilizando cualquier técnica), por tanto tendría que “agrupar” documentos en base a las distancias entre sus vectores de representación, ¿Qué representación de las siguientes sería mejor y porqué?:

b) Transformar la matriz original en un espacio de frecuencia inversa de documento (tf x idf).

image

image

image

LSA:

Viene a resolver la intuición que tenemos por ejemplo al ver un documento sobre mascotas, sabemos que perro y gatos no son sinónimos pero están relacionados. Esto es el análisis Semántico.

image