[T3] [SVM] Duda Actividad 3

fran-gl commented 2 years ago

Hola! Tengo una duda de la actividad 3 de la parte de SVM de la tarea 3. En el punto 4 dice que hay que crear un nuevo set de datos que tenga la representación vectorial de los textos. En la cápsula de spaCy se mostró cómo transformar un texto a un vector, pero para entrenar un SVM ¿los elementos del dataframe pueden ser vectores? ¿o deberíamos separar los componentes de los vectores en distintas columnas?

Muchas gracias de antemano.

FeBalla commented 2 years ago

Una instancia siempre ha sido un vector, por eso es que buscamos una representación numérica para los datos. Por ejemplo, si una persona tiene 36 años, 3 hijos y sexo masculino (digamos 0), su vector sería algo así como <edad, hijos, sexo> = <36, 3, 0>.

Dicho esto, los vectores que da spaCy son la representación numérica de estos textos, es decir, algo como "Hola, me llamo Fernando" pasaría a ser <1.453, -1.3435, -3.5452...>, que es su representación procesable para un modelo. Entonces, si para cada texto obtenemos su vector, entonces llegamos al mismo punto que siempre: varias columnas (que en este caso no tienen un significado directo) y varias filas, una por cada texto, donde estas son los vectores.

fran-gl commented 2 years ago

Aa ya perfecto, que queda más claro ahora. Muchas gracias por la respuesta!

IIC2613-Inteligencia-Artificial-2022-1 / Syllabus

[T3] [SVM] Duda Actividad 3 #85