Closed fran-gl closed 2 years ago
Una instancia siempre ha sido un vector, por eso es que buscamos una representación numérica para los datos. Por ejemplo, si una persona tiene 36 años, 3 hijos y sexo masculino (digamos 0), su vector sería algo así como <edad, hijos, sexo> = <36, 3, 0>
.
Dicho esto, los vectores que da spaCy son la representación numérica de estos textos, es decir, algo como "Hola, me llamo Fernando" pasaría a ser <1.453, -1.3435, -3.5452...>
, que es su representación procesable para un modelo. Entonces, si para cada texto obtenemos su vector, entonces llegamos al mismo punto que siempre: varias columnas (que en este caso no tienen un significado directo) y varias filas, una por cada texto, donde estas son los vectores.
Aa ya perfecto, que queda más claro ahora. Muchas gracias por la respuesta!
Hola! Tengo una duda de la actividad 3 de la parte de SVM de la tarea 3. En el punto 4 dice que hay que crear un nuevo set de datos que tenga la representación vectorial de los textos. En la cápsula de spaCy se mostró cómo transformar un texto a un vector, pero para entrenar un SVM ¿los elementos del dataframe pueden ser vectores? ¿o deberíamos separar los componentes de los vectores en distintas columnas?
Muchas gracias de antemano.