IIC2433 / Syllabus-2024-2

44 stars 1 forks source link

T5 - Preprocesamiento de datos #21

Open ibgarrido opened 2 weeks ago

ibgarrido commented 2 weeks ago

Hola! tengo la siguiente duda con respecto al enunciado:

El clasificador recibe una lista de array de strings que asumo debo preprocesar separando en función de los espacios, de modo de que se genere un 'vector fila' de palabras?

Por otra parte, cuando se habla del array de 0 y 1 se refiere a convertir la columa 'genero' para poder hacer el clasificador?

Saludos!

juanreutter commented 2 weeks ago

Hola, el clasificador recibe una lista de strings y tu debes procesarlo de acuerdo con las herramientas que vimos en el curso.

Y claro, vas a tener que hacer un poco de procesado de datos para hacer que todo calce con la clase que vas a hacer.

ibgarrido commented 1 week ago

Claro, el tema es que las strings son de la forma:

La señora ALLENDE.- \nGracias, Presidente. \nHe solicitado intervenir en el debate de este proyecto...

(Ejemplo de primera fila de la columna TEXTO_PRINCIPAL)

Y usando Spacy (código de la semana 12), tenemos de output, por ejemplo:

\nGracias \ngracia

Entonces mi pregunta sobre el procesamiento del texto iba a que si es posible limpiar previamente las string usando las herramientas propias de python como los métodos strip o replace.

juanreutter commented 1 week ago

Por supuesto! Estoy contando con eso ;)