IIC2613 / Syllabus

Repositorio oficial Inteligencia Artificial 2020-2
7 stars 1 forks source link

Noticias que solo tienen stop words #72

Open ibaeza1 opened 3 years ago

ibaeza1 commented 3 years ago

Hola! Queria preguntar si era posible que una noticia tuviera solo stop words ya que me tira ese error cuando itero sobre la tabla para ver cada noticia y trato de vectorizarlas de a una. Gracias!

Juan-AAS commented 3 years ago

Hola, la idea es que quiten las Stop Words. Ahora, podrías explicarme mejor el error que te aparece?

ibaeza1 commented 3 years ago

Cuando el for y voy noticia por noticia sacando las stop words hay una o dos noticias que cuando trato de hacer BoW despues de sacarle las stop words me dice que esta vacia y que probablemente eras solo stop words. No entiendo bien por que pasa esto. Gracias!

Juan-AAS commented 3 years ago

ya, es raro que te den textos vacíos después. Cuando hice la limpieza de los textos, no me apareció ninguna lista vacía. Hiciste algo así: for i, text in enumerate(df['text']): new_text = re.sub('[^a-zA-Z]+', ' ', text) #cleanning non-alphabetic new_text = new_text.lower() new_text = [word for word in new_text.split(sep=' ') if not word in stop] #stopswords

ibaeza1 commented 3 years ago

Hice exactamente eso :(

Juan-AAS commented 3 years ago

from nltk.corpus import stopwords stop = stopwords.words('english') esto también cierto? sorry es que aún no encuentro el porqué te quedan listas vacías. :(.

Si aun no encuentras la respuesta, intenta quitandolas de tu set de datos, para que no te quedes pegado.

Zapararte commented 3 years ago

@ibaeza1 si es que no lo hiciste antes, acuérdate que puedes quitar las filas sin datos de un DataFrame con df.dropna(). Quizás así se te arregla el problema.

jmwielandt commented 3 years ago

@JAAS1993 hola, acabo de revisar y tenemos 631 noticias en el dataset con cuerpos vacíos 1 es de la lista de verdaderas (el titular es "Graphic: Supreme Court roundup") y las otras 630 son falsas. Adjunto txt con todos los titulares que tienen cuerpos vacíos. Las voy a eliminar de mi dataset porque no tiene sentido mantenerlas, a menos que me digas lo contrario por algún extraño motivo del universo.

eliminadas.txt

Juan-AAS commented 3 years ago

@jmwielandt Hola, revisé nuevamente y claro, tienes razón! no las detecté debido a que me aparecían listas de largo uno y no cero. Bueno independientemente de eso no tuve dramas para realizar todo le proceso de la tarea. Ahora es posible que eliminandolas el rendimiento mejore. Así que adelante, eliminalas nomas!