Open ibaeza1 opened 3 years ago
Hola, la idea es que quiten las Stop Words. Ahora, podrías explicarme mejor el error que te aparece?
Cuando el for y voy noticia por noticia sacando las stop words hay una o dos noticias que cuando trato de hacer BoW despues de sacarle las stop words me dice que esta vacia y que probablemente eras solo stop words. No entiendo bien por que pasa esto. Gracias!
ya, es raro que te den textos vacíos después. Cuando hice la limpieza de los textos, no me apareció ninguna lista vacía. Hiciste algo así:
for i, text in enumerate(df['text']):
new_text = re.sub('[^a-zA-Z]+', ' ', text) #cleanning non-alphabetic
new_text = new_text.lower()
new_text = [word for word in new_text.split(sep=' ') if not word in stop] #stopswords
Hice exactamente eso :(
from nltk.corpus import stopwords
stop = stopwords.words('english')
esto también cierto? sorry es que aún no encuentro el porqué te quedan listas vacías. :(.
Si aun no encuentras la respuesta, intenta quitandolas de tu set de datos, para que no te quedes pegado.
@ibaeza1 si es que no lo hiciste antes, acuérdate que puedes quitar las filas sin datos de un DataFrame con df.dropna()
. Quizás así se te arregla el problema.
@JAAS1993 hola, acabo de revisar y tenemos 631 noticias en el dataset con cuerpos vacíos 1 es de la lista de verdaderas (el titular es "Graphic: Supreme Court roundup") y las otras 630 son falsas. Adjunto txt con todos los titulares que tienen cuerpos vacíos. Las voy a eliminar de mi dataset porque no tiene sentido mantenerlas, a menos que me digas lo contrario por algún extraño motivo del universo.
@jmwielandt Hola, revisé nuevamente y claro, tienes razón! no las detecté debido a que me aparecían listas de largo uno y no cero. Bueno independientemente de eso no tuve dramas para realizar todo le proceso de la tarea. Ahora es posible que eliminandolas el rendimiento mejore. Así que adelante, eliminalas nomas!
Hola! Queria preguntar si era posible que una noticia tuviera solo stop words ya que me tira ese error cuando itero sobre la tabla para ver cada noticia y trato de vectorizarlas de a una. Gracias!