danielsp13 / CorrectIt

CorrectIt: un corrector de exámenes escritos en lenguaje natural.
GNU General Public License v3.0
0 stars 0 forks source link

[M1 - Dev] Eliminación de palabras vacías (stopwords) #47

Closed danielsp13 closed 1 year ago

danielsp13 commented 1 year ago

Cuando se han finalizado todas las etapas #39 , el siguiente paso para resolver #34 consiste en eliminar lo que se denominan palabras vacías (stopwords), que son palabras que se utilizan con elevada frecuencia en el lenguaje, pero que tienen poca semántica.

En español, tenemos los siguientes ejemplos:

un, una, unas, unos, uno, sobre, todo, también, tras, otro, algún, alguno, alguna, algunos, algunas, ser, es, soy, eres, somos, sois, estoy, esta, estamos, estáis, estan, como, en, para, atrás, porque, por qué, estado, estaba, ante, antes, siendo, ambos, pero, por, poder puede, puedo, podemos, podéis, pueden fui, fue, fuimos, fueron, ...

El objetivo será definir una funcionalidad, que elimine de la lista de tokens, las palabras vacías.


Test sobre esta funcionalidad: El código implementado, se considerará válido cuando:

  1. La lista de tokens no contiene ninguna palabra vacía tras ejecutar la función.

Excepciones que deben controlarse:

  1. El resultado no contenga ningún token, en cuyo caso, lanzar excepción. Esto querrá decir que todas las palabras introducidas, son vacías.