Closed MayasHaddad closed 10 years ago
Oui, c'est le cas : Checked.
Il persiste beaucoup de caracteres sans aucun sens comme ... " ( < etc. De plus, les apostrophes ne sont pas presentes par defaut dans le fichier de stop word. Les 'l qu' s'... ne sont peut-etre pas retirees. Ne devrait-on pas les considerer comme des stop-words ?
Oui, tu as raison. De plus ces caractères spéciaux sont présents dans tellement de documents du corpus, qu'ils alourdissent considérablement nos fichiers .poids et notre fichier inverse. Je laisse le ticket, on se concertera sur une solution demain.
On cree un autre ticket pour l'ajout
Vérifier qu'aucun stop-word ne se trouve dans les fichiers ".poids" si (removeStopWords == true)