MayasHaddad / french-search-engine-lite

A light search engine, which can perfom (I hope) a research on two million files (French Only) — School work
MIT License
1 stars 0 forks source link

Est-ce que les stop-words sont correctement supprimés ? #6

Closed MayasHaddad closed 10 years ago

MayasHaddad commented 10 years ago

Vérifier qu'aucun stop-word ne se trouve dans les fichiers ".poids" si (removeStopWords == true)

MayasHaddad commented 10 years ago

Oui, c'est le cas : Checked.

VanheckeVincent commented 10 years ago

Il persiste beaucoup de caracteres sans aucun sens comme ... " ( < etc. De plus, les apostrophes ne sont pas presentes par defaut dans le fichier de stop word. Les 'l qu' s'... ne sont peut-etre pas retirees. Ne devrait-on pas les considerer comme des stop-words ?

MayasHaddad commented 10 years ago

Oui, tu as raison. De plus ces caractères spéciaux sont présents dans tellement de documents du corpus, qu'ils alourdissent considérablement nos fichiers .poids et notre fichier inverse. Je laisse le ticket, on se concertera sur une solution demain.

VanheckeVincent commented 10 years ago

On cree un autre ticket pour l'ajout