dataforgoodfr / batch7_rse

A search engine for French corporate societal and environnemental commitments and actions.
http://dataforgood.fr/batch7_rse/
MIT License
5 stars 2 forks source link

Experimental: envoyer des résultats de requête sur des extraits plus riche en info #37

Closed CharlesGaydon closed 4 years ago

CharlesGaydon commented 4 years ago

Actuellement toutes les phrases de plus de deux mots (à l'exclusion des mots de liaisons types "à", "le", etc.) peuvent être recherchées. Ca donne beaucoup de bruit et d'extrait de mots non utiles. Une possibilité serait de rajouter une étape de cleaning des phrases qui prendrait en compte les poids des mots dans la phrase, du type:

CharlesGaydon commented 4 years ago

Dans https://github.com/dataforgoodfr/batch7_rse/commit/b9f10587738e063a227a3212e3b5c18d0a62ac27, mise en place d'un filtre exigeant au moins 3 mots qui n'aient pas les pos suivants (cf. plus bas) semble bien dégager la base des segments "inutiles" ou peu informatifs !


IGNORED_POS = ["ADP",  # in, to, during
               "CONJ",  # and, or, but
               "CCONJ",  # and, or, but
               "DET",  # a, an the
               "INTJ",  # psst, ouch, bravo, hello
               "PART",  # 's, not'
               "PRON",  # I, you, he, she, myself, themselves, somebody
               "PUNCT",  # punctuation
               "SCONJ",  # if, while, that
               "SYM",  # symbols
               "X",  # others
               "SPACE"]
CharlesGaydon commented 4 years ago

@Hugo-GEE Je pense que cette approche permet d'écarter les fragments (qui sont parfois issus d'un mauvais parsing) et les phrases peut intéressantes. Je t'en informe car je crois avoir vu une fonction isFragment dans la branche filters.