Experimental: envoyer des résultats de requête sur des extraits plus riche en info

dataforgoodfr / batch7_rse

A search engine for French corporate societal and environnemental commitments and actions.

http://dataforgood.fr/batch7_rse/

MIT License

5 stars 2 forks source link

Experimental: envoyer des résultats de requête sur des extraits plus riche en info #37

Closed CharlesGaydon closed 4 years ago

CharlesGaydon commented 4 years ago

Actuellement toutes les phrases de plus de deux mots (à l'exclusion des mots de liaisons types "à", "le", etc.) peuvent être recherchées. Ca donne beaucoup de bruit et d'extrait de mots non utiles. Une possibilité serait de rajouter une étape de cleaning des phrases qui prendrait en compte les poids des mots dans la phrase, du type:

poids de phrase 1 = moyenne des scores des mots (à l'exclusion des mots de liaisons par exemple)
poids de phrase 2 = somme des scores des mots (à l'exclusion des mots de liaisons par exemple)
ne garder que les 66% avec les plus hauts scores dans les deux poids (sous hypo d'indépendances ~56% des phrases gardées)

CharlesGaydon commented 4 years ago

Dans https://github.com/dataforgoodfr/batch7_rse/commit/b9f10587738e063a227a3212e3b5c18d0a62ac27, mise en place d'un filtre exigeant au moins 3 mots qui n'aient pas les pos suivants (cf. plus bas) semble bien dégager la base des segments "inutiles" ou peu informatifs !


IGNORED_POS = ["ADP",  # in, to, during
               "CONJ",  # and, or, but
               "CCONJ",  # and, or, but
               "DET",  # a, an the
               "INTJ",  # psst, ouch, bravo, hello
               "PART",  # 's, not'
               "PRON",  # I, you, he, she, myself, themselves, somebody
               "PUNCT",  # punctuation
               "SCONJ",  # if, while, that
               "SYM",  # symbols
               "X",  # others
               "SPACE"]

CharlesGaydon commented 4 years ago

@Hugo-GEE Je pense que cette approche permet d'écarter les fragments (qui sont parfois issus d'un mauvais parsing) et les phrases peut intéressantes. Je t'en informe car je crois avoir vu une fonction isFragment dans la branche filters.