Closed CharlesGaydon closed 4 years ago
Dans https://github.com/dataforgoodfr/batch7_rse/commit/b9f10587738e063a227a3212e3b5c18d0a62ac27, mise en place d'un filtre exigeant au moins 3 mots qui n'aient pas les pos suivants (cf. plus bas) semble bien dégager la base des segments "inutiles" ou peu informatifs !
IGNORED_POS = ["ADP", # in, to, during
"CONJ", # and, or, but
"CCONJ", # and, or, but
"DET", # a, an the
"INTJ", # psst, ouch, bravo, hello
"PART", # 's, not'
"PRON", # I, you, he, she, myself, themselves, somebody
"PUNCT", # punctuation
"SCONJ", # if, while, that
"SYM", # symbols
"X", # others
"SPACE"]
@Hugo-GEE Je pense que cette approche permet d'écarter les fragments (qui sont parfois issus d'un mauvais parsing) et les phrases peut intéressantes. Je t'en informe car je crois avoir vu une fonction isFragment dans la branche filters.
Actuellement toutes les phrases de plus de deux mots (à l'exclusion des mots de liaisons types "à", "le", etc.) peuvent être recherchées. Ca donne beaucoup de bruit et d'extrait de mots non utiles. Une possibilité serait de rajouter une étape de cleaning des phrases qui prendrait en compte les poids des mots dans la phrase, du type: