nicolas-enjalbert / pip2021_G2

Repository for the inter-promotion projet 2021 from SID [Statistique et Informatique Décisionnelle] in data science ~ University Paul Sabatier, Toulouse, France
0 stars 0 forks source link

Mesures de pertinence : #6

Open nicolas-enjalbert opened 3 years ago

nicolas-enjalbert commented 3 years ago

1) popularité (excluant les sites pas intéressants) 2) apparition des mots dans résumé google + titre 3) rang de l'article dans google 4) dans un article --> nb mots du lexique

5) scraper google scholar + mesure de pertinence --> nb mots dans lexique 6) enlever les annonces

nicolas-enjalbert commented 3 years ago

Autre mesure de pertinence :

Utiliser les modèles de Jérémy pour avoir les proba si un document est sur "Innovation" ou sur "Gestion". On agrégera les scores avec l'ensemble des autres scores. Ils seront pondérés.

nicolas-enjalbert commented 3 years ago

Pondération des scores :

Popularité : pas fort car pas ultra pertinent score 0.5 Queries dans titre/résumé/articles : titre et résumé important / article pas important : score niveau 2 Lexiques dans titre/résumé/articles : titre et résumé pas important/article important : score niveau 3 Rang de l'article : agréger par site : faire une moyenne du rang et mettre des points pour les rangs les plus faible. score 2

score de Jeremy du groupe : on a deux variables on les agrège. score 5 ou 6