nicolas-enjalbert / pip2021_G2

Repository for the inter-promotion projet 2021 from SID [Statistique et Informatique Décisionnelle] in data science ~ University Paul Sabatier, Toulouse, France
0 stars 0 forks source link

Crawler #2

Open nicolas-enjalbert opened 3 years ago

nicolas-enjalbert commented 3 years ago

Nous utilisons 2 crawlers :

nicolas-enjalbert commented 3 years ago

Ecriture des requêtes:

On prend les listes des lexiques de Innovation et Gammes de gestion. On fait dans un premier temps une combinaison par produit cartésien entre les deux lexiques.

On tirera aléatoirement des requêtes pour limiter notre scrapping

nicolas-enjalbert commented 3 years ago

Le premier crawler prend en entrée une liste de requête , un nombre de résultat maximal par requête et une clef API.

ATTENTION : LE CRAWLER DOIT ENLEVER LES LISTES DES SITES DU G1

nicolas-enjalbert commented 3 years ago

Le premier crawler est fait le 07/01/2021. Nous essayons de le faire tourner sur une grosse partie des machines du groupes.

La première session de crawling est défini comme tel:

Certains ont eu des problèmes dû aux connexions internet ou un mauvais lancement.