Open nicolas-enjalbert opened 3 years ago
Ecriture des requêtes:
On prend les listes des lexiques de Innovation et Gammes de gestion. On fait dans un premier temps une combinaison par produit cartésien entre les deux lexiques.
On tirera aléatoirement des requêtes pour limiter notre scrapping
Le premier crawler prend en entrée une liste de requête , un nombre de résultat maximal par requête et une clef API.
ATTENTION : LE CRAWLER DOIT ENLEVER LES LISTES DES SITES DU G1
Le premier crawler est fait le 07/01/2021. Nous essayons de le faire tourner sur une grosse partie des machines du groupes.
La première session de crawling est défini comme tel:
Certains ont eu des problèmes dû aux connexions internet ou un mauvais lancement.
Nous utilisons 2 crawlers :