nicolas-enjalbert / pip2021_G2

Repository for the inter-promotion projet 2021 from SID [Statistique et Informatique Décisionnelle] in data science ~ University Paul Sabatier, Toulouse, France
0 stars 0 forks source link

Crawling par site (quotidien) #7

Open nicolas-enjalbert opened 3 years ago

nicolas-enjalbert commented 3 years ago

On veut faire un crawling par site génératif

La premiere solution en V0:

La deuxième solution en V1:

nicolas-enjalbert commented 3 years ago

Bénéfice de l'API google pour le crawling quotidien :

L'utilisation brutale de Google API :

nicolas-enjalbert commented 3 years ago

Réduction du volume de requête (coûteux en temps et argent):

La première idée est de faire une recherche google avec unique les sites et la date:

nicolas-enjalbert commented 3 years ago

Cette solution qui apporte une bonne réponse est aussi longue à exécuter. Nous avons donc penser à une solution pour optimiser les exécutions.

Notre schéma général est dans un premier temps de chercher les liens des articles de tous les sites puis dans un deuxième temps de les scraper.

Un autre schéma proposé est de semi-paralléliser le processus. En lançant, le crawl sur le premier site on peut lancer au lieu d'attendre la minute d'attente de lancer le scrapeur sur les sites récupérés. Cette solution permettra d'utiliser le temps d'attente ~ voir Micka