Open nicolas-enjalbert opened 3 years ago
Bénéfice de l'API google pour le crawling quotidien :
L'utilisation brutale de Google API :
Réduction du volume de requête (coûteux en temps et argent):
La première idée est de faire une recherche google avec unique les sites et la date:
Cette solution qui apporte une bonne réponse est aussi longue à exécuter. Nous avons donc penser à une solution pour optimiser les exécutions.
Notre schéma général est dans un premier temps de chercher les liens des articles de tous les sites puis dans un deuxième temps de les scraper.
Un autre schéma proposé est de semi-paralléliser le processus. En lançant, le crawl sur le premier site on peut lancer au lieu d'attendre la minute d'attente de lancer le scrapeur sur les sites récupérés. Cette solution permettra d'utiliser le temps d'attente ~ voir Micka
On veut faire un crawling par site génératif
La premiere solution en V0:
La deuxième solution en V1: