Crawling par site (quotidien)

nicolas-enjalbert / pip2021_G2

Repository for the inter-promotion projet 2021 from SID [Statistique et Informatique Décisionnelle] in data science ~ University Paul Sabatier, Toulouse, France

0 stars 0 forks source link

Crawling par site (quotidien) #7

Open nicolas-enjalbert opened 3 years ago

nicolas-enjalbert commented 3 years ago

On veut faire un crawling par site génératif

La premiere solution en V0:

faire une base de connaissance et construire un crawler qui serait génératif -> ne parvient qu'au site généré

La deuxième solution en V1:

Utiliser la puissance d'un moteur de recherche (google, donc avec une API).
faire une recherche sur les sites spécifiques en utilisation l'opérateur site:nomsite.fr

nicolas-enjalbert commented 3 years ago

Bénéfice de l'API google pour le crawling quotidien :

Pouvoir faire une recherche d'article pour les sites qui n'ont pas de barre de recherche
généraliser le code de récupération (toujours le même peut importe le site visé)
pouvoir faire une recherche sur la date facilement grâce à google

L'utilisation brutale de Google API :

Faire K requêtes sur les X sites peut être coûteux selon K et X [voir issue #8] donc si K est fixe au quotidien, cela varie sur X
en prenant K=15000 combinaisons, et X=100 (au bout d'un certain moment si on n'ajoute pas) cela revient à faire 1 500 000 de requêtes. Cette utilisation est brutale mais est très coûteuse pour le faire tous les jours. Il faudrait 45 000 000 de requête par mois juste pour les quotidienne sans chercher des nouvelles sources. Nous voulons réduire ce volume...

nicolas-enjalbert commented 3 years ago

Réduction du volume de requête (coûteux en temps et argent):

La première idée est de faire une recherche google avec unique les sites et la date:

il faudrait faire une requête du type "site:nom_site.fr after:date-1"
sur le résultat de la requête on pourrait appliquer de la détection de mot clef/ combinaison des 15000. Cette sélection ne pourrait se faire que pour des sites qui ne retourne moins de 10 articles par exemple. Cette méthode aura l'avantage de bien restreindre par la date et ne pas avoir trop de doublons sémantiques (sauf remonté ou notification). Elle permettra aussi de répondre aux requêtes sémantiques. Il n'y aura une taille de requête que de X le nombre de site.

nicolas-enjalbert commented 3 years ago

Cette solution qui apporte une bonne réponse est aussi longue à exécuter. Nous avons donc penser à une solution pour optimiser les exécutions.

Notre schéma général est dans un premier temps de chercher les liens des articles de tous les sites puis dans un deuxième temps de les scraper.

Un autre schéma proposé est de semi-paralléliser le processus. En lançant, le crawl sur le premier site on peut lancer au lieu d'attendre la minute d'attente de lancer le scrapeur sur les sites récupérés. Cette solution permettra d'utiliser le temps d'attente ~ voir Micka