entrepreneur-interet-general / CIS-front

Site public du carrefour des innovations sociales
http://carrefourdesinnovationssociales.fr/
MIT License
7 stars 6 forks source link

Réglage scraper la France s'engage #165

Open Eliselalique opened 5 years ago

Eliselalique commented 5 years ago
capture d ecran 2018-11-23 a 15 35 28

Le scraper de La France s'Engage scrape tout le texte présent dans la page projet du site. Sans mise en page, visuellement ça fait un gros bloc pas facile à lire.

Problème sur le scrapping des lauréat 2016 et 2017 -> Le lien vers le site sourceur envoit vers une image JPG Exemple : Appartement partagés entre jeunes actifs et personnes de la rue

capture d ecran 2019-01-15 15 14 00
Eliselalique commented 5 years ago

-> Xpath des scrapers à régler

DavidBruant commented 5 years ago

Le site a vécu un redesign, donc il semble nécessaire de refaire le scraper Aussi, il est nécessaire de scroller sur le page pour faire apparaître tous les éléments. Ce cas n'est pas encore couvert par OpenScraper

JulienParis commented 5 years ago

effectivement le site a été refait en reactif et je vais voir si je peux intégrer l'infinite scroll dans le code source d'open scraper en me basant sur ce snippet : https://stackoverflow.com/questions/20986631/how-can-i-scroll-a-web-page-using-selenium-webdriver-in-python

JulienParis commented 5 years ago

premier jet de test pour gérer l'infinite scroll : https://github.com/entrepreneur-interet-general/OpenScraper/commit/fe582d0dfe9c8f7c8f1c9091365cb36f8e18e060

JulienParis commented 5 years ago

En local j'arrive maintenant à récupérer les images, à faire de l'infinite scroll, à récupérer le lien vers le site du projet, et à récupérer uniquement les paragraphes "objectifs"...

--> 65 résultats en local en intégrant les lauréats 2016, 2017 et 2018

Je n'ai pas vu de vidéos sur la nouvelle version de leur site pour le moment mais le principal est là...

Reste à mettre la fonction "infinite scroll" en prod pour vérifier son bon fonctionnement sur ce site et la bonne conformité des autres spiders...

capture d ecran 2019-02-07 a 21 00 43
JulienParis commented 5 years ago

OpenScraper à tester dans sa nouvelle version : 1.4

JulienParis commented 5 years ago

les images sont maintenant bien rescrappées avec le système d'infinite scroll, mais le scrapping s'arrête autour de 45/49 items, alors qu'il y en un peu plus en ligne (j'arrive à en scrapper 65 en local avec la même config). Je pense qu'il s'agit d'un simple problème de "pause" lors de l'infinite scroll : la ligne time.sleep(scroll_pause_time) n'a pas l'air de faire vraiment de pause... pe demander au driver et non à l'appli de se mettre en pause...