entrepreneur-interet-general / CIS-front

Site public du carrefour des innovations sociales
http://carrefourdesinnovationssociales.fr/
MIT License
7 stars 6 forks source link

Site Solidarum mal scrapé : des articles ressortent #157

Open Eliselalique opened 5 years ago

Eliselalique commented 5 years ago

Des articles / dossiers thématiques ou interviews ressortent sur le moteur de recherche scrappés sur le site de Solidarum. Je suppose qu'ils viennent du fait qu'on scrappe les onglets "média" et "dossier" : http://www.solidarum.org/medias/video

capture d ecran 2018-10-17 a 12 10 05
Eliselalique commented 5 years ago

-> Xpath des scrapers à régler

DavidBruant commented 5 years ago

Je connais mal le métier et j'ai du mal à comprendre quelles sont les pages dont on veut qu'elles soient là et celles dont on ne veut pas

Est-ce que tu pourrais donner 3 exemples différents d'URLs de pages de Solidarium que l'on veut dans le CIS et 3 URLs de pages que l'on ne veut pas voir dans le CIS ?

Eliselalique commented 5 years ago

J'ai du mal à identifier sur le site où sont placés les "article type interview" qu'on ne veut pas scrapper. Je vais me mettre en contact avec Giorgia de Solidarum pour m'aider à ce repérage. Je propose qu'on mette cette issue en stand by le temps d'avoir l'info