Open Eliselalique opened 5 years ago
-> Xpath des scrapers à régler
Je connais mal le métier et j'ai du mal à comprendre quelles sont les pages dont on veut qu'elles soient là et celles dont on ne veut pas
Est-ce que tu pourrais donner 3 exemples différents d'URLs de pages de Solidarium que l'on veut dans le CIS et 3 URLs de pages que l'on ne veut pas voir dans le CIS ?
J'ai du mal à identifier sur le site où sont placés les "article type interview" qu'on ne veut pas scrapper. Je vais me mettre en contact avec Giorgia de Solidarum pour m'aider à ce repérage. Je propose qu'on mette cette issue en stand by le temps d'avoir l'info
Des articles / dossiers thématiques ou interviews ressortent sur le moteur de recherche scrappés sur le site de Solidarum. Je suppose qu'ils viennent du fait qu'on scrappe les onglets "média" et "dossier" : http://www.solidarum.org/medias/video