entrepreneur-interet-general / CIS-front

Site public du carrefour des innovations sociales
http://carrefourdesinnovationssociales.fr/
MIT License
7 stars 6 forks source link

NovImpact : les descriptions n'apparaissent pas dans le bon ordre #232

Open Eliselalique opened 5 years ago

Eliselalique commented 5 years ago

Problème relevé sur toutes les fiches projets scrapées par NovImpact.

Sur le site Novimpact

capture d ecran 2019-01-15 15 31 33

Sur le site CIS

capture d ecran 2019-01-15 15 31 27

-> L'ordre des blocs n'est pas le même et du coup ça perd de son sens

JulienParis commented 5 years ago

ordre des champs scrappés --> open scraper

DavidBruant commented 5 years ago

Je vois le problème, je vais essayer de travailler dessus

Liens pour un exemple :

http://www.carrefourdesinnovationssociales.fr/project/5bd33d463ba14c58d1e45ea1

https://novimpact.org/blog/acteurs/souse/

...

bad feeling about this

DavidBruant commented 5 years ago

La phase de "test" du scrapper en local ne ramène aucune fiche projet

DavidBruant commented 5 years ago

En production, le item_xpath est //ul/li[@class="mk-employee-item"] Il existe bien des éléments avec cette classe, mais ils ont d'autres classes : <li class="mk-employee-item dlnk-mur-item startup-item">. Donc le XPath qui attend un match exact (@class=) ne retourne rien Je vais tenter un xpath plus générique

DavidBruant commented 5 years ago

Ayé, j'ai réussi à réparer les XPath pour avoir des éléments en local Je peux reproduire le problème Le XPath qui va chercher la description est .//span[@class="startup-paragraphe-subtitle" and contains(text(), "Description")]/following-sibling::div[1]//text(). L'hypothèse que je fais, c'est que le //text() va chercher les textes soit dans un ordre qui ne nous arrange pas, soit dans un ordre aléatoire

I had a bad feeling about this...

DavidBruant commented 5 years ago

And nodes have an order, the document order: the order in which they appear in the XML/HTML source.

https://doc.scrapy.org/en/xpath-tutorial/topics/xpath-tutorial.html

Cette phrase suggère que le xpath devrait donner l'ordre qu'on attend

J'ai cherché un peu voir si d'autres avaient déjà eu des problèmes d'ordre. Je n'ai trouvé que ça : https://stackoverflow.com/questions/23151356/text-containing-hyperlinks-order-of-elements-in-xpath qui utilise la même bibliothèque de xml/xpath qu'OpenScraper : lxml

Donc il s'agit peut-être d'un bug dans cette bibliothèque

DavidBruant commented 5 years ago

Quelques xpath qui ont marché aujourd'hui:

Celui-là était trop dur pour mon niveau