etalab / transport-site

Rendre disponible, valoriser et améliorer les données transports
https://transport.data.gouv.fr
190 stars 29 forks source link

Ajout de l'option "fichier_a_telecharger" pour le "GTFS extractor" #1639

Closed NicolasBerthelot closed 3 years ago

NicolasBerthelot commented 3 years ago

Lorsqu'on référence un jeu de données de transports publics qui contient un CSV avec une colonne intitulée "url" "lien" "lien_GTFS" etc., on télécharge automatiquement ce GTFS et celui-ci remplace le CSV et les autres fichiers dans l'interface de transport.data.gouv.fr.

Le CSV de la CARENE ne contient pas de termes que l'extracteur de GTFS connaît. La colonne est appelée fichier_a_telecharger. Il faudrait ajouter cette expression à celles qui sont déjà utilisées pour repérer un GTFS.

thbar commented 3 years ago

J'ai regardé de plus près. Voilà ce que j'observe.

Si je suis le lien, puis que je clique sur l'onglet Export, et que je récupère le fichier CSV en local, j'ai ceci:

Description;url
Lignes, arrêts et horaires du réseau de transport urbain pour la CARENE (STRAN);http://app.mecatran.com/utw/ws/gtfsfeed/static/stran?apiKey=117f5d553876703633280e0e664c227e2a082153

@NicolasBerthelot est-ce que je regarde bien au bon endroit du coup ?

Par ailleurs j'ai fait des tests et j'ai remarqué que l'outil d'extraction des liens CSV Opendatasoft chez nous donne le résultat suivant:

20:34:34.306 [error] error while parsing urlfrom row: "Row has length 2 - expected length 1 on line 2"
["http://app.mecatran.com/utw/ws/gtfsfeed/static/stran?apiKey=117f5d553876703633280e0e664c227e2a082153"]

Si on voit initialement une erreur, car l'extracteur tente différentes stratégies, et la virgule au milieu de la data lui pose problème, le lien est au final bien digéré à première vue.

NicolasBerthelot commented 3 years ago

Alors le problème est très subtil. Le nom "littéraire" de la colonne est bien 'url' mais son nom technique dans OpenDataSoft est resté encodé 'fichier_a_telecharger'. Cela a pour conséquence d'être bien exporté sur l'interface de téléchargement sur la page OpenDataSoft comme tu viens de le faire mais ne fonctionne pas du côté de data.gouv.fr car le moissonneur récupère les noms techniques et pas les noms littéraires.

thbar commented 3 years ago

@NicolasBerthelot ok merci ; il faut que je comprenne mieux le principe du moissonneur ; as-tu déjà enregistré la ressource dans transport, ou dans data.gouv.fr ? Il faut que je mette la main sur la bonne url pour pouvoir modifier le code de façon solide.

NicolasBerthelot commented 3 years ago

Pour le fichier du moissonneur de data.gouv.fr qu'on peut télécharger ici ça donne ça :

description;fichier_a_telecharger
Lignes, arrêts et horaires du réseau de transport urbain pour la CARENE (STRAN);http://app.mecatran.com/utw/ws/gtfsfeed/static/stran?apiKey=117f5d553876703633280e0e664c227e2a082153

Côté transport data.gouv.fr (https://transport.data.gouv.fr/datasets/lignes-arrets-et-horaires-du-reseau-de-transport-urbain-pour-la-carene-stran-gtfs/) il semble que notre outil "élimine" le CSV de la liste, je ne sais pas selon quel mécanisme exactement.

thbar commented 3 years ago

@NicolasBerthelot merci pour les informations supplémentaires, ce qui m'a permis de préparer un fix en testant sur la vraie donnée pour être sûr du résultat, et d'écrire des tests autour. Voir #1640, que j'ai envoyé pour review à @fchabouis vu que je repasse off!

il semble que notre outil "élimine" le CSV de la liste, je ne sais pas selon quel mécanisme exactement.

Je propose de déployer le fix précédent et de voir si il réapparaît, et de garder ce ticket ouvert pour suivre ce point.