etalab / transport-site

Rendre disponible, valoriser et améliorer les données transports
https://transport.data.gouv.fr
189 stars 29 forks source link

Idée - système de continuité des données théoriques dans le temps #4058

Open thbar opened 1 month ago

thbar commented 1 month ago

Une idée que j'ai pu évoquer plusieurs fois et depuis longtemps, mais je ne crois pas l'avoir formalisée (ou peut-être au coin d'un ticket relatif à autre chose ici, sûrement).

Les réutilisateurs (notamment de GTFS pour l'instant, mais le problème se posera à l'identique avec les NeTEx, et de façon générale tout ce qui est théorique / statique) évoquent régulièrement le sujet de la continuité du théorique.

Dernier exemple en date ici:

https://transport.data.gouv.fr/datasets/versions-des-horaires-theoriques-des-lignes-de-bus-et-de-metro-du-reseau-star-au-format-gtfs

CleanShot 2024-07-11 at 15 31 08@2x

Une solution à laquelle je pense depuis un moment serait d'avoir une url PAN qui permet de :

Cela permettrait d'avoir:

Point à concerter avec de vrais réutilisateurs à mon avis, mais ça éviterait que les producteurs définissent une façon de fonctionner pour cela de façon unilatérale, et que chaque ré utilisateur se retrouve à suivre.

En synthèse : un mécanisme permettant de standardiser la continuité des ressources, qui expirent par la force des choses et sont mises à jour, pour les données statiques (GTFS et NeTEx).

TODO - références

Je vais ajouter ici les éléments qui peuvent nourrir la réflexion

AntoineAugusti commented 1 month ago

J'ai bien souvenir de discussions à ce sujet et je trouve ça intéressant. Erwan Huon, de Keolis Rennes, m'avait remonté le besoin de pouvoir switcher de GTFS à une date future ou de masquer un GTFS vide ponctuellement qui serait mis à disposition lors d'une modification notable de l'offre (typiquement aux rentrées scolaires de septembre).

En ayant ces URLs on se met en position de collecter plus de statistiques ou d'identifier des réutilisateurs si on met des paramètres dans l'URL (/resources/:id/current/download?reuser=:uuid).

Par contre on se place sur un chemin critique pour l'accès à la donnée et tout incident impacterait de manière notable l'accès aux données théoriques en France. Si on diffuse directement sans rediriger on fausse aussi les statistiques pour les producteurs ce qui pourrait ne pas leur convenir.

thbar commented 1 month ago

Oui le besoin remonte régulièrement.

On est déjà sur un chemin bien plus critique avec le proxy, et on peut ne pas fausser les statistiques si on ne "cache" rien en pratique (voire, leur donner une meilleure visibilité en terme de métriques à eux, potentiellement !).