etalab / transport-site

Rendre disponible, valoriser et améliorer les données transports
https://transport.data.gouv.fr
194 stars 30 forks source link

JDD de transports en commun avec ressources non stables dans le temps #2805

Closed AntoineAugusti closed 1 year ago

AntoineAugusti commented 1 year ago

J'ai fait un export des jeux de données qui ont des ressources non stables dans le temps (ie la ressource est supprimée/recrée et l'URL permanente casse en conséquence).

J'ai pris uniquement sur le type public-transit et depuis juillet 2022.

J'ai les JDD suivants.

dataset_id url population nb_resources nb_history titles
13 https://transport.data.gouv.fr/datasets/export-quotidien-au-format-gtfs-du-reseau-de-transport-lignes-d-azur 556023 1 2 GTFSExport.zip
31 https://transport.data.gouv.fr/datasets/offre-transport-du-reseau-chronoplus-gtfs 348168 1 2 gtfs.zip
46 https://transport.data.gouv.fr/datasets/parcours-arrets-et-horaires-theoriques-du-reseau-de-transport-citura-de-la-communaute-urbaine-du-grand-reims-gtfs 301070 1 2 gtfs.zip
60 https://transport.data.gouv.fr/datasets/offre-de-transports-sibra-a-annecy-gtfs 213365 1 2 gtfs-sibra-20220719-20230625.zip|gtfs-sibra-20221115-20230625.zip
91 https://transport.data.gouv.fr/datasets/donnees-tcat-troyes-champagne-metropole-1 176959 2 3 gtfs-navineo.zip|gtfs.zip
123 https://transport.data.gouv.fr/datasets/offre-transport-en-commun-du-reseau-transpor-gtfs 45389 1 2 transp-or-ete-v1-gtfs-2022-06-30-17-38-32.zip|transp-or-ete-v1-gtfs-2022-07-04-11-27-12.zip|transp-or-hiver-v2-gtfs-2022-08-31-19-09-23.zip
146 https://transport.data.gouv.fr/datasets/reseaux-de-transports-en-commun-de-la-metropole-daix-marseille-provence-et-des-bouches-du-rhone 1920664 14 15 GTFS ACCM Envia|GTFS Agglobus - Les lignes de l'agglo|GTFS AIXENBUS |GTFS Bus des collines|GTFS CG13 Cartreize|GTFS CPA|GTFS Frioul if express|GTFS Les bus de la Côte Bleue|GTFS  Les bus de la Marcouline|GTFS Les bus de l'étang|GTFS Les bus des Cigales|GTFS Libébus|GTFS MILSAB - Ulysse - Navette Mille Sabords|GTFS RTM|GTFS SANPROVENCE Ulysse
152 https://transport.data.gouv.fr/datasets/offre-de-transport-du-reseau-tango-de-nimes-metropole-gtfs 261779 1 2 gtfs-production-du-05-septembre-2022-au-31-decembre-2022.zip|gtfs-production-du-29-aout-2022-au-31-decembre-2022.zip
166 https://transport.data.gouv.fr/datasets/reseau-urbain-interurbain-et-scolaire-de-la-communaute-dagglomeration-privas-centre-ardeche 44911 2 3 scolaire-v44-gtfs-2022-09-23-13-44-25.zip|t-cap-scolaire-2022-10-03-15-21-06.zip|t-cap-tcap-55-gtfs-2022-05-02-11-21-03.zip
270 https://transport.data.gouv.fr/datasets/txik-txak-car-express 4371779 1 2 gtfs.zip
398 https://transport.data.gouv.fr/datasets/horaires-theoriques-du-reseau-fil-bleu-gtfs-syndicat-des-mobilites 313634 1 2 Export au format CSV
501 https://transport.data.gouv.fr/datasets/fichier-des-donnees-theoriques-du-reseau-idelis-au-format-gtfs 183088 1 2 Export au format CSV
505 https://transport.data.gouv.fr/datasets/reseau-de-transport-interurbain-mobigo-en-bourgogne-franche-comte 2598429 7 8 Données du réseau (Côte d'Or)|Données du réseau (Doubs)|Données du réseau (ensemble de la Région)|Données du réseau (Haute-Saône)|Données du réseau (Jura)|Données du réseau (Nièvre)|Données du réseau (Saône et Loire)|Données du réseau (Yonne)
506 https://transport.data.gouv.fr/datasets/arrets-horaires-et-parcours-theoriques-gtfs-des-differents-reseaux-de-transport-membres-du-synd3-1 5909493 14 15 Fichier GTFS du réseau routier interurbain et scolaire de l’Oise - Lot  2|Fichier GTFS réseau routier interurbain et scolaire de l’Oise - Lot 4|Fichier GTFS réseau routier régional de transport scolaire et interurbain (60 - Oise) - Lot 1|Fichier GTFS réseau routier régional de transport scolaire et interurbain (60 - Oise) - Lot 2|Fichier GTFS réseau routier régional de transport scolaire et interurbain (60 - Oise) - Lot 3|Fichier GTFS réseau Scolaire et Interurbain du Beauvaisis - C.A. du Beauvaisis|Fichier GTFS réseau urbain AXO - Agglomération Creil Sud Oise|Fichier GTFS réseau urbain Corolis - C.A. du Beauvaisis|Fichier GTFS réseau urbain Cypré - C.C du Pays de Valois|Fichier GTFS réseau urbain Cypré - Crépy-en-Valois|Fichier GTFS réseau urbain DUC - Chantilly|Fichier GTFS réseau urbain Flexobus - C.C. de l'Aire Cantilienne|Fichier GTFS réseau urbain La Navette - C.C. de l'Aire Cantilienne|Fichier GTFS réseau urbain La Navette - Lamorlaye|Fichier GTFS réseau urbain Le Bus - C.C. du Clermontois|Fichier GTFS réseau urbain Lib'Bus - Noyon|Fichier GTFS réseau urbain Pass'Thelle Bus - C.C. Thelloise|Fichier GTFS réseau urbain Sablons Bus - C.C. des Sablons|Fichier GTFS réseau urbain STAC - Agglomération Creil Sud Oise|Fichier GTFS réseau urbain TIC - Agglomération de la Région de Compiègne et de la Basse Automne|Fichier GTFS réseau urbain TUM - Pont-Sainte-Maxence|Fichier GTFS réseau urbain TUS - Senlis
507 https://transport.data.gouv.fr/datasets/versions-des-horaires-theoriques-des-lignes-du-reseau-star-au-format-gtfs-1 466866 2 3 Export au format CSV
509 https://transport.data.gouv.fr/datasets/horaires-theoriques-du-reseau-maelis-montlucon-communaute-gtfs 62229 1 2 gtfs-2022-29-08-au-2023-09-07.zip|GTFS été 2022
544 https://transport.data.gouv.fr/datasets/offre-de-transport-du-reseau-fluo-grand-est-88-region-grand-est-dga-mobilites 5682902 5 6 export-gtfs.zip|export-netex.zip|fluo-grand-est-livo-gtfs.zip|fluo-grand-est-livo-netex.zip
579 https://transport.data.gouv.fr/datasets/arrets-horaires-et-circuits-des-lignes-de-transports-en-commun-en-pays-de-la-loire-gtfs-destineo-reseaux-aom-aleop 3816978 3 4 Export au format CSV
610 https://transport.data.gouv.fr/datasets/tedbus-horaires 110458 1 2 TEDbus - Horaires (GTFS)|TEDbus - Horaires.GTFS.Zip
614 https://transport.data.gouv.fr/datasets/gtfs-ametis 185410 1 2 GTF Production 29 Août 2022|GTF Production été 2022|GTFS Ametis|GTFS Production 29 Aout 2022
617 https://transport.data.gouv.fr/datasets/horaires-theoriques-et-temps-reel-reseau-mobius 146498 1 2 gtfs-mobius-hiver22-23-20220829-tad.zip|gtfs-mobius-hiver22-23-20221024-tad.zip|gtfs-mobius-hiver22-23-20221107-tad.zip
649 https://transport.data.gouv.fr/datasets/fichier-des-donnees-theoriques-du-reseau-scolaris-au-format-gtfs 183088 1 2 Export au format CSV
656 https://transport.data.gouv.fr/datasets/reseau-de-bus-urbain-horizon-1 75130 1 2 gtfs-220701.zip|gtfs-220822.zip
676 https://transport.data.gouv.fr/datasets/donnees-gtfs 125100 1 2 gtfs-01-09-22-au-31-08-23.zip|GTFS au 24 octobre 2022|gtfs-jusquau-31-08-22.zip
688 https://transport.data.gouv.fr/datasets/angers-loire-metropole-reseau-irigo-gtfs-gtfs-rt 309201 1 2 irigo-angers-gtfs|irigo_gtfs.zip
693 https://transport.data.gouv.fr/datasets/211007 274063 1 2 gtfs-sankeo.zip
719 https://transport.data.gouv.fr/datasets/agglopolys-offre-theorique-mobilite-reseau-urbain-azalys-de-blois 108556 1 2 Export au format CSV
750 https://transport.data.gouv.fr/datasets/donnees-de-transport-theoriques-du-reseau-twisto 275077 1 2 gtfs 20102022.zip|OFFRE_20220627.zip|OFFRE_20220808.zip|OFFRE_20220829.zip
777 https://transport.data.gouv.fr/datasets/arrets-de-bus-communaute-dagglomeration-le-grand-narbonne-2 133409 2 3 Google transit Grand Narbonne|GTFS KEOLIS AUDE NARBONNE du 01 09 au 31 12 2022|GTFS KEOLIS AUDE NARBONNE du 07 03 2022 au 29 05 2022|GTFS KEOLIS AUDE NARBONNE du 24 01 2022 au 03 04 2022|GTFS KEOLIS AUDE NARBONNE ETE 2022 DU 08 07 AU 31 08 2022|GTFS KEOLIS été 2021|GTFS KEOLIS rentrée 2021

J'ai mis des commentaires sur certains JDD. On devrait pouvoir faire de meilleures analyses en analysant les URLs à partir de maintenant #2803. On devrait pouvoir identifier ces erreurs au fur et à mesure.

Requête utilisée

select *
from (
    select d.id dataset_id, 'https://transport.data.gouv.fr/datasets/' || d.slug url, d.population, count(distinct r.id) nb_resources, count(distinct coalesce(rh.resource_id, 1)) nb_rh, STRING_AGG(distinct rh.payload->>'title', '|') as titles
    from dataset d
    join resource_history rh on (rh.payload->>'dataset_id')::int = d.id and rh.inserted_at >= '2022-07-01'
    join resource r on r.dataset_id = d.id and r.format not in ('gtfs-rt', 'SIRI') and not r.is_community_resource
    where d.is_active and d.type = 'public-transit' and not rh.payload->>'title' ilike '%mybus%'
    group by 1, 2, 3
) t
where nb_rh > nb_resources;
AntoineAugusti commented 1 year ago

Je vais fermer, je ne suis pas certain que ces données soient bonnes. Les données sont normalement fiables depuis mi-juillet 2022 suite à https://github.com/etalab/transport-site/pull/2514

Je fais encore quelques investigations et je proposerai quelque chose.