etalab / transport-site

Rendre disponible, valoriser et améliorer les données transports
https://transport.data.gouv.fr
194 stars 30 forks source link

[Scores qualité] Réflexion sur l'utilité de checker la dispo d'une ressource avec format non attendu (par type de données) #3590

Closed cyrilmorin closed 11 months ago

cyrilmorin commented 1 year ago

Je me questionne sur la possibilité dans nos scores de ne checker que les ressources qui ont le format attendu pour un type de données

Exemple :

public-transit check dispo sur ressources GTFS, GTFS-RT, NETEX, SIRI et SIRI-Lite. On exclu les autres formats car la dispo de la documentation ou des ressources supplémentaires non attendues (geojson, shapefile ...) n'est pas impactante niveau qualité des données concernées.

transport-traffic : .csv uniquement ...

AntoineAugusti commented 1 year ago

Intéressant comme sujet.

Pour la catégorie public-transit on a déjà une restriction en place à l'import pour ne conserver que certaines données.

https://github.com/etalab/transport-site/blob/6edd92decd07f51ddb6121de433d8ec3fe1ae85f/apps/transport/lib/transport/import_data.ex#L362-L370

impossible donc d'avoir du GeoJSON dans cette catégorie.

Pour les autres catégories il n'y a pas de filtrage par type.

Questions

cyrilmorin commented 12 months ago

Filtre à l'import ? A voir ensemble, mais ne pas importer/afficher les ressources "supplémentaires" des formats différents pourrait poser problème si les ressources extra permettent de mieux comprendre les données publiées par exemple. De plus on pourrait potentiellement se retrouver avec des datasets sans ressource si le fichier attendu n'est pas OK (ex : xls au lieu de csv) Le Shapefile en question est un sujet plus spécifique car il ne provient pas du producteur mais d'ODS et surtout il nous pose des problèmes (pour le moment) Pourquoi ne pas avoir au lieu de "Documentation" un bloc "Ressources complémentaires" avec les ressources aux formats différents ?

Sujet spécifique au calcul du score ? Sujet lié à l'analyse et au traitement de donnés par catégorie effectivement : scores, stats, post-traitement ... Sur ces thématiques "métier" on ne veut travailler que sur des données au format attendu.

Après on peut très bien utiliser uniquement un certain format par type de couple score/catégorie (déjà le cas pour score de fraîcheur j'imagine = GTFS only)

OK pour tenter de mieux spécifier cela

AntoineAugusti commented 12 months ago

A voir ensemble, mais ne pas importer/afficher les ressources "supplémentaires" des formats différents pourrait poser problème si les ressources extra permettent de mieux comprendre les données publiées par exemple.

Plutôt d'accord, ça on ne change pas.

Pourquoi ne pas avoir au lieu de "Documentation" un bloc "Ressources complémentaires" avec les ressources aux formats différents ?

On a déjà des blocs thématiques distinguant les ressources actuellement

Voir le détail et les règles. N'hésite pas à ouvrir une issue (différente) si il est nécessaire de revoir ces sections séparant les ressources.

Après on peut très bien utiliser uniquement un certain format par type de couple score/catégorie (déjà le cas pour score de fraîcheur j'imagine = GTFS only)

Pour le freshness score on calcule ceci sur les formats éligibles : GTFS, GBFS et GTFS RT. On tolère 5 minutes d'écart avec la date/heure courante pour le temps réel avant de mettre 0 (ce qui est très généreux).

Voir le détail et les règles

Sur ces thématiques "métier" on ne veut travailler que sur des données au format attendu.

Pourquoi pas ! Pour rappel, ceci concernerait le score de disponibilité uniquement (availability). Tu penses à quelles règles, catégorie de données et formats/type de ressource que l'on garde ?

AntoineAugusti commented 12 months ago

En travaillant sur un autre score je retombe sur le commentaire de ce score que j'avais écrit au moment de l'ajout.

Les 2 dernières phrases sont intéressantes.

https://github.com/etalab/transport-site/blob/1639696c2eb97fc1d112af235981f101cb1ae3ac/apps/transport/lib/jobs/dataset_quality_score.ex#L182-L195

AntoineAugusti commented 11 months ago

Après notre discussion avec @cyrilmorin, nous avons décidé des changements suivants à effectuer :