Closed cyrilmorin closed 11 months ago
Intéressant comme sujet.
Pour la catégorie public-transit
on a déjà une restriction en place à l'import pour ne conserver que certaines données.
impossible donc d'avoir du GeoJSON dans cette catégorie.
Pour les autres catégories il n'y a pas de filtrage par type.
documentation
?Filtre à l'import ? A voir ensemble, mais ne pas importer/afficher les ressources "supplémentaires" des formats différents pourrait poser problème si les ressources extra permettent de mieux comprendre les données publiées par exemple. De plus on pourrait potentiellement se retrouver avec des datasets sans ressource si le fichier attendu n'est pas OK (ex : xls au lieu de csv) Le Shapefile en question est un sujet plus spécifique car il ne provient pas du producteur mais d'ODS et surtout il nous pose des problèmes (pour le moment) Pourquoi ne pas avoir au lieu de "Documentation" un bloc "Ressources complémentaires" avec les ressources aux formats différents ?
Sujet spécifique au calcul du score ? Sujet lié à l'analyse et au traitement de donnés par catégorie effectivement : scores, stats, post-traitement ... Sur ces thématiques "métier" on ne veut travailler que sur des données au format attendu.
Après on peut très bien utiliser uniquement un certain format par type de couple score/catégorie (déjà le cas pour score de fraîcheur j'imagine = GTFS only)
OK pour tenter de mieux spécifier cela
A voir ensemble, mais ne pas importer/afficher les ressources "supplémentaires" des formats différents pourrait poser problème si les ressources extra permettent de mieux comprendre les données publiées par exemple.
Plutôt d'accord, ça on ne change pas.
Pourquoi ne pas avoir au lieu de "Documentation" un bloc "Ressources complémentaires" avec les ressources aux formats différents ?
On a déjà des blocs thématiques distinguant les ressources actuellement
Voir le détail et les règles. N'hésite pas à ouvrir une issue (différente) si il est nécessaire de revoir ces sections séparant les ressources.
Après on peut très bien utiliser uniquement un certain format par type de couple score/catégorie (déjà le cas pour score de fraîcheur j'imagine = GTFS only)
Pour le freshness score on calcule ceci sur les formats éligibles : GTFS, GBFS et GTFS RT. On tolère 5 minutes d'écart avec la date/heure courante pour le temps réel avant de mettre 0 (ce qui est très généreux).
Sur ces thématiques "métier" on ne veut travailler que sur des données au format attendu.
Pourquoi pas ! Pour rappel, ceci concernerait le score de disponibilité uniquement (availability). Tu penses à quelles règles, catégorie de données et formats/type de ressource que l'on garde ?
En travaillant sur un autre score je retombe sur le commentaire de ce score que j'avais écrit au moment de l'ajout.
Les 2 dernières phrases sont intéressantes.
Après notre discussion avec @cyrilmorin, nous avons décidé des changements suivants à effectuer :
Je me questionne sur la possibilité dans nos scores de ne checker que les ressources qui ont le format attendu pour un type de données
Exemple :
public-transit check dispo sur ressources GTFS, GTFS-RT, NETEX, SIRI et SIRI-Lite. On exclu les autres formats car la dispo de la documentation ou des ressources supplémentaires non attendues (geojson, shapefile ...) n'est pas impactante niveau qualité des données concernées.
transport-traffic : .csv uniquement ...