etalab / transport-site

Rendre disponible, valoriser et améliorer les données transports
https://transport.data.gouv.fr
190 stars 29 forks source link

Analyse : indicateur Fraicheur avec rebond immédiat 0% à 100% #4182

Open cyrilmorin opened 1 week ago

cyrilmorin commented 1 week ago

Hello,

J'ai juste un doute sur le comportement de la courbe pour le dataset de Nemus - Flers. L'indicateur étant sensé prendre en compte l'histoire pour remonter progressivement, je me demande ce qui a provoqué ce rétablissement spectaculaire :) {81FD191C-081E-4842-BBB9-AB6C469B9806}

L'objectif est de voir 1- Si une action d'administration en est la cause et donc à faire en connaissance de cause et/ou avec précaution (ex :modification url, suppression dataset, lié au moissonage ...) 2- Si c'est provoqué par un comportement automatique et lié au calendrier scolaire un peu spécifique avec une période d'arrêt totale. 3- Si c'est OK ou NOK par rapport à l'algo

Je le tag en bug dans le doute et je vous laisse le requalifier si besoin !

Merci

AntoineAugusti commented 1 week ago

@cyrilmorin Hello Cyril, merci pour le cas intéressant ! J'ai ajouté 🏷️ scores utile pour ces cas.

Voici les résultats de l'investigation.

Historique des scores

Le score de fraicheur donne ceci entre le 2024-08-15 et le 2024-09-05.

score timestamp
1 2024-09-05 16:00:25.950245
1 2024-09-04 16:00:29.556187
1 2024-09-03 16:00:33.95089
1 2024-09-02 16:00:32.522505
2024-09-01 16:00:27.235871
2024-08-31 16:00:33.219222
2024-08-30 16:00:27.63619
2024-08-29 16:00:28.026703
2024-08-28 16:00:33.810324
2024-08-27 16:00:34.109064
2024-08-26 16:00:39.532536
2024-08-25 16:00:44.800743
2024-08-24 16:00:42.627477
2024-08-23 16:00:46.834102
2024-08-22 16:00:50.853863
2024-08-21 16:00:45.005093
0.00785516721127895 2024-08-20 16:00:48.450497
0.008727963568087723 2024-08-19 16:00:46.703367
0.009697737297875247 2024-08-18 16:00:43.08895
0.01077526366430583 2024-08-17 16:00:41.542496
0.011972515182562033 2024-08-16 16:00:45.080257
0.013302794647291147 2024-08-15 16:01:27.817739

Modification du GTFS

Le GTFS scolaire a été modifié le 2024-08-21 avec les informations suivantes.

{"resources": [{"format": "GTFS", "freshness": null, "metadata_id": 1407519, "raw_measure": {"end_date": "2025-07-04", "start_date": "2024-09-02"}, "resource_id": 82094, "metadata_inserted_at": "2024-08-21T11:57:26.831086Z"}], "today_score": null, "previous_score": null}

Date de validité du GTFS dans le futur (2024-09-02) et donc le score de fraicheur attribué est null.

Utilisation du score précédent

Il se trouve qu'on utilise le précédent score si seulement celui-ci est relativement récent (maximum de 7 jours).

https://github.com/etalab/transport-site/blob/4ea45c58a9365fca2de868137a2069295c10a820/apps/transport/lib/jobs/dataset_quality_score.ex#L80-L99

Conclusion

Le GTFS du réseau scolaire a expiré en fin d'année scolaire. Le score de fraicheur est tombé à 0 progressivement. Le 2024-08-21 le GTFS a été remplacé avec un fichier diffusant l'offre scolaire de la rentrée 2024. Le score de fraicheur assigné est alors à null (calendrier de validité dans le futur). Ce score a été attribué pendant plus d'une semaine, ainsi le précédent score a été oublié pour la suite.

Questions

cyrilmorin commented 1 week ago

Top merci pour cette analyse ! Je te propose de digérer tout ça et de voir ensemble pour trouver la meilleure solution et voir si c'est si grave d'ailleurs ...

ptitfred commented 1 week ago
  • Le graphique semble induire en erreur, peut-être voir pour indiquer clairement quand un score est null et non avoir une continuité de la série ?

ça me semble une bonne idée

AntoineAugusti commented 1 week ago

ça me semble une bonne idée

fait dans #4185