etalab / monitor-consolidation

Monitoring des jeux de données consolidés sur data.gouv.fr
MIT License
3 stars 2 forks source link

Données possiblement dupliquées #6

Open AntoineAugusti opened 4 years ago

AntoineAugusti commented 4 years ago

Les données dans le fichier CSV peuvent être dupliquées, si le script de CI est exécuté plusieurs fois par jour (sur le fuseau horaire UTC).

Dans ce cas, il y aura autant de doublons qu'il y a d'exécutions dans la même journée. Voir par exemple ce commit qui corrige manuellement la situation https://github.com/etalab/monitor-consolidation/commit/2275998962134f4c6e03fa20f20dd593aabbc952 (le build du jour précédent avait fail, d'où la double exécution au cours d'une même journée).

Envisager un mécanisme de déduplication directement dans le script Python. Ou laisser comme ça 😉

geoffreyaldebert commented 4 years ago

Je ne suis pas sûr de bien comprendre. Si on a plusieurs exécutions c'est que le CI a fail une première fois non ? Dans quels cas on a plusieurs exécutions la même journée sans fail ? (et donc duplication de données ?)

AntoineAugusti commented 4 years ago

Tu as bien compris, c'est le cas le plus classique. Je crois que depuis le début de ce projet c'est arrivé 2 ou 3 fois. Ça arrive de faire une erreur au push et de voir à l'exécution.

Un autre potentiel problème est de s'assurer qu'il y a bien une exécution par jour, tous les jours. Un seul créneau est prévu dans le CRON et ne sera pas forcément exécuté, en cas d'indisponibilité de GitHub Actions par exemple.

Tout ceci est peut-être très anecdotique, je voulais juste en laisser une trace écrite.