etalab / transport-site

Rendre disponible, valoriser et améliorer les données transports
https://transport.data.gouv.fr
190 stars 29 forks source link

ResourceHistoryJob : revoir méthode pour détecter un ZIP #4120

Closed AntoineAugusti closed 3 weeks ago

AntoineAugusti commented 1 month ago

Le code en charge d'archiver les données statiques a pour le moment une heuristique très simple pour détecter qu'une ressource est un ZIP.

https://github.com/etalab/transport-site/blob/63a5e4850897cc9795520d05f2253d85ba07d885/apps/transport/lib/jobs/resource_history_job.ex#L236

Ceci ne semble pas approprié, les fichiers NeTEx pouvant être zippés ou non.

🐛 un fichier NeTEx non zippé n'est actuellement pas historisé/validé etc en conséquence. Ceci survient pour Cheminements piétons dans Paris d'après OpenstreetMap .

cc @thbar si tu es intéressé.

Mattermost

thbar commented 1 month ago

Ceci ne semble pas approprié, les fichiers NeTEx pouvant être zippés ou non.

Je vais remonter ce point au GT7, car vu la taille habituelle des fichiers, une recommendation de zipper systématiquement ne semble pas une mauvaise idée (comme le fait le GTFS). Merci !

ptitfred commented 1 month ago

Cela risque de devenir obligatoire si la structure des fichiers NeTEx impose une nomenclature.

ptitfred commented 1 month ago

A noter que le plus gros NeTEx dans notre inventaire est non compressé : 432Mo de XML, dommage

AntoineAugusti commented 3 weeks ago

Le fichier NeTEx a bien été historisé après le merge de la PR.