dataforgoodfr / 12_bloom

23 stars 11 forks source link

Optimiser le traitement convert_spire_vessels_to_spire_ais_data.py #163

Closed njouanin closed 2 months ago

njouanin commented 5 months ago

Le traitement convert_spire_vessels_to_spire_ais_data.py convertit les données de l'ancienne table spire_vessel_positions vers le nouveau modèle spire_ais_data. Le traitement s'exécute sur l'ensemble des données et peut donc être très long à tourner. Propositions à creuser:

rv2931 commented 5 months ago

ok. j'ai bien récupéré le dump J'ai réussi à le restaurer (postgres 16 et user Bloom_user avec une majuscule) Je vais regarder pour faire des intervales de dates dans un premier temps (genre Airflow et option backfill --start 2020-01-01 --end 2024-08-01 et périodicité de 15 minutes ou 24h par exemple)

rv2931 commented 5 months ago

ah ouay... 43 millions de lignes sur 1 an seulement

juste pour info y a une politique d'archivage/purge prévue côté prod ?

njouanin commented 5 months ago

actuellement non, mais il faudrait y penser pour la V2 effectivement. C'est sur que les données de la table spire_ais_data n'ont pas besoin d'y rester une fois qu'elle auront été traitées. J'avais pensé à un traitement régulier d'export (format parquet par exemple) et de purge.

njouanin commented 2 months ago

Obsolète