cquest / geocodage-spd

Scripts de géocodage et remise en forme des bases du Service Public de la Donnéee
GNU Affero General Public License v3.0
68 stars 19 forks source link

Fichiers au format Parquet #16

Open ColinMaudry opened 6 months ago

ColinMaudry commented 6 months ago

Bonjour,

Afin de proposer un format de fichier

serait-il possible de proposer également les données au format Parquet ?

Je veux bien m'en charger si une personne bien informée me dit où cela doit être ajouté dans le flow de publication 😃

ColinMaudry commented 6 months ago

À vue de nez ça se passe par ici, du moins pour les fichiers SIRENE au format v2019 (ceux qui m'intéressent).

Je vois qu'à aucun moment les données CSV sont persistées sur le disque dans un format décompressé.

Naïvement je ferais un script Python qui ressemble à ça :

import pandas as pd

# prend le premier argument de la commande comme chemin de dossier ou fichier

df = pd.read_csv("path/to/.gz") # pd.read_csv() gère les csv gzippés

# je corrige les dtypes
# ...

df.to_parquet("path/to/.parquet)

Si le contenu du gzip tient en mémoire, ça devrait marcher.