Open ColinMaudry opened 6 months ago
À vue de nez ça se passe par ici, du moins pour les fichiers SIRENE au format v2019 (ceux qui m'intéressent).
Je vois qu'à aucun moment les données CSV sont persistées sur le disque dans un format décompressé.
Naïvement je ferais un script Python qui ressemble à ça :
import pandas as pd
# prend le premier argument de la commande comme chemin de dossier ou fichier
df = pd.read_csv("path/to/.gz") # pd.read_csv() gère les csv gzippés
# je corrige les dtypes
# ...
df.to_parquet("path/to/.parquet)
Si le contenu du gzip tient en mémoire, ça devrait marcher.
Bonjour,
Afin de proposer un format de fichier
serait-il possible de proposer également les données au format Parquet ?
Je veux bien m'en charger si une personne bien informée me dit où cela doit être ajouté dans le flow de publication 😃