annuaire-entreprises-data-gouv-fr / search-infra

11 stars 3 forks source link

[OPENDATA]Publication quotidienne des données de notre base de données sur data.gouv.fr au format Parquet #325

Open geoffreyaldebert opened 1 month ago

geoffreyaldebert commented 1 month ago
HAEKADI commented 1 week ago

Description

Nous souhaitons publier quotidiennement les données de notre base de données sur data.gouv. La publication se fera au format Parquet et sera organisée en deux fichiers distincts :

  1. Fichier des unités légales
  2. Fichier des établissements

La publication suivra le workflow d'indexation existant et se fera sur le compte de data.gouv. Il est impératif de rédiger la documentation avant la première publication.

Détails des fichiers à publier

1. Fichier des unités légales

Ce fichier contiendra les champs suivants :

2. Fichier des établissements

Ce fichier contiendra les champs suivants :

Tâches

  1. Exporter les données: Extraire les données de notre base de données dans les formats décrits ci-dessus.
  2. Vérifier l'intégrité et la cohérence: Assurer l'exactitude et la cohérence des données exportées.
  3. Convertir au format Parquet: Transformer les fichiers exportés au format Parquet.
  4. Rédiger la documentation: Créer une documentation détaillée expliquant le processus de publication, les champs des fichiers et leur signification.
  5. Publier sur data.gouv.fr: Mettre en ligne les fichiers Parquet sous le compte data.gouv via l'API.
  6. Automatiser la publication quotidienne: Intégrer la publication dans le workflow d'indexation existant pour garantir une mise à jour quotidienne.

Références

HAEKADI commented 1 week ago

cc @XavierJp

XavierJp commented 1 week ago

Concernant les donnees

Je me demande si on a pas interet a publier l'adresse agrégée et la denomination calculee

XavierJp commented 1 week ago

Ainsi que les deux dates inscription insee et inscription inpi