Closed louisegontier closed 2 years ago
Je viens de créer une base pour le développement d'un fonction get_survey_data, qui crée les fichiers parquet la première fois qu'on l'utilise, et qui les charge simplement ensuite : https://github.com/mobility-team/mobility/blob/main/mobility/get_survey_data.py
Je voudrais faire évoluer la logique d’échantillonnage et les noms de variables (plus explicites), vous pouvez regarder la base du nouveau "TripSampler" pour voir comment cela pourrait fonctionner : https://github.com/mobility-team/mobility/blob/main/mobility/trip_sampler_2.py
@AntoineGauchot et Anne Sophie vous pouvez partir de cette base pour refaire l'intégration des données 2008 et ajouter celles de 2018 ?
Une 1ère version du code pour créer les fichiers parquet et les charger a été rédigée sur la branche entd_emd, avec notamment :
Les fichiers parquet sont écrits de façon à permettre une nouvelle façon d'échantillonner. NB : cette nouvelle méthode n'est pas encore implémentée mais dans l'idée ressemblera à ça : Voyages
Mobilité quotidienne
Merci pour ces propositions.
J'ai commencé quelques changements :
Il manque juste le téléchargement pour les données 2008, je fais ça demain.
J'ai ajouté le téléchargement pour l'ENTD 2008 : https://github.com/mobility-team/mobility/commit/1ddab5f13d2b92bb2e19b5efd58b32da9e5a3f79.
Tout semble OK ! J'ai fait un merge avec la branche main : https://github.com/mobility-team/mobility/pull/8
ENTD : https://www.statistiques.developpement-durable.gouv.fr/resultats-detailles-de-lenquete-mobilite-des-personnes-de-2019?rubrique=60&dossier=1345