mobility-team / mobility

Mobility, an open-source library for mobility modelisation
MIT License
16 stars 11 forks source link

Problème de population pour l'EMP 2019 #13

Closed FlxPo closed 2 years ago

FlxPo commented 2 years ago

J'ai calculé la somme des pondérations individus "pondki" en 2008 et 2019 pour vérifier qu'on retombait bien sur la population des 6 ans et plus française. C'est OK en 2008 (54 millions de personnes), mais pas en 2019 (94 millions de personnes).

Je ne sais pas trop d'où peut venir le problème ?

Voici le code :

import pandas as pd

df_2008 = pd.read_parquet("C:/Users/pouchaif/Documents/dev/mobility_oss/data/surveys/entd-2008/short_dist_trips.parquet")
df_2019 = pd.read_parquet("C:/Users/pouchaif/Documents/dev/mobility_oss/data/surveys/emp-2019/short_dist_trips.parquet")

ind_2008 = df_2008.groupby("individual_id").first()
ind_2019 = df_2019.groupby("individual_id").first()

print(ind_2008["pondki"].sum())
print(ind_2019["pondki"].sum())
AntoineGauchot commented 2 years ago

Oui effectivement. Pour l'EMP 2019, j'ai utilisé la pondération jour plutôt que la pondération individu pour short_dist_trips. Avant la colonne se nommait "pond_jour" mais pour avoir des bases cohérentes entre les enquêtes, j'ai renommé cette colonne "pondki".

Il sera intéressant de comparer les résultats que l'on obtient avec cette pondération jour ou avec la pondération individu (dans la foulée de l'issue #12 j'imagine)

FlxPo commented 2 years ago

On revient sur la discussion qu'on avait par email, continuons là ici :

Si j'ai bien compris, pond_jour = pondki x 5 en semaine et pondki x 2 pour le weekend.

Vu qu'on fait la différence dans notre échantillonnage entre semaine et week end, je ne pense pas qu'il soit nécessaire d'utiliser pond_jour, qui est là uniquement pour pouvoir agréger des données à l'échelle annuelle directement.

A moins que quelque chose m'échappe ?

AntoineGauchot commented 2 years ago

Dans l'ENTD on a bien pond_jour = pondki x 5 en semaine et pondki x 2 pour le weekend. On peut passer de l'un à l'autre sans souci (pond_jour est effectivement calculé pour obtenir directement des totaux hebdomadaires ou sur le weed-end). Actuellement dans prepare_entd_2008 c'est pondki qui est utilisé.

De ce que j'en comprends dans l'EMP, pond_jour est aussi calculé pour obtenir des totaux hebdomadaires ou sur le week-end. Toutefois, il n'est pas indiqué si la relation pond_jour = pondki x 5 en semaine et pondki x 2 pour le weekend est toujours valable (il est juste précisé que pond_jour prend en compte pondki). Pour moi, cette relation n'est plus vraie. Je pense que le SDES a effectué un travail supplémentaire pour que pond_jour prenne en compte pondki mais aussi le jour de la semaine de façon plus fine : peut-être ont-ils des informations sur la répartition de la mobilité au cours d'une semaine au niveau national qu'ils ont utilisées pour rendre pond_jour plus représentatif du jour de la semaine Actuellement dans prepare_emp_2019 c'est pond_jour / 5 en semaine et pond_jour / 2 le week-end qui est utilisé.

Le guide méthodo de l'EMP 2019 https://www.statistiques.developpement-durable.gouv.fr/sites/default/files/2022-04/mise_a_disposition_tables_emp2019_public_V2.pdf est utile pour mieux comprendre mais pas complètement explicite sur comment est calculé pond_jour

FlxPo commented 2 years ago

Tu devrais pouvoir tester rapidement si pondki = pond_jour/5 ou pond_jour/2, non ?

AntoineGauchot commented 2 years ago

Oui je suis bête en plus je l'avais déjà testé mais j'avais oublié et effectivement pond_jour est effectivement ce n'est pas le cas La pond_jour vaut environ en moyenne 5.8 x pondki un jour de semaine, 7.1 x pondki le samedi et 7.5 x pondki le dimanche

Je suis un peu surpris par les x7 le week-end