mobility-team / mobility

Mobility, an open-source library for mobility modelisation
MIT License
16 stars 10 forks source link

Vérifier la cohérence des résultats avec les données du SDES #12

Closed FlxPo closed 4 months ago

FlxPo commented 2 years ago

Il faudrait vérifier qu'on retombe bien sur des chiffres proches des résultats officiels de l'ENTD 2008 et de l'EMP 2019. On pourrait pour cela échantillonner une population représentative française (avec les données détail du recensement), et calculer des nombres de déplacements, de voyages, et des parts modales.

An-So-G commented 2 years ago

Pour l'instant, j'ai fait les tests pour les données INSEE et sdes 2018, avec un nombre de voitures donné par l'INSEE ( p_car non encore testé) , et sans avoir recours au remaniement d'Antoine dans les cas où les échantillons sont de taille trop faible.

An-So-G commented 2 years ago

Voici les résultats par CSP : image image image

An-So-G commented 2 years ago

et par catégorie de ville (R,B,C,I) : image image image image image

An-So-G commented 2 years ago

Le problème des cas "fantômes" dans l'EMP 2019 est rapidement apparu, et a été un facteur limitant des échantillons pris pour déterminer les variables de sortie ( notamment travel dist/y) . Ainsi , la taille des échantillons varie selon la CSP : 1 : 10 , 2 : 50 , 3 : 250 , 4 : 150 , 6 : 100. 5, 7 et 8 pouvaient sans problème tourner pour une taille d'échantillon à 1000: les résultats ne variaient cependant pas grandement entre 1000 et 100 pour ces CSP, la taille d'échantillon a été baissée à 100.

Ce problème s'est également présenté lorsqu'on sort des valeurs par catégorie de ville. on a ainsi une taille d'échantillon de 50 (I et R) ou 100 (C et B)

An-So-G commented 2 years ago

Ces tailles d'échantillons rendent les résultats moins fiables. On peut malgré tout dégager certaines tendances sur les catégories avec une taille d'échantillon suffisante .

FlxPo commented 2 years ago

Merci pour tous ces tests ! Visiblement on a des choses à améliorer...

Je suis un peu perdu pour comprendre la méthode que tu as utilisé. Si j'ai bien suivi, les étapes étaient les suivantes :

En théorie on devrait trouver des chiffres beaucoup plus proches de l'EMP, sauf si le recensement et l'échantillon EMP ne représentent pas la même population...

Et on a un gros problème sur la longue distance non ?

An-So-G commented 2 years ago

Merci pour ton retour ! Pour la méthode utilisée c'est bien celle que tu présentes, à quelques détails près :

Le problème de taille d'échantillon se pose lorsqu'on lance les get_trips. Plus la population échantillonée était grande, plus on avait de chance de tomber sur un profil aboutissant à l'échec dans get_trips. Le problème se pose très rapidement avec certains CSP: par exemple, au bout de 10 agriculteurs exploitants, il devenait impossible de ne pas tomber sur un profil "inconnu" du get trips. J'étais étonnée de voir que le problème se retrouvait également quand on échantillonnait pour des catégories urbaines, alors que c'est à priori un critère moins discriminant que la CSP. ( 1 chance sur ~100 de tomber sur un profil "inconnu" de get trips pour les catégories B et C, et 1 chance sur ~50 pour les catégories I et R)

An-So-G commented 2 years ago

Pour la longue distance, je trouve ça également étrange que nos résultats soient aussi éloignés de l'EMP, même en considérant uniquement les voyages de plus de 80 km (et donc en ignorant totalement les déplacements au cours des voyages). J'ai regardé dans la note "Mise à disposition des tables individuelles anonymisées de l'EMP 2019" et je pense que le problème peut s'expliquer par deux facteurs :

FlxPo commented 2 years ago

Plusieurs suggestions pour avancer :

AntoineGauchot commented 2 years ago

Je peux apporter quelques éléments de réponse :

FlxPo commented 2 years ago

En regardant de plus près les données de K_VOY_DEPDET, il me semble que seuls les déplacements de la boucle de déplacement globale du voyage sont pris en compte, mais pas les petits déplacements pour chaque destination du voyage. L'aller Lyon - Paris puis le retour Paris - Lyon, par exemple, mais pas les déplacements effectués une fois à Paris.

A moins qu'ils soient comptés côté mobilité locale, mais je ne crois pas car seuls les habitants sont enquêtés, et pas les personnes de passage sur un territoire ? A vérifier.

Il y a peut être également un problème dans notre logique d'échantillonnage : on tire des déplacements de K_VOY_DEPDET (identifiés par IDENT_DEPLD), alors qu'on devrait tirer des voyages (identifiés IDENT_VOY) et tous les déplacements qui les composent, en un seul bloc, non ?

AntoineGauchot commented 2 years ago

Pour l'échantillonnage, ce que fait le programme actuellement c'est regrouper les déplacements de K_VOY_DEPDET selon le voyage auquel ils appartiennent et ensuite on tire les voyages dans la base regroupée.

FlxPo commented 2 years ago

Merci @AntoineGauchot pour la modification de la distance et de la pondération prises en compte pour les calculs (https://github.com/mobility-team/mobility/commit/5c45186fb7324cca308a3c4217abee66bbb20815).

Effectivement la logique d'échantillonnage est OK, je n'avais pas suivi le fil jusqu'au bout !

An-So-G commented 2 years ago

J'ai refait tourner les tests avec quelques modifications :

An-So-G commented 2 years ago

image image image

An-So-G commented 2 years ago

-Excepté pour les CSP 1 et 8, la distance parcourue par déplacement en semaine reste satisfaisante.

An-So-G commented 2 years ago

J'ai sorti une comparaisons avec les valeurs ENTD 2009 et INSEE 2011. Voici les résultats : image

An-So-G commented 2 years ago
An-So-G commented 2 years ago

J'ai également resorti des valeurs de comparaison 2019 en faisant cette fois appel à p_car. Voici les résultats : image

An-So-G commented 2 years ago

pour les sources, elles sont disponibles dans le excel de comparaison Comparaison_CSP.xlsx : il suffit de cliquer sur les cellules regroupées à droite des résultats en absolu pour afficher les tables de référence du sdes. Les tables sont téléchargeables depuis ce lien : https://github.com/mobility-team/mobility/tree/test-insee/test/test_insee/output

FlxPo commented 2 years ago

On s'approche mais ce n'est pas encore tout à fait ça !

Est ce que tu as pris en compte le fait qu'on tire des jours de mobilité locale lors des voyages ? Je pense que cela peut fausser un peu la comparaison avec les données SDES, puisque ce type de petits déplacements lors d'un voyage ne sont pas dans le périmètre de l'étude.

Autre idée : la méthode safe_sample permet de tirer des déplacements pour des individus qui ne sont pas dans la base ENTD/EMP, mais elle introduit un biais vu qu'on échantillonne dans une population de moins en moins spécifique. Si on échantillonne à partir des données INSEE, on ajoute un autre biais.

Est ce que tu pourrais tirer des individus directement des données ENTD/EMP, pour neutraliser les différences de populations entre ces enquêtes et les données INSEE ? Théoriquement on devrait tomber exactement sur les résultats du SDES avec un échantillon assez grand.

An-So-G commented 2 years ago

Concernant la mobilité locale en voyage : on a créé avec Louise une nouvelle colonne dans le trip sampler "trip_type" : on sait alors le type de déplacement ou de voyage considéré. Cette méthode permet de ne garder que les grands déplacements en voyage :)

Concernant le biais de population : Bien vu ! j'ai retesté en tirant avec une population du SDES, et effectivement, l'erreur est quasiment neutralisée pour toutes les variables testées.

An-So-G commented 2 years ago

variation2019sdes

An-So-G commented 2 years ago

Hormis les csp 1 et 2 qui possèdent des tailles d'échantillons très faibles, j'ai pu compiler les résultats de 990 individus de chaque catégorie dans les tables ci- dessus.

nombres de déplacements par jour semaine : - quasiment pas de changement comparé au données INSEE

distance par déplacement jour semaine: erreur inférieure à 10% pour l'ensemble des CSP présentées, et diminution de l'erreur de 25% pour la CSP 8 : l'erreur reste élevée, ce qui renforce le soupçon d'un manque de compréhension de ma part concernant cette catégorie ( il faudrait peut être compiler les résultats de la csp 8 avec ceux de la "no_csp" afin de retomber sur les résultats du sdes ? )

distance totale voyagée par an : erreur inférieure à 10 % pour l'ensemble des CSP présentées 🥇

FlxPo commented 1 year ago

C'est top merci pour ce travail !