Étude de la relation entre les facteurs économiques et géographiques et la participation aux activités sportives au niveau des villes
Projet python réalisé à l'occasion d'un diplôme d'ingénieur à l'ENSAE.
Administrateurs stagiaires ayant travaillé sur le projet :
Organisation du repository
Le dossiers helpers contient 3 petits fichiers .py de fonctions d'aides pour ne pas encombrer le rendu jupyter. Ce dernier contient l'ensemble des actions : téléchargement, visualisation des données, puis modélisation et interprétations.
Un fichier requirements.txt permet d'installation les packages nécessaires si le jupyter lui même n'installe pas ce qu'il faut (normalement un bloc installation a été prévu. Ce bloc ne s'exécute que si : installations_needed = True).
Le lancement total de rendu est de : 20 mn dont les 3/4 dans le téléchargement et la création de cartes pour visualiser les données. Si on souhaite juste les données et les modèles, on peut utiliser au tout début VERBOSE = False pour ne pas avoir de graphiques ni de sortie et réduire ainsi le temps de rendu.
Par commodité on a supprimé l'essentiel de l'aléa sur le clustering pour faciliter la cohérence entre commentaires et résultats mais ces derniers sont cohérents qu'importe la seed.
Actions réalisées :
- Récupération des bases de données depuis internet par différentes façons (API, package python, lien direct)
- Cleaning et filtration des données sur la France métropolitaine
- Agrégations des bases et éjection d'outliers
- Visualisation par des cartes
- Réalisation de statistiques descriptives et de corrélations.
- Clustering sur les pratiques sportives
- Prédiction/classification de ces clusters par des données socio-économiques
- Interprétations de ces clusters en tant que groupes de distinction culturelle et économique.
Pré-critiques
- Notre étude ne s'attache qu'à une pratique « officielle », marquée par la licence : d’autres pratiques, moins formelles, ne sont pas étudiées.
- Les données sont étudiées commune par commune, ce qui créé des barrières imaginaires : une pratique sportive peut avoir un sens seulement à une échelle multi communes.
- La partie de modélisation et de classification (actions 6 à 8) se limite au domaine urbain en n'étudiant que les villes de taille moyenne.