LeoMaurice / SportsParticipationEconomicGeographic

Project about sport activities in regard to economic variables and geographic disparities made during a course at ENSAE by Lino Galiana. The study is made at the city level, using individual sports licenses and city sports infrastructures on one side, and poverty rate, median income, city population and unemployement rate on the other side.
https://pythonds.linogaliana.fr/
1 stars 1 forks source link
data-science geographic-data social-sciences sports

Étude de la relation entre les facteurs économiques et géographiques et la participation aux activités sportives au niveau des villes

Projet python réalisé à l'occasion d'un diplôme d'ingénieur à l'ENSAE. Administrateurs stagiaires ayant travaillé sur le projet :

Organisation du repository

Le dossiers helpers contient 3 petits fichiers .py de fonctions d'aides pour ne pas encombrer le rendu jupyter. Ce dernier contient l'ensemble des actions : téléchargement, visualisation des données, puis modélisation et interprétations.

Un fichier requirements.txt permet d'installation les packages nécessaires si le jupyter lui même n'installe pas ce qu'il faut (normalement un bloc installation a été prévu. Ce bloc ne s'exécute que si : installations_needed = True).

Le lancement total de rendu est de : 20 mn dont les 3/4 dans le téléchargement et la création de cartes pour visualiser les données. Si on souhaite juste les données et les modèles, on peut utiliser au tout début VERBOSE = False pour ne pas avoir de graphiques ni de sortie et réduire ainsi le temps de rendu.

Par commodité on a supprimé l'essentiel de l'aléa sur le clustering pour faciliter la cohérence entre commentaires et résultats mais ces derniers sont cohérents qu'importe la seed.

Actions réalisées :

  1. Récupération des bases de données depuis internet par différentes façons (API, package python, lien direct)
  2. Cleaning et filtration des données sur la France métropolitaine
  3. Agrégations des bases et éjection d'outliers
  4. Visualisation par des cartes
  5. Réalisation de statistiques descriptives et de corrélations.
  6. Clustering sur les pratiques sportives
  7. Prédiction/classification de ces clusters par des données socio-économiques
  8. Interprétations de ces clusters en tant que groupes de distinction culturelle et économique.

Pré-critiques