Jaguarblac / github-slideshow

A robot powered training repository :robot:
https://lab.github.com/githubtraining/introduction-to-github
MIT License
0 stars 0 forks source link

Mini projet en jupyter note #3

Open Jaguarblac opened 2 weeks ago

Jaguarblac commented 2 weeks ago

cleaned_dataset-sell4all.csv

Jaguarblac commented 2 weeks ago

Voici une solution détaillée pour le projet d'exploration des données de Sell4All en utilisant Python, Jupyter Notebook, Pandas et Matplotlib :

Installation de l'environnement de développement

  1. Installer Miniconda pour installer Python et les bibliothèques nécessaires. Suivez les instructions d'installation pour votre système d'exploitation[1][3].

  2. Ouvrir l'invite de commande Anaconda et vérifier l'installation avec la commande conda --version[1].

  3. Créer un nouvel environnement conda pour le projet avec la commande conda create -n sell4all python=3.9[1].

  4. Activer l'environnement avec conda activate sell4all.

  5. Installer les bibliothèques requises dans l'environnement avec conda install pandas matplotlib jupyter notebook.

Exploration des données avec Jupyter Notebook

  1. Démarrer Jupyter Notebook dans l'invite de commande avec jupyter notebook[2].

  2. Créer un nouveau notebook et renommer la première cellule en "Importer les bibliothèques".

  3. Importer les bibliothèques nécessaires dans la première cellule :

import pandas as pd
import matplotlib.pyplot as plt
  1. Lire le fichier CSV 'dataset-sell4all.csv' dans un DataFrame Pandas :
df = pd.read_csv('dataset-sell4all.csv')
  1. Afficher les 5 premières lignes du DataFrame avec df.head()[4].

  2. Afficher un résumé technique des données avec df.info(). Cela donne le nombre de lignes, les noms de colonnes et les types de données[4].

  3. Expliquer le résumé technique dans une cellule Markdown :

    • Le DataFrame contient 1000 entrées
    • Les colonnes "non nulles" ont des valeurs renseignées pour chaque ligne
    • Les types de données sont :
      • Pays : objet (chaîne de caractères)
      • ge : int64 (entier 64 bits)
      • Genre : objet
      • Dépenses : float64 (nombre à virgule flottante 64 bits)
  4. Calculer la médiane et la moyenne des colonnes " ge" et "Dépenses" :

print(f" ge moyen : {df[' ge'].mean():.2f}")
print(f" ge médian : {df[' ge'].median():.2f}")
print(f"Dépenses moyennes : {df['Dépenses'].mean():.2f}€")  
print(f"Dépenses médianes : {df['Dépenses'].median():.2f}€")

Visualisation des données

  1. Créer un graphique à barres des dépenses par pays :
df.groupby('Pays')['Dépenses'].sum().plot(kind='bar')
plt.xlabel('Pays')
plt.ylabel('Dépenses totales')
plt.title('Dépenses des clients par pays')
plt.show()

Nettoyage des données

  1. Supprimer les lignes avec moins de 10€ de dépenses :
df = df[df['Dépenses'] >= 10]
  1. Supprimer les doublons :
df.drop_duplicates(inplace=True)
  1. Créer un nouveau DataFrame avec les colonnes souhaitées :
clean_df = df[['Pays', ' ge', 'Genre', 'Dépenses']]
  1. Enregistrer le DataFrame nettoyé dans un nouveau fichier CSV :
clean_df.to_csv('clean_dataset.csv', index=False)

Le projet est maintenant terminé ! Le fichier Jupyter Notebook contient tout le code source et les résultats. Vous pouvez présenter votre travail lors de l'entretien technique.

Citations : [1] Miniconda — Anaconda documentation https://docs.anaconda.com/miniconda/ [2] How to Install Miniconda - YouTube https://www.youtube.com/watch?v=oHHbsMfyNR4 [3] Installing Python https://geo-python-site.readthedocs.io/en/latest/course-info/installing-miniconda.html [4] Installing on Windows — conda 24.7.2.dev68 documentation https://conda.io/projects/conda/en/latest/user-guide/install/windows.html [5] Using Miniconda Python - eResearch HPC Documentation https://hpc.research.uts.edu.au/software_general/python/python_miniconda/ [6] Installing conda — conda 24.7.2.dev68 documentation https://conda.io/projects/conda/en/latest/user-guide/install/index.html [7] Installing Python 3 and Python Packages | Codecademy https://www.codecademy.com/article/install-python3 [8] Latest Miniconda installer links by Python version https://docs.anaconda.com/miniconda/miniconda-other-installer-links/