Jaguarblac / github-slideshow

A robot powered training repository :robot:
https://lab.github.com/githubtraining/introduction-to-github
MIT License
0 stars 0 forks source link

Mini projet #2

Open Jaguarblac opened 2 weeks ago

Jaguarblac commented 2 weeks ago

Brief du Projet

Contexte

Sell4All est une entreprise de vente au détail en ligne spécialisée dans les vêtements d'occasion. Ils cherchent à intégrer une fonctionnalité d'IA pour suggérer des produits à leurs utilisateurs, en se basant sur les données démographiques et les dépenses.

Objectifs

  1. Utiliser les données démographiques et de dépenses des utilisateurs.
  2. Explorer les données disponibles.
  3. Nettoyer les données.
  4. Enregistrer les données nettoyées.

Missions à Réaliser

Partie 1 : Installation de l'Environnement de Développement

  1. Installer Python via Miniconda

    • Téléchargez Miniconda depuis le site officiel.
    • Suivez les instructions d'installation.
  2. Installer Jupyter Notebook

    • Ouvrez un terminal (ou Anaconda Prompt) et exécutez :
      conda install jupyter
  3. Installer les bibliothèques Python

    • Dans le terminal, exécutez :
      conda install pandas matplotlib

Partie 2 : Création du Programme Python dans Jupyter Notebook

  1. Lire les données du fichier CSV

    • Créez un nouveau notebook et ajoutez le code suivant :
    import pandas as pd
    
    # Lire le fichier CSV
    df = pd.read_csv('dataset-sell4all.csv')
    
    # Afficher les 5 premières lignes
    print(df.head())
  2. Afficher un résumé technique des données

    • Ajoutez le code suivant :
    # Résumé technique
    print("Nombre de lignes :", df.shape[0])
    print("Colonnes :", df.columns.tolist())
    print("Types de données :")
    print(df.dtypes)
  3. Expliquer le résumé technique

    • Dans une cellule Markdown, expliquez :
      • Nombre d'entrées : Total de lignes.
      • Non nul : Valeurs non manquantes.
      • Types de données : Types présents (int, float, object).
  4. Calculer la médiane et la moyenne

    • Ajoutez ce code :
    # Calculer la médiane et la moyenne
    median_age = df['Âge'].median()
    mean_age = df['Âge'].mean()
    median_spending = df['Dépenses des clients'].median()
    mean_spending = df['Dépenses des clients'].mean()
    
    print("Âge - Médiane :", median_age, "Moyenne :", mean_age)
    print("Dépenses - Médiane :", median_spending, "Moyenne :", mean_spending)

Partie 3 : Visualisation et Nettoyage des Données

  1. Créer une visualisation des dépenses par pays

    • Ajoutez le code suivant :
    import matplotlib.pyplot as plt
    
    # Dépenses totales par pays
    spending_by_country = df.groupby('Pays')['Dépenses des clients'].sum()
    spending_by_country.plot(kind='bar', color='skyblue')
    plt.title('Dépenses des clients par pays')
    plt.xlabel('Pays')
    plt.ylabel('Dépenses totales (€)')
    plt.xticks(rotation=45)
    plt.tight_layout()
    plt.show()
  2. Nettoyer les données

    • Supprimer les lignes avec moins de 10 € de dépenses :
    df = df[df['Dépenses des clients'] >= 10]
    • Supprimer les doublons :
    df = df.drop_duplicates()
  3. Enregistrer les données nettoyées dans un nouveau fichier CSV

    • Ajoutez le code suivant :
    df_cleaned = df[['Pays', 'Âge', 'Genre', 'Dépenses des clients']]
    df_cleaned.to_csv('dataset-sell4all-cleaned.csv', index=False)

Modalité Pédagogique

Critères d’Évaluation

Ressources Utiles