Sell4All est une entreprise de vente au détail en ligne spécialisée dans les vêtements d'occasion. Ils cherchent à intégrer une fonctionnalité d'IA pour suggérer des produits à leurs utilisateurs, en se basant sur les données démographiques et les dépenses.
Objectifs
Utiliser les données démographiques et de dépenses des utilisateurs.
Explorer les données disponibles.
Nettoyer les données.
Enregistrer les données nettoyées.
Missions à Réaliser
Partie 1 : Installation de l'Environnement de Développement
Ouvrez un terminal (ou Anaconda Prompt) et exécutez :
conda install jupyter
Installer les bibliothèques Python
Dans le terminal, exécutez :
conda install pandas matplotlib
Partie 2 : Création du Programme Python dans Jupyter Notebook
Lire les données du fichier CSV
Créez un nouveau notebook et ajoutez le code suivant :
import pandas as pd
# Lire le fichier CSV
df = pd.read_csv('dataset-sell4all.csv')
# Afficher les 5 premières lignes
print(df.head())
Afficher un résumé technique des données
Ajoutez le code suivant :
# Résumé technique
print("Nombre de lignes :", df.shape[0])
print("Colonnes :", df.columns.tolist())
print("Types de données :")
print(df.dtypes)
Expliquer le résumé technique
Dans une cellule Markdown, expliquez :
Nombre d'entrées : Total de lignes.
Non nul : Valeurs non manquantes.
Types de données : Types présents (int, float, object).
Calculer la médiane et la moyenne
Ajoutez ce code :
# Calculer la médiane et la moyenne
median_age = df['Âge'].median()
mean_age = df['Âge'].mean()
median_spending = df['Dépenses des clients'].median()
mean_spending = df['Dépenses des clients'].mean()
print("Âge - Médiane :", median_age, "Moyenne :", mean_age)
print("Dépenses - Médiane :", median_spending, "Moyenne :", mean_spending)
Partie 3 : Visualisation et Nettoyage des Données
Créer une visualisation des dépenses par pays
Ajoutez le code suivant :
import matplotlib.pyplot as plt
# Dépenses totales par pays
spending_by_country = df.groupby('Pays')['Dépenses des clients'].sum()
spending_by_country.plot(kind='bar', color='skyblue')
plt.title('Dépenses des clients par pays')
plt.xlabel('Pays')
plt.ylabel('Dépenses totales (€)')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()
Nettoyer les données
Supprimer les lignes avec moins de 10 € de dépenses :
df = df[df['Dépenses des clients'] >= 10]
Supprimer les doublons :
df = df.drop_duplicates()
Enregistrer les données nettoyées dans un nouveau fichier CSV
Ajoutez le code suivant :
df_cleaned = df[['Pays', 'Âge', 'Genre', 'Dépenses des clients']]
df_cleaned.to_csv('dataset-sell4all-cleaned.csv', index=False)
Modalité Pédagogique
Durée : 3 jours.
Livrable : Un fichier Jupyter Notebook contenant toutes les analyses et visualisations.
Critères d’Évaluation
Utilisation correcte de Python et des bibliothèques.
Clarté et précision des explications.
Respect des instructions et de la structuration du projet.
Organisation des tâches et gestion du temps.
Ressources Utiles
Installation : Tutoriel sur l'utilisation de Miniconda et Jupyter Notebook.
Pandas : Tutoriel vidéo pour apprendre à manipuler des données avec Pandas.
Brief du Projet
Contexte
Sell4All est une entreprise de vente au détail en ligne spécialisée dans les vêtements d'occasion. Ils cherchent à intégrer une fonctionnalité d'IA pour suggérer des produits à leurs utilisateurs, en se basant sur les données démographiques et les dépenses.
Objectifs
Missions à Réaliser
Partie 1 : Installation de l'Environnement de Développement
Installer Python via Miniconda
Installer Jupyter Notebook
Installer les bibliothèques Python
Partie 2 : Création du Programme Python dans Jupyter Notebook
Lire les données du fichier CSV
Afficher un résumé technique des données
Expliquer le résumé technique
Calculer la médiane et la moyenne
Partie 3 : Visualisation et Nettoyage des Données
Créer une visualisation des dépenses par pays
Nettoyer les données
Enregistrer les données nettoyées dans un nouveau fichier CSV
Modalité Pédagogique
Critères d’Évaluation
Ressources Utiles