CashStory / training-datamining-mds

Repository dedicated to mydigitalschool datamining training - @MyDigitalSchool
1 stars 8 forks source link

Introduction générale au Data Mining

My Digital School Rennes

drawing

Projet de cours

Date de dernière mise à jour : 14/04/2020

Agenda

Journée 1

9H - 12H30 - Introduction générale

14H - 17H

Journée 2

9H - 12H30

14H - 17H

Journée 3

9H - 12H30

14H - 17H

Journée 4

9H - 12H30

14H - 17H

Outils

Le data mining pour tous

Définition

Le Data Mining c’est l’ensemble des algorithmes, méthodes et technologies inspirés de plusieurs autres disciplines, propres ou non au DM pouvant servir à remplacer ou à aider l’expert humain ou le décideur dans un domaine spécifique dans le cadre de prise de décision, et ce en fouillant dans des bases de données décisionnelles des corrélations, des associations, des comportements homogènes, des formules de lien entre indicateurs, des spécification par rapport à une thématique bien déterminée.

Enjeux

La pyramide DIKW

Pyramid: Data – Information – Knowledge – Wisdom (DIKW)

Les applications du data mining

drawing

Data mining & finance

Banques & finances

Vente, Distribution, Marketing

Assurances

Prise de Décision, Prédiction, Exploitation de données, etc.

Les méthodes de data mining

Deux familles de techniques

1- Apprentissage automatique (Analyse descriptive)

2- Apprentissage supervisées (Analyse prédictive)

Types d'applications

drawing

2 familles de techniques :

Methodologies de travail

KDD / EDC

(Knowledge Data Discovery / Extraction de connaissances à partir de données)

Définition : Knowledge Discovery in Databases

Phases principales

  1. Développer et comprendre le domaine de l’application

    • C’est le pas initial de ce processus. Il prépare la scène pour comprendre et développer les buts de l’application.
  2. Sélection des données

    • La sélection et la création d’un ensemble de données sur lequel va être appliqué le processus d’exploration.=> "Données ciblées"
  3. Le prétraitement et le nettoyage des données

    • Cette étape inclut des opérations comme l’enlèvement du bruit et des valeurs aberrantes -si nécessaire, des décisions sur les stratégies qui vont être utilisées pour traiter les valeurs manquantes... => "Données prétraitées"
  4. La transformation des données

    • Cette étape est très importante pour la réussite du projet et doit être adaptée en fonction de chaque base de données et des objectifs du projet. Dans cette étape nous cherchons les méthodes correctes pour représenter les données. Ces méthodes incluent la réduction des dimensions et la transformation des attributs.=> "Données transformées"
      • Note : une fois que toutes ces étapes seront terminées, les étapes suivantes seront liées à la partie de Data mining, avec une orientation sur l’aspect algorithmique.
  5. Choisir la meilleure tâche pour Datamining

    • Nous devons choisir quel type de Datamining sera utilisé, en décidant le but du modèle.
      • Par exemple : classification, régression, regroupement...
  6. Choisir l’algorithme de Datamining

    • Dans cette étape nous devons choisir la méthode spécifique pour faire la recherche des motifs, en décidant quels modèles et paramétrés sont appropriés.=> "Création de modèles"
  7. Implémenter l’algorithme de Datamining

    • Dans cette étape nous implémentons les algorithmes de Datamining choisis dans l’étape antérieure.
    • Peut être il sera nécessaire d’appliquer l’algorithme plusieurs fois pour avoir le résultat attendu.
  8. Evaluation

    • Evaluation et interprétation des motifs découverts. Cette étape donne la possibilité de:
      • Retourner à une des étapes précédentes
      • Avoir une représentation visuelle des motifs, enlever les motifs redondants ou non-représentatifs et les transformer dans des termes compréhensibles pour l’utilisateur.
  9. Utiliser les connaissances découvertes

    • Incorporation de ces connaissances dans des autres systèmes pour d’autres actions.
    • Nous devons aussi mesurer l’effet de ces connaissances sur le système, vérifier et résoudre les conflits possibles avec les connaissances antérieures.

Le KDD est devenu lui-même un modèle pour les nouveaux modèles.

Le modèle a été utilisé dans plusieurs domaines différentes : ingénierie, médicine, e-business, production, développement du logiciel, etc.

SEMMA : Sample, Explore, Modify, Model, Assess

Mise en contexte

L’Institut SAS définit le data mining comme le processus utilisé pour révéler des informations précieuses et des relations complexes qui existent dans de grandes quantités de données (BIG DATA, OPEN DATA).

SAS divise la fouille de données en cinq étapes représentées par l’acronyme SEMMA.

Définition

drawing

Phases principales

1- Sample: Echantillon des données

Extrait des échantillons d’un vaste ensemble de données, en nombre suffisamment grand pour contenir l’information importante.

2 - Explore: Exploitation des données

Cette étape consiste dans l’exploration des données en recherchant les tendances et les anomalies imprévues afin de mieux comprendre les données.

3 - Modify: Modifier les données

Dans cette étape on modifie les données en créant, en sélectionnant et en transformant les variables afin de s’axer sur le processus de sélection de modèles.

4 - Model: Modélisation des données

5 - Assess: Evaluer le résultat

L'Application SAS

drawing

CRISP - DM

Définition

Cross-Industry Standard Process for Data Mining

Une méthode mise à l'épreuve sur le terrain permettant d'orienter les travaux de Data mining

Processus de data mining qui décrit une approche communément utilisée par les experts pour résoudre les problèmes qui se posent à eux.

drawing

Méthodologie

drawing

Phases principales

1- Compréhension métier

2 - Compréhension des données

Les enjeux de la selection des données

3 - Préparation des données

Les enjeux de la transformation des données

4 - Modélisation

5 - Evaluation

6 - Déploiement et implémentation

Exemple CRISP: les factures de téléphone

Séquence de période de facturation:

Phases Description
1/
COMPRÉHENSION MÉTIER
Prédire quels clients seraient insolvables à temps pour l'entreprise pour prendre des mesures préventives (et d'éviter de perdre de bons clients)
Hypothèse:
Clients insolvables vont changer les habitudes d'appel et l'usage du téléphone pendant une période critique avant et immédiatement après la fin de la période de facturation.
2/
COMPRÉHENSION DES DONNÉES
Les informations statiques des clients sont disponibles dans des fichiers (Factures, paiements, utilisation…)
Un entrepôt de données est utilisé pour recueillir et organiser les données
(Un codage pour protéger la vie privée des clients)
CRÉATION DE L'ENSEMBLE DES DONNÉES CIBLES - Les fichiers des client (Informations sur les clients, Déconnexion, Reconnexions)
- Données dépendantes du temps (Factures, paiements, Utilisation)
100, 000 clients sur une période de 17 mois
L'échantillonnage pour assurer à tous les groupes une représentation appropriée
3/
PRÉPARATION DES DONNÉES
Filtrer les données incomplètes
Les appels en promotion supprimés
- Le volume des données réduit d'environ 50%
Faible nombre des cas de fraude
Vérification croisée avec les déconnexions du téléphone Les données retardées sont nécessairement synchronisées
4/
MODÉLISATION
Analyse discriminante: modèle linéaire
Les arbres de décision: Classificateur à base de règles
Réseaux de Neurones : Le modèle non linéaire
5/
EVALUATION
Le premier objectif est de maximiser la précision de la prédiction des
clients insolvables
- Arbre de décision un classificateur meilleur
Deuxième objectif est de minimiser le taux d'erreur pour les clients
de solvants
- Le modèle Réseau de Neurones proche de l’arbre de décision
Utilisé tous les 3 sur la base de cas par cas.
6/
IMPLÉMENTATION
Chaque client a été examiné avec les 3 algorithmes
- Si tous les 3 sont convenables, utiliser une classification
- En cas de désaccord, catégorisé comme non classé
Correcte sur les données d'essai avec 0.898
- Seulement 1 client solvant aurait été débranché

⚠️ Les données dans le monde réél !

Les principales causes

Les données incomplètes peuvent provenir de:

Les données bruyantes (valeurs incorrectes) peuvent provenir de:

Les données incohérentes peuvent provenir de:

Credits