Chapitre 1-1
Chapitre 1-1
Chapitre 1-1
Les données
▪ divorcé
▪ 5 enfants à charge
▪ chômeur en fin de
droit
▪ compte à découvert 3
Expérience de l’entreprise : ses clients et leur
comportement
▪ Coûteuse en stockage
▪ Inexploitée
8
Motivation (3): Croissance en coût
9
Motivation (4): Supports hétérogènes
10
Data Mining: Définition
12
Data Science: vocabulaire
▶ Reconnaissance des formes ▶ Fouille de données (data
(pattern recognition) mining)
▶ Apprentissage automatique ▶ Statistique
(machine learning)
▶ ….
▶ Intelligence artificielle
Data
Mining
16
DM: Exemple
Problématique
▶ Un éditeur vend 5 sortes de
magazines : sport, voiture,
maison, musique, cinéma.
▶ Il veut étudier ses clients pour
découvrir de nouveaux marchés
ou vendre plus à ses clients
habituels.
17
Quelques questions
22
Exemple 2: Commerce
Opinion mining
▪ Exemple : analyser l’opinion des usagers sur les produits d’une
entreprise à travers les commentaires sur les réseaux sociaux et les
blogs
23
Les données
Les données
Les données peuvent être vues comme une collection d’objets
(enregistrements) et leurs attributs
25
Attributs
Objets
26
Types de données
Qualitative Quantitative
Nominales Intervalles
Ordinales Ratio
27
Types de données: Qualitative
28
Types de données: Nominal
▪ Les variables nominales présentent des catégories que l’on nomme
avec un nom.
▪ Le seul calcul faisable sur les variables nominales est le nombre
d’éléments ou pourcentage par catégorie.
▪ Exemple:
Quel est votre sexe: Votre couleur de cheveux:
o Homme o Noir
o Femme o Blond
o Châtain
29
o Autre
Types de données: Ordinal
▪ Les variables ordinales sont des catégories qui sont naturellement
ordonnées.
▪ Ça peut être le classement à une course, par exemple ou le résultat
à questionnaire sur une échelle de Likert.
▪ Exemple:
30
Types de données: Quantitative
31
Types de données: Interval
▪ Nous pouvons, non seulement, ordonner les items qui sont
mesurés, mais également mesurer et comparer les tailles des
différences entre elles.
▪ Exemple :
▫ Nous pouvons dire qu'une température de 40 degrés Celsius
est plus haute qu'une température de 30 degrés,
▫ et qu'une augmentation de 20 à 40 degrés est deux fois plus
qu'une augmentation de 30 à 40 degrés.
▫ A 0°c, il y a toujours une température.
32
Types de données: Ratio ou rapport
▪ Les variables de ratios sont très semblables à celles d'intervalle
avec un point nul absolu identifiable
▪ Dans une donnée de ratio, le zéro signifie réellement l'absence de
quelque chose.
▪ Exemple :
▫ Pour la durée d’un test, à 0, il n’y pas de temps
▫ Si vous avez zéro produit laitier dans votre panier, c'est qu'il
n'y a réellement aucun produit laitier.
33
TYPES D'ENSEMBLES DE DONNÉES
Record Graph Ordonné
Données Données
Structure
de temporelle
moléculaire
document s
Données Données
de séquentiell
transaction es
Données de
séquence 34
génétique
Données d’enregistrement
35
Données de document
▪ Chaque document devient un vecteur de «terme»,
▫ Chaque terme est une composante (attribut) du vecteur,
▫ la valeur de chaque composant est le nombre de fois le terme
correspondant apparaît dans le document.
Document 1 3 0 5 0 2 6
Document 2 0 7 0 2 1 0
Document 3 0 1 0 0 1 2
36
Données de transaction
▪ Un type spécial d’ensemble de données, où chaque enregistrement
(transaction) implique un ensemble d'articles.
▪ Exemple: dans une épicerie. L'ensemble des produits achetés par un client
constitue une transaction, tandis que les produits individuels qui ont été
achetés sont les articles (items) .
37
Graph data
▪ Exemple: graphes génériques et liens HTML
38
Données de séquence génétique
39
Données spatio-temporelles
5. Formalisation et diffusion
42
1. Définition du problème
▪ Quel est le but de l'analyse, que recherche-t-on ?
▪ Quels sont les objectifs ?
▪ Comment traduire le problème en une question pouvant servir de
sujet d'enquête pour cet outil d'analyse bien spécifique ?
45
3. Choix du modèle d’analyse
46
3. Choix du modèle d’analyse
Data Mining
Analyse Analyse
Descriptive Prédictive
47
3. Choix du modèle d’analyse
Classification Régression
Segmentation
Association
(Clustering)
48
La variable décisionnelle est qualitative
•Un dossier de crédit peut être classifié : BON ou MAUVAIS
•Un patient peut présenter un fort risque de maladie cardiaque
CLASSIFICATION – PROFILING 50
3. Choix du modèle d’analyse
Classification Régression
Segmentation
Association
(Clustering)
51
La variable décisionnelle est quantitative
•Prédire les tendances salariales la prochaine année
•Prédire le meilleur pourcentage de réduction de coûts
Régression Linéaire
• Méthode des moindres carrés
• Meilleurs prédicteurs
52
3. Choix du modèle d’analyse
Classification Régression
Segmentation
Association
(Clustering)
53
Aucune variable décisionnelle
•Les variables d’entrées servent à créer des groupes homogènes
•Les individus de chaque groupe se ressemblent le plus
•Les groupes d’appartenances obtenus se distinguent le plus
54
Trouver les
comportements
typiques des
clients.
SEGMENTATION – TYPOLOGIE 55
3. Choix du modèle d’analyse
Classification Régression
Segmentation
Association
(Clustering)
56
Recherche des
articles les
plus/moins
associés
ANALYSE DU CHARIOT 57
MÉDECINE: les symptômes associés 58
4. Evaluation des résultats
▪ Il est temps d'exploiter les résultats.
▪ Pour affiner l'analyse, reprendre les étapes 1, 2 ou 3 si les résultats
s'avéraient insatisfaisants.
▪ C'est à dire qu'ils ne seraient pas en phase avec les objectifs fixés à
l’étape 1.
59
5. Formalisation et diffusion
▪ Les résultats sont formalisés pour être diffuser.
▪ Incorporation de ces connaissances dans des autres systèmes
pour d’autres actions.
▪ Mesurer l’effet de ces connaissances sur le système, vérifier et
résoudre les conflits possibles avec les connaissances
antérieures.
60
Prétraitement des données
Exemple introductif
▪ Soit l’ensemble de données suivant auquel une technique data
mining va être appliqué pour répondre à une question stratégique
pour l’entreprise
62
Exemple introductif
▪ Corrections des doublons, des erreurs de saisie
63
Exemple introductif
▪ Intégrité de domaine
64
Exemple introductif
▪ Information manquante
▫ Cas où les champs ne contiennent aucune donnée.
▫ Parfois intéressant de conserver ces enregistrements car
l’absence d’information peut être informative (e.g. fraude).
65
Exemple introductif
▪ Représentation horizontale ou éclatée
66
Pourquoi prétraiter les données ?
▪ Données réelles souvent :
▫ Incomplètes : valeurs manquantes, données simplifiées
▫ Bruitées : erreurs et exceptions
▫ Incohérentes : nommage, codage
▪ Résultats de la fouille dépendent de la qualité des données
67
Nettoyage de données
Intégration de données
Transformation
Réduction
69
Données manquantes
▪ Données non disponibles
▫ Certains attributs n’ont pas de valeur
▪ Causes :
▫ Mauvais fonctionnement de l’équipement
▫ Incohérences avec d’autres données et donc supprimées
▫ Non saisies car non ou mal comprises
▫ Considérées peu importantes au moment de la saisie
▪ Ces données doivent être inférées
70
Comment remplir les trous ?
• Ignorer/supprimer les cas avec des données manquantes
Suppressio
• Peu efficace quand le pourcentage de valeurs manquantes
n est élevé
71
Imputation par moyenne / médiane
▪ Calculer la moyenne / médiane des valeurs non manquantes dans une colonne,
▪ Remplacer les valeurs manquantes dans chaque colonne séparément et
indépendamment des autres.
▪ Ne peut être utilisé qu'avec des données numériques.
72
Imputation par (le plus fréquent) ou (zéro /
constante):
▪ Plus fréquent:
▫ Remplacer les données manquantes par les valeurs les plus fréquentes dans
chaque colonne.
▫ Fonctionnel pour les données discrète.
▪ Zéro/Constante:
▫ Remplace les valeurs manquantes par zéro ou une valeur constante.
73
Imputation utilisant un algorithme:
▪ Exemple:
▫ Imputation par le centre du groupe.
▫ Imputation à partir des kk plus proches voisins.
▫ Imputation par une moyenne partielle.
74
Autres problèmes
▪ Bruit de données
▪ Enregistrement dupliqués
▪ Données incomplètes
▪ Données incohérentes
75
Intégration des données :
▪ Intégration des données :
▫ Combinaison de différentes sources en une seule
▪ Objectif:
▫ Intégrer les métadonnées de différentes sources
▫ Identifier les différents noms des mêmes données
réelles (Ex : numClient clientId)
▫ Détecter et résoudre les conflits de valeurs (Ex: Echelle
différente)
▫ Gestion de la redondance
76
Transformation (codage et normalisation)
▪ Une étape très dépendante du choix de l’algorithme DM utilisés.
▪ Regroupements:
▫ Cas où les attributs prennent un très grand nombre de valeurs
discrètes (e.g. adresses que l’on peut regrouper en 2 régions
(Paris - Province))
▪ Attributs discrets:
▫ Deux représentations possibles : représentation verticale ou
représentation horizontale ou éclatée
77
Transformation (codage et normalisation)
▪ Représentation horizontale ou éclatée
78
Transformation (codage et normalisation)
▪ Changements de types pour permettre certaines manipulations
comme par exemple des calculs de distance, de moyenne, date de
naissance
▪ Uniformisation d’échelle.
▫ Certains algorithmes sont basés sur des calculs de distance
entre enregistrements :
▫ Variations d’échelle selon les attributs peuvent perturber
ces algorithmes.
79
Réduction de données
▪ Définition: obtenir une représentation réduite du jeu de
données, plus petite en volume, mais qui produit les mêmes (ou
presque) résultats analytiques.
▪ Stratégies
▫ Réduction de dimension
▫ Réduction de numérosité
▫ Discrétisation
80
Réduction de données
▪ Réduction en ligne par échantillonnage :
▫ Pour des raisons de performance.
▫ Du fait de la complexité importante des algorithmes d’extraction.
▫ Plusieurs méthodes : échantillonnage aléatoire, échantillonnage
par clustering.
▪ Réduction en colonne par suppression des attributs redondants:
▫ Cas triviaux (âge et date de naissance).
▫ Via une analyse des corrélation entre attributs
81
Mesures d'évaluation
Construction d’un modèle DM
• Diviser les données en ensemble
1 d’apprentissage et ensembles de test
Ensemble
d’apprentissage
Ensemble de
test
84
Etape 2
Données
historiques
Ensemble
d’apprentissage
Technique DM
Ensemble de
test
85
Etape 3
Résultat connus
Ensemble
d’apprentissage
Technique DM
Evaluation
Prédiction
Ensemble de
test
86
Echantillonnage de l’ensemble de données
87
Hold-out
88
Hold-out
▪ L'estimation du holdout peut être rendue plus fiable en répétant le
processus avec différents sous-échantillons:
▫ À chaque itération, une certaine proportion est sélectionnée au
hasard pour l’apprentissage
▫ Les taux d'erreur (précisions de classification) sur les différentes
itérations sont moyennés pour donner un taux d'erreur global
▫ Calculez également un écart type!
Test
3. Répéter
91
10-fold cross-validation
92
Leave-one-out
93
Qualités attendues d’un modèle DM
95
Matrice de confusion
96
Matrice de confusion
97
Matrice de confusion
98
Taux d’erreur: accuracy
99
Taux d’erreur: Exemple
100
Précision
105
Courbe ROC
107