10 MethodesFouille 2009
10 MethodesFouille 2009
10 MethodesFouille 2009
Introduction aux grandes méthodes de fouille de données - Bernard ESPINASSE - 1 Introduction aux grandes méthodes de fouille de données - Bernard ESPINASSE - 2
Références bibliographiques
Ouvrages :
! Franco J-M., « Le Data Warehouse et le Data Mining ». Ed. Eyrolles, Paris, 1997.
ISBN 2-212-08956-2.
! Gardarin G., « Internet/intranet et bases de données », Ed. Eyrolles, Paris, 1999, ISBN
2-212-09069-2.
! Han J., Kamber M., « Data Mining: Concepts and Techniques », Morgan Kaufmann
Publishers, 2004.
! Lefébure R., Venturi G., « Le data Mining », Ed. Eyrolles, Paris, 1998. ISBN 2-212-
1 – Typologies des méthodes de
08981-3.
! Tufféry S., « Data Mining et statistique décisionnelle », Ed. Technip, Paris, 2005, ISBN
2-7108-0867-6.
fouille de données
!…
Cours : ! Typologie selon objectifs
! Cours de A. Rakotomamonjy, INSA Rouen, Lab. PSI, Rouen. ! Typologie selon le type de modèle obtenu
! Cours de G. Gardarin, Univ. de Versailles
! Cours de J. Han et M. Kamber M., Simon Fraser Univ., Vancouver BC, Canada ! Typologie selon le type dʼapprentissage
! Cours de M. Adiba et M.C. Fauvet, Univ. Grenoble
! Quelques méthodes de fouille de données
! Cours de R. Gilleron et M. Tommasi, Lab. LIFL., Univ. Charles De Gaulle-Lille 3
! Cours de R. Rakotomalala, Univ. Lumière Lyon 2, Lab. ERIC Lyon
! Cours du Lab. « Bases de données » de lʼEPFL
! …
Introduction aux grandes méthodes de fouille de données - Bernard ESPINASSE - 3 Introduction aux grandes méthodes de fouille de données - Bernard ESPINASSE - 4
Typologie selon objectifs Typologie selon le type de modèle obtenu
Types dʼobjectifs : Types de modèles obtenus :
! Classification :
! consiste à examiner les caractéristiques d'un objet et lui attribuer une ! Modèles prédictifs :
classe : ! utilisent les données avec des résultats connus pour développer des
• attribuer ou non un prêt à un client modèles permettant de prédire les valeurs d'autres données
• établir un diagnostic
Ex: modèle permettant de prédire les clients qui ne rembourseront pas
! Prédiction :
leur crédit
! consiste à prédire la valeur future d'un attribut en fonction d'autres
attributs : ! utilisé principalement en classification et prédiction
• prédire la "qualité" d'un client en fonction de son revenu, de son
nombre d'enfant,... ! Modèles descriptifs :
! Association : ! proposent des descriptions des données pour aider à la prise de décision
! consiste à déterminer les attributs qui sont corrélés :
! aident à la construction de modèles prédictifs
• analyse du panier de la ménagère: ex. poisson et vin blanc
! Segmentation : ! utilisés principalement en segmentation et association
! consiste à former des groupes homogènes à l'intérieur d'une population
! tâche souvent faite avant les précédentes pour trouver les groupes sur
lesquels appliquer la classification.
Introduction aux grandes méthodes de fouille de données - Bernard ESPINASSE - 5 Introduction aux grandes méthodes de fouille de données - Bernard ESPINASSE - 6
Introduction aux grandes méthodes de fouille de données - Bernard ESPINASSE - 7 Introduction aux grandes méthodes de fouille de données - Bernard ESPINASSE - 8
Objectifs de la segmentation (ou clustering)
Face à une grande population (dʼexemples) à étudier, il peut sʼavérer judicieux de
commencer par diviser en groupes (clusters) la population, la segmenter
la segmentation est une tâche dʼapprentissage NON supervisée car on nʼa rien
dʼautre que les exemples (pas de classes)
Méthode de segmentation :
1 – Méthode de segmentation ! méthode permettant de découvrir les groupes (clusters) d'individus
similaires en se basant sur une mesure de similarité (ou distance)
des k-moyennes (k-mean) pour grouper les données
! on ne connaît pas les classes à priori : elles sont à découvrir
! Objectifs de la segmentation (ou clustering) automatiquement
! Buts : Maximiser la similarité intra-classes et minimiser la similarité
! La méthode des K-moyennes inter-classes.
! Problème de mise en œuvre Méthodes de segmentation par partitionnement :
! Autres méthodes pour la segmentation ! Construire k partitions et les corriger jusqu'à obtenir une similarité
satisfaisante
! Conclusion sur la Méthode des K-moyennes ! Méthode des k-moyennes (k-mean) [Mac Queen 67]
Introduction aux grandes méthodes de fouille de données - Bernard ESPINASSE - 9 Introduction aux grandes méthodes de fouille de données - Bernard ESPINASSE - 10
Introduction aux grandes méthodes de fouille de données - Bernard ESPINASSE - 13 Introduction aux grandes méthodes de fouille de données - Bernard ESPINASSE - 14
Méthode des K-moyennes : problèmes de mise en oeuvre Autres méthodes pour la segmentation
Problème 2 : choix initial du nombre de groupes Méthode ascendante, utilisant un algorithme d'agglomération :
! Ce nombre est choisi a priori et fourni à l'algorithme • A partir d'un échantillon de m enregistrements, on commence avec m groupes, chacun
! Il peut avoir été fixé par un expert mais en règle générale, il est inconnu des groupes est constitué d'un enregistrement :
• On calcule la matrice des distances 2 à 2 entre enregistrements.
• On choisit la plus petite valeur dans cette matrice des similarités, elle identifie la
Sʼil est inconnu : paire de groupes les plus similaires.
• on fait fonctionner l'algorithme avec différentes valeurs de k (boucle • On regroupe ces 2 groupes en un seul, on remplace les 2 lignes par une ligne pour
externe ajoutée à l'algorithme) le groupe ainsi créé.
• on choisit ensuite une valeur de k telle que, pour les groupes obtenus : • On réitère jusqu'à obtenir un groupe constitué de tous les enregistrements.
! les distances à l'intérieur du groupe soient petites et • On a ainsi construit une suite de partitions de l'échantillon d'entrée où le nombre k
! les distances entre centres des groupes soient grandes. de groupes varie de m à 1.
• On choisit ensuite la valeur de k (différentes méthodes possibles)
L'algorithme possède de nombreuses variantes selon : Méthode ascendante, utilisant des arbres de décision :
• On démarre avec un groupe constitué de l'ensemble des enregistrements et on
• la méthode utilisée pour choisir les k premiers centres, divise récursivement les groupes en utilisant une fonction de diversité minimisant la
• la mesure de similarité choisie, distance moyenne dans un groupe et maximise la distance entre groupes.
• le choix de la valeur de k et le calcul des distances entre groupes, • On choisit ensuite la valeur de k (différentes méthodes possibles pour ce choix)
• la possibilité de pondérer les champs en fonction d'une connaissance Méthode par réseaux de neurones (cartes de Kohonen) :
initiale du problème. • les cartes de Kohonen (réseaux de neurones auto-organisés) sont bien adaptées à
la segmentation
Introduction aux grandes méthodes de fouille de données - Bernard ESPINASSE - 15 Introduction aux grandes méthodes de fouille de données - Bernard ESPINASSE - 16
Conclusion sur la Méthode des K-moyennes
Apprentissage non supervisé :
! elle réalise une tâche dite « non supervisée », en ne nécessitant pas information sur
les données
! elle peut permettre, en segmentation, de découvrir une structure cachée pouvant
améliorer les résultats de méthodes d'apprentissage supervisé (classification,
estimation, prédiction)
Type de données :
! elle peut s'appliquer à tout type de données (mêmes textuelles), en choisissant une 3 – Les Règles dʼassociation
bonne notion de distance
Facile à implanter : ! Introduction aux règles dʼassociation
! elle demande peu de transformations sur les données (excepté normalisations de
valeurs numériques), pas de champ particulier à identifier, les algorithmes sont faciles à ! Tableau de co-occurrence
implanter et généralement disponibles dans les environnements de fouille
Performance et sensibilité : ! Notions de support, de confiance et dʼamélioration
! ses performances (qualité des groupes constitués) dépendent du bon choix d'une
mesure de similarité (délicat quand les données sont de types différents) ! Extraction des règles dʼassociation
! elle est sensible au choix des bons paramètres : choix de k (groupes à constituer)
Interprétation des résultats : ! Conclusion sur les règles dʼassociation
! il est difficile d'interpréter les résultats produits, d'attribuer une signification aux groupes
constitués (vrai pour toutes les méthodes de segmentation).
Introduction aux grandes méthodes de fouille de données - Bernard ESPINASSE - 17 Introduction aux grandes méthodes de fouille de données - Bernard ESPINASSE - 18
Introduction aux règles dʼassociation (1) Introduction aux règles dʼassociation (2)
! Elles sont principalement utilisées dans le domaine de la distribution, en marketing, ! Domaines dʼutilisation :
pour « l'analyse du panier de la ménagère » pour : ! tout domaine où lʼon veut rechercher des groupements potentiels de
! rechercher des associations entre produits sur les tickets de caisse, produits ou de services (services bancaires, services de télécommunications)
notamment pour savoir quels produits tendent à être achetés ensemble ! domaine médical : recherche de complications dues à des associations
de médicaments
! étudier de ce que les clients achètent pour obtenir des informations sur qui ! recherche de fraudes : rechercher des associations inhabituelles
sont les clients et pourquoi ils font certains achats
! Intérêt de la méthode :
! Exemple de règles dʼassociation pour lʼanalyse du panier de la ménagère : ! la clarté des résultats produits : un ensemble de règles d'association
! SI un client achète des plantes ALORS il achète du terreau ! ces règles sont en général faciles à interpréter
! SI un client achète du poisson et du citron ALORS il achète ! elles peuvent être facilement réutilisées dans le SI de l'entreprise
du vin blanc ! Limites de la méthode : si elle peut produire des règles intéressantes, elle peut
aussi produire des :
! SI un client achète une télévision, ALORS il achètera un
magnétoscope dans un an ! règles triviales (déjà bien connues des intervenants du domaine) ou
! règles inutiles (provenant de particularités de l'ensemble d'apprentissage).
! La recherche de règles d'association = méthode non supervisée car on ne
dispose en entrée que de la description des achats.
Introduction aux grandes méthodes de fouille de données - Bernard ESPINASSE - 19 Introduction aux grandes méthodes de fouille de données - Bernard ESPINASSE - 20
Règles dʼassociation : un exemple Tableau de co-occurence
Exemple (Gilleron & Tommasi) : ! Liste des achats :
! on suppose avoir prédéfini une classification des articles produit A produit B produit C produit D produit E
achat 1 X X
! les données d'entrée sont constituées d'une liste d'achats achat 2 X X X
achat 3 X X
! un achat est lui-même constitué d'une liste d'articles. achat 4 X X X
achat 5 X X
! les achats peuvent être de longueur variable (contrairement aux
enregistrements d'une table) ! Pour trouver les associations entre 2 produits, on construit le tableau de co-
occurrence montrant combien de fois 2 produits ont été achetés ensemble :
! Soit la liste des achats : produit A produit B produit C produit D produit E
produit A 4 1 1 2 1
produit A produit B produit C produit D produit E produit B 1 2 1 1 0
achat 1 X X produit C 1 1 1 0 0
achat 2 X X X produit D 2 1 0 3 1
achat 3 X X produit E 1 0 0 1 2
achat 4 X X X ! permet de déterminer avec quelle fréquence 2 produits se rencontrent dans un même achat :
achat 5 X X Ex : le produit A apparaît dans 80% des achats, le produit C n'apparaît jamais en même
temps que le produit E, les produits A et D apparaissent simultanément dans 40% des
achats.
! Ces observations peuvent suggérer une règle de la forme : « SI un client achète le produit A
ALORS il achète le produit D ».
Introduction aux grandes méthodes de fouille de données - Bernard ESPINASSE - 21 Introduction aux grandes méthodes de fouille de données - Bernard ESPINASSE - 22
! La règle si B et C alors A possède la plus grande confiance = 0,33 => si B et C si B et C alors A 0.33 45% 0.74
apparaissent simultanément dans un achat, alors A y apparaît aussi avec une ! la règle « si A alors B » possède un support de 25%, une confiance de 0.55 et une
probabilité estimée de 33%. amélioration de 1.31 => cette règle est la meilleure
! Mais, si on regarde le tableau des fréquences d'apparition des articles, on constate
! En règle générale, la meilleure règle est celle qui contient le moins d'articles.
que A apparaît dans 45% des achats
=> Il vaut mieux prédire A sans autre information que de prédire A lorsque B et C
apparaissent.
Introduction aux grandes méthodes de fouille de données - Bernard ESPINASSE - 25 Introduction aux grandes méthodes de fouille de données - Bernard ESPINASSE - 26
Extraction des règles dʼassociation (1) Exemple dʼextraction des règles dʼassociation
Extraction des règles : Exemple (issu du cours EPFL):
! seules les règles ayant un certain support et une certaine valeur de confiance Etape 1 : calcul des ensembles fréquents
sont intéressantes :
! calcul du support de toutes les combinaisons dʼitems possibles de la base
• valeurs de minconf et minsup doivent être fixées par l'analyste
! La plupart des méthodes pour extraire des règles :
• retiennent les règles dont le support > minsup
• et parmi celles-ci retiennent celles dont la confiance > minconf
Génération de règles :
! calcul du support de toutes les règles obtenues par combinaisons dʼitems
possibles de la base
! on ne garde que les règles dont le support est supérieur à un seuil donné =
« ensembles fréquents »
! on ne garde que règles dont le support est supérieur à un seuil donné =
ensembles fréquents
Introduction aux grandes méthodes de fouille de données - Bernard ESPINASSE - 27 Introduction aux grandes méthodes de fouille de données - Bernard ESPINASSE - 28
Extraction des règles dʼassociation (3) Extraction des règles dʼassociation (4)
Etape 2 : recherche des sous-ensembles fréquents Génération d'un k-ensemble fréquent :
Un ensemble de k éléments est appelé « k-ensemble »
! A partir des 1-ensemble fréquents on génère des 2-ensembles fréquents,
Lemme de base:
! A partir des 2-ensemble fréquents on génère des 3-ensembles fréquents,
! Tout k-ensemble fréquent est composé de sous-ensembles fréquents
! ainsi un 3-ensemble fréquent est composé de 2-ensembles et de 1-ensembles ! ...
fréquents
Règle de génération : procédure apriori-gen
Procédure:
! 1) on cherche les 1-ensembles fréquents ! L'algorithme génère un candidat de taille k à partir de 2 candidats de taille k-1
différents par le dernier élément
! 2) on cherche les 2-ensembles fréquents
! ... ! on garde ce candidat s'il ne contient pas de k-1 ensemble qui n'est pas
! n) on cherche les n-ensembles fréquents fréquent
ceci jusqu'à ce qu'il n'y ait plus d'ensemble fréquent de taille supérieure
Introduction aux grandes méthodes de fouille de données - Bernard ESPINASSE - 29 Introduction aux grandes méthodes de fouille de données - Bernard ESPINASSE - 30
Extraction des règles dʼassociation (5) Extraction des règles dʼassociation (6)
Exemple: Algorithme APriori :
! les 2-ensembles fréquents obtenus à partir des 1-ensembles fréquents sont : L1 = {frequent1-ensemble} ;
{1,3,5} et {2,3,5}
for (k = 2 ; Lk-1 =! # ; k++) do {
! On ne garde que {2,3,5} parce que {1,3,5} comprend le 2-ensemble fréquent
{1,5} qui ne fait pas partie des 2-ensembles fréquents => {1,3,5} n'est pas un Ck= apriori-gen(Lk-1); // Génération nouveaux candidats
3-ensemble fréquent k-ensemble fréquents
for eachtransactions t $ DBdo { //Comptage
Ct= { subset(Ck, t) }; // sous-ensembles de la BD
foreach c $ Ct do c.count++; } comptage support
{1,3}
Lk= { c $ Ck |c.count>= minsup} ;// Filtrer par rapport
{2,3}
{2,5} au support
{3,5} }
Answer= {Lk} ;
Introduction aux grandes méthodes de fouille de données - Bernard ESPINASSE - 31 Introduction aux grandes méthodes de fouille de données - Bernard ESPINASSE - 32
Extraction des règles dʼassociation (7) Extraction des règles dʼassociation (8)
Exemple: Génération des règles
! A partir des k-ensembles fréquents:
! pour chaque ensemble fréquent l, générer tous les sous-ensembles s non
vides
! pour chaque sous-ensemble s, si Confiance (s "l –s) > minconf, générer la
règle "s "l –s"
Exemple :
! {2,3,5}: sous-ensembles non vides: {2}, {3}, {5}, {2,3}, {2,5}, {3,5}
! Confiance (X "Y) = Support (XY)/Support(X)
Règles:
• 2 et 3 " 5 Confiance = 2/2 = 100%
• 2 et 5 " 3 Confiance = 2/3 = 66%
• 3 et 5 " 2 Confiance = 2/2 = 100%
• 2 " 3 et 5 Confiance = 2/3 = 66%
• 3 " 2 et 5 Confiance = 2/3 = 66%
• 5 " 2 et 3 Confiance = 2/3 = 66%
Si seuil = 70% on ne garde que les règles 1 et 3
Introduction aux grandes méthodes de fouille de données - Bernard ESPINASSE - 33 Introduction aux grandes méthodes de fouille de données - Bernard ESPINASSE - 34
Extraction des règles dʼassociation (8) Conclusion sur les règles dʼassociation (1)
Inconvénients de Apriori : • Résultats clairs : les règles d'association sont faciles à interpréter, à utiliser pour
! Beaucoup de candidats : 1041-ensembles vont générer 1072-ensembles des utilisations concrètes
! Plusieurs parcours de la BD (pour calculer les supports) : on doit faire n+1 • Apprentissage non supervisé : elles ne nécessitent pas d'autre information
parcours pour trouver les n-ensembles fréquents qu'une classification en articles et la donnée d'une liste d'articles pour extraire les
! Les indicateurs de support et confiance sont insuffisants : règles.
• support est symétrique : il ne distingue pas A " B de B " A
• Achats de taille variable : une des rares méthodes qui prend en entrée des
• confiance favorise les évenements rares :
achats qui sont des listes d'articles de taille variable
! confiance (A "B ) = Support (AB)/Support(A)
! si Support(A) est faible, Support(AB) aussi et confiance ! • Introduction du temps :
Améliorations de Apriori : • possible d'adapter la méthode pour traiter des séries temporelles pour
! Algorithme AprioriTID qui garde en mémoire les n°de tuples correspondant à générer des règles de la forme : « un client ayant acheté le produit A est
chaque k-ensemble susceptible d'acheter le produit B dans 2 ans »
! Marquer les tuples qui ne contiennent pas de k-ensembles fréquents pour qu'ils • possible d'introduire des « articles virtuels » tels que le jour, la période
ne soient pas lus lorsqu'on considère les j-ensembles fréquents (j>k) ou la saison et limiter la forme des règles si on souhaite rechercher des
! Autres mesures : comportements d'achat qui dépendent du temps.
• conviction : P(X)*P(non Y)/P(X, nonY)
• "lift": Confiance (X " Y)/Support(Y) • Simplicité de la méthode : calculs élémentaires (fréquences d'apparition) :
Autres algorithmes : • peut être programmée sur tableur pour des problèmes de taille raisonnable
! Apriori partitionné, Algorithme de comptage dynamique, FP-Growth, Close, … • généralement disponible dans la plupart des environnements de fouille
Introduction aux grandes méthodes de fouille de données - Bernard ESPINASSE - 35 Introduction aux grandes méthodes de fouille de données - Bernard ESPINASSE - 36
Conclusion sur les règles dʼassociation (2)
• Coût de la méthode : coûteuse en temps de calcul, le regroupement d'articles et
la méthode du support minimum permettent de diminuer les calculs mais on peut
alors éliminer sans le vouloir des règles importantes.
• Le choix des articles : difficile de déterminer le bon niveau d'articles. Les 4 – Méthodes de Classification /
traitements préalables sur les achats peuvent être complexes : par exemple, il peut
être difficile de retrouver l'article à partir de son code-barre enregistré sur le ticket
de caisse.
Prédiction
• Les articles rares : méthode efficace pour les articles fréquents, pour les articles ! Objet de la classification et de la prédiction
rares, on peut restreindre la forme des règles choisies ou faire varier le support
minimum. ! Méthode des arbres de décision
• La qualité des règles : la méthode peut produire des règles triviales ou inutiles. ! Méthode des k-Plus proches voisins
• Les règles triviales sont des règles évidentes (si camembert alors vin rouge) ! Méthode des Réseaux de Neurones (Perceptron multi-couches)
qui, par conséquent, n'apportent pas d'information.
• Les règles inutiles sont des règles difficiles à interpréter qui peuvent provenir ! Autres méthodes de classification
de particularités propres à la liste des achats ayant servie à l'apprentissage. ! Conclusion sur la classification / prédiction
Introduction aux grandes méthodes de fouille de données - Bernard ESPINASSE - 37 Introduction aux grandes méthodes de fouille de données - Bernard ESPINASSE - 38
Introduction aux grandes méthodes de fouille de données - Bernard ESPINASSE - 41 Introduction aux grandes méthodes de fouille de données - Bernard ESPINASSE - 42
Introduction aux grandes méthodes de fouille de données - Bernard ESPINASSE - 43 Introduction aux grandes méthodes de fouille de données - Bernard ESPINASSE - 44
Exemple 2 dʼarbre de décision (2) Principe général de construction dʼun arbre de décision
Soit lʼinstance : • Arbre est construit en découpant successivement les données en
fonction des variables prédictives selon lʼAlgorithme générique :
Segmenter (T)
SI (tous les tuples de T appartiennent à la même classe de
elle est testée (classée) par son chemin depuis la racine jusquʼà la feuille : variable à prédire ou critère d'arrêt) ALORS retourner une
feuille;
Pour chaque attribut prédictif A
évaluer la qualité de découpage selon A
Utiliser l'attribut donnant la meilleure découpe pour
découper en sous-ensembles T1,...,Tn selon les valeurs de A
Pour i = 1..n Segmenter (Ti);
Fin
• Problèmes fondamentaux pour construire l'arbre
1. Choix de l'attribut discriminant
2. Affectation d'un label à une feuille
3. Arrêt de segmentation (choix de la profondeur de l'arbre) : si lʼarbre est trop
profond, il est trop complexe et trop adapté à l'ensemble d'apprentissage =>
Chaque chemin depuis la racine jusquʼà une feuille est une règle de décision, ici : pas assez généraliste
Si (ciel = soleil) et (humidité = élevée) alors (classe = non) 4. Choix des bornes de discrétisation : comment découper les valeurs d'un
attribut continu, par exemple : 1-25 , 25-50, 50-100 ou 1-50, 50-100 ?
Introduction aux grandes méthodes de fouille de données - Bernard ESPINASSE - 45 Introduction aux grandes méthodes de fouille de données - Bernard ESPINASSE - 46
Introduction aux grandes méthodes de fouille de données - Bernard ESPINASSE - 47 Introduction aux grandes méthodes de fouille de données - Bernard ESPINASSE - 48
Construction dʼun arbre de décision : paramètres Lʼalgorithme ID3 [Quilan 79]
Soit : Classe C : valeur d'attribut à prédire (ex: C1: risque = élevé, C2: risque = faible)
4) Choix des bornes de discrétisation : tuples : ensemble des tuples de l'échantillon, liste_attributs: ensemble des attributs
• On fixe les valeurs candidates comme les valeurs au milieu de 2 Procédure Générer_arbre_décision
valeurs consécutives : Créer un nœud N
si tuples est vide alors
ex: 35, 45, 52... -> 40, 48.5 • retourner une feuille portant le label "Failure"
si tuples sont dans la même classe C alors
• Puis on calcule éventuellement la meilleure valeur parmi celles là • retourner N avec comme label C
grâce à des mesures telles que : si liste_attributs = vide alors
• retourner N avec comme label le nom de la classe la plus
! le gain, fréquente dans l'échantillon
Choisir l’attribut a le plus discriminant parmi liste_attributs
! le X2 Affecter le label « a » au nœud N
Pour chaque valeur ai de a :
! ... • créer une branche issue du nœud N avec condition a s= ai
• Soit ti l'ensemble des éléments tuples vérifiant cette
condition
• Attacher le nœud retourné par
Générer_arbre_décision(ti, liste_attributs – a)
Introduction aux grandes méthodes de fouille de données - Bernard ESPINASSE - 49 Introduction aux grandes méthodes de fouille de données - Bernard ESPINASSE - 50
51 52
Introduction aux grandes méthodes de fouille de données - Bernard ESPINASSE -
!
Introduction aux grandes méthodes de fouille de données - Bernard ESPINASSE -
!
Exemple de mise en oeuvre (1) Exemple de mise en oeuvre (2)
• Entropie de l'attribut Couleur?
N° Couleur Contour Point ? Forme
! C1: carré ; C2: triangle
1 vert fin non triangle
2 vert fin oui triangle
!
E(A) = " # (S 1j + ...+ Sij ).I(S1 j ,..., Sij )
3 jaune fin non carré ( j=1..v)
4 rouge fin non carré • Pour couleur = rouge (i= carré ou triangle?, j=rouge) :
5 rouge plein non carré ! s11= scarré/rouge= 3 ; s21= striangle/rouge= 2
6 rouge plein oui triangle ! I(s11,s21) = I(3,2) = -3/5 log23/5 - 2/5 log22/5 = 0,971
7 vert plein non carré ! • Pour couleur = vert :
8 vert fin non triangle ! s12= scarré/vert= 2 ; s22= striangle/vert= 3
9 jaune plein oui carré On veut prédire ! I(s12, s22) = I(2,3) = -2/5 log22/5 - 3/5 log23/5 = 0,971
10 rouge plein non carré lʼattribut forme ! • Pour couleur = jaune :
11 vert plein oui carré
! s13= scarré/jaune=4 s23= striangle/jaune=0
12 jaune fin oui carré
! I(s13,s23)=I(4,0)= -4/4 log24/4 - 0/4 log20/4 = 0
13 jaune plein non carré
• E (couleur) = 5/14 I(s11,s21) + 5/14 I(s12, s22) + 4/14 I(s13,s23) = 0,694
14 rouge fin oui triangle
• Gain (couleur) = 0,940 –0,694 = 0,246
Introduction aux grandes méthodes de fouille de données - Bernard ESPINASSE - 53 Introduction aux grandes méthodes de fouille de données - Bernard ESPINASSE - 54
rouge
rouge
vert jaune
vert jaune
Gain (Contour)=0,020
Gain (point?) =0,971
rouge
rouge
point=non
vert point=oui vert
jaune jaune
Introduction aux grandes méthodes de fouille de données - Bernard ESPINASSE - 57 Introduction aux grandes méthodes de fouille de données - Bernard ESPINASSE - 58
Introduction aux grandes méthodes de fouille de données - Bernard ESPINASSE - 59 Introduction aux grandes méthodes de fouille de données - Bernard ESPINASSE - 60
Conclusion sur les arbres de décision (1) Conclusion sur les arbres de décision (2)
• lisibilité du résultat : • classification efficace : l'attribution d'une classe à un exemple à l'aide d'un arbre
! un arbre de décision est facile à interpréter et constitue la représentation de décision est un processus très efficace (parcours d'un chemin dans un arbre).
graphique d'un ensemble de règles. • outil disponible : les algorithmes de génération d'arbres de décision sont
! Si la taille de l'arbre est importante, il est difficile d'appréhender l'arbre dans sa disponibles dans tous les environnements de fouille de données.
globalité, mais des outils permettent une navigation aisée dans l'arbre • extensions et modifications :
! permet dʼexpliquer comment est classé un exemple par l'arbre, ce qui peut être ! la méthode peut être adaptée pour résoudre des tâches d'estimation et de
fait en montrant le chemin de la racine à la feuille pour l'exemple courant. prédiction.
• tout type de données : ! Des améliorations des performances des algorithmes de base sont possibles
! l'algorithme peut prendre en compte tous les types d'attributs et les valeurs grâce aux techniques de bagging et de boosting : on génère un ensemble
manquantes d'arbres qui votent pour attribuer la classe.
! Il est robuste au bruit. • sensible au nombre de classes : les performances tendent à se dégrader
lorsque le nombre de classes devient trop important.
• sélection des variables :
! l'arbre contient les attributs utiles pour la classification • évolutivité dans le temps : l'algorithme n'est pas incrémental, c'est-à-dire, que si
=> il peut alors être utilisé comme pré-traitement sélectionnant l'ensemble des les données évoluent avec le temps, il est nécessaire de relancer une phase
variables pertinentes pour ensuite appliquer une autre méthode d'apprentissage sur l'échantillon complet (anciens exemples et nouveaux
exemples).
Introduction aux grandes méthodes de fouille de données - Bernard ESPINASSE - 61 Introduction aux grandes méthodes de fouille de données - Bernard ESPINASSE - 62