DecisionTree ID3
DecisionTree ID3
DecisionTree ID3
Présentation du didacticiel
Dans ce didacticiel, vous allez apprendre à mettre en œuvre une méthode d’apprentissage
supervisé.
Le fichier d’exemple utilisé est « breast.txt ».
Ce fichier, bien connu, est issu du domaine médical, et contient les caractéristiques
physiologiques de cellules ponctionnées sur des patientes atteintes (ou non) du cancer du sein.
Nous mettons en œuvre dans ce didacticiel la méthode d’apprentissage ID3 (arbre de décision).
1 – Placez-vous sur le nœud « Dataset » et ajoutez un opérateur Define Status en cliquant sur
son icône dans la barre des raccourcis. La fenêtre de dialogue permettant de définir le statut des
variables apparaît automatiquement.
Page 1 sur 7
Didacticiels Tanagra - janvier 04 - Prise en main rapide : importer ses données
2 – Assurez-vous que c’est l’onglet « Input » qui est actif. Sélectionnez les variables continues de
la liste en cliquant sur le bouton correspondant (cf ci-dessous), et cliquez enfin sur le bouton
flèche pour les passer dans la liste des Input.
Page 2 sur 7
Didacticiels Tanagra - janvier 04 - Prise en main rapide : importer ses données
3 – Toujours en restant dans la fenêtre de dialogue, activez l’onglet Target. Cliquez sur la
variable « class » pour la sélectionner, puis sur le bouton flèche.
Page 3 sur 7
Didacticiels Tanagra - janvier 04 - Prise en main rapide : importer ses données
4 – Vous venez de définir la variable à prédire (« class » = Target) et les variables explicatives
(les autres = Input). Appuyez sur OK pour valider et fermer cette fenêtre.
Dans certaines expérimentations, on lance plusieurs fois l’apprentissage sur le même fichier,
en pondérant les individus différemment à chaque fois. Le but est d’obtenir un meilleur
modèle de prédiction.
Tanagra implémente ce chaînage d’un opérateur d’apprentissage via les méta-opérateurs.
Dans ce didacticiel nous ne rentrerons pas dans ce type d’expérimentations, nous ne lancerons
qu’une seule fois l’opérateur ID3. Mais Tanagra oblige à utiliser un méta-opérateur. Il en
propose toutefois un pour les lancements uniques de méthode. Il s’agit de l’opérateur
Supervised Learning.
Page 4 sur 7
Didacticiels Tanagra - janvier 04 - Prise en main rapide : importer ses données
1 – Dans la palette des opérateurs, cliquez sur l’onglet SPV LEARNING, et faites glisser un
opérateur ID3 sur le nœud « Supervised Learning » que vous venez d’ajouter.
L’opérateur est inclus dans le méta-opérateur, aussi voit-on son libellé dans celui du nœud du
méta-opérateur, et non pas en-dessous de celui-ci.
1 – Faites apparaître le menu contextuel du nœud « Supervised learning (ID3) par clic droit sur
ce dernier. En plus de la commande Parameters… habituelle, on trouve une commande
Supervised parameters…
Page 5 sur 7
Didacticiels Tanagra - janvier 04 - Prise en main rapide : importer ses données
2 – Dans la fenêtre de dialogue qui s’affiche, compte tenu de la taille du fichier étudié (699
individus), modifiez les paramètres de ID3 comme suit :
Page 6 sur 7
Didacticiels Tanagra - janvier 04 - Prise en main rapide : importer ses données
Effectuer l’apprentissage
1 – Dans le menu contextual du noeud, choisissez View. Les résultats s’affichent dans le cadre
de droite.
Le taux d’erreur calculé sur l’apprentissage paraît bon (4,72 %). On voit dans la matrice de
confusion que l’erreur se répartit également entre diagnostiquer un cancer à tort et ne pas
diagnostiquer un cancer existant.
On constate dans l’arbre retranscrit l’importance de la variable ucellsize dans le diagnostic
automatique.
Page 7 sur 7