Fiche TP2
Fiche TP2
Fiche TP2
Fiche TP N°2
Classification, Regression et Clustering
2. Options du test
Le résultat de l'application de la technique choisie sera testé selon les options qui sont définies
en cliquant sur la boîte Test options. Il existe quatre modes de test :
1. Use training set : la technique est évaluée sur sa capacité à prédire la classe des instances
sur lesquelles il a été formé ;
2. Supplied test set : la technique est évaluée sur la façon dont il prédit la classe d'un ensemble
d'instances chargé à partir d'un fichier. Cliquer sur le bouton Set... fait apparaître une boîte
de dialogue vous permettant de choisir le fichier à tester ;
3. Cross validation : le classifieur est évalué par validation croisée, en utilisant le nombre de
champs qui sont entrés dans le champ Folds ;
4. Persentage split : le classifieur est évalué sur la façon dont il prédit un certain pourcentage
des données qui sont conservées pour le test. La quantité de données conservées dépend de
la valeur saisie dans le champ %.
Quelle que soit la méthode d'évaluation utilisée, le modèle produit est toujours celui construit à
partir de toutes les données d'entraînement. D'autres options de test peuvent être définies en
cliquant sur le bouton More options.
3. L'attribut Classe
Les classifieurs dans WEKA sont conçus pour être entraînés à prédire un seul attribut «class »,
qui est la cible de la prédiction. Par défaut, la classe est considérée comme le dernier attribut
des données. Si vous voulez entraîner un classifieur à prédire un attribut différent, cliquez sur
1 Dr. D. ZAMOUCHE
Université de Bejaia IA et Sécurité des Réseaux
Faculté des Sciences Exactes 2ème année Master RS
Département d’Informatique Année Universitaire : 2023/2024
la case située sous la boite Test options pour faire apparaître une liste déroulante d'attributs à
choisir.
4. Entraîner un classifieur
Une fois que le classifieur, les options de test et la classe ont tous été définis, le processus
d'apprentissage est lancé en cliquant sur le bouton Start. Pendant que le classifieur est occupé
à être formé, le petit oiseau se déplace. A l’issue de l'apprentissage, une nouvelle entrée
apparaîtra dans la zone Result list, et la zone Classifier output, à droite de l'écran, sera remplie
de texte décrivant les résultats de l'entraînement et du test.
6. Clustering
A partir de l’onglet Cluster, on peut observer plusieurs algorithmes implémentés : EM,
FilteredClusterer, HierarchicalClusterer, SimpleKMeans, etc. Les classes qui implémentent les
méthodes de clustering dans l’outil WEKA, sont regroupées dans le dossier weka/clusterers
dans la section Clusterer. Un clic sur la zone de texte fait apparaître une boîte de dialogue,
comme pour les filtres, que vous pouvez utiliser pour configurer les options de la méthode de
clustering actuelle.
Travail à faire
1. Arbre de décision
Les arbres de décision peuvent prendre en charge les problèmes de classification et de
régression.
Choisissez l'algorithme de l'arbre de décision :
1. Cliquez sur le bouton "Choisir" et sélectionnez REPTree dans le dossier
weka /classifiers/Trees.
2 Dr. D. ZAMOUCHE
Université de Bejaia IA et Sécurité des Réseaux
Faculté des Sciences Exactes 2ème année Master RS
Département d’Informatique Année Universitaire : 2023/2024
3 Dr. D. ZAMOUCHE
Université de Bejaia IA et Sécurité des Réseaux
Faculté des Sciences Exactes 2ème année Master RS
Département d’Informatique Année Universitaire : 2023/2024
4. Régression logistique
La régression logistique est un algorithme de classification binaire. Elle suppose que les
variables d'entrée sont numériques. L'algorithme apprend un coefficient pour chaque valeur
d'entrée, qui sont combinés linéairement dans une fonction de régression et transformés à l'aide
d'une fonction logistique. La régression logistique est une technique rapide et simple, mais elle
peut être très efficace pour certains problèmes. La régression logistique ne prend en charge que
les problèmes de classification binaire, bien que l'implémentation WEKA ait été adaptée pour
prendre en charge les problèmes de classification multi-classes.
Choisissez l'algorithme de régression logistique :
1. Cliquez sur le bouton Choose et sélectionnez Logistique dans le dossier
weka/classifiers/functions.
2. Cliquez sur le nom de l'algorithme pour revoir la configuration de l'algorithme.
3. L'algorithme peut s'exécuter pendant un nombre fixe d'itérations (maxIts), mais par
défaut, il s'exécutera jusqu'à ce qu'il soit estimé que l'algorithme a convergé.
4. L'implémentation utilise un estimateur ridge qui est un type de régularisation. Cette
méthode cherche à simplifier le modèle pendant l'apprentissage en minimisant les
coefficients appris par le modèle. Le paramètre ridge définit le degré de pression à
exercer sur l'algorithme pour réduire la taille des coefficients. Une valeur de 0 désactive
cette régularisation.
5. Cliquez sur "OK" pour fermer la configuration de l'algorithme.
4 Dr. D. ZAMOUCHE
Université de Bejaia IA et Sécurité des Réseaux
Faculté des Sciences Exactes 2ème année Master RS
Département d’Informatique Année Universitaire : 2023/2024
6. Cliquez sur le bouton Start pour exécuter l'algorithme sur le jeu de données diabetes.
7. Avec la configuration par défaut, quelle est la précision atteinte avec la régression
logistique ?
5. Naive Bayes
Naive Bayes est un algorithme de classification. Traditionnellement, il suppose que les valeurs
d'entrée sont nominales, bien que ses entrées numériques soient prises en charge par l'hypothèse
d'une distribution. Il utilise une mise en œuvre simple du théorème de Bayes (d'où le terme naïf)
où la probabilité antérieure de chaque classe est calculée à partir des données d'apprentissage
et supposée être indépendante les unes des autres. Il s'agit d'une hypothèse irréaliste car nous
nous attendons à ce que les variables interagissent et soient dépendantes, bien que cette
hypothèse rende les probabilités rapides et faciles à calculer. Même dans le cadre de cette
hypothèse irréaliste, les Naive Bayes se sont avérés être un algorithme de classification très
efficace. Naive Bayes calcule la probabilité postérieure de chaque classe et prédit la classe dont
la probabilité est la plus élevée. En tant que tel, il prend en charge les problèmes de classification
binaire et de classification multi-classes.
Choisissez l'algorithme Naive Bayes :
1. Cliquez sur le bouton Choose et sélectionnez NaiveBayes dans le dossier
weka/classifiers/bayes.
2. Cliquez sur le nom de l'algorithme pour revoir la configuration de l'algorithme.
3. Par défaut, une distribution gaussienne est supposée pour chaque attribut numérique.
Vous pouvez modifier l'algorithme pour utiliser un estimateur à noyau avec
l'argument useKernelEstimator qui peut mieux correspondre à la distribution réelle
des attributs dans votre ensemble de données. Vous pouvez également convertir
automatiquement les attributs numériques en attributs nominaux avec le paramètre
useSupervisedDiscretization.
4. Cliquez sur "OK" pour fermer la configuration de l'algorithme.
5. Cliquez sur le bouton Start pour exécuter l'algorithme sur l'ensemble de données
diabetes.
6. Avec la configuration par défaut, quelle est la précision atteinte avec Naive Bayes.
6. K-Means
7. EM
La méthode EM (Expectation Maximisation) génère une description probabiliste des clusters
en termes de moyenne et écart-type pour les attributs numériques et en termes de nombre pour
les attributs nominaux. Chaque cluster est décrit par sa probabilité a priori et une distribution
de probabilité pour chaque attribut. Pour un attribut nominal, est affiché le nombre d’exemples
et pour un attribut numérique est affiché les caractéristiques de sa distribution normale.
Effectuez un clustering du jeu de données en utilisant la méthode EM avec les
paramètres par défaut. Cliquez sur le bouton Choose dans la section Clusterer et
sélectionnez EM dans le dossier weka /clusterers.
Dans la fenêtre Cluster mode, sélectionner l'option Classes to clusters evaluation.
Cliquez sur le bouton Start pour traiter les données. Après un certain temps, les résultats
seront présentés à l'écran.
À partir de l'écran de sortie, qu'observez-vous ?
Quelle est la précision de l'algorithme EM ?
Les résultats à ceux obtenus avec la méthode k-means.
Pour visualiser les clusters, faites un clic droit sur le résultat EM dans la liste des
résultats. Sélectionnez Visualize cluster assignments.
6 Dr. D. ZAMOUCHE