TD de Révision ML
TD de Révision ML
TD de Révision ML
Questions de cours :
1
14. Que représentent les lignes de la matrice X ci-dessus ?
R : chaque ligne une observation
15. Que représentent les colonnes de la matrice X ci-dessus ?
R : les valeurs des caractéristiques (features ou attributs) des observations.
16. Pourquoi Naïve Bayes est-il considéré comme étant « naïve » ?
R : Il fait une hypothèse d’indépendance entre les caractéristiques des observations.
17. A quoi correspond le modèle généré par l’algorithme naïve Bayes en classification ?
R : Une estimation des probabilités à posteriori des différentes classes.
18. Comment décide l’algorithme naïve Bayes de la classe à attribuer à une observation ?
R : La classe ayant la probabilité à posteriori max.
19. Décrivez le principe inductif de l’algorithme k-ppv en classification.
R : Etant donnée un nouvel objet x, la méthode consiste à déterminer les k plus proches
objets (annotés) et d'effectuer un vote à la majorité relative afin de déterminer la classe de x.
20. K-ppv peut-il être utilisé en régression ? Si oui décrivez le principe.
R : Oui.
Principe :
2
CART utilise l’indice de Gini et C4.5 utilise la notion d’entropie. Donnez l’expression de ces
deux fonctions pour un échantillon S selon les classes de l’attribut cible.
R:
25. Vrai ou faux : K-ppv peut être utilisé en régression et une classification ?
R : vrai
26. Vrai ou faux : L’arbre de décision peut être utilisé en régression et en classification ?
R : vrai
27. Vrai ou faux : k-ppv est un algorithme d’apprentissage paramétrique ?
R : Faux.
28. Vrai ou faux : l’arbre de décision est un algorithme d’apprentissage paramétrique ?
R : Faux
29. Quels sont les facteurs entrant en jeu pour régler les problèmes de sous et de sur
apprentissage ?
R : richesse de l’espace d’hypothèse, taille de l’échantillon
3
Exercices
Exo 1 (théorique) :
R:
Exo 2 :
Les deux figures ci-dessus représente deux nuages de points en fonction de caractéristiques de fleurs
d’Iris.
1. Quelle est à priori la meilleure caractéristique discriminante des trois classes de fleurs ?
Exo 3 :
Après apprentissage sur un ensemble de données, le modèle obtenu donne une précision (taux de
réussite) égale à 0.97% sur les données d’apprentissage.
1. Est-ce une bonne chose de se tromper sur les données d’apprentissage ? Que peut-on
conclure ?
4
R:
C’est une bonne chose parce que le modèle n’a pas fait de sur apprentissage des données
d’apprentissage
Exo 4 :
Déduire de la matrice de confusion suivante le taux de réussite et le taux d’erreur d’un modèle de
machine learning :
[50, 0, 0],
[ 0, 47, 3],
[ 0, 3, 47]
R:
Taux d’erreur = Somme des cases hors diagonale / somme de toutes les cases = 0.04
Exo 5 :
1. Conclure.
R:
Exo 6 :
On considère la matrice de confusion suivante d’un modèle de machine learning à deux classes
(tumeur maligne et tumeur bénigne) :
5
1. Que représente la diagonale ?
2. Que représente la case supérieure droite ?
3. Que représente la case inférieure gauche ?
4. Calculez le taux de réussite du modèle ?
5. Calculer le taux de faux positifs
6. Calculez le taux de faux négatifs
Exo 7 :
6
Exo 8 :