Leçon5 KNN
Leçon5 KNN
Leçon5 KNN
1. Objectifs
2. Introduction
3. Méthode du plus proche voisin
4. Méthode des plus proches voisins
5. Notion de distance
6. Distance et similarité
1. Objectifs
Rym Besrour 2
2. Introduction
• kNN est un algorithme de prédiction non paramétrique conceptuellement très simple, puisqu'aucune
estimation de paramètres n'est nécessaire comme pour la régression linéaire.
• Cet algorithme, dit des plus proches voisins, se base sur le principe de « qui se ressemble s’assemble », et
utilise les étiquettes des exemples les plus proches pour prendre une décision.
• On dispose de données d'apprentissage (training data) pour lesquelles chaque observation dispose d'une
classe y.
• L'idée de l'algorithme des kNN est pour une nouvelle observation de prédire les k observations lui étant les
plus similaires dans les données d'apprentissage.
• ...et utiliser ces observations pour classer l'observation dans une classe
Rym Besrour 3
3. Méthode du plus proche voisin
Etant donné un jeu 𝒟 = 𝑥𝑖 , 𝑦𝑖 𝑖=1,…,𝑛 de 𝑛 observations étiquetées, et une distance 𝑑 sur 𝒳, on appelle
algorithme du plus proche voisin l’algorithme consistant à étiqueter une nouvelle observation 𝑥 par
l’étiquette du point du jeu d’entrainement qui en est la plus proche.
Cet algorithme s’applique aussi bien à un problème de classification qu’à un problème de régression.
Rym Besrour 4
4. Méthode des plus proches voisins
• Pour un problème de régression, 𝑥 prend comme étiquette la moyenne des étiquettes de ses 𝑘 plus
proches voisins :
𝟏
𝒇 𝒙 = 𝒌 𝒊:𝒙𝒊 ∈𝓝𝒌(𝒙) 𝒚𝒊
Rym Besrour 5
4. Méthode des plus proches voisins
Début Algorithme
Données en entrée :
• Un ensemble de données 𝐷
• Une fonction de définition distance 𝑑
• Un nombre entier 𝐾
Pour une nouvelle observation 𝑋 dont on veut prédire sa variable de sortie 𝑦 Faire :
1. Calculer toutes les distances de cette observation 𝑋 avec les autres observations du
jeu de données 𝐷
4. Retourner la valeur calculée dans l’étape 3 comme étant la valeur qui a été prédite
par K-NN pour l’observation 𝑋.
Fin Algorithme
6
4. Méthode des plus proches voisins
Pour sélectionner la valeur de k, nous exécutons plusieurs fois l’algorithme KNN avec différentes valeurs de k.
Puis nous choisissons le k qui réduit le nombre d’erreurs rencontrées tout en maintenant la capacité de
l’algorithme à effectuer des prédictions avec précision lorsqu’il reçoit des données nouvelles (non vues
auparavant).
7
4. Méthode des plus proches voisins
Avantages :
Inconvénients :
8
5. Distances et similarités
Distance
Définition d’une distance : Etant donné un ensemble 𝜒, on appelle distance sur 𝜒 toute fonction 𝑑 :
𝜒 × 𝜒 ⟶ ℝ vérifiant les trois propriétés suivantes :
1. Séparation : ∀ 𝑢, 𝑣 ∈ 𝜒 × 𝜒, 𝑑 𝑢, 𝑣 = 0 ⇔ 𝑢 = 𝑣
2. Symétrie : ∀ 𝑢, 𝑣 ∈ 𝜒 × 𝜒, 𝑑 𝑢, 𝑣 = 𝑑 𝑣, 𝑢
3. Inégalité triangulaire : ∀ 𝑢, 𝑣, 𝑡 ∈ 𝜒 3 , 𝑑 𝑢, 𝑣 ≤ 𝑑 𝑢, 𝑡 + 𝑑 𝑡, 𝑣
9
5. Distances et similarités
Rym Besrour 10