Cours ACP
Cours ACP
Cours ACP
Position du problème
On s’intéresse au tableau de données rectangulaires avec
des individus en ligne et des variables quantitatives en
colonnes
02/02/2022
Introduction
Analyse multivariée Analyse en Composantes Principales
Apprentissage non supervisé-Clustering Analyse Factorielle des Correspondances
Apprentissage supervisé Analyse des Correspondances Multiples
Position du problème
Etude des individus
- Les variables Long.Jump et
High.Jump ne sont pas liées.
02/02/2022
Introduction
Analyse multivariée Analyse en Composantes Principales
Apprentissage non supervisé-Clustering Analyse Factorielle des Correspondances
Apprentissage supervisé Analyse des Correspondances Multiples
Position du problème
Quels sont les individus qui se ressemblent ? (proximité entre les individus)
Peut-on détecter des groupes d'individus homogènes ?
Ou quelques individus qui présentent des observations aberrantes par rapport au
jeu de données ?
02/02/2022
Introduction
Analyse multivariée Analyse en Composantes Principales
Apprentissage non supervisé-Clustering Analyse Factorielle des Correspondances
Apprentissage supervisé Analyse des Correspondances Multiples
Position du problème
Etude de variables
1 rxy 1
décorrélées
Corrélées Corrélées
négativement positivement
02/02/2022
Introduction
Analyse multivariée Analyse en Composantes Principales
Apprentissage non supervisé-Clustering Analyse Factorielle des Correspondances
Apprentissage supervisé Analyse des Correspondances Multiples
Position du problème
La représentation du corrélogramme n’est utile que pour effectuer un
diagnostic rapide et repérer les points atypiques.
02/02/2022
Introduction
Analyse multivariée Analyse en Composantes Principales
Apprentissage non supervisé-Clustering Analyse Factorielle des Correspondances
Apprentissage supervisé Analyse des Correspondances Multiples
ACP et Objectifs
ACP : Analyse en Composantes Principales
PCA : Principal Component Analysis
02/02/2022
Introduction
Analyse multivariée Analyse en Composantes Principales
Apprentissage non supervisé-Clustering Analyse Factorielle des Correspondances
Apprentissage supervisé Analyse des Correspondances Multiples
Application
Répondre à Q1 - section 0.3 du TP pour avoir au final une
moyenne nulle et un écart-type 1 pour toutes les variables.
02/02/2022
Introduction
Analyse multivariée Analyse en Composantes Principales
Apprentissage non supervisé-Clustering Analyse Factorielle des Correspondances
Apprentissage supervisé Analyse des Correspondances Multiples
…..
….
Matrice D Matrice M
02/02/2022
Introduction
Analyse multivariée Analyse en Composantes Principales
Apprentissage non supervisé-Clustering Analyse Factorielle des Correspondances
Apprentissage supervisé Analyse des Correspondances Multiples
Application
Répondre à Q2 - section 0.3 du TP pour avoir au final
les valeurs propres :
02/02/2022
Introduction
Analyse multivariée Analyse en Composantes Principales
Apprentissage non supervisé-Clustering Analyse Factorielle des Correspondances
Apprentissage supervisé Analyse des Correspondances Multiples
Application
Répondre à Q3 - section 0.3 du TP pour vérifier que les
vecteurs sont orthonormés :
02/02/2022
Introduction
Analyse multivariée Analyse en Composantes Principales
Apprentissage non supervisé-Clustering Analyse Factorielle des Correspondances
Apprentissage supervisé Analyse des Correspondances Multiples
02/02/2022
Introduction
Analyse multivariée Analyse en Composantes Principales
Apprentissage non supervisé-Clustering Analyse Factorielle des Correspondances
Apprentissage supervisé Analyse des Correspondances Multiples
02/02/2022
Introduction
Analyse multivariée Analyse en Composantes Principales
Apprentissage non supervisé-Clustering Analyse Factorielle des Correspondances
Apprentissage supervisé Analyse des Correspondances Multiples
Composantes
principales
02/02/2022
Introduction
Analyse multivariée Analyse en Composantes Principales
Apprentissage non supervisé-Clustering Analyse Factorielle des Correspondances
Apprentissage supervisé Analyse des Correspondances Multiples
02/02/2022
Introduction
Analyse multivariée Analyse en Composantes Principales
Apprentissage non supervisé-Clustering Analyse Factorielle des Correspondances
Apprentissage supervisé Analyse des Correspondances Multiples
02/02/2022
Introduction
Analyse multivariée Analyse en Composantes Principales
Apprentissage non supervisé-Clustering Analyse Factorielle des Correspondances
Apprentissage supervisé Analyse des Correspondances Multiples
Nuage de points
Le but de l’ACP est de trouver des espaces de visualisation de dimensions « plus
petites », à savoir des droites (dimension 1) ou encore des plans tout en
conservant le maximum d’information.
Trouver un sous-espace
qui résume mieux les données
02/02/2022
Introduction
Analyse multivariée Analyse en Composantes Principales
Apprentissage non supervisé-Clustering Analyse Factorielle des Correspondances
Apprentissage supervisé Analyse des Correspondances Multiples
02/02/2022
Introduction
Analyse multivariée Analyse en Composantes Principales
Apprentissage non supervisé-Clustering Analyse Factorielle des Correspondances
Apprentissage supervisé Analyse des Correspondances Multiples
Interprétation d’axes
On peut dire que Smirnov et Lorenzo ont les mêmes performances : ces deux individus
sont proches
Par contre , Uldal et Sebrle ont des performances différentes: elles sont opposées
par rapport au premier axe
02/02/2022
Introduction
Analyse multivariée Analyse en Composantes Principales
Apprentissage non supervisé-Clustering Analyse Factorielle des Correspondances
Apprentissage supervisé Analyse des Correspondances Multiples
02/02/2022
Introduction
Analyse multivariée Analyse en Composantes Principales
Apprentissage non supervisé-Clustering Analyse Factorielle des Correspondances
Apprentissage supervisé Analyse des Correspondances Multiples
02/02/2022
Introduction
Analyse multivariée Analyse en Composantes Principales
Apprentissage non supervisé-Clustering Analyse Factorielle des Correspondances
Apprentissage supervisé Analyse des Correspondances Multiples
02/02/2022
Introduction
Analyse multivariée Analyse en Composantes Principales
Apprentissage non supervisé-Clustering Analyse Factorielle des Correspondances
Apprentissage supervisé Analyse des Correspondances Multiples
02/02/2022
Introduction
Analyse multivariée Analyse en Composantes Principales
Apprentissage non supervisé-Clustering Analyse Factorielle des Correspondances
Apprentissage supervisé Analyse des Correspondances Multiples
i 1
02/02/2022
Introduction
Analyse multivariée Analyse en Composantes Principales
Apprentissage non supervisé-Clustering Analyse Factorielle des Correspondances
Apprentissage supervisé Analyse des Correspondances Multiples
02/02/2022
Introduction
Analyse multivariée Analyse en Composantes Principales
Apprentissage non supervisé-Clustering Analyse Factorielle des Correspondances
Apprentissage supervisé Analyse des Correspondances Multiples
Axes principaux
La recherche d’axes portant le maximum d’inertie équivaut à la construction de
nouvelles variables (auxquelles sont associés ces axes) de variance maximale.
En d’autres termes, on effectue un changement de repère dans l’espace de
variables de dimension K de façon à se placer dans un nouveau système de
représentation où le premier axe apporte le plus possible de l’inertie totale du
nuage, le deuxième axe le plus possible de l’inertie non prise en compte par le
premier axe, et ainsi de suite.
Les axes principaux de l’ACP sont les axes de direction des vecteurs propres de
cette matrice.il y en a K (car on a K variables)
Le premier axe principal: est celui associé à la plus grande valeur propre
Le deuxième axe principal: est celui associé à la deuxième valeur propre
02/02/2022
Introduction
Analyse multivariée Analyse en Composantes Principales
Apprentissage non supervisé-Clustering Analyse Factorielle des Correspondances
Apprentissage supervisé Analyse des Correspondances Multiples
Etude d’inertie
I V X1 V X 2 V X 3 V ( X 4 ) V ( X 5 ) V ( X 6 ) 1 2 3 4 5 6 6
02/02/2022
Introduction
Analyse multivariée Analyse en Composantes Principales
Apprentissage non supervisé-Clustering Analyse Factorielle des Correspondances
Apprentissage supervisé Analyse des Correspondances Multiples
Etude d’inertie
Le taux de restitution de l’information par le premier
plan factoriel est égal à:
1 2
100 76.80%
1 2 3 4 5 6
02/02/2022
Introduction
Analyse multivariée Analyse en Composantes Principales
Apprentissage non supervisé-Clustering Analyse Factorielle des Correspondances
Apprentissage supervisé Analyse des Correspondances Multiples
02/02/2022
Introduction
Analyse multivariée Analyse en Composantes Principales
Apprentissage non supervisé-Clustering Analyse Factorielle des Correspondances
Apprentissage supervisé Analyse des Correspondances Multiples
Q3 – section 04 TP :
Visualiser l’éblouis des
valeurs propres.
02/02/2022
Introduction
Analyse multivariée Analyse en Composantes Principales
Apprentissage non supervisé-Clustering Analyse Factorielle des Correspondances
Apprentissage supervisé Analyse des Correspondances Multiples
Interprétation d’axes
Composantes principales:
À chaque axe est associée une variable synthétique appelée composante principale.
**La composante C1 est le vecteur renfermant les cordonnées des projections des
individus sur l’axe 1.
**La composante C 2 est le vecteur renfermant les cordonnées des projections des
individus sur l’axe 2.
*La variance d’une composante principale est égale à l’inertie portée par l’axe
principal qui lui est associé.
*Les composantes principales sont non corrélées deux à deux. En effet, les axes
associés sont orthogonaux.
02/02/2022
Introduction
Analyse multivariée Analyse en Composantes Principales
Apprentissage non supervisé-Clustering Analyse Factorielle des Correspondances
Apprentissage supervisé Analyse des Correspondances Multiples
Corrélation axe-variable
Coefficient de corrélation entre F2
et la variable Long jump
Long jump
02/02/2022
Introduction
Analyse multivariée Analyse en Composantes Principales
Apprentissage non supervisé-Clustering Analyse Factorielle des Correspondances
Apprentissage supervisé Analyse des Correspondances Multiples
On ajuste le nuage des variables c’est-à-dire on va chercher les dimensions qui
nous permettent de voir mieux le nuage des variables
K
On maximise un critère qui est égal à k
OH
k 1
2
avecH k est la projection de
K K
k (k , v1 )
cos
k 1
2
r 2
k 1
02/02/2022
Introduction
Analyse multivariée Analyse en Composantes Principales
Apprentissage non supervisé-Clustering Analyse Factorielle des Correspondances
Apprentissage supervisé Analyse des Correspondances Multiples
V1 est la variable synthétique qui résume le mieux les variables: le plus liée à l’ensemble
des variables
On peut passer à déterminer le deuxième axe qui synthétise l’information qui n’est
pas encore résumée par le premier axe
02/02/2022
Introduction
Analyse multivariée Analyse en Composantes Principales
Apprentissage non supervisé-Clustering Analyse Factorielle des Correspondances
Apprentissage supervisé Analyse des Correspondances Multiples
Interprétation
Pour l’axe 1: Pour l’axe 2 ? Cercle des corrélations
02/02/2022
Introduction
Analyse multivariée Analyse en Composantes Principales
Apprentissage non supervisé-Clustering Analyse Factorielle des Correspondances
Apprentissage supervisé Analyse des Correspondances Multiples
Les variables sont bien projetées si elles sont très proches du cercle de
corrélation
C’est-à-dire si la flèche qui représente la variable est proche du bord du cercle
la variable est bien projetée
02/02/2022
Introduction
Analyse multivariée Analyse en Composantes Principales
Apprentissage non supervisé-Clustering Analyse Factorielle des Correspondances
Apprentissage supervisé Analyse des Correspondances Multiples
r ( D, E ) cos( D ,E )
02/02/2022
Introduction
Analyse multivariée Analyse en Composantes Principales
Apprentissage non supervisé-Clustering Analyse Factorielle des Correspondances
Apprentissage supervisé Analyse des Correspondances Multiples
Interprétation
A chaque axe est associé une variable appelée composante principale:
Pour interpréter les positions relatives des individus sur l’axe de rang s (s=1 ou s=2),
Il peut être intéressant de calculer les coefficients de corrélation entre les axes et les
variables initiales.
02/02/2022
Introduction
Analyse multivariée Analyse en Composantes Principales
Apprentissage non supervisé-Clustering Analyse Factorielle des Correspondances
Apprentissage supervisé Analyse des Correspondances Multiples
Interprétation
Calcul des corrélations entre la variable Long.jump et les deux axes
02/02/2022
Introduction
Analyse multivariée Analyse en Composantes Principales
Apprentissage non supervisé-Clustering Analyse Factorielle des Correspondances
Apprentissage supervisé Analyse des Correspondances Multiples
02/02/2022
Introduction
Analyse multivariée Analyse en Composantes Principales
Apprentissage non supervisé-Clustering Analyse Factorielle des Correspondances
Apprentissage supervisé Analyse des Correspondances Multiples
02/02/2022
Introduction
Analyse multivariée Analyse en Composantes Principales
Apprentissage non supervisé-Clustering Analyse Factorielle des Correspondances
Apprentissage supervisé Analyse des Correspondances Multiples
Pratique de l’ACP
1. Choisir les variables actives: qui vont servir à calculer les distances entre
les individus
3. Réaliser l’ACP
02/02/2022