Cours ACP

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 48

Cours Data Mining

Responsable : Ibtihel REBHI


Formation : Master Business Analytics
Niveau : 1ère année
A.U : 2021-2022
Introduction
Analyse multivariée Analyse en Composantes Principales
Apprentissage non supervisé-Clustering Analyse Factorielle des Correspondances
Apprentissage supervisé Analyse des Correspondances Multiples

Position du problème
On s’intéresse au tableau de données rectangulaires avec
des individus en ligne et des variables quantitatives en
colonnes

Pour une variable j :


X1  Xj  Xp Mi
1 x11  x1 j  x1 p M1
1 N
     x j   xij
i xi1  xij  xip Mi N i 1
    
n xn1  xnj  xnp Mn N
1
Nj N1  Nj  Np s 2
j
N
 ij j
( x
i 1
 x ) 2

02/02/2022
Introduction
Analyse multivariée Analyse en Composantes Principales
Apprentissage non supervisé-Clustering Analyse Factorielle des Correspondances
Apprentissage supervisé Analyse des Correspondances Multiples

Position du problème
Etude des individus
- Les variables Long.Jump et
High.Jump ne sont pas liées.

-« Nool » et «Hernu» ont le même


profil (caractéristiques)

-« Sebrle » et «Bourguignon» ont des


profils opposés

Un graphique ne fait que révéler des


informations présentes dans le
tableau de données !

Impossible de créer un nuage à « p »


dimensions.

02/02/2022
Introduction
Analyse multivariée Analyse en Composantes Principales
Apprentissage non supervisé-Clustering Analyse Factorielle des Correspondances
Apprentissage supervisé Analyse des Correspondances Multiples

Position du problème
Quels sont les individus qui se ressemblent ? (proximité entre les individus)
Peut-on détecter des groupes d'individus homogènes ?
Ou quelques individus qui présentent des observations aberrantes par rapport au
jeu de données ?

Quand dit-on que 2 individus se ressemblent du point de vue de l’ensemble des


variables?
Si beaucoup d’individus, peut-on faire un bilan des ressemblances?

Que faire alors si on veut prendre en compte (p > 2) variables simultanément ?

L’étude des individus consiste à appréhender les ressemblances entre individus


du point de vue de l’ensemble des variables, il s’agit de dresser une typologie des
individus.

02/02/2022
Introduction
Analyse multivariée Analyse en Composantes Principales
Apprentissage non supervisé-Clustering Analyse Factorielle des Correspondances
Apprentissage supervisé Analyse des Correspondances Multiples

Position du problème
Etude de variables
 1  rxy  1

décorrélées

Corrélées Corrélées
négativement positivement

02/02/2022
Introduction
Analyse multivariée Analyse en Composantes Principales
Apprentissage non supervisé-Clustering Analyse Factorielle des Correspondances
Apprentissage supervisé Analyse des Correspondances Multiples

Position du problème
La représentation du corrélogramme n’est utile que pour effectuer un
diagnostic rapide et repérer les points atypiques.

Il serait impossible de créer un nuage à « p » dimensions.


On pourrait croiser les variables 2 à 2, mais c'est très difficile de
surveiller plusieurs cadrans en même temps.

Sur quelles variables sont fondées les ressemblances / dissemblances ?


Quelles sont les relations entre les variables ?
Y-a-t-il un moyen de détecter les variables qui sont les plus corrélées
entre elles ?

02/02/2022
Introduction
Analyse multivariée Analyse en Composantes Principales
Apprentissage non supervisé-Clustering Analyse Factorielle des Correspondances
Apprentissage supervisé Analyse des Correspondances Multiples

ACP et Objectifs
ACP : Analyse en Composantes Principales
PCA : Principal Component Analysis

Objectif 1 : Réduction de dimension :


- Construction d’un système de représentation de dimension réduite (q << p) qui
préserve les distances entre les individus.
- On peut la voir comme une compression avec perte (contrôlée) de l’information.

Objectif 2 : Liaisons entre l’étude des individus et des variables :


- Caractérisation des classes des individus par des variables
- Utilisation des individus spécifiques pour comprendre les liaisons entre les variables

Objectif 3 : Visualisation multidimensionnelles des données

02/02/2022
Introduction
Analyse multivariée Analyse en Composantes Principales
Apprentissage non supervisé-Clustering Analyse Factorielle des Correspondances
Apprentissage supervisé Analyse des Correspondances Multiples

Visualisation des données

Recherche de composantes principales ?


02/02/2022
Introduction
Analyse multivariée Analyse en Composantes Principales
Apprentissage non supervisé-Clustering Analyse Factorielle des Correspondances
Apprentissage supervisé Analyse des Correspondances Multiples

Etapes de l’ACP 1/4


Centrer réduire les données

la variable est « centrée » autour


de la moyenne: la forme du nuage
xik  xk des points ne change pas
xik 
sk la variable est ensuite « réduite »:cette opération est
Indispensable si les unités de mesure sont différentes
D’une variable à l’autre
02/02/2022
Introduction
Analyse multivariée Analyse en Composantes Principales
Apprentissage non supervisé-Clustering Analyse Factorielle des Correspondances
Apprentissage supervisé Analyse des Correspondances Multiples

Application
Répondre à Q1 - section 0.3 du TP pour avoir au final une
moyenne nulle et un écart-type 1 pour toutes les variables.

02/02/2022
Introduction
Analyse multivariée Analyse en Composantes Principales
Apprentissage non supervisé-Clustering Analyse Factorielle des Correspondances
Apprentissage supervisé Analyse des Correspondances Multiples

Etapes de l’ACP 2/4


Décomposition en valeurs singulières SVD de la matrice
des données centrées réduites
Répondre à Q2 - section 0.3 du TP

…..
….

Matrice D Matrice M

02/02/2022
Introduction
Analyse multivariée Analyse en Composantes Principales
Apprentissage non supervisé-Clustering Analyse Factorielle des Correspondances
Apprentissage supervisé Analyse des Correspondances Multiples

Application
Répondre à Q2 - section 0.3 du TP pour avoir au final
les valeurs propres :

02/02/2022
Introduction
Analyse multivariée Analyse en Composantes Principales
Apprentissage non supervisé-Clustering Analyse Factorielle des Correspondances
Apprentissage supervisé Analyse des Correspondances Multiples

Application
Répondre à Q3 - section 0.3 du TP pour vérifier que les
vecteurs sont orthonormés :

02/02/2022
Introduction
Analyse multivariée Analyse en Composantes Principales
Apprentissage non supervisé-Clustering Analyse Factorielle des Correspondances
Apprentissage supervisé Analyse des Correspondances Multiples

Etapes de l’ACP 3/4


Chercher la matrice de composantes principales C

02/02/2022
Introduction
Analyse multivariée Analyse en Composantes Principales
Apprentissage non supervisé-Clustering Analyse Factorielle des Correspondances
Apprentissage supervisé Analyse des Correspondances Multiples

Etapes de l’ACP 3/4

Matrice de variance de composantes : Répondre à


Q5 - section 0.3 du TP :

02/02/2022
Introduction
Analyse multivariée Analyse en Composantes Principales
Apprentissage non supervisé-Clustering Analyse Factorielle des Correspondances
Apprentissage supervisé Analyse des Correspondances Multiples

Etapes de l’ACP 4/4


Chercher les coordonnées des individus sur les axes
principaux ( Q6 section 0.3 du TP )

Composantes
principales

02/02/2022
Introduction
Analyse multivariée Analyse en Composantes Principales
Apprentissage non supervisé-Clustering Analyse Factorielle des Correspondances
Apprentissage supervisé Analyse des Correspondances Multiples

Etapes de l’ACP 4/4


Chercher les coordonnées des variables sur les axes
principaux ( Q6 section 0.3 du TP )

02/02/2022
Introduction
Analyse multivariée Analyse en Composantes Principales
Apprentissage non supervisé-Clustering Analyse Factorielle des Correspondances
Apprentissage supervisé Analyse des Correspondances Multiples

Fonction PCA dans FactoMineR

Q4 – section 04 TP : Function PCA dans le package FactoMineR

1- Réaliser l'ACP avec les variables quantitatives supplémentaires Rank et Points et


la variable catégorielle Competition.
2- Dire pourquoi on a considéré Rank et Points comme des variables
supplémentaires

02/02/2022
Introduction
Analyse multivariée Analyse en Composantes Principales
Apprentissage non supervisé-Clustering Analyse Factorielle des Correspondances
Apprentissage supervisé Analyse des Correspondances Multiples

Nuage de points
Le but de l’ACP est de trouver des espaces de visualisation de dimensions « plus
petites », à savoir des droites (dimension 1) ou encore des plans tout en
conservant le maximum d’information.

Distance entre les individus


la plus fidèle possible !!

 Trouver un sous-espace
qui résume mieux les données

02/02/2022
Introduction
Analyse multivariée Analyse en Composantes Principales
Apprentissage non supervisé-Clustering Analyse Factorielle des Correspondances
Apprentissage supervisé Analyse des Correspondances Multiples

Coordonnées d’individus sur axes

Le vecteur F1 est appelé composante principale


du premier axe

Le vecteur F2 est appelé composante


principale du deuxième axe

On peut avoir les coordonnées, co2 et contributions des individus

02/02/2022
Introduction
Analyse multivariée Analyse en Composantes Principales
Apprentissage non supervisé-Clustering Analyse Factorielle des Correspondances
Apprentissage supervisé Analyse des Correspondances Multiples

Interprétation d’axes

On peut dire que Smirnov et Lorenzo ont les mêmes performances : ces deux individus
sont proches
Par contre , Uldal et Sebrle ont des performances différentes: elles sont opposées
par rapport au premier axe
02/02/2022
Introduction
Analyse multivariée Analyse en Composantes Principales
Apprentissage non supervisé-Clustering Analyse Factorielle des Correspondances
Apprentissage supervisé Analyse des Correspondances Multiples

Ajustement du nuage des points

C’est le même principe que lorsque l’on prend une


photographie, on passe d’un espace à 3 dimensions à un
espace à 2 dimensions

02/02/2022
Introduction
Analyse multivariée Analyse en Composantes Principales
Apprentissage non supervisé-Clustering Analyse Factorielle des Correspondances
Apprentissage supervisé Analyse des Correspondances Multiples

Ajustement du nuage des points

De fait, l’angle de la prise de vue a une


importance capitale car c’est lui qui
détermine « l’information exploitable ».

02/02/2022
Introduction
Analyse multivariée Analyse en Composantes Principales
Apprentissage non supervisé-Clustering Analyse Factorielle des Correspondances
Apprentissage supervisé Analyse des Correspondances Multiples

Ajustement du nuage des points

02/02/2022
Introduction
Analyse multivariée Analyse en Composantes Principales
Apprentissage non supervisé-Clustering Analyse Factorielle des Correspondances
Apprentissage supervisé Analyse des Correspondances Multiples

Ajustement du nuage des points

L’ACP vise à fournir une image simplifiée du nuage la plus fidèle


possible
Trouver le sous espace qui résume au mieux les données
Qualité d’une image:
Restitue fidèlement la forme générale du nuage

On choisit la troisième proposition: séparer les points revient à augmenter


la dispersion (la variabilité) des points

02/02/2022
Introduction
Analyse multivariée Analyse en Composantes Principales
Apprentissage non supervisé-Clustering Analyse Factorielle des Correspondances
Apprentissage supervisé Analyse des Correspondances Multiples

Ajustement du nuage des points


Trouver la meilleure image approchée du nuage de points:

1 Trouver l’axe(facteur) qui déforme le moins possible le nuage

Centre de gravité du nuage

I Projeté d’un individu sur un axe

On veut que  i soit maximale


OH 2

i 1

02/02/2022
Introduction
Analyse multivariée Analyse en Composantes Principales
Apprentissage non supervisé-Clustering Analyse Factorielle des Correspondances
Apprentissage supervisé Analyse des Correspondances Multiples

Qualité d’une image

1. Restitue fidèlement la forme générale du nuage : une image est bonne si


on distingue bien la variabilité entre ses points

2. Meilleure représentation de la diversité

3. Ne perturbe pas les distances entre individus

Comment quantifier la qualité d’une image?

A l’aide de la notion de dispersion ou variabilité appelée inertie


Plus un nuage de points sera dispersé l’image est plus claire La variabilité
est forte
Inertie=variance généralisée à plusieurs dimensions

02/02/2022
Introduction
Analyse multivariée Analyse en Composantes Principales
Apprentissage non supervisé-Clustering Analyse Factorielle des Correspondances
Apprentissage supervisé Analyse des Correspondances Multiples

Axes principaux
La recherche d’axes portant le maximum d’inertie équivaut à la construction de
nouvelles variables (auxquelles sont associés ces axes) de variance maximale.
En d’autres termes, on effectue un changement de repère dans l’espace de
variables de dimension K de façon à se placer dans un nouveau système de
représentation où le premier axe apporte le plus possible de l’inertie totale du
nuage, le deuxième axe le plus possible de l’inertie non prise en compte par le
premier axe, et ainsi de suite.

Les axes principaux de l’ACP sont les axes de direction des vecteurs propres de
cette matrice.il y en a K (car on a K variables)
Le premier axe principal: est celui associé à la plus grande valeur propre

Le deuxième axe principal: est celui associé à la deuxième valeur propre

02/02/2022
Introduction
Analyse multivariée Analyse en Composantes Principales
Apprentissage non supervisé-Clustering Analyse Factorielle des Correspondances
Apprentissage supervisé Analyse des Correspondances Multiples

Etude d’inertie

Exemple : si les valeurs propres sont égales à:

1  2.9914 2  1.6125 3  1.0387 4  0.2487 5  0.0758 6  0.0329


La variance(l’inertie totale) est égale à :

I  V  X1   V  X 2   V  X 3   V ( X 4 )  V ( X 5 )  V ( X 6 )  1  2  3  4  5  6  6

02/02/2022
Introduction
Analyse multivariée Analyse en Composantes Principales
Apprentissage non supervisé-Clustering Analyse Factorielle des Correspondances
Apprentissage supervisé Analyse des Correspondances Multiples

Etude d’inertie
Le taux de restitution de l’information par le premier
plan factoriel est égal à:

1  2
 100  76.80%
1  2  3  4  5  6

Cela signifie que l’image de dimension deux que l’on va


voir représente bien le nuage de points.

Si le taux de restitution est insuffisant, on ajoute un axe ou on réduit le


nombre de variables que l’on soumet à l ’analyse. Nous comprenons mieux
la nécessité d’étudier les diverses corrélations entre les variables.

Q4 – section 04 TP : Etudier l’inertie des composantes principales

02/02/2022
Introduction
Analyse multivariée Analyse en Composantes Principales
Apprentissage non supervisé-Clustering Analyse Factorielle des Correspondances
Apprentissage supervisé Analyse des Correspondances Multiples

Nombres d’axes à retenir


Le premier plan( u1 et u2 ) la meilleure représentation plane
est souvent suffisante pour visualiser le nuage des individus.
Dans certaines conditions, on peut passer à interpréter le meilleur plan
complémentaire de ( u1 et u2 ) qui est ( u3 et u4 )
1- Interprétation des axes
On s'efforce de ne retenir que des axes à propos desquels une forme
d'interprétation est possible (soit directement, soit en terme des variables avec
lesquels ils sont très corrélés). Si on cherche une information bien précise on
doit aller au-delà de ça.

2- Critère de Kaiser (variables centrées réduites)


La règle de Kaiser repose sur une idée simple. Dans une ACP normée, la
somme des valeurs propres étant égale au nombre de variables, leur moyenne
vaut 1. Nous considérons par conséquent qu’un axe est intéressant si sa valeur
propre est supérieure 1. Il existe d’autres manières de considérer ce seuil : un
axe est intéressant s’il contribue plus qu’une des variables prise individuellement
; ou encore, si les variables étaient deux à deux orthogonales, les valeurs propres
issues de l’analyse seraient toutes égales à 1.

02/02/2022
Introduction
Analyse multivariée Analyse en Composantes Principales
Apprentissage non supervisé-Clustering Analyse Factorielle des Correspondances
Apprentissage supervisé Analyse des Correspondances Multiples

Nombres d’axes à retenir


3-Critère du coude : sur l’éblouis des valeurs propres, on observe un
décrochement (coude) suivi d’une décroissance régulière. On sélectionne les
axes avant le décrochement :

Q3 – section 04 TP :
Visualiser l’éblouis des
valeurs propres.
02/02/2022
Introduction
Analyse multivariée Analyse en Composantes Principales
Apprentissage non supervisé-Clustering Analyse Factorielle des Correspondances
Apprentissage supervisé Analyse des Correspondances Multiples

Interprétation d’axes
Composantes principales:
À chaque axe est associée une variable synthétique appelée composante principale.

**La composante C1 est le vecteur renfermant les cordonnées des projections des
individus sur l’axe 1.

**La composante C 2 est le vecteur renfermant les cordonnées des projections des
individus sur l’axe 2.

Propriétés des composantes principales:

*La variance d’une composante principale est égale à l’inertie portée par l’axe
principal qui lui est associé.

*Les composantes principales sont non corrélées deux à deux. En effet, les axes
associés sont orthogonaux.

02/02/2022
Introduction
Analyse multivariée Analyse en Composantes Principales
Apprentissage non supervisé-Clustering Analyse Factorielle des Correspondances
Apprentissage supervisé Analyse des Correspondances Multiples

Variables dans l’espace


Une variable est un point dans un espace à I dimensions
(On a I individus)

Nous allons s’intéresser au nuage des variables


représentées toujours par des flèches.

Nuage des variables dans un espace de dimension I.


En ACP normée, les variables k sont situées sur l’hypersphère de rayon 1
02/02/2022
Introduction
Analyse multivariée Analyse en Composantes Principales
Apprentissage non supervisé-Clustering Analyse Factorielle des Correspondances
Apprentissage supervisé Analyse des Correspondances Multiples

Corrélation axe-variable
Coefficient de corrélation entre F2
et la variable Long jump

Long jump

Coefficient de corrélation entre


F1 et la variable Long jump

02/02/2022
Introduction
Analyse multivariée Analyse en Composantes Principales
Apprentissage non supervisé-Clustering Analyse Factorielle des Correspondances
Apprentissage supervisé Analyse des Correspondances Multiples

Ajustement du nuage de variables


Même règle que dans le cas des individus : on cherche deux axes orthogonaux
qui résume les variables
 On utilise la même stratégie utilisée pour la réduction de l’espace des individus

On ajuste le nuage des variables c’est-à-dire on va chercher les dimensions qui
nous permettent de voir mieux le nuage des variables
K
On maximise un critère qui est égal à  k
OH
k 1
2
avecH k est la projection de

la variable k sur le sous espace de dimension réduite, cela revient à maximiser:

K K

 k  (k , v1 )
cos
k 1
 2
 r 2

k 1

02/02/2022
Introduction
Analyse multivariée Analyse en Composantes Principales
Apprentissage non supervisé-Clustering Analyse Factorielle des Correspondances
Apprentissage supervisé Analyse des Correspondances Multiples

Coordonnées variables sur axes


Le premier axe des variables est celui qui maximise la corrélation entre le facteur
et chacune des K variables

V1 est la variable synthétique qui résume le mieux les variables: le plus liée à l’ensemble
des variables

On peut passer à déterminer le deuxième axe qui synthétise l’information qui n’est
pas encore résumée par le premier axe

On détermine V2,V3 etc

Q5 Section 0.4 du TP : Afficher les coordonnées, co2 des variables.

02/02/2022
Introduction
Analyse multivariée Analyse en Composantes Principales
Apprentissage non supervisé-Clustering Analyse Factorielle des Correspondances
Apprentissage supervisé Analyse des Correspondances Multiples

Interprétation
Pour l’axe 1: Pour l’axe 2 ? Cercle des corrélations

Les variables High Jump, Long jump sont corrélées positivement à


l’axe 1.
Autrement dit, les athlètes qui se trouvent à gauche avec des fortes
coordonnées sur l’axe 1 prennent des valeurs importantes en ces
épreuves, les athlètes qui sont au milieu prennent des valeurs
moyennes et les villes qui sont à droite prennent des valeurs faibles.

Le premier facteur de variabilité ?


Le deuxième facteur de variabilité ?

02/02/2022
Introduction
Analyse multivariée Analyse en Composantes Principales
Apprentissage non supervisé-Clustering Analyse Factorielle des Correspondances
Apprentissage supervisé Analyse des Correspondances Multiples

Qualité de représentation de variables


La variable D est très proche du plan de projection

La variable C est mal représentée sur le plan de projection


02/02/2022
Introduction
Analyse multivariée Analyse en Composantes Principales
Apprentissage non supervisé-Clustering Analyse Factorielle des Correspondances
Apprentissage supervisé Analyse des Correspondances Multiples

Qualité de représentation de variables

Les variables sont bien projetées si elles sont très proches du cercle de
corrélation
C’est-à-dire si la flèche qui représente la variable est proche du bord du cercle
la variable est bien projetée
02/02/2022
Introduction
Analyse multivariée Analyse en Composantes Principales
Apprentissage non supervisé-Clustering Analyse Factorielle des Correspondances
Apprentissage supervisé Analyse des Correspondances Multiples

Qualité de représentation de variables

r ( D, E )  cos( D ,E )

Seules les variables bien projetées peuvent être interprétées


02/02/2022
Introduction
Analyse multivariée Analyse en Composantes Principales
Apprentissage non supervisé-Clustering Analyse Factorielle des Correspondances
Apprentissage supervisé Analyse des Correspondances Multiples

Pourcentage d’inertie (d’information) associé à chaque axe

La qualité de la projection peut être mesuré par le pourcentage d’inertie


expliqué par les deux axes

Le pourcentage d’inertie est le pourcentage d’information exprimé par le plan


factoriel

02/02/2022
Introduction
Analyse multivariée Analyse en Composantes Principales
Apprentissage non supervisé-Clustering Analyse Factorielle des Correspondances
Apprentissage supervisé Analyse des Correspondances Multiples

Interprétation
A chaque axe est associé une variable appelée composante principale:

La première composante est le vecteur renfermant les coordonnées des


projections des individus sur le premier axe.

Pour interpréter les positions relatives des individus sur l’axe de rang s (s=1 ou s=2),
Il peut être intéressant de calculer les coefficients de corrélation entre les axes et les
variables initiales.

Lorsque le coefficient de corrélation entre Fs et une variable k est positif,


un individu qui a une coordonnée positive sur cet axe possède une forte valeur
pour la variable k

Lorsque le coefficient de corrélation entre Fs et une variable k est négatif,


un individu qui a une coordonnée positive sur cet axe possède une faible valeur
pour la variable k

02/02/2022
Introduction
Analyse multivariée Analyse en Composantes Principales
Apprentissage non supervisé-Clustering Analyse Factorielle des Correspondances
Apprentissage supervisé Analyse des Correspondances Multiples

Interprétation
Calcul des corrélations entre la variable Long.jump et les deux axes

Si la corrélation est fortement positive (proche de 1) alors les


individus ayant des faibles valeurs en Long.jump prennent des faibles
valeurs sur l’axe 1

Si la corrélation est fortement négative (proche de -1) alors les


individus ayant des faibles valeurs en Long.jump prennent des fortes
valeurs sur l’axe 1

02/02/2022
Introduction
Analyse multivariée Analyse en Composantes Principales
Apprentissage non supervisé-Clustering Analyse Factorielle des Correspondances
Apprentissage supervisé Analyse des Correspondances Multiples

Qualité de représentation et contribution


1-Qualité de représentation d’une variable et d’un individu

 Seuls les éléments bien projetés peuvent être interprétés


2-Contribution d’une variable et d’un individu

 Eléments avec une forte coordonnée contribuent le plus


02/02/2022
Introduction
Analyse multivariée Analyse en Composantes Principales
Apprentissage non supervisé-Clustering Analyse Factorielle des Correspondances
Apprentissage supervisé Analyse des Correspondances Multiples

Description des dimensions


Par les variables quantitatives

• Calcul des coefficients de corrélation entre chaque variable et la dimension s


• Tri de ces coefficients

02/02/2022
Introduction
Analyse multivariée Analyse en Composantes Principales
Apprentissage non supervisé-Clustering Analyse Factorielle des Correspondances
Apprentissage supervisé Analyse des Correspondances Multiples

Description des dimensions


Par les variables qualitatives

• ANOVA des coordonnées des individus sur l’axe s (Variable Y) expliqués


par la variable qualitative
• Test F par variable
• Test t de Student par modalité pour comparer la moyenne de la modalité
avec la moyenne générale
60% de la variabilité des coordonnées des individus
Sur la deuxième dimension est expliqué par la région

02/02/2022
Introduction
Analyse multivariée Analyse en Composantes Principales
Apprentissage non supervisé-Clustering Analyse Factorielle des Correspondances
Apprentissage supervisé Analyse des Correspondances Multiples

Pratique de l’ACP
1. Choisir les variables actives: qui vont servir à calculer les distances entre
les individus

2. Choisir de réduire ou non les variables

3. Réaliser l’ACP

4. Choisir le nombre de dimensions à interpréter

5. Interpréter simultanément le graphe des individus et celui des variables

6. Utiliser les indicateurs pour enrichir l’interprétation

7. Revenir aux données brutes pour interpréter

02/02/2022

Vous aimerez peut-être aussi