chapitreIV. ACP

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 38

Analyse des données

et prise de décision
analyse factorielle

2021/2022
Enseignante: Wahiba Bali Kalboussi
2 INTRODUCTION

 L’analyse des données multidimensionnelle ADM se propose de traiter


l’information liée à la présence conjointement de nombreuses variables
observées sur plusieurs individus.

 Les méthodes d’analyse des données utilisent des techniques


géométriques permettant de mettre en évidence des groupes d’individus
homogènes, des liens entre individus et variables, des ressemblances ou
des différences entre variables, etc..

wahiba kalboussi
3

 La collecte des données aboutissent à des tableaux de données de très


grande taille.
 Tirer des conclusions pertinentes à partir de ces tableaux n’est pas un
exercice facile
 Ce sont les méthodes d’analyse factorielle qui conduisent à une
présentation synthétique d’un grand ensemble de données résultant de
l’étude de plusieurs caractères quantitatifs ou qualitatifs et en ne retenant
que l’essentiel de l’information.

wahiba kalboussi
Exemples

 Analyse sensorielle : note du descripteur k pour le produit i


 • Ecologie : concentration du polluant k dans la rivière i
 • Economie : valeur de l’indicateur k pour l’année i
 • Génétique : expression du gène k pour le patient i
 • Biologie : mesure k pour l’animal i
 • Marketing : score d’un critère de satisfaction k pour la marque i
 • Sociologie : temps passé à l’activité k par les individus de la
 CSP i
 • etc.
LES MÉTHODES D’ANALYSE FACTORIELLE
5

 Analyse en composantes principales


 Analyse factorielle de correspondance
 Analyse de correspondances multiples

wahiba kalboussi
6 Le but des méthodes factorielles
Décrire l’information, la résumer à l’aide d’un petit nombre de dimensions
et visualiser les données à partir des graphiques simples.
Descriptif-exploratoire: visualisation de données par graphiques simples.
Synthèse: résumé de grands tableaux individus x variables.

Variables quantitatives  Variables qualitatives

 L’Analyse en Composantes  Analyse Factorielle des Correspondances


Principales (ACP) (AFC)
wahiba kalboussi
 Analyse de correspondance multiple (ACM)
7 I. Analyse en Composantes Principales
ACP

 OBJECTIFS
 COMPRENDRE LE FONDEMENT DE L’ ACP
 SAVOIR QUEL EST LE PROCESSUS DE CALCUL ET SES LOGIQUES
 POUVOIR EXPLIQUER UNE CARTE INDIVIDU ET UNE CARTE VARIABLE

wahiba kalboussi
I.Analyse en Composantes Principales
8 ACP

 On mesure sur un groupe d’individus (de taille n), un très grand nombre de
variables X1, X2, .... Xk.

 Ces variables sont la plupart du temps corrélées entre elles d'une part, et
elles expliquent à peu près également, les variations observées dans les
données d'autre part.

wahiba kalboussi
9 Utilité de l’ACP

 L‘ACP permet d'obtenir de nouvelles variables, appelées composantes,


qui:
 Expliquent les corrélations entre les variables initiales
 non corrélées, et
 à variance ordonnée .
 Un petit nombre de ces composantes principales permettra d'expliquer la plus
grande partie de la variation observée.

wahiba kalboussi
Objectifs

11 Etude des variables


Objectifs

12 Etude des variables

•Recherche des ressemblances entre les variables: Quelles sont les


variables qui apportent la même information.

•Entre les variables, on parle plutôt de liaisons

•Les liaisons les plus connues sont celles linéaires: des liaisons
simples et très fréquentes et résument de nombreuses liaisons

Pour mesurer cette corrélation linéaire , on calcule le coefficient de corrélation:

1 n
s xy 
n i =1
( xi − x)( yi − y )
rxy = =
s xs y 1 n 2
1 n

n i =1
( xi − x)  i
n i =1
( y − y ) 2
Objectifs
décorrélées
13 Corrélées négativement − 1  rxy  1

Corrélées positivement
Objectifs

14 Liaisons entre les deux études


•Caractérisation des classes des individus par des variables
→Besoin de procédure automatique

Exemple: en précisant que certains clients cherchent la qualité des produits et


les facteurs d’ambiances et d’autres présentent des caractéristiques inverses
•Utilisation des individus spécifiques pour comprendre les liaisons entre les variables
→Utilisation des individus extrêmes

Exemple: la liaison entre les variables qualité et prix peut être illustrée par l’opposition
Entre deux groupes d’individus extrêmes.

Objectifs de l’ACP
•Descriptif – exploratoire : visualisation des données par des graphiques simples

•Synthèse-Résumés de grands tableaux individus*variables


Le nuage des individus

 1 individu = 1 point dans un espace à p dimensions


Le nuage des individus
Centrage – réduction des données

 Centrer les données ne modifie pas la forme du nuage (toujours centrer)


22 Analytiquement
comment déterminer les composantes
principales
 La première composante Y1:
 Y1=a1X1+a2X2+...+apXk telle que la variance (ou inertie) de Y1, soit maximale.

 La deuxième composante Y2:


 Y2 = b1 X1+b2X2+...+bpXk telle que Y2 possède la variance maximale parmi
toutes les combinaisons linéaires qui ne sont pas corrélées avec Y1.
 .
 .
 .
 Y k=

wahiba kalboussi
Analytiquement
 Y=X U ; Var y=
23
 Maximiser Var y, sous la contrainte le vecteur propre U soit unitaire
𝑎1
𝑎2
a2 . . ak) 𝜎11
 Var y= ( a1 𝜎12 et a²1+ a²2=1
𝜎21 𝜎22 𝑎𝑘

 Ceci revient à une maximisation sous contrainte :g(λ)= λ(a²1+ a²2-1)


𝜕𝑓
 =0
𝜕a1
𝜕𝑓
 𝜕a2
=0
 ECRITURE MATRICIELLE: RU= λ U
 R: la matrice des corrélations des variables originales.

 La solution de l'équation caractéristique: R − I = 0

 permet d'obtenir dans un premier temps les racines propres de R : 1  2  ....  k


 ensuite les vecteurs propres correspondants.

 RU1= λ1 U1 avec a²1+ a²2=1 U1


 RU2= λ2u2 U2
wahiba kalboussi
 Ainsi de suite
24

Valeur propre
a) Var (Yi) = i, i = 1 , 2, ..., k,

b) la somme des variances des composantes est égale à la somme p


des
variances des k variables originales centrées réduites.  i = k
1 i =1

 k : le pourcentage de variation totale (k) expliqué par la première


composante.

1 + 2
 k
: le pourcentage de variation totale (k) expliqué par les 2
premières composantes.

 etc.

wahiba kalboussi
Rappel mathématique
 Seuls les éléments bien projetés peuvent être interprétés

Éléments avec une forte coordonnée contribuent le plus.


29 Pratique de l’ACP

 Pour mener une ACP, il faut au préalable est en mesure de répondre à trois
questions :
 1. Les données sont-elles factorisables ?
 2. Combien de facteurs retenir ?
 3. Comment interpréter les résultats ?

wahiba kalboussi
1.Les données sont-elles factorisables ?
30

 Matrice de corrélation: Si plusieurs variables sont corrélées (> 0.5), la


factorisation est possible.

 l’indice de KMO (Kaiser-Meyer-Olkin): doit tendre vers 1.

wahiba kalboussi
1.Les données sont-elles factorisables ?
31 .

 le test de sphéricité de Bartlett


Le test de sphéricité de Bartlett
Si la 
signification (Sig.) :
Tend vers 0.000, c’est très significatif.
inférieur à 0.05 significatif.
entre 0.05 et 0.10 acceptable.
Au dessus de 0.10, on rejette.

wahiba kalboussi
2.Combien de facteurs faut-il retenir ?
32
Règles empiriques :

Règle de Kaiser : on ne doit retenir dans une ACP


normée que les axes (composantes principales) dont la
valeur propre correspondante est supérieure à l'unité i >
1.

Test du coude (Scree test): retenir les facteurs dont la


valeur propre se situe avant la cassure du « coude » (le
début de la pente faible). Cette règle retient souvent
moins d’axes que Kaiser.

Restitution minimale d’information : on choisit le nombre


d’axe en fonction de la restitution minimale
d’information que l’on souhaite. Par exemple, on veut
que le modèle restitue au moins 80% de l’information.
wahiba kalboussi
3.La signification d’un axe
33

 On donne un sens à un axe grâce à une recherche lexicale à partir des


coordonnées des variables et des individus :

 Identifier les variables qui contribuent le plus à l‘axe, en positif et en négatif,


sans contribuer aussi à d’autres axes.
ou
 donner un sens à l’axe en s’appuyant aux individus qui ont les
coordonnées extrêmes.

wahiba kalboussi
34 3.La signification d’un axe

 Si l’indice KMO est trop faible (< 0,5)


 la matrice des corrélations « anti-image ». supprimer la variable (diagonale)
ayant le KMO le plus faible.
 la qualité de représentation (c'est-à-dire le % de variance de la variable extraite
par tous les facteurs retenus) : plus la valeur associée à la ligne «Extraction » est
faible, moins la variable explique la variance.

wahiba kalboussi
35 4.Interprétation des résultats
 L’objectif: faire une partition de la population en groupes homogènes et
différents les uns des autres et on essaie de comprendre les sources de
leurs différences.
 Deux graphiques sont générés

le graphique des variables le graphique des individus.

wahiba kalboussi
36 La carte des variables

Y2
.V5 Plus la variable est proche du
cercle de corrélations (-1;+1),
mieux elle est représentée.
Une variable
proche du centre .V4 .V6 .V1
est mal représentée
dans cet espace. . V2 Y1

.V3 Plus la variable est


proche du facteur, plus
elle y contribue
- Si les variables sont toutes du
même côté de l’axe, on parle
d’Effet taille.
- S’il wahiba
existe
kalboussi
deux groupes de
variables opposées : on parle d’Effet
CARTE DES INDIVIDUS
37

Un point est dit bien représenté sur un axe s’il est proche de sa projection sur
l’axe. Y2
ind4
Forte valeur sur V5
Faible valeur sur V3

ind2
ind6 ind8 ind1
Y1
ind3 ind5
Forte valeur sur V4 Individus . Faible valeur sur V4
Faible valeur sur V1 etV2
moyens Forte valeur sur V1 etV2

L’Indicateur utilisé est l’angle formé entre le point et sa projection sur


l’axe.
wahiba kalboussi
38 Quelques mises en garde à l’utilisation
d’une ACP:
 La taille de l’échantillon observé n devrait être, selon M.G. Kendall, n 10 p.
 (avec p : est le nombre de variables initiales)

 Repérer préalablement les données aberrantes ou manquantes et les


éliminer.

 Pour minimiser l’effet des erreurs de mesure dans le cas d’un échantillon de
taille assez importante, faire un Test-Retest, c'est-à-dire :
 découper l’échantillon et faire deux fois l’analyse
 garder la structure commune observée dans les deux analyses

wahiba kalboussi

Vous aimerez peut-être aussi