Analyse Factorielle
Analyse Factorielle
Analyse Factorielle
1
Introduction
L’analyse factorielle des correspondances (AFC), ou analyse des correspondances
simples, est une méthode exploratoire d’analyse des tableaux de contingence. Elle a
été développée par J.-P. Benzecri durant la période 1970-1990.
L’AFC considérée comme une ACP particulière dotée de la métrique du χ2 (Khi-2) qui
ne dépend que du profil des colonnes du tableau. L’analyse permet, dans le plan des
deux premiers axes factoriels, une représentation simultanée des ressemblances
entre les colonnes ou les lignes du tableau et de la proximité entre lignes et colonnes.
Etudier sur N individus les "liaisons" entre deux variables X et Y. Chaque variable
détermine deux partitions de l’ensemble des individus selon les modalités
Le cardinal de I est noté n et celui de J est noté m. Pour chercher les liaisons entre X
et Y nous allons croiser les deux partitions pour obtenir un tableau de contingence
indexé par I et J.
Dans la case associée à la i-ème ligne et à la j-ème colonne on écrit l’effectif des
individus ayant la i-ème modalité pour la variable X et la j-ème modalité pour la
variable Y, celui-ci est noté kij .
2
Les analyses factorielles constituent la plupart des analyses de données. Elles sont
fondées sur un principe unique, c'est pour cela que nous pouvons parler de l'analyse
factorielle. Ce principe repose sur le fait que les deux nuages de points représentant
respectivement les lignes et les colonnes du tableau étudié sont construits et
représentés sur des graphiques. Ces représentations des lignes et des colonnes
fortement liées entre elles permettent une analyse plus aisée pour l'opérateur.
L'AFC conçue pour les tableaux de contingence (i.e. fréquences), peut être appliquée
aux tableaux de mesures homogènes (i.e. même système d'unités), aux tableaux de
notes, de rangs, de préférences, aux tableaux à valeurs logiques (0 ou 1), et encore
aux tableaux issus de questionnaires d'enquêtes.
Les objectifs
Les analyses factorielles tentent de répondre à la question :
Tenant compte des ressemblances des individus et des liaisons entre variables, est-
il possible de résumer toutes les données par un nombre restreint de valeurs sans
perte d'information importante ?
En effet en cherchant à réduire le nombre de variables décrivant les données, la
quantité d'information ne peut être que réduite, au mieux maintenue. La motivation
de cette réduction du nombre de valeurs vient du fait que des valeurs peu
nombreuses sont plus faciles à représenter géométriquement et graphiquement (un
des objectifs de l'analyse de données). 3
L’AFC vise à analyser ce type de tableaux en apportant des réponses à des
questions telles que :
Exemple: Considérons l'ensemble des notes des élèves durant une année. Le nombre d'élèves est environ
de 450, et nous pouvons considérer qu'ils obtiennent environ 30 notes chacun. Ainsi le tableau représentant
l'ensemble des notes est constitué de 13 500 valeurs. La réduction présentée ci-dessus permet de réduire ce
nombre à 480 valeurs sans perte d'information si l'hypothèse est valide. Pour que l'hypothèse soit vérifiée,
il faudrait pouvoir déduire les notes de l'ensemble des élèves à partir de celles d'un seul élève et d'un
vecteur de pondération. Ceci signifie que les notes sont dépendantes les unes des autres ou encore très
fortement corrélées.
4
Principe de I 'Analyse des correspondances
Le principe de I'AFC est de réaliser une synthèse des données et de pouvoir représenter
l'organisation des ces données en un minimum de dimensions possibles. Il s'agit de faire une
réduction de I 'espace de représentation de ces données sur un nombre minimum de dimensions
qui sont censées bien représenter toutes ces données, sans trop de perte d'information après
réduction. On représente par des axes de projection cette configuration des données autour d'un
nombre réduit de dimensions, comme le fait un architecte qui réalise les plans d'une maison avec
I 'information minimale nécessaire à sa bonne représentation.
L'AFC recherche ces composantes principales ou axes pour les lignes et pour les colonnes. Elle
les représentera sous forme de graphe. Pour les lignes et pour les colonnes, I'AFC calcule un
premier axe qui donne une indication sur la proportion maximale de la variation totale des
individus qui est expliquée par I 'axe. Ensuite I'AFC recherche séparément pour les lignes et pour
les colonnes, une seconde composante qui représente une part de la variation qui n'est pas
expliquée par le premier axe. Cette seconde composante n'est pas corrélée avec la première et
représentera moins bien les données que la première composante. L'AFC calculera ainsi de suite,
séparément pour les lignes et pour les colonnes, tous les axes ou composantes nécessaires à la
représentation des données en lignes et des données en colonnes. dans leur totalité. L'AFC
donnera alors, pour les lignes et pour les colonnes, une représentation de la totalité de la variation
du nuage après I 'extraction de tous les composantes. L'AFC représentera sous formes de
représentations graphiques des projections du nuage des individus en lignes et des individus en
colonne sur les axes principaux. Les premiers axes représenteront le mieux le nuage de points.
Les suivants représenteront moins bien et ainsi de suite pour tous les axes qui seront calculé par
la suite. 5
Tableau de contingence
Soient X et Y deux variables qualitatives à r et s modalités respectivement décrivant
un ensemble de n individus.
6
Marges et profils
Indépendance empirique: lorsque tous les profils lignes sont identiques, il y a indépendance
entre X et Y, puisque la connaissance de X ne change pas la répartition de Y.
On a pour tout j
et donc
8
Comme en ACP, on s’intéresse alors aux directions de "plus grande dispersion" de chacun
de ces nuages de points, mais on utilise la distance chi2 (χ2) entre ces deux variables (à la
place de la distance euclidienne). Cette distance permet de comparer l’effectif de chacune
des cellules du tableau de contingence à la valeur qu’elle aurait si les deux variables étaient
indépendantes.
aussi notée χ2
Plus la distance dχ2 (N;E) est grande, plus le tableau observé est éloigné du tableau attendu
sous l’hypothèse d’indépendance
9
Pour chaque case (i; j) du tableau, il est important d‘étudier sa contribution à χ2 :
10
La distance choisie entre deux profils-lignes Li et Li’ est la métrique du chi2 définie par :
Inertie:
On appelle, en AFC, moment total d’inertie (Mt) du nuage des N individus dans l’espace Rn
la somme pondérée des carrés des distances des points du nuage à leur centre de gravité
χ2
Composantes principales
12
ACP des profils-colonnes
Cette fois, la matrice à diagonaliser est
Relations de transition
Les composantes principales des profils-lignes et celles des profils-colonnes sont reliées par
des formules simples dont un des intérêts principaux est d‘éviter deux diagonalisations. On
diagonalisera la matrice de plus petite dimension.
On peut montrer que les matrices L et C ont mêmes valeurs propres non nulles λk. Leurs
13
vecteurs propres sont reliés par les relations suivantes:
Théorème: Soit p = rang(L) = rang(C). Pour tout k ≤ p, il existe une relation dite de
transition, entre les vecteurs propres uk et vk
Formules de reconstitution
Comme en ACP on dispose de formules dites de reconstitution permettant de récupérer le
tableau N a partir des composantes principales c et č. Pour tout i ≤ r et tout j ≤ c, on a :
Les composants principales et les valeurs propres expliquent donc en quoi les nij s‘écartent des
14
Aides à l'interprétation
Deux types de coefficients apportent de l'information intéressante pour l'interprétation des plans
factoriels.
Contribution relative : elle exprime la part prise par une modalité de la variable dans l'inertie
"expliquée " par un facteur.
on calcule le cosinus carré de l'angle entre le profil-colonne et l'axe G pour mesurer la qualité
de la projection de ce profil sur cet axe :
Pour analyser les proximités entre les points sur les graphiques factoriels, on s'intéresse
surtout aux points bien projetés (ayant un cos2 élevé) car les proximités entre ces points
observée sur le graphique est proche de celle dans l'espace d'origine.
16
Les points supplémentaires ou points inactifs
Comme en ACP, il peut arriver qu’un (ou plusieurs) points individus et/ou variables se
situent en dehors ou éloigné des autres points. Cela signifie qu’il possède dans le tableau de
départ un profil tout à fait spécifique.
Sa (ou ses)positions dans le plan factoriel étant isolée, elle empêche une étude précise des
proximités des autres points projetés.
Il est recommandé dans ce cas de rendre ce (ou ces) points inactifs (on le met en
supplémentaire), ce qui revient à réaliser l’AFC du tableau de départ en éliminant la ligne
ou la colonne qui représente cet individu (ou cette variable).
Ce point possède cependant dans l’espace, des coordonnées, et même s’il ne participe pas à
l’AFC, il est alors possible de calculer ses nouvelles coordonnées dans l’espace. On peut
donc représenter sur un plan factoriel, ce ou ces points rendus inactifs
Les points supplémentaires sont des profils qui n'entrent pas dans la construction des axes
mais qui sont représentés dans les plans factoriels. Leur position est interprétée en terme de
quasi-barycentre.
Si on dispose par exemple d'une modalité supplémentaire l0 de la variable X, on peut
calculer la coordonnée du profil-ligne correspondant l0 sur l'axe k en utilisant les formules
quasi-barycentriques :
D'autre part on peut également évaluer la qualité de représentation des points supplémentaires
sur l'axe k par le calcul du cos carré. 17
Interprétation des résultats d'une AFC
Les nuages des profil-lignes et des profil-colonnes sont représentés dans les plans de projection
formés par les axes factoriels pris deux a deux. La lecture de ces graphiques nécessite des
règles d'interprétation.
En AFC, on a vu que l'inertie totale du nuage des profil-lignes est égale a l'inertie totale du
En AFC, il y a au plus r = min(q-1;m-1) valeurs propres non nulles et l'inertie totale vaut
Chaque composante principale explique donc une partie de l'inertie mesurée par :
qui s'interprète comme : le pourcentage de l'inertie totale expliquée par l'axe et la part de la
liaison entre deux variables expliquée par cet axe. 18
Les valeurs propres quantifient la part de l'information expliquée par les déférents axes.
C'est à partir des valeurs propres que l'on peut décider du nombre d'axes que l'on va
conserver et sur lesquels on va projeter le nuage de lignes et le nuage de colonnes. Les
valeurs propres sont comprises entre 0 et l et expriment la part de variation du nuage des
points expliquée par l'axe correspondant.
En pratique : On peut d'abord réaliser un test du χ2 pour conclure ou non à l'indépendance
entre deux variables X1 et X2. On ne réalisera a priori une AFC que si l'on conclue que X1 et
X2 ne sont pas indépendantes.
pour savoir combien d'axes retenir, On peut utiliser le pourcentage d'inertie expliquée par les k
premiers axes et choisir le nombre k d'axes tel que cette inertie expliquée dépasse un certain
seuil (75% par exemple). (les valeurs propres sont toujours inferieures ou égales a 1)
Plus la valeur propre est proche de 1, plus les profils des points représentés dans l'axe sont
différents et plus la part de l'information expliquée par l'axe est importante.
Plus la valeur propre est proche de 0, plus les profils des points sont semblables et moins
l'information expliquée par l'axe est importante.
Le pourcentage d'inertie est la part de l'information représentée par chaque axe. Autrement
dit, elle donne le pourcentage de la variance expliquée par l'axe ou la composante que l'AFC a
calculée. Plus cette valeur est importante, plus elle rend compte du pouvoir explicatif des
données par l'axe.
19
Croisement de 2 variables – Tableau de contingence
Pourquoi croiser? L’une des variables peut emmener de l’information sur l’autre (Ex.
influence de la CSP sur les choix de filières).
20
Notations – Tableau de contingence
P(Cadre.Sup) = 1825 / 3784 = 48.2% Proportion des enfants de « Cadre Sup. » parmi les
enquêtés
P(Médecine) = 1411 / 3784 = 37.3 % Proportion des enquêtés ayant choisi la filière
«Médecine »
P(Médecine & Cadre.Sup) = 876 / 3784 = 23.2% Proportion des personnes « ayant choisi
‘Médecine’ ET qui sont enfants de ‘Cadre.sup’ » (idée de concomitance, association)
P(Médecine / Cadre.Sup) = 876 / 1825 = 48.0% Proportion des personnes « ayant choisi
‘Médecine’ SACHANT QU’ils sont enfants de ‘Cadre.Sup’ » (idée de causalité) 21
L’AFC s’intéresse plus particulièrement aux effectifs marginaux des tableaux que l’on
appelle profils. Le tableau de contingence peut être alors transformé selon deux autres
tableaux appelés tableaux de profils.
Les calculs des composantes ou axes se font à partir des profils en lignes et des profils en
colonnes. Pour ces calculs, l'AFC utilise les khi-deux pour rendre compte de la
ressemblance entre deux lignes ou deux colonnes. L'AFC fait ces calculs pour toutes les
lignes et toutes les colonnes entre elles
22
Profils lignes – Distance entre profils ( Distance du KHI-2)
Question : Globalement, les enfants de « cadre sup. » et « d’ouvrier » font-ils les mêmes
choix? Et les enfants de «patron» et de « cadre sup.» ?
Les choix de filières des enfants de patrons sont plus proches (similaires) de ceux des cadres
sup. qu’ils ne le sont de ceux des enfants d’ouvriers. 23
Distance à l’origine (distance au profil « moyen »)
24
Distance à l’origine et distance entre profils
25
INERTIE = DISTO x Poids de la modalité
26
27
Profils colonnes – Distance entre profils
29
30
Indépendance - KHI-2 d’écart à l’indépendance
la forme du test du Khi² dans lequel on confronte les effectifs observés avec les effectifs
théoriques.
31
Contribution au χ2 : c’est le terme qui permet de mettre en évidence les
On rejette H0 (et l’on conclut au caractère significatif de la liaison) si χ2 dépasse une valeur
particulière (valeur ayant une probabilité faible et fixée a priori – en général 0,05 –).
32
Dans cette quantité du Khi², on peut mettre n en facteur et faire apparaître la quantité n Phi². Le Phi², lui,
confronte les probabilités observées et les probabilités théoriques ; c'est donc un indicateur d'intensité
de la liaison ; c'est l'écart entre probabilité observée et probabilité théorique. Pourquoi intensité de la
33
liaison ? Parce que ce terme ne dépend pas de l'effectif mais uniquement des probabilités.
34
35
36
Analyse du tableau – Questions
1.Quelles sont les CSP qui font les mêmes choix de filières ?
2.Quelles sont les filières qui ont des structures de CSP proches ?
3.Quelle CSP est attirée par quelle filière ? Quelle filière est attractive pour quelle
CSP ?
On souhaite obtenir une vision à la fois globale et synthétique. Idéalement une (des)
représentation(s) graphique(s).
37
38
39
40
Le rapprochement des coordonnées des modalités lignes / colonnes est permis grâce à
cette relation.
41
42
43
44
45
46
47
48
49
50
Sur le graphe, on regarde les proximités entre les points lignes puis entre les points colonnes .
Quand on constate des proximités entre lignes et colonnes, on vérifie que leurs données dans le
tableau des coordonnées soient bonnes (bonnes contributions relatives et bons cosinus carrés).
51
52
53
54
55
Association « Médias » - « Professions »