Analyse Factorielle

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 58

CH 3

Analyse Factorielle des


Correspondances (AFC)

1
Introduction
L’analyse factorielle des correspondances (AFC), ou analyse des correspondances
simples, est une méthode exploratoire d’analyse des tableaux de contingence. Elle a
été développée par J.-P. Benzecri durant la période 1970-1990.

L’AFC considérée comme une ACP particulière dotée de la métrique du χ2 (Khi-2) qui
ne dépend que du profil des colonnes du tableau. L’analyse permet, dans le plan des
deux premiers axes factoriels, une représentation simultanée des ressemblances
entre les colonnes ou les lignes du tableau et de la proximité entre lignes et colonnes.

Etudier sur N individus les "liaisons" entre deux variables X et Y. Chaque variable
détermine deux partitions de l’ensemble des individus selon les modalités

On note I l’ensemble des modalités de la variable X et J celui des modalités de Y.

Le cardinal de I est noté n et celui de J est noté m. Pour chercher les liaisons entre X
et Y nous allons croiser les deux partitions pour obtenir un tableau de contingence
indexé par I et J.

Dans la case associée à la i-ème ligne et à la j-ème colonne on écrit l’effectif des
individus ayant la i-ème modalité pour la variable X et la j-ème modalité pour la
variable Y, celui-ci est noté kij .
2
Les analyses factorielles constituent la plupart des analyses de données. Elles sont
fondées sur un principe unique, c'est pour cela que nous pouvons parler de l'analyse
factorielle. Ce principe repose sur le fait que les deux nuages de points représentant
respectivement les lignes et les colonnes du tableau étudié sont construits et
représentés sur des graphiques. Ces représentations des lignes et des colonnes
fortement liées entre elles permettent une analyse plus aisée pour l'opérateur.

L'AFC conçue pour les tableaux de contingence (i.e. fréquences), peut être appliquée
aux tableaux de mesures homogènes (i.e. même système d'unités), aux tableaux de
notes, de rangs, de préférences, aux tableaux à valeurs logiques (0 ou 1), et encore
aux tableaux issus de questionnaires d'enquêtes.

Les objectifs
Les analyses factorielles tentent de répondre à la question :
Tenant compte des ressemblances des individus et des liaisons entre variables, est-
il possible de résumer toutes les données par un nombre restreint de valeurs sans
perte d'information importante ?
En effet en cherchant à réduire le nombre de variables décrivant les données, la
quantité d'information ne peut être que réduite, au mieux maintenue. La motivation
de cette réduction du nombre de valeurs vient du fait que des valeurs peu
nombreuses sont plus faciles à représenter géométriquement et graphiquement (un
des objectifs de l'analyse de données). 3
L’AFC vise à analyser ce type de tableaux en apportant des réponses à des
questions telles que :

 Y a-t-il des lignes du tableau (modalités de X) qui se "ressemblent", c’est-à-dire


telles que les distributions des modalités de Y soient analogues ?
 Y a-t-il des lignes du tableau (modalités de X) qui s’opposent, c’est-à-dire telles
que les distributions des modalités de Y soient très différentes ?
 Mêmes questions pour les colonnes du tableau.
 Y a-t-il des associations modalité de X - modalité de Y qui s’attirent (effectif
conjoint particulièrement élevé) ou qui se repoussent (effectif conjoint
particulièrement faible) ?

La méthode se fixe également comme but de construire des représentations


graphiques mettant en évidence ces propriétés des données.

Exemple: Considérons l'ensemble des notes des élèves durant une année. Le nombre d'élèves est environ
de 450, et nous pouvons considérer qu'ils obtiennent environ 30 notes chacun. Ainsi le tableau représentant
l'ensemble des notes est constitué de 13 500 valeurs. La réduction présentée ci-dessus permet de réduire ce
nombre à 480 valeurs sans perte d'information si l'hypothèse est valide. Pour que l'hypothèse soit vérifiée,
il faudrait pouvoir déduire les notes de l'ensemble des élèves à partir de celles d'un seul élève et d'un
vecteur de pondération. Ceci signifie que les notes sont dépendantes les unes des autres ou encore très
fortement corrélées.
4
Principe de I 'Analyse des correspondances
Le principe de I'AFC est de réaliser une synthèse des données et de pouvoir représenter
l'organisation des ces données en un minimum de dimensions possibles. Il s'agit de faire une
réduction de I 'espace de représentation de ces données sur un nombre minimum de dimensions
qui sont censées bien représenter toutes ces données, sans trop de perte d'information après
réduction. On représente par des axes de projection cette configuration des données autour d'un
nombre réduit de dimensions, comme le fait un architecte qui réalise les plans d'une maison avec
I 'information minimale nécessaire à sa bonne représentation.
L'AFC recherche ces composantes principales ou axes pour les lignes et pour les colonnes. Elle
les représentera sous forme de graphe. Pour les lignes et pour les colonnes, I'AFC calcule un
premier axe qui donne une indication sur la proportion maximale de la variation totale des
individus qui est expliquée par I 'axe. Ensuite I'AFC recherche séparément pour les lignes et pour
les colonnes, une seconde composante qui représente une part de la variation qui n'est pas
expliquée par le premier axe. Cette seconde composante n'est pas corrélée avec la première et
représentera moins bien les données que la première composante. L'AFC calculera ainsi de suite,
séparément pour les lignes et pour les colonnes, tous les axes ou composantes nécessaires à la
représentation des données en lignes et des données en colonnes. dans leur totalité. L'AFC
donnera alors, pour les lignes et pour les colonnes, une représentation de la totalité de la variation
du nuage après I 'extraction de tous les composantes. L'AFC représentera sous formes de
représentations graphiques des projections du nuage des individus en lignes et des individus en
colonne sur les axes principaux. Les premiers axes représenteront le mieux le nuage de points.
Les suivants représenteront moins bien et ainsi de suite pour tous les axes qui seront calculé par
la suite. 5
Tableau de contingence
Soient X et Y deux variables qualitatives à r et s modalités respectivement décrivant
un ensemble de n individus.

Définition le tableau de contingence est une matrice à r lignes et s colonnes


renfermant les effectifs nij d’individus tels que X = xi et Y = yi

La constitution de ce tableau est ce que les praticiens des enquêtes appellent un


< tri croisé >

6
Marges et profils

Marge en ligne C’est la somme c’est-à-dire l’effectif total de la


modalité xi de X.

Marge en colonne C’est la somme c’est-à-dire l’effectif total de la


modalité yi de Y.

Moyenne: la moyenne des profils-lignes (avec poids correspondant aux effectifs


marginaux des lignes) est le profil marginal des colonnes:

et de même pour les colonnes


7
Rappelons que notre tableau de données est un tableau de contingence N a r lignes et c
colonnes.
Si on note Dr et Dc les matrices diagonales des effectifs marginaux des variables X et Y :

les tableaux des profils lignes et des profils-colonnes s‘écrivent

Indépendance empirique: lorsque tous les profils lignes sont identiques, il y a indépendance
entre X et Y, puisque la connaissance de X ne change pas la répartition de Y.

On a pour tout j

et donc

8
Comme en ACP, on s’intéresse alors aux directions de "plus grande dispersion" de chacun
de ces nuages de points, mais on utilise la distance chi2 (χ2) entre ces deux variables (à la
place de la distance euclidienne). Cette distance permet de comparer l’effectif de chacune
des cellules du tableau de contingence à la valeur qu’elle aurait si les deux variables étaient
indépendantes.

aussi notée χ2

Eij l’effectif attendu sous l’hypothèse d’indépendance;

Plus la distance dχ2 (N;E) est grande, plus le tableau observé est éloigné du tableau attendu
sous l’hypothèse d’indépendance

On appelle résidus standardisés, les variables:

9
Pour chaque case (i; j) du tableau, il est important d‘étudier sa contribution à χ2 :

Définition: On appelle nuage des profils-lignes Mr, l'ensemble des r points Li de Rc


munis de leurs poids fi.
Le centre de gravite gr du nuage Mr (profil-moyen des lignes) a pour coordonnées:

Définition: On appelle nuage des profils-colonnes Mc, l'ensemble des c points Cj de Rr


munis de leurs poids f.j
Le centre de gravite gc du nuage Mc (profil-moyen des colonnes) a pour coordonnées :

10
La distance choisie entre deux profils-lignes Li et Li’ est la métrique du chi2 définie par :

De façon symétrique, on définit la distance entre deux profils-colonnes Cj et Cj’ par:

Inertie:
On appelle, en AFC, moment total d’inertie (Mt) du nuage des N individus dans l’espace Rn
la somme pondérée des carrés des distances des points du nuage à leur centre de gravité

Inertie associée au nuage des profils-lignes :

χ2

De la même façon, Inertie associée au nuage des profils-colonne : χ2 11


l’AFC est une double ACP : ACP des profils ligne et ACP des profils colonne.

ACP des profils-lignes

Recherche des valeurs propres de:

1. L se diagonalise dans une base orthonormée (pour la métrique du chi2).


2. gr est vecteur propre de L associe à la valeur propre 1.
3. Les autres vecteurs propres sont orthogonaux à gr.

Composantes principales

12
ACP des profils-colonnes
Cette fois, la matrice à diagonaliser est

Relations de transition
Les composantes principales des profils-lignes et celles des profils-colonnes sont reliées par
des formules simples dont un des intérêts principaux est d‘éviter deux diagonalisations. On
diagonalisera la matrice de plus petite dimension.
On peut montrer que les matrices L et C ont mêmes valeurs propres non nulles λk. Leurs
13
vecteurs propres sont reliés par les relations suivantes:
Théorème: Soit p = rang(L) = rang(C). Pour tout k ≤ p, il existe une relation dite de
transition, entre les vecteurs propres uk et vk

Ce résultat conduit aux relations fondamentales de l'AFC reliant les composantes


principales entre elles, dites les relations quasi-barycentriques.

Théorème: Soit p = rang(L) = rang(C). Pour tout k ≤ p,

Formules de reconstitution
Comme en ACP on dispose de formules dites de reconstitution permettant de récupérer le
tableau N a partir des composantes principales c et č. Pour tout i ≤ r et tout j ≤ c, on a :

Les composants principales et les valeurs propres expliquent donc en quoi les nij s‘écartent des

14
Aides à l'interprétation
Deux types de coefficients apportent de l'information intéressante pour l'interprétation des plans
factoriels.
 Contribution relative : elle exprime la part prise par une modalité de la variable dans l'inertie
"expliquée " par un facteur.

 Cosinus carré : il mesure la qualité de la représentation de la modalité sur le facteur.

Contribution relative d'une modalité a l'inertie de l'axe k :

 Contribution relative du profil-ligne Li au k-ième axe (de vecteur uk):

 Contribution relative du profil-colonne Cj au k-ième axe (de vecteur vk):

Ce coefficient permet de connaître les modalités responsables de la construction de l'axe , et


permet de trouver une éventuelle signification aux axes.
Qualité de représentation sur l'axe k :

 Qualité de la représentation du profil-ligne Li sur le k-ième axe (de vecteur uk) :

cosinus carré de l'angle entre le profil-ligne Li et l'axe


15
est la distance du χ2 entre le profil-ligne Li et le profil ligne moyen c.
 Qualité de la représentation du profil-colonne Cj sur le k-ième axe (de vecteur vk):

on calcule le cosinus carré de l'angle entre le profil-colonne et l'axe G pour mesurer la qualité
de la projection de ce profil sur cet axe :

est la distance du χ2 entre le profil-ligne ci et le profil colonne moyen r.

Pour analyser les proximités entre les points sur les graphiques factoriels, on s'intéresse
surtout aux points bien projetés (ayant un cos2 élevé) car les proximités entre ces points
observée sur le graphique est proche de celle dans l'espace d'origine.

16
Les points supplémentaires ou points inactifs
Comme en ACP, il peut arriver qu’un (ou plusieurs) points individus et/ou variables se
situent en dehors ou éloigné des autres points. Cela signifie qu’il possède dans le tableau de
départ un profil tout à fait spécifique.
Sa (ou ses)positions dans le plan factoriel étant isolée, elle empêche une étude précise des
proximités des autres points projetés.
Il est recommandé dans ce cas de rendre ce (ou ces) points inactifs (on le met en
supplémentaire), ce qui revient à réaliser l’AFC du tableau de départ en éliminant la ligne
ou la colonne qui représente cet individu (ou cette variable).
Ce point possède cependant dans l’espace, des coordonnées, et même s’il ne participe pas à
l’AFC, il est alors possible de calculer ses nouvelles coordonnées dans l’espace. On peut
donc représenter sur un plan factoriel, ce ou ces points rendus inactifs
Les points supplémentaires sont des profils qui n'entrent pas dans la construction des axes
mais qui sont représentés dans les plans factoriels. Leur position est interprétée en terme de
quasi-barycentre.
Si on dispose par exemple d'une modalité supplémentaire l0 de la variable X, on peut
calculer la coordonnée du profil-ligne correspondant l0 sur l'axe k en utilisant les formules
quasi-barycentriques :

D'autre part on peut également évaluer la qualité de représentation des points supplémentaires
sur l'axe k par le calcul du cos carré. 17
Interprétation des résultats d'une AFC

Les nuages des profil-lignes et des profil-colonnes sont représentés dans les plans de projection
formés par les axes factoriels pris deux a deux. La lecture de ces graphiques nécessite des
règles d'interprétation.

Inertie et test d'indépendance

En AFC, on a vu que l'inertie totale du nuage des profil-lignes est égale a l'inertie totale du

nuage des profil-colonnes


La valeur de l'inertie est donc un indicateur de la dispersion des nuages de points et une
mesure de liaison entre les deux variables qualitatives encore appelée mesure d‘écart à
l'indépendance.

En AFC, il y a au plus r = min(q-1;m-1) valeurs propres non nulles et l'inertie totale vaut

Chaque composante principale explique donc une partie de l'inertie mesurée par :

qui s'interprète comme : le pourcentage de l'inertie totale expliquée par l'axe et la part de la
liaison entre deux variables expliquée par cet axe. 18
Les valeurs propres quantifient la part de l'information expliquée par les déférents axes.
C'est à partir des valeurs propres que l'on peut décider du nombre d'axes que l'on va
conserver et sur lesquels on va projeter le nuage de lignes et le nuage de colonnes. Les
valeurs propres sont comprises entre 0 et l et expriment la part de variation du nuage des
points expliquée par l'axe correspondant.
En pratique : On peut d'abord réaliser un test du χ2 pour conclure ou non à l'indépendance
entre deux variables X1 et X2. On ne réalisera a priori une AFC que si l'on conclue que X1 et
X2 ne sont pas indépendantes.
pour savoir combien d'axes retenir, On peut utiliser le pourcentage d'inertie expliquée par les k
premiers axes et choisir le nombre k d'axes tel que cette inertie expliquée dépasse un certain
seuil (75% par exemple). (les valeurs propres sont toujours inferieures ou égales a 1)

Plus la valeur propre est proche de 1, plus les profils des points représentés dans l'axe sont
différents et plus la part de l'information expliquée par l'axe est importante.
Plus la valeur propre est proche de 0, plus les profils des points sont semblables et moins
l'information expliquée par l'axe est importante.

Le pourcentage d'inertie est la part de l'information représentée par chaque axe. Autrement
dit, elle donne le pourcentage de la variance expliquée par l'axe ou la composante que l'AFC a
calculée. Plus cette valeur est importante, plus elle rend compte du pouvoir explicatif des
données par l'axe.
19
Croisement de 2 variables – Tableau de contingence

Origine sociale (CSP parents) vs. Choix d’études à l’Université

Pourquoi croiser? L’une des variables peut emmener de l’information sur l’autre (Ex.
influence de la CSP sur les choix de filières).

Quelques questions simples pour caractériser la relation:


1. Structure des filières choisies selon la CSP (profils lignes).
2. Différences/ressemblances des structures de choix selon les CSP (distance)
3. Idem – Structure des CSP des parents selon les filières (profils colonnes)
4. Associations entre CSP et FILIERES : Qui choisit quoi ? Quoi est choisi par qui ?

20
Notations – Tableau de contingence

P(Cadre.Sup) = 1825 / 3784 = 48.2%  Proportion des enfants de « Cadre Sup. » parmi les
enquêtés

P(Médecine) = 1411 / 3784 = 37.3 %  Proportion des enquêtés ayant choisi la filière
«Médecine »

P(Médecine & Cadre.Sup) = 876 / 3784 = 23.2%  Proportion des personnes « ayant choisi
‘Médecine’ ET qui sont enfants de ‘Cadre.sup’ » (idée de concomitance, association)

P(Médecine / Cadre.Sup) = 876 / 1825 = 48.0%  Proportion des personnes « ayant choisi
‘Médecine’ SACHANT QU’ils sont enfants de ‘Cadre.Sup’ » (idée de causalité) 21
L’AFC s’intéresse plus particulièrement aux effectifs marginaux des tableaux que l’on
appelle profils. Le tableau de contingence peut être alors transformé selon deux autres
tableaux appelés tableaux de profils.

Les calculs des composantes ou axes se font à partir des profils en lignes et des profils en
colonnes. Pour ces calculs, l'AFC utilise les khi-deux pour rendre compte de la
ressemblance entre deux lignes ou deux colonnes. L'AFC fait ces calculs pour toutes les
lignes et toutes les colonnes entre elles

22
Profils lignes – Distance entre profils ( Distance du KHI-2)

P(Sciences) = 962 / 3784 = 25.4%


P(Sciences / Cadre sup) = 400 / 1825 = 21.9%
P(Sciences / Ouvrier) = 193 / 615 = 31.4%

on peut dire que 26,5% des enfants des


agriculteurs choisissent le droit.

Question : Globalement, les enfants de « cadre sup. » et « d’ouvrier » font-ils les mêmes
choix? Et les enfants de «patron» et de « cadre sup.» ?

Les choix de filières des enfants de patrons sont plus proches (similaires) de ceux des cadres
sup. qu’ils ne le sont de ceux des enfants d’ouvriers. 23
Distance à l’origine (distance au profil « moyen »)

24
Distance à l’origine et distance entre profils

Analyse globale: positionnement par rapport à


la moyenne.
Les enfants d’ouvriers et d’exploitants agricoles
présentent les structures de choix (les profils) les
plus « différents » de l’ensemble des étudiants.

Analyse approfondie: positionnement (distance) deux à deux. Les enfants d’ouvriers


et d’exploitants agricoles présentent des structures de choix très proches. En revanche,
cadre sup se démarque fortement de ces deux CSP.

25
INERTIE = DISTO x Poids de la modalité

26
27
Profils colonnes – Distance entre profils

P(Cadre sup) = 48.2%


P(Cadre sup / Droit) = 45.7%
P(Cadre sup / IUT) = 20.7%
on affirme que 7,8% des enfants qui choisissent
le droit sont de parents agriculteurs.

Question : Dans les filières, a-t-on les mêmes structures de CSP ?

Le profil sociologique des étudiants en « droit » est plus proche de ceux en


28
«sciences» qu’en « médecine ».
Distance à l’origine et inertie

29
30
Indépendance - KHI-2 d’écart à l’indépendance

la forme du test du Khi² dans lequel on confronte les effectifs observés avec les effectifs
théoriques.
31
Contribution au χ2 : c’est le terme qui permet de mettre en évidence les

associations significatives entre catégories de deux variables.

On rejette H0 (et l’on conclut au caractère significatif de la liaison) si χ2 dépasse une valeur
particulière (valeur ayant une probabilité faible et fixée a priori – en général 0,05 –).
32
Dans cette quantité du Khi², on peut mettre n en facteur et faire apparaître la quantité n Phi². Le Phi², lui,
confronte les probabilités observées et les probabilités théoriques ; c'est donc un indicateur d'intensité
de la liaison ; c'est l'écart entre probabilité observée et probabilité théorique. Pourquoi intensité de la
33
liaison ? Parce que ce terme ne dépend pas de l'effectif mais uniquement des probabilités.
34
35
36
Analyse du tableau – Questions

1.Quelles sont les CSP qui font les mêmes choix de filières ?
2.Quelles sont les filières qui ont des structures de CSP proches ?
3.Quelle CSP est attirée par quelle filière ? Quelle filière est attractive pour quelle
CSP ?
On souhaite obtenir une vision à la fois globale et synthétique. Idéalement une (des)
représentation(s) graphique(s).

37
38
39
40
Le rapprochement des coordonnées des modalités lignes / colonnes est permis grâce à
cette relation.

41
42
43
44
45
46
47
48
49
50
Sur le graphe, on regarde les proximités entre les points lignes puis entre les points colonnes .
Quand on constate des proximités entre lignes et colonnes, on vérifie que leurs données dans le
tableau des coordonnées soient bonnes (bonnes contributions relatives et bons cosinus carrés).
51
52
53
54
55
Association « Médias » - « Professions »

Va jouer un rôle (trop ?) important 56


57
58

Vous aimerez peut-être aussi