Support Analyse Données V2017
Support Analyse Données V2017
Support Analyse Données V2017
DES DONNEES
SUPPORT DE COURS
Inspiré de : KEHO Yaya, Analyse factorielle des données, Note pédagogique, décembre 2004
Statistiques et Analyse des Données, Note pédagogique, janvier 2005.
SOMMAIRE
SOMMAIRE....................................................................................................................................1
Chap I. INTRODUCTION GENERALE.....................................................................................2
I.1. Place de l’Analyse des Données et des Méthodes Statistiques dans la vie courante..............2
I.2. De la Statistique Univariée et bivariée à la statistique descriptive multidimensionnelle........2
I.3. Les Différentes Usages de l’Analyse des données..................................................................3
I.4. Les Différentes Méthodes d’Analyse des Données Multidimensionnelles à aborder.............3
Chap II. ANALYSE FACTORIELLE D’UN NUAGE DE POINTS.........................................5
II.1. Définitions Générales............................................................................................................5
II.2. Notion de projection, de facteur et de composantes principales............................................9
II.3 Aides à l’interprétation.........................................................................................................11
Chap. III. ANALYSE EN COMPOSANTES PRINCIPALES (ACP).....................................14
III.1. Objet et principe de l’ACP.................................................................................................14
III.3. Règles et démarche pour l’interprétation des résultats d’une ACP....................................15
III.4. Exemple d’application........................................................................................................16
Chap IV. ANALYSE FACTORIELLE DES CORRESPONDANCES SIMPLES (AFC).....20
IV.1. Objet et Description de la méthode....................................................................................20
IV.2. Réalisation, Règles et démarche d’interprétation d’une AFC............................................21
IV.3. Exemple d’AFC..................................................................................................................22
Chap V. ANALYSE FACTORIELLE DES CORRESPONDANCES MULTIPLES (ACM)24
V.1. Objet et Description de la méthode.....................................................................................24
V.2. Règles et démarche pour l’Interprétation d’une ACM........................................................24
V.3. Exemple d’ACM..................................................................................................................26
Chap VI. INTRODUCTION A LA CLASSIFICATION AUTOMATIQUE..........................28
VI.1. Objet et méthodes de classification....................................................................................28
VI.2. Etapes pour la réalisation d’une classification sur facteurs................................................28
VI.3. Caractérisation des classes.................................................................................................29
VI.4 Démarche pour l’interprétation d’une CAH........................................................................30
VI.5. Exemples d’applications....................................................................................................30
Mai 2011
Par exemple, dans une enquête d’opinion sur un produit, il serait instructif de mettre en
relations les appréciations des consommateurs (prix, goût, aspect, forme parfum, …) avec
certaines caractéristiques de ceux-ci (revenu, âge, sexe, religion, catégorie socioprofessionnelle,
…). L’analyse descriptive univariée, malgré sa pertinence, ne permet pas de répondre à ce besoin.
Et c’est là qu’interviennent les méthodes d’analyse des données multidimensionnelles.
L’intérêt principal de ces méthodes est d’analyser les données en tenant compte de leur
caractère multidimensionnel. Elles fournissent un résumé descriptif d’un vaste ensemble de
données à partir de représentations graphiques. Ces représentations permettent de déceler les
aspects structurels importants tels que les ressemblances, les liaisons, les combinaisons que de
simples calculs ne sauraient mettre en évidence. Ces méthodes permettent encore de décrire, soit
une variable à partir de plusieurs autres, soit les différences entre des individus à partir des
variables qui les décrivent.
Remarque : Les méthodes d’analyse des données sont descriptives et non explicatives.
Elles ne sauraient donc être utilisées pour déduire des lois (comme des causalités). Elles peuvent à
la limite aider à la formulation d’hypothèses.
I.3. Les Différentes Usages de l’Analyse des données
i. Réduction de la dimension ;
ii. Segmentation de la clientèle ;
iii. Construction d’indicateurs ;
iv. Analyse des correspondances ;
v. Recherche de pondération des variables ;
vi. Etablissement des profils ;
Etc.
1
Ce terme sera défini plus loin.
peut toutefois y introduire des variables qualitatives (et même d’autres variables
quantitatives) à titre illustratif ;
ii) La méthode dite AFC (Analyse Factorielle des Correspondances simples) qui s’utilise
lorsque l’on s’intéresse aux correspondances entre deux variables qualitatives. Cette
méthode permet en outre d’analyser la liaison entre deux caractères qualitatifs (par un
test du χ²).
iii) La méthode dite ACM (Analyse factorielle des Correspondances Multiples) qui est
adaptée lorsqu’on étudie les correspondances entre plus de deux variables qualitatives.
Comme dans le cas de l’ACP, il est possible d’y introduire des variables quantitatives
(et même d’autres variables qualitatives) à titre illustratif ;
Ces trois méthodes descriptives peuvent être complétées par une classification qui permet
de répartir les individus en groupes homogènes.
Sur le plan théorique, l’ACP est la méthode de base de l’analyse factorielle, car sa
compréhension facilite celle des autres méthodes. Mais sur un plan pratique, l’ACM présente un
grand intérêt et des performances supérieures. Puisqu’elle permet d’analyser un tableau de
données de toutes natures. Il suffira seulement de faire des regroupements en classes pour chaque
variable quantitative à prendre en compte dans l’analyse et elles pourront alors être utilisées
comme des variables qualitatives.
L’analyse des résultats et leur interprétation nécessitent aussi une bonne connaissance du
contexte d’étude et du sens des variables. Cette connaissance nous aidera par ailleurs dans le
choix des méthodes et dans la sélection des variables à introduire (parmi un vaste ensemble de
variables). Il convient donc de toujours se poser les questions suivantes :
- Pourquoi les données ont-elles été collectées ?
- Quelle est la nature de celles-ci ?
- Qui sont les individus statistiques ?
- Quelle(s) méthode(s) pertinente(s) pour ces données ?
Pour toutes les applications informatiques, nous utiliserons le logiciel Spad, qui est le
logiciel par excellence de l’analyse des données. On peut toutefois aussi utiliser Stata, et même
quelque peu SPSS.
A la fin du cours, l’étudiant doit être à mesure de savoir traduire une problématique, en
identifiant la technique appropriée, et en l’appliquant (à l’aide de l’outil informatique). Il doit en
outre savoir interpréter les résultats.
2
Cette notion est définie en fin de chapitre en II.3. e.
(1)
Entre deux points variables (dans le nuage dual) l’association (ou liaison) se mesure par à
l’aide du coefficient de corrélation linéaire. Pour deux variables Xj et Xl, on a :
Nous verrons plus loin que ce coefficient n’est rien d’autre que le cosinus de l’angle formé
par les deux vecteurs variables. Géométriquement, la corrélation renseigne sur l’angle formé par
ces variables, considérés comme des vecteurs.
d) Notion de centre de gravité
Au nuage direct, on associe le centre de gravité g dont les coordonnées sont les moyennes
des différentes variables :
(5)
(6)
L’inertie est égale à la somme des variances de toutes les variables. On démontre ainsi que
l’inertie correspond à la notion statistique de « variance ». L’inertie peut donc être comprise
comme la dispersion (ou l’étalement) totale du nuage autour de son centre de gravité qui est
l’individu moyen.
Puisque l’information à résumer dans le nuage de points se traduit par les proximités, soit
la dispersion, l’inertie est donc la mesure de l’information totale contenue dans le nuage et que
nous cherchons à traduire et à résumer.
f) Notions de variable centrée et de variable réduite
Centrer une variable Xj c’est simplement soustraire la moyenne de la variable de chaque
valeur prise par un individu, c'est-à-dire faire la transformation : .
Réduire une variable Xj c’est diviser chaque valeur prise par un individu pour la variable
par l’écart type de la variable. Soit faire la transformation : .
Lorsqu'une variable est à la fois centrée et réduite, chaque valeur est transformée par la
formule suivante : .
g) Remarques et propriétés
Dans la pratique, il est souvent préférable de travailler sur des données indépendantes des
unités de mesure et des échelles de grandeurs. Ceci afin de s’affranchir de leurs influences dans
les calculs. Cela se résout en considérant les variables centrées et réduites plutôt que les variables
brutes. Le fait de centrer et/ou réduire une variable apporte quelques simplifications intéressantes :
i) La moyenne d’une variable centrée est nulle. Par conséquent, lorsque toutes les
variables sont centrées, le centre de gravité (qui est l’individu moyen) se confond avec
l’origine : g(0, 0, … , 0). Ainsi, la distance d’un point individu par rapport à l’origine
(DISTO3) représente son écart par rapport à l’individu moyen.
ii) La variance (et donc l’écart type) d’une variable réduite est égale à l’unité. Par
conséquent, lorsque toutes les variables sont réduites, l’inertie totale du nuage est égale
2
au nombre P de variables.
iii) Une variable centrée et réduite est donc de moyenne nulle et d’écart type égal à l’unité.
En outre, si toutes les variables sont centrées et réduites, les variables ont la même
importance, (même part 1/P d’inertie). Pour des considérations mathématiques, on
attribut alors à chaque point individu un poids (masse) égale à la racine carré de 1/N.
Ainsi, la distance d’un point variable par rapport à l’origine (point moyen) est égale à
son écart type, donc à l’unité.
3
Voir II.3. b.
h) Exemple d’application
Soit le tableau suivant présentant les caractéristiques des employés d’une entreprise :
Dépenses consommation (x Expérience prof.
individu Revenu (x 1000) Taille ménage
1000) (en années)
1 100 90 5 1
2 150 125 3 7
3 160 95 2 3
4 70 58 6 10
Travail demandé :
1) Déterminer le nuage direct
2) Calculer l’inertie de ce nuage par rapport au point moyen
3) Comparer les distances entre les couples d’individus (1 et 2) et (2 et 3)
4) Déterminer les variables centrées réduites
5) Calculer la variance de la variable revenu centrée réduite
6) Recalculer et comparer les nouvelles distances de la question 3.
7) Quels commentaires pouvez vous faire ?
Solution
1) N(I) = {(100 000, 90 000, 5, 1) ; (150 000, 125 000, 3, 7) ; (160 000, 95 000, 2, 3) ; (70
000, 58000, 6, 10)}.
2) L’inertie totale est la somme des variances. Nous présentons une méthode de calcul de la
variance d’une variable à au travers d’un tableau :
On calcule la somme des Xi et en divisant par Individu Revenu : X (x 1000) X² (x 1000 000)
N on obtient la moyenne (1). Puis, on calcule la 1 100 10000
sonne des Xi² que l’on divise aussi par N, on 2 150 22500
obtient la moyenne des carrées (2). La 3 160 25600
différence (2) – (1) nous donne la variance. Ci
4 70 4900
contre, nous avons un exemple illustratif avec
Somme 480 63000
la variable revenu.
Somme/N 120 (1) 15750 (2)
Le tableau suivant récapitule les résultats (moyennes et variances). L’inertie totale (somme
des variances) est de : I = 1350x106.
3) On trouve d(e1, e2) = 61 032 ; d(e2, e3) = 31 622. On constate que e1 est pratiquement à une
double distance de e2 que e3.
Dépenses de Expérience
Revenu (x Taille Taille Expéri.
Individu consommation prof. (en Revenu Dép. cons.
1000) ménage ménage prof.
(x 1000) années)
1 100 90 5 1 -0,4714 -0,0729 0,5477 -1,0543
2 150 125 3 7 0,7071 1,2029 -0,5477 0,4341
3 160 95 2 3 0,9428 0,1094 -1,0954 -0,5582
4 70 58 6 10 -1,1785 -1,2393 1,0954 1,1783
Moyenne 120 92 4 5,25 0 0 0 0
Ecart type 1800 752,666667 3,33333333 16,25 1 1 1 1
4) Le tableau qui précède présente les valeurs centrées réduites des différentes variables.
5) On observe que toutes les variances sont égales à 1.
6) Les nouvelles distances sont : d(e1, e2) = 2,477 ; d(e2, e3) = 1,83. Ici, e1 est à une distance
de e2 1,5 fois supérieure à celle de e3. on constate que le fait de centrer et réduire les
données modifie les rapports de distances. En fait, lorsque les variables ne sont pas
centrées et réduites, les rapports de distances sont grandement influencés par les variables
de grande échelle, ou qui ont des grandes valeurs.
(P1
(P2
La projection sur le plan P2 donne le plus d’informations, par rapport à la projection sur p 1
qui ne permet même pas de deviner l’objet réel.
b bx
ac ax xc
a’x x b’ x c’
Les projections a’ et c’ des points a et c gardent la distance réelle entre ces points. Par
contre, on a une proximité entre a’ et b’ qui est en fait fausse.
Une bonne projection doit donner des distances projetées aussi proches de la réalité que
possible, et présenter le maximum de points du (d’informations sur le) nuage. En d’autres termes,
l’espace (plan) de projection choisi doit donner une configuration des points en projections aussi
proche de la configuration réelle que possible. Il faut donc trouver un critère qui nous permet de
dire si oui ou non un espace donne des projections satisfaisantes.
Une projection est d’autant meilleure qu’elle donne le maximum d points distincts
tout en conservant au mieux les distances réelles.
Etant donné que la configuration fait référence à la disposition, donc aux distances et
proximités, c’est à dire encore à la dispersion, on retient comme critère d’appréciation (de
l’ajustement) l’inertie qui est la somme des variances (dispersions). Ainsi, le meilleur plan est
celui qui donne une représentation du nuage avec le plus grand étalement possible.
b) Inertie par rapport à une droite, un plan orthogonal
Définitions
On définit l’inertie par rapport à une droite comme l’inertie du nuage de points projetés sur
la droite. L’inertie par rapport à un plan orthogonal est la somme des inerties par rapport à deux
droites orthogonales qui engendrent ce plan.
c) Notions de facteur et de composantes principales
Le principe des méthodes d’analyse factorielle se résume finalement à la recherche des
droites passant par le point moyen (origine) et qui donnent une meilleure projection, soit un
meilleur étalement du nuage.
Algébriquement, on démontre que ces droites ont pour vecteurs directeurs, les vecteurs
propres associées aux valeurs propres de la matrice de corrélation C = X*X, où, rappelons le, X
est la matrice correspondant au tableau de données (actives). L’inertie totale est égale à la somme
des valeurs propres.
Définitions
Les droites déterminées sont appelées facteurs ou axes factoriels. Les projections des
points sur ces facteurs sont appelées composantes principales. Ce sont donc les coordonnées des
points sur les facteurs.
Les valeurs propres sont toutes positives. L’inertie du nuage, par rapport à la droite D
dirigée par le vecteur propre est exactement la valeur propre associée. On dit que est
l’inertie le long de l’axe.
Les valeurs propres sont ordonnées suivant l’ordre décroissant. Le rang et l’importance
d’un axe factoriel sont relatifs au rang de la valeur propre associée. Ainsi, le facteur le plus
important est associé à la 1ère, ou la plus grande valeur propre.
Un axe factoriel est en fait une combinaison linéaire des variables (actives). De sorte que
le principe des méthodes d’analyse factorielle peut encore se traduire comme la recherche des
combinaisons linéaires des variables qui maximisent l’inertie en projection. Leur nombre est égal
à P, le nombre de variables actives initiales.
Les axes factoriels sont deux à deux perpendiculaires. Deux axes factoriels engendrent un
plan factoriel. Le plan factoriel engendré par les deux premiers facteurs est appelé plan factoriel
principal. C’est le plan qui donne la plus grande dispersion (ou inertie).
d) Choix du nombre d’axes à retenir pour l’analyse
Chaque axe factoriel restitue une part de l’information (inertie) contenue dans le nuage de
points. Cette part est proportionnelle à la valeur propre λ associée, et est égale à λ/P (en %).
Il n’y aurait pas de gain à analyser tous les P axes factoriels. Il faut donc un critère qui
nous permette de résumer l’information dans le nuage à partir d’un nombre réduit d’axes.
- Le critère le plus simple stipule qu’il faut retenir pour l’analyse les premiers axes qui nous
donnent un cumul d’inertie compris entre 60% et 80%. (Comprendre en cela que nous
devons interpréter au moins 60% de l’inertie, même si on n’excède pas 80%).
Il existe d’autres critères de choix du nombre d’axes :
- Le critère de Kaiser qui suggère de retenir les axes dont les valeurs propres associées sont
supérieures à la moyenne (qui est 1 dans le cas de l’ACP, mais à calculer pour les
méthodes qualitatives). Rappelons que les variables (actives) étant centrées réduites,
chacune d’elles apportent une part 1/P d’information (inertie). Un facteur dont la valeur
propre est supérieure à 1 apporte donc une part d’information supérieure à la moyenne.
- Le critère du coude (ou de Cattle) se réfère à la forme dégressive des valeurs propres et
cherche à identifier les axes les plus riches en information. Les valeurs propres formant
une suite décroissante, cette règle cherche à détecter l’existence d’un coude ou d’un pallier
correspondant à une forte diminution relative de l’inertie. De façon visuelle, le coude se
situe sur un axe sur lequel l’écart absolu de la valeur propre associée par rapport à la
valeur propre directement inférieure est supérieure au même écart absolu par rapport à la
valeur propre directement supérieure.
On considère qu’au-delà du coude il n’y a plus « grand-chose » et on retient alors les axes
du plus important jusqu’à celui où se situe le coude.
Remarque : Aucun critère n’est parfait. En général, les premiers axes ne donnent que les
tendances globales, et même souvent des évidences. Les axes de rangs élevés révèlent parfois des
phénomènes très intéressants. En outre, il est parfois préférable de combiner les critères pour
identifier les axes pertinents.
Par exemple, si le COS2 d’un point sur un axe est égal à 1, alors ce
point est sur l’axe, et c’est révélateur d’une très bonne représentation sur
cet axe. Par contre, si le COS2 est égal à 0, alors ce point est situé sur une
direction orthogonale à l’axe, et ce point est très mal représenté par l’axe
et la projection sur l’axe se confondra avec l’origine.
Le COS2 mesure aussi la part d’originalité d’un point individu
expliqué par l’axe. Les individus bien représentés sur un axe sont bien
illustrés par cet axe, en ce sens que leur originalité, relativement à
l’individu moyen est bien traduite par cet axe, ou encore que
l’information initiale relative à ces individus est bien restituée par cet
axe. Par exemple, un COS2 = 0,85 sur un axe signifie que cet axe
explique 85% du comportement de l’individu.
Lorsque le COS est médiocre sur les axes, on calcule la qualité de
représentation (QLT) dans le plan. La QLT est la somme des COS2 sur
les deux axes du plan.
La somme des COS2 d’un point individu sur tous les axes est égale
à 1.
Pour les points variables
Le COS d’une variable sur un axe indique le degré de liaison entre
la variable et l’axe considéré.
Le fait que les variables soient centrées réduites apporte une
simplification à l’interprétation du nuage des variables.
D’une part, le COS2 d’une variable coïncide avec le carré de la
coordonnée factorielle (coordonnée du point sur le facteur ou axe). De ce
fait, une variable est d’autant bien représentée sur un axe que sa
coordonnée sur cet axe est proche de 1 ou de -1. Or chaque variable étant
réduite appartient à la sphère unité (en dimension n). Par conséquent, une
variable est bien représentée si elle est proche du cercle de corrélation
(projection de la sphère dans le plan). Cette dernière remarque permet de
repérer géométriquement les variables bien représentées, à partir de leur
position sur le graphique par rapport au cercle de corrélation.
D’autre part, la coordonnée d’une variable sur un axe représente la
corrélation de cette variable avec cet axe. Les variables bien représentées
sur un axe illustrent donc bien cet axe. Géométriquement, ce sont en fait
les variables qui forment un faible angle avec l’axe sur le graphique.
EFFECTIF TOTAL : 12
POIDS TOTAL : 12.00
+--------------------------------------
-----------------
+----------------------
+----------------------+
| NUM . IDEN - LIBELLE
EFFECTIF POIDS | MOYENNE ECART-
TYPE | MINIMUM MAXIMUM |
+--------------------------------------
-----------------
+----------------------
+----------------------+
| 1 . C2 - Revenu (x 1000)
12 12.00 | 91.25 44.49 |
35.00 160.00 |
| 2 . C3 - Dépenses (x 1000)
12 12.00 | 69.08 26.28 |
30.00 125.00 |
| 3 . C4 - Taille ménage
12 12.00 | 4.67 1.75 |
2.00 7.00 |
| 4 . C5 - Expérience Prof (en
12 12.00 | 5.25 3.44 |
1.00 12.00 |
+--------------------------------------
-----------------
+----------------------
+----------------------+
i) Commentaire du point moyen. Le logiciel donne les
statistiques élémentaires sur les variables. En moyenne,
un individu gagne 91 250F et dépense pour sa
Inspiré du support de cours de KEHO Yaya. 24
Support de cours d’Analyse des données TIOTSOP T. A. Blaise
La distance utilisée ici est la distance du khi deux, et l’inertie est proportionnelle au khi
deux : I = ²/N.
Tout le raisonnement s’effectue donc en termes de profils. La décomposition de cette
inertie (qui mesure donc la liaison) suivant les axes factoriels donne l’importance des différents
axes. Ainsi, l’inertie d’un axe factoriel (évaluée par la valeur propre) mesure la part de la liaison
qu’il représente. Deux variables sont indépendantes si les profils de leurs modalités sont
identiques au profil moyen. Deux modalités d’une même variable qui ont le même profil sont
semblables et seront confondus en projection sur les plans factoriels.
Les graphiques des nuages de points individus issus des deux ACP sur les profils sont
ensuite superposés en respectant les rangs des axes factoriels. C’est à dire que les plans factoriels
d’axes de même rang, issus des deux ACP sur chaque tableau de profils (lignes et colonnes), sont
superposés. C’est l’interprétation de ces superpositions qui permet de déceler les correspondances
et oppositions.
Le nombre d’axes factoriels est Min(P, Q) – 1.
IV.2. Réalisation, Règles et démarche d’interprétation d’une AFC
La démarche informatique pour réaliser une AFC reste semblable à celle de l’ACP, à la
différence que c’est la méthode « croisement des variables et correspondances simples » qui sera
choisie. Aussi, le paramétrage présente quelques différences. Au départ on dispose d’un tableau
de données individuelles, et on construit le tableau de contingence en indiquant les variables
(ligne et colonne).
Les éléments d’aides à l’interprétation sont les CTR et les COS2. Le fait qu’en AFC
chaque point (modalité) soit affecté d’un poids représentant sa fréquence marginale particularise
un peu l’interprétation. La contribution d’un point (en fait une modalité) « i » à l’inertie d’un axe
« » est CTR(i) = fi*F²(i)/, où fi est la fréquence marginale de l’individu « i », F(i) sa
coordonnée sur l’axe « » et la valeur propre de l’axe considéré.
Ainsi, la CTR d’un point dépend de son poids. Un point peut avoir une forte coordonnée
sur un axe sans pour autant contribuer fortement à l’inertie de celui ci. On dira qu’un point a
une forte contribution si sa CTR est particulièrement grande et excède son poids.
L’analyse pour l’interprétation pourra suivre les étapes suivantes :
i) Interpréter la répartition de la population par modalité de chaque variable, qui est donnée par la
statistique « P. Rél » (le poids réel).
ii) Interpréter le test du Khi deux ;
iii) Déterminer le nombre d’axes à retenir ;
iv) Identifier les points ayant de fortes CTR sur les axes. Ce sont eux qui fixent la position de
l’axe, et qui lui donnent une signification ou qui l’expliquent). Commenter alors les associations
et oppositions entre ces points. Ceux du même côté de l’axe (même signe de la coordonnée) sont
associés ou se correspondent. Et ceux ayant des signes contraires s’opposent ou se repoussent.
Cela donne aussi le sens des axes.
v) Déterminer les points bien représentés (bons COS2). Deux points (modalités) ayant des COS2
élevés et proches dans un plan factoriel sont effectivement proches (semblables ou associés) dans
la réalité. S’il s’agit de modalités du même caractère, cela signifie qu’elles ont des profils voisins,
et sont donc semblables. Mais si elles appartiennent à différents caractères, cela signifie qu’elles
sont associées, et contribuent à la liaison. Aussi, deux modalités des caractères qui sont opposées
manifestent ainsi leur répulsion réciproque. Toutefois, l’interprétation des positionnements
mutuels se fait en tenant compte de certaines propriétés des relations dites barycentriques qui
confèrent une certaine particularité à l’interprétation des AFC (et ACM).
Relations barycentriques
1) En projection sur un axe « », une modalité ligne « i » est placée au quasi-barycentre des
modalités colonnes « j » qui la possèdent. Inversement, une modalité colonne « j » est placée au
quasi-barycentre des modalités lignes « i » qui la possèdent.
2) Une modalité ligne « i » attire d’autant plus la modalité colonne « j » que la part de « i » est
grande dans « j ».
Ces propriétés permettent d’interpréter la représentation simultanée des deux nuages
(superposition). On peut ainsi interpréter la position d’une modalité ligne à partir des modalités
colonnes et inversement, et établir les correspondances et répulsions ou oppositions. Et là se situe
le principal intérêt de la représentation simultanée.
Mais les proximités peuvent conduire à des fausses interprétations, car la proximité d’une
modalité « i » de « j » peut être due à des attractions diverses. Par conséquent, le seul endroit où il
n’y a pas de risque d’erreur dans l’interprétation c’est le bord du nuage. Les résultats peuvent
alors être commentés directement en observant les graphiques. On commentera les modalités
situées au bord sans ambiguïté. Pour celles qui ne sont pas au bord, il est impératif, d’interpréter
avec beaucoup de précaution. S’il y risque de se tromper, il est préférable de ne pas les interpréter.
Par ailleurs, la méthode réalise le test du khi deux que nous pouvons commenter.
IV.3. Exemple d’AFC
Illustrons par un exemple par un exemple (pédagogique). Une entreprise commerciale
s’interroge sur les critères d’achat de son produit. Pour cela, elle a demandé à un échantillon de
207 personnes, ventilés en 4 groupes socioprofessionnels d’indiquer le critère qu’elles privilégient
parmi 4 proposés. Le tableau de contingence issu des données recueillies est le suivant :
catégorie socioprofessionnelle
Critère cadre commerçant employé ouvrier Total
aspect 16 20 12 12 60
parfum 17 15 6 7 45
prix 12 18 25 7 62
protection 10 14 8 8 40
Total 55 67 51 34 207
Notons que pour la réalisation de l’AFC sur Spad, on dispose au départ d’un tableau de
données individuelles, et on construit le tableau de contingence en indiquant les variables (ligne et
colonne) pendant le paramétrage.
Résultats
Le test du khi deux ci dessous nous permet de conclure qu’au seuil de risque de 5%, il
n’existe pas de liaison entre le critère d’appréciation et la catégorie socioprofessionnelle.
iii) Sur le premier axe, les modalités : employé, parfum et prix ont des CTR (contributions) qui
excèdent leur poids. Ce sont donc ces modalités qui ont fixé l’axe. Par observation des signes des
coordonnées de ces modalités sur l’axe 1, on constate une opposition entre ceux qui préfèrent le
parfum et ceux qui sont regardant sur les prix.
Sur l’axe 2, les modalités qui ont de fortes contributions (supérieures au poids) sont : parfum et
cadre.
iv) Les modalités : cadre, employé, commerçant ainsi que aspect, parfum et prix sont bien
représentés sur l’axe 1, et aucune modalité n’est bien représentée sur l’axe 2. Néanmoins, les
modalités : protection et ouvrier sont bien représentées dans le plan. Toutes les modalités sont
donc bien représentées dans le plan.
Mais comme signalé, le seul lieu où il n’y a pas de risque de fausses interprétations des attirances
et répulsions c’est au bord du nuage. Le graphique laisse voir que les cadres privilégient le
parfum, les employés sont regardants sur les prix, alors que les commerçants et ouvriers soit
l’aspect, soit les capacités protectrices du produit (barycentre).
- Deux modalités possédées par les mêmes individus sont confondues, et une modalité se situe au
quasi barycentre des individus et des modalités qui la possèdent ;
- Les modalités rares sont éloignées de toutes les autres modalités. En effet, on démontre que la
distance d’une modalité j au centre de gravité g 0 est (N/Nj)-1, où Nj est le nombre d’individus
présentant la modalité j . Ainsi, plus Nj est grand, plus le profil de la modalité ressemble au profil
moyen, et la modalité est proche du centre de gravité. Par contre, une modalité rare est éloigné du
centre de gravité, et a des fortes contributions, donc fixe les axes.
Pour le reste, on utilise les mêmes éléments d’aide à l’interprétation qu’en AFC : les CTR et les
COS2. Toutefois, les valeurs propres et les taux d’inerties n’ont pas la même interprétation
statistique. En effet, l’inertie totale d’une AFC sur tableau disjonctif complet n’est pas liée à la
structure intrinsèque du tableau, c’est à dire aux liaisons entre les variables. L’inertie dépend
uniquement du nombre de modalités et du nombre de variables actives. Du fait de la nature
disjonctive du tableau, les taux d’inertie sont très faibles et donnent une image pessimiste de
l’importance des facteurs. En outre, les valeurs propres tendent à décroître de façon régulière, ce
qui rend délicate l’étude de l’histogramme des valeurs propres.
Utilisation des contributions (CTR)
La CTR d’une modalité j est égale à CTR(j) = (1-N j/N)/P. les modalités à faibles
fréquences influencent donc le plus. Il est donc souhaitable, au moment de la codification, de
veiller autant que possible à ce qu’il n’y ait pas de modalités rares.
On démontre aussi que la contribution d’une variable est proportionnelle au nombre de ses
modalités. Par conséquent, si l’on souhaite que les variables aient à peu près la même importance
dans l’analyse, il est aussi préférable que chaque variable est à peu près le même nombre de
modalités. On repère les variables qui participent à la définition des axes à partir des modalités à
fortes contributions.
Utilisation des COS2
Il représente la qualité de représentation des points et permet de repérer les proximités
illusoires. Pour les individus et les modalités bien représentés, on a les interprétations suivantes :
Deux individus proches se ressemblent, c’est à dire qu’ils ont choisi les mêmes modalités ;
L’interprétation de la proximité entre modalités de différentes variables est un peu délicate ; on
peut simplement dire que les individus possédant l’une des modalités ont le même centre de
gravité que ceux possédant l’autre modalité.
L’analyse pour l’interprétation pourra suivre les étapes suivantes :
i) Interpréter la répartition par modalité de chaque variable, qui est donnée « Poids ».
ii) Déterminer le nombre d’axes à retenir ;
ii) Identifier les points ayant de fortes CTR sur les axes (même principe qu’en AFC) et donner le
sens des axes.
vi) Interpréter les plans factoriels. Dans la pratique on s’intéresse d’abord au premier plan
factoriel sur lequel on commente sans ambiguïté les correspondances et oppositions au
« bord » du nuage. Les proximités observées à « l’intérieur du nuage » (c'est-à-dire
hors du bord) doivent être confirmées sur plusieurs plans à interpréter. On parcourt
donc les autres plans factoriels en croisant (2 à 2) les axes retenus. A chaque fois, on
commente au bord uniquement les phénomènes nouveaux (non observés dans les plans
précédents), et on recherche la confirmation des proximités identifiées à l’intérieur du
nuage.
vii) former les groupes
L’histogramme des valeurs propres nous suggère de retenir quatre ou cinq premiers axes.
En effet, à l’axe 4, on a un cumul de 59,59% de l’inertie (ce qui statistiquement n’est pas différent
de 60%). Par ailleurs, on des coudes aux 2 ème (mais là on est loin de 60% d’inertie) et 5 ème axes (on
a dépassé 60%, ce qui n’est pas mauvais, au contraire). De plus, la valeur moyenne est (somme
des valeurs propres) / (nombre de valeurs propres), soit 2,5/10 = 0,25. Les axes dont les valeurs
propres sont supérieures à 0,25 sont donc importants. Ce qui conduit encore à retenir les 5
premiers axes. Finalement, il est préférable de retenir 5 axes, que l’on croisera 2 à 2.
Nous nous intéressons uniquement au plan factoriel principal comme exemple de
commentaires5. Les modalités ayant fortement contribué au positionnement des axes 1 et 2 sont
celles dont les contributions excèdent les poids. Elles expliquent ces axes. Sur l’axe 1, on a cadre,
employé, ouvrier, et toutes les variables de niveau de vie (sauf niveau moyen).
COORDONNEES, CONTRIBUTIONS ET COSINUS CARRES DES MODALITES ACTIVES
AXES 1 A 5
+------------------------------------------+-------------------------------+--------------------------+--------------------------+
| MODALITES | COORDONNEES | CONTRIBUTIONS | COSINUS CARRES |
|------------------------------------------+-------------------------------+--------------------------+--------------------------|
| IDEN - LIBELLE P.REL DISTO | 1 2 3 4 5 | 1 2 3 4 5 | 1 2 3 4 5 |
+------------------------------------------+-------------------------------+--------------------------+--------------------------+
| 1 . Critère |
| AA_1 - C2=aspect 7.25 2.45 | 0.20 0.39 0.13 0.01 -0.90 | 0.6 2.6 0.4 0.0 20.6 | 0.02 0.06 0.01 0.00 0.33 |
| AA_2 - C2=parfum 5.43 3.60 | -0.57 -0.19 -0.68 1.19 -0.31 | 3.8 0.5 8.1 26.3 1.9 | 0.09 0.01 0.13 0.39 0.03 |
| AA_3 - C2=prix 7.49 2.34 | 0.47 -0.19 -0.44 -0.96 0.42 | 3.4 0.6 4.8 23.7 4.7 | 0.09 0.02 0.08 0.39 0.08 |
| AA_4 - C2=protection 4.83 4.18 | -0.37 -0.08 1.25 0.13 1.04 | 1.4 0.1 24.6 0.3 18.6 | 0.03 0.00 0.37 0.00 0.26 |
+------------------------------------------+--------- CONTRIBUTION CUMULEE = 9.2 3.8 37.9 50.3 45.7 +--------------------------+
| 2 . sexe |
| AB_1 - C3=fem 9.90 1.52 | -0.36 -0.85 -0.43 0.27 -0.18 | 2.7 17.0 5.9 2.4 1.1 | 0.08 0.47 0.12 0.05 0.02 |
| AB_2 - C3=masc 15.10 0.66 | 0.23 0.55 0.28 -0.18 0.12 | 1.8 11.1 3.9 1.6 0.8 | 0.08 0.47 0.12 0.05 0.02 |
+------------------------------------------+--------- CONTRIBUTION CUMULEE = 4.4 28.1 9.8 4.1 1.9 +--------------------------+
| 3 . catégorie socio |
| AC_1 - C4=cadre 6.64 2.76 | -1.14 0.96 -0.31 -0.23 0.16 | 18.3 14.7 2.1 1.2 0.6 | 0.47 0.33 0.03 0.02 0.01 |
| AC_2 - C4=commercant 8.09 2.09 | -0.34 -0.96 0.44 -0.05 -0.51 | 2.0 18.0 5.2 0.1 7.3 | 0.05 0.45 0.09 0.00 0.12 |
| AC_3 - C4=employé 6.16 3.06 | 0.88 -0.35 -0.88 -0.20 0.75 | 10.1 1.8 15.6 0.8 12.4 | 0.25 0.04 0.25 0.01 0.19 |
| AC_4 - C4=ouvrier 4.11 5.09 | 1.19 0.87 0.95 0.77 -0.39 | 12.4 7.4 11.9 8.4 2.2 | 0.28 0.15 0.18 0.12 0.03 |
+------------------------------------------+--------- CONTRIBUTION CUMULEE = 42.8 42.0 34.8 10.6 22.5 +--------------------------+
| 5 . Niveau de vie |
| AD_1 - C6=niveau moyen 7.61 2.29 | -0.63 -0.72 0.64 -0.06 0.44 | 6.4 9.6 10.2 0.1 5.2 | 0.17 0.23 0.18 0.00 0.09 |
| AD_2 - C6=pauvre 7.13 2.51 | 0.99 0.17 -0.34 0.89 0.39 | 14.7 0.5 2.7 19.2 3.9 | 0.39 0.01 0.05 0.31 0.06 |
| AD_3 - C6=riche 5.19 3.81 | -1.20 1.10 -0.52 -0.22 -0.14 | 15.9 15.1 4.6 0.9 0.4 | 0.38 0.32 0.07 0.01 0.01 |
| AD_4 - C6=très pauvre 5.07 3.93 | 0.79 -0.28 0.05 -0.92 -1.07 | 6.6 1.0 0.0 14.9 20.4 | 0.16 0.02 0.00 0.22 0.29 |
+------------------------------------------+--------- CONTRIBUTION CUMULEE = 43.6 26.1 17.5 35.1 29.9 +--------------------------+
Interprétation de l’axe 1 : Les modalités dont les contributions sont fortes et excédent les poids
sont : cadre, employé, ouvrier, pauvre et riche. Les signes des coordonnées laissent ressortir que
l’axe 1 oppose : Les riches aux pauvres ; Les cadres aux ouvriers et employés.
Le lecteur pourra essayer de retrouver le sens des autres axes.
De façon pratique, on commente les phénomènes au bord du nuage dans le graphique.
Ainsi, on constate une association entre cadre et riche, entre employé et très pauvre et entre
niveau moyen, fem et commerçant. Donc, en général, les cadres sont riches, les employés très
pauvres et les femmes sont des commerçantes et ont un revenu moyen. Les individus concernés
5
En principe, on devrait former et commenter tous les plans formés par les 5 axes retenus. Mais pratiquement, on
progresse du plan le plus important vers les autres, en commentant à chaque fois les phénomènes nouveaux.
par la première typologie sont : 157, 144, 143, 173, 128, 162, 172, 167, 166, 165, 161. la modalité
pauvre aussi est bien représentée, et les individus concernés sont par exemple : 24 et 178, 34, 31.
nous laissons au lecteur la suite des commentaires.
c) Autres indicateurs
Deux autres indicateurs peuvent être utilisés pour caractériser les classes par les modalités
des variables qualitatives7 : les MOD/CLA et les CLA/MOD. Les valeurs tests indiquent encore
les modalités significatives.
Le MOD/CLA représente le pourcentage des individus présentant une modalité dans une
classe. Il permet de voir les modalités les plus représentées parmi les modalités caractéristiques
d’une classe. Si MOD/CLA = 90%, cela signifie que 90% des individus de la classe ont la
modalité correspondante. Pour obtenir ces indicateurs, il faut l’activer (le choisir) lors du
paramétrage.
Le CLA/MOD indique le pourcentage des individus de la classe qui possèdent la modalité.
Cet indicateur permet de typer la classe à partir des modalités bien représentées dans la classe, et
très peu représentées dans les autres classes. Par exemple, si CLA/MOD = 85%, cela signifie que
85% des individus ayant cette modalité sont dans cette classe. Cet indicateur s’active aussi
pendant le paramétrage.
La caractérisation des classes consistera donc à la détermination des variables et modalités
significatives, ainsi qu’au commentaires des MOD/CLA et CLA/MOD élevés (ou dans certains
cas très faibles), ainsi qu’au commentaires des khi deux, dans le cas d’une caractérisation par les
modalités. Dans le cas des caractérisation par les continues, on commentera les moyennes et
écarts types des variables pertinentes.
VI.4 Démarche pour l’interprétation d’une CAH
Etape i) Déterminer le nombre de classes suivant plusieurs critères :
Soit vous avez un nombre de classes souhaité ;
Soit à partir de la structure du nuage de points dans les principaux graphiques ;
Soit à partir du dendrogramme, à l’étape 3 ; on identifie les dernières agrégations ayant
conduit la de grandes pertes d’information, pour opérer la « coupe » ;
Soit à partir de « l’histogramme des indices de niveau ». Il est toujours idéal de couper à
un noeu qui a conduit à une grande perte d’information. Après de tels noeux, il y a un
décrochement, soit un grande baisse de l’indice par rapport au précédent. Ce critère est
statistiquement préférable. Si l’on choisit de laisser le logiciel proposer des classes, c’est
sur ce critère qu’il décidera leur nombre.
Etape ii) : Commenter les classes, en s’intéressant simultanément aux caractérisations par
les continues et les modalités. Pour chaque classe, on indiquera le poids (ou l’effectif), on
commentera les moyennes des continues et leurs dispersions, et on recherchera le « type » de la
classe à partir des modalités dominantes (ou rares 8). On peut parfois avoir besoin de faire le cumul
des statistiques de plusieurs modalités de la même variable pour retrouver une caractérisation.
Note : Veuillez toujours à formuler une phrase qui résume la caractéristique d’une classe.
Etape iii) : Identifier les parangons de chaque classe, s’il y a lieu. Ce sont les points les
plus proches de « l’individu moyen » de la classe. Leurs caractéristiques sont les plus proches des
caractéristiques moyennes de la classe. Ils sont donc typiques (à ne pas confondre avec atypiques.
On peut aussi s’intéresse aussi au points «atypiques, c'est-à-dire les plus éloignés de l’individu
moyen9. On les choisira pendant le paramétrage de l’étape 6, parmi les paramètres de
partitionnement.
7
Ce qui concerne essentiellement les classifications à la suite d’une AFC ou d’une ACM.
8
Quelques fois, on peut utiliser les modalités rares : par exemple, si pour la modalité « Ouvrier » CLA /MOD = 0,12,
on sait que c’est une classe qui ne concerne pas les ouvrier, ce qui est une information.
9
Notons que Spad appelle aussi parangons, les points atypiques. Il parle de parangons les plus éloignés.
La caractérisation par les variables permet de comprendre que le premier groupe est celui
des pauvres vivant dans des ménages de grande taille. En effet, le revenu moyen dans cette classe
est de 61 880 (les valeurs sont en milliers), et est de loin inférieur au revenu moyen général
(91 250). Leurs dépenses sont aussi inférieures aux dépenses générales, en moyenne, alors que les
tailles de leurs ménages sont en moyenne supérieures à la moyenne. Les écarts types dans la
classe sont tous inférieurs à ceux de la population globale, ce qui permet de penser que les
moyennes sont bien représentatives du niveau individuel.
Le 2ème groupe a toutes les caractéristiques opposés : des revenus et dépenses de
consommation en moyennes supérieurs aux niveaux généraux, et des ménages de taille moyenne
proche de la moitié du niveau général. Les écarts types étant tous inférieurs à ceux de toute la
population démontre que ces moyennes sont significatives.
LECTURES CONSEILLEES
Bouroche J-M. et Saprota G. (1998), L’analyse des données. Collection « Que sais-je » PUF.
Bry X. (1995 a), Analyse factorielle simple. Economica.
(1995b), Analyse factorielle multiple. Economica.
De Lagarde J. (1998), Initiation à l’analyse factorielle. Dunod, Paris.
Escofier B. et Pagès J. (1988), Analyses factorielles simple et multiple. Dunod
Foucart T. (1997), L’analyse des données, mode d’emploi. PUR, Rennes.
Lebart L., Morineau A. et Piron M. (1995), Statistique exploratoire multidimensionnelle. Dunod.
Les cahiers Morineau A. et Morin St. (2000), Pratique du traitement des enquêtes, CISIA-
CERESTA, Paris.
Saporta G. (1989), Probabilité, analyse des données et statistiques. Technip.
Saporta G. (1990) Analyse des Données, ENSAE.
Tenenhaus M. (1994), Méthodes statistiques en gestion. Dunod.
Volle M. (1985), Analyse des données. Economica.