Poly AD
Poly AD
Poly AD
1
2 2 3 4 6 7
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2 Analyses Factorielles
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.1 2.1.2 2.1.3 2.2 2.3 Les objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Domaines d'application . . . . . . . . . . . . . . . . . . . . . . . . . Les donnes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
9 9 9 10 10 12 12 13 14 15 16 18 20
Principe gnral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ajustement du nuage des individus dans l'espace des variables 2.3.1 2.3.2 2.3.3 Plan d'ajustement Droite d'ajustement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Sous-espace d'ajustement . . . . . . . . . . . . . . . . . . . . . . . .
Ajustement du nuage des variables dans l'espace des individus Reconstruction des donnes
Relation entre les axes d'inertie et les facteurs des deux nuages . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
23
23 24 24 26 27 28 31 33 35
Reprsentation simultane
Interprtation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
ii
39
39 39 40 42 42 43 44 46 47 49 50 54
Principe de l'AFC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Interprtation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
57
57 57 57 58 58 59 66 67 67 69
Principe de l'ACM
Interprtation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
73
73 75 75 76 76 76 81 85
Principe de l'AFD
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7 Classication
7.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.1.1 7.1.2 7.1.3 7.2 Les objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Les donnes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Les mthodes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
87
87 87 88 89 90
iii
Principe de l'algorithme
. . . . . . . . . . . . . . . . . . . . . . . .
90 91 92 98
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
Glossaire
Indications historiques
101
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
iv
Reprsentation des donnes centre-rduites pour l'ACP. Reprsentation des donnes pour l'AFC. Tableau de contingence.
. . . . . . . . . . . . . . . . . . .
Tableau des frquences relatives pour l'AFC. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Tableau des frquences observes. . . . . . . . . . . . . . . . . . . . . . . . Les prol-ligne et prol-colonne. . . . . . . . . . . . . . . . . . . . . . . . . Prols-lignes (exprims en pourcentages-lignes arrondis). . . . . . . . . . . . . . . . . . . . Prols-colonnes (exprims en pourcentages-colonnes arrondis).
Reprsentation des donnes sous forme de codage condens pour l'ACM. Reprsentation des donnes sous forme de codage condens pour l'ACM.
Exemple du vin : tableau initial. . . . . . . . . . . . . . . . . . . . . . . . . Exemple du vin : tableau disjonctif complet. . . . . . . . . . . . . . . . . . Reprsentation des donnes sous forme du tableau de Burt. . . . . . . . . . Mise en frquences du tableau disjonctif complet. . . . . . . . . . . . . . . Les prol-lignes et prol-colonnes pour l'ACM. . . . . . . . . . . . . . . . . Reprsentation des donnes pour l'AFD. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
vi
NI Le nuage NI
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Schma de dualit.
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
X.
. . . . . . . . . . . . .
NI
dans I R
. . . . . . . . . . . . . . . . . . . . . . . .
NK dans IRI . . . . . . . . . . . Ajustement du nuage NI des individus pour l'ACP. Ajustement du nuage NK des variables pour l'ACP.
Nuage des variables
L'eet de taille dans I R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Forme de dualit exprimant le nuage Forme de dualit exprimant le nuage
. . . . . . . .
Rsum de l'ACP. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
NI des prols-lignes dans l'espace IRJ . . . I Le nuage NJ des prols-colonnes dans l'espace I R .
Le nuage Inertie et dpendance.
. . . . . . . . . . . . . . . . . . . . . . . . . .
Le schma de dualit pour l'AFC. . . . . . . . . . . . . . . . . . . . . . . . Reprsentation simultane dans le premier plan sur l'exemple de Cohen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
J a Q.
Reprsentation du nuage des individus Reprsentation du nuage des modalits Schma de dualit pour l'ACM. Rsum de l'ACM.
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Reprsentation du nuage
NI
. .
vii
viii
. . . . . . . . . . . . . . .
91 93 93 94 94 96 97 98 99
. . . . . . . . . . . . . . . . . . . . . . . .
Illustration de la formule de Huygens. . . . . . . . . . . . . . . . . . . . . . Illustration d'une inertie intraclasse faible et leve. . . . . . . . . . . . . . Illustration du passage d'une partition individus.
. . . . . . .
aS
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Dendrogramme sur les donnes de composition du sol. . . . . . . . . . . . . Courbe des indices sur les donnes de composition du sol. . . . . . . . . . .
Iq
Chapitre 1 Introduction
Les statistiques peuvent tre vues en fonction de l'objectif x ; classiquement les mthodes statistiques sont employes soit pour explorer les donnes (nomme statistique exploratoire) soit pour prdire un comportement (nomme statistique prdictive ou dcisionnelle [Goa03] ou encore infrentielle [Sap90]). La statistique exploratoire s'appuie sur des techniques descriptives et graphiques. Elle est gnralement dcrite par la statistique descriptive qui regroupe des mthodes exploratoires simples, uni- ou bidimensionnelle (moyenne, moments, quantiles, variance, corrlation, ...) et la statistique exploratoire multidimensionnelle. L'analyse de donnes s'inscrit dans ce cadre de la statistique exploratoire multidimensionnelle. Nous verrons que des mthodes issues de l'analyse de donnes peuvent galement servir la statistique prdictive (
Les mthodes d'analyse de donnes ont commences tre dveloppes dans les annes 50 pousses par le dveloppement de l'informatique et du stockage des donnes qui depuis n'a cess de crotre. L'analyse de donnes a surtout t dveloppe en France par J.P. Benzcri [Ben80a], [Ben80b] qui a su par l'analyse des correspondances reprsenter les donnes de manire simple et interprtable. Il dcrit l'analyse de donnes selon cinq principes, un peu dsuets aujourd'hui : -
principe : Statistique n'est pas probabilit. principe : Le modle doit suivre les donnes et non l'inverse. principe : Il convient de traiter simultanment des informations concernant le principe : Pour l'analyse des faits complexes et notamment des faits sociaux, principe : Utiliser un ordinateur implique d'abandonner toutes techniques
plus grand nombre possible de dimensions. l'ordinateur est indispensable. conues avant l'avnement du calcul automatique. Ces cinq principes montrent bien l'approche d'une part de la statistique la dirence des probabilits - les modles doivent coller aux donnes - et d'autre part de l'analyse de donnes - il faut traiter le plus grand nombre de donnes simultanment ce qui implique l'utilisation de l'ordinateur et ainsi l'utilisation de nouvelles techniques adaptes. L'analyse de donnes fait toujours l'objet de recherche pour s'adapter tout type de donnes et faire face des considrations de traitements en temps rel en dpit de la
CHAPITRE 1.
INTRODUCTION
quantit de donnes toujours plus importante. Les mthodes dveloppes (et l'analyse de donnes) sont maintenant souvent intgres avec des mthodes issues de l'informatique et de l'intelligence articielle (apprentissage numrique et symbolique) dans le de donnes [HL03].
data mining
en traitement du signal et des images, o elles sont souvent employes comme prtraitements (qui peuvent tre vus comme des ltres). En ingnierie mcanique, elles peuvent aussi permettre d'extraire des informations intressantes sans avoir recours des modles parfois alourdis pour tenir compte de toutes les donnes.
1 Les
1.3.
LES OBJECTIFS
Variables
1 1 . . . . . . ......
......
Individus
......
. . . . . .
xik
. . . . . .
. . . . . .
......
individus ou encore units statistiques sont reprsents en ligne et sont chacun dcrits par des variables ou caractres . Nous conserverons les notations du tableau 1.1 dans la suite du document. xik est donc la valeur de la variable k pour l'individu i avec k a I; :::; K et i a I; :::; I . Par abus de notations, pour des considrations de simplication de celles-ci, I reprsente la fois le nombre d'individus et l'ensemble des individus fI; :::; i; :::; I g, de mme K reprsente le nombre de variables et l'ensemble des variables fI; :::; k; :::; K g. Cette reprsentation des donnes peut faciliter la lecture de petits tableau, i.e. lorsqu'il
Ainsi les observations ou y a peu de donnes. Cependant, ds lors que la taille du tableau est grand, ou que nous recherchons des relations entre plus de deux individus ou plus de deux variables, cette reprsentation et les techniques simples de la statistique descriptive ne susent plus.
ressemblances
liaisons
entre
les variables. Ces proximits entre individus et variables vont permettre l'oprateur de
CHAPITRE 1.
INTRODUCTION
dterminer une
typologie
donnes et fournir une synthse des rsultats des analyses. Nous voyons donc que les deux objectifs prcdemment cits sont trs lis voir indissociables, ce qui entrane souvent l'utilisation conjointe de plusieurs mthodes d'analyse de donnes.
i.e.
variables ainsi dtermines permettent une reprsentation synthtique recherche. Parmi ces mthodes de nombreuses analyses sont issues de l'analyse factorielle, telles que l'analyse en composantes principales, l'analyse factorielle des correspondances, l'analyse factorielle des correspondances multiples, ou encore l'analyse canonique. L'
analyse en composantes principales est l'une des mthodes les plus employes. Elle est particulirement adapte aux variables quantitatives, continues, a priori corrles entre elles. Une fois les donnes projetes dans dirents plans, les proximits entre variables s'interprtent en termes de corrlations, tandis que les proximits entre individus s'interprtent en termes de similitudes globales des valeurs observes. L'
a t conue pour l'tude des tableaux de contingence obtenus par croisement de variables qualitatives. Cette analyse permet donc de traiter des variables qualitatives et est surtout adapte ce type de variables. Dans cette approche, les lignes et les colonnes ont un rle symtrique et s'interprtent de la mme faon. L'
analyse
des correspondances qui ne permet que le croisement de deux variables qualitatives. Elle est donc adapte la description de grands tableaux de variables qualitatives par exemple pour le traitement d'enqutes. L'
en pratique, son intrt porte sur son aspect thorique. Elle cherche analyser les relations entre deux groupes de variables de nature dirente. De ce fait l'analyse factorielle des correspondances peut tre vu comme analyse canonique particulire [CDG 89], [LMP95]. Une autre partie des mthodes cherche classer les donnes de manire automatique. Ces mthodes sont complmentaires avec les prcdentes pour synthtiser et analyser les donnes et rpondre plus particulirement l'objectif x de caractriser les proximits entre individus et celles entre variables. Ces mthodes de classication sont soit apprentissage supervis (
i.e.
d'apprentissage - ces mthodes sont appeles en statistique les analyses discriminantes) soit apprentissage non-supervise ( pralable). Parmi les mthodes issues de l'analyse discriminante et directement rattaches
i.e.
1.4.
LES MTHODES
k plus proches voisins ou encore les arbres de dcision. D'autres mthodes issues
de l'intelligence articielle et du monde de la reconnaissance des formes peuvent tre rattaches l'analyse discriminante telles que le perceptron multicouche (et les autres rseaux de neurones) et les chanes de Markov [Kun00] ou encore issues de la thorie de l'apprentissage statistique telle que les machines vecteurs de supports [Vap99]. Si ces dernires ne sont pas toujours considres comme faisant partie de l'analyse de donnes, elles sont parfaitement intgres dans le
mining . L'analyse linaire discriminante est aussi appele analyse factorielle discriminante
car elle est en fait une analyse en composantes principales supervise. Elle dcrit les individus en classes (celles-ci sont donnes par une variable issue de l'apprentissage) et ensuite aecte de nouveaux individus dans ces classes. C'est donc une mthode la fois descriptive et prdictive. Elle permet de traiter aussi bien des variables quantitatives que qualitatives. La
data
rgression logistique
une
consiste
d'appartenance
classe
p@C=xA
exprimer comme
les une
probabilits fonction de
a posteriori
l'observation
[Sap90] [Cel03]. Bien souvent c'est la rgression linaire qui est employe, qu'il faut dterminer les coecients tels que :
i.e.
ln
L'approche des
p@C=xA I p@C=xA
a 0 C
d i=1
i xi :
(1.1)
k plus proches voisins repose sur l'ide simple d'attribuer un nouvel individu la classe majoritaire parmi ses k plus proches voisins (individus de la
base d'apprentissage les plus proches au sens d'une certaine distance). Les
arbres de dcision
lement gnralisable si les donnes d'apprentissage sont peu reprsentatives de la ralit. La mthode CART (
possde une
construction d'arbre aux proprits intressantes pour la segmentation [BFRS93]. Les mthodes de classication automatique ne ncessitant pas d'apprentissage orent un intrt important lorsque les donnes sont compltement inconnues. Elles permettent ainsi de dgager des classes qui ne sont pas videntes (apparente la mthode des
a priori.
Les deux principales mthodes dveloppes sont la mthode des centres mobiles
k-means
cas particulier)) et la classication hirarchique ascendante ou descendante. Nous pouvons galement citer les approches fondes sur les graphes et hypergraphes [Ber72]. La mthode des
centres mobiles
de classes choisis alatoirement, puis recalculer ces centres jusqu' obtenir une convergence. La dicult consiste dans un choix astucieux des centres au dpart pour une convergence plus rapide et dans le choix d'une distance approprie. La
CHAPITRE 1.
INTRODUCTION
les individus selon leur ressemblance (resp. dissemblance). Toute la dicult est dans la dnition d'une mesure de ressemblance et de la distance associe.
Bell Laboratories.
proprit de Mathsoft aprs le rachat de Statistical Sciences. Il est parfois employ pour l'enseignement (ex. Universit Paul Sabatier de Toulouse III). - R : Ce logiciel est la version gratuite de Splus. Il est tlchargeable sous www.r-project.org pour tous systmes d'exploitation. Il soure galement de peu de convivialit et semble encore trs peu employ en industrie. De part sa gratuit, il est de plus en plus employ pour la ralisation de cours de statistiques (ex. Universit Paul Sabatier de Toulouse III, Universit de Lyon 1). - XlStat : Excel propose une macro payante permettant d'eectuer quelques mthodes d'analyse de donnes. Elle est cependant trs limite, utilisable qu'avec Excel sous Windows et de plus payante. Certaines coles d'ingnieurs s'en contentent (ex. ENITAB, Bordeaux). - UniWin Plus : Statgraphics est un logiciel de statistiques gnrales, qui propose un module d'analyse de donnes de treize mthodes. Dvelopp uniquement pour les environnements Windows, l'accent est port sur les interfaces graphiques. Statgraphics propose un grand nombre d'analyses statistiques et permet l'utilisation de beaucoup de for-
1.6.
PLAN
mat de donnes. Il est commercialis par Sigma Plus. Statgraphics est enseign par exemple l'IUT de Vannes. - Stalab : Ce logiciel dvelopp par M. Jambu [Jam99b], [Jam99a] tait initialement prvu pour Windows. Sa convivialit a permis un essor industriel qui semble s'tre rduit. Il a t utilis pour l'enseignement en coles d'ingnieurs (ex. ENSSAT, Lannion). - SPAD : Le logiciel SPAD support entre autre par A. Morineau est toujours maintenu jour avec de nouvelles mthodes issues de la recherche universitaire. Sa version sous Windows est conviviale ce qui a pouss son achat par de plus en plus d'industriels. Le soucis de coller une ralit industrielle fait qu'il est employ en enseignement (ex. IUT de Vannes, ENSIETA).
1.6 Plan
Ce document ne cherche pas prsenter l'ensemble des mthodes de l'analyse de donnes dont certaines ont t voques dans la section 1.4. Nous prsentons ici les ides des principales mthodes, ces cls et les rfrences
fondir les mthodes prsentes et de comprendre les autres. Nous commencerons ainsi par l'tude de quelques analyses factorielles. Le premier chapitre prsente le principe gnral des analyses factorielles. Les chapitres 3, 4 et 5 prsentent respectivement l'analyse en composantes principales, l'analyse factorielle des correspondances et l'analyse des correspondances multiples. Nous proposons ensuite au chapitre 6 l'tude d'une analyse discriminante : l'analyse factorielle discriminante qui peut galement tre vue comme une analyse factorielle. Dans le cadre des mthodes de classication non-supervise nous prsentons la classication hirarchique au chapitre 7.
rfrences proposes ne sont pas exhaustives, il existe un grand nombre d'ouvrages de qualit dans le domaine de l'analyse de donnes.
2 Les
CHAPITRE 1.
INTRODUCTION
10
CHAPITRE 2.
ANALYSES F ACTORIELLES
liaisons entre les variables quantitatives, puis une analyse des correspondances multiples peut donner une reprsentation des variables qualitatives en fonction de leur
modalits .
Exemple 2.2.1
anne. Le nombre d'lves est environ de 450, et nous pouvons considrer qu'ils obtiennent environ 30 notes chacun. Ainsi le tableau reprsentant l'ensemble des notes est constitu de 13 500 valeurs. La rduction prsente ci-dessus permet de rduire ce nombre 480 valeurs sans perte d'information si l'hypothse est valide. Pour que l'hypothse soit vrie, il faudrait pouvoir dduire les notes de l'ensemble des lves partir de celles d'un seul lve et d'un vecteur de pondration. Ceci signie que les notes sont dpendantes les unes des autres ou encore trs fortement corrles. En pratique, il faut donc chercher une approximation de rang analyses cherchent crire le tableau
pour
X . C'est--dire ces
(2.1)
tel que :
t t X a v1 ut 1 C v2 u2 C : : : C vS uS C E;
o
E est une matrice de I lignes et K colonnes de termes ngligeables dite matrice rsiduelle. Ainsi les I:K valeurs initiales de X sont reconstitues de faon satisfaisante par les S:@I C K A valeurs des S vecteurs vq et uq . Les donnes sont donc soit considres en tant qu'individus dcrits par leurs K variables l'aide des vecteurs uq K composantes, soit en tant que variables dcrites par les I individus l'aide des vecteurs vq I composantes.
La rsolution de ce problme passe donc par la considration des deux nuages de points ou encore des deux reprsentations gomtriques associes (gure 2.1). Nous obtenons ainsi
et
de nuages sont remarquables aussi bien pour les projections de l'espace des individus que pour celui des variables (gure 2.2). Par exemple, nous pouvons distinguer des formes sphriques ne traduisant aucune direction privilgie, des formes allonges donnant une
2.2.
PRINCIPE GNRAL
11
direction privilgie des dpendances, ou encore plusieurs sous-nuages faisant ainsi apparatre plusieurs sous-groupes de la population. D'autres formes sont remarquables telles que les formes triangulaires ou paraboliques [LMP95]. Le problme est de pouvoir rendre compte visuellement de la forme des nuages, pour ce faire l'ide est d'tudier les projections sur des droites ou mieux des plans (les projections dans un espace 3 dimensions seraient intressantes si l'il humain n'tait pas souvent tromp). Il faut donc chercher le sous-espace qui ajuste au mieux le nuage de points tions que la projection implique.
Nous allons donc chercher ajuster au mieux le nuage des individus dans l'espace des variables (section 2.3) puis le nuage des variables dans l'espace des individus (section 2.4).
12
CHAPITRE 2.
ANALYSES F ACTORIELLES
NI
- dans I R
S infrieure K , i.e. que nous supposons que la matrice E de l'quation (2.1) est nulle. Plus gnralement, nous supposons que le nuage NI est reconstitu de manire satisfaisante dans un sous-espace de dimension S . Nous pouvons ainsi reconstruire les I individus, et donc l'ensemble de la population et du tableau X associ partir des coordonnes des individus sur S nouveaux axes. Les I:K valeurs du tableau X sont donc remplaces par I:S (coordonnes)CK:S (composantes).
NI
NI .
Exemple 2.3.1
valeurs.
S a IH, i.e. si les 1000 points-individus sont contenus dans un sous-espace de dimension 5 10, nous rduisons l'tude des IHHH IHH a IH valeurs de X IHHH IHCIHH IH a IIHHH
d1
i.e. une
Preuve
long de
iPI
iPI
iPI
Oi2 a
iPI
OHi2 C
iHi2 ; i de NI
la droite
(2.2)
d1 .
ut1X tX u1, avec u1 le vecteur unitaire de d1. En fait, nous avons l'galit : t OHi2 a @X u1 At @X u1 A a ut 1 X X u1 ;
iPI
(2.3)
NI
et sa droite d'ajustement.
Preuve
OHi de Oi sur le sous-espace une dimension d1 port par u1 est le produit scalaire de Oi par u1 (OHi a< Oi; u1 >). Ainsi en munissant cet espace de
La projection la mtrique euclidienne sans restreindre le problme :
OHi a xt i u1 a
Les
kPK
(2.4)
composantes
iPI
composantes de la matrice
OHi2 a @X u1 At @X u1 A:
(2.5)
ut1u1 a I. Le sous-espace une dimension optimal au sens de l'inertie maximale est donc l'axe d1 dni par le vecteur u1 solution de ce problme.
avec la contrainte
u1
ut1X tX u1
contient u1 .
14
CHAPITRE 2.
ANALYSES F ACTORIELLES
u1, alors il est dnit par deux vecteurs uH et uHH dirents de u1. L'inertie le long des H HH deux droites portes par u et u est donc infrieure celle de l'inertie le long de la droite porte par u1 . Il existe donc un sous-espace de dimension deux meilleur que celui dni H HH par les deux vecteurs u et u . Nous montrons ainsi la proposition.
Le sous-espace deux dimensions est donc caractris par l'axe par le vecteur -
Preuve
u2 orthogonal u1 vriant donc : ut2X tX u2 est maximal, ut2u2 a I (contrainte de normalit), ut2u1 a H (contrainte d'orthogonalit).
d1
et l'axe
d2
dni
2.3.3 Sous-espace d'ajustement Dans le cas o S ! P, par rcurrence, le sous-espace S dimensions s'ajustant au mieux au nuage NI contient les vecteurs u1 ; u2 ; ; uS 1 . Ce sous-espace est engendr par le sous-espace (u1 ; u2 ; ; uS 1 ) de dimension S I et le vecteur uS orthogonal ce sous-espace (i.e. tous les uq ) et vriant : t t - uS X X uS est maximal, t - uS uS a I.
Proposition 2.3.5 Une base orthonorme du sous-espace vectoriel de dimension S ,
s'ajustant au mieux au sens des moindres carrs, au nuage NI dans IRK est constitue par les S vecteurs propres (u1 ; u2 ; ; uS ) correspondant aux S plus grandes valeurs propres (1 ; 2 ; ; S ) de la matrice X t X .
Preuve
Soit
approche est fonde sur certaines proprits spectrales des matrices symtriques [LMP95].
L@uS A le Lagrangien :
(2.6)
t (2.7) uS a PX X uS PuS a H: t Ainsi nous obtenons l'galit X X uS a uS . Or d'aprs Lagrange, une condition nt t cessaire et susante pour que f @uS A a uS X X uS soit extremum sachant que g @uS A a
utS uS I a H (vrie par la contrainte de normalit), est qu'il existe un nombre tel
que la drive du Lagrangien soit nulle. Le maximum est atteint si valeur propre de la matrice
uS
X tX .
matrice
X tX
et
X t au lieu de X . Avec les notations t t t t de la gure 2.4, l'inertie le long de la droite DS s'crit @X vS A@X vs A a vS XX vS . Ainsi,
NK - dans IR
vS vriant : t XX t v est maximal, vS S t v a I (contrainte de normalit), vS S t v a H pour tout q a fI; ; S Ig (contrainte d'orthogonalit). vS q
NI
et sa droite d'ajustement.
Le sous-espace d'ajustement est obtenu de la mme manire que dans le cas des individus, par la proposition suivante.
s'ajustant au mieux au sens des moindres carrs, au nuage NI dans IRI est constitue par les S vecteurs propres (v1 ; v2 ; ; vS ) correspondant aux S plus grandes valeurs propres (1 ; 2 ; ; S ) de la matrice XX t .
16
CHAPITRE 2.
ANALYSES F ACTORIELLES
Remarque S
matrice
X tX .
XX t ,
2.5 Relation entre les axes d'inertie et les facteurs des deux nuages
Nous montrons ici quelles sont les relations, dites relations de transition, entre les ajustements dans les deux espaces. Notons : -
dS
de
NI , respectivement NI sur le S me axe K me dans I R , de mme GS est le vecteur issu de la projection du nuage NK sur le S NK . FS
, respectivement le
a utS X tX uS DS FS a X uS
respectivement axe dans I R .
, respectivement .
DS
t XX t v a vS S
dS ,
GS
a X t vS
facteur
d'ordre
de
DS , DS , nous la notons S . Les formules de transition entre les deux espaces relations de fondamentales : V FS b v b S a p b ` S
b b b X
Proposition 2.5.1 L'inertie le long de l'axe dS , dS , est gale l'inertie le long de l'axe
I R
et
I R
uS a
GS p S
K
:
(2.8)
Preuve
X t X uS a S uS ;
et dans l'espace I R
(2.9)
XX t vS a S vS :
En multipliant par
(2.10)
@XX tAX uS a S @X uS A;
et en multipliant par
(2.11)
montre que
2.5. RELATION ENTRE LES AXES D'INERTIE ET LES F ACTEURS DES DEUX NUAGES17
de
XX t , donc la valeur propre associe 1 est ncessairement telle que 1 1 . De pus 1 est la plus grande valeur propre de X t X . L'quation (2.12) montre que X t v1 est un t vecteur propre de X X , donc la valeur propre associe 1 est ncessairement telle que 1 1 . Ainsi nous obtenons que 1 a 1 . t De mme, nous pouvons montrer que toutes les valeurs propres non nulles de X X et t XX sont les mmes, ainsi S a S . Le premier point de la proposition est donc dmontr,
puisque :
t XX t v a : utS X tX uS a vS S S
(2.13)
Pour dmontrer le second point, nous constatons partir de l'quation (2.11) que les facteurs
FS
avons donc :
De plus
et
t XX t v a . kGS k2 a vS S S
Les relations de transition entre les deux espaces peuvent se reprsenter par le schma de dualit de la gure 2.5 reprsentant les relations entre les axes d'inertie d'un nuage et les facteurs de l'autre nuage.
FS @iA a
kPK
xik GS @kA S
(2.16)
GS @ k A a
iPI
p
xik FS @iA
S
Cette proposition montre que les facteurs des deux nuages doivent s'interprter conjointement. L'analyse factorielle consiste donc analyser simultanment le nuage nuage
NK .
NI
et le
18
CHAPITRE 2.
ANALYSES F ACTORIELLES
Preuve
D'aprs les relations fondamentales de l'quation (2.8) nous obtenons les coor-
NI
vS @iA a
FS @iA p S GS @iA p S
a kPK p
xik uS @kA
S
(2.17)
NK
iPI
uS @kA a
p
xik vS @iA
S
(2.18)
En dveloppant les relations des quations (2.17) et (2.18), nous obtenons facilement les relations de transition de l'quation (2.16).
me
X t X , correspondant la valeur propre s et vs t vecteur propre de norme 1 de la matrice XX , correspondant la mme valeur X us a
p
X.
En eet, puisque
us
par une
est le
sme
s vs ;
(2.19)
2.6.
19
d'o
sPK
usuts a
p
sPK
s vs ut s:
(2.20)
Xa
p
sPK
s vs ut s:
(2.21)
X. K
us
et
I:K
sous-espace qui s'ajuste au mieux aux nuages de points. S'ajuster au mieux signie donc reconstituer au mieux les positions des points des nuages par un nouvel ensemble de coordonnes.
Si
1
associe
valeurs propres, alors nous disons que la reconstruction est bonne. D'un point de vue gomtrique ceci signie que le nuage de points s'allonge le long d'une droite. Lorsque le nuage est ainsi trs tir le long du premier axe, l'inertie du nuage de dpart et la position des points sont bien reconstitue avec la seule information des coordonnes des projections des points du nuage.
permet de reconstituer les positions de dpart avec une bonne prcision, si reprsente une bonne proportion de la trace de la matrice
Aa
sPK
s a
iPI;kPK
xik .
2
X tX .
1 C C S
20
CHAPITRE 2.
ANALYSES F ACTORIELLES
Nous obtenons ainsi une reconstruction approche premiers axes factoriels, nous avons :
p X 9 X a s vs ut s:
s=1
(2.22)
Nous passons donc des I:K valeurs du tableau X S @I C K A nombres pour reconstituer p X . Ces nombres sont constitus par les S vecteurs s vs ayant I composantes et les S vecteurs us ayant K composantes. Toute la dicult rside dans le choix de S , c'est--dire partir de quelle valeur a-tt on une bonne reconstruction, ou encore une bonne proportion de la trace de X X ? Nous voyons donc l'importance de dnir un indice de qualit de la reconstruction. La qualit globale de la reconstruction peut tre mesure par :
S a
Le coecient
tr@X t X A tr@X t X A
a
s=1 sPK
s s :
(2.23)
premiers facteurs.
2.7 Conclusion
Nous avons prsent dans ce chapitre le principe gnral des analyses factorielles. Cette approche permet de reprsenter gomtriquement de grands tableaux de donnes dans des sous-espaces sans perte d'information importante. La dimension des sous-espaces,
i.e.
l'approximation de la reconstruction de ces tableaux se fait en cherchant minimiser la perte d'information. La quantit globale de reconstruction permet de quantier cette perte d'information. Une fois la dimension du sous-espace choisie, les donnes sont reprsentes graphiquement par des projections sur les dirents plans qui constituent le sous-espace. Bien sr les premiers plans factoriels sont ceux contenant le plus d'information. La dcomposition en valeurs singulires prsente dans ce chapitre peut tre applique tous tableaux de donnes prsents comme sur le tableau 1.1. Cette dcomposition fait appel des distances euclidiennes, c'est--dire des formes quadratiques dnies positives. Les maximisations de l'inertie pour les ajustements des sous-espaces sont lies ces distances. Il existe d'autres approches qui modient ces distances ou la nature des sousespaces [EP90], [LMP95]. En particulier ce qui est souvent recherch dans ces mthodes est la non-linarit des projections, mieux adapte aux donnes compliques. Avant d'appliquer cette approche gnrale un tableau quelconque, il est important de tenir compte des donnes de dpart. Pour se faire, nous allons les transformer en fonction de leur type. Ainsi dans les trois prochains chapitres nous allons voir comment transformer
2.7.
CONCLUSION
21
des donnes quantitatives dans le cadre de l'analyse en composantes principales, et des donnes qualitatives dans les cas de l'analyse factorielle de correspondances et de celle des correspondances multiples.
22
CHAPITRE 2.
ANALYSES F ACTORIELLES
Les donnes
tableau prcdemment vu dans le Chapitre 1 et que nous rappelons dans le tableau 3.1. Ainsi les donnes sont constitues d'individus et de variables qui dans le cas de l'ACP doivent tre quantitatives, continues, elles peuvent tre homognes ou non et sont
priori
a fI; ; i; ; I g K K a fI; ; k; ; K g
, et
i, I
xik
la valeur de la variable
a k
dsigne la fois le nombre d'individus et l'ensemble des indices dsigne la fois le nombre d'individus et l'ensemble des .
Les objectifs
qu'elle cherche reprsenter graphiquement les relations entre individus par l'valuation de leurs ressemblances, ainsi que les relations entre variables par l'valuation de leurs liaisons. Comme nous l'avons vu au chapitre prcdent l'tude doit se faire simultanment. Le but nal de ces reprsentations est l'interprtation par une analyse des rsultats.
23
24
CHAPITRE 3.
Variables
1 1 . . . . . . ......
......
Individus
......
. . . . . .
xik
. . . . . .
. . . . . .
......
les applications sont trs nombreuses. Il y a en fait deux faons d'utiliser l'ACP : - soit pour l'tude d'une population donne en cherchant dterminer la typologie des individus et des variables. Par exemple, dans la biomtrie, l'tude des mensurations sur certains organes peut faire apparatre des caractristiques lies des pathologies, ou encore en conomie, l'tude des dpenses des exploitations par l'ACP peut permettre des conomies de gestion. - soit pour rduire les dimensions des donnes sans perte importante d'information, par exemple en traitement du signal et des images, o l'ACP intervient souvent en prtraitement pour rduire la quantit de donnes issues de traitements analogiques.
liaisons
ressemblances
entre indi-
Dnition 3.2.1 Deux individus se ressemblent, ou sont proches, s'ils possdent des valeurs proches pour l'ensemble des variables.
Cette dnition sous entend une notion de proximit qui se traduit par une distance. Ainsi, nous dnissons la distance entre deux individus
d2 @i; j A a
dnir cette distance par :
kPK
i et j
par : (3.1)
La mtrique ici utilise est donc euclidienne, mais de manire plus gnrale nous pouvons
(3.2)
3.2.
PRINCIPE DE L'ACP
25
K.
Pour tablir un bilan des ressemblances entre individus, nous cherchons rpondre des questions du type : - Quels sont les individus qui se ressemblent ? - Quelles sont ceux qui sont dirents ? - Existe-t-il des groupes homognes d'individus ? - Est-il possible de mettre en vidence une typologie des individus ? De la mme faon que nous avons dni la de dnir la
liaison
Dnition 3.2.2 Deux variables sont lies si elles ont un fort coecient de corrlation
linaire.
Le coecient de corrlation linaire est donn par :
(3.3)
xk
et
sk
k.
Remarque
corrlation est dni partir de la covariance, cependant dans de rare cas l'ACP peut tre fonde sur la matrice de covariance (ACP non-norme) ou encore sur la matrice des coecients de corrlations des rangs. A partir du coecient de corrlation de l'quation (3.3), il est possible de dnir une distance entre deux variables
d@k; hA a
I iPI
xik xk sk
k et h :
(3.4)
De mme que pour les individus, nous cherchons tablir un bilan des liaisons entre variables en rpondant des questions du type : - Quelles sont les variables qui sont lies positivement entre elles ? - Quelles sont celles qui s'opposent (
- Existe-t-il des groupes de variables corrles entre elles ? - Est-il possible de mettre en vidence une typologie des variables ?
Pondration
Il est souvent souhaitable que les individus comme les variables jouent le
mme rle. Cependant, dans certaines applications il peut tre intressant de pondrer diremment chaque individu. Soit
pi
iPI
ces poids sont pris tels que la masse totale soit gale 1 ( de la variable
iPI
pi xik ;
(3.5)
26
CHAPITRE 3.
Variables
1 1 . . . . . . ......
...... . . . . . .
Individus
......
. . . . . .
xik xk sk
. . . . . .
......
r@k; hA a pi a
iPI
pi
xik xk sk
xih xh : sh
(3.6)
Nous retrouvons le cas particulier dans lequel les individus ont le mme poids lorsque
mk le poids associ la variable k, la distance de l'quation (3.1) entre deux individus i et j devient :
riables. Soit
De mme, il est possible de ne pas accorder la mme importance aux direntes va-
d2 @i; j A a
kPK
mk @xik xjk A2 :
(3.7)
En fait, ces poids ne modient en rien les principes de l'ACP, nous considrons donc par la suite les cas o les individus et variables ont le mme poids.
X en remplaant les valeurs des xik par xik xk . Le fait de centrer les
donnes prsente dans le cas de l'ACP des proprits intressantes que nous exposons la section 3.2.3. L'analyse centre rduite ou encore norme, que nous prsentons ici, est lie la transformation des donnes du tableau
dans le cas d'une analyse sur la mensuration d'animaux, les dimensions dans le tableau
X en remplaant les valeurs des xik par xik xk . Rduire les donnes permet d'uniformiser les units de mesures. Par exemple, sk
peuvent tre exprimes en
X X
ou en
cm
prsent sur le tableau 3.1 devient celui donn par le tableau 3.2.
3.2.
PRINCIPE DE L'ACP
27
NI
donnes centres rduites par ligne, comme nous l'avons dj vu dans le cas gnral d'une
NI
dans I R
Absence de liens
Directions d'allongement
Partition de points
NI des individus est un espace vectoriel K dimensions, dont chaque dimension reprsente une variable (cf. gure 3.1). Le fait d'avoir centr les donnes entrane que l'origine des axes est confondu avec le centre de gravit G. Ce centre de gravit G
Ainsi le nuage peut s'interprter comme l'individu moyen de la population. L'interprtation de ce nuage
28
CHAPITRE 3.
NI
va se faire en dcelant d'une part une partition de points et d'autre part des direc-
tions d'allongement. Ainsi sur la gure 3.2 nous reprsentons dirents types de nuages possibles. Nous pouvons observer une absence de liens, ou bien par exemple une direction d'allongement suivant plutt le premier axe, ou encore une partition des points en trois groupes. Si l'tude directe est envisageable dans un espace trois dimensions, ds lors que de laquelle nous pouvons tudier dirents plans de projection.
K > Q elle devient impossible. Nous avons donc recours l'approche factorielle partir
centres rduites, que nous considrons ici par colonne, comme nous l'avons dj vu dans le cas gnral d'une analyse factorielle (gure 2.1 de la section 2.2). La reprsentation du nuage de chaque variable
iPI
I xik xk 2 a I:
sk
(3.8)
r@k; kA a I. Ainsi le nuage NK est situ sur la sphre unit (de rayon 1) dans cf. gure 3.3). Il est intressant de noter que le cosinus de l'angle entre les vecteurs reprsentant deux variables k et h est le produit scalaire < k; h >a r@k; hA. L'interprtation du coecient de corrlation comme un cosinus est
mme, donc l'espace I R (
k avec elle
une proprit trs importante puisqu'elle donne un support gomtrique, donc visuel, au coecient de corrlation. Cette proprit ncessite d'avoir au pralable centr les donnes, ce qui justie une nouvelle fois cette transformation. L'analyse du nuage une variable du nuage
NK
par
Ok
NK
des variables se fera donc par l'tude des angles forms pour
NI
o le
centre de gravit correspond au centre du repre lorsque les donnes sont centres. Ainsi, ce sont les angles entre les vecteurs reprsentant les variables qui sont peu dforms par les projections et non pas les distances entre les points du nuage
NK .
Cette tude des angles est impossible raliser directement cause de la dimension de I R . Elle se fera donc dans les plans de projection issus de l'approche factorielle.
3.2.4 L'ajustement
L'approche factorielle consiste donc approcher ces nuages
NI
et
NK
3.2.
PRINCIPE DE L'ACP
29
NK
dans I R .
fus Y s a I; ; S g
plus les directions
Nous avons vu la section 2.3 du chapitre prcdent, qu'il faut chercher une suite de directions privilgies - les axes factoriels - an de fournir une
iPI
2
de la projection du nuage
NI . Chaque direction us rend maximum l'inertie par NI sur l'axe factoriel us . De i se projette en Hi sur u 1 . Nous cherchons GHi . En eet, rendre maximum GHi2 revient
i.e.
iP I iPI
rendre minimum l'cart entre le nuage des individus et sa projection ( classique des moindres carrs. Ensuite, il faut trouver donnant une reprsentation susamment bonne.
iHi2 ), critre
cipaux.
Dnition 3.2.3 Les S axes factoriels fus Y s a I; ; S g sont appeles les facteurs prinDu fait d'avoir centr les donnes, ce critre permet d'interprter les axes factoriels
NK .
prsentation approche des corrlations entre les variables. La dmarche pour le nuage
30
CHAPITRE 3.
NI
NK
NI
des individus.
se projette en
kPK
2 OHk . Puis, nous cherchons le vecteur v2 orthogonal v1 qui satisfait ce mme critre.
v1 dnit une nouvelle variable qui est la combinaison linaire la plus lie l'ensemble des variables initiales du tableau X . Ainsi les S vecteurs fvs Y s a I; ; S g
tant orthogonaux deux deux, les rles entre elles.
vecteurs recherchs.
Dnition 3.2.4 Les S nouvelles variables (axes factoriels) fvs Y s a I; ; S g sont appeles les composantes principales.
Ce sont ces vecteurs qui sont l'origine du nom de cette analyse factorielle. La coordonne d'une variable initiale de
vs est son coecient de corrlation avec vs du fait que les variables tudies sont centres rduites. Ainsi le vecteur v1 qui
X
sur rend maximum variables initiales (la liaison tant entendu au sens du critre maximisant la somme des
kPK
2 OHk
3.3.
REPRSENTATION SIMULTANE
31
NK
moindres carrs des corrlations). C'est donc la variable qui synthtise le mieux l'ensemble des variables initiales. Les axes factoriels rsument donc l'ensemble des variables initiales du tableau
X.
Eet de taille
sont toutes corrles positivement deux deux. Dans ce cas, elles forment des angles aigus et le centre de gravit reprsente mal le nuage
GK
du nuage
NK
NK
cf.
car toutes les projections des variables sont proches les unes
des autres. En eet le premier axe factoriel rend toujours compte de la position du nuage
NK
NK
NI
et du
de reprsenter ces deux nuages simultanment sur les plans issus des premiers
axes factoriels. Nous devons cependant prendre garde au fait que les deux nuages ne sont en ralit pas dans les mmes espaces qui ont des dimensions direntes. Cette reprsentation simultane est essentiellement pragmatique. En eet, le nuage des individus
NI
NK
32
CHAPITRE 3.
ces deux nuages. Tout d'abord, l'inertie totale des deux nuages est la mme :
xik xk 2 I a :
I iPI kPK
De plus, les projections de tous les points du nuage des individus factoriel
u1 constituent une nouvelle variable (appele premier facteur, note F1) qui se
F1
dans I R
NI
confond la norme prs la premire composante principale (illustres sur la gure 3.7). Ainsi le vecteur
est colinaire
pour les projections sur les autres facteurs qui correspondent aux composantes principales de mme rang. De manire symtrique, les coordonnes des projections du nuage sur
NI
en fonction du nuage
NK .
3.4.
INTERPRTATION
33
NI ). Cette notion d'individu type est moins employe que celle de composante principale.
Il est souvent plus facile de tenter de se ramener des individus rels comme individu type.
G1
de I R
est colinaire
u1 (axe factoriel de
NK
en fonction du nuage
NI .
V b b b b b ` b b b b b X
o
Fs @iA a
s
pI
xik
s kPK
sk
xk G @kA
s
I I G @iA a p
NI
I s iPI
xik
sk
xk F @kA
s
(3.10)
s
(ou du nuage
Notons que les facteurs peuvent tre ngatifs. Cette reprsentation est donc essentiellement une aide pour l'interprtation.
3.4 Interprtation
A partir des relations donnes prcdemment, nous pouvons dnir quelques rgles pour l'interprtation : - Un individu sera du ct des variables pour lesquelles il a de fortes valeurs, inversement il sera du ct oppos des variables pour lesquelles il a de faibles valeurs. - Plus les valeurs d'un individu sont fortes pour une variable plus il sera loign de l'origine suivant l'axe factoriel dcrivant le mieux cette variable. - Deux individus une mme extrmit d'un axe ( proches (
i.e. se ressemblent).
i.e.
34
CHAPITRE 3.
- Il n'est pas possible d'interprter la position d'un individu par rapport une seule variable, et rciproquement, il n'est pas possible d'interprter la position d'une variable par rapport un seul individu. Les interprtations doivent se faire de manire globale. Les axes factoriels donnent des images approches des nuages de points
NI
et
NK .
Il est donc ncessaire de dnir des indicateurs pour mesurer la qualit de l'approximation. L'tude d'un plan de projection des sous-espaces vectoriels doit toujours se faire conjointement avec l'tude des indicateurs. En eet, deux points (individus ou variables) peuvent se trouver trs proches dans un plan de projection, alors qu'en ralit ils sont loigns. Nous prsentons ici les principales aides l'interprtation que nous retrouvons dans [EP90].
i par l'axe s est donne par le rapport de l'inertie de la projection de l'lment i sur l'axe s et de l'inertie totale de l'lment i : QLTs @iA a
La
est l'angle entre @OiA et l'axe s. Ainsi si est proche de 1, alors i est proche de l'axe s et donc du plan de projection contenant l'axe s. Cette qualit se gnralise au plan. Si un individu i est proche du plan, sa distance G (l'individu moyen) dans le plan est proche de la valeur relle. De mme les distances
o dans le plan entre deux individus bien reprsents sont proches de la ralit.
(3.11)
QLTN
N a iP iPN
@OHisA2 @OiA2
(3.12)
Cette qualit mesure l'importance d'un axe factoriel. Bien sr les premiers axes auront plus d'importance que les suivants. Nous devons juger ces pourcentages en fonction de la taille du tableau. Par exemple, 10% est une valeur faible si le tableau comporte 10 variables ; c'est une valeur forte dans le cas de 100 variables. Du fait de la dualit, il est quivalent de calculer ces pourcentages d'inertie partir du nuage
NI
des individus ou
NK
des variables.
i l'inertie d'un axe s est donne par le rapport de l'inertie de la projection de i sur l'axe s
La contribution d'un lment
3.5.
CONCLUSION
35
s:
(3.13)
La contribution est importante si elle est proche de 1 pour les variables et doit tre rapporte au tableau pour les individus. Ce rapport permet de mettre en vidence le sous-ensemble d'lments ayant particip essentiellement la construction de l'axe. L'interprtation devra en premier lieu s'appuyer sur ces lments. Pour aider l'interprtation nous proposons de suivre le plan suivant : - Choisir le nombre d'axes. Notons que le choix du nombre d'axes retenir reste un problme car il n'y a pas de solutions rigoureuses. Les valeurs propres permettent de choisir ce nombre par exemple de telle sorte que le pourcentage d'information cumule soit compris en 80% et 90% environ ou tel que toutes les valeurs propres soient suprieures 1 ou encore lorsque un saut important sur l'histogramme des valeurs propres ou sur les recherches de paliers de celles-ci est observ. De plus le nombre d'axes ne doit pas tre trop grand. - Etudier les indicateurs de la qualit des approximations. - Interprter les facteurs simultanment : - l'aide des contributions des individus, - l'aide des coordonnes des variables (interprter par axe et par plan), - l'aide des coordonnes des individus. - Mettre en vidence des typologies. Il est possible de faire intervenir des lments illustratifs (appels galement supplmentaires) an d'aider l'oprateur interprter. Ces lments, individus ou variables, n'interviennent pas dans la construction des axes factoriels, mais sont reprsents pour l'tape d'interprtation. Dans le cas des variables, il s'agit de variables quantitatives qui peuvent tre continues ou nominales. L'ajout d'lments illustratifs doit rester exceptionnels, car ils n'appartiennent normalement pas au champ strict de l'tude. Il peut cependant parfois tre intressant de supprimer un individu provoquant un eet de taille dans le calcul des axes, et de le faire apparatre pour interprter ses projections en fonction des autres individus.
3.5 Conclusion
Dans un premier temps rsumons l'analyse en composantes principales l'aide des neuf tapes de la gure 3.9 : - 1 : La premire tape concerne la mise en forme des donnes brutes. - 2 : La deuxime tape consiste centrer et rduire les donnes. Elles sont centres an d'obtenir des proprits intressantes, et rduites pour uniformiser les units de mesure. - 3 : Le tableau est considr comme juxtaposition de lignes.
36
CHAPITRE 3.
- 4 : Le tableau est considr comme juxtaposition de colonnes. - 5 : Les individus sont reprsents dans un espace
NI
G reprsente un individu moyen. 6 : Les variables sont reprsentes dans un espace I dimensions. Nous nous intresNK
se situe sur une hypersphre.
nous nous intressons aux distances inter-individuelles qui dterminent les res-
sons ici aux angles des points. Le cosinus de l'angle est le coecient de corrlation. Toutes les variables sont quidistantes de l'origine car les donnes ont t rduites, ainsi le nuage - AF : Analyse Factorielle. Cette phase permet de mettre en vidence une suite de directions. Dans l'tape 7 ces directions sont des directions d'allongement, et dans l'tape 8 les axes s'interprtent comme des variables synthtiques. - 7 : Cette tape consiste projeter les points du nuage
NI
factoriel. C'est un premier ajustement, il peut y en avoir d'autres suivre. Les distances s'interprtent alors comme des ressemblances entre les individus. - 8 : Cette tape consiste projeter les points du nuage
NK
factoriel. Ici aussi, c'est un premier ajustement, et il peut y en avoir d'autres suivre. Les coordonnes reprsentent les coecients de corrlation avec les facteurs sur les individus. - Les relations de transition expriment les rsultats d'une analyse factorielle (AF) dans un espace en fonction des rsultats de l'autre. - 9 : Cette tape est la reprsentation simultane de nuages de points qui se trouvent initialement dans des espaces de dimensions direntes. Cette reprsentation issue des relations de transition permet des interprtations des axes simultanes.
L'ACP est une mthode puissante pour synthtiser et rsumer de vastes populations dcrites par plusieurs variables quantitatives. Elle permet entre autre de dgager de grandes catgories d'individus et de raliser un bilan des liaisons entre les variables. Par cette analyse nous pouvons mettre en vidence de grandes tendances dans les donnes telles que des regroupements d'individus ou des oppositions entre individus (ce qui traduit un comportement radicalement dirent de ces individus) ou entre variables (ce qui traduit le fait que les variables sont inversement corrles). Les reprsentations graphiques fournies par l'ACP sont simples et riches d'informations. L'ACP peut tre une premire analyse pour l'tude d'une population dont les rsultats seront enrichis par une autre analyse factorielle ou encore une classication automatique des donnes.
3.5.
CONCLUSION
37
38
CHAPITRE 3.
tableaux
entre deux variables nominales. Les domaines d'application de l'AFC sont donc dirents de ceux de l'ACP qui est adapte aux tableaux de mesures htrognes ou non. Pour cette analyse aussi nous pouvons donner une longue liste des disciplines ayant trouv rponse leur problme par l'AFC. Ainsi, l'cologie, la zoologie, la psychologie, l'conomie, et d'autres encore dans lesquelles il peut tre intressant d'tudier les liaisons entre deux variables nominales, ont fourni un grand nombre de donnes. L'AFC conue pour les tableaux de contingence ( aux tableaux de mesures homognes ( issus de questionnaires d'enqutes.
de rangs, de prfrences, aux tableaux valeurs logiques (0 ou 1), et encore aux tableaux
39
40
CHAPITRE 4.
......
premire variable
Modalit de la
1 . . . . . .
......
. . . . . .
kij
. . . . . .
. . . . . .
......
Dnition 4.1.1 Un tableau de contingence est un tableau d'eectifs obtenus en croisant les modalits de deux variables qualitatives dnies sur une mme population de n individus.
L'AFC peut galement tre tendue aux variables quantitatives homognes en dnissant simplement quelques modalits pour ces variables. Par extension, elle s'applique aussi aux tableaux individus-variables pour des variables quantitatives homognes, dans ce cas les individus sont considrs comme des variables. Nous devons donc considrer les donnes brutes organises de la faon dcrite sur le tableau 4.1. Dans ce cas,
a f I; ; I g J fI; ; J g kij
, , et
variable et la modalit
i de la premire
iPI j PJ
kij a n;
(4.1)
avec
n le nombre total d'individus de la population initiale. Nous constatons que sur ce fij
sont donnes par :
type de tableau les lignes et les colonnes jouent un rle symtrique. Davantage que le tableau 4.1, c'est le tableau des frquences relatives 4.2 qui est considr. Les frquences
fij a
et les marges par :
kij ; n fij ;
(4.2)
fi a
j PJ
(4.3)
4.1.
INTRODUCTION
41
1 1 . . . . . .
......
j
. . . . . . . . . . . .
......
marge
......
. . . . . .
fij
......
fi
marge
fj
et
fj a
Nous avons ainsi :
iPI
fij :
(4.4)
iPI
fi a
j PJ
fj a
iPI j PJ
fij a I:
(4.5)
gence ou de frquence pour tudier les liaisons entre les deux variables l'initiative du tableau. Nous ne pouvons plus dnir les liaisons par les coecients de corrlation comme
Dnition 4.1.3 Nous disons qu'il y a liaison entre ces deux variables, ou que ces deux
fij i j
et
s'associent plus
que sous l'hypothse d'indpendance. Nous dirons que les deux modalits s'attirent. - Si
et
fij
sous l'hypothse d'indpendance. Nous dirons qu'il y a rpulsion entre les deux modalits
i et j .
42
CHAPITRE 4.
Sous l'hypothse d'indpendance nous avons : - en considrant le tableau comme un ensemble de lignes :
a fj ; Vi P I; Vj P J; a fi; Vi P I; Vj P J:
fj
(4.7)
Ainsi il y a indpendance lorsque les lignes du tableau de frquences sont proportionnelles. Par symtrie il en est de mme pour les colonnes.
proches
si elles s'associent de
4.2.
PRINCIPE DE L'AFC
43
Couleurs des cheveux brun Couleurs des yeux Total marron noisette vert bleu 68 15 5 20 108 chtain 119 54 29 84 286 roux 26 14 14 17 71 blond 7 10 16 94 127 Total 220 93 64 215 592
9 IHH
pas vraiment, puisque les conclusions sont immdiates ds le tableau de contingence, cependant nous verrons clairement le principe et les proprits de cette analyse. Prenons l'exemple simple de la rpartition de 592 femmes selon les couleurs des yeux et des cheveux (exemple propos par Cohen en 1980 et repris dans [LMP95]). Le tableau 4.3 de contingence donne le nombre de femmes possdant la fois une des quatre modalits de la couleur des cheveux et une des quatre modalits de la couleurs de yeux. Ainsi et
IaJ aR n a SWP. Le tableau des frquences 4.4 correspondant permet de ne plus tenir compte
du nombre de femmes total. Ainsi nous pouvons nous demander s'il y a indpendance entre la couleur des yeux et celle des cheveux, ou encore quelles sont les associations entre ces couleurs. Sur cet exemple les rponses sont assez faciles, cependant lorsque la taille des donnes est plus importante, nous ne pouvons travailler directement sur le tableau des donnes brutes. Comme dans l'ACP, il y a une tape de transformation des donnes.
cf. tableau 4.5). Lorsque le tableau est considr en ligne les donnes fi , la nouvelle ligne ainsi cre est appele prol-ligne .
Cette normalisation a pour but de considrer les liaisons entre les deux variables au travers de l'cart entre les pourcentages en lignes. Dans cette exemple d'avoir les cheveux de couleur
j sachant que la couleur des yeux est i. Le prol-ligne i est i sur l'ensemble des colonnes. Un raisonnement
fij fi
reprsente la probabilit
similaire peut tre fait pour les colonnes du fait du rle symtrique jou par les lignes
44
CHAPITRE 4.
1 1 . . . . . .
......
i
. . . . . .
......
1 1 . . . . . .
......
i
. . . . . .
......
......
. . . . . .
fij fi
. . . . . .
......
...
...
. . . . . .
fij fj
. . . . . .
...
...
i sachant qu'elle a les cheveux de couleur j . Si nous reprenons notre exemple sur
Le tableau 4.6 reprsente donc les
fij fj
les couleurs de cheveux et des yeux, nous obtenons les prols-lignes et les prols-colonnes donns respectivement par les tableaux 4.6 et 4.7. probabilits conditionnelles d'avoir les cheveux de la couleur
couleur . Le tableau 4.7 fournit la rpartition de la couleur des yeux selon les modalits de la couleur des cheveux. Nous avons donc par exemple 31 chances sur 100 que les femmes qui ont les yeux marrons aient les cheveux de couleur brun, et 63 chances sur 100 que les femmes qui ont les cheveux de couleur brun aient les yeux marrons. Nous savons aussi partir du tableau 4.4 que 11 femmes sur 100 ont la fois les yeux marrons et les cheveux de couleur brun.
2
4.2.
PRINCIPE DE L'AFC
45
Couleurs des cheveux brun Couleurs des yeux marron noisette vert bleu Prol moyen 62,9 13,8 4,6 18,5 chtain 41,6 18,8 10,1 29,3 roux 36,6 19,7 19,7 23,9 blond 5,5 7,8 12,5 74,0
I d2 @i; iH A a f j PJ j
et entre deux colonnes
(4.9)
et
j H par :
2
La matrice diagonale
I R . Cette pondration
I f j I
: fi
(4.10)
f j
Remarque
dienne usuelle entre les points-lignes ou entre les points-colonnes exprims partir du tableau de frquence ne traduit que les dirences d'eectifs entre deux modalits. La distance euclidienne entre les prols-lignes ou entre les prols-colonnes permet de bien modliser les ressemblances entre deux modalits. Par exemple pour la distance entre deux prols-lignes est donne par :
iH j f fiH :
2
: f j
(4.11)
notre exemple elle favorise les couleurs de cheveux bien reprsentes tel que le chtain. C'est pour cette raison que la distance retenue dans l'quation (4.9) (respectivement (4.10)) l'cart entre les prols est pondr par l'inverse de la masse de la colonne (respectivement de la ligne). Cette distance est nomme distance du
2 car elle proportionnelle 2 la statistique du de Karl Pearson. De plus cette distance du possde une proprit fondamentale nomme l'quivalence distributionnelle . Cette proprit permet d'associer
2
46
CHAPITRE 4.
deux modalits d'une mme variable qui possde des prols identiques en une modalit unique aecte de la somme de leurs masses, sans modier ni les distances entre les modalits de cette variable, ni les distances entre les modalits de l'autre variable. Ainsi, si deux colonnes proportionnelles d'un tableau sont regroupes, les distances entre prols-lignes sont inchanges, et rciproquement. Ceci permet de regrouper des modalits voisines pour ainsi rduire le nombre de modalits et donc la complexit de l'interprtation en garantissant une certaine invariance des rsultats.
cf.
peut
dimensions reprsente
NI
2 ,
f j
la
HI . Pour l'AFC les poids aects chaque point du nuage sont imposs et ne sont pas identiques. Le point i a pour poids la frquence marginale fi . Ce poids est
4.2.
PRINCIPE DE L'AFC
47
f i sur l'axe j est donne par ij . fi Le barycentre des points de NI munis de ces poids, not GI , est la moyenne pondre de tous les points sur tous les axes j . La coordonne de GI sur l'axe j est donc donne
coordonne du point par :
iPI
fi
fij fi
a fj :
(4.12)
Le barycentre s'interprte comme un prol-moyen. Dans l'tude des lignes, il sert de rfrence pour tudier dans quelle mesure et de quelle faon une classe d'individus dire de l'ensemble de la population. Ceci se fait par l'tude de l'cart entre le prol de cette classe et le prol moyen. Ainsi l'tude de la dispersion du nuage autour de son barycentre quivaut l'tude de l'cart entre prols et marge ou encore l'tude de la liaison entre les deux variables.
I dimensions reprsente une modalit de la premire fij variable (cf. gure 4.2). Le point i a pour coordonne sur l'axe i la proportion , et le fj poids qui lui est associ est fi . Le nuage NJ appartient un hyperplan not HJ . De plus le barycentre des points de NJ munis de leur poids a pour coordonne sur l'axe i : f (4.13) fj ij a fi : fj j PJ
Ce barycentre s'interprte galement comme un prol moyen et joue le mme rle pour l'tude de la liaison entre les deux variables.
HI
et
HJ
importante. Nous ne pouvons donc pas les tudier directement. Ainsi, nous cherchons fournir des images planes des nuages prsente au Chapitre 2. Ainsi, pour l'ajustement du nuage des prols-lignes, nous cherchons une suite d'axes orthogonaux deux deux axe centrer le nuage
NI
et
NJ .
fus Y s a I; ; S g sur lesquels le nuage NI est projet. Chaque us doit rendre maximum l'inertie projete du nuage NI . En pratique, nous devons
NI ,
ainsi le centre de gravit
Gi
48
CHAPITRE 4.
NJ
i a pour coordonne
fi fj
fij
sur le
sur l'ensemble des modalits de la seconde variable. La recherche des axes qui rendent maximum l'inertie du nuage centr revient donc chercher les classes qui s'cartent le plus du prol de l'ensemble de la population. Chaque prol-ligne tant muni d'un poids
iPI
fi
fi fj NI
fij
2
:
J
(4.14)
u1 qui rende cette inertie maximale, puis par chercher le vecteur unitaire u2 orthogonal u1 qui vrie le mme critre, etc.
interviennent au travers de leur prol, que la distance entre les prols est celle du que chaque lment
dans I R
Cette dmarche est semblable celle de l'ACP, l'exception du fait que les lignes
2
et
Puisqu'en AFC les lignes et les colonnes jouent un rle symtrique, l'ajustement du nuage
NJ
doivent tre
telles que les distances entre les points de l'image ressemblent le plus possible aux distances entre les points du nuage barycentre
GJ .
NJ .
L'analyse du nuage
4.2.
PRINCIPE DE L'AFC
49
plus riche qu'en ACP car les lignes et les colonnes reprsentent des lments de mme
NI
et
NJ
considrant en tant que prols-lignes et prols-colonnes. L'analyse du tableau passe donc par les analyses des nuages qui ne sont pas indpendantes.
L'inertie du nuage
NI
iPI
fi
j PJ
fj
fij f fi j NJ
2
iPI j PJ
@fij fifj A2 :
fi fj
(4.15)
NI . Cette inertie 2 reprsente la liaison entre les deux variables. En eet la statistique du habituellement
Nous constatons que l'inertie du nuage est identique celle du nuage employe pour mesurer la liaison entre deux variables est la somme du rapport avec pour numrateur le carr de la dirence de l'eectif observ et de l'eectif thorique et pour dnominateur l'eectif thorique :
iPI j PJ
@nfij nfifj A2 a nI a nI : NI NJ nf f
i
j
(4.16)
2 est gale, au coecient n prs, l'inertie totale du nuage NI 2 du nuage NJ . Ceci justie une nouvelle fois l'emploi de la distance du .
Ainsi la statistique du
et
Nous avons vu au chapitre 2 que les inerties associes chaque axe de mme rang dans chacun des nuages sont gales, ainsi que les facteurs de mme rang sur les lignes et les colonnes sont lis par des relations de transition. Ces relations donnent un sens une reprsentation simultane. Le schma de dualit de la gure 4.3 reprsente les relations de transition (appeles galement barycentriques, ou encore quasi-barycentriques) donnes par :
V b b b b b ` b b b b b X
FS @iA a
pI
fij
S j PJ
fi
GS @j A FS @iA S S
du nuage (4.17)
I GS @j A a p
j
fij
S iPI
f j
FS @iA
du nuage
NI , GS @j A NJ , et S est la
(4.18)
valeur commune de l'inertie associe chacun de ces axes. Elle est donne par :
S a
iPI
fi FS @iA2 a
j PJ
fj GS @j A2 :
50
CHAPITRE 4.
S,
chaque
i sur l'axe S est le barycentre des projections des colonnes colonne j tant aecte du poids fij . Cette proprit est appele
sur des plans engendrs par des axes de mme rang pour les
proprit barycentrique. La reprsentation simultane s'obtient en superposant les projections de chacun des deux nuages
NI
et
NJ
deux nuages. Bien sr les deux nuages ne sont pas forcment dans le mme espace. Si la reprsentation simultane n'est pas adopte par tous pour l'ACP, elle se justie beaucoup mieux pour l'AFC. En fait pour pouvoir rellement superposer les deux nuages, il faudrait avoir les mmes barycentres car chaque nuage devrait alors tre contenu dans l'autre. Cette reprsentation est possible en forant les centres de gravit pour approcher la solution idale. Les relations seront alors quasi-barycentriques.
4.3 Interprtation
La reprsentation simultane des lignes et des colonnes permet une interprtation aise des projections. Ainsi la position relative de deux points d'un mme ensemble (ligne ou colonne), s'interprte en tant que distance. La position d'un point d'un ensemble et tous les points d'un autre ensemble s'interprte en tant que barycentre. Attention cependant, toute association entre une ligne et une colonne suggre par une proximit sur le graphique doit tre contrle sur le tableau. Reprenons l'exemple prcdent sur la couleur des yeux et des cheveux. La reprsentation simultane sur le premier plan factoriel (
cf.
les femmes aux yeux bleus et aux yeux marrons sont loignes. En conrmation avec le tableau, nous remarquons que les femmes aux yeux bleus auront tendance avoir les cheveux blonds, ainsi que pour celles aux yeux marrons qui seront davantage brunes. Les femmes aux cheveux roux auront plutt les yeux verts ou noisettes. La modalit des
4.3.
INTERPRTATION
51
cheveux chtains est proche de l'origine, elle reprsente donc un prol moyen et n'est rattache aucune couleur de cheveux.
Fig. 4.4 Reprsentation simultane dans le premier plan sur l'exemple de Cohen.
Pour l'interprtation, il peut tre utile partir des nuages de points d'en dduire les relations d'indpendance et l'inertie totale et des axes. Nous reprenons les principaux cas tudis dans [LMP95] sur la gure 4.5. Ainsi une inertie faible du nuage entrane un nuage concentr autour du centre de gravit tandis qu'une inertie forte donne un nuage dilat. L'indpendance des variables donne une forme sphrique au nuage, ce qui entrane aucune direction privilgie pour les axes, l'inertie des axes est donc dans ce cas faible. Au contraire l'existence d'une dpendance provoque un tirement du nuage dans une direction donne. Lorsque les nuages de points sont scinds en plusieurs sous-nuages, il est possible de rorganiser les donnes du tableau en ordonnant les coordonnes des lignes et des colonnes de faon regrouper les frquences nulles ( sous-nuages indpendamment en considrant les parties du tableau correspondant. Gnralement, l'interprtation se limite aux premiers facteurs, nous considrons ainsi une approximation du tableau initial. Les calculs de reconstruction de l'analyse factorielle s'appliquent ici. Il est possible de montrer que :
Fs
sPS
@p iAGs @j A :
s
(4.19)
Cette formule prsente la dcomposition de l'cart du tableau relativement l'hypothse d'indpendance en une somme de tableaux dont chacun ne dpend que d'un couple de facteurs
@Fs; GsA
d'un mme rang. Elle dcompose ainsi la liaison des deux variables en
52
CHAPITRE 4.
les modalits
i et j . Ainsi, si Fs @iA et Gs @j A sont du mme signe, la case @i; j A du tableau Fs @iAGs @j A est grande.
exprime une attirance, sinon elle exprime une rpulsion. L'attirance et la rpulsion seront d'autant plus grande que la valeur absolue du produit Puisque le tableau est approch, lorsqu'une partie seulement est considre pour l'analyse, il est important d'employer des indicateurs pour l'interprtation. Ceux utiliss pour l'AFC sont les mmes que ceux de l'ACP que nous avons vu la section 3.4 du chapitre prcdent. Nous pouvons donc tudier la qualit de reprsentation d'un lment par un axe ou un plan. La qualit de reprsentation d'une ligne par un axe rapport de l'inertie projete du point sur l'axe
s et t est donne
(4.21)
La qualit de reprsentation d'un nuage par un plan est mesure par le rapport de
sPS
s ; s
(4.22)
4.3.
INTERPRTATION
53
Enn la contribution d'un lment l'inertie d'un axe est mesure par le rapport de l'inertie du point et de l'inertie du nuage. Lorsque l'lment est une ligne, la contribution l'inertie d'un axe
(4.23)
(4.24)
Il est aussi possible, comme pour l'ACP, d'ajouter des lments supplmentaires, illustratifs qui sont projets sur les plans tudis. Leur utilisation pour l'AFC est plus frquente que pour l'ACP, car il peut y avoir beaucoup de variables pour une tude donne qui ne sont pas considres dans cette analyse. Les projections sur les axes factoriels des prolslignes ou des prols-colonnes de ces lments n'interviennent pas dans les calculs de ces axes. Pour une bonne interprtation des plans de projection en AFC, nous proposons de suivre le plan suivant : - Choisir le nombre d'axes de projection tudier. Ce choix peut se faire par la mme approche que celle dcrite pour l'ACP. - Etudier les valeurs propres. Les valeurs propres proches de 1 traduisent une forte liaison entre les lignes et les colonnes. - Etudier la contribution des lignes et des colonnes de la mme faon que pour l'ACP. - Etudier les coordonnes des lments actifs : - ceux qui prsentent une forte contribution, - les extrmes avec une forte qualit de reprsentation (pour qualier le facteur).
54
CHAPITRE 4.
4.4 Conclusion
Nous rsumons l'AFC en neuf tapes illustres par la gure 4.7 : - 1 : Cette premire tape donne le tableau de contingence des modalits communes aux deux variables. Les lignes et les colonnes jouent des rles symtriques. - 2 : Cette deuxime tape modie le tableau en frquences. Ces frquences font apparatre des lois de probabilits. - 3 : Nous considrons ici le tableau comme une juxtaposition de lignes aprs transformation en divisant par
interprtes comme des probabilits conditionnelles. - 4 : Nous considrons ici le tableau comme une juxtaposition de colonnes aprs transformation en divisant par peuvent tre interprtes comme des probabilits conditionnelles. - 5 : Les prols-lignes qui constituent le nuage nuage
NI
GI
HI . Le nuage NI NJ
NI
NJ
au centre de gravit
GJ
HJ . Le nuage NJ
- AF : Analyse Factorielle. Elle permet de mettre en vidence une suite de directions orthogonales, d'tudier les projections en 7 et 8 en fonction de leurs proximits entre elles et par rapport l'origine qui correspond un prol moyen. - 7 : Cette tape consiste en la projection du nuage - 8 : Cette tape consiste en la projection du nuage
NI
NJ
Les distances correspondent des ressemblances entre les modalits. - Relations de transition : ces relations expriment les rsultats d'une AF en fonction des rsultats de l'autre. - 9 : Les relations de transition permettent des interprtations simultanes des axes. Cette reprsentation simultane facilite l'interprtation. Attention toute association entre un point-ligne et un point-colonne suggre par une proximit doit tre contrle sur le tableau.
L'ACP et l'AFC sont direntes en plusieurs points, elles fournissent des clairages complmentaires. L'AFC est une mthode puissante pour synthtiser et rsumer de vastes tableaux de contingence. En pratique elle est applique beaucoup d'autres tableaux, notamment les tableaux individus-variables. Les individus sont alors considrs comme une variable. Dans le cas de tableaux de contingence, le principal objectif de cette analyse est de dgager les liaisons entre deux variables. L'analyse des correspondances multiples que nous exposons dans le chapitre suivant permet l'tude des liaisons entre plus de deux variables.
4.4.
CONCLUSION
55
56
CHAPITRE 4.
disjonctifs complets
des tableaux logiques pour des variables codes. Les proprits de tels tableaux font de l'ACM une mthode spcique aux rgles d'interprtation des reprsentations simples. Elle permet donc l'tude des liaisons entre plus de deux variables qualitatives, ce qui tend le spectre d'tude de l'AFC. L'ACM est donc trs bien adapte au traitement d'enqutes lorsque les variables sont qualitatives (ou rendues qualitatives). Il est galement possible de n'appliquer cette mthode plusieurs fois en ne prenant en compte que quelques variables.
individus et
variables qualitatives. Une variable qualitative (ou nominale) peut tre dcrite par une
I individus dans un ensemble ni non structur, par exemple non ordonn. Ces variables qualitatives peuvent tre codes par un codage condens qui
attribue une valeur chaque modalit. Par exemple les modalits pour la couleur d'un vin peuvent tre 1 pour le rouge, 2 pour le blanc et 3 pour le ros. Les donnes peuvent donc tre reprsentes sous la forme d'une matrice
X dcrite par le tableau 5.1, o I reprsente la fois le nombre d'individus et l'ensemble des individus I a fI; ; I g, J reprsente
57
58
CHAPITRE 5.
Variables
1 1 . . . . . . . . . . . . ......
......
Individus
......
xij
. . . . . .
. . . . . .
......
Tab. 5.1 Reprsentation des donnes sous forme de codage condens pour l'ACM.
la fois le nombre de variables et l'ensemble des variables codage condens de l'individu Les
xij
i pour la variable j .
a f I; ; J g
et
xij
est le
donnes ne peuvent donc pas tre traites par l'ACP ou l'AFC prcdemment tudies. Ce tableau prsente donc des spcicits dont l'analyse factorielle doit tenir compte par une mthode spcique.
2
est galement
5.2.
PRINCIPE DE L'ACM
59
Variable 1
1 1 . . . . . . . . . . . .
Variable
Variable
J K
marge
...............
k
. . . . . .
...............
Individus
0100000
. . . . . .
xik
0000100
J I1 Ik IK
Tab. 5.2 Reprsentation des donnes sous forme de codage condens pour l'ACM.
cf. tableau 5.2). Ainsi, l'intersection de la ligne i avec la colonne k, la valeur xik vaut 1 si l'individu i possde la modalit k et 0 sinon. Ce tableau porte le nom de disjonctif complet , car l'ensemble des valeurs xik d'un mme individu pour
les modalits d'une mme variable, comporte la valeur 1 une fois (complet) et une fois seulement (disjonctif ). Chaque modalit Notons familles d'lments les individus, les variables et les modalits.
marge
j et galement l'ensemble des modalits de cette variable Kj a fI; ; Kj g. Ainsi K a Kj est la fois le nombre des
le nombre des modalits de la variable modalits toutes variables confondues et l'ensemble les galits suivantes :
Kj
j PJ
a f I; ; K g
kPKj
(5.1)
kPK
(5.2)
iPI
xik a Ik ; Vk;
(5.3)
60
CHAPITRE 5.
origine 1 1 2 2 1 1 2 2
apprciation 4 3 1 3 2 2 1 3
et
kPKj
Ik a I; Vj:
(5.4)
Les proprits intressantes de l'ACM sont essentiellement dues aux proprits des tableaux disjonctifs complets. Notons surtout que c'est un tableau binaire dont les lignes sont de sommes constantes
Exemple 5.2.1
vons l'illustrer par un exemple. Nous supposons avoir des donnes issues d'une enqute sur l'apprciation du vin. Nous pouvons considrer trois variables : la couleur, l'origine et l'apprciation de l'individu. Nous reprenons les trois modalits rouge, blanc et ros pour la couleur codes respectivement par 1, 2 et 3. Nous considrons uniquement deux origines : Bordeaux et Cte du Rhne, codes par 1 et 2, et quatre modalits pour l'apprciation : mauvais, moyen, bon et trs bon codes respectivement par 1, 2, 3 et 4. Nous avons ainsi trois variables (
aQ
) et neuf modalits (
aW
donns dans le tableau 5.3. Ainsi, par exemple l'individu 5 a moyennement apprci un Bordeaux rouge. Le tableau disjonctif complet 5.4 dduit ce tableau initial prsente les mmes informations. Ainsi, l'individu 5 prsente les modalits : rouge, Bordeaux, moyen.
aP
reprsentes sous la forme d'un tableau de contingence, comme dans l'AFC, mettant ainsi en correspondance les modalits des deux variables. Il est possible d'tendre ce tableau une hypertable de contingence lorsque
K2
et
K3 ) J
aQ
cf.
gure 5.1), o
K1
(respectivement
Iklm
(de la
5.2.
PRINCIPE DE L'ACM
61
Couleur Rouge Ind. 1 Ind. 2 Ind. 3 Ind. 4 Ind. 5 Ind. 6 Ind. 7 Ind. 8 0 0 0 0 1 0 0 1 Blanc 1 1 1 0 0 0 0 0 Ros 0 0 0 1 0 1 1 0
J a Q.
L'hypertable tant problmatique pour un grand nombre de variables, pour gnraliser le tableau de contingence deux variables, il est possible de considrer les tableaux de contingence entre variables prises deux deux. Nous obtenons ainsi une juxtaposition de tableaux de contingence. Un tel tableau est appel (
tableau de Burt
blance
ressem-
est dtermine par le nombre de modalits en commun. Par exemple dans une
enqute d'opinion, il est important de mettre en vidence une classe d'individus dtermines par des variables. Pour l'tude des variables deux points de vue s'orent nous. Nous pouvons caractriser les liaisons entre deux variables qualitatives en considrant les modalits, ou encore chercher rsumer l'ensemble des liaisons l'aide de quelques variables numriques qui synthtisent l'ensemble des variables. Les catgories socio-professionnelles peuvent ainsi rsumer une variable statut social. La richesse de l'ACM provient de l'tude d'une troisime classe d'lments, les modalits. De la mme faon que les individus, nous
62
CHAPITRE 5.
Variable
1 1 ......... .. . .. .
k
. . . . . .
..................
Variable
Ik
. . . . . . .. . .. . .. .
jH
Variable
h K
marge
Ihk
. . .
.. .
JIk
pouvons chercher tablir un bilan des ressemblances entre modalits. Les ressemblances entre modalits peuvent tre dnies partir du tableau disjonctif complet, ou bien partir du tableau de Burt. Dans le premier cas une colonne est une variable indicatrice, ainsi deux modalits se ressemblent si elles sont prsentes ou absentes chez beaucoup d'individus. Dans le cas du tableau de Burt, une ligne ou une colonne correspond une classe d'individus, ainsi deux modalits se ressemblent si elles s'associent beaucoup ou peu aux mmes modalits. Ces deux points de vue aboutissent aux mmes rsultats. L'ACM peut donc tre vue comme une AFC du tableau disjonctif complet ou comme une AFC du tableau de Burt. La richesse apporte par ces trois lments, ne doit pas occulter l'unicit du tableau, et donc des conclusions parfois redondantes. Il sera donc prfr l'tude des modalits en priorit.
fi a
xik
kPK
IJ
I; aI
5.2.
PRINCIPE DE L'ACM
63
1 1 . . . . . .
......
k
. . . . . .
......
marge
......
. . . . . .
xik IJ .
. . . . .
......
Ik IJ
marge
et
fk a
cf.
xik
IJ iPI
ik a IJ :
(5.6)
Une fois les frquences calcules, il faut considrer le tableau en prols-lignes et prolscolonnes ( tableau 5.7). Ainsi le tableau est de nouveau modi de faon ce que pour les prols-lignes la marge des lignes soit 1 et pour les prols-colonnes la marge des colonnes soit 1. Ainsi chaque case est compose respectivement de
xik J
et
xik . Ik
NI
possde. La marge tant constante, la transformation en prols-lignes ne modie en rien les donnes. Ainsi le nuage
NI
cf. gure 5.2). Un individu i est un point de IRK qui J xik a pour coordonne sur l'axe k la valeur avec un poids identique pour chaque individu J I . Le barycentre G du nuage N a pour coordonne Ik (car la marge est constante) de I I I IJ sur l'axe k . La ressemblance entre deux individus est dnie par les modalits de chacun
prol d'une ligne est soit 0 soit ( des individus. Si les deux individus prsentent globalement les mmes modalits, alors ils se ressemblent. La distance qui caractrise cette ressemblance entre deux individus
HI
d'arrte
, puisque le
i et l
64
CHAPITRE 5.
1 1 . . . . . .
......
k
. . . . . .
......
1 1 . . . . . .
......
k
. . . . . .
......
i
. . . . . .
......
xik J .
. . . . .
......
i
. . . . . .
...
...
xik Ik
. . . . . .
...
...
d2 @i; lA a
modalit
IJ xik I J kPK k
i et l, ce qui est recherch. Le poids de la modalit k dans la I distance est l'inverse de sa frquence : . Ainsi si un individu possde une modalit rare, Ik
Chaque modalit peut tre reprsente par le prol-colonne, c'est--dire par les valeurs
(5.7)
possde la
prises par tous les individus pour la modalit considre. Ainsi une modalit de l'espace I R
et a pour coordonne
GK
xik Ik
sur l'axe
avec un poids
du nuage
NK
NK
Ik
Ik
@xik A2 a xik
2
(5.8)
d @k; hA a
(5.9)
5.2.
PRINCIPE DE L'ACM
65
NI
dans l'espace I R
ce qui est le nombre d'individus possdant une et une seule des deux modalits
multipli par
I . Ik Ih
ou
et
modalits. Ainsi, par construction, deux modalits d'une mme variable sont loignes l'une de l'autre (puisqu'elles ne peuvent pas tre possdes par le mme individu). Deux modalits possdes par exactement les mmes individus sont confondues, tandis que les modalits rares sont loignes de toutes les autres et du centre de gravit
GK .
La reprsentation simultane
et
NK
Il est possible, comme pour l'AFC, de reprsenter simultanment les deux nuages
NI
grce la dualit existant entre ces deux nuages. Avec les notations donnes par
V b b b b b ` b b b b b X
FS @iA a
pI
xik
S kPK
GS @kA FS @iA
(5.10)
I GS @kA a p
xik
FS @iA reprsente la projection de la ligne i sur l'axe de rang S de NI , tandis que GS @kA reprsente la projection de la ligne k sur l'axe de rang S de NK . S reprsente toujours la valeur commune de l'inertie associe chacun de ces axes de rang S des nuages NI et NK . Ces relations s'interprtent facilement car les xik ne prennent que les valeurs 0 I prs, au barycentre des modalits que ou 1. Ainsi FS @iA est plac au coecient p S
o
S iPI
Ik
66
CHAPITRE 5.
NK
dans l'espace I R .
i possde. Inversement, GS @kA est plac au coecient p prs, au barycentre S des individus qui possdent la modalit k . Les modalits peuvent ainsi tre vues comme
l'individu barycentre d'une classe d'individus, ou comme une modalit d'une variable. Il faudra cependant tenir compte lors de l'interprtation, que malgr cette quivalence entre les facteurs mme espace (I R
FS @iA
et
GS @kA,
La reprsentation simultane n'est pas toujours facile interprter, car en pratique le nombre d'individus et de modalits pouvant tre grand, le graphique devient vite encombr. Elle permet cependant de bien caractriser les rpartitions et les classes d'individus.
5.3.
INTERPRTATION
67
5.3 Interprtation
Nous avons vu que deux individus se ressemblent s'ils prsentent globalement les mmes modalits. Cette ressemblance se traduit par une proximit des individus dans l'espace I R
multane. De mme si deux modalits d'une mme variable sont proches dans l'espace
68
CHAPITRE 5.
de projection, ceci se traduit par une ressemblance entre les groupes d'individus qui les ont choisies. La proximit de deux modalits de variables direntes s'interprte en terme d'
globalement les mmes individus. En fait ces modalits correspondent alors aux points moyens des individus. faire en considrant les modalits comme barycentre de classe d'individus. Il est souvent ncessaire de se reporter au tableau de donnes pour vrier les conclusions. Nous rappelons que sur la reprsentation simultane, les nuages
NI
et
NK
ne sont pas
dans les mmes espaces. Il est donc important d'avoir recours des indicateurs sur la qualit de reprsentation. Les indicateurs pour l'interprtation de l'ACM sont les mmes que ceux de l'ACP et de l'AFC dj donns, ici pour les individus et les modalits. Ainsi nous pouvons tudier la qualit de reprsentation de chaque individu et de chaque modalit par un axe ou par un plan. La contribution d'un individu ou d'une modalit l'inertie d'un axe ou d'un plan doit aussi tre considre. La notion de variable doit galement tre prise en compte. Ainsi la contribution d'une variable l'inertie d'un axe peut tre obtenue en sommant les contributions des modalits de cette variable l'inertie du mme axe. Nous obtenons ainsi un indicateur de liaison entre la variable et le facteur.
tre des variables (et leurs modalits) ou bien des individus. Les variables supplmentaires permettent d'enrichir l'interprtation des axes sans avoir participes leur construction. Une variable supplmentaire couramment employe est la variable qualitative obtenue par la classication hirarchique (
l'analyse peuvent tre situs par rapport aux individus actifs, ou des groupes d'individus actifs dans une optique de discrimination. Il est aussi courant de regrouper les modalits de faible eectif (qui n'ont pas de signication statistique) pour ensuite les reprsenter en tant qu'lments supplmentaires.
An de ne rien oublier pour l'interprtation des rsultats, nous proposons de suivre le plan suivant : - Dnir le nombre de modalits des variables quantitatives, s'il y a des variables quantitatives intressantes pour l'tude. - Choisir le nombre d'axes de projection. Ce choix se fait toujours de la mme faon que pour l'ACP ou l'AFC. - Etudier les valeurs propres qui reprsentent l'inertie de chaque axe. - Etudier la contribution des lignes et des modalits de la mme faon que l'ACP. - Etudier la contribution des variables en sommant les contributions des modalits d'une variable pour un facteur donn. - Etudier les coordonnes des modalits et des individus actifs. - Etudier les coordonnes des variables, des modalits et des individus supplmentaires s'il y en a.
5.4.
CONCLUSION
69
5.4 Conclusion
Pour conclure ce chapitre, commenons par rsumer l'ACM en dix tapes illustres sur la gure 5.5 : - 1 : Cette premire tape donne le tableau des donnes une fois que les variables qualitatives sont codes de manire condense. Les lignes reprsentent les individus et les colonnes les variables. - 2 : Cette deuxime tape transforme le tableau de l'tape prcdente en tableau disjonctif complet. Les lignes reprsentent toujours les individus, mais prsent les colonnes reprsentent les modalits. Cette deuxime tape peut galement tre la transformation du tableau de Burt. Dans ce cas, il y a symtrie entre les lignes et les colonnes qui reprsentent une classe d'individus. - 3 : A partir de cette tape nous appliquons l'AFC. Nous transformons le tableau disjonctif complet en frquences. - 4 : Nous considrons ici le tableau comme une juxtaposition de lignes aprs transformation en multipliant par
- 5 : Nous considrons ici le tableau comme une juxtaposition de colonnes aprs transformation en multipliant par -
IJ . Ces colonnes sont appeles prol-colonnes. Ik K 6 : Les prols-lignes qui constituent le nuage NI sont projets dans l'espace I R . Le nuage NI se situe dans un hypercube HI . I 7 : Les prols-colonnes qui constituent le nuage NK sont projets dans l'espace I R . Le nuage NK se situe dans un hypercube HK .
orthogonales, d'tudier les projections en 8 et 9 en fonction de leurs proximits entre elles et par rapport l'origine qui correspond un prol moyen.
- 8 : Cette tape consiste en la projection du nuage - 9 : Cette tape consiste en la projection du nuage
NI
NK
Les distances correspondent des ressemblances entre les modalits. - Relations de transition : ces relations expriment les rsultats d'une AF en fonction des rsultats de l'autre. Ce sont des relations barycentriques. - 10 : Les relations de transition permettent des interprtations simultanes des axes. Cette reprsentation simultane facilite l'interprtation. Attention toute association entre un point-ligne et un point-colonne suggre par une proximit doit tre contrle sur le tableau.
L'ACM est donc une analyse factorielle qui permet l'tude de plusieurs variables qualitatives, de ce fait elle est une gnralisation de l'AFC. Elle est donc applicable aux tableaux de variables qualitatives, mais aussi quantitatives aprs construction de classes partir de celles-ci. Le fait de pouvoir interprter l'ACM de plusieurs faons rend cette mthode trs riche et d'emploi facile. Elle peut tre trs complmentaire de l'ACP et bien sr des mthodes de classication.
70
CHAPITRE 5.
Les mthodes de classication permettent de regrouper les individus en classes selon leurs ressemblances. Deux types d'approches sont possibles soit nous considrons des donnes sur lesquelles nous connaissons les direntes classes et nous tentons d'aecter un nouvel individu dans une des classes connues, soit nous n'avons aucun
a priori
sur les
classes. Nous allons tudier ces deux types de classication dans les chapitres suivants.
5.4.
CONCLUSION
71
72
CHAPITRE 5.
k-plus proches voisins, les arbres de dcisions (mthode non paramtrique qui favorise
le dialogue homme-machine) ou encore des mthodes issues de l'intelligence articielle souvent considres comme des botes noires telles que le perceptron multicouche et les autres rseaux de neurones, les chanes de Markov [Kun00] ou les machines vecteurs de support [Vap99]. Un aspect important de la classication supervise est l'chantillonnage des donnes pour raliser l'apprentissage. Direntes approches d'chantillonnage existent telles que la technique de Jackknife, du bootstrap ou de la validation croise [LMP95], [Sap90], nous ne les dtaillons pas ici. La plupart des mthodes qui ne sont pas issues de l'intelligence articielle peuvent tre dcrites par deux tapes : - l'tape de - l'tape de La
discrimination classement
une
une fonction qui discrimine au mieux les donnes, qui cherche aecter une nouvelle donne une classe, consiste exprimer comme les une probabilits fonction de l'aide de la fonction tablie dans l'tape prcdente.
rgression logistique
d'appartenance
classe
p@C=xA
a posteriori i.e.
l'observation qu'il faut
[Sap90] [Cel03]. Bien souvent c'est la rgression linaire qui est employe, dterminer les coecients
tels que :
ln
p@C=xA I p@C=xA
a 0 C
d i=1
i xi :
(6.1)
Il est donc ncessaire d'estimer les paramtres des lois de probabilit, en supposant connue cette loi. Selon la loi retenue, il est possible de traiter des variables quantitatives, ou
73
74
CHAPITRE 6.
binaires. La fonction de discrimination est ainsi dnie, pour le classement d'un nouvel individu, la rgle baysienne peut tre applique.
classication baysienne est une autre approche probabiliste qui suppose connues les probabilits a priori et les distributions des probabilits d'appartenance chaque classe.
La Dans ce cas c'est une mthode optimale. En pratique, ces probabilits sont estimes partir de donnes d'apprentissage. Nous prsentons brivement cette mthode trs utilise en classication, comme mthode de classement de l'analyse factorielle discriminante la section 6.2.2. Les
arbres de dcision
la segmentation. La reprsentation sous forme d'arbres permet une interprtation rapide et aise des rsultats. La construction de l'arbre ( tue sur les donnes d'apprentissage, puis l'tape de classement peut tre ralis pour de nouveaux individus. L'ide de la construction est simple, et se dcompose comme suit :
- chercher la variable qui produit la meilleure division (par exemple celle qui donne la variance intraclasse la plus faible), - diviser en deux nuds intermdiaires, les individus selon cette variable, - chercher les variables qui produisent les meilleurs divisions des nuds intermdiaires, - poursuivre ainsi jusqu' n'obtenir que des nuds terminaux. Cependant l'arbre optimal est dicile dterminer. En eet, il faut dnir un critre de division, un critre d'arrt ( (
i.e.
mdiaire. De plus la complexit est importante pour des arbres plus de deux branches
i.e.
des arbres qui ne sont pas binaires). En outre, elle est dicilement gnralisable
Classication And Regression Tree ) qui est un cas particulier des arbres binaires possde
L'approche des
une construction d'arbres aux proprits intressantes pour la segmentation qui rsout en partie ces problmes [BFRS93].
d'apprentissage les plus proches au sens d'une certaine distance). C'est donc une approche gomtrique. Nous prsentons plus en dtails cette approche, comme mthode de classement de l'analyse factorielle discriminante la section 6.2.2. L'analyse factorielle discriminante est une mthode descriptive et prdictive fonde sur un modle paramtrique. Elle est galement appele analyse linaire discriminante (
factorielle discriminante, et nous utilisons l'abrviation AFD. En eet, cette mthode peut tre vu comme une analyse factorielle, car son aspect descriptif fait appel des calculs d'axes principaux. C'est une mthode avant tout prdictive qui discrimine les individus selon des classes connues. Son aspect prdictif de classement de nouveaux individus peut en fait faire appel d'autres mthodes de classication gomtriques ou probabilistes. L'analyse factorielle discriminante peut galement tre vu comme une analyse canonique particulire ou encore comme une extension de la rgression multiple prsente par exemple dans [LMP95].
6.1.
INTRODUCTION
75
Variables
1 1 . . . . . . ......
......
y
1
Individus
......
. . . . . .
xik
. . . . . .
. . . . . .
Fonctions ......
23
discriminantes
Q
Observations
Aectation
stables, i.e.
peu dpendants
considre comme une approche de rfrence laquelle sont souvent compares les autres
variables et rpartis en
76
CHAPITRE 6.
discrimination
tape d'
i.e. la combinaison linaire des K variables explicatives au mieux les Q classes. Il s'agit donc d'une tape de
des classes.
- Le second objectif consiste dterminer la classe de nouveaux individus pour lesquels nous observons les valeurs des
aectation d'un nouvel individu dans une classe. Il s'agit d'un problme de classement par opposition au problme de classication qui est la construction de
classes les plus homognes possibles dans un chantillon. Supposons un service dans un hpital qui comprend 500 patients. Dans
Exemple 6.1.1
ce service sont rencontres essentiellement cinq pathologies. Il est ais de raliser une vingtaine d'examens et des analyses peu coteuses. Cependant pour dterminer une des cinq pathologies il est ncessaire d'entreprendre des interventions trs coteuses. Les donnes sont ainsi constitues de 500 individus et 20 variables, de plus la variable nominale
y est
compose de cinq modalits. L'tape de discrimination tente de rpondre des questions du type : est-il possible de prvoir avec les vingt examens et analyses, les pathologies des 500 patients sans avoir recours des interventions plus coteuses ? Alors que l'aectation tente de rpondre des questions du type : Est-il possible de prdire la pathologie d'un nouveau patient en n'eectuant que les examens et analyses peu coteux ? En fait derrire ces deux questions il en existe une autre d'ordre plus gnral laquelle tente de rpondre l'analyse factorielle discriminante : Est-ce qu'un grand nombre de donnes d'accs facile peut contenir une information dcrite par une appartenance une classe, plus dlicate dterminer ?
. Notons
NI
6.2.
PRINCIPE DE L'AFD
77
de la classe dans I R
, et
NI
gq a II xi:
q iPI q
La matrice de covariance interclasse est dnie par :
(6.2)
I I @g GA@g GAt; Ba I q q q
qPQ
classes est donne par :
(6.3)
et la matrice de covariance intraclasse qui est la somme pondre des covariances inter-
(6.4)
L'inertie totale du nuage NI est gale la somme de l'inertie interclasse et de l'inertie intraclasse.
Cette proposition s'nonce galement par le fait que la covariance totale du nuage est la somme de la covariance interclasse et de la covariance intraclasse :
V a B C W:
interclasse et intraclasse droite.
(6.5)
La gure 6.2 illustre cette proposition. Le mme nuage est reprsent deux fois en reliant les points pour le calcul de la covariance totale gauche et de la somme des covariances
78
CHAPITRE 6.
Preuve
vkkH a
o
I @x G A@x H G H A a I @x G A@x H G H A; ik k ik k ik k ik k I I
iPI qPQ iPIq
(6.6)
Gk a xik : I
Or
(6.7)
(6.8)
iPIq
iPIq
(6.9)
Donc uniquement deux des quatre termes de la partie droite de l'quation (6.6) sont non nuls et nous pouvons crire :
(6.10)
bkkH a
et
I I @g G A@g H G H A; q qk k qk k I
qPQ
(6.11)
wkkH a
I @x g A@x H g H A; ik qk ik qk I
qPQ iPIq
(6.12)
6.2.
PRINCIPE DE L'AFD
79
Q centres de gravit sur ces axes doivent tre les plus loignes, tan-
dis que les projections de chaque sous-nuage sur ces axes doivent tre les plus regroupes autour des projections des centres de gravit. La marche suivre est identique celle d'une analyse factorielle. La premire combinaison linaire est donc celle qui maximise la variance interclasse et minimise la variance intraclasse. Puis, la deuxime combinaison linaire est celle qui est non corrle la premire et qui discrimine au mieux les classes au sens du mme critre (maximisation de la variance interclasse et minimisation de la variance intraclasse). Les autres combinaisons linaires sont dtermines de la mme faon. Ces combinaisons linaires sont appeles
kPK
ak @xik gqk A:
(6.13)
La variance de la variable
(6.14)
ou encore
I a a H @x g A@x H g H A a a a H v H : vr@aA a I k k ik qk ik qk k k kk
a
iPI kPK kH PK t est donc
(6.15)
La variance de
a Va.
atVa a atBa C atWa: (6.16) Le problme de l'AFD revient donc trouver a tel que l'inertie des sous-nuages des t individus Iq projets sur a soit maximale (inertie interclasse a Ba) et chaque sous-nuage t t soit group donc l'inertie intraclasse a Wa soit minimale. Chercher a tel que a Ba soit t maximale et a Wa soit minimale est quivalant chercher le maximum de la fonction : atBa (6.17) f @aA a t : a Va t Il est encore quivalent de chercher le maximum de la forme quadratique a Ba sous la t contrainte quadratique a Va a I. Par la mthode du Lagrangien, nous pouvons montrer
alors que :
V est inversible, nous obtenons : V1Ba a a: 1 Ainsi a est le vecteur propre de V B associ la plus grande valeur propre .
et lorsque la matrice
Ba a Va;
(6.18)
(6.19)
80
CHAPITRE 6.
Remarque
avec :
ckq a
Et posons :
Iq @g Gk A: I qk
(6.21)
a a V1Cv:
(6.22)
CCtV1Cv a Cv: (6.23) t 1 Il sut alors de diagonaliser la matrice symtrique C V C d'ordre Q puis de dduire a l'aide de v. En rgle gnrale, il y a Q I valeurs propres donc Q I axes discriminants. C'est le
cas si
non sans importance de dtection (et non plus de classication). Dans ce cas, il n'y a donc
o le vecteur
(6.24)
(6.25)
(6.26)
ou encore :
(6.27)
(6.28)
est appele distance gnralise entre les deux classes ou encore distance de Mahalanobis .
Dans ce cas de deux classes, l'AFD est quivalente la rgression multiple [LMP95].
a a V 1 c :
(6.29)
L'AFD peut aussi tre vue comme une ACP des centres de gravit
gq de chaque classe
6.2.
PRINCIPE DE L'AFD
81
La reprsentation
Comme les autres mthodes factorielles, il est possible de reprsenter les individus dans les plans factorielles discriminants. Il est aussi possible comme pour l'ACP de reprsenter les variables en traant le cercle de corrlation des
variables.
An de mesurer la qualit de la reprsentation, les mmes indicateurs que l'ACP peuvent tre employs. Par exemple la qualit de reprsentation d'un nuage par un axe
sPS
s : s
(6.30)
I q t 1 2 a V gq ; I s
et la contribution relative du centre de gravit
Iq I t 1 2 a V gq : I s s
Dans une optique de classication, la qualit de la discrimination peut tre dnie par le rapport du nombre d'individus bien classs par le nombre total d'individus. Ce critre reste classique.
6.2.2 L'aectation
Lorsque les fonctions discriminantes ont t dtermines, nous souhaitons trouver la classe d'aectation d'un nouvel individu. Il existe plusieurs rgles d'aectation (ou de classement) d'un nouvel individu
iH
q.
iH
dcrit par le
d2 e @xiH ; gq A a
kPK
(6.33)
82
CHAPITRE 6.
zr a ut r @xiH GA;
o
(6.34)
G est le centre de gravit du nuage NI dni par le vecteur @Gk Ak=1;::;K , r dsigne ime l'axe principal issu de l'analyse, et ur est le r vecteur propre normalis de la matrice des covariances totales V, dnie prcdemment, correspondant la valeur
propre
(6.35)
u Vu a I) est :
t
est le nombre de valeurs propres retenues, qui peut tre par le vecteur la mtrique
V1 (i.e.
r max r=1
@zr z "qr A2 :
r
(6.36)
^ de terme gnral x X par X ik a xik gqk , nous diagonalisons alors la matrice W au lieu de V. Notons r les valeurs propres de W et z q les coordonnes de l'individu iH sur les nouveaux axes principaux u ^r . La 1 s'crit : distance de xiH au centre de gravit gq dans la mtrique W r max " @ zr z qr A2 : 2 dMg @xiH ; gq A a (6.37) r r=1
t @x H g A, o g est le centre de gravit du sous-nuage d'individus Iq . Notons wsq a vsq i q q Iq dcrit par le vecteur @gqk Ak=1;::;K , et wsq est le sime vecteur propre normalis de Uq Wq U qui correspond la valeur propre sq . La distance s'crit alors :
gq
1 dans la mtrique W , o Wq
q
iH au centre de gravit
dMl @xiH ; gq A a
2
o
smax (q ) s=1
@wsq w "qsA2 ;
sq
(6.38)
t @g GA, et s w "qs a vqs q max @q A est le nombre de valeurs propres retenues dans le sous-nuage d'individus Iq .
6.2.
PRINCIPE DE L'AFD
83
Distance du
2
La distance du
sxk a
iPI
xik , sxiH
kPK
s kPK xk sgq
xiH k sxiH
gqk s gq
2
(6.39)
xiH k
et
donc :
kPK
d2 @xiH ; gq A a
2
r max r=1
szr
(6.40)
Cependant cette distance s'applique habituellement aux tableaux de contingence comme nous l'avons vu pour l'AFC et l'ACM, elle convient donc peu l'AFC en gnral. Distance de Minkowsky Elle dpend d'un paramtre
positif :
dM @x
iH ; q
g Aa
kPK
xi H k
gqk j
31
(6.41)
dM @xiH ; gq A a
Si
r max r=1
jzr z "qr j
31
(6.42)
a I, nous avons la distance des valeurs absolues aussi nomme distance de Manhattan, du nom du quartier new-yorkais, a P, nous retrouvons la distance euclidienne. Lorsque 3 CI, nous obtenons la distance de Tchebychev : dT @xiH ; gq A a mx jzr z "qr j: r
retenu la distance de Mahalanobis globale (mtrique (6.43)
84
CHAPITRE 6.
Iq le plus reprsent dans son voisinage. Le voisinage est tendu jusqu' ce qu'il contienne k individus. Ainsi notons : Kq @iH A a card fi P I
o tel que
iH
au sous-nuage d'individus
i P Iq ; i P Vk @iH Ag ;
(6.44)
Vk @iH A dsigne le voisinage de l'individu iH form par k individus. Cet ensemble peut se formaliser pour k a I par : V1 @iH A a fi P I tel que d@iH ; iA
par rcurrence, nous obtenons pour un
(6.45)
k quelconque :
(6.46)
Nous voyons que la aussi la dnition d'une distance adquate est importante. Il est possible d'employer une des distance prcdemment prsentes. La dcision est alors prise en cherchant le maximum de aect la classe
des mthodes de votes [Mar04]. Il existe une variante intressante de cette approche la classication par voisins ous.
Cette approche trs coteuse donne de bons rsultats. C'est pourquoi elle sert souvent de mthode de comparaison en reconnaissance des formes avec d'autres approches moins coteuses. Ce type d'aectation ne prend cependant pas en compte les probabilits chaque classe.
a priori
de
Approche baysienne
Cette approche probabiliste simple consiste aecter l'individu dividus
Iq
iH au sous-nuage d'in-
nous avons :
P @Iq =iH A a
Il sut alors de maximiser connatre les probabilits
qH PQ
(6.47)
P @iH =Iq AP @Iq A. Cependant pour estimer cette probabilit il faut a priori P @Iq A, ce qui n'est pas toujours le cas. Elles peuvent P @iH =Iq A qui ncessite :
tre estimes, mais il faut alors tre sr de la capacit de gnralisation des donnes d'apprentissage. Il faut de plus estimer la probabilit - soit une estimation partir des frquences et dans ce cas il faut encore tre sr de la capacit de gnralisation des donnes d'apprentissage,
6.3.
CONCLUSION
85
- soit faire l'hypothse de la distribution. La distribution gaussienne qui peut tre justie par la loi forte des grands nombres est souvent employe. De plus elle ne ncessite que l'estimation de deux paramtres (la moyenne et la variance). Dans ce dernier cas, lorsque les distributions gaussiennes d'appartenance chaque sous-nuage sont de mme matrice de covariance intraclasse et s'il y a quiprobabilit des classes (les probabilits locale (
a priori P @Iq A
Il existe d'autres mthodes d'aectation, car en fait toute mthode de classication peut tre employe pour cette tape de classement. Bien souvent, les approches les plus simples donnent de meilleurs rsultats, au dpend d'un cot plus important.
6.3 Conclusion
L'AFD est une mthode trs utilise de nos jours. Sa simplicit de mise en uvre fait que nous la retrouvons dans de nombreux logiciels. Elle est adquate pour la reprsentation des donnes dans des espaces qui discriminent au mieux les individus selon des classes connues. Cette reprsentation permet de dgager des informations partir d'un grand nombre de donnes souvent dicile interprter. Elle permet galement l'aectation de nouveaux individus dans les classes existantes. Il est alors possible de rendre la mthode adaptative pour tenir compte de ces nouvelles observations. Il peut s'avrer trs enrichissant de l'employer en complment d'une autre analyse factorielle telles que l'ACP ou l'ACM.
86
CHAPITRE 6.
Chapitre 7 Classication
7.1 Introduction
La classication sans
a priori
issue surtout de l'tude des phnomnes naturelles et de la biologie en particulier. Toutes les mthodes ainsi dveloppes appartiennent une science la
taxonomie littralement la
science des lois de l'ordre [Ben80a]. Les mthodes de classication font parties intgrante de l'analyse de donnes. Dans le domaine de la reconnaissance des formes elle porte le nom de classication non-supervise. Le terme anglais pour classication est
clustering, les classes tant des clusters. Le terme anglais classication dsigne davantage classement i.e.
le fait d'aecter des objets des classes prdnies, voire analyse de donnes en gnral.
87
88
CHAPITRE 7.
CLASSIFICATION
Variables
1 1 . . . . . . ......
......
Individus
......
. . . . . .
xik
. . . . . .
. . . . . .
......
k pour l'individu i, I reprsente la fois I a fI; :::; I g, et K reprsente la fois le nombre de variables et l'ensemble K a fI; :::; K g.
est la valeur de la variable le nombre d'individus et l'ensemble Les variables peuvent tre quantitatives continues ou issues de tableaux de contingences, ou binaires issues de tableaux logiques, ou encore qualitatives. An de traiter l'ensemble de ces types de variables, c'est la mesure de similarit ou dissimilarit qui doit tre adapte aux types de donnes. En eet, nous nous doutons qu'il est important de dnir une mesure de similarit pour regrouper des lments ou de dissimilarit pour les loigner. Une mesure de similarit ou de dissimilarit est une distance l'exception que l'ingalit triangulaire n'est pas exige. Ces mesures peuvent tre des distances dans le cas de variables quantitatives. Ainsi, il est prfrable d'employer une distance euclidienne, de Mahalanobis ou de Minkowsky pour les variables quantitatives continues et une distance du
xik
dcrite par le
2
section 6.2.2 du chapitre prcdent. Dans le cas de tableaux binaires, un grand nombre de mesures de similarits entre deux lments ont t dnies partir des quatre quantits. Par exemple pour deux individus
x1 et x2 elles sont donnes par : - soit a le nombre de fois o x1k a x2k a I, - soit b le nombre de fois o x1k a H et x2k a I, - soit c le nombre de fois o x1k a I et x2k a H, - soit d le nombre de fois o x1k a x2k a H.
-
7.1.
INTRODUCTION
89
a par Sokal et Sneath, a C P@b C cA aCd par Sokal et Michener, aCbCcCd a a C par Kulzinsky, aCb aCc aCd par Rogers et Tanimoto, a C d C P@b C cA ad bc par Yule, ad C bc jad bcj @a C bA@c C dA@a C cA@b C dA2 par Pearson, a @a C bA@c C dA@a C cA@b C dA2 par Ochia.
Dans le cas des variables qualitatives, il sut de considrer le tableau de contingence associ. En eet, si elles n'ont pas le mme nombre de modalits, il est trs dicile de dnir une distance. Si le tableau est compos de donnes mixtes, il sut de rendre les variables quantitatives en variables qualitatives en choisissant quelques modalits de la mme faon que dcrite la section 5.2.4.
90
CHAPITRE 7.
CLASSIFICATION
Nous nous contentons ici de prsenter deux mthodes, deux algorithmes, les plus utiliss et qui se retrouvent dans la plupart des logiciels de statistiques. Nous prsentons une mthode conduisant des partitions, la mthode des centres mobiles la section 7.2, puis une mthode conduisant des hirarchies, la classication hirarchique la section 7.3.
cf. section 7.1.2). En pratique, il s'agit souvent de la distance eucli2 qui est implmente. Supposons de plus, que nous souhaitons partitionner NI en Q classes avec Q I . - tape 0 : Nous choisissons Q individus dans le nuage NI qui constituent Q centres provisoires des Q classes. Le choix de ces centres est important pour la rapidit de la convergence, et les connaissances a priori doivent ici tre mises prot, s'il y en
a. Dans le cas contraire, le plus courant, il sut de tirer alatoirement ces centres par un tirage sans remise. Notons par fournissent une premire partition
d.
NI
dans l'espace I R
Cette distance
muni
0 0 0 ; :::; C ; :::; C C q 1 Q 0 0 0
que de tous les autres centres. Dans un espace deux dimensions, les sous-nuages sont dlimits deux deux par des droites mdiatrices des centres des sous-nuages,
diagramme de Vorono.
- tape 1 :
nouveaux centres
1 1 C1 ; :::; Cq1 ; :::; CQ sont dtermins en prenant les 0 0 sous-nuages Iq obtenus par la partition P . La distance d
1 1 P 1 a I1 ; :::; Iq1 ; :::; IQ , suivant le mme critre prcdent. m m m sont dtermins en prenant les tape m : Q nouveaux centres C1 ; :::; Cq ; :::; CQ m1 obtenus par la partition P m1 . Ces nouveaux centres de gravit des sous-nuages Iq m a I m ; :::; I m ; :::; I m , suivant le mme centres induisent une nouvelle partition P 1 q Q
critre prcdent.
intervient de nouveau ici. Ces nouveaux centres induisent une nouvelle partition
La convergence de l'algorithme est garantie [LMP95]. Le critre d'arrt est celui de deux partitions identiques. D'autres critres permettent d'augmenter la rapidit. Par exemple,
7.3.
LA CLASSIFICATION HIRARCHIQUE
91
nous pouvons cesser les itrations lorsque la variance intraclasse de toutes les classes est susamment faible, ou encore lorsqu'un nombre d'itrations dni Cette algorithme est illustr sur la gure 7.1 dans le cas o
0 0 et C2 et la construction C1
centre obtenu est le plus proche. L'tape 1 prsente les nouveaux centres et les sous-nuages dont ils sont les centres de gravit. De nouveau, l'tape 2 fournit les centres de gravit des nouveaux sous-nuages
2 2 et I2 . I1
De nombreux algorithmes sont fonds sur un principe similaire. Les deux principaux sont les nues dynamiques et les
des nues dynamiques se situe au niveau de la raectation des individus chaque classe. Aprs avoir dtermin les centres de gravit, un
comme tant l'individu le plus proche du centre de gravit de chaque classe. La raectation se fait alors en fonction de la distance des autres individus aux noyaux de chaque classe. Ce formalisme a permis plusieurs gnralisations de la mthode. La mthode des
k-means aprs avoir choisi une premire fois les centres mobiles, recal-
cule le centre de chaque classe ds lors qu'un individu y est aect. La position du centre est donc modie chaque aectation, ce qui permet d'avoir une bonne partition en peu d'itrations. D'autres algorithmes sont prsents par exemple dans [Ben80a].
92
CHAPITRE 7.
CLASSIFICATION
- les algorithmes ascendants : la construction des classes se fait par des agglomrations successives des lments deux deux, - les algorithmes descendants : la construction des classes se fait par dichotomies successives de l'ensemble des lments. Ces deux approches conduisent une hirarchie des partitions des lments. La seconde approche est beaucoup moins employe que la premire, nous prsentons donc ici la premire approche.
Mthodes d'agrgation
Supposons que le nuage initial, par exemple (ou d'une mesure de similarit ou dissimilarit)
ou des groupes d'individus repose sur des rgles de calcul des distances entre ces classes (individus ou groupes d'individus) disjointes, appeles Soit
x, y
et
x et y
h,
saut minimal
: (7.1)
saut maximal
: (7.2)
moyenne
d@h; z A a
- distance
d@x; z A C d@y; z A
(7.3)
et
ny
le nombre d'individus de
x et y :
(7.4)
d@h; z A a
nx d@x; z A C ny d@y; z A : nx C ny
Ces mthodes d'agrgation ont l'avantage de conduire des calculs simples et possdent des proprits mathmatiques intressantes. Cependant, les rsultats ne sont pas toujours bons. En particulier, la distance du saut minimal peut entraner des
chane,
eets de
illustrs sur la gure 7.2. Sur le nuage de points reprsent sur cette gure, les
7.3.
LA CLASSIFICATION HIRARCHIQUE
93
de Ward. La solution au problme voqu ci-dessus est donc de considrer les lments prenons les individus - comme un nuage de points interclasse.
les individus en minimisant l'inertie (ou la variance) intraclasse et en maximisant l'inertie Le principe repose sur la formule de dcomposition de Huygens prsente par la proposiiton 6.2.1 la section 6.2. Ainsi l'inertie totale du nuage l'inertie interclasse et de l'inertie intraclasse :
NI
I a Iintra C Iinter : i
(7.5)
Reprenons la gure 7.3 illustrant cette proposition. Le mme nuage est reprsent deux fois en reliant les points pour le calcul de l'inertie totale gauche et de la somme des inerties interclasse et intraclasse droite. Considrons que chaque individu est muni
94
CHAPITRE 7.
CLASSIFICATION
d'une masse
qPQ
mq d2@gq ; GA C
qPQ iPIq
mid2@xi; gq A;
(7.6)
NIq
Ainsi la qualit globale d'une partition est lie l'homognit interne des sous-nuages et donc galement l'loignement des sous-nuages. Par exemple, la gure 7.4 illustre deux partitions en deux sous-nuages, celui de gauche avec une inertie intraclasse faible, celui de droite avec une inertie intraclasse leve.
Ps s classes (ou sous-nuages), en associant deux classes a et b Ps , nous obtenons une partition ps1 s I classes (cf. gure 7.5). L'lment c obtenu par l'agrgation de a et b a pour masse mc a ma C mb , et il peut
de cette agrgation. Considrons une partition
intraclasse, ce qui est quivalent rendre minimale la perte d'inertie interclasse rsultant
7.3.
LA CLASSIFICATION HIRARCHIQUE
95
L'inertie interclasse de
a et de b peut se dcomposer par la formule de Huygens par : Iinter(ab) a ma d2 @a; GA C mb d2 @b; GA a ma d2 @a; cA C mb d2 @b; cA C mc d2 @c; GA; (7.8)
Ps est donne par :
(7.9)
a a C mb b c a mm Cm : a b
(7.7)
or l'inertie de la partition
Ps1 par :
(7.10)
Ps
la partition
Ps 1
inter(ab)
aI
En remplaant
inter(Ps )
CI
I
est l'
inter
(7.11)
(7.12)
indice de niveau) qui inertie de l'haltre (ou variance du diple) @a; bA. Il est ais de vrier que la somme des indices de dissimilarit entre toutes les partitions est l'inertie totale du nuage NI .
Le principe de la mthode de Ward est donc de dterminer les lments partition
a et b d'une
Algorithme
L'algorithme de classication hirarchique ascendante est simple et facile programmer. Son droulement suit les tapes suivantes : - tape 1 : Nous considrons le nuage de la matrice
NI
PI
de
lments.
individus, partir de la distance retenue initialement. Nous recherchons ensuite les deux lments agrger ( partition
i.e.
PI 1 I I individus.
@@I IA @I IAA
des distances,
puis nous recherchons les deux nouveaux lments agrger. L'agrgation des deux
I P individus.
96
CHAPITRE 7.
CLASSIFICATION
aS
m : Nous calculons la matrice @@I @m IAA @I @m IAAA des distances, P1 . NI de cinq individus
arbre hi-
puis nous cherchons agrger deux lments jusqu' ce qu'il n'en reste plus qu'un qui constitue la dernire partition sur la gure 7.6. An d'illustrer cet algorithme, nous donnons un exemple d'un nuage
rarchique
Les tapes successives de cet algorithme peuvent tre reprsentes par un galement appel
de dissimilarit (
dendrogramme
Vocabulaire li au dendrogramme
- Les
lments terminaux
riables selon ce qui est class). - Les nuds de l'arbre correspondent aux regroupements de deux lments appels
an et benjamin. L'arbre de la gure 7.7 peut ainsi tre dcrit par le tableau 7.2. ordonnance.
- L'agrgation repose sur les ingalits des distances entre elles. Nous pouvons obtenir le mme classement en des couples d'lments en classant ces couples par ordre croissant des distances. Un tel classement est appel
7.3.
LA CLASSIFICATION HIRARCHIQUE
97
- La -
hirarchie peut tre dcrite par une famille H d'lments de I telle que : I P H , fig P H Vi P I , VA, B P H , A B P fA; B; Yg i.e. deux classes sont soit disjointes, soit l'une est
incluse dans l'autre. Ainsi toute classe est la runion des classes qui sont incluses en elle. La famille des sous-ensembles construits par la classication ascendante hirarchique forme une hirarchie. C'est en fait une
- Une
hirarchie binaire , il en existe d'autres. hirarchie indice est une hirarchie pour laquelle il existe une fonction v de H + dans I R i.e. telle que :
A & B D v@AA
v@B A; VA; B P H:
(7.13)
La hirarchie est gnralement indice par les valeurs des distances (ou indices de dissimilarit) correspondant chaque tape d'agrgation. - En coupant l'arbre par une droite horizontale, nous obtenons une hirarchie donne ainsi une chane de
partitions de 1
partition.
Une
classes.
Les hirarchies indices ont une proprit particulirement intressante, car elle peuvent tre vues comme un ensemble muni d'une une distance
ultramtrique [LMP95]. Une ultramtrique est distance d associe au nuage NI , elle est une
x a y D d@x; yA a H, Vx; y P NI , - d@x; y A a d@y; xA, Vx; y P NI (relation de symtrie), - d@x; y A d@x; z A C d@y; z A, Vx; y; z P NI (ingalit triangulaire). Cette distance d est une ultramtrique si elle vrie une condition plus forte que l'ingalit triangulaire donne par d@x; y A mx@d@x; zA; d@y; zAA Vx; y; z P NI . La distance du saut minimal est la plus grande ultramtrique infrieure la mtrique d initiale.
-
98
CHAPITRE 7.
CLASSIFICATION
7.3.2 Interprtation
L'interprtation repose essentiellement sur la lecture du dendrogramme. Elle devient problmatique lorsque le nombre d'individus est trs important. Elle doit se faire de haut en bas an d'examiner d'abord les partitions qui possdent peu de classes, pour ensuite entrer dans des considrations plus dtailles. Nous cherchons, essentiellement la partition qui prsente le plus d'intrt. Pour cela, il faut chercher construire des classes homognes. Une bonne partition,
i.e. une bonne coupure de l'arbre, doit comporter peu de classes avec
une inertie intraclasse faible et une inertie interclasse leve. Pour le choix de la coupure, nous pouvons galement nous aider de la courbe des indices. Ainsi nous devons rechercher le nud aprs lequel il y a une perte d'indice importante. Ceci peut galement se lire sur le dendrogramme.
Exemple 7.3.1
Kendall, Stuart et Grin en 1963. Ces donnes sont composes d'chantillons de sol dcrits par cinq variables sur leur composition : sable, limon, argile, matire organique, pH. La gure 7.8 prsente le dendrogramme obtenu par 'approche de Ward, tandis que la gure 7.9 prsente la courbe des indices. Nous constatons partir de ces deux gures qu'une coupure en cinq classes fournit des classes homognes et loignes des autres classes. De plus, cette coupure est conforte par le taux de variance intraclasse qui est de 22,3%, alors que le taux de variance interclasse est de 77,7%.
i.e.
classes obtenues. Pour ce faire il faut trouver les variables reprsentatives de chaque classe, pour ensuite interprter ces classes partir des variables explicatives. Deux indicateurs sont essentiellement employs pour cette interprtation :
7.3.
LA CLASSIFICATION HIRARCHIQUE
99
Fig. 7.9 Courbe des indices sur les donnes de composition du sol.
- l'
excentricit de la classe par rapport au centre de gravit gnral de l'ensemble des variance du diple
constitue par les deux classes an et benjamin agrges au
individus, - la
nud tudi. Nous avons une excentricit forte pour une classe lorsque celle-ci est loigne du centre de gravit
q est donne par : d2 @gq ; GA. Il est intressant d'tudier la contribution relative de la variable classiante l'excentricit de la classe q donne par :
de la classe
donc plus elle est porteuse de sens et mrite d'tre exploite. La mesure de l'excentricit
Cork @qA a
o
k 2 g
q
@gq ; GA ;
(7.14)
k gq
variable classe.
gq du sous-nuage Iq sur l'axe reprsentant la k (cf. gure 7.10). Ainsi, si la contribution est proche de 1, la variable k explique
q, nous pouvons tudier le diple @a; bA de l'an et benjamin.
Une classe constitue un sous-nuage, qui peut tre tudie par une analyse factorielle. Au lieu d'tudier la classe Cette tude peut se faire par la variance. Ainsi un diple allong dans la direction du premier axe factoriel du sous-nuage
Iq , reprsente une variance leve dans cette direction (cf. gure 7.11). L'indicateur utilis pour la contribution d'une variable k la divergence
100
CHAPITRE 7.
CLASSIFICATION
Iq
Codk @qA a
@ak bk A2 : d2 @a; bA
(7.15)
A l'aide de l'excentricit, nous pouvons ainsi tudier pourquoi les individus sont regroups dans la classe tudie, et pourquoi les nuds an et benjamin sont spars.
Nous proposons de suivre le plan suivant pour l'interprtation de la classication hirarchique ascendante : - La premire chose est l'tude du dendrogramme et de la courbe des indices an de dterminer la partition, ou les partitions tudier. La coupure est ralise au niveau du ou des sauts importants d'inertie. - L'tape suivante est l'tude de toutes les classes formes par la ou les partitions plus nes. Il faut donc regarder quels sont les individus qui composent chaque classe. Il est de plus important de comprendre : - quelles sont les variables reprsentatives de chaque classe l'aide de la contribution relative des variables classiantes l'excentricit de chaque classe, - quelles sont les variables qui sparent le diple form de l'an et du benjamin pour chaque classe, l'aide de la contribution de chaque variable la variance du diple.
7.4.
CONCLUSION
101
- Il est de plus intressant de faire un tableau rcapitulatif donnant pour chaque classe les individus qui y appartiennent, ainsi que les variables qui caractrisent chaque classe. Ce tableau permet de rsumer simplement l'ensemble de l'interprtation.
7.4 Conclusion
Nous avons dans ce chapitre prsent uniquement deux mthodes (ou famille de mthodes) de classication : la mthode des centres mobiles et la classication hirarchique ascendante. Les mthodes de classication sont cependant trs nombreuses. Il existe entre autre une mthode dite de classication mixte (
de la mthode des centres mobiles et de la classication hirarchique. Elle est particulirement bien adapte aux tableaux de donnes comportant des milliers d'individus, pour lesquels le dendrogramme est dicile lire. Les tapes de l'algorithme sont les suivantes : - Une premire tape consiste appliquer la mthode des centres mobiles de faon obtenir une partition de quelques dizaines, voire quelques centaines de groupes homognes. - Ensuite, la classication hirarchique est applique sur ces groupes. Le dendrogramme et la courbe des indices permet de dnir le nombre de classes nales retenir. - Une fois ce nombre dtermin, an d'optimiser la classication, la mthode des centres mobiles est de nouveau applique l'ensemble des individus de dpart pour obtenir une partition correspondant celle trouve par le dendrogramme. Dans cette dernire tape les centres mobiles initiaux peuvent tre considrs comme tant les barycentres des classes issues de la partition ralise par la classication hirarchique an d'obtenir une convergence plus rapide.
La classication est une phase importante de l'analyse des donnes. Il est prfrable de l'employer en complment des analyses factorielles (particulirement la classication ascendante hirarchique qui utilise la mthode de Ward pour l'agrgation). Il est conseill d'appliquer la classication aprs les analyses factorielles. Cependant, les classes peuvent constituer des variables supplmentaires dans l'ACP, l'AFC ou encore l'ACM.
102
CHAPITRE 7.
CLASSIFICATION
Glossaire
Indications historiques
- Bayes (Thomas) 1702-1761 : mathmaticien anglais, il tablit la relation liant les probabilits conditionnelles aux probabilits
a priori.
- Benzcri (Jean-Paul) : mathmaticien franais, il est l'inventeur de l'analyse factorielle des correspondances (AFC) et le fondateur de l'cole franaise d'analyse des donnes. Il s'intressa en particulier aux donnes textuelles. - Burt (Sir Cyril) 1883-1971 : psychologue britannique, innovateur certain d'un point de vue mthodologique en analyse de donnes, il est surtout connu pour ses fraudes scientiques et ses falsications d'observations. - Huygens (Christiaan) 1629-1695 : galement orthographi Huyghens, exprimentateur et thoricien nerlandais, il proposa un trait sur le calcul des probabilits. En mcanique, il dveloppa la thorie du pendule qu'il appliqua pour rguler les mouvements d'horloges, et s'intressa au problme du choc par la quantit de mouvement. - Mahalanobis (Prasanta Chandra) 1893-1972 : physicien et mathmaticien indien, il s'intressa beaucoup aux statistiques. Il est surtout connu pour la distance qui porte son nom. Il tudia les analyses graphiques des fractiles (quantiles), et les statistiques
D-square,
organis le recueil de donnes en Inde. - Minkowsky (Hermann) 1864-1909 : mathmaticien allemand, il proposa une reprsentation de l'espace-temps quatre dimensions qui fournit une interprtation gomtrique de la relativit restreinte de A. Einstein qui fut son lve. - Pearson (Karl) 1857-1936 : mathmaticien anglais, il est un des premiers statisticiens. En particulier ses recherches taient tournes vers l'hrdit. - Tchebychev (Pafnouti Lvovitch) 1821-1894 : mathmaticien russe, son nom est aussi crit Chebyshov, Chebyshev, ou Tschebysche. Il est connu pour ses travaux dans le domaine de la probabilit et des statistiques, en particulier l'ingalit de Tchebychev qui permet de majorer des probabilits (grossirement) et de dmontrer le thorme de la loi faible des grands nombres. - Vorono (Georgi Fedoseevich) 1868-1908 : mathmaticien russe, galement transcrit Voronoy, il travailla sur la thorie des nombres, en particulier sur les nombres algbriques et la gomtrie des nombres. En 1904, il rencontra Minkowski, et ils s'aperurent qu'ils tudiaient des sujets similaires.
103
104
GLOSSAIRE
- Ward (Abraham) 1902-1950 : mathmaticien, n en Hongrie, il partit Vienne pour faire ses recherches. Sous l'occupation nazie, d'origine juive, il partit en 1938 aux Etats-Unis. Ses travaux concernrent les espaces mtriques et plus particulirement les espaces vectoriels dimension innie. Il obtint galement des rsultats en gomtrie direntielle.
RAPPEL DE DFINITIONS
105
Rappel de dnitions
- Aectation : c'est une tape de classement. - Caractres : donnes caractrisant les individus. - Caractre qualitatif : le caractre n'est pas mesurable. - Caractre qualitatif pur ou variable nominale : les modalits ne possdent pas de structure d'ordre. - Caractre qualitatif ordonn ou variable ordinale : les modalits qualitatives sont ordonnes. - Caractre quantitatif : le caractre est mesurable, on y associe le nom de variable statistique (numrique). - Variable discrte : les valeurs prises par la variable sont des valeurs ponctuelles. - Variable continue : les valeurs prises par la variable sont numriques d'un intervalle donn. - Classement : attribution d'lments dans une classe prexistante. - Classication : construction des classes les plus homognes possibles dans un chantillon. par - Coecient de corrlation linaire : pour un tableau de donnes de
I individus dcrits K variables et xik une donne du tableau i a I; :::; I et k a I; :::; K , le coecient H de corrlation linaire entre deux variables k et k est donn par : rkkH a @xk ; xkH A a
dcrits par
ov@xk ; xkH A :
k kH i a I; :::; I I
et est donne par :
(7.16)
variables et
xik
k a I; :::; K , la
(7.17)
individus
- Discrimination : la discrimination consiste dterminer une fonction qui spare au - Dispersion : talement des points dtermin par une distance. La dispersion d'un nuage sur un axe peut tre vu comme l'inertie du nuage sur l'axe. Une mesure de dispersion est la variance. - Distribution (ou srie statistique) : les observations d'un caractre forment une distribution. - chantillon : sous-ensemble de la population. - Eectif vriant un critre : nombre d'lments vriant ce critre. - Fonction de rpartition : le caractre est infrieur
106
GLOSSAIRE
- Inertie : valeur caractrisant la concentration ou la dispersion de points sur un axe, un plan ou tout espace. L'inertie peut tre reprsente par une variance. - Liaison : deux variables sont lies si elles ont un fort coecient de corrlation linaire ou encore si elles ne sont pas indpendantes. - Modalit : les modalits d'un caractre sont les valeurs (mesurable ou non) prises par cette variable. - Moment d'ordre riables et
xik
i a I; :::; I I iPI
et
et
xr k a xik
une donne du tableau
I xr :
ik
i a I; :::; I x "k a
variables et
donne par :
I iPI
I x
(7.19)
- Population : ensemble des donnes tudies. - Quantile : pour un tableau de donnes de une donne du tableau
I individus dcrits par K variables et xik i a I; :::; I et k a I; :::; K , le quantile d'ordre @H IA est la racine de l'quation F @xA a , o F est la fonction de rpartition.
valeurs proches pour l'ensemble des variables.
- Ressemblance : deux individus se ressemblent, ou sont proches, s'ils possdent des - Tableau de contingence : c'est un tableau d'eectifs obtenus en croisant les modalits de deux variables qualitatives dnies sur une mme population. - Taxonomie : littralement la science des lois de l'ordre, c'est la science de la classication, parfois limite la botanique. - Typologie : ensemble des limites des domaines connexes (patatodes) faire sur chaque plan (pour les individus et les variables). - Variance : pour un tableau de donnes de
xik
i a I; :::; I
2 k a
et
donne par :
I @x x 2 " ik kA : I
iPI
Bibliographie
[Ben80a] [Ben80b] J.P. Benzecri :
dances.
J.P. Benzecri
L'analyse de donnes (Tome 1) La taxinomie. Dunod, 1980. : L'analyse de donnes (Tome 2) L'analyse des corresponDunod, 1972.
Dunod, 1980.
[Ber72] [BFRS93]
C. Berge :
[Bro03]
L. Breiman, J.H. Friedman, R.A.Olshen et C.J. Stone : Classication and regression tree. Chapman and Hall, 1993. G. Brossier : Analyse des donnes, chapitre Les lments fondamentaux de la classication. Hermes Sciences publications, 2003.
Graphes et hypergraphes.
drainy :
[Cel03] G.
Classication automatique des donnes. Dunod, 1989. Celeux : Analyse des donnes, chapitre Analyse discriminante.
Hermes
Sciences publications, 2003. [DH97] P. Demartines et J. Hrault : Curvilinear component analysis : A self-
[EP90]
[Goa03] [HL03]
tions on Neural Networks, 8(1):148154, Janvier 1997. B. Escoffier et J. Pages : Analyses factorielles simples et multiples objectifs, mthodes et interprtations. Dunod, 1990. G. Goavert : Analyse des donnes. Hermes Sciences publications, 2003. G. Hbrail et Y. Lechevallier : Analyse des donnes, chapitre Data Mining et analyse des donnes. Hermes Sciences publications, 2003.
IEEE Transac-
Introduction au Data Mining. Eyrolles, 1999. M. Jambu : Mthodes de base de l'analyse de donnes. Eyrolles, 1999. M. Kunt : Reconnaissance des formes et analyse de scnes. Presses PolytechM. Jambu : nique et universitaires romandes, 2000. L. Lebart, A. Morineau et M. Piron :
[LMP95]
sionnelle.
dunod, 1995.
[Mar04] [Pag03]
dances. Extensions et applications au traitement statistique des donnes sensorielles. Hermes Sciences publications, 2003.
107
108
BIBLIOGRAPHIE
[Pha96]
D.T. Pham :
dependent component analysis. 44(11):27682779, 1996. [Sap90] G. Saporta : 1990. [Vap99] V.N. Vapnik :
Probabilits Analyse des donnes et Statistique. Edition Technip, The nature of Statistical Learning Theory.
Springer, 1999.
Index
aectation, 76, 105 algorithme ascendant, 92 descendant, 92 approche baysienne, 84 arbre additif, 89 hirarchique, 96 association, 68 axe d'inertie, 15 factoriel, 15 Bayes, 84, 103 Benzcri, 1, 103 Burt, 61, 66, 103 caractre, 2, 3, 105 qualitatif, 105 quantitatif, 105 classement, 73, 76, 87, 105 classication, 76, 105 clustering, 87 codage condens, 57 coecient de corrlation linaire, 25, 105 composante principale, 30 corrlation empirique, 105 covariance, 105 data mining, 2, 5 dendrogramme, 96 diagramme de Vorono, 90 discrimination, 73, 76, 105 dispersion, 12, 105 distance, 88, 97 de Mahalanobis, 80 globale, 82 locale, 82, 85 de Manhattan, 83 de Minkowsky, 83 de Tchebychev, 83 du
2 , 45, 83
du saut maximal, 92 du saut minimal, 92 euclidienne, 81 gnralise, 80 moyenne, 92 moyenne gnralise, 92 distribution, 105 chantillon, 105 eectif, 105 eets de chane, 92 lments terminaux, 96 lment illustratif, 35, 53, 68 quivalence distributionnelle, 45 excentricit, 99 facteur, 16, 29 fonction de rpartition, 105 fonction linaire discriminante, 79 fouille de donnes, 2 hirarchie, 89, 97 binaire, 97 indice, 97 Huygens, 77, 93, 103 individu, 3, 105 indpendance, 41 inertie, 12, 93, 106
110
INDEX
liaison, 3, 24, 41 Mahalanobis, 82, 83, 103 mesure de similarit, 88 Minkowsky, 83, 103 modalit, 2, 10, 106 moment, 1, 106 moyenne, 1, 106 mthode CART, 5, 74 ordonnance, 96 partition, 89 Pearson, 23, 45, 103 population, 2, 106 pourcentage de la variance, 20 prol-colonne, 44, 47, 64 prol-ligne, 43, 46, 64 pyramide, 89 quantile, 1, 106 relation de dualit, 32 relation de transition, 16 ressemblance, 3, 24, 25, 61, 106 rgle de Bayes, 84 supervis, 4, 73, 87 tableau de Burt, 61 de contingence, 39, 106 disjonctif complet, 57, 59 taux d'inertie, 20 taxonomie, 87, 106 Tchebychev, 83, 103 typologie, 4, 106 ultramtrique, 97 unit statistique, 3, 105 variable, 3 continue, 105 discrte, 105 nominale, 2 ordinale, 2
variance, 1, 106 du diple, 99 Vorono, 90, 103 Ward, 93, 98, 104