Poly AD

L'analyse de donnes
Polycopi de cours ENSIETA - Rf. : 1463
Arnaud MARTIN Septembre 2004
Table des matires

1 Introduction
1.1 1.2 1.3 1.4 1.5 1.6 Domaines d'application . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Les donnes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Les objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Les mthodes Les logiciels Plan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
2 2 3 4 6 7
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2 Analyses Factorielles
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.1 2.1.2 2.1.3 2.2 2.3 Les objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Domaines d'application . . . . . . . . . . . . . . . . . . . . . . . . . Les donnes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
9 9 9 10 10 12 12 13 14 15 16 18 20
Principe gnral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ajustement du nuage des individus dans l'espace des variables 2.3.1 2.3.2 2.3.3 Plan d'ajustement Droite d'ajustement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Sous-espace d'ajustement . . . . . . . . . . . . . . . . . . . . . . . .
2.4 2.5 2.6 2.7
Ajustement du nuage des variables dans l'espace des individus Reconstruction des donnes
Relation entre les axes d'inertie et les facteurs des deux nuages . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3 Analyse en Composantes Principales

3.1 3.2 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Principe de l'ACP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.1 3.2.2 3.2.3 3.2.4 3.3 3.4 3.5 Les objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . La transformation des donnes . . . . . . . . . . . . . . . . . . . . . L'analyse des nuages L'ajustement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
23
23 24 24 26 27 28 31 33 35
Reprsentation simultane
Interprtation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
ii
TABLE DES MATIRES
4 Analyse Factorielle des Correspondances

4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1.1 4.1.2 4.1.3 4.2 4.2.1 4.2.2 4.2.3 4.2.4 4.2.5 4.3 4.4 Les domaines d'application . . . . . . . . . . . . . . . . . . . . . . . Les donnes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Les objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . La transformation des donnes . . . . . . . . . . . . . . . . . . . . . La ressemblance entre prols . . . . . . . . . . . . . . . . . . . . . . Les nuages des deux prols . . . . . . . . . . . . . . . . . . . . . . . L'ajustement des deux nuages . . . . . . . . . . . . . . . . . . . . . Reprsentation simultane . . . . . . . . . . . . . . . . . . . . . . .
39
39 39 40 42 42 43 44 46 47 49 50 54
Principe de l'AFC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5 Analyse des Correspondances Multiples

5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1.1 5.1.2 5.1.3 5.2 5.2.1 5.2.2 5.2.3 5.2.4 5.3 5.4 Les domaines d'application . . . . . . . . . . . . . . . . . . . . . . . Les donnes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Les objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . La transformation des donnes . . . . . . . . . . . . . . . . . . . . . L'analyse factorielle des correspondances du tableau de Burt . . . . Les variables quantitatives . . . . . . . . . . . . . . . . . . . . . . .
57
57 57 57 58 58 59 66 67 67 69
Principe de l'ACM
L'analyse factorielle des correspondances du tableau disjonctif complet 62
6 Analyse Factorielle Discriminante

6.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.1.1 6.1.2 6.1.3 6.2 6.2.1 6.2.2 6.3 Les domaines d'application . . . . . . . . . . . . . . . . . . . . . . . Les donnes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Les objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . La discrimination . . . . . . . . . . . . . . . . . . . . . . . . . . . . L'aectation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
73
73 75 75 76 76 76 81 85
Principe de l'AFD
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7 Classication
7.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.1.1 7.1.2 7.1.3 7.2 Les objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Les donnes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Les mthodes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
87
87 87 88 89 90
Mthode des centres mobiles . . . . . . . . . . . . . . . . . . . . . . . . . .
TABLE DES MATIRES
iii
7.2.1 7.3 7.3.1 7.3.2 7.4
Principe de l'algorithme
. . . . . . . . . . . . . . . . . . . . . . . .
90 91 92 98
La classication hirarchique . . . . . . . . . . . . . . . . . . . . . . . . . . Principe de la classication hirarchique ascendante . . . . . . . . . Interprtation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
Glossaire
Indications historiques
101
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
Rappel de dnitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
iv
TABLE DES MATIRES
Liste des tableaux

1.1 3.1 3.2 4.1 4.2 4.3 4.4 4.5 4.6 4.7 5.1 5.2 5.3 5.4 5.5 5.6 5.7 6.1 7.1 7.2 Reprsentation des donnes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 24 26 40 41 43 43 44 44 45 58 59 60 61 62 63 64 75 88 96 Reprsentation des donnes pour l'ACP.
Reprsentation des donnes centre-rduites pour l'ACP. Reprsentation des donnes pour l'AFC. Tableau de contingence.
. . . . . . . . . . . . . . . . . . .
Tableau des frquences relatives pour l'AFC. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Tableau des frquences observes. . . . . . . . . . . . . . . . . . . . . . . . Les prol-ligne et prol-colonne. . . . . . . . . . . . . . . . . . . . . . . . . Prols-lignes (exprims en pourcentages-lignes arrondis). . . . . . . . . . . . . . . . . . . . Prols-colonnes (exprims en pourcentages-colonnes arrondis).
Reprsentation des donnes sous forme de codage condens pour l'ACM. Reprsentation des donnes sous forme de codage condens pour l'ACM.
Exemple du vin : tableau initial. . . . . . . . . . . . . . . . . . . . . . . . . Exemple du vin : tableau disjonctif complet. . . . . . . . . . . . . . . . . . Reprsentation des donnes sous forme du tableau de Burt. . . . . . . . . . Mise en frquences du tableau disjonctif complet. . . . . . . . . . . . . . . Les prol-lignes et prol-colonnes pour l'ACM. . . . . . . . . . . . . . . . . Reprsentation des donnes pour l'AFD. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Reprsentation des donnes pour la classication.
Relation entre les nuds de l'arbre. . . . . . . . . . . . . . . . . . . . . . .
vi
LISTE DES TABLEAUX
Table des gures

2.1 2.2 2.3 2.4 2.5 2.6 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 4.1 4.2 4.3 4.4 4.5 4.6 4.7 5.1 5.2 5.3 5.4 5.5 6.1 6.2 Les nuages de points. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Les formes de nuages de points. Le nuage 11 11 13 15 18 19 27 27 29 30 31 32 32 33 37 46 48 50 51 52 53 55 61 65 66 67 71 77 78
NI Le nuage NI
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
et sa droite d'ajustement. et sa droite d'ajustement.
Schma de dualit.
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Dcomposition en valeurs singulires du tableau Nuage des individus
X.
. . . . . . . . . . . . .
NI
dans I R
. . . . . . . . . . . . . . . . . . . . . . . .
NK dans IRI . . . . . . . . . . . Ajustement du nuage NI des individus pour l'ACP. Ajustement du nuage NK des variables pour l'ACP.
Nuage des variables
Dirents types de nuages. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
L'eet de taille dans I R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Forme de dualit exprimant le nuage Forme de dualit exprimant le nuage
NI en fonction du nuage NK . . NK en fonction du nuage NI . .
. . . . . . . .
Rsum de l'ACP. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
NI des prols-lignes dans l'espace IRJ . . . I Le nuage NJ des prols-colonnes dans l'espace I R .
Le nuage Inertie et dpendance.
. . . . . . . . . . . . . . . . . . . . . . . . . .
Le schma de dualit pour l'AFC. . . . . . . . . . . . . . . . . . . . . . . . Reprsentation simultane dans le premier plan sur l'exemple de Cohen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Relation entre la forme du nuage de points et le tableau.
Rsum de l'AFC. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Hypertable de contingence pour
J a Q.
Reprsentation du nuage des individus Reprsentation du nuage des modalits Schma de dualit pour l'ACM. Rsum de l'ACM.
NI dans l'espace IR . . NK dans l'espace IRI . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Reprsentation du nuage
NI
des individus partitionns dans l'espace I R
. .
Illustration de la formule de Huygens. . . . . . . . . . . . . . . . . . . . . .
vii
viii
TABLE DES FIGURES
7.1 7.2 7.3 7.4 7.5 7.6 7.7 7.8 7.9
Illustration de l'algorithme des centres mobiles. Illustration de l'eet de chane.
. . . . . . . . . . . . . . .
91 93 93 94 94 96 97 98 99
. . . . . . . . . . . . . . . . . . . . . . . .
Illustration de la formule de Huygens. . . . . . . . . . . . . . . . . . . . . . Illustration d'une inertie intraclasse faible et leve. . . . . . . . . . . . . . Illustration du passage d'une partition individus.
Ps une partition ps1 .
. . . . . . .
Illustration de l'algorithme de classication avec avec un nuage de Exemple de dendrogramme.
aS
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Dendrogramme sur les donnes de composition du sol. . . . . . . . . . . . . Courbe des indices sur les donnes de composition du sol. . . . . . . . . . .
7.10 Reprsentation d'un sous-nuage
Iq
dans un plan de projection. . . . . . . . 100
7.11 Caractrisation de la variance du diple dans une direction. . . . . . . . . . 100
Chapitre 1 Introduction
Les statistiques peuvent tre vues en fonction de l'objectif x ; classiquement les mthodes statistiques sont employes soit pour explorer les donnes (nomme statistique exploratoire) soit pour prdire un comportement (nomme statistique prdictive ou dcisionnelle [Goa03] ou encore infrentielle [Sap90]). La statistique exploratoire s'appuie sur des techniques descriptives et graphiques. Elle est gnralement dcrite par la statistique descriptive qui regroupe des mthodes exploratoires simples, uni- ou bidimensionnelle (moyenne, moments, quantiles, variance, corrlation, ...) et la statistique exploratoire multidimensionnelle. L'analyse de donnes s'inscrit dans ce cadre de la statistique exploratoire multidimensionnelle. Nous verrons que des mthodes issues de l'analyse de donnes peuvent galement servir la statistique prdictive (
cf. chapitre 6).
Les mthodes d'analyse de donnes ont commences tre dveloppes dans les annes 50 pousses par le dveloppement de l'informatique et du stockage des donnes qui depuis n'a cess de crotre. L'analyse de donnes a surtout t dveloppe en France par J.P. Benzcri [Ben80a], [Ben80b] qui a su par l'analyse des correspondances reprsenter les donnes de manire simple et interprtable. Il dcrit l'analyse de donnes selon cinq principes, un peu dsuets aujourd'hui : -
Ier Pme Qme Rme Sme
principe : Statistique n'est pas probabilit. principe : Le modle doit suivre les donnes et non l'inverse. principe : Il convient de traiter simultanment des informations concernant le principe : Pour l'analyse des faits complexes et notamment des faits sociaux, principe : Utiliser un ordinateur implique d'abandonner toutes techniques
plus grand nombre possible de dimensions. l'ordinateur est indispensable. conues avant l'avnement du calcul automatique. Ces cinq principes montrent bien l'approche d'une part de la statistique la dirence des probabilits - les modles doivent coller aux donnes - et d'autre part de l'analyse de donnes - il faut traiter le plus grand nombre de donnes simultanment ce qui implique l'utilisation de l'ordinateur et ainsi l'utilisation de nouvelles techniques adaptes. L'analyse de donnes fait toujours l'objet de recherche pour s'adapter tout type de donnes et faire face des considrations de traitements en temps rel en dpit de la
CHAPITRE 1.
INTRODUCTION
quantit de donnes toujours plus importante. Les mthodes dveloppes (et l'analyse de donnes) sont maintenant souvent intgres avec des mthodes issues de l'informatique et de l'intelligence articielle (apprentissage numrique et symbolique) dans le de donnes [HL03].
data mining
traduit en franais par fouille de donnes ou encore extraction de connaissance partir
1.1 Domaines d'application

Aujourd'hui les mthodes d'analyse de donnes sont employes dans un grand nombre de domaines qu'il est impossible d'numrer. Actuellement ces mthodes sont beaucoup utilises en marketing par exemple pour la gestion de la clientle (pour proposer de nouvelles ores cibles par exemple). Elles permettent galement l'analyse d'enqutes par exemple par l'interprtation de sondages (o de nombreuses donnes qualitatives doivent tre prises en compte). Nous pouvons galement citer la recherche documentaire qui est de plus en plus utile notamment avec internet (la dicult porte ici sur le type de donnes textuelles ou autres). Le grand nombre de donnes en mtorologie a t une des premire motivation pour le dveloppement des mthodes d'analyse de donnes. En fait, tout domaine scientique qui doit grer de grande quantit de donnes de type vari ont recours ces approches (cologie, linguistique, conomie, dustriel (assurance, banque, tlphonie,
etc ). Ces approches ont galement t mis prot
etc ) ainsi que tout domaine in-
en traitement du signal et des images, o elles sont souvent employes comme prtraitements (qui peuvent tre vus comme des ltres). En ingnierie mcanique, elles peuvent aussi permettre d'extraire des informations intressantes sans avoir recours des modles parfois alourdis pour tenir compte de toutes les donnes.
1.2 Les donnes

caractres : qualitatif ou quantitatif. Les caractres qualitatifs peuvent tre purs (variables nominales ) i.e. que les modalits ne possdent pas de structure d'ordre ou ordonns (variables ordinales ) i.e. que les modalits qualitatives sont ordonnes. Il est
deux types de ais de comprendre que les donnes caractre qualitatif doivent tre adaptes pour les mthodes numriques. Les mthodes d'analyse de donnes supposent souvent une organisation des donnes particulire, naturelle, mais parfois dicile raliser selon l'application et les donnes. Le choix d'un tableau permet une organisation dans le plan de toutes les donnes et ainsi de traiter simultanment toute l'information. Ainsi la plupart des mthodes ncessitent une organisation des donnes prsente par le tableau 1.1. Nous verrons au Chapitre 4 que selon les donnes ce tableau est quelque peu modi, mais l'ide de tableau reste prsente dans toutes les mthodes d'analyse de donnes. Nous considrons tout d'abord que la
population 1 peut tre dcrite par des donnes de
1 Les
mots en italique sont dnis dans le glossaire page 103.
1.3.
LES OBJECTIFS
Variables
1 1 . . . . . . ......
......
Individus
......
. . . . . .
xik
. . . . . .
. . . . . .
......
Tab. 1.1 Reprsentation des donnes.
individus ou encore units statistiques sont reprsents en ligne et sont chacun dcrits par des variables ou caractres . Nous conserverons les notations du tableau 1.1 dans la suite du document. xik est donc la valeur de la variable k pour l'individu i avec k a I; :::; K et i a I; :::; I . Par abus de notations, pour des considrations de simplication de celles-ci, I reprsente la fois le nombre d'individus et l'ensemble des individus fI; :::; i; :::; I g, de mme K reprsente le nombre de variables et l'ensemble des variables fI; :::; k; :::; K g. Cette reprsentation des donnes peut faciliter la lecture de petits tableau, i.e. lorsqu'il
Ainsi les observations ou y a peu de donnes. Cependant, ds lors que la taille du tableau est grand, ou que nous recherchons des relations entre plus de deux individus ou plus de deux variables, cette reprsentation et les techniques simples de la statistique descriptive ne susent plus.
1.3 Les objectifs

Les objectifs que se sont xs les chercheurs en analyse de donnes sont donc de rpondre aux problmes poss par des tableaux de grandes dimensions. Les objectifs sont souvent prsents en fonction du type de mthodes, ainsi deux objectifs ressortent : la visualisation des donnes dans le meilleur espace rduit et le regroupement dans tout l'espace. Les mthodes de l'analyse de donnes doivent donc permettre de reprsenter synthtiquement de vastes ensembles numriques pour faciliter l'oprateur dans ses dcisions. En fait d'ensembles numriques, les mthodes d'analyse de donnes se proposent galement de traiter des donnes qualitatives, ce qui en fait des mthodes capables de considrer un grand nombre de problmes. Les reprsentations recherches sont bien souvent des reprsentations graphiques, comme il est dicile de visualiser des points dans des espaces de dimensions suprieures deux, nous chercherons reprsenter ces points dans des plans. Ces mthodes ne se limitent pas une reprsentation des donnes, ou du moins pour la rendre plus aise, elles cherchent les
ressemblances
entre les individus et les
liaisons
entre
les variables. Ces proximits entre individus et variables vont permettre l'oprateur de
CHAPITRE 1.
INTRODUCTION
dterminer une
typologie
des individus et des variables, et ainsi il pourra interprter ses
donnes et fournir une synthse des rsultats des analyses. Nous voyons donc que les deux objectifs prcdemment cits sont trs lis voir indissociables, ce qui entrane souvent l'utilisation conjointe de plusieurs mthodes d'analyse de donnes.
1.4 Les mthodes

L'analyse de donnes regroupe deux familles de mthodes suivant les deux objectifs cits prcdemment : Une partie des mthodes cherche reprsenter de grands ensembles de donnes par peu de variables
i.e.
recherche les dimensions pertinentes de ces donnes. Les
variables ainsi dtermines permettent une reprsentation synthtique recherche. Parmi ces mthodes de nombreuses analyses sont issues de l'analyse factorielle, telles que l'analyse en composantes principales, l'analyse factorielle des correspondances, l'analyse factorielle des correspondances multiples, ou encore l'analyse canonique. L'
analyse en composantes principales est l'une des mthodes les plus employes. Elle est particulirement adapte aux variables quantitatives, continues, a priori corrles entre elles. Une fois les donnes projetes dans dirents plans, les proximits entre variables s'interprtent en termes de corrlations, tandis que les proximits entre individus s'interprtent en termes de similitudes globales des valeurs observes. L'
analyse factorielle des correspondances (ou analyse des correspondances binaires)
a t conue pour l'tude des tableaux de contingence obtenus par croisement de variables qualitatives. Cette analyse permet donc de traiter des variables qualitatives et est surtout adapte ce type de variables. Dans cette approche, les lignes et les colonnes ont un rle symtrique et s'interprtent de la mme faon. L'
factorielle des correspondances multiples
analyse
est une extension de l'analyse factorielle
des correspondances qui ne permet que le croisement de deux variables qualitatives. Elle est donc adapte la description de grands tableaux de variables qualitatives par exemple pour le traitement d'enqutes. L'
analyse canonique est trs peu utilise
en pratique, son intrt porte sur son aspect thorique. Elle cherche analyser les relations entre deux groupes de variables de nature dirente. De ce fait l'analyse factorielle des correspondances peut tre vu comme analyse canonique particulire [CDG 89], [LMP95]. Une autre partie des mthodes cherche classer les donnes de manire automatique. Ces mthodes sont complmentaires avec les prcdentes pour synthtiser et analyser les donnes et rpondre plus particulirement l'objectif x de caractriser les proximits entre individus et celles entre variables. Ces mthodes de classication sont soit apprentissage supervis (
i.e.
qui ncessitent une base de donnes
d'apprentissage - ces mthodes sont appeles en statistique les analyses discriminantes) soit apprentissage non-supervise ( pralable). Parmi les mthodes issues de l'analyse discriminante et directement rattaches
i.e.
qui ne ncessitent aucune donne
1.4.
LES MTHODES
l'analyse de donnes il y a l'analyse linaire discriminante, la rgression logistique, les
k plus proches voisins ou encore les arbres de dcision. D'autres mthodes issues
de l'intelligence articielle et du monde de la reconnaissance des formes peuvent tre rattaches l'analyse discriminante telles que le perceptron multicouche (et les autres rseaux de neurones) et les chanes de Markov [Kun00] ou encore issues de la thorie de l'apprentissage statistique telle que les machines vecteurs de supports [Vap99]. Si ces dernires ne sont pas toujours considres comme faisant partie de l'analyse de donnes, elles sont parfaitement intgres dans le
mining . L'analyse linaire discriminante est aussi appele analyse factorielle discriminante
car elle est en fait une analyse en composantes principales supervise. Elle dcrit les individus en classes (celles-ci sont donnes par une variable issue de l'apprentissage) et ensuite aecte de nouveaux individus dans ces classes. C'est donc une mthode la fois descriptive et prdictive. Elle permet de traiter aussi bien des variables quantitatives que qualitatives. La
data
rgression logistique
une
consiste
d'appartenance
classe
p@C=xA

exprimer comme
les une
probabilits fonction de
a posteriori
l'observation
[Sap90] [Cel03]. Bien souvent c'est la rgression linaire qui est employe, qu'il faut dterminer les coecients tels que :
i.e.
ln
L'approche des
p@C=xA I p@C=xA
a 0 C
d i=1
i xi :
(1.1)
k plus proches voisins repose sur l'ide simple d'attribuer un nouvel individu la classe majoritaire parmi ses k plus proches voisins (individus de la
base d'apprentissage les plus proches au sens d'une certaine distance). Les
arbres de dcision
ncessitent souvent une construction dlicate et dici-
lement gnralisable si les donnes d'apprentissage sont peu reprsentatives de la ralit. La mthode CART (
Classication And Regression Tree )
possde une
construction d'arbre aux proprits intressantes pour la segmentation [BFRS93]. Les mthodes de classication automatique ne ncessitant pas d'apprentissage orent un intrt important lorsque les donnes sont compltement inconnues. Elles permettent ainsi de dgager des classes qui ne sont pas videntes (apparente la mthode des
a priori.
Les deux principales mthodes dveloppes sont la mthode des centres mobiles
k-means
ou des nues dynamiques (comme un
cas particulier)) et la classication hirarchique ascendante ou descendante. Nous pouvons galement citer les approches fondes sur les graphes et hypergraphes [Ber72]. La mthode des
centres mobiles
consiste associer les individus des centres
de classes choisis alatoirement, puis recalculer ces centres jusqu' obtenir une convergence. La dicult consiste dans un choix astucieux des centres au dpart pour une convergence plus rapide et dans le choix d'une distance approprie. La
classication hirarchique ascendante (resp. descendante) consiste regrouper
CHAPITRE 1.
INTRODUCTION
les individus selon leur ressemblance (resp. dissemblance). Toute la dicult est dans la dnition d'une mesure de ressemblance et de la distance associe.
1.5 Les logiciels

Les mthodes d'analyse de donnes nes de la recherche universitaire sont depuis longtemps entres dans le monde industriel. Il y a cependant peu de logiciels qui savent intgrer ces mthodes pour une recherche exploratoire aise dans les donnes. Nous citons ici cinq logiciels : - SAS : Ce logiciel est un logiciel de statistique trs complet et trs performant. Il a d'abord t dvelopp pour l'environnement Unix, mais est maintenant accessible sous tout environnement. Il permet une puissance de calcul importante et ainsi est trs bien adapt tous traitements statistiques sur des donnes trs volumineuses. Son manque de convivialit et surtout son prix fait qu'il est encore peu employ dans les entreprises qui ne se ddient pas compltement la statistique. De nombreux cours universitaires de statistique sont proposs avec ce logiciel qui s'approche d'un langage (ex. Universit de Rennes 1). - Splus : Splus est la fois un langage statistique et graphique interactif interprt et orient objet. C'est donc la fois un logiciel statistique et un langage de programmation. La particularit de ce langage est qu'il permet de mlanger des commandes peu volues des commandes trs volues. Il a t dvelopp par Statistical Sciences autour du langage S, conu par les
Bell Laboratories.
Depuis, Splus est devenu
proprit de Mathsoft aprs le rachat de Statistical Sciences. Il est parfois employ pour l'enseignement (ex. Universit Paul Sabatier de Toulouse III). - R : Ce logiciel est la version gratuite de Splus. Il est tlchargeable sous www.r-project.org pour tous systmes d'exploitation. Il soure galement de peu de convivialit et semble encore trs peu employ en industrie. De part sa gratuit, il est de plus en plus employ pour la ralisation de cours de statistiques (ex. Universit Paul Sabatier de Toulouse III, Universit de Lyon 1). - XlStat : Excel propose une macro payante permettant d'eectuer quelques mthodes d'analyse de donnes. Elle est cependant trs limite, utilisable qu'avec Excel sous Windows et de plus payante. Certaines coles d'ingnieurs s'en contentent (ex. ENITAB, Bordeaux). - UniWin Plus : Statgraphics est un logiciel de statistiques gnrales, qui propose un module d'analyse de donnes de treize mthodes. Dvelopp uniquement pour les environnements Windows, l'accent est port sur les interfaces graphiques. Statgraphics propose un grand nombre d'analyses statistiques et permet l'utilisation de beaucoup de for-
1.6.
PLAN
mat de donnes. Il est commercialis par Sigma Plus. Statgraphics est enseign par exemple l'IUT de Vannes. - Stalab : Ce logiciel dvelopp par M. Jambu [Jam99b], [Jam99a] tait initialement prvu pour Windows. Sa convivialit a permis un essor industriel qui semble s'tre rduit. Il a t utilis pour l'enseignement en coles d'ingnieurs (ex. ENSSAT, Lannion). - SPAD : Le logiciel SPAD support entre autre par A. Morineau est toujours maintenu jour avec de nouvelles mthodes issues de la recherche universitaire. Sa version sous Windows est conviviale ce qui a pouss son achat par de plus en plus d'industriels. Le soucis de coller une ralit industrielle fait qu'il est employ en enseignement (ex. IUT de Vannes, ENSIETA).
1.6 Plan
Ce document ne cherche pas prsenter l'ensemble des mthodes de l'analyse de donnes dont certaines ont t voques dans la section 1.4. Nous prsentons ici les ides des principales mthodes, ces cls et les rfrences
donnes permettront au lecteur d'appro-
fondir les mthodes prsentes et de comprendre les autres. Nous commencerons ainsi par l'tude de quelques analyses factorielles. Le premier chapitre prsente le principe gnral des analyses factorielles. Les chapitres 3, 4 et 5 prsentent respectivement l'analyse en composantes principales, l'analyse factorielle des correspondances et l'analyse des correspondances multiples. Nous proposons ensuite au chapitre 6 l'tude d'une analyse discriminante : l'analyse factorielle discriminante qui peut galement tre vue comme une analyse factorielle. Dans le cadre des mthodes de classication non-supervise nous prsentons la classication hirarchique au chapitre 7.
rfrences proposes ne sont pas exhaustives, il existe un grand nombre d'ouvrages de qualit dans le domaine de l'analyse de donnes.
2 Les
CHAPITRE 1.
INTRODUCTION
Chapitre 2 Analyses Factorielles

2.1 Introduction
Les analyses factorielles constituent la plupart des analyses de donnes. Elles sont fondes sur un principe unique, c'est pour cela que nous pouvons parler de l'analyse factorielle [EP90]. Ce principe repose sur le fait que les deux nuages de points reprsentant respectivement les lignes et les colonnes du tableau tudi (tableau 1.1) sont construits et reprsents sur des graphiques. Ces reprsentations des lignes et des colonnes fortement lies entre elles permettent une analyse plus aise pour l'oprateur.
2.1.1 Les objectifs

Les analyses factorielles tentent de rpondre la question : tenant compte des ressemblances des individus et des liaisons entre variables, est-il possible de rsumer toutes les donnes par un nombre restreint de valeurs sans perte d'information importante ? En eet en cherchant rduire le nombre de variables dcrivant les donnes, la quantit d'information ne peut tre que rduite, au mieux maintenue. La motivation de cette rduction du nombre de valeurs vient du fait que des valeurs peu nombreuses sont plus faciles reprsenter gomtriquement et graphiquement (un des objectifs de l'analyse de donnes).
2.1.2 Domaines d'application

L'ensembles des mthodes d'analyses factorielles permettent de rpondre la plupart des problmes poss par les applications auxquelles se consacre l'analyse de donnes. Le choix d'une analyse par rapport une autre se fera en fonction du type de donnes (quantitatif, qualitatif, mais aussi textuelle) et de la quantit de donnes. Il est bien sr possible lorsque le cas se prsente d'appliquer une analyse sur les donnes quantitatives de la population puis une autre analyse sur les donnes qualitatives. Ainsi dans le cadre d'un enqute par exemple, une analyse en composantes principales peut faire ressortir les
10
CHAPITRE 2.
ANALYSES F ACTORIELLES
liaisons entre les variables quantitatives, puis une analyse des correspondances multiples peut donner une reprsentation des variables qualitatives en fonction de leur
modalits .
2.1.3 Les donnes

Dans ce chapitre, nous retenons la reprsentation des donnes sous forme de tableau (tableau 1.1, page 3), et les notations associes.
2.2 Principe gnral

u1 K composantes et un vecteur colonne v1 k t I composantes tel que le tableau X a xi s'crive X a v1 ut 1 , o u1 est le vecteur transpos de u1 . Ainsi des I C K valeurs des vecteurs u1 et v1 , les I:K valeurs de X sont
posons qu'il existe un vecteur colonne retrouves. Cette rduction devient vite intressante ds lors que improbable en pratique. De plus elle n'entrane aucune perte d'information. Cette hypothse est malheureusement Le principe gnral de l'analyse factorielle est fond sur une double hypothse. Sup-
I et K sont assez grands.
Exemple 2.2.1
Considrons l'ensemble des notes des lves de l'ENSIETA durant une
anne. Le nombre d'lves est environ de 450, et nous pouvons considrer qu'ils obtiennent environ 30 notes chacun. Ainsi le tableau reprsentant l'ensemble des notes est constitu de 13 500 valeurs. La rduction prsente ci-dessus permet de rduire ce nombre 480 valeurs sans perte d'information si l'hypothse est valide. Pour que l'hypothse soit vrie, il faudrait pouvoir dduire les notes de l'ensemble des lves partir de celles d'un seul lve et d'un vecteur de pondration. Ceci signie que les notes sont dpendantes les unes des autres ou encore trs fortement corrles. En pratique, il faut donc chercher une approximation de rang analyses cherchent crire le tableau
pour
X . C'est--dire ces
(2.1)
tel que :
t t X a v1 ut 1 C v2 u2 C : : : C vS uS C E;
o
E est une matrice de I lignes et K colonnes de termes ngligeables dite matrice rsiduelle. Ainsi les I:K valeurs initiales de X sont reconstitues de faon satisfaisante par les S:@I C K A valeurs des S vecteurs vq et uq . Les donnes sont donc soit considres en tant qu'individus dcrits par leurs K variables l'aide des vecteurs uq K composantes, soit en tant que variables dcrites par les I individus l'aide des vecteurs vq I composantes.
La rsolution de ce problme passe donc par la considration des deux nuages de points ou encore des deux reprsentations gomtriques associes (gure 2.1). Nous obtenons ainsi
points dans l'espace I R
et
points dans l'espace I R . Plusieurs formes
de nuages sont remarquables aussi bien pour les projections de l'espace des individus que pour celui des variables (gure 2.2). Par exemple, nous pouvons distinguer des formes sphriques ne traduisant aucune direction privilgie, des formes allonges donnant une
2.2.
PRINCIPE GNRAL
11
direction privilgie des dpendances, ou encore plusieurs sous-nuages faisant ainsi apparatre plusieurs sous-groupes de la population. D'autres formes sont remarquables telles que les formes triangulaires ou paraboliques [LMP95]. Le problme est de pouvoir rendre compte visuellement de la forme des nuages, pour ce faire l'ide est d'tudier les projections sur des droites ou mieux des plans (les projections dans un espace 3 dimensions seraient intressantes si l'il humain n'tait pas souvent tromp). Il faut donc chercher le sous-espace qui ajuste au mieux le nuage de points tions que la projection implique.
i.e. chercher minimiser les dforma-
Fig. 2.1 Les nuages de points.
Fig. 2.2 Les formes de nuages de points.
Nous allons donc chercher ajuster au mieux le nuage des individus dans l'espace des variables (section 2.3) puis le nuage des variables dans l'espace des individus (section 2.4).
12
CHAPITRE 2.
2.3 Ajustement du nuage des individus dans l'espace des variables

L'objectif est de fournir des images approches du nuage des individus - que nous noterons
NI
- dans I R
. Nous considrons pour la visualisation des images planes de
Nous faisons l'hypothse que le nuage dimension
S infrieure K , i.e. que nous supposons que la matrice E de l'quation (2.1) est nulle. Plus gnralement, nous supposons que le nuage NI est reconstitu de manire satisfaisante dans un sous-espace de dimension S . Nous pouvons ainsi reconstruire les I individus, et donc l'ensemble de la population et du tableau X associ partir des coordonnes des individus sur S nouveaux axes. Les I:K valeurs du tableau X sont donc remplaces par I:S (coordonnes)CK:S (composantes).
NI
NI .
est contenu dans un sous-espace vectoriel de
Exemple 2.3.1
valeurs.
S a IH, i.e. si les 1000 points-individus sont contenus dans un sous-espace de dimension 5 10, nous rduisons l'tude des IHHH IHH a IH valeurs de X IHHH IHCIHH IH a IIHHH
Si nous considrons 1000 lves qui obtiennent chacun 100 notes, et si
2.3.1 Droite d'ajustement

NI . Nous considrons donc le cas o S a I. La projection sur la droite d1 qui ajuste au mieux le nuage NI donne la dispersion ou inertie maximale le long de la droite d1 .
droite passant par l'origine, qui ajuste au mieux le nuage Dans un premier temps, cherchons un sous-espace vectoriel une dimension,
d1
i.e. une
Proposition 2.3.2 Maximiser la dispersion le long de la droite d1 revient minimiser

les distances des points du nuage NI la droite d1 , c'est--dire que la droite d1 passe au plus prs de tous les points du nuage NI .
Preuve
long de
d1 revient maximiser la somme
iPI
En eet, en prenant les notations de la gure 2.3, maximiser la dispersion le
iPI
OHi2 , or par le thorme de Pythagore :
iPI
Oi2 a
iPI
OHi2 C
iHi2 ; i de NI
la droite
(2.2)
le deuxime terme reprsentant les distances des points
d1 .
Proposition 2.3.3 Maximiser la dispersion le long de la droite d1 revient maximiser
ut1X tX u1, avec u1 le vecteur unitaire de d1. En fait, nous avons l'galit : t OHi2 a @X u1 At @X u1 A a ut 1 X X u1 ;
iPI
(2.3)
qui reprsente l'inertie le long de l'axe d1 .
2.3. AJUSTEMENT DU NUAGE DES INDIVIDUS DANS L'ESPACE DES V ARIABLES13
Fig. 2.3 Le nuage
NI
et sa droite d'ajustement.
Preuve
OHi de Oi sur le sous-espace une dimension d1 port par u1 est le produit scalaire de Oi par u1 (OHi a< Oi; u1 >). Ainsi en munissant cet espace de
La projection la mtrique euclidienne sans restreindre le problme :
OHi a xt i u1 a
Les
kPK
xik u1j : X u1 , et donc :
(2.4)
composantes
OHi sont donc les I
iPI
composantes de la matrice
OHi2 a @X u1 At @X u1 A:
(2.5)
Nous avons ainsi dmontr la proposition.
qui maximise la forme quadratique
ut1u1 a I. Le sous-espace une dimension optimal au sens de l'inertie maximale est donc l'axe d1 dni par le vecteur u1 solution de ce problme.
avec la contrainte
Le problme revient donc trouver
u1
ut1X tX u1
2.3.2 Plan d'ajustement

Cherchons maintenant dterminer le sous-espace deux dimensions s'ajustant au mieux au nuage
NI , nous considrons donc le cas o S a P.
contient u1 .
Proposition 2.3.4 Le sous-espace deux dimensions qui ajuste au mieux le nuage NI
14
CHAPITRE 2.
u1, alors il est dnit par deux vecteurs uH et uHH dirents de u1. L'inertie le long des H HH deux droites portes par u et u est donc infrieure celle de l'inertie le long de la droite porte par u1 . Il existe donc un sous-espace de dimension deux meilleur que celui dni H HH par les deux vecteurs u et u . Nous montrons ainsi la proposition.
Le sous-espace deux dimensions est donc caractris par l'axe par le vecteur -
Preuve
En eet, par un raisonnement par l'absurde, si ce sous-espace ne contient pas
u2 orthogonal u1 vriant donc : ut2X tX u2 est maximal, ut2u2 a I (contrainte de normalit), ut2u1 a H (contrainte d'orthogonalit).
d1
et l'axe
d2
dni
2.3.3 Sous-espace d'ajustement Dans le cas o S ! P, par rcurrence, le sous-espace S dimensions s'ajustant au mieux au nuage NI contient les vecteurs u1 ; u2 ; ; uS 1 . Ce sous-espace est engendr par le sous-espace (u1 ; u2 ; ; uS 1 ) de dimension S I et le vecteur uS orthogonal ce sous-espace (i.e. tous les uq ) et vriant : t t - uS X X uS est maximal, t - uS uS a I.
Proposition 2.3.5 Une base orthonorme du sous-espace vectoriel de dimension S ,
s'ajustant au mieux au sens des moindres carrs, au nuage NI dans IRK est constitue par les S vecteurs propres (u1 ; u2 ; ; uS ) correspondant aux S plus grandes valeurs propres (1 ; 2 ; ; S ) de la matrice X t X .
Remarque S est au plus gal au rang de la matrice X t X , et dans le cas de l'galit la

matrice
de l'quation (2.1) est nulle.
Preuve
Soit
Cette proposition peut se dmontrer par la mthode de Lagrange, une autre
approche est fonde sur certaines proprits spectrales des matrices symtriques [LMP95].
L@uS A le Lagrangien :
t t L@uS A a ut S X X uS @uS uS IA;

o
(2.6)
est atteint lorsque la drive s'annule,
est un multiplicateur de Lagrange i.e. une constante. Le maximum du Lagrangien i.e. : @L
t (2.7) uS a PX X uS PuS a H: t Ainsi nous obtenons l'galit X X uS a uS . Or d'aprs Lagrange, une condition nt t cessaire et susante pour que f @uS A a uS X X uS soit extremum sachant que g @uS A a
2.4. AJUSTEMENT DU NUAGE DES V ARIABLES DANS L'ESPACE DES INDIVIDUS15
utS uS I a H (vrie par la contrainte de normalit), est qu'il existe un nombre tel
que la drive du Lagrangien soit nulle. Le maximum est atteint si valeur propre de la matrice
uS
X tX .
est la plus grande
est donc le vecteur propre correspondant la plus grande valeur propre de la
matrice
X tX
et
utS X tX uS a utS uS a est l'inertie projete sur l'axe dS .
2.4 Ajustement du nuage des variables dans l'espace des individus

De la mme faon que pour le nuage des individus nuage des variables - que nous noterons nuage des individus, il sut simplement de considrer l'axe factoriel (ou axe d'inertie) est dtermin par -
X t au lieu de X . Avec les notations t t t t de la gure 2.4, l'inertie le long de la droite DS s'crit @X vS A@X vs A a vS XX vS . Ainsi,
NK - dans IR
NI , nous cherchons une image du
. L'approche est identique celle du
vS vriant : t XX t v est maximal, vS S t v a I (contrainte de normalit), vS S t v a H pour tout q a fI; ; S Ig (contrainte d'orthogonalit). vS q
Fig. 2.4 Le nuage
NI
et sa droite d'ajustement.
Le sous-espace d'ajustement est obtenu de la mme manire que dans le cas des individus, par la proposition suivante.
s'ajustant au mieux au sens des moindres carrs, au nuage NI dans IRI est constitue par les S vecteurs propres (v1 ; v2 ; ; vS ) correspondant aux S plus grandes valeurs propres (1 ; 2 ; ; S ) de la matrice XX t .
Proposition 2.4.1 Une base orthonorme du sous-espace vectoriel de dimension S ,
16
CHAPITRE 2.
Remarque S
matrice
X tX .
est au plus gal au rang de la matrice
XX t ,
qui est gal au rang de la
2.5 Relation entre les axes d'inertie et les facteurs des deux nuages
Nous montrons ici quelles sont les relations, dites relations de transition, entre les ajustements dans les deux espaces. Notons : -
dS
de
NI , respectivement NI sur le S me axe K me dans I R , de mme GS est le vecteur issu de la projection du nuage NK sur le S NK . FS
, respectivement le
a utS X tX uS DS FS a X uS
respectivement axe dans I R .
, respectivement .
DS
t XX t v a vS S
l'inertie le long de l'axe
dS ,
GS
a X t vS
facteur
d'ordre
de
est donc le vecteur issu de la projection du nuage
DS , DS , nous la notons S . Les formules de transition entre les deux espaces relations de fondamentales : V FS b v b S a p b ` S
b b b X
Proposition 2.5.1 L'inertie le long de l'axe dS , dS , est gale l'inertie le long de l'axe
I R
et
I R
sont donnes par les
uS a
GS p S
K
:
(2.8)
Preuve
Par dnition, nous avons dans l'espace I R
X t X uS a S uS ;
et dans l'espace I R
(2.9)
XX t vS a S vS :
En multipliant par
(2.10)
dans l'quation (2.9), nous obtenons :
@XX tAX uS a S @X uS A;
et en multipliant par
(2.11)
X t dans l'quation (2.10), nous obtenons :
t valeur propre de XX . L'quation (2.11) pour
Considrons dans un premier temps le cas o
@X tX AX tvS a S @X tvS A: S a I 1 SaI

.
(2.12) est par dnition la plus grande
montre que
X u1 est un vecteur propre
2.5. RELATION ENTRE LES AXES D'INERTIE ET LES F ACTEURS DES DEUX NUAGES17
de
XX t , donc la valeur propre associe 1 est ncessairement telle que 1 1 . De pus 1 est la plus grande valeur propre de X t X . L'quation (2.12) montre que X t v1 est un t vecteur propre de X X , donc la valeur propre associe 1 est ncessairement telle que 1 1 . Ainsi nous obtenons que 1 a 1 . t De mme, nous pouvons montrer que toutes les valeurs propres non nulles de X X et t XX sont les mmes, ainsi S a S . Le premier point de la proposition est donc dmontr,
puisque :
t XX t v a : utS X tX uS a vS S S
(2.13)
Pour dmontrer le second point, nous constatons partir de l'quation (2.11) que les facteurs
FS
et les vecteurs unitaires
vS sont les vecteurs propres de la matrice XX t, nous

S : vS a kF F k S
(2.14)
avons donc :
De plus
kFS k2 a utS X tX uS a S . Nous montrons ainsi la premire galit de l'quation

S uS a kG ; G k S
(2.15)
(2.8). La seconde galit se montre de mme en constatant que :
et
t XX t v a . kGS k2 a vS S S
Les relations de transition entre les deux espaces peuvent se reprsenter par le schma de dualit de la gure 2.5 reprsentant les relations entre les axes d'inertie d'un nuage et les facteurs de l'autre nuage.
Proposition 2.5.2 Les relations de transitions entre les facteurs s'crivent :

V b b b b b b b b b ` b b b b b b b b b X
FS @iA a
kPK
xik uS @kA a kPK p
xik GS @kA S
(2.16)
GS @ k A a
iPI
xik vS @iA a iPI
p
xik FS @iA
S
Cette proposition montre que les facteurs des deux nuages doivent s'interprter conjointement. L'analyse factorielle consiste donc analyser simultanment le nuage nuage
NK .
NI
et le
18
CHAPITRE 2.
Fig. 2.5 Schma de dualit.
Preuve
D'aprs les relations fondamentales de l'quation (2.8) nous obtenons les coor-
donnes de chaque point du nuage
NI
sur les axes factoriels :
vS @iA a
FS @iA p S GS @iA p S
a kPK p
xik uS @kA
S
(2.17)
et les coordonnes de chaque point du nuage
NK
iPI
sur les axes factoriels :
uS @kA a
p
xik vS @iA
S
(2.18)
En dveloppant les relations des quations (2.17) et (2.18), nous obtenons facilement les relations de transition de l'quation (2.16).
2.6 Reconstruction des donnes

Il est possible de reconstruire de manire exacte le tableau de donnes dcomposition en valeurs singulires de la matrice vecteur propre de norme 1 de la matrice est le
me
X t X , correspondant la valeur propre s et vs t vecteur propre de norme 1 de la matrice XX , correspondant la mme valeur X us a
p
X.
En eet, puisque
us
par une
est le
sme
propre, nous avons :
s vs ;
(2.19)
2.6.
RECONSTRUCTION DES DONNES
19
d'o
sPK
usuts a
p
sPK
s vs ut s:
(2.20)
Les vecteurs propres tant orthogonaux et de norme 1, nous obtenons :
Xa
p
sPK
s vs ut s:
(2.21)
Cette formule de reconstruction du tableau partir des valeurs propres
us et vs peut s'illustrer par la gure 2.6.
s (qui sont aussi les inerties), et des vecteurs propres associs
X par dcompositions en valeurs singulires
Fig. 2.6 Dcomposition en valeurs singulires du tableau
X. K
Cette reconstruction exacte suppose donc avoir vecteurs propres
us
et
vs. Nous avons vu dans la section 2.3.3 que nous cherchons le
I:K
valeurs contenues dans les
sous-espace qui s'ajuste au mieux aux nuages de points. S'ajuster au mieux signie donc reconstituer au mieux les positions des points des nuages par un nouvel ensemble de coordonnes.
Premier plan d'ajustement
Si
1
associe
u1 est grande par rapport aux autres
valeurs propres, alors nous disons que la reconstruction est bonne. D'un point de vue gomtrique ceci signie que le nuage de points s'allonge le long d'une droite. Lorsque le nuage est ainsi trs tir le long du premier axe, l'inertie du nuage de dpart et la position des points sont bien reconstitue avec la seule information des coordonnes des projections des points du nuage.
S premiers axes d'ajustement tr@ X tX
Un repre form par les
premiers axes factoriels
permet de reconstituer les positions de dpart avec une bonne prcision, si reprsente une bonne proportion de la trace de la matrice
Aa
sPK
s a
iPI;kPK
xik .
2
X tX .
1 C C S
En eet, rappelons que
20
CHAPITRE 2.
Nous obtenons ainsi une reconstruction approche premiers axes factoriels, nous avons :
X du tableau X en se limitant aux
p X 9 X a s vs ut s:
s=1
(2.22)
Nous passons donc des I:K valeurs du tableau X S @I C K A nombres pour reconstituer p X . Ces nombres sont constitus par les S vecteurs s vs ayant I composantes et les S vecteurs us ayant K composantes. Toute la dicult rside dans le choix de S , c'est--dire partir de quelle valeur a-tt on une bonne reconstruction, ou encore une bonne proportion de la trace de X X ? Nous voyons donc l'importance de dnir un indice de qualit de la reconstruction. La qualit globale de la reconstruction peut tre mesure par :
S a
Le coecient
tr@X t X A tr@X t X A
a
s=1 sPK
s s :
(2.23)
S est encore appel taux d'inertie ou pourcentage de la variance relatif aux
premiers facteurs.
2.7 Conclusion
Nous avons prsent dans ce chapitre le principe gnral des analyses factorielles. Cette approche permet de reprsenter gomtriquement de grands tableaux de donnes dans des sous-espaces sans perte d'information importante. La dimension des sous-espaces,
i.e.
l'approximation de la reconstruction de ces tableaux se fait en cherchant minimiser la perte d'information. La quantit globale de reconstruction permet de quantier cette perte d'information. Une fois la dimension du sous-espace choisie, les donnes sont reprsentes graphiquement par des projections sur les dirents plans qui constituent le sous-espace. Bien sr les premiers plans factoriels sont ceux contenant le plus d'information. La dcomposition en valeurs singulires prsente dans ce chapitre peut tre applique tous tableaux de donnes prsents comme sur le tableau 1.1. Cette dcomposition fait appel des distances euclidiennes, c'est--dire des formes quadratiques dnies positives. Les maximisations de l'inertie pour les ajustements des sous-espaces sont lies ces distances. Il existe d'autres approches qui modient ces distances ou la nature des sousespaces [EP90], [LMP95]. En particulier ce qui est souvent recherch dans ces mthodes est la non-linarit des projections, mieux adapte aux donnes compliques. Avant d'appliquer cette approche gnrale un tableau quelconque, il est important de tenir compte des donnes de dpart. Pour se faire, nous allons les transformer en fonction de leur type. Ainsi dans les trois prochains chapitres nous allons voir comment transformer
2.7.
CONCLUSION
21
des donnes quantitatives dans le cadre de l'analyse en composantes principales, et des donnes qualitatives dans les cas de l'analyse factorielle de correspondances et de celle des correspondances multiples.
22
CHAPITRE 2.
Chapitre 3 Analyse en Composantes Principales

3.1 Introduction
L'analyse en composantes principales - que nous notons par la suite ACP - est une des premires analyses factorielles, et certainement aujourd'hui l'une des plus employes. Dans [LMP95], nous trouvons l'historique de cette mthode qui fut conue par Karl Pearson en 1901. Elle est sans doute la base de la comprhension actuelle des analyses factorielles. Son utilisation a cependant t plus tardive avec l'essor des capacits de calculs. Les principales variantes de l'ACP viennent des dirences de transformations du tableau de donnes. Ainsi, le nuage de points peut tre centr ou non, rduit ou non. Le cas le plus tudi, et que nous prsentons ici, est lorsque le nuage de point est centr et rduit ; dans ce cas nous parlons d'ACP norme. D'autres variantes existent telle que l'analyse en composante curviligne [DH97] pour remdier au fait que les projections sont linaires, ou encore l'analyse en composantes indpendantes pour la sparation de sources [Pha96].
Les donnes
Les donnes pour l'ACP sont gnralement prsentes sous la forme du
tableau prcdemment vu dans le Chapitre 1 et que nous rappelons dans le tableau 3.1. Ainsi les donnes sont constitues d'individus et de variables qui dans le cas de l'ACP doivent tre quantitatives, continues, elles peuvent tre homognes ou non et sont
priori
corrles entre elles. Rappelons que nous notons
pour l'individu indices
a fI; ; i; ; I g K K a fI; ; k; ; K g
, et
i, I
xik
la valeur de la variable
a k
dsigne la fois le nombre d'individus et l'ensemble des indices dsigne la fois le nombre d'individus et l'ensemble des .
Les objectifs
Les objectifs de l'ACP sont ceux d'une analyse factorielle, c'est--dire
qu'elle cherche reprsenter graphiquement les relations entre individus par l'valuation de leurs ressemblances, ainsi que les relations entre variables par l'valuation de leurs liaisons. Comme nous l'avons vu au chapitre prcdent l'tude doit se faire simultanment. Le but nal de ces reprsentations est l'interprtation par une analyse des rsultats.
23
24
CHAPITRE 3.
ANALYSE EN COMPOSANTES PRINCIPALES
Variables
1 1 . . . . . . ......
......
Individus
......
. . . . . .
xik
. . . . . .
. . . . . .
......
Tab. 3.1 Reprsentation des donnes pour l'ACP.
Les domaines d'application
De part la nature des donnes que l'ACP peut traiter,
les applications sont trs nombreuses. Il y a en fait deux faons d'utiliser l'ACP : - soit pour l'tude d'une population donne en cherchant dterminer la typologie des individus et des variables. Par exemple, dans la biomtrie, l'tude des mensurations sur certains organes peut faire apparatre des caractristiques lies des pathologies, ou encore en conomie, l'tude des dpenses des exploitations par l'ACP peut permettre des conomies de gestion. - soit pour rduire les dimensions des donnes sans perte importante d'information, par exemple en traitement du signal et des images, o l'ACP intervient souvent en prtraitement pour rduire la quantit de donnes issues de traitements analogiques.
3.2 Principe de l'ACP

3.2.1 Les objectifs
Dans un premier temps reprenons les objectifs de l'ACP et dtaillons-les. Nous avons vu que pour atteindre les objectifs de l'ACP il faut valuer les vidus ainsi que les
liaisons
ressemblances
entre indi-
entre variables. Ces deux notions peuvent tre interprtes de
direntes faons, il est donc important de bien les dnir.
Dnition 3.2.1 Deux individus se ressemblent, ou sont proches, s'ils possdent des valeurs proches pour l'ensemble des variables.
Cette dnition sous entend une notion de proximit qui se traduit par une distance. Ainsi, nous dnissons la distance entre deux individus
d2 @i; j A a
dnir cette distance par :
kPK
@xik xjk A2:
i et j
par : (3.1)
La mtrique ici utilise est donc euclidienne, mais de manire plus gnrale nous pouvons
d2 @i; j A a @xi xj At M @xi xj A;
(3.2)
3.2.
PRINCIPE DE L'ACP
25
est une matrice symtrique dnie positive de taille
K.
Pour tablir un bilan des ressemblances entre individus, nous cherchons rpondre des questions du type : - Quels sont les individus qui se ressemblent ? - Quelles sont ceux qui sont dirents ? - Existe-t-il des groupes homognes d'individus ? - Est-il possible de mettre en vidence une typologie des individus ? De la mme faon que nous avons dni la de dnir la
liaison
ressemblance entre individus, il est essentiel
entre des variables.
Dnition 3.2.2 Deux variables sont lies si elles ont un fort coecient de corrlation
linaire.
Le coecient de corrlation linaire est donn par :
xik xk I xih xh ov@ k; hA a ; r@k; hA a p sk sh vr@kA vr@hA I iPI

o
(3.3)
xk
et
sk
sont respectivement la moyenne et l'cart-type de la variable
k.
Remarque
Dans le cadre de l'ACP norme que nous prsentons ici, le coecient de
corrlation est dni partir de la covariance, cependant dans de rare cas l'ACP peut tre fonde sur la matrice de covariance (ACP non-norme) ou encore sur la matrice des coecients de corrlations des rangs. A partir du coecient de corrlation de l'quation (3.3), il est possible de dnir une distance entre deux variables
d@k; hA a
I iPI
xik xk sk
xih s xh a P@I r@k; hAA:

h
k et h :
(3.4)
De mme que pour les individus, nous cherchons tablir un bilan des liaisons entre variables en rpondant des questions du type : - Quelles sont les variables qui sont lies positivement entre elles ? - Quelles sont celles qui s'opposent (
i.e. lies ngativement) ?
- Existe-t-il des groupes de variables corrles entre elles ? - Est-il possible de mettre en vidence une typologie des variables ?
Pondration
Il est souvent souhaitable que les individus comme les variables jouent le
mme rle. Cependant, dans certaines applications il peut tre intressant de pondrer diremment chaque individu. Soit
pi
le poids aect chaque individu, par commodit
iPI
ces poids sont pris tels que la masse totale soit gale 1 ( de la variable
pi a I). Ainsi la moyenne
k est dnie par : xk a
iPI
pi xik ;
(3.5)
26
CHAPITRE 3.
Variables
1 1 . . . . . . ......
...... . . . . . .
Individus
......
. . . . . .
xik xk sk
. . . . . .
......
Tab. 3.2 Reprsentation des donnes centre-rduites pour l'ACP.
et le coecient de corrlation devient :
r@k; hA a pi a
iPI
pi
xik xk sk

xih xh : sh
(3.6)
Nous retrouvons le cas particulier dans lequel les individus ont le mme poids lorsque
mk le poids associ la variable k, la distance de l'quation (3.1) entre deux individus i et j devient :
riables. Soit
De mme, il est possible de ne pas accorder la mme importance aux direntes va-
d2 @i; j A a
kPK
mk @xik xjk A2 :
(3.7)
En fait, ces poids ne modient en rien les principes de l'ACP, nous considrons donc par la suite les cas o les individus et variables ont le mme poids.
3.2.2 La transformation des donnes

Il existe plusieurs transformations utilises. L'analyse centre consiste modier les donnes du tableau
X en remplaant les valeurs des xik par xik xk . Le fait de centrer les
donnes prsente dans le cas de l'ACP des proprits intressantes que nous exposons la section 3.2.3. L'analyse centre rduite ou encore norme, que nous prsentons ici, est lie la transformation des donnes du tableau
dans le cas d'une analyse sur la mensuration d'animaux, les dimensions dans le tableau
X en remplaant les valeurs des xik par xik xk . Rduire les donnes permet d'uniformiser les units de mesures. Par exemple, sk
peuvent tre exprimes en
X X
ou en
cm
selon les variables. Ainsi le tableau de donnes
prsent sur le tableau 3.1 devient celui donn par le tableau 3.2.
3.2.
PRINCIPE DE L'ACP
27
3.2.3 L'analyse des nuages

Analyse du nuage des individus
Pour l'analyse du nuage analyse factorielle (
NI
des individus, nous considrons donc le tableau 3.2 des
donnes centres rduites par ligne, comme nous l'avons dj vu dans le cas gnral d'une
cf. gure 2.1 page 11).
Fig. 3.1 Nuage des individus
NI
dans I R
Absence de liens
Directions d'allongement
Partition de points
Fig. 3.2 Dirents types de nuages.
NI des individus est un espace vectoriel K dimensions, dont chaque dimension reprsente une variable (cf. gure 3.1). Le fait d'avoir centr les donnes entrane que l'origine des axes est confondu avec le centre de gravit G. Ce centre de gravit G
Ainsi le nuage peut s'interprter comme l'individu moyen de la population. L'interprtation de ce nuage
28
CHAPITRE 3.
NI
va se faire en dcelant d'une part une partition de points et d'autre part des direc-
tions d'allongement. Ainsi sur la gure 3.2 nous reprsentons dirents types de nuages possibles. Nous pouvons observer une absence de liens, ou bien par exemple une direction d'allongement suivant plutt le premier axe, ou encore une partition des points en trois groupes. Si l'tude directe est envisageable dans un espace trois dimensions, ds lors que de laquelle nous pouvons tudier dirents plans de projection.
K > Q elle devient impossible. Nous avons donc recours l'approche factorielle partir
Analyse du nuage des variables

L'analyse du nuage
NK des variables se fait toujours partir du tableau 3.2 des donnes NK

des variables se situe dans un espace vectoriel
centres rduites, que nous considrons ici par colonne, comme nous l'avons dj vu dans le cas gnral d'une analyse factorielle (gure 2.1 de la section 2.2). La reprsentation du nuage de chaque variable
dimensions, chaque dimension reprsentant un individu de la population totale. La norme
k est telle que :
iPI
I xik xk 2 a I:
sk
(3.8)
r@k; kA a I. Ainsi le nuage NK est situ sur la sphre unit (de rayon 1) dans cf. gure 3.3). Il est intressant de noter que le cosinus de l'angle entre les vecteurs reprsentant deux variables k et h est le produit scalaire < k; h >a r@k; hA. L'interprtation du coecient de corrlation comme un cosinus est
mme, donc l'espace I R (
Cette norme correspond galement au coecient de corrlation de la variable
k avec elle
une proprit trs importante puisqu'elle donne un support gomtrique, donc visuel, au coecient de corrlation. Cette proprit ncessite d'avoir au pralable centr les donnes, ce qui justie une nouvelle fois cette transformation. L'analyse du nuage une variable du nuage
NK
par
Ok
NK
des variables se fera donc par l'tude des angles forms pour
et les axes factoriels. Il est bon de noter que le centre de gravit
n'est pas l'origine de la sphre unit, la dirence du nuage
NI
o le
centre de gravit correspond au centre du repre lorsque les donnes sont centres. Ainsi, ce sont les angles entre les vecteurs reprsentant les variables qui sont peu dforms par les projections et non pas les distances entre les points du nuage
NK .
Cette tude des angles est impossible raliser directement cause de la dimension de I R . Elle se fera donc dans les plans de projection issus de l'approche factorielle.
3.2.4 L'ajustement
L'approche factorielle consiste donc approcher ces nuages
NI
et
NK
dans des sous-
espaces vectoriels permettant de fournir quelques images planes de ces nuages.
3.2.
PRINCIPE DE L'ACP
29
Fig. 3.3 Nuage des variables
NK
dans I R .
Ajustement du nuage des individus
fus Y s a I; ; S g
plus les directions
Nous avons vu la section 2.3 du chapitre prcdent, qu'il faut chercher une suite de directions privilgies - les axes factoriels - an de fournir une
reprsentation simplie du nuage rapport au centre de gravit
us sont orthogonales deux deux.
iPI
2
de la projection du nuage
NI . Chaque direction us rend maximum l'inertie par NI sur l'axe factoriel us . De i se projette en Hi sur u 1 . Nous cherchons GHi . En eet, rendre maximum GHi2 revient
i.e.
iP I iPI
Avec les notations de la gure 3.4 l'individu donc
u1 qui rend maximum l'inertie
rendre minimum l'cart entre le nuage des individus et sa projection ( classique des moindres carrs. Ensuite, il faut trouver donnant une reprsentation susamment bonne.
iHi2 ), critre
u2 orthogonal u1 qui satisfait

S
axes factoriels
le mme critre. Nous pouvons procder ainsi jusqu' l'obtention des
cipaux.
Dnition 3.2.3 Les S axes factoriels fus Y s a I; ; S g sont appeles les facteurs prinDu fait d'avoir centr les donnes, ce critre permet d'interprter les axes factoriels
comme des directions d'allongement maximum du nuage
NK .
Ajustement du nuage des variables

Nous cherchons ici obtenir des variables synthtiques
fvs Y s a I; ; S g et une re-
prsentation approche des corrlations entre les variables. La dmarche pour le nuage
30
CHAPITRE 3.
Fig. 3.4 Ajustement du nuage
NI
des individus pour l'ACP.
NK
reste la mme que pour le nuage
NI
des individus.
Ainsi, avec les notations de la gure 3.5, la variable
se projette en
Nous cherchons le premier axe factoriel en dterminant le vecteur
kPK
2 OHk . Puis, nous cherchons le vecteur v2 orthogonal v1 qui satisfait ce mme critre.
Hk sur v1 . v1 qui rend maximum
Nous poursuivons cette dmarche jusqu' l'obtention des Le vecteur
v1 dnit une nouvelle variable qui est la combinaison linaire la plus lie l'ensemble des variables initiales du tableau X . Ainsi les S vecteurs fvs Y s a I; ; S g
tant orthogonaux deux deux, les rles entre elles.
vecteurs recherchs.
nouvelles variables correspondantes sont non cor-
Dnition 3.2.4 Les S nouvelles variables (axes factoriels) fvs Y s a I; ; S g sont appeles les composantes principales.
Ce sont ces vecteurs qui sont l'origine du nom de cette analyse factorielle. La coordonne d'une variable initiale de
vs est son coecient de corrlation avec vs du fait que les variables tudies sont centres rduites. Ainsi le vecteur v1 qui
X
sur rend maximum variables initiales (la liaison tant entendu au sens du critre maximisant la somme des
kPK
2 OHk
quivaut la combinaison linaire la plus lie l'ensemble des
3.3.
REPRSENTATION SIMULTANE
31
Fig. 3.5 Ajustement du nuage
NK
des variables pour l'ACP.
moindres carrs des corrlations). C'est donc la variable qui synthtise le mieux l'ensemble des variables initiales. Les axes factoriels rsument donc l'ensemble des variables initiales du tableau
X.
Eet de taille
Un problme peut apparatre lorsque dans une population les variables
sont toutes corrles positivement deux deux. Dans ce cas, elles forment des angles aigus et le centre de gravit reprsente mal le nuage
GK
du nuage
NK
est loin de l'origine de la sphre unit (
gure 3.6). Le premier axe factoriel est alors proche de la direction
NK
OGK , ce qui fait qu'il
cf.
car toutes les projections des variables sont proches les unes
des autres. En eet le premier axe factoriel rend toujours compte de la position du nuage
NK
par rapport l'origine.
3.3 Reprsentation simultane

Nous avons vu la section 2.5 qu'il existe des relations de transition entre les deux espaces I R nuage
NK
et I R . L'ACP permet pour une interprtation simultane du nuage
NI
et du
de reprsenter ces deux nuages simultanment sur les plans issus des premiers
axes factoriels. Nous devons cependant prendre garde au fait que les deux nuages ne sont en ralit pas dans les mmes espaces qui ont des dimensions direntes. Cette reprsentation simultane est essentiellement pragmatique. En eet, le nuage des individus
NI
et le nuage des variables
NK
sont deux reprsenta-
32
CHAPITRE 3.
Fig. 3.6 L'eet de taille dans I R .

tions du mme tableau de donnes
X . Ainsi des relations fortes (relation de dualit ) lient sk

(3.9)
ces deux nuages. Tout d'abord, l'inertie totale des deux nuages est la mme :
xik xk 2 I a :
I iPI kPK
De plus, les projections de tous les points du nuage des individus factoriel
u1 constituent une nouvelle variable (appele premier facteur, note F1) qui se
F1
dans I R
NI
sur le premier axe
confond la norme prs la premire composante principale (illustres sur la gure 3.7). Ainsi le vecteur
est colinaire
v1 (axe factoriel de NK ). Il en est de mme

NK
pour les projections sur les autres facteurs qui correspondent aux composantes principales de mme rang. De manire symtrique, les coordonnes des projections du nuage sur
Fig. 3.7 Forme de dualit exprimant le nuage

l'axe factoriel
NI
en fonction du nuage
NK .
v1 constituent un nouvel individu (premier facteur, not G1), ce que nous
3.4.
INTERPRTATION
33
NI ). Cette notion d'individu type est moins employe que celle de composante principale.
Il est souvent plus facile de tenter de se ramener des individus rels comme individu type.
reprsentons sur la gure 3.8. Ce vecteur
G1
de I R
est colinaire
u1 (axe factoriel de
Fig. 3.8 Forme de dualit exprimant le nuage
NK
en fonction du nuage
NI .
Les relations algbriques des deux dualits prcdentes au rang
s sont donnes par :
V b b b b b ` b b b b b X
o
Fs @iA a
s
pI
xik
s kPK
sk
xk G @kA
s
I I G @iA a p
NI
I s iPI
xik
sk
xk F @kA
s
(3.10)
s
est l'inertie projete du nuage
(ou du nuage
NK ) sur l'axe factoriel au rang s.
Notons que les facteurs peuvent tre ngatifs. Cette reprsentation est donc essentiellement une aide pour l'interprtation.
3.4 Interprtation
A partir des relations donnes prcdemment, nous pouvons dnir quelques rgles pour l'interprtation : - Un individu sera du ct des variables pour lesquelles il a de fortes valeurs, inversement il sera du ct oppos des variables pour lesquelles il a de faibles valeurs. - Plus les valeurs d'un individu sont fortes pour une variable plus il sera loign de l'origine suivant l'axe factoriel dcrivant le mieux cette variable. - Deux individus une mme extrmit d'un axe ( proches (
i.e. se ressemblent).
i.e.
loigns de l'origine) sont
- Deux variables trs corrles positivement sont du mme ct sur un axe.
34
CHAPITRE 3.
- Il n'est pas possible d'interprter la position d'un individu par rapport une seule variable, et rciproquement, il n'est pas possible d'interprter la position d'une variable par rapport un seul individu. Les interprtations doivent se faire de manire globale. Les axes factoriels donnent des images approches des nuages de points
NI
et
NK .
Il est donc ncessaire de dnir des indicateurs pour mesurer la qualit de l'approximation. L'tude d'un plan de projection des sous-espaces vectoriels doit toujours se faire conjointement avec l'tude des indicateurs. En eet, deux points (individus ou variables) peuvent se trouver trs proches dans un plan de projection, alors qu'en ralit ils sont loigns. Nous prsentons ici les principales aides l'interprtation que nous retrouvons dans [EP90].
Qualit de reprsentation d'un lment (individu ou variable) par un axe

qualit de reprsentation d'un lment
i par l'axe s est donne par le rapport de l'inertie de la projection de l'lment i sur l'axe s et de l'inertie totale de l'lment i : QLTs @iA a
La
est l'angle entre @OiA et l'axe s. Ainsi si est proche de 1, alors i est proche de l'axe s et donc du plan de projection contenant l'axe s. Cette qualit se gnralise au plan. Si un individu i est proche du plan, sa distance G (l'individu moyen) dans le plan est proche de la valeur relle. De mme les distances
o dans le plan entre deux individus bien reprsents sont proches de la ralit.
@OHisA2 a os2 ; @OiA2 QLTs @iA
(3.11)
Qualit de reprsentation d'un nuage par un axe

du nuage sur l'axe et de l'inertie totale du nuage :
Cette qualit est donne par le
pourcentage d'inertie associ un axe, c'est--dire le rapport de l'inertie de la projection
QLTN
N a iP iPN
@OHisA2 @OiA2
(3.12)
Cette qualit mesure l'importance d'un axe factoriel. Bien sr les premiers axes auront plus d'importance que les suivants. Nous devons juger ces pourcentages en fonction de la taille du tableau. Par exemple, 10% est une valeur faible si le tableau comporte 10 variables ; c'est une valeur forte dans le cas de 100 variables. Du fait de la dualit, il est quivalent de calculer ces pourcentages d'inertie partir du nuage
NI
des individus ou
NK
des variables.
i l'inertie d'un axe s est donne par le rapport de l'inertie de la projection de i sur l'axe s
La contribution d'un lment
Contribution d'un lment l'inertie d'un axe
3.5.
CONCLUSION
35
et de l'inertie de la projection de l'ensemble du nuage sur l'axe
s:
(3.13)
@ OHis A2 CTs @iA a : @OiA2

iPN
La contribution est importante si elle est proche de 1 pour les variables et doit tre rapporte au tableau pour les individus. Ce rapport permet de mettre en vidence le sous-ensemble d'lments ayant particip essentiellement la construction de l'axe. L'interprtation devra en premier lieu s'appuyer sur ces lments. Pour aider l'interprtation nous proposons de suivre le plan suivant : - Choisir le nombre d'axes. Notons que le choix du nombre d'axes retenir reste un problme car il n'y a pas de solutions rigoureuses. Les valeurs propres permettent de choisir ce nombre par exemple de telle sorte que le pourcentage d'information cumule soit compris en 80% et 90% environ ou tel que toutes les valeurs propres soient suprieures 1 ou encore lorsque un saut important sur l'histogramme des valeurs propres ou sur les recherches de paliers de celles-ci est observ. De plus le nombre d'axes ne doit pas tre trop grand. - Etudier les indicateurs de la qualit des approximations. - Interprter les facteurs simultanment : - l'aide des contributions des individus, - l'aide des coordonnes des variables (interprter par axe et par plan), - l'aide des coordonnes des individus. - Mettre en vidence des typologies. Il est possible de faire intervenir des lments illustratifs (appels galement supplmentaires) an d'aider l'oprateur interprter. Ces lments, individus ou variables, n'interviennent pas dans la construction des axes factoriels, mais sont reprsents pour l'tape d'interprtation. Dans le cas des variables, il s'agit de variables quantitatives qui peuvent tre continues ou nominales. L'ajout d'lments illustratifs doit rester exceptionnels, car ils n'appartiennent normalement pas au champ strict de l'tude. Il peut cependant parfois tre intressant de supprimer un individu provoquant un eet de taille dans le calcul des axes, et de le faire apparatre pour interprter ses projections en fonction des autres individus.
3.5 Conclusion
Dans un premier temps rsumons l'analyse en composantes principales l'aide des neuf tapes de la gure 3.9 : - 1 : La premire tape concerne la mise en forme des donnes brutes. - 2 : La deuxime tape consiste centrer et rduire les donnes. Elles sont centres an d'obtenir des proprits intressantes, et rduites pour uniformiser les units de mesure. - 3 : Le tableau est considr comme juxtaposition de lignes.
36
CHAPITRE 3.
- 4 : Le tableau est considr comme juxtaposition de colonnes. - 5 : Les individus sont reprsents dans un espace
NI
dimensions. Dans le nuage
semblances. Le centre de gravit -
G reprsente un individu moyen. 6 : Les variables sont reprsentes dans un espace I dimensions. Nous nous intresNK
se situe sur une hypersphre.
nous nous intressons aux distances inter-individuelles qui dterminent les res-
sons ici aux angles des points. Le cosinus de l'angle est le coecient de corrlation. Toutes les variables sont quidistantes de l'origine car les donnes ont t rduites, ainsi le nuage - AF : Analyse Factorielle. Cette phase permet de mettre en vidence une suite de directions. Dans l'tape 7 ces directions sont des directions d'allongement, et dans l'tape 8 les axes s'interprtent comme des variables synthtiques. - 7 : Cette tape consiste projeter les points du nuage
NI
sur le premier plan
factoriel. C'est un premier ajustement, il peut y en avoir d'autres suivre. Les distances s'interprtent alors comme des ressemblances entre les individus. - 8 : Cette tape consiste projeter les points du nuage
NK
sur le premier plan
factoriel. Ici aussi, c'est un premier ajustement, et il peut y en avoir d'autres suivre. Les coordonnes reprsentent les coecients de corrlation avec les facteurs sur les individus. - Les relations de transition expriment les rsultats d'une analyse factorielle (AF) dans un espace en fonction des rsultats de l'autre. - 9 : Cette tape est la reprsentation simultane de nuages de points qui se trouvent initialement dans des espaces de dimensions direntes. Cette reprsentation issue des relations de transition permet des interprtations des axes simultanes.
L'ACP est une mthode puissante pour synthtiser et rsumer de vastes populations dcrites par plusieurs variables quantitatives. Elle permet entre autre de dgager de grandes catgories d'individus et de raliser un bilan des liaisons entre les variables. Par cette analyse nous pouvons mettre en vidence de grandes tendances dans les donnes telles que des regroupements d'individus ou des oppositions entre individus (ce qui traduit un comportement radicalement dirent de ces individus) ou entre variables (ce qui traduit le fait que les variables sont inversement corrles). Les reprsentations graphiques fournies par l'ACP sont simples et riches d'informations. L'ACP peut tre une premire analyse pour l'tude d'une population dont les rsultats seront enrichis par une autre analyse factorielle ou encore une classication automatique des donnes.
3.5.
CONCLUSION
37
Fig. 3.9 Rsum de l'ACP.
38
CHAPITRE 3.
Chapitre 4 Analyse Factorielle des Correspondances

4.1 Introduction
L'analyse factorielle des correspondances a t introduite par [Ben80b] sous le nom d'analyse des correspondances. Elle porte galement le nom d'analyse des correspondances binaires en relation avec l'analyse des correspondances multiples que nous prsentons ensuite. Nous la notons par la suite AFC. Cette analyse peut tre prsente sous de nombreux points de vues, notamment comme un cas particulier de l'analyse canonique ou encore de l'analyse factorielle discriminante. Elle peut aussi tre tudie comme une ACP avec une mtrique spciale (celle du points dgags par une analyse factorielle vus au chapitre 2.
2 ) [Sap90]. Nous la prsentons ici suivant les
4.1.1 Les domaines d'application

de contingence
Trs tt cette analyse a t utilise en pratique car elle est conue pour les
tableaux
et permet ainsi l'tude des liaisons (dites aussi correspondances) existant
entre deux variables nominales. Les domaines d'application de l'AFC sont donc dirents de ceux de l'ACP qui est adapte aux tableaux de mesures htrognes ou non. Pour cette analyse aussi nous pouvons donner une longue liste des disciplines ayant trouv rponse leur problme par l'AFC. Ainsi, l'cologie, la zoologie, la psychologie, l'conomie, et d'autres encore dans lesquelles il peut tre intressant d'tudier les liaisons entre deux variables nominales, ont fourni un grand nombre de donnes. L'AFC conue pour les tableaux de contingence ( aux tableaux de mesures homognes ( issus de questionnaires d'enqutes.
i.e. mme systme d'units), aux tableaux de notes,
i.e. frquences), peut tre applique
de rangs, de prfrences, aux tableaux valeurs logiques (0 ou 1), et encore aux tableaux
39
40
CHAPITRE 4.
ANALYSE F ACTORIELLE DES CORRESPONDANCES
Modalit de la seconde variable

1 ......
......
premire variable
Modalit de la
1 . . . . . .
......
. . . . . .
kij
. . . . . .
. . . . . .
......
Tab. 4.1 Reprsentation des donnes pour l'AFC.
4.1.2 Les donnes

Les donnes, la dirence de l'ACP, doivent tre organises en tableaux de contingence (appels aussi tableau de dpendance ou tableau crois).
Dnition 4.1.1 Un tableau de contingence est un tableau d'eectifs obtenus en croisant les modalits de deux variables qualitatives dnies sur une mme population de n individus.
L'AFC peut galement tre tendue aux variables quantitatives homognes en dnissant simplement quelques modalits pour ces variables. Par extension, elle s'applique aussi aux tableaux individus-variables pour des variables quantitatives homognes, dans ce cas les individus sont considrs comme des variables. Nous devons donc considrer les donnes brutes organises de la faon dcrite sur le tableau 4.1. Dans ce cas,
a f I; ; I g J fI; ; J g kij
, , et
reprsente le nombre de lignes et l'ensemble des lignes
reprsente le nombre de colonnes et l'ensemble des colonnes
est le nombre d'individus possdant la fois la modalit
variable et la modalit
i de la premire
de la seconde variable. Nous avons donc :
iPI j PJ
kij a n;
(4.1)
avec
n le nombre total d'individus de la population initiale. Nous constatons que sur ce fij
sont donnes par :
type de tableau les lignes et les colonnes jouent un rle symtrique. Davantage que le tableau 4.1, c'est le tableau des frquences relatives 4.2 qui est considr. Les frquences
fij a
et les marges par :
kij ; n fij ;
(4.2)
fi a
j PJ
(4.3)
4.1.
INTRODUCTION
41
1 1 . . . . . .
......
j
. . . . . . . . . . . .
......
marge
......
. . . . . .
fij
......
fi
marge
fj
Tab. 4.2 Tableau des frquences relatives pour l'AFC.
et
fj a
Nous avons ainsi :
iPI
fij :
(4.4)
iPI
fi a
j PJ
fj a
iPI j PJ
fij a I:
(4.5)
Liaisons entre les variables

pour l'ACP (
Nous avons vu que l'AFC considre un tableau de contin-
gence ou de frquence pour tudier les liaisons entre les deux variables l'initiative du tableau. Nous ne pouvons plus dnir les liaisons par les coecients de corrlation comme
cf. Chapitre 3).
Dnition 4.1.2 Il y a indpendance entre les deux variables considres si :

fij a fi fj ; Vi P I; Vj P J:
variables sont lies si elles ne sont pas indpendantes.
Ainsi nous pouvons dire que : - Si (4.6)
Dnition 4.1.3 Nous disons qu'il y a liaison entre ces deux variables, ou que ces deux
fij i j
est suprieur au produit des marges, les modalits
et
s'associent plus
que sous l'hypothse d'indpendance. Nous dirons que les deux modalits s'attirent. - Si
et
fij
est infrieur au produit des marges, les modalits
i et j s'associent moins que
sous l'hypothse d'indpendance. Nous dirons qu'il y a rpulsion entre les deux modalits
i et j .
42
CHAPITRE 4.
Sous l'hypothse d'indpendance nous avons : - en considrant le tableau comme un ensemble de lignes :
fij fi fij fj
a fj ; Vi P I; Vj P J; a fi; Vi P I; Vj P J:
fj
(4.7)
- en considrant le tableau comme un ensemble de colonnes : (4.8)
f j , et le terme ij fi dans la sous-population possdant la modalit i.

population totale possdant la modalit
Dans l'quation (4.7), le terme de droite
s'interprte comme le pourcentage de la reprsente ce mme pourcentage
Ainsi il y a indpendance lorsque les lignes du tableau de frquences sont proportionnelles. Par symtrie il en est de mme pour les colonnes.
4.1.3 Les objectifs

Les objectifs sont les mmes que ceux de l'ACP dans le sens o l'AFC cherche donc obtenir une typologie des lignes et une typologie des colonnes, puis de relier ces deux typologies. Il faut donc faire ressortir un bilan des ressemblances entre lignes (respectivement colonnes) en rpondant aux questions du type : - Quels sont les lignes (respectivement colonnes) qui se ressemblent ? - Quelles sont celles qui sont direntes ? - Existe-t-il des groupes homognes de lignes (respectivement colonnes) ? - Est-il possible de mettre en vidence une typologie des lignes (respectivement des colonnes) ? La notion de ressemblance entre deux lignes ou deux colonnes dire cependant de l'ACP. En eet, deux lignes (respectivement deux colonnes) sont trop ou trop peu par rapport l'indpendance. Il faut donc chercher les lignes (respectivement colonnes) dont la rpartition s'carte le plus de l'ensemble de la population, celles qui se ressemblent entre elles et celles qui s'opposent. An de relier la typologie des lignes avec l'ensemble des colonnes, chaque groupe de lignes est caractris par les colonnes auxquelles ce groupe s'associe peu ou fortement. Par symtrie, chaque groupe de colonnes est caractris par les lignes auxquelles ce groupe s'associe peu ou fortement. Ainsi nous pouvons dcomposer la liaison entre deux variables en une somme de tendances simples et interprtables et mesurer leur importance respective.
proches
si elles s'associent de
la mme faon l'ensemble des colonnes (respectivement des lignes),
i.e. elles s'associent
4.2 Principe de l'AFC

Nous allons prsenter le principe de l'AFC et la dmarche suivre en illustrant les tapes par un tableau de donnes de faible dimension. De ce fait l'AFC ne se justie
4.2.
PRINCIPE DE L'AFC
43
Couleurs des cheveux brun Couleurs des yeux Total marron noisette vert bleu 68 15 5 20 108 chtain 119 54 29 84 286 roux 26 14 14 17 71 blond 7 10 16 94 127 Total 220 93 64 215 592
Tab. 4.3 Tableau de contingence.

Couleurs des cheveux brun Couleurs des yeux marron noisette vert bleu Prol moyen 11,4 2,5 0,8 3,3 18,2 chtain 20,1 9,1 4,8 14,1 48,3 roux 4,3 2,3 2,3 2,8 11,9 blond 1,1 1,6 2,7 15,8 21,4 Prol moyen 37,1 15,7 10,8 36,3
9 IHH
Tab. 4.4 Tableau des frquences observes.
pas vraiment, puisque les conclusions sont immdiates ds le tableau de contingence, cependant nous verrons clairement le principe et les proprits de cette analyse. Prenons l'exemple simple de la rpartition de 592 femmes selon les couleurs des yeux et des cheveux (exemple propos par Cohen en 1980 et repris dans [LMP95]). Le tableau 4.3 de contingence donne le nombre de femmes possdant la fois une des quatre modalits de la couleur des cheveux et une des quatre modalits de la couleurs de yeux. Ainsi et
IaJ aR n a SWP. Le tableau des frquences 4.4 correspondant permet de ne plus tenir compte
du nombre de femmes total. Ainsi nous pouvons nous demander s'il y a indpendance entre la couleur des yeux et celle des cheveux, ou encore quelles sont les associations entre ces couleurs. Sur cet exemple les rponses sont assez faciles, cependant lorsque la taille des donnes est plus importante, nous ne pouvons travailler directement sur le tableau des donnes brutes. Comme dans l'ACP, il y a une tape de transformation des donnes.

Nous allons considrer le tableau d'une part comme une suite de lignes, puis comme une suite de colonnes ( sont normalises en divisant par
cf. tableau 4.5). Lorsque le tableau est considr en ligne les donnes fi , la nouvelle ligne ainsi cre est appele prol-ligne .
Cette normalisation a pour but de considrer les liaisons entre les deux variables au travers de l'cart entre les pourcentages en lignes. Dans cette exemple d'avoir les cheveux de couleur
la probabilit conditionnelle dnie par
j sachant que la couleur des yeux est i. Le prol-ligne i est i sur l'ensemble des colonnes. Un raisonnement
fij fi
reprsente la probabilit
similaire peut tre fait pour les colonnes du fait du rle symtrique jou par les lignes
44
CHAPITRE 4.
1 1 . . . . . .
......
i
. . . . . .
......
1 1 . . . . . .
......
i
. . . . . .
......
......
. . . . . .
fij fi
. . . . . .
......
...
...
. . . . . .
fij fj
. . . . . .
...
...
Tab. 4.5 Les prol-ligne et prol-colonne.

Couleurs des cheveux brun Couleurs des yeux marron noisette vert bleu Prol moyen 30,9 16,1 7,8 9,3 18,2 chtain 54,0 58,0 45,3 39,0 48,3 roux 11,8 15,0 21,8 7,9 11,9 blond 3,1 10,7 25,0 43,7 21,4 Prol moyen
9 IHH 9 IHH 9 IHH 9 IHH 9 IHH
Tab. 4.6 Prols-lignes (exprims en pourcentages-lignes arrondis).
et les colonnes. Ainsi couleur
i sachant qu'elle a les cheveux de couleur j . Si nous reprenons notre exemple sur
Le tableau 4.6 reprsente donc les
fij fj
reprsente la frquence pour une femme d'avoir les yeux d'une
les couleurs de cheveux et des yeux, nous obtenons les prols-lignes et les prols-colonnes donns respectivement par les tableaux 4.6 et 4.7. probabilits conditionnelles d'avoir les cheveux de la couleur
couleur . Le tableau 4.7 fournit la rpartition de la couleur des yeux selon les modalits de la couleur des cheveux. Nous avons donc par exemple 31 chances sur 100 que les femmes qui ont les yeux marrons aient les cheveux de couleur brun, et 63 chances sur 100 que les femmes qui ont les cheveux de couleur brun aient les yeux marrons. Nous savons aussi partir du tableau 4.4 que 11 femmes sur 100 ont la fois les yeux marrons et les cheveux de couleur brun.
j sachant que les yeux ont la
4.2.2 La ressemblance entre prols

La ressemblance entre deux lignes ou entre deux colonnes est dnie par une distance entre prols. La distance employe est celle du
2
et elle est dnie de faon symtrique
4.2.
PRINCIPE DE L'AFC
45
Couleurs des cheveux brun Couleurs des yeux marron noisette vert bleu Prol moyen 62,9 13,8 4,6 18,5 chtain 41,6 18,8 10,1 29,3 roux 36,6 19,7 19,7 23,9 blond 5,5 7,8 12,5 74,0
Prol moyen 37,1 15,7 10,8 36,3
9 IHH 9 IHH 9 IHH 9 IHH 9 IHH

i et iH elle est donne par :
2
Tab. 4.7 Prols-colonnes (exprims en pourcentages-colonnes arrondis).
pour les lignes et les colonnes. Ainsi entre deux lignes
I d2 @i; iH A a f j PJ j
et entre deux colonnes
fij fiH j fi fiH : fij fj fij H f j H

J
(4.9)
et
j H par :
2
La matrice diagonale
I R . Cette pondration
I f j I
I d2 @j; j H A a f iPI i
: fi
(4.10)
dnie la mtrique dans I R , tandis que
dnie celle dans
en augmentant les termes concernant les modalits rares.
f j
quilibre l'inuence des colonnes sur la distance entre les lignes
Remarque
D'autres distances pourraient tre employes, cependant la distance eucli-
dienne usuelle entre les points-lignes ou entre les points-colonnes exprims partir du tableau de frquence ne traduit que les dirences d'eectifs entre deux modalits. La distance euclidienne entre les prols-lignes ou entre les prols-colonnes permet de bien modliser les ressemblances entre deux modalits. Par exemple pour la distance entre deux prols-lignes est donne par :
fij d@i; iH A a fi j PJ
iH j f fiH :
2
: f j
(4.11)
Cependant cette distance favorise les colonnes ayant une masse
important. Ainsi dans
notre exemple elle favorise les couleurs de cheveux bien reprsentes tel que le chtain. C'est pour cette raison que la distance retenue dans l'quation (4.9) (respectivement (4.10)) l'cart entre les prols est pondr par l'inverse de la masse de la colonne (respectivement de la ligne). Cette distance est nomme distance du
2 car elle proportionnelle 2 la statistique du de Karl Pearson. De plus cette distance du possde une proprit fondamentale nomme l'quivalence distributionnelle . Cette proprit permet d'associer
2
46
CHAPITRE 4.
deux modalits d'une mme variable qui possde des prols identiques en une modalit unique aecte de la somme de leurs masses, sans modier ni les distances entre les modalits de cette variable, ni les distances entre les modalits de l'autre variable. Ainsi, si deux colonnes proportionnelles d'un tableau sont regroupes, les distances entre prols-lignes sont inchanges, et rciproquement. Ceci permet de regrouper des modalits voisines pour ainsi rduire le nombre de modalits et donc la complexit de l'interprtation en garantissant une certaine invariance des rsultats.
4.2.3 Les nuages des deux prols

Le nuage des prols-lignes
Lorsque nous nous intressons aux modalits de la premire variable, il faut considrer les donnes comme une juxtaposition de prols-lignes. Ainsi chaque prol-ligne tre reprsent comme un point de l'espace I R une modalit de la seconde variable (
cf.
dont chacune des
peut
dimensions reprsente
gure 4.1). L'utilisation de la distance entre
Fig. 4.1 Le nuage
NI
des prols-lignes dans l'espace I R .
deux prols est celle
2 ,
elle revient aecter le poids
Du fait que la somme de chaque prol-ligne est gale 1, le hyperplan, not
f j
la
HI . Pour l'AFC les poids aects chaque point du nuage sont imposs et ne sont pas identiques. Le point i a pour poids la frquence marginale fi . Ce poids est
j me dimension de IRJ . nuage NI appartient un
4.2.
PRINCIPE DE L'AFC
47
f i sur l'axe j est donne par ij . fi Le barycentre des points de NI munis de ces poids, not GI , est la moyenne pondre de tous les points sur tous les axes j . La coordonne de GI sur l'axe j est donc donne
coordonne du point par :
naturel puisqu'il est proportionnel l'eectif de la classe d'individus qu'il reprsente. La
iPI
fi
fij fi
a fj :
(4.12)
Le barycentre s'interprte comme un prol-moyen. Dans l'tude des lignes, il sert de rfrence pour tudier dans quelle mesure et de quelle faon une classe d'individus dire de l'ensemble de la population. Ceci se fait par l'tude de l'cart entre le prol de cette classe et le prol moyen. Ainsi l'tude de la dispersion du nuage autour de son barycentre quivaut l'tude de l'cart entre prols et marge ou encore l'tude de la liaison entre les deux variables.
Le nuage des prols-colonnes

La construction du nuage des prols-colonnes est identique celle du nuage des prolslignes du fait de la symtrie entre les lignes et les colonnes en AFC. Ainsi, lorsque nous nous intressons aux modalits de la seconde variable, il faut considrer les donnes comme une juxtaposition de prols-colonnes. Chaque prol-colonne point de l'espace I R dont chacune des
I dimensions reprsente une modalit de la premire fij variable (cf. gure 4.2). Le point i a pour coordonne sur l'axe i la proportion , et le fj poids qui lui est associ est fi . Le nuage NJ appartient un hyperplan not HJ . De plus le barycentre des points de NJ munis de leur poids a pour coordonne sur l'axe i : f (4.13) fj ij a fi : fj j PJ
Ce barycentre s'interprte galement comme un prol moyen et joue le mme rle pour l'tude de la liaison entre les deux variables.
j peut tre reprsent comme un
4.2.4 L'ajustement des deux nuages

Les deux hyperplans
HI
et
HJ
sont de grande dimension si la taille des donnes est
importante. Nous ne pouvons donc pas les tudier directement. Ainsi, nous cherchons fournir des images planes des nuages prsente au Chapitre 2. Ainsi, pour l'ajustement du nuage des prols-lignes, nous cherchons une suite d'axes orthogonaux deux deux axe centrer le nuage
NI
et
NJ .
La dmarche reste la mme que celle
fus Y s a I; ; S g sur lesquels le nuage NI est projet. Chaque us doit rendre maximum l'inertie projete du nuage NI . En pratique, nous devons
NI ,
ainsi le centre de gravit
Gi
devient l'origine des axes. Une fois le
48
CHAPITRE 4.
Fig. 4.2 Le nuage
NJ
des prols-colonnes dans l'espace I R .
nuage centr, la modalit
i a pour coordonne
exprime la dirence entre la rpartition de la classe
fi fj
fij
sur le
j me axe. Cette coordonne
et celle de la population totale
sur l'ensemble des modalits de la seconde variable. La recherche des axes qui rendent maximum l'inertie du nuage centr revient donc chercher les classes qui s'cartent le plus du prol de l'ensemble de la population. Chaque prol-ligne tant muni d'un poids
fi , l'inertie est donne par :
iPI
fi
fi fj NI
fij
2
:
J
(4.14)
L'ajustement du nuage des prols-lignes vecteur unitaire
u1 qui rende cette inertie maximale, puis par chercher le vecteur unitaire u2 orthogonal u1 qui vrie le mme critre, etc.
interviennent au travers de leur prol, que la distance entre les prols est celle du que chaque lment
dans I R
revient donc chercher le premier
Cette dmarche est semblable celle de l'ACP, l'exception du fait que les lignes
i est aect d'un poids fi .
2
et
Puisqu'en AFC les lignes et les colonnes jouent un rle symtrique, l'ajustement du nuage
NJ
est semblable celui de
NI . Ainsi les images planes du nuage NJ NJ
doivent tre
telles que les distances entre les points de l'image ressemblent le plus possible aux distances entre les points du nuage barycentre
GJ .
NJ .
L'analyse du nuage
se fait galement par rapport au
4.2.
PRINCIPE DE L'AFC
49
4.2.5 Reprsentation simultane

En AFC, la reprsentation simultane des deux nuages nature. Les deux nuages
NI et NJ repose sur une dualit
plus riche qu'en ACP car les lignes et les colonnes reprsentent des lments de mme
NI
et
NJ
sont deux reprsentations du mme tableau en le
considrant en tant que prols-lignes et prols-colonnes. L'analyse du tableau passe donc par les analyses des nuages qui ne sont pas indpendantes.
Remarque sur l'inertie

INI
L'inertie du nuage
NI
est donne par :
iPI
fi
j PJ
fj
fij f fi j NJ
2
iPI j PJ
@fij fifj A2 :
fi fj
(4.15)
NI . Cette inertie 2 reprsente la liaison entre les deux variables. En eet la statistique du habituellement
Nous constatons que l'inertie du nuage est identique celle du nuage employe pour mesurer la liaison entre deux variables est la somme du rapport avec pour numrateur le carr de la dirence de l'eectif observ et de l'eectif thorique et pour dnominateur l'eectif thorique :
iPI j PJ
@nfij nfifj A2 a nI a nI : NI NJ nf f
i
j
(4.16)
2 est gale, au coecient n prs, l'inertie totale du nuage NI 2 du nuage NJ . Ceci justie une nouvelle fois l'emploi de la distance du .
Ainsi la statistique du
et
Nous avons vu au chapitre 2 que les inerties associes chaque axe de mme rang dans chacun des nuages sont gales, ainsi que les facteurs de mme rang sur les lignes et les colonnes sont lis par des relations de transition. Ces relations donnent un sens une reprsentation simultane. Le schma de dualit de la gure 4.3 reprsente les relations de transition (appeles galement barycentriques, ou encore quasi-barycentriques) donnes par :
FS @iA a
pI
fij
S j PJ
fi
GS @j A FS @iA S S
du nuage (4.17)
I GS @j A a p
j
fij
S iPI
f j
FS @iA
reprsente la projection de la ligne
sur l'axe de rang
reprsente la projection de la colonne
sur l'axe de rang
du nuage
NI , GS @j A NJ , et S est la
(4.18)
valeur commune de l'inertie associe chacun de ces axes. Elle est donne par :
S a
iPI
fi FS @iA2 a
j PJ
fj GS @j A2 :
50
CHAPITRE 4.
Fig. 4.3 Le schma de dualit pour l'AFC.
La projection de la ligne sur l'axe
S,
chaque
i sur l'axe S est le barycentre des projections des colonnes colonne j tant aecte du poids fij . Cette proprit est appele
sur des plans engendrs par des axes de mme rang pour les
proprit barycentrique. La reprsentation simultane s'obtient en superposant les projections de chacun des deux nuages
NI
et
NJ
deux nuages. Bien sr les deux nuages ne sont pas forcment dans le mme espace. Si la reprsentation simultane n'est pas adopte par tous pour l'ACP, elle se justie beaucoup mieux pour l'AFC. En fait pour pouvoir rellement superposer les deux nuages, il faudrait avoir les mmes barycentres car chaque nuage devrait alors tre contenu dans l'autre. Cette reprsentation est possible en forant les centres de gravit pour approcher la solution idale. Les relations seront alors quasi-barycentriques.
4.3 Interprtation
La reprsentation simultane des lignes et des colonnes permet une interprtation aise des projections. Ainsi la position relative de deux points d'un mme ensemble (ligne ou colonne), s'interprte en tant que distance. La position d'un point d'un ensemble et tous les points d'un autre ensemble s'interprte en tant que barycentre. Attention cependant, toute association entre une ligne et une colonne suggre par une proximit sur le graphique doit tre contrle sur le tableau. Reprenons l'exemple prcdent sur la couleur des yeux et des cheveux. La reprsentation simultane sur le premier plan factoriel (
cf.
gure 4.4) montre par exemple que
les femmes aux yeux bleus et aux yeux marrons sont loignes. En conrmation avec le tableau, nous remarquons que les femmes aux yeux bleus auront tendance avoir les cheveux blonds, ainsi que pour celles aux yeux marrons qui seront davantage brunes. Les femmes aux cheveux roux auront plutt les yeux verts ou noisettes. La modalit des
4.3.
INTERPRTATION
51
cheveux chtains est proche de l'origine, elle reprsente donc un prol moyen et n'est rattache aucune couleur de cheveux.
Fig. 4.4 Reprsentation simultane dans le premier plan sur l'exemple de Cohen.
Pour l'interprtation, il peut tre utile partir des nuages de points d'en dduire les relations d'indpendance et l'inertie totale et des axes. Nous reprenons les principaux cas tudis dans [LMP95] sur la gure 4.5. Ainsi une inertie faible du nuage entrane un nuage concentr autour du centre de gravit tandis qu'une inertie forte donne un nuage dilat. L'indpendance des variables donne une forme sphrique au nuage, ce qui entrane aucune direction privilgie pour les axes, l'inertie des axes est donc dans ce cas faible. Au contraire l'existence d'une dpendance provoque un tirement du nuage dans une direction donne. Lorsque les nuages de points sont scinds en plusieurs sous-nuages, il est possible de rorganiser les donnes du tableau en ordonnant les coordonnes des lignes et des colonnes de faon regrouper les frquences nulles ( sous-nuages indpendamment en considrant les parties du tableau correspondant. Gnralement, l'interprtation se limite aux premiers facteurs, nous considrons ainsi une approximation du tableau initial. Les calculs de reconstruction de l'analyse factorielle s'appliquent ici. Il est possible de montrer que :
cf. gure 4.6). Ceci permet alors d'tudier les
fij fi fj a fi fj
Fs
sPS
@p iAGs @j A :
s
(4.19)
Cette formule prsente la dcomposition de l'cart du tableau relativement l'hypothse d'indpendance en une somme de tableaux dont chacun ne dpend que d'un couple de facteurs
@Fs; GsA
d'un mme rang. Elle dcompose ainsi la liaison des deux variables en
lments simples. En eet, chaque terme
fi fj Fs @iAGs @j A reprsente la liaison simple entre
52
CHAPITRE 4.
Fig. 4.5 Inertie et dpendance.
les modalits
i et j . Ainsi, si Fs @iA et Gs @j A sont du mme signe, la case @i; j A du tableau Fs @iAGs @j A est grande.
exprime une attirance, sinon elle exprime une rpulsion. L'attirance et la rpulsion seront d'autant plus grande que la valeur absolue du produit Puisque le tableau est approch, lorsqu'une partie seulement est considre pour l'analyse, il est important d'employer des indicateurs pour l'interprtation. Ceux utiliss pour l'AFC sont les mmes que ceux de l'ACP que nous avons vu la section 3.4 du chapitre prcdent. Nous pouvons donc tudier la qualit de reprsentation d'un lment par un axe ou un plan. La qualit de reprsentation d'une ligne par un axe rapport de l'inertie projete du point sur l'axe
s par l'inertie totale du point :
s est donne par le

(4.20)
fi Fs @iA2 ; fi d2 @GI ; iA

et la qualit de reprsentation d'une ligne par un plan dni par les axes par :
s et t est donne
(4.21)
fi Fs @iA2 fi Ft @iA2 C : fi d2 @GI ; iA fi d2 @GI ; iA

l'inertie projete du nuage sur l'axe
La qualit de reprsentation d'un nuage par un plan est mesure par le rapport de
s et de l'inertie totale du nuage :
sPS
s ; s
(4.22)
multiplie par 100, elle reprsente le pourcentage d'inertie.
4.3.
INTERPRTATION
53
Fig. 4.6 Relation entre la forme du nuage de points et le tableau.
Enn la contribution d'un lment l'inertie d'un axe est mesure par le rapport de l'inertie du point et de l'inertie du nuage. Lorsque l'lment est une ligne, la contribution l'inertie d'un axe
fi Fs @iA2 ; s et dans le cas d'un plan form des axes s et t :
s est donne par :
(4.23)
fi Fs @iA2 C Ft @iA2 : s C t
(4.24)
Il est aussi possible, comme pour l'ACP, d'ajouter des lments supplmentaires, illustratifs qui sont projets sur les plans tudis. Leur utilisation pour l'AFC est plus frquente que pour l'ACP, car il peut y avoir beaucoup de variables pour une tude donne qui ne sont pas considres dans cette analyse. Les projections sur les axes factoriels des prolslignes ou des prols-colonnes de ces lments n'interviennent pas dans les calculs de ces axes. Pour une bonne interprtation des plans de projection en AFC, nous proposons de suivre le plan suivant : - Choisir le nombre d'axes de projection tudier. Ce choix peut se faire par la mme approche que celle dcrite pour l'ACP. - Etudier les valeurs propres. Les valeurs propres proches de 1 traduisent une forte liaison entre les lignes et les colonnes. - Etudier la contribution des lignes et des colonnes de la mme faon que pour l'ACP. - Etudier les coordonnes des lments actifs : - ceux qui prsentent une forte contribution, - les extrmes avec une forte qualit de reprsentation (pour qualier le facteur).
54
CHAPITRE 4.
4.4 Conclusion
Nous rsumons l'AFC en neuf tapes illustres par la gure 4.7 : - 1 : Cette premire tape donne le tableau de contingence des modalits communes aux deux variables. Les lignes et les colonnes jouent des rles symtriques. - 2 : Cette deuxime tape modie le tableau en frquences. Ces frquences font apparatre des lois de probabilits. - 3 : Nous considrons ici le tableau comme une juxtaposition de lignes aprs transformation en divisant par
fi . Ces lignes sont appeles prol-lignes et peuvent tre fj .

Ces colonnes sont appeles prol-colonnes et
interprtes comme des probabilits conditionnelles. - 4 : Nous considrons ici le tableau comme une juxtaposition de colonnes aprs transformation en divisant par peuvent tre interprtes comme des probabilits conditionnelles. - 5 : Les prols-lignes qui constituent le nuage nuage
NI
se situe dans un hyperplan
centre de de gravit Le nuage
GI
HI . Le nuage NI NJ
NI
sont projets dans l'espace I R . Le est analys par rapport au
qui constitue un prol moyen.
- 6 : Les prols-colonnes qui constituent le nuage
NJ
se situe dans un hyperplan
au centre de gravit
GJ
HJ . Le nuage NJ
sont projets dans l'espace I R . est analys par rapport
qui constitue un prol moyen.
- AF : Analyse Factorielle. Elle permet de mettre en vidence une suite de directions orthogonales, d'tudier les projections en 7 et 8 en fonction de leurs proximits entre elles et par rapport l'origine qui correspond un prol moyen. - 7 : Cette tape consiste en la projection du nuage - 8 : Cette tape consiste en la projection du nuage
NI
sur le premier plan factoriel. sur le premier plan factoriel.
Les distances correspondent des ressemblances entre les modalits.
NJ
Les distances correspondent des ressemblances entre les modalits. - Relations de transition : ces relations expriment les rsultats d'une AF en fonction des rsultats de l'autre. - 9 : Les relations de transition permettent des interprtations simultanes des axes. Cette reprsentation simultane facilite l'interprtation. Attention toute association entre un point-ligne et un point-colonne suggre par une proximit doit tre contrle sur le tableau.
L'ACP et l'AFC sont direntes en plusieurs points, elles fournissent des clairages complmentaires. L'AFC est une mthode puissante pour synthtiser et rsumer de vastes tableaux de contingence. En pratique elle est applique beaucoup d'autres tableaux, notamment les tableaux individus-variables. Les individus sont alors considrs comme une variable. Dans le cas de tableaux de contingence, le principal objectif de cette analyse est de dgager les liaisons entre deux variables. L'analyse des correspondances multiples que nous exposons dans le chapitre suivant permet l'tude des liaisons entre plus de deux variables.
4.4.
CONCLUSION
55
Fig. 4.7 Rsum de l'AFC.
56
CHAPITRE 4.
Chapitre 5 Analyse des Correspondances Multiples

5.1 Introduction
L'AFC peut se gnraliser de plusieurs manires dans le cas o non plus deux variables sont mises en correspondance, mais deux ensembles de variables. La gnralisation la plus simple et la plus employe est l'analyse des correspondances multiples. Nous la notons dans ce qui suit ACM. Cette analyse a particulirement t tudie par B. Escoer [EP90] et J.P. Bezcri [Ben80b].

Cette analyse trs simple est non plus adapte aux tableaux de contingence de l'AFC, mais aux tableaux
disjonctifs complets
que nous dcrivons ci-dessous. Ces tableaux sont
des tableaux logiques pour des variables codes. Les proprits de tels tableaux font de l'ACM une mthode spcique aux rgles d'interprtation des reprsentations simples. Elle permet donc l'tude des liaisons entre plus de deux variables qualitatives, ce qui tend le spectre d'tude de l'AFC. L'ACM est donc trs bien adapte au traitement d'enqutes lorsque les variables sont qualitatives (ou rendues qualitatives). Il est galement possible de n'appliquer cette mthode plusieurs fois en ne prenant en compte que quelques variables.
5.1.2 Les donnes

L'ACM permet l'tude de tableaux dcrivant une population de application de l'ensembles des
individus et
variables qualitatives. Une variable qualitative (ou nominale) peut tre dcrite par une
I individus dans un ensemble ni non structur, par exemple non ordonn. Ces variables qualitatives peuvent tre codes par un codage condens qui
attribue une valeur chaque modalit. Par exemple les modalits pour la couleur d'un vin peuvent tre 1 pour le rouge, 2 pour le blanc et 3 pour le ros. Les donnes peuvent donc tre reprsentes sous la forme d'une matrice
X dcrite par le tableau 5.1, o I reprsente la fois le nombre d'individus et l'ensemble des individus I a fI; ; I g, J reprsente
57
58
CHAPITRE 5.
ANALYSE DES CORRESPONDANCES MULTIPLES
Variables
1 1 . . . . . . . . . . . . ......
......
Individus
......
xij
. . . . . .
. . . . . .
......
Tab. 5.1 Reprsentation des donnes sous forme de codage condens pour l'ACM.
la fois le nombre de variables et l'ensemble des variables codage condens de l'individu Les
xij
i pour la variable j .
a f I; ; J g
et
xij
est le
reprsentant une codication, en prendre la moyenne n'a aucun sens. Ces
donnes ne peuvent donc pas tre traites par l'ACP ou l'AFC prcdemment tudies. Ce tableau prsente donc des spcicits dont l'analyse factorielle doit tenir compte par une mthode spcique.
5.1.3 Les objectifs

Les objectifs que cette mthode spcique, l'ACM, doit remplir sont les mmes que ceux de l'ACP ou de l'AFC. Il s'agit d'obtenir une typologie des lignes et des colonnes et relier ces deux typologies. Nous aurons ici trois familles d'lments tudier, les individus, les variables et les modalits des variables. Cette tude se fait par la dnition de ressemblances et liaisons pour ces trois familles que nous dtaillons dans la section suivante. An d'tablir un bilan des ressemblances entre individus, comme en ACP nous cherchons rpondre des questions du type : - Quels sont les individus qui se ressemblent ? - Quelles sont ceux qui sont dirents ? - Existe-t-il des groupes homognes d'individus ? - Est-il possible de mettre en vidence une typologie des individus ? Les mmes types de questions se posent pour les variables et les modalits.
5.2 Principe de l'ACM

Le principe de base de l'ACM repose dans un premier temps sur une transformation des donnes du tableau 5.1 pour modier la codication en nombres binaires. L'analyse applique ensuite le mme principe que l'AFC, en transformant ce tableau disjonctif complet ainsi obtenu en prols-lignes et en prols-colonnes. La distance du employe pour dnir les liaisons.
2
est galement
5.2.
PRINCIPE DE L'ACM
59
Variable 1
1 1 . . . . . . . . . . . .
Variable
Variable
J K
marge
...............
k
. . . . . .
...............
Individus
0100000
. . . . . .
xik
0000100
J I1 Ik IK
Tab. 5.2 Reprsentation des donnes sous forme de codage condens pour l'ACM.

Une autre reprsentation du tableau 5.1 est le tableau disjonctif complet. Il reprsente les individus en ligne, alors que les colonnes reprsentent les modalits des variables (et non plus les variables) (
cf. tableau 5.2). Ainsi, l'intersection de la ligne i avec la colonne k, la valeur xik vaut 1 si l'individu i possde la modalit k et 0 sinon. Ce tableau porte le nom de disjonctif complet , car l'ensemble des valeurs xik d'un mme individu pour
les modalits d'une mme variable, comporte la valeur 1 une fois (complet) et une fois seulement (disjonctif ). Chaque modalit Notons familles d'lments les individus, les variables et les modalits.
marge
k est reli une variable j . Nous avons ainsi trois
j et galement l'ensemble des modalits de cette variable Kj a fI; ; Kj g. Ainsi K a Kj est la fois le nombre des
le nombre des modalits de la variable modalits toutes variables confondues et l'ensemble les galits suivantes :
Kj
j PJ
a f I; ; K g
. Nous avons donc
kPKj
xik a I; V@i; j A; xik a J; Vi;
(5.1)
kPK
(5.2)
iPI
xik a Ik ; Vk;
(5.3)
60
CHAPITRE 5.
couleur Individu 1 Individu 2 Individu 3 Individu 4 Individu 5 Individu 6 Individu 7 Individu 8 2 2 2 3 1 3 3 1
origine 1 1 2 2 1 1 2 2
apprciation 4 3 1 3 2 2 1 3
Tab. 5.3 Exemple du vin : tableau initial.
et
kPKj
Ik a I; Vj:
(5.4)
Les proprits intressantes de l'ACM sont essentiellement dues aux proprits des tableaux disjonctifs complets. Notons surtout que c'est un tableau binaire dont les lignes sont de sommes constantes
et dont les colonnes sont regroupes par paquet corres-
pondant une variable avec pour somme par ligne gale 1.
Exemple 5.2.1
Pour une meilleure comprhension de cette transformation, nous pou-
vons l'illustrer par un exemple. Nous supposons avoir des donnes issues d'une enqute sur l'apprciation du vin. Nous pouvons considrer trois variables : la couleur, l'origine et l'apprciation de l'individu. Nous reprenons les trois modalits rouge, blanc et ros pour la couleur codes respectivement par 1, 2 et 3. Nous considrons uniquement deux origines : Bordeaux et Cte du Rhne, codes par 1 et 2, et quatre modalits pour l'apprciation : mauvais, moyen, bon et trs bon codes respectivement par 1, 2, 3 et 4. Nous avons ainsi trois variables (
aQ
) et neuf modalits (
aW
). Les rsultats de l'enqute ctive sont
donns dans le tableau 5.3. Ainsi, par exemple l'individu 5 a moyennement apprci un Bordeaux rouge. Le tableau disjonctif complet 5.4 dduit ce tableau initial prsente les mmes informations. Ainsi, l'individu 5 prsente les modalits : rouge, Bordeaux, moyen.
Lorsque le nombre de variables est rduit deux (
aP
), les donnes peuvent tre
reprsentes sous la forme d'un tableau de contingence, comme dans l'AFC, mettant ainsi en correspondance les modalits des deux variables. Il est possible d'tendre ce tableau une hypertable de contingence lorsque
K2
et
K3 ) J
aQ
cf.
gure 5.1), o
K1
(respectivement
reprsente le nombre de modalits de la premire (respectivement deuxime
et troisime) variable et premire variable), ds que
l (de la deuxime variable) et m (de la troisime variable). Cependant
Iklm
est le nombre d'individus possdant les modalits
(de la
augmentent le nombre de cases devient trs important et l'hypertable est alors
dicile manier et reprsenter.
5.2.
PRINCIPE DE L'ACM
61
Couleur Rouge Ind. 1 Ind. 2 Ind. 3 Ind. 4 Ind. 5 Ind. 6 Ind. 7 Ind. 8 0 0 0 0 1 0 0 1 Blanc 1 1 1 0 0 0 0 0 Ros 0 0 0 1 0 1 1 0
Origine Ctes du Bordeaux 1 1 0 0 1 1 0 0 Rhne 0 0 1 1 0 0 1 1 Mauvais 0 0 1 0 0 0 1 0
Apprciation Trs Moyen 0 0 0 0 1 1 0 0 Bon 0 1 0 1 0 0 0 1 Bon 1 0 0 0 0 0 0 0
Tab. 5.4 Exemple du vin : tableau disjonctif complet.
Fig. 5.1 Hypertable de contingence pour
J a Q.
L'hypertable tant problmatique pour un grand nombre de variables, pour gnraliser le tableau de contingence deux variables, il est possible de considrer les tableaux de contingence entre variables prises deux deux. Nous obtenons ainsi une juxtaposition de tableaux de contingence. Un tel tableau est appel (
c.f. tableau 5.5).
tableau de Burt
du nom de son auteur
blance
Comme en ACP nous cherchons une typologie des individus. La notion de
ressem-
est dtermine par le nombre de modalits en commun. Par exemple dans une
enqute d'opinion, il est important de mettre en vidence une classe d'individus dtermines par des variables. Pour l'tude des variables deux points de vue s'orent nous. Nous pouvons caractriser les liaisons entre deux variables qualitatives en considrant les modalits, ou encore chercher rsumer l'ensemble des liaisons l'aide de quelques variables numriques qui synthtisent l'ensemble des variables. Les catgories socio-professionnelles peuvent ainsi rsumer une variable statut social. La richesse de l'ACM provient de l'tude d'une troisime classe d'lments, les modalits. De la mme faon que les individus, nous
62
CHAPITRE 5.
Variable
1 1 ......... .. . .. .
k
. . . . . .
..................
Variable
Ik
. . . . . . .. . .. . .. .
jH
Variable
h K
marge
Ihk
. . .
.. .
JIk
Tab. 5.5 Reprsentation des donnes sous forme du tableau de Burt.
pouvons chercher tablir un bilan des ressemblances entre modalits. Les ressemblances entre modalits peuvent tre dnies partir du tableau disjonctif complet, ou bien partir du tableau de Burt. Dans le premier cas une colonne est une variable indicatrice, ainsi deux modalits se ressemblent si elles sont prsentes ou absentes chez beaucoup d'individus. Dans le cas du tableau de Burt, une ligne ou une colonne correspond une classe d'individus, ainsi deux modalits se ressemblent si elles s'associent beaucoup ou peu aux mmes modalits. Ces deux points de vue aboutissent aux mmes rsultats. L'ACM peut donc tre vue comme une AFC du tableau disjonctif complet ou comme une AFC du tableau de Burt. La richesse apporte par ces trois lments, ne doit pas occulter l'unicit du tableau, et donc des conclusions parfois redondantes. Il sera donc prfr l'tude des modalits en priorit.
5.2.2 L'analyse factorielle des correspondances du tableau disjonctif complet

Comme pour l'AFC, nous allons considrer le tableau disjonctif complet en prolslignes et en prols-colonnes. Pour se faire nous modions ce tableau pour considrer les frquences (
cf. tableau 5.6). Les frquences fik
sont donnes par
sont donnes par :
xik . De plus les marges IJ

(5.5)
fi a
xik
kPK
IJ
I; aI
5.2.
PRINCIPE DE L'ACM
63
1 1 . . . . . .
......
k
. . . . . .
......
marge
......
. . . . . .
xik IJ .
. . . . .
......
Ik IJ
marge
Tab. 5.6 Mise en frquences du tableau disjonctif complet.
et
fk a
cf.
xik
IJ iPI
ik a IJ :
(5.6)
Une fois les frquences calcules, il faut considrer le tableau en prols-lignes et prolscolonnes ( tableau 5.7). Ainsi le tableau est de nouveau modi de faon ce que pour les prols-lignes la marge des lignes soit 1 et pour les prols-colonnes la marge des colonnes soit 1. Ainsi chaque case est compose respectivement de
xik J
et
xik . Ik
L'analyse des nuages

Chaque individu du nuage des individus
NI
est reprsent par les modalits qu'il
possde. La marge tant constante, la transformation en prols-lignes ne modie en rien les donnes. Ainsi le nuage
NI
appartient un hypercube not
cf. gure 5.2). Un individu i est un point de IRK qui J xik a pour coordonne sur l'axe k la valeur avec un poids identique pour chaque individu J I . Le barycentre G du nuage N a pour coordonne Ik (car la marge est constante) de I I I IJ sur l'axe k . La ressemblance entre deux individus est dnie par les modalits de chacun
prol d'une ligne est soit 0 soit ( des individus. Si les deux individus prsentent globalement les mmes modalits, alors ils se ressemblent. La distance qui caractrise cette ressemblance entre deux individus
HI
d'arrte
, puisque le
i et l
64
CHAPITRE 5.
1 1 . . . . . .
......
k
. . . . . .
......
1 1 . . . . . .
......
k
. . . . . .
......
i
. . . . . .
......
xik J .
. . . . .
......
i
. . . . . .
...
...
xik Ik
. . . . . .
...
...
Tab. 5.7 Les prol-lignes et prol-colonnes pour l'ACM.

est dnie par :
d2 @i; lA a
modalit
IJ xik I J kPK k
Cette expression est remarquable
dirent pour les individus
il sera loign de tous les autres individus et du centre de gravit.
i et l, ce qui est recherch. Le poids de la modalit k dans la I distance est l'inverse de sa frquence : . Ainsi si un individu possde une modalit rare, Ik
Chaque modalit peut tre reprsente par le prol-colonne, c'est--dire par les valeurs
2 I I @x x A2 : xJlk a J I ik lk kPK k 2 car @xik xlk A a I si un seul individu
(5.7)
possde la
et 0 sinon. Cette distance crot logiquement avec le nombre de modalits qui
prises par tous les individus pour la modalit considre. Ainsi une modalit de l'espace I R
et a pour coordonne
gure 5.3). Le barycentre nuage
GK
xik Ik
sur l'axe
avec un poids
du nuage
NK
NK
appartient l'hypercube d'arrte
est soit 0 soit
La ressemblance entre deux modalits
Ik
Ik
a pour coordonne , not
HK , puisque le prol d'une colonne
k est un point Ik constant de (cf. IJ sur l'axe i. Ainsi le
En notant que s'crire :
@xik A2 a xik
2
k et h est donne par la distance : xik xih 2 2 I : d @k; hA a I I k h iPI

I Ik C ih P xik xih ; Ik Ih iPI 2 3
(5.8)
qui ne prennent que les valeurs 1 ou 0, cette distance peut
d @k; hA a
(5.9)
5.2.
PRINCIPE DE L'ACM
65
Fig. 5.2 Reprsentation du nuage des individus
NI
dans l'espace I R
ce qui est le nombre d'individus possdant une et une seule des deux modalits
multipli par
une et une seule des deux modalits
I . Ik Ih
ou
Cette distance crot donc avec le nombre d'individus possdant
et
et dcrot avec l'eectif de chacune de ces
modalits. Ainsi, par construction, deux modalits d'une mme variable sont loignes l'une de l'autre (puisqu'elles ne peuvent pas tre possdes par le mme individu). Deux modalits possdes par exactement les mmes individus sont confondues, tandis que les modalits rares sont loignes de toutes les autres et du centre de gravit
GK .
La reprsentation simultane
et
NK
Il est possible, comme pour l'AFC, de reprsenter simultanment les deux nuages
NI
grce la dualit existant entre ces deux nuages. Avec les notations donnes par
le schma de dualit sur la gure 5.4, les relations de transitions s'crivent :
FS @iA a
pI
xik
S kPK
GS @kA FS @iA
(5.10)
I GS @kA a p
xik
FS @iA reprsente la projection de la ligne i sur l'axe de rang S de NI , tandis que GS @kA reprsente la projection de la ligne k sur l'axe de rang S de NK . S reprsente toujours la valeur commune de l'inertie associe chacun de ces axes de rang S des nuages NI et NK . Ces relations s'interprtent facilement car les xik ne prennent que les valeurs 0 I prs, au barycentre des modalits que ou 1. Ainsi FS @iA est plac au coecient p S
o
S iPI
Ik
66
CHAPITRE 5.
Fig. 5.3 Reprsentation du nuage des modalits
NK
dans l'espace I R .
i possde. Inversement, GS @kA est plac au coecient p prs, au barycentre S des individus qui possdent la modalit k . Les modalits peuvent ainsi tre vues comme
l'individu barycentre d'une classe d'individus, ou comme une modalit d'une variable. Il faudra cependant tenir compte lors de l'interprtation, que malgr cette quivalence entre les facteurs mme espace (I R
FS @iA
et
GS @kA,
les modalits et les individus n'voluent pas dans le
pour les premiers et I R
pour les seconds).
La reprsentation simultane n'est pas toujours facile interprter, car en pratique le nombre d'individus et de modalits pouvant tre grand, le graphique devient vite encombr. Elle permet cependant de bien caractriser les rpartitions et les classes d'individus.
5.2.3 L'analyse factorielle des correspondances du tableau de Burt

Nous avons vu que l'ACM peut tre vue comme une analyse factorielle des correspondances du tableau disjonctif complet ou encore du tableau de Burt. L'analyse partir du tableau disjonctif complet fournit des reprsentations des barycentres de classes d'individus, cependant au lieu de calculer les axes d'inertie du nuage d'individus, puis de projeter les barycentres sur ces axes, nous pouvons analyser directement le nuage des barycentres obtenu par le tableau de Burt. En fait, ces deux approches fournissent exactement les mmes rsultats. Sans dtailler davantage cette approche, les transformations des donnes ainsi que les relations de transitions issues de l'analyse factorielle des correspondances du tableau de Burt sont donnes par exemple dans [Pag03] ou [LMP95].
5.3.
INTERPRTATION
67
Fig. 5.4 Schma de dualit pour l'ACM.
5.2.4 Les variables quantitatives

Initialement prvue pour les variables qualitatives, l'ACM peut traiter galement les variables quantitatives, sous condition qu'elles soient rendues qualitatives. Ceci a un double intrt. Tout d'abord, rendre des variables quantitatives en variables qualitatives permet d'obtenir un tableau homogne et ainsi d'analyser l'ensemble de ces variables par une mme analyse. Un autre intrt est qu'une ACM sur des variables quantitatives codes en classe peut mettre en vidence des liaisons entre variables non linaires, que l'ACP ne peut dvoiler. Or les liaisons non linaires sont trs frquentes en pratique. Pour se faire, il sut de dcouper l'intervalle de variation en sous-intervalles qui dnissent autant de modalits. Ainsi diminuer le nombre de classes, c'est regrouper des individus de plus en plus dirents et augmenter le nombre de classes, c'est obtenir des classes plus nombreuses et faible eectif. Il est prfrable de garder un nombre infrieur huit classes pour pouvoir esprer analyser ces classes correctement. Bien souvent quatre ou cinq classes susent. Trois classes peuvent par exemple tre interprtes comme trois modalits mauvais, moyen et bon. Il faut galement choisir correctement les classes, par exemple en regardant s'il n'existe pas de seuils pour la variable mesure, dtermins par exemple par l'histogramme. Dans le cas o la variable possde une rpartition homogne de ses valeurs, il est possible de faire un dcoupage systmatique, par exemple avec des intervalles rguliers, ou encore avec un nombre d'individus identique dans chaque classe.
5.3 Interprtation
Nous avons vu que deux individus se ressemblent s'ils prsentent globalement les mmes modalits. Cette ressemblance se traduit par une proximit des individus dans l'espace I R
ou en pratique dans l'espace de projection choisi pour la reprsentation si-
multane. De mme si deux modalits d'une mme variable sont proches dans l'espace
68
CHAPITRE 5.
de projection, ceci se traduit par une ressemblance entre les groupes d'individus qui les ont choisies. La proximit de deux modalits de variables direntes s'interprte en terme d'
association . Ainsi deux modalits de variables direntes s'associent si elles concernent

En ce qui concerne la proximit entre modalits et individus, l'interprtation peut se
globalement les mmes individus. En fait ces modalits correspondent alors aux points moyens des individus. faire en considrant les modalits comme barycentre de classe d'individus. Il est souvent ncessaire de se reporter au tableau de donnes pour vrier les conclusions. Nous rappelons que sur la reprsentation simultane, les nuages
NI
et
NK
ne sont pas
dans les mmes espaces. Il est donc important d'avoir recours des indicateurs sur la qualit de reprsentation. Les indicateurs pour l'interprtation de l'ACM sont les mmes que ceux de l'ACP et de l'AFC dj donns, ici pour les individus et les modalits. Ainsi nous pouvons tudier la qualit de reprsentation de chaque individu et de chaque modalit par un axe ou par un plan. La contribution d'un individu ou d'une modalit l'inertie d'un axe ou d'un plan doit aussi tre considre. La notion de variable doit galement tre prise en compte. Ainsi la contribution d'une variable l'inertie d'un axe peut tre obtenue en sommant les contributions des modalits de cette variable l'inertie du mme axe. Nous obtenons ainsi un indicateur de liaison entre la variable et le facteur.
Les lments supplmentaires
Les lments supplmentaires ou illustratifs peuvent
tre des variables (et leurs modalits) ou bien des individus. Les variables supplmentaires permettent d'enrichir l'interprtation des axes sans avoir participes leur construction. Une variable supplmentaire couramment employe est la variable qualitative obtenue par la classication hirarchique (
cf. chapitre 7). Les individus supplmentaires exclus de
l'analyse peuvent tre situs par rapport aux individus actifs, ou des groupes d'individus actifs dans une optique de discrimination. Il est aussi courant de regrouper les modalits de faible eectif (qui n'ont pas de signication statistique) pour ensuite les reprsenter en tant qu'lments supplmentaires.
An de ne rien oublier pour l'interprtation des rsultats, nous proposons de suivre le plan suivant : - Dnir le nombre de modalits des variables quantitatives, s'il y a des variables quantitatives intressantes pour l'tude. - Choisir le nombre d'axes de projection. Ce choix se fait toujours de la mme faon que pour l'ACP ou l'AFC. - Etudier les valeurs propres qui reprsentent l'inertie de chaque axe. - Etudier la contribution des lignes et des modalits de la mme faon que l'ACP. - Etudier la contribution des variables en sommant les contributions des modalits d'une variable pour un facteur donn. - Etudier les coordonnes des modalits et des individus actifs. - Etudier les coordonnes des variables, des modalits et des individus supplmentaires s'il y en a.
5.4.
CONCLUSION
69
5.4 Conclusion
Pour conclure ce chapitre, commenons par rsumer l'ACM en dix tapes illustres sur la gure 5.5 : - 1 : Cette premire tape donne le tableau des donnes une fois que les variables qualitatives sont codes de manire condense. Les lignes reprsentent les individus et les colonnes les variables. - 2 : Cette deuxime tape transforme le tableau de l'tape prcdente en tableau disjonctif complet. Les lignes reprsentent toujours les individus, mais prsent les colonnes reprsentent les modalits. Cette deuxime tape peut galement tre la transformation du tableau de Burt. Dans ce cas, il y a symtrie entre les lignes et les colonnes qui reprsentent une classe d'individus. - 3 : A partir de cette tape nous appliquons l'AFC. Nous transformons le tableau disjonctif complet en frquences. - 4 : Nous considrons ici le tableau comme une juxtaposition de lignes aprs transformation en multipliant par
I . Ces lignes sont appeles les prols-lignes.
- 5 : Nous considrons ici le tableau comme une juxtaposition de colonnes aprs transformation en multipliant par -
IJ . Ces colonnes sont appeles prol-colonnes. Ik K 6 : Les prols-lignes qui constituent le nuage NI sont projets dans l'espace I R . Le nuage NI se situe dans un hypercube HI . I 7 : Les prols-colonnes qui constituent le nuage NK sont projets dans l'espace I R . Le nuage NK se situe dans un hypercube HK .
orthogonales, d'tudier les projections en 8 et 9 en fonction de leurs proximits entre elles et par rapport l'origine qui correspond un prol moyen.
- AF : Analyse Factorielle. Elle permet de mettre en vidence une suite de directions
- 8 : Cette tape consiste en la projection du nuage - 9 : Cette tape consiste en la projection du nuage
NI
sur le premier plan factoriel. sur le premier plan factoriel.
Les distances correspondent des ressemblances entre les individus.
NK
Les distances correspondent des ressemblances entre les modalits. - Relations de transition : ces relations expriment les rsultats d'une AF en fonction des rsultats de l'autre. Ce sont des relations barycentriques. - 10 : Les relations de transition permettent des interprtations simultanes des axes. Cette reprsentation simultane facilite l'interprtation. Attention toute association entre un point-ligne et un point-colonne suggre par une proximit doit tre contrle sur le tableau.
L'ACM est donc une analyse factorielle qui permet l'tude de plusieurs variables qualitatives, de ce fait elle est une gnralisation de l'AFC. Elle est donc applicable aux tableaux de variables qualitatives, mais aussi quantitatives aprs construction de classes partir de celles-ci. Le fait de pouvoir interprter l'ACM de plusieurs faons rend cette mthode trs riche et d'emploi facile. Elle peut tre trs complmentaire de l'ACP et bien sr des mthodes de classication.
70
CHAPITRE 5.
Les mthodes de classication permettent de regrouper les individus en classes selon leurs ressemblances. Deux types d'approches sont possibles soit nous considrons des donnes sur lesquelles nous connaissons les direntes classes et nous tentons d'aecter un nouvel individu dans une des classes connues, soit nous n'avons aucun
a priori
sur les
classes. Nous allons tudier ces deux types de classication dans les chapitres suivants.
5.4.
CONCLUSION
71
Fig. 5.5 Rsum de l'ACM.
72
CHAPITRE 5.
Chapitre 6 Analyse Factorielle Discriminante

6.1 Introduction
L'analyse factorielle discriminante est une des nombreuses mthodes de l'analyse discriminante. Sous ce nom sont regroupes des mthodes de classication qui ncessitent une connaissance des classes prexistantes. Dans le domaine de la reconnaissance des formes c'est ce qui est appel classication supervise ou encore apprentissage supervis. Parmi ces mthodes peuvent tre compts la rgression logistique (mthode semi-paramtrique), les
k-plus proches voisins, les arbres de dcisions (mthode non paramtrique qui favorise
le dialogue homme-machine) ou encore des mthodes issues de l'intelligence articielle souvent considres comme des botes noires telles que le perceptron multicouche et les autres rseaux de neurones, les chanes de Markov [Kun00] ou les machines vecteurs de support [Vap99]. Un aspect important de la classication supervise est l'chantillonnage des donnes pour raliser l'apprentissage. Direntes approches d'chantillonnage existent telles que la technique de Jackknife, du bootstrap ou de la validation croise [LMP95], [Sap90], nous ne les dtaillons pas ici. La plupart des mthodes qui ne sont pas issues de l'intelligence articielle peuvent tre dcrites par deux tapes : - l'tape de - l'tape de La
discrimination classement
une
qui cherche dterminer sur les donnes d'apprentissage
une fonction qui discrimine au mieux les donnes, qui cherche aecter une nouvelle donne une classe, consiste exprimer comme les une probabilits fonction de l'aide de la fonction tablie dans l'tape prcdente.
rgression logistique
d'appartenance
classe
p@C=xA
a posteriori i.e.
l'observation qu'il faut
[Sap90] [Cel03]. Bien souvent c'est la rgression linaire qui est employe, dterminer les coecients
tels que :
ln
p@C=xA I p@C=xA
a 0 C
d i=1
i xi :
(6.1)
Il est donc ncessaire d'estimer les paramtres des lois de probabilit, en supposant connue cette loi. Selon la loi retenue, il est possible de traiter des variables quantitatives, ou
73
74
CHAPITRE 6.
ANALYSE F ACTORIELLE DISCRIMINANTE
binaires. La fonction de discrimination est ainsi dnie, pour le classement d'un nouvel individu, la rgle baysienne peut tre applique.
classication baysienne est une autre approche probabiliste qui suppose connues les probabilits a priori et les distributions des probabilits d'appartenance chaque classe.
La Dans ce cas c'est une mthode optimale. En pratique, ces probabilits sont estimes partir de donnes d'apprentissage. Nous prsentons brivement cette mthode trs utilise en classication, comme mthode de classement de l'analyse factorielle discriminante la section 6.2.2. Les
arbres de dcision
sont des mthodes de discrimination, souvent employes pour
la segmentation. La reprsentation sous forme d'arbres permet une interprtation rapide et aise des rsultats. La construction de l'arbre ( tue sur les donnes d'apprentissage, puis l'tape de classement peut tre ralis pour de nouveaux individus. L'ide de la construction est simple, et se dcompose comme suit :
i.e. l'tape de discrimination) est eec-
- chercher la variable qui produit la meilleure division (par exemple celle qui donne la variance intraclasse la plus faible), - diviser en deux nuds intermdiaires, les individus selon cette variable, - chercher les variables qui produisent les meilleurs divisions des nuds intermdiaires, - poursuivre ainsi jusqu' n'obtenir que des nuds terminaux. Cependant l'arbre optimal est dicile dterminer. En eet, il faut dnir un critre de division, un critre d'arrt ( (
i.e.
une rgle pour dclarer si le nud est terminal ou inter-
mdiaire. De plus la complexit est importante pour des arbres plus de deux branches
i.e.
des arbres qui ne sont pas binaires). En outre, elle est dicilement gnralisable
si les donnes d'apprentissage sont peu reprsentatif de la ralit. La mthode CART
Classication And Regression Tree ) qui est un cas particulier des arbres binaires possde
L'approche des
une construction d'arbres aux proprits intressantes pour la segmentation qui rsout en partie ces problmes [BFRS93].
k plus proches voisins
repose sur l'ide simple d'attribuer un nouvel
individu la classe majoritaire parmi ses
plus proches voisins (individus de la base
d'apprentissage les plus proches au sens d'une certaine distance). C'est donc une approche gomtrique. Nous prsentons plus en dtails cette approche, comme mthode de classement de l'analyse factorielle discriminante la section 6.2.2. L'analyse factorielle discriminante est une mthode descriptive et prdictive fonde sur un modle paramtrique. Elle est galement appele analyse linaire discriminante (
Linear Analysis Discriminant
(LDA) en anglais). Nous conservons ici le nom d'analyse
factorielle discriminante, et nous utilisons l'abrviation AFD. En eet, cette mthode peut tre vu comme une analyse factorielle, car son aspect descriptif fait appel des calculs d'axes principaux. C'est une mthode avant tout prdictive qui discrimine les individus selon des classes connues. Son aspect prdictif de classement de nouveaux individus peut en fait faire appel d'autres mthodes de classication gomtriques ou probabilistes. L'analyse factorielle discriminante peut galement tre vu comme une analyse canonique particulire ou encore comme une extension de la rgression multiple prsente par exemple dans [LMP95].
6.1.
INTRODUCTION
75
Variables
1 1 . . . . . . ......
......
y
1
Individus
......
. . . . . .
xik
. . . . . .
. . . . . .
Fonctions ......
23
discriminantes
Q
Observations
Aectation
Tab. 6.1 Reprsentation des donnes pour l'AFD.

L'AFD est une approche trs utilise, et fait prsent partie de tout bon logiciel de statistique ou d'apprentissage. Les domaines d'application sont trs nombreux pour rsoudre des problmes tels que l'aide au diagnostic (par exemple en mdecine pour la prdiction de maladies), pour la prdiction de risques (par exemple en mtorologie pour prdire un risque d'avalanche ou en nance pour prdire un comportement boursier), pour le contrle de qualit (par exemple prvision de qualit d'un produit agro-alimentaire par des mesures) ou encore pour la reconnaissance des formes (par exemple en traitement d'images). C'est une mthode importante dans le mtier d'ingnieurs puisque l'aspect essentiel de l'AFD (et des mthodes de l'analyse discriminante en gnral) est l'aide la dcision. Son intrt vient galement du fait qu'elle fournit des rsultats des donnes d'apprentissage et mthodes.
robuste, i.e. peu dpendants des hypothses. Elle est ainsi
stables, i.e.
peu dpendants
considre comme une approche de rfrence laquelle sont souvent compares les autres
6.1.2 Les donnes

Q classes donnes par la variable nominale y (cf. tableau 6.1). Les Q classes sont a priori connues. La variable nominale y possde donc Q modalits. I reprsente la fois le nombre d'individus et l'ensemble des individus I a fI; ; I g, K reprsente la fois le nombre de variables et l'ensemble des variables K a fI; ; K g, et Q reprsente la fois le nombre de modalits de la variable y et l'ensemble Q a fI; ; Qg. xik est la valeur de la variable k pour l'individu i.
Nous disposons de
individus ou observations dcrits par
variables et rpartis en
76
CHAPITRE 6.
6.1.3 Les objectifs

A partir du tableau 6.1, nous constatons que deux objectifs se dessinent : - Le premier objectif consiste dterminer les fonctions linaires discriminantes sur l'chantillon d'apprentissage, dont les valeurs sparent
discrimination
tape d'
i.e. la combinaison linaire des K variables explicatives au mieux les Q classes. Il s'agit donc d'une tape de
des classes.
- Le second objectif consiste dterminer la classe de nouveaux individus pour lesquels nous observons les valeurs des
aectation d'un nouvel individu dans une classe. Il s'agit d'un problme de classement par opposition au problme de classication qui est la construction de
classes les plus homognes possibles dans un chantillon. Supposons un service dans un hpital qui comprend 500 patients. Dans
variables explicatives. Cette tape est une
Exemple 6.1.1
ce service sont rencontres essentiellement cinq pathologies. Il est ais de raliser une vingtaine d'examens et des analyses peu coteuses. Cependant pour dterminer une des cinq pathologies il est ncessaire d'entreprendre des interventions trs coteuses. Les donnes sont ainsi constitues de 500 individus et 20 variables, de plus la variable nominale
y est
compose de cinq modalits. L'tape de discrimination tente de rpondre des questions du type : est-il possible de prvoir avec les vingt examens et analyses, les pathologies des 500 patients sans avoir recours des interventions plus coteuses ? Alors que l'aectation tente de rpondre des questions du type : Est-il possible de prdire la pathologie d'un nouveau patient en n'eectuant que les examens et analyses peu coteux ? En fait derrire ces deux questions il en existe une autre d'ordre plus gnral laquelle tente de rpondre l'analyse factorielle discriminante : Est-ce qu'un grand nombre de donnes d'accs facile peut contenir une information dcrite par une appartenance une classe, plus dlicate dterminer ?
6.2 Principe de l'AFD

6.2.1 La discrimination
L'ide du principe de la discrimination repose sur le fait que la discrimination visuelle est plus aise si : - les centres de gravit de chaque sous-nuage appartenant une seule classe sont loigns, - chaque sous-nuage appartenant une seule classe sont les plus homognes possibles autour de ces centres de gravit. Pour ce faire il faut maximiser les variances interclasses (entre les classes) et minimiser les variances intraclasses ( l'intrieur des classes). Nous parlons galement de variances externes et internes. La gure 6.1 reprsente un nuage l'espace I R
. Notons
Iq le nombre d'individus dans la classe q et l'ensemble des individus
NI
des individus partitionns en trois classes dans
6.2.
PRINCIPE DE L'AFD
77
de la classe dans I R
q, Iq a fA; ; Iq g. G reprsente le centre de gravit du nuage des individus
q. Le centre de gravit de la classe q est donn par le vecteur :
, et
gq le centre de gravit de la partition des individus appartenant la classe
Fig. 6.1 Reprsentation du nuage
NI
des individus partitionns dans l'espace I R
gq a II xi:
q iPI q
La matrice de covariance interclasse est dnie par :
(6.2)
I I @g GA@g GAt; Ba I q q q
qPQ
classes est donne par :
(6.3)
et la matrice de covariance intraclasse qui est la somme pondre des covariances inter-
I @x g A@x g At: WaI i q i q

qPQ iPIq
(6.4)
L'inertie totale du nuage NI est gale la somme de l'inertie interclasse et de l'inertie intraclasse.
Cette proposition s'nonce galement par le fait que la covariance totale du nuage est la somme de la covariance interclasse et de la covariance intraclasse :
Proposition 6.2.1 Formule de dcomposition de Huygens
V a B C W:
interclasse et intraclasse droite.
(6.5)
La gure 6.2 illustre cette proposition. Le mme nuage est reprsent deux fois en reliant les points pour le calcul de la covariance totale gauche et de la somme des covariances
78
CHAPITRE 6.
Fig. 6.2 Illustration de la formule de Huygens.
Preuve
La matrice de covariance totale est donne par :
vkkH a
o
I @x G A@x H G H A a I @x G A@x H G H A; ik k ik k ik k ik k I I
iPI qPQ iPIq
(6.6)
Gk a xik : I
Or
(6.7)
@xik Gk A a @xik gqk A C @gqk Gk A;

nous remarquons ainsi que
(6.8)
iPIq
@xik gqk A@gqkH GkH A a
iPIq
@gqk Gk A@xikH gqkH A a H:
(6.9)
Donc uniquement deux des quatre termes de la partie droite de l'quation (6.6) sont non nuls et nous pouvons crire :
vkkH a bkkH C wkkH ;

avec
(6.10)
bkkH a
et
I I @g G A@g H G H A; q qk k qk k I
qPQ
(6.11)
wkkH a
I @x g A@x H g H A; ik qk ik qk I
qPQ iPIq
(6.12)
ce qui dmontre la proposition.
6.2.
PRINCIPE DE L'AFD
79
Fonctions linaires discriminantes

L'AFD consiste trouver les combinaisons linaires dnissant de nouveaux axes tels que les projections des
Q centres de gravit sur ces axes doivent tre les plus loignes, tan-
dis que les projections de chaque sous-nuage sur ces axes doivent tre les plus regroupes autour des projections des centres de gravit. La marche suivre est identique celle d'une analyse factorielle. La premire combinaison linaire est donc celle qui maximise la variance interclasse et minimise la variance intraclasse. Puis, la deuxime combinaison linaire est celle qui est non corrle la premire et qui discrimine au mieux les classes au sens du mme critre (maximisation de la variance interclasse et minimisation de la variance intraclasse). Les autres combinaisons linaires sont dtermines de la mme faon. Ces combinaisons linaires sont appeles
fonctions linaires discriminantes .

Une combinaison linaire individu
i est donne par :
a est un vecteur dans l'espace IRK . La valeur de a pour un

a@iA a
kPK
ak @xik gqk A:
(6.13)
La variance de la variable
a est dnie par : 4 52 I I 2 ak @xik gqk A ; vr@aA a I a @iA a I

iPI iPI kPK kPK kH PK
(6.14)
ou encore
I a a H @x g A@x H g H A a a a H v H : vr@aA a I k k ik qk ik qk k k kk
a
iPI kPK kH PK t est donc
(6.15)
La variance de
a Va.
atVa a atBa C atWa: (6.16) Le problme de l'AFD revient donc trouver a tel que l'inertie des sous-nuages des t individus Iq projets sur a soit maximale (inertie interclasse a Ba) et chaque sous-nuage t t soit group donc l'inertie intraclasse a Wa soit minimale. Chercher a tel que a Ba soit t maximale et a Wa soit minimale est quivalant chercher le maximum de la fonction : atBa (6.17) f @aA a t : a Va t Il est encore quivalent de chercher le maximum de la forme quadratique a Ba sous la t contrainte quadratique a Va a I. Par la mthode du Lagrangien, nous pouvons montrer
alors que :
D'aprs l'quation (6.5), nous avons :
V est inversible, nous obtenons : V1Ba a a: 1 Ainsi a est le vecteur propre de V B associ la plus grande valeur propre .
et lorsque la matrice
Ba a Va;
(6.18)
(6.19)
80
CHAPITRE 6.
Remarque
avec :
Il faut donc diagonaliser
V1B qui n'est pas a priori symtrique. Posons : B a Ct C; (6.20)

r
ckq a
Et posons :
Iq @g Gk A: I qk
(6.21)
a a V1Cv:
(6.22)
L'quation (6.18) s'crit alors :
CCtV1Cv a Cv: (6.23) t 1 Il sut alors de diagonaliser la matrice symtrique C V C d'ordre Q puis de dduire a l'aide de v. En rgle gnrale, il y a Q I valeurs propres donc Q I axes discriminants. C'est le
cas si
I > K > Q et si les variables ne sont pas lies linairement.
Cas de deux classes

Lorsqu'il n'y a que deux classes ( qu'un seul axe factoriel discriminant gravit des deux classes
i.e. Q a P), nous sommes dans le cas d'un problme
non sans importance de dtection (et non plus de classication). Dans ce cas, il n'y a donc
o le vecteur
c de l'espace IRK est dni par :

ck a
r
g1 et g2 . Ainsi nous pouvons crire : B a cct; I1 I2 @g g A: I 1 2
a, dtermin par la droite passant par les centres de
(6.24)
(6.25)
Nous avons donc :
V1ccta a a; ctV1ccta a cta:

a ct V1 c;
(6.26)
ou encore :
(6.27)
Donc l'unique valeur propre est donne par :
(6.28)
et l'unique fonction discriminante par :
est appele distance gnralise entre les deux classes ou encore distance de Mahalanobis .
Dans ce cas de deux classes, l'AFD est quivalente la rgression multiple [LMP95].
a a V 1 c :
(6.29)
1 avec une pondration pour ces individus donne par la mtrique V .
L'AFD peut aussi tre vue comme une ACP des centres de gravit
gq de chaque classe
6.2.
PRINCIPE DE L'AFD
81
La reprsentation
Comme les autres mthodes factorielles, il est possible de reprsenter les individus dans les plans factorielles discriminants. Il est aussi possible comme pour l'ACP de reprsenter les variables en traant le cercle de corrlation des
variables.
An de mesurer la qualit de la reprsentation, les mmes indicateurs que l'ACP peuvent tre employs. Par exemple la qualit de reprsentation d'un nuage par un axe
as est donne par le rapport :
sPS
s : s
(6.30)
La contribution absolue du centre de gravit
gq l'axe as est dnie par :

(6.31)
I q t 1 2 a V gq ; I s
et la contribution relative du centre de gravit
gq l'axe as est dnie par :

(6.32)
Iq I t 1 2 a V gq : I s s
Dans une optique de classication, la qualit de la discrimination peut tre dnie par le rapport du nombre d'individus bien classs par le nombre total d'individus. Ce critre reste classique.
6.2.2 L'aectation
Lorsque les fonctions discriminantes ont t dtermines, nous souhaitons trouver la classe d'aectation d'un nouvel individu. Il existe plusieurs rgles d'aectation (ou de classement) d'un nouvel individu
iH
dans une classe
q.
Nous en prsentons ici quelques
unes gomtriques et probabilistes.
Distances aux centres de gravit

Une ide simple consiste aecter un individu la classe dont le centre de gravit est le plus prs. Nous devons donc dnir la distance entre le point individu vecteur qui peuvent tre envisages. Distance euclidienne La distance euclidienne usuelle dans I R
xiH et le centre de gravit gq du sous-nuage Iq . Rappelons ici quelques distances

K
:
iH
dcrit par le
d2 e @xiH ; gq A a
kPK
@xiHk gqk A2:
(6.33)
82
CHAPITRE 6.
Exprimons cette distance dans le nouvel espace. Notons :
zr a ut r @xiH GA;
o
(6.34)
G est le centre de gravit du nuage NI dni par le vecteur @Gk Ak=1;::;K , r dsigne ime l'axe principal issu de l'analyse, et ur est le r vecteur propre normalis de la matrice des covariances totales V, dnie prcdemment, correspondant la valeur
propre
r . La distance euclidienne s'crit alors : d2 eV @xiH ; gq A a

r max r=1
@zr z "qr A2;
(6.35)
z "qr a ut@gq GA, rmax
ici le rang de la matrice du sous-ensemble des
La distance du nouvel individu
u Vu a I) est :
t
iH dcrit individus Iq dans deV 1 @xiH ; gq A a

2
X des donnes initiales.
est le nombre de valeurs propres retenues, qui peut tre par le vecteur la mtrique
V1 (i.e.
xiH au centre de gravit gq

sous la condition :
r max r=1
@zr z "qr A2 :
r
(6.36)
Distance de Mahalanobis globale Si nous remplaons les donnes
^ de terme gnral x X par X ik a xik gqk , nous diagonalisons alors la matrice W au lieu de V. Notons r les valeurs propres de W et z q les coordonnes de l'individu iH sur les nouveaux axes principaux u ^r . La 1 s'crit : distance de xiH au centre de gravit gq dans la mtrique W r max " @ zr z qr A2 : 2 dMg @xiH ; gq A a (6.37) r r=1
t @x H g A, o g est le centre de gravit du sous-nuage d'individus Iq . Notons wsq a vsq i q q Iq dcrit par le vecteur @gqk Ak=1;::;K , et wsq est le sime vecteur propre normalis de Uq Wq U qui correspond la valeur propre sq . La distance s'crit alors :
Distance de Mahalanobis locale
gq
La distance de Mahalanobis locale est la distance de l'individu
1 dans la mtrique W , o Wq
q
iH au centre de gravit
est la matrice des covariances internes de la classe
dMl @xiH ; gq A a
2
o
smax (q ) s=1
@wsq w "qsA2 ;
sq
(6.38)
t @g GA, et s w "qs a vqs q max @q A est le nombre de valeurs propres retenues dans le sous-nuage d'individus Iq .
6.2.
PRINCIPE DE L'AFD
83
Distance du
2
La distance du
2 est dtermine par : d2 @xiH ; gq A a

2
sxk a
iPI
xik , sxiH
kPK
s kPK xk sgq
xiH k sxiH
gqk s gq
2
(6.39)
xiH k
et
donc :
kPK
gqk . Dans le nouvel espace, nous avons

zr sz z "qr s z q
2
d2 @xiH ; gq A a
2
r max r=1
szr
(6.40)
Cependant cette distance s'applique habituellement aux tableaux de contingence comme nous l'avons vu pour l'AFC et l'ACM, elle convient donc peu l'AFC en gnral. Distance de Minkowsky Elle dpend d'un paramtre
positif :
dM @x
iH ; q
g Aa
kPK
xi H k
gqk j
31
(6.41)
Dans le nouvel espace, nous avons :
dM @xiH ; gq A a
Si
r max r=1
jzr z "qr j
31
(6.42)
a I, nous avons la distance des valeurs absolues aussi nomme distance de Manhattan, du nom du quartier new-yorkais, a P, nous retrouvons la distance euclidienne. Lorsque 3 CI, nous obtenons la distance de Tchebychev : dT @xiH ; gq A a mx jzr z "qr j: r
retenu la distance de Mahalanobis globale (mtrique (6.43)
D'autres distances sont envisageables. Cependant, pour l'AFC il est gnralement
Wq est la matrice des covariances internes au sous-nuage Iq ). Cette dernire permettant

de rduire les erreurs d'aectation lorsque les dispersions des classes sont trs direntes. Une autre approche gomtrique est possible, non plus en considrant les centres de gravit, mais les individus proches du nouvel individu.
W1) ou locale (mtrique Wq1, o
Rgle des k plus proches voisins

Cette mthode d'aectation peut tre employe directement pour la classication dans l'espace initial. Elle est trs utilise en reconnaissance des formes.
84
CHAPITRE 6.
Iq le plus reprsent dans son voisinage. Le voisinage est tendu jusqu' ce qu'il contienne k individus. Ainsi notons : Kq @iH A a card fi P I
o tel que
Le principe est simple, nous aectons le nouvel individu
iH
au sous-nuage d'individus
i P Iq ; i P Vk @iH Ag ;
(6.44)
Vk @iH A dsigne le voisinage de l'individu iH form par k individus. Cet ensemble peut se formaliser pour k a I par : V1 @iH A a fi P I tel que d@iH ; iA
par rcurrence, nous obtenons pour un
d@iH ; iHH A ViHH P I; iHH Ta ig ; d@iH ; iHH A ViHH P I r Vk1 ; iHH Ta ig :
(6.45)
k quelconque :
(6.46)
Vk @iH A a Vk @iH A fi P I r Vk1 tel que d@iH ; iA
Nous voyons que la aussi la dnition d'une distance adquate est importante. Il est possible d'employer une des distance prcdemment prsentes. La dcision est alors prise en cherchant le maximum de aect la classe
rgmx Kq @iHA). qPQ
Kq @iH A (i.e. que l'individu iH est k plus proches
D'autres rgles de dcisions sont envisageables issues
des mthodes de votes [Mar04]. Il existe une variante intressante de cette approche la classication par voisins ous.
Cette approche trs coteuse donne de bons rsultats. C'est pourquoi elle sert souvent de mthode de comparaison en reconnaissance des formes avec d'autres approches moins coteuses. Ce type d'aectation ne prend cependant pas en compte les probabilits chaque classe.
a priori
de
Approche baysienne
Cette approche probabiliste simple consiste aecter l'individu dividus
Iq
pour lequel la probabilit
P @Iq =iH A est maximale. Or d'aprs la rgle de Bayes,
iH au sous-nuage d'in-
nous avons :
P @Iq =iH A a
Il sut alors de maximiser connatre les probabilits
qH PQ
P @iH =Iq AP @Iq A : P @iH =IqH AP @IqH A
(6.47)
P @iH =Iq AP @Iq A. Cependant pour estimer cette probabilit il faut a priori P @Iq A, ce qui n'est pas toujours le cas. Elles peuvent P @iH =Iq A qui ncessite :
tre estimes, mais il faut alors tre sr de la capacit de gnralisation des donnes d'apprentissage. Il faut de plus estimer la probabilit - soit une estimation partir des frquences et dans ce cas il faut encore tre sr de la capacit de gnralisation des donnes d'apprentissage,
6.3.
CONCLUSION
85
- soit faire l'hypothse de la distribution. La distribution gaussienne qui peut tre justie par la loi forte des grands nombres est souvent employe. De plus elle ne ncessite que l'estimation de deux paramtres (la moyenne et la variance). Dans ce dernier cas, lorsque les distributions gaussiennes d'appartenance chaque sous-nuage sont de mme matrice de covariance intraclasse et s'il y a quiprobabilit des classes (les probabilits locale (
a priori P @Iq A
sont identiques), alors l'approche baysienne est
quivalente aecter la classe du plus proche voisin en utilisant la distance de Mahalanobis
cf. [LMP95] pour plus de dtails).
Il existe d'autres mthodes d'aectation, car en fait toute mthode de classication peut tre employe pour cette tape de classement. Bien souvent, les approches les plus simples donnent de meilleurs rsultats, au dpend d'un cot plus important.
6.3 Conclusion
L'AFD est une mthode trs utilise de nos jours. Sa simplicit de mise en uvre fait que nous la retrouvons dans de nombreux logiciels. Elle est adquate pour la reprsentation des donnes dans des espaces qui discriminent au mieux les individus selon des classes connues. Cette reprsentation permet de dgager des informations partir d'un grand nombre de donnes souvent dicile interprter. Elle permet galement l'aectation de nouveaux individus dans les classes existantes. Il est alors possible de rendre la mthode adaptative pour tenir compte de ces nouvelles observations. Il peut s'avrer trs enrichissant de l'employer en complment d'une autre analyse factorielle telles que l'ACP ou l'ACM.
86
CHAPITRE 6.
Chapitre 7 Classication
7.1 Introduction
La classication sans
a priori
est depuis longtemps une problmatique importante
issue surtout de l'tude des phnomnes naturelles et de la biologie en particulier. Toutes les mthodes ainsi dveloppes appartiennent une science la
taxonomie littralement la
science des lois de l'ordre [Ben80a]. Les mthodes de classication font parties intgrante de l'analyse de donnes. Dans le domaine de la reconnaissance des formes elle porte le nom de classication non-supervise. Le terme anglais pour classication est
clustering, les classes tant des clusters. Le terme anglais classication dsigne davantage classement i.e.
le fait d'aecter des objets des classes prdnies, voire analyse de donnes en gnral.
7.1.1 Les objectifs

La classication a pour principal objectif de rassembler les lments (individus ou variables) qui se ressemblent et/ou de sparer ceux qui dirent. C'est--dire qu'il s'agit de crer des classes homognes les plus loignes les unes des autres. Si cet objectif est facilement comprhensible, il n'en est pas moins compliqu atteindre. Nous sous-entendons lorsque nous cherchons classer des lments, qu'il existe des regroupements, soit en nombre inconnu soit en nombre suppos. Si nous cherchons souvent regrouper des lments entre eux, c'est an de mieux interprter une grand quantit de donnes. Les objectifs de la classication sont donc de regrouper les individus dcrits par un ensemble de variables, ou regrouper les variables observes sur des individus et d'interprter ces regroupements par une synthse des rsultats. L'intrt de regrouper les individus est ici de les classer en conservant leur caractre multidimensionnel, et non pas seulement partir d'une seule variable. Si les variables sont nombreuses il peut tre intressant de les regrouper an de rduire leur nombre pour une interprtation plus facile. Les mthodes de classication sont donc complmentaires des analyses factorielles dcrites dans les chapitres prcdents.
87
88
CHAPITRE 7.
CLASSIFICATION
Variables
1 1 . . . . . . ......
......
Individus
......
. . . . . .
xik
. . . . . .
. . . . . .
......
Tab. 7.1 Reprsentation des donnes pour la classication.
7.1.2 Les donnes

tableau 7.1, o
k pour l'individu i, I reprsente la fois I a fI; :::; I g, et K reprsente la fois le nombre de variables et l'ensemble K a fI; :::; K g.
est la valeur de la variable le nombre d'individus et l'ensemble Les variables peuvent tre quantitatives continues ou issues de tableaux de contingences, ou binaires issues de tableaux logiques, ou encore qualitatives. An de traiter l'ensemble de ces types de variables, c'est la mesure de similarit ou dissimilarit qui doit tre adapte aux types de donnes. En eet, nous nous doutons qu'il est important de dnir une mesure de similarit pour regrouper des lments ou de dissimilarit pour les loigner. Une mesure de similarit ou de dissimilarit est une distance l'exception que l'ingalit triangulaire n'est pas exige. Ces mesures peuvent tre des distances dans le cas de variables quantitatives. Ainsi, il est prfrable d'employer une distance euclidienne, de Mahalanobis ou de Minkowsky pour les variables quantitatives continues et une distance du
Les donnes de dpart sont souvent organises comme une matrice
xik
dcrite par le
2
pour des tableaux de contingences, distances que nous avons dj prsentes la
section 6.2.2 du chapitre prcdent. Dans le cas de tableaux binaires, un grand nombre de mesures de similarits entre deux lments ont t dnies partir des quatre quantits. Par exemple pour deux individus
x1 et x2 elles sont donnes par : - soit a le nombre de fois o x1k a x2k a I, - soit b le nombre de fois o x1k a H et x2k a I, - soit c le nombre de fois o x1k a I et x2k a H, - soit d le nombre de fois o x1k a x2k a H.
-
Les similarits suivantes ont t proposes par dirents auteurs :
a par Jaccard, aCbCc a par Russel et Rao, aCbCcCd Pa par Dice, Pa C b C c
7.1.
INTRODUCTION
89
a par Sokal et Sneath, a C P@b C cA aCd par Sokal et Michener, aCbCcCd a a C par Kulzinsky, aCb aCc aCd par Rogers et Tanimoto, a C d C P@b C cA ad bc par Yule, ad C bc jad bcj @a C bA@c C dA@a C cA@b C dA2 par Pearson, a @a C bA@c C dA@a C cA@b C dA2 par Ochia.
Dans le cas des variables qualitatives, il sut de considrer le tableau de contingence associ. En eet, si elles n'ont pas le mme nombre de modalits, il est trs dicile de dnir une distance. Si le tableau est compos de donnes mixtes, il sut de rendre les variables quantitatives en variables qualitatives en choisissant quelques modalits de la mme faon que dcrite la section 5.2.4.
7.1.3 Les mthodes

Il existe un grand nombre de mthodes et surtout beaucoup de variantes. Il est possible de les direntier grossirement soit par leur structure de classication, soit par le type de reprsentation des classes. Ainsi, nous pouvons distinguer quatre types de reprsentation [Bro03] : - Les partitions sont une notion la plus naturelle, chaque individu est aect une classe et une seule. - Les hirarchies sont un ensemble de partitions embotes. Ainsi une classe se divise en sous-classes. - Les arbres additifs sont une autre vision des hirarchies ; une structure dont les nuds terminaux sont les individus classs et les nuds intrieurs les classes. Une extension des arbres additifs est la notion d'arbre au sens de la thorie de graphes. - Les pyramides sont une gnralisation des hirarchies car elles permettent des empitements entre les classes. Les mthodes de classication cherchent transformer le tableau de donnes en un autre tableau ayant de bonnes proprits. C'est donc un problme d'optimisation. Cependant ces tableaux se trouvent dans des espaces discrets, ces transformations ne peuvent tre dcrites par des fonctions issues de calculs formaliss usuels, et il n'y a pas de solutions mathmatiques exactes. C'est donc dans le cadre des mathmatiques discrtes, que des solutions approximatives sont proposes dans une dmarche algorithmique.
90
CHAPITRE 7.
CLASSIFICATION
Nous nous contentons ici de prsenter deux mthodes, deux algorithmes, les plus utiliss et qui se retrouvent dans la plupart des logiciels de statistiques. Nous prsentons une mthode conduisant des partitions, la mthode des centres mobiles la section 7.2, puis une mthode conduisant des hirarchies, la classication hirarchique la section 7.3.
7.2 Mthode des centres mobiles

Cette mthode peut tre vu comme un cas particulier de l'approche des nues dynamiques dveloppe par E. Diday [CDG 89]. Cette mthode d'un formalisme trs simple n'en est pas moins trs ecace pour de vastes tableaux de donnes. Elle est de plus rapide, mais cependant pas toujours optimale. La mthode des centres mobiles est fonde sur une mthode de partitionnement directe des individus connaissant par avance le nombre de classes attendues.
7.2.1 Principe de l'algorithme

Nous supposons dsirer partitionner le nuage des individus d'une distance approprie que nous notons par fonction des donnes ( dienne ou du
cf. section 7.1.2). En pratique, il s'agit souvent de la distance eucli2 qui est implmente. Supposons de plus, que nous souhaitons partitionner NI en Q classes avec Q I . - tape 0 : Nous choisissons Q individus dans le nuage NI qui constituent Q centres provisoires des Q classes. Le choix de ces centres est important pour la rapidit de la convergence, et les connaissances a priori doivent ici tre mises prot, s'il y en
a. Dans le cas contraire, le plus courant, il sut de tirer alatoirement ces centres par un tirage sans remise. Notons par fournissent une premire partition
d.
NI
dans l'espace I R
Cette distance
muni
doit tre choisie en
I1 ; :::; Iq ; :::; IQ 0 en Q classes. Un individu i appartient au sous-nuage Iq P

0
c'est ce qui est applel intervient.
0 0 0 ; :::; C ; :::; C C q 1 Q 0 0 0
NI des individus 0 s'il est plus proche de Cq

du nuage
ces centres. Ces centres
que de tous les autres centres. Dans un espace deux dimensions, les sous-nuages sont dlimits deux deux par des droites mdiatrices des centres des sous-nuages,
diagramme de Vorono.
Bien sr ce niveau, la distance
- tape 1 :
nouveaux centres
centres de gravit des
1 1 C1 ; :::; Cq1 ; :::; CQ sont dtermins en prenant les 0 0 sous-nuages Iq obtenus par la partition P . La distance d
1 1 P 1 a I1 ; :::; Iq1 ; :::; IQ , suivant le mme critre prcdent. m m m sont dtermins en prenant les tape m : Q nouveaux centres C1 ; :::; Cq ; :::; CQ m1 obtenus par la partition P m1 . Ces nouveaux centres de gravit des sous-nuages Iq m a I m ; :::; I m ; :::; I m , suivant le mme centres induisent une nouvelle partition P 1 q Q
critre prcdent.
intervient de nouveau ici. Ces nouveaux centres induisent une nouvelle partition
La convergence de l'algorithme est garantie [LMP95]. Le critre d'arrt est celui de deux partitions identiques. D'autres critres permettent d'augmenter la rapidit. Par exemple,
7.3.
LA CLASSIFICATION HIRARCHIQUE
91
nous pouvons cesser les itrations lorsque la variance intraclasse de toutes les classes est susamment faible, ou encore lorsqu'un nombre d'itrations dni Cette algorithme est illustr sur la gure 7.1 dans le cas o
a priori est atteint. Q a P. Deux gures
Fig. 7.1 Illustration de l'algorithme des centres mobiles.

prsentent l'tape 0 : le tirage alatoire des centres provisoires de la premire partition
0 0 P 0 a fI1 ; I2 g en aectant chaque individu au sous-nuage dont le
0 0 et C2 et la construction C1
centre obtenu est le plus proche. L'tape 1 prsente les nouveaux centres et les sous-nuages dont ils sont les centres de gravit. De nouveau, l'tape 2 fournit les centres de gravit des nouveaux sous-nuages
2 2 et I2 . I1
De nombreux algorithmes sont fonds sur un principe similaire. Les deux principaux sont les nues dynamiques et les
k-means ou k-moyennes. La dirence pour la mthode
des nues dynamiques se situe au niveau de la raectation des individus chaque classe. Aprs avoir dtermin les centres de gravit, un
noyau est dtermin pour chaque classe
comme tant l'individu le plus proche du centre de gravit de chaque classe. La raectation se fait alors en fonction de la distance des autres individus aux noyaux de chaque classe. Ce formalisme a permis plusieurs gnralisations de la mthode. La mthode des
k-means aprs avoir choisi une premire fois les centres mobiles, recal-
cule le centre de chaque classe ds lors qu'un individu y est aect. La position du centre est donc modie chaque aectation, ce qui permet d'avoir une bonne partition en peu d'itrations. D'autres algorithmes sont prsents par exemple dans [Ben80a].
7.3 La classication hirarchique

Il existe principalement deux familles d'algorithmes de classication hirarchique :
92
CHAPITRE 7.
CLASSIFICATION
- les algorithmes ascendants : la construction des classes se fait par des agglomrations successives des lments deux deux, - les algorithmes descendants : la construction des classes se fait par dichotomies successives de l'ensemble des lments. Ces deux approches conduisent une hirarchie des partitions des lments. La seconde approche est beaucoup moins employe que la premire, nous prsentons donc ici la premire approche.
7.3.1 Principe de la classication hirarchique ascendante

Le principe repose donc sur la cration chaque tape d'une partition obtenue en agrgeant deux deux les lments (individus ou plus rarement variables) les plus proches. Les direntes faons de crer un nouveau couple constituent autant de dirents algorithmes de classication hirarchique ascendante.
Mthodes d'agrgation
Supposons que le nuage initial, par exemple (ou d'une mesure de similarit ou dissimilarit)
NI , classer est muni d'une distance d. La faon de regrouper des individus

critre d'agrgation.
sont regroupes en une seule classe
ou des groupes d'individus repose sur des rgles de calcul des distances entre ces classes (individus ou groupes d'individus) disjointes, appeles Soit
x, y
et
trois classes. Si les classes
x et y
h,
plusieurs critres d'agrgation sont possibles : - distance du
saut minimal
: (7.1)
d@h; z A a minfd@x; z A; d@y; z Ag;

- distance du
saut maximal
: (7.2)
d@h; z A a mxfd@x; z A; d@y; z Ag;

- distance
moyenne
d@h; z A a
- distance
d@x; z A C d@y; z A
moyenne gnralise, en notant nx
(7.3)
et
ny
le nombre d'individus de
x et y :
(7.4)
d@h; z A a
nx d@x; z A C ny d@y; z A : nx C ny
Ces mthodes d'agrgation ont l'avantage de conduire des calculs simples et possdent des proprits mathmatiques intressantes. Cependant, les rsultats ne sont pas toujours bons. En particulier, la distance du saut minimal peut entraner des
chane,
eets de
illustrs sur la gure 7.2. Sur le nuage de points reprsent sur cette gure, les
groupes A et B ne sont pas facilement discernables par la distance du saut minimal. Il
7.3.
93
Fig. 7.2 Illustration de l'eet de chane.

est dicile de dterminer au niveau de la chane quels points appartiennent A et quels points appartiennent B. Le critre de la distance moyenne donne de meilleurs rsultats, mais comme nous le voyons sur la gure (les classes ont alors des formes de cercles), elle a tendance considrer A et B comme deux classes, alors qu'il s'agit d'un seul sous-nuage. Pour remdier ce problme, des critres d'agrgation selon la variance sont lis des calculs d'inertie. Cette mthode est particulirement facile mettre en uvre aprs une analyse factorielle, les lments tant donns par leurs coordonnes sur les premiers axes factoriels.
Agrgation selon l'inertie
Cette mthode porte galement le nom de la mthode
de Ward. La solution au problme voqu ci-dessus est donc de considrer les lments prenons les individus - comme un nuage de points interclasse.
NI dans IRK . L'ide est ensuite d'agrger
les individus en minimisant l'inertie (ou la variance) intraclasse et en maximisant l'inertie Le principe repose sur la formule de dcomposition de Huygens prsente par la proposiiton 6.2.1 la section 6.2. Ainsi l'inertie totale du nuage l'inertie interclasse et de l'inertie intraclasse :
NI
est gale la somme de
I a Iintra C Iinter : i
(7.5)
Reprenons la gure 7.3 illustrant cette proposition. Le mme nuage est reprsent deux fois en reliant les points pour le calcul de l'inertie totale gauche et de la somme des inerties interclasse et intraclasse droite. Considrons que chaque individu est muni
Fig. 7.3 Illustration de la formule de Huygens.
94
CHAPITRE 7.
CLASSIFICATION
d'une masse
mi et chaque classe q est munie d'une masse mq . Avec les notations de la

Ia
qPQ
gure 7.3, la formule de dcomposition de Huygens s'crit :
mq d2@gq ; GA C
qPQ iPIq
mid2@xi; gq A;
(7.6)
NIq
d reprsente la distance choisie initialement, gq

et
G le centre de gravit du nuage des individus NI .
est le centre de gravit du sous-nuage
Ainsi la qualit globale d'une partition est lie l'homognit interne des sous-nuages et donc galement l'loignement des sous-nuages. Par exemple, la gure 7.4 illustre deux partitions en deux sous-nuages, celui de gauche avec une inertie intraclasse faible, celui de droite avec une inertie intraclasse leve.
Fig. 7.4 Illustration d'une inertie intraclasse faible et leve.

Ainsi pour une agrgation, nous cherchons faire varier le moins possible l'inertie
Ps s classes (ou sous-nuages), en associant deux classes a et b Ps , nous obtenons une partition ps1 s I classes (cf. gure 7.5). L'lment c obtenu par l'agrgation de a et b a pour masse mc a ma C mb , et il peut
de cette agrgation. Considrons une partition
intraclasse, ce qui est quivalent rendre minimale la perte d'inertie interclasse rsultant
Fig. 7.5 Illustration du passage d'une partition
Ps une partition ps1 .
7.3.
95
tre dcrit par son centre de gravit donn par :
L'inertie interclasse de
a et de b peut se dcomposer par la formule de Huygens par : Iinter(ab) a ma d2 @a; GA C mb d2 @b; GA a ma d2 @a; cA C mb d2 @b; cA C mc d2 @c; GA; (7.8)
Ps est donne par :
(7.9)
a a C mb b c a mm Cm : a b
(7.7)
or l'inertie de la partition
Is a Iinter(ab) C Iintra(a) C Iintra(b) ;

et celle de la partition
Ps1 par :
(7.10)
Is1 a Iinter(c) C Iintra(a) C Iintra(b) a mc d2 @c; GA C Iintra(a) C Iintra(b) :

Ainsi la perte d'inertie est donne par :
inter(ab) due au passage de la partition
Ps
la partition
Ps 1
inter(ab)
aI
En remplaant
c par sa valeur en fonction de
inter(Ps )
CI
I
est l'
inter
a mad2@a; cA C mbd2@b; cA: a b ma mb 2 d @a; bA: (ab) a ma C mb

inter(Ps1 ) et , nous obtenons :
(7.11)
(7.12)
Cette variation reprsente un indice de dissimilarit (appel aussi
indice de niveau) qui inertie de l'haltre (ou variance du diple) @a; bA. Il est ais de vrier que la somme des indices de dissimilarit entre toutes les partitions est l'inertie totale du nuage NI .
Le principe de la mthode de Ward est donc de dterminer les lments partition
Ps qui ont un indice de dissimilarit minimal.
a et b d'une
Algorithme
L'algorithme de classication hirarchique ascendante est simple et facile programmer. Son droulement suit les tapes suivantes : - tape 1 : Nous considrons le nuage de la matrice
NI
comme une partition
PI
de
lments.
- tape 2 : Une transformation des donnes s'eectue par la construction partir
dcrite par le tableau 7.1 d'une matrice de distances entre les
individus, partir de la distance retenue initialement. Nous recherchons ensuite les deux lments agrger ( partition
i.e.
les deux lments les plus proches en terme de
distance ou d'indice de dissimilarit). L'agrgation des deux lments fournit une
PI 1 I I individus.
- tape 3 : Nous construisons la nouvelle matrice lments fournit une partition
@@I IA @I IAA
des distances,
puis nous recherchons les deux nouveaux lments agrger. L'agrgation des deux
I P individus.
96
CHAPITRE 7.
CLASSIFICATION
Fig. 7.6 Illustration de l'algorithme de classication avec avec un nuage de

individus. Nud benjamin an eectif (6) (1) (3) 2 (7) (2) (5) 2 (8) (6) (4) 3 (9) (8) (7) 5
aS
Tab. 7.2 Relation entre les nuds de l'arbre.

- tape
m : Nous calculons la matrice @@I @m IAA @I @m IAAA des distances, P1 . NI de cinq individus
arbre hi-
puis nous cherchons agrger deux lments jusqu' ce qu'il n'en reste plus qu'un qui constitue la dernire partition sur la gure 7.6. An d'illustrer cet algorithme, nous donnons un exemple d'un nuage
rarchique
Les tapes successives de cet algorithme peuvent tre reprsentes par un galement appel
de dissimilarit (
cf. gure 7.7).
dendrogramme
o sont reprsentes en ordonnes les indices
Vocabulaire li au dendrogramme
- Les
lments terminaux
de l'arbre (ou de la hirarchie) sont les individus (ou va-
riables selon ce qui est class). - Les nuds de l'arbre correspondent aux regroupements de deux lments appels
an et benjamin. L'arbre de la gure 7.7 peut ainsi tre dcrit par le tableau 7.2. ordonnance.
- L'agrgation repose sur les ingalits des distances entre elles. Nous pouvons obtenir le mme classement en des couples d'lments en classant ces couples par ordre croissant des distances. Un tel classement est appel
7.3.
97
Fig. 7.7 Exemple de dendrogramme.
- La -
hirarchie peut tre dcrite par une famille H d'lments de I telle que : I P H , fig P H Vi P I , VA, B P H , A B P fA; B; Yg i.e. deux classes sont soit disjointes, soit l'une est
incluse dans l'autre. Ainsi toute classe est la runion des classes qui sont incluses en elle. La famille des sous-ensembles construits par la classication ascendante hirarchique forme une hirarchie. C'est en fait une
- Une
hirarchie binaire , il en existe d'autres. hirarchie indice est une hirarchie pour laquelle il existe une fonction v de H + dans I R i.e. telle que :
A & B D v@AA
v@B A; VA; B P H:
(7.13)
La hirarchie est gnralement indice par les valeurs des distances (ou indices de dissimilarit) correspondant chaque tape d'agrgation. - En coupant l'arbre par une droite horizontale, nous obtenons une hirarchie donne ainsi une chane de
partitions de 1
partition.
Une
classes.
Les hirarchies indices ont une proprit particulirement intressante, car elle peuvent tre vues comme un ensemble muni d'une une distance
particulire. En tant que
ultramtrique [LMP95]. Une ultramtrique est distance d associe au nuage NI , elle est une
x a y D d@x; yA a H, Vx; y P NI , - d@x; y A a d@y; xA, Vx; y P NI (relation de symtrie), - d@x; y A d@x; z A C d@y; z A, Vx; y; z P NI (ingalit triangulaire). Cette distance d est une ultramtrique si elle vrie une condition plus forte que l'ingalit triangulaire donne par d@x; y A mx@d@x; zA; d@y; zAA Vx; y; z P NI . La distance du saut minimal est la plus grande ultramtrique infrieure la mtrique d initiale.
-
application qui vrie :
98
CHAPITRE 7.
CLASSIFICATION
7.3.2 Interprtation
L'interprtation repose essentiellement sur la lecture du dendrogramme. Elle devient problmatique lorsque le nombre d'individus est trs important. Elle doit se faire de haut en bas an d'examiner d'abord les partitions qui possdent peu de classes, pour ensuite entrer dans des considrations plus dtailles. Nous cherchons, essentiellement la partition qui prsente le plus d'intrt. Pour cela, il faut chercher construire des classes homognes. Une bonne partition,
i.e. une bonne coupure de l'arbre, doit comporter peu de classes avec
une inertie intraclasse faible et une inertie interclasse leve. Pour le choix de la coupure, nous pouvons galement nous aider de la courbe des indices. Ainsi nous devons rechercher le nud aprs lequel il y a une perte d'indice importante. Ceci peut galement se lire sur le dendrogramme.
Exemple 7.3.1
Prenons l'exemple de l'tude des donnes de granulomtrie propose par
Kendall, Stuart et Grin en 1963. Ces donnes sont composes d'chantillons de sol dcrits par cinq variables sur leur composition : sable, limon, argile, matire organique, pH. La gure 7.8 prsente le dendrogramme obtenu par 'approche de Ward, tandis que la gure 7.9 prsente la courbe des indices. Nous constatons partir de ces deux gures qu'une coupure en cinq classes fournit des classes homognes et loignes des autres classes. De plus, cette coupure est conforte par le taux de variance intraclasse qui est de 22,3%, alors que le taux de variance interclasse est de 77,7%.
Fig. 7.8 Dendrogramme sur les donnes de composition du sol.
Une fois la coupure faite,
i.e.
le choix de la partition tudier, il faut examiner les
classes obtenues. Pour ce faire il faut trouver les variables reprsentatives de chaque classe, pour ensuite interprter ces classes partir des variables explicatives. Deux indicateurs sont essentiellement employs pour cette interprtation :
7.3.
99
Fig. 7.9 Courbe des indices sur les donnes de composition du sol.
- l'
excentricit de la classe par rapport au centre de gravit gnral de l'ensemble des variance du diple
constitue par les deux classes an et benjamin agrges au
individus, - la
nud tudi. Nous avons une excentricit forte pour une classe lorsque celle-ci est loigne du centre de gravit
G du nuage. Plus l'excentricit est forte, plus la classe dire de la moyenne et
q est donne par : d2 @gq ; GA. Il est intressant d'tudier la contribution relative de la variable classiante l'excentricit de la classe q donne par :
de la classe
donc plus elle est porteuse de sens et mrite d'tre exploite. La mesure de l'excentricit
Cork @qA a
o
k 2 g
q
@gq ; GA ;
(7.14)
k gq
est la projection du centre de gravit
variable classe.
gq du sous-nuage Iq sur l'axe reprsentant la k (cf. gure 7.10). Ainsi, si la contribution est proche de 1, la variable k explique
q, nous pouvons tudier le diple @a; bA de l'an et benjamin.
l'excentricit de la classe. Si le signe est ngatif la variable est corrle ngativement la
Une classe constitue un sous-nuage, qui peut tre tudie par une analyse factorielle. Au lieu d'tudier la classe Cette tude peut se faire par la variance. Ainsi un diple allong dans la direction du premier axe factoriel du sous-nuage
Iq , reprsente une variance leve dans cette direction (cf. gure 7.11). L'indicateur utilis pour la contribution d'une variable k la divergence
100
CHAPITRE 7.
CLASSIFICATION
Fig. 7.10 Reprsentation d'un sous-nuage
Iq
dans un plan de projection.
Fig. 7.11 Caractrisation de la variance du diple dans une direction.

entre les deux classes est donn par :
Codk @qA a
@ak bk A2 : d2 @a; bA
(7.15)
A l'aide de l'excentricit, nous pouvons ainsi tudier pourquoi les individus sont regroups dans la classe tudie, et pourquoi les nuds an et benjamin sont spars.
Nous proposons de suivre le plan suivant pour l'interprtation de la classication hirarchique ascendante : - La premire chose est l'tude du dendrogramme et de la courbe des indices an de dterminer la partition, ou les partitions tudier. La coupure est ralise au niveau du ou des sauts importants d'inertie. - L'tape suivante est l'tude de toutes les classes formes par la ou les partitions plus nes. Il faut donc regarder quels sont les individus qui composent chaque classe. Il est de plus important de comprendre : - quelles sont les variables reprsentatives de chaque classe l'aide de la contribution relative des variables classiantes l'excentricit de chaque classe, - quelles sont les variables qui sparent le diple form de l'an et du benjamin pour chaque classe, l'aide de la contribution de chaque variable la variance du diple.
7.4.
CONCLUSION
101
- Il est de plus intressant de faire un tableau rcapitulatif donnant pour chaque classe les individus qui y appartiennent, ainsi que les variables qui caractrisent chaque classe. Ce tableau permet de rsumer simplement l'ensemble de l'interprtation.
7.4 Conclusion
Nous avons dans ce chapitre prsent uniquement deux mthodes (ou famille de mthodes) de classication : la mthode des centres mobiles et la classication hirarchique ascendante. Les mthodes de classication sont cependant trs nombreuses. Il existe entre autre une mthode dite de classication mixte (
hybrid classication) qui est un mlange
de la mthode des centres mobiles et de la classication hirarchique. Elle est particulirement bien adapte aux tableaux de donnes comportant des milliers d'individus, pour lesquels le dendrogramme est dicile lire. Les tapes de l'algorithme sont les suivantes : - Une premire tape consiste appliquer la mthode des centres mobiles de faon obtenir une partition de quelques dizaines, voire quelques centaines de groupes homognes. - Ensuite, la classication hirarchique est applique sur ces groupes. Le dendrogramme et la courbe des indices permet de dnir le nombre de classes nales retenir. - Une fois ce nombre dtermin, an d'optimiser la classication, la mthode des centres mobiles est de nouveau applique l'ensemble des individus de dpart pour obtenir une partition correspondant celle trouve par le dendrogramme. Dans cette dernire tape les centres mobiles initiaux peuvent tre considrs comme tant les barycentres des classes issues de la partition ralise par la classication hirarchique an d'obtenir une convergence plus rapide.
La classication est une phase importante de l'analyse des donnes. Il est prfrable de l'employer en complment des analyses factorielles (particulirement la classication ascendante hirarchique qui utilise la mthode de Ward pour l'agrgation). Il est conseill d'appliquer la classication aprs les analyses factorielles. Cependant, les classes peuvent constituer des variables supplmentaires dans l'ACP, l'AFC ou encore l'ACM.
102
CHAPITRE 7.
CLASSIFICATION
Glossaire
Indications historiques
- Bayes (Thomas) 1702-1761 : mathmaticien anglais, il tablit la relation liant les probabilits conditionnelles aux probabilits
a priori.
- Benzcri (Jean-Paul) : mathmaticien franais, il est l'inventeur de l'analyse factorielle des correspondances (AFC) et le fondateur de l'cole franaise d'analyse des donnes. Il s'intressa en particulier aux donnes textuelles. - Burt (Sir Cyril) 1883-1971 : psychologue britannique, innovateur certain d'un point de vue mthodologique en analyse de donnes, il est surtout connu pour ses fraudes scientiques et ses falsications d'observations. - Huygens (Christiaan) 1629-1695 : galement orthographi Huyghens, exprimentateur et thoricien nerlandais, il proposa un trait sur le calcul des probabilits. En mcanique, il dveloppa la thorie du pendule qu'il appliqua pour rguler les mouvements d'horloges, et s'intressa au problme du choc par la quantit de mouvement. - Mahalanobis (Prasanta Chandra) 1893-1972 : physicien et mathmaticien indien, il s'intressa beaucoup aux statistiques. Il est surtout connu pour la distance qui porte son nom. Il tudia les analyses graphiques des fractiles (quantiles), et les statistiques
D-square,
appliqus l'conomie et la biomtrie. Il est un des premiers a avoir
organis le recueil de donnes en Inde. - Minkowsky (Hermann) 1864-1909 : mathmaticien allemand, il proposa une reprsentation de l'espace-temps quatre dimensions qui fournit une interprtation gomtrique de la relativit restreinte de A. Einstein qui fut son lve. - Pearson (Karl) 1857-1936 : mathmaticien anglais, il est un des premiers statisticiens. En particulier ses recherches taient tournes vers l'hrdit. - Tchebychev (Pafnouti Lvovitch) 1821-1894 : mathmaticien russe, son nom est aussi crit Chebyshov, Chebyshev, ou Tschebysche. Il est connu pour ses travaux dans le domaine de la probabilit et des statistiques, en particulier l'ingalit de Tchebychev qui permet de majorer des probabilits (grossirement) et de dmontrer le thorme de la loi faible des grands nombres. - Vorono (Georgi Fedoseevich) 1868-1908 : mathmaticien russe, galement transcrit Voronoy, il travailla sur la thorie des nombres, en particulier sur les nombres algbriques et la gomtrie des nombres. En 1904, il rencontra Minkowski, et ils s'aperurent qu'ils tudiaient des sujets similaires.
103
104
GLOSSAIRE
- Ward (Abraham) 1902-1950 : mathmaticien, n en Hongrie, il partit Vienne pour faire ses recherches. Sous l'occupation nazie, d'origine juive, il partit en 1938 aux Etats-Unis. Ses travaux concernrent les espaces mtriques et plus particulirement les espaces vectoriels dimension innie. Il obtint galement des rsultats en gomtrie direntielle.
RAPPEL DE DFINITIONS
105
Rappel de dnitions
- Aectation : c'est une tape de classement. - Caractres : donnes caractrisant les individus. - Caractre qualitatif : le caractre n'est pas mesurable. - Caractre qualitatif pur ou variable nominale : les modalits ne possdent pas de structure d'ordre. - Caractre qualitatif ordonn ou variable ordinale : les modalits qualitatives sont ordonnes. - Caractre quantitatif : le caractre est mesurable, on y associe le nom de variable statistique (numrique). - Variable discrte : les valeurs prises par la variable sont des valeurs ponctuelles. - Variable continue : les valeurs prises par la variable sont numriques d'un intervalle donn. - Classement : attribution d'lments dans une classe prexistante. - Classication : construction des classes les plus homognes possibles dans un chantillon. par - Coecient de corrlation linaire : pour un tableau de donnes de
I individus dcrits K variables et xik une donne du tableau i a I; :::; I et k a I; :::; K , le coecient H de corrlation linaire entre deux variables k et k est donn par : rkkH a @xk ; xkH A a
dcrits par
ov@xk ; xkH A :
k kH i a I; :::; I I
et est donne par :
(7.16)
- Corrlation empirique ou covariance : pour un tableau de donnes de
H corrlation empirique entre deux variables k et k

iPI j PI
variables et
xik
une donne du tableau
k a I; :::; K , la
(7.17)
individus
I @x x ov@xk ; xkH A a I "k A@xjkH x "kH A: ik

mieux les donnes selon un critre prdni.
- Discrimination : la discrimination consiste dterminer une fonction qui spare au - Dispersion : talement des points dtermin par une distance. La dispersion d'un nuage sur un axe peut tre vu comme l'inertie du nuage sur l'axe. Une mesure de dispersion est la variance. - Distribution (ou srie statistique) : les observations d'un caractre forment une distribution. - chantillon : sous-ensemble de la population. - Eectif vriant un critre : nombre d'lments vriant ce critre. - Fonction de rpartition : le caractre est infrieur
F @xA est la proportion des individus de la population dont x.
- Individus ou units statistiques : lments de la population.
106
GLOSSAIRE
- Inertie : valeur caractrisant la concentration ou la dispersion de points sur un axe, un plan ou tout espace. L'inertie peut tre reprsente par une variance. - Liaison : deux variables sont lies si elles ont un fort coecient de corrlation linaire ou encore si elles ne sont pas indpendantes. - Modalit : les modalits d'un caractre sont les valeurs (mesurable ou non) prises par cette variable. - Moment d'ordre riables et
r des individus est donn par :
xik
: Pour un tableau de donnes de
i a I; :::; I I iPI
et
et
I individus dcrits par K vak a I; :::; K , le moment d'ordre

(7.18)
xr k a xik
I xr :
ik
- Moyenne : pour un tableau de donnes de
i a I; :::; I x "k a
k a I; :::; K , la moyenne des individus est

ik :
individus dcrits par
variables et
donne par :
I iPI
I x
(7.19)
- Population : ensemble des donnes tudies. - Quantile : pour un tableau de donnes de une donne du tableau
I individus dcrits par K variables et xik i a I; :::; I et k a I; :::; K , le quantile d'ordre @H IA est la racine de l'quation F @xA a , o F est la fonction de rpartition.
valeurs proches pour l'ensemble des variables.
- Ressemblance : deux individus se ressemblent, ou sont proches, s'ils possdent des - Tableau de contingence : c'est un tableau d'eectifs obtenus en croisant les modalits de deux variables qualitatives dnies sur une mme population. - Taxonomie : littralement la science des lois de l'ordre, c'est la science de la classication, parfois limite la botanique. - Typologie : ensemble des limites des domaines connexes (patatodes) faire sur chaque plan (pour les individus et les variables). - Variance : pour un tableau de donnes de
xik
i a I; :::; I
2 k a
et
I individus dcrits par K variables et k a I; :::; K , la variance des individus est

(7.20)
donne par :
I @x x 2 " ik kA : I
iPI
Bibliographie
[Ben80a] [Ben80b] J.P. Benzecri :
dances.
J.P. Benzecri
L'analyse de donnes (Tome 1) La taxinomie. Dunod, 1980. : L'analyse de donnes (Tome 2) L'analyse des corresponDunod, 1972.
Dunod, 1980.
[Ber72] [BFRS93]
C. Berge :
[Bro03]
L. Breiman, J.H. Friedman, R.A.Olshen et C.J. Stone : Classication and regression tree. Chapman and Hall, 1993. G. Brossier : Analyse des donnes, chapitre Les lments fondamentaux de la classication. Hermes Sciences publications, 2003.
Graphes et hypergraphes.
[CDG 89] G. Celeux, E. Diday, G. Govaert, Y. Lechevallier et H. Ralambon-
drainy :
[Cel03] G.
Classication automatique des donnes. Dunod, 1989. Celeux : Analyse des donnes, chapitre Analyse discriminante.
Hermes
Sciences publications, 2003. [DH97] P. Demartines et J. Hrault : Curvilinear component analysis : A self-
[EP90]
[Goa03] [HL03]
tions on Neural Networks, 8(1):148154, Janvier 1997. B. Escoffier et J. Pages : Analyses factorielles simples et multiples objectifs, mthodes et interprtations. Dunod, 1990. G. Goavert : Analyse des donnes. Hermes Sciences publications, 2003. G. Hbrail et Y. Lechevallier : Analyse des donnes, chapitre Data Mining et analyse des donnes. Hermes Sciences publications, 2003.
organizing neural network for non linear mapping of data set.
IEEE Transac-
[Jam99a] [Jam99b] [Kun00]
Introduction au Data Mining. Eyrolles, 1999. M. Jambu : Mthodes de base de l'analyse de donnes. Eyrolles, 1999. M. Kunt : Reconnaissance des formes et analyse de scnes. Presses PolytechM. Jambu : nique et universitaires romandes, 2000. L. Lebart, A. Morineau et M. Piron :
[LMP95]
sionnelle.
Statistique exploratoire multidimen-
dunod, 1995.
[Mar04] [Pag03]
A. Martin : La fusion d'informations, 2004. J. Pags :
Analyse des donnes,
chapitre Analyse factorielle des correspon-
dances. Extensions et applications au traitement statistique des donnes sensorielles. Hermes Sciences publications, 2003.
107
108
BIBLIOGRAPHIE
[Pha96]
D.T. Pham :
Blind separation of instantaneous mixture of sources via in-
dependent component analysis. 44(11):27682779, 1996. [Sap90] G. Saporta : 1990. [Vap99] V.N. Vapnik :
IEEE Transactions on Signal Processing,
Probabilits Analyse des donnes et Statistique. Edition Technip, The nature of Statistical Learning Theory.
Springer, 1999.
Index
aectation, 76, 105 algorithme ascendant, 92 descendant, 92 approche baysienne, 84 arbre additif, 89 hirarchique, 96 association, 68 axe d'inertie, 15 factoriel, 15 Bayes, 84, 103 Benzcri, 1, 103 Burt, 61, 66, 103 caractre, 2, 3, 105 qualitatif, 105 quantitatif, 105 classement, 73, 76, 87, 105 classication, 76, 105 clustering, 87 codage condens, 57 coecient de corrlation linaire, 25, 105 composante principale, 30 corrlation empirique, 105 covariance, 105 data mining, 2, 5 dendrogramme, 96 diagramme de Vorono, 90 discrimination, 73, 76, 105 dispersion, 12, 105 distance, 88, 97 de Mahalanobis, 80 globale, 82 locale, 82, 85 de Manhattan, 83 de Minkowsky, 83 de Tchebychev, 83 du
2 , 45, 83
du saut maximal, 92 du saut minimal, 92 euclidienne, 81 gnralise, 80 moyenne, 92 moyenne gnralise, 92 distribution, 105 chantillon, 105 eectif, 105 eets de chane, 92 lments terminaux, 96 lment illustratif, 35, 53, 68 quivalence distributionnelle, 45 excentricit, 99 facteur, 16, 29 fonction de rpartition, 105 fonction linaire discriminante, 79 fouille de donnes, 2 hirarchie, 89, 97 binaire, 97 indice, 97 Huygens, 77, 93, 103 individu, 3, 105 indpendance, 41 inertie, 12, 93, 106
k plus proches voisins, 83 k-means, 5, 91

109
110
INDEX
liaison, 3, 24, 41 Mahalanobis, 82, 83, 103 mesure de similarit, 88 Minkowsky, 83, 103 modalit, 2, 10, 106 moment, 1, 106 moyenne, 1, 106 mthode CART, 5, 74 ordonnance, 96 partition, 89 Pearson, 23, 45, 103 population, 2, 106 pourcentage de la variance, 20 prol-colonne, 44, 47, 64 prol-ligne, 43, 46, 64 pyramide, 89 quantile, 1, 106 relation de dualit, 32 relation de transition, 16 ressemblance, 3, 24, 25, 61, 106 rgle de Bayes, 84 supervis, 4, 73, 87 tableau de Burt, 61 de contingence, 39, 106 disjonctif complet, 57, 59 taux d'inertie, 20 taxonomie, 87, 106 Tchebychev, 83, 103 typologie, 4, 106 ultramtrique, 97 unit statistique, 3, 105 variable, 3 continue, 105 discrte, 105 nominale, 2 ordinale, 2
variance, 1, 106 du diple, 99 Vorono, 90, 103 Ward, 93, 98, 104

Poly AD

Transféré par

Droits d'auteur :

Formats disponibles

Poly AD

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Poly AD

Transféré par

Droits d'auteur :

Formats disponibles

L'analyse de donnes

Polycopi de cours ENSIETA - Rf. : 1463

Arnaud MARTIN Septembre 2004

Table des matires

2.4 2.5 2.6 2.7

3 Analyse en Composantes Principales

TABLE DES MATIRES

4 Analyse Factorielle des Correspondances

5 Analyse des Correspondances Multiples

L'analyse factorielle des correspondances du tableau disjonctif complet 62

6 Analyse Factorielle Discriminante

Mthode des centres mobiles . . . . . . . . . . . . . . . . . . . . . . . . . .

TABLE DES MATIRES

7.2.1 7.3 7.3.1 7.3.2 7.4

La classication hirarchique . . . . . . . . . . . . . . . . . . . . . . . . . . Principe de la classication hirarchique ascendante . . . . . . . . . Interprtation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Rappel de dnitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

TABLE DES MATIRES

Liste des tableaux

Reprsentation des donnes pour la classication.

Relation entre les nuds de l'arbre. . . . . . . . . . . . . . . . . . . . . . .

LISTE DES TABLEAUX

Table des gures

et sa droite d'ajustement. et sa droite d'ajustement.

Dcomposition en valeurs singulires du tableau Nuage des individus

Dirents types de nuages. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

NI en fonction du nuage NK . . NK en fonction du nuage NI . .

Relation entre la forme du nuage de points et le tableau.

Rsum de l'AFC. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Hypertable de contingence pour

NI dans l'espace IR . . NK dans l'espace IRI . .

des individus partitionns dans l'espace I R

Illustration de la formule de Huygens. . . . . . . . . . . . . . . . . . . . . .

TABLE DES FIGURES

7.1 7.2 7.3 7.4 7.5 7.6 7.7 7.8 7.9

Illustration de l'algorithme des centres mobiles. Illustration de l'eet de chane.

Ps une partition ps1 .

Illustration de l'algorithme de classication avec avec un nuage de Exemple de dendrogramme.

7.10 Reprsentation d'un sous-nuage

dans un plan de projection. . . . . . . . 100

7.11 Caractrisation de la variance du diple dans une direction. . . . . . . . . . 100

cf. chapitre 6).

Ier Pme Qme Rme Sme

traduit en franais par fouille de donnes ou encore extraction de connaissance partir

1.1 Domaines d'application

etc ). Ces approches ont galement t mis prot

etc ) ainsi que tout domaine in-

1.2 Les donnes

population 1 peut tre dcrite par des donnes de

mots en italique sont dnis dans le glossaire page 103.

Tab. 1.1  Reprsentation des donnes.

1.3 Les objectifs

entre les individus et les

des individus et des variables, et ainsi il pourra interprter ses

1.4 Les mthodes

recherche les dimensions pertinentes de ces donnes. Les

analyse factorielle des correspondances (ou analyse des correspondances binaires)

factorielle des correspondances multiples

est une extension de l'analyse factorielle

analyse canonique est trs peu utilise

qui ncessitent une base de donnes

La classication hirarchique . . . . . . . . . . . . . . . . . . . . . . . . . . Principe de la classication hirarchique ascendante . . . . . . . . . Interprtation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Rappel de dnitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

Reprsentation des donnes pour la classication.

Table des gures

Dirents types de nuages. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Illustration de l'algorithme des centres mobiles. Illustration de l'eet de chane.

Illustration de l'algorithme de classication avec avec un nuage de Exemple de dendrogramme.

traduit en franais par fouille de donnes ou encore extraction de connaissance partir

etc ). Ces approches ont galement t mis prot

mots en italique sont dnis dans le glossaire page 103.

Tab. 1.1 Reprsentation des donnes.

ncessitent souvent une construction dlicate et dici-

Classication And Regression Tree )

classication hirarchique ascendante (resp. descendante) consiste regrouper

Fig. 2.1 Les nuages de points.

Fig. 2.2 Les formes de nuages de points.

En eet, en prenant les notations de la gure 2.3, maximiser la dispersion le

Fig. 2.3 Le nuage

En eet, par un raisonnement par l'absurde, si ce sous-espace ne contient pas

t t L@uS A a ut S X X uS @uS uS IA;

est un multiplicateur de Lagrange i.e. une constante. Le maximum du Lagrangien i.e. : @L

est la plus grande

utS X tX uS a utS uS a est l'inertie projete sur l'axe dS .

Fig. 2.4 Le nuage

Par dnition, nous avons dans l'espace I R