TP Acp2

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 7

Université Hassan 1er Settat LST-MA

Faculté des Sciences et Techniques Module Analyse des données


Année universitaire 20017-2018 TP No 3:
On étudie dans le tableau sivant les consommations annuelles de 8 denrées alimentaires (les
variables), les individus étant 8 catégories socio-professionnelles. Les données sont des moyennes
par CSP :
AGRI : Exploitants agricoles PAO : Pain ordinaire
SAAG : Salariés agricoles PAA : Autre pain
PRIN : Professions indépendantes VIO : Vin ordinaire
CSUP : Cadres supérieurs VIA : Autre vin
CMOY : Cadres moyens POT : Pommes de terre
EMPL : Employés LEC : Légumes secs
OUVR : Ouvriers RAI : Raisin de tables
INAC : Inactifs PLP : Plats préparés

1 ACP par Logiciel R


1. Importer la table tab2.txt dans R.

> tab1=read.table('Bureau//TPR//tab2.txt', header=TRUE, row.names=1)


> tab1

PAO PAA VIO VIA POT LEC RAI PLP


AGRI 167 1 163 23 41 8 6 6
SAAG 162 2 141 12 40 12 4 15
PRIN 119 6 69 56 39 5 13 41
CSUP 87 11 63 111 27 3 18 39
CMOY 103 5 68 77 32 4 11 30
EMPL 111 4 72 66 34 6 10 28
OUVR 130 3 76 52 43 7 7 16
INAC 138 7 117 74 53 8 12 20

2. Effectuer une analyse univariée

> Moy.tab1=sapply(tab1,mean)
> Moy.tab1

PAO PAA VIO VIA POT LEC RAI PLP


127.125 4.875 96.125 58.875 38.625 6.625 10.125 24.375

> Sd.tab1=sapply(tab1,sd)
> Sd.tab1

PAO PAA VIO VIA POT LEC RAI PLP


27.905133 3.181981 38.790417 31.316073 7.872874 2.825269 4.454131 12.246720

Commentaire : Les variables PAO, VIO, VIO,... sont trés disperssées tandis que les variables
POT, RAI et PLP ont une disperssion moyenne et les variables PAA, LEC sont proches de
la moyenne. On peut conclure q’il y ait une dispersion importante du nuage.
3. Calculer la matrice des corrélations

1
> cor.tab1=round(cor(tab1),2)
> cor.tab1

PAO PAA VIO VIA POT LEC RAI PLP


PAO 1.00 -0.77 0.93 -0.91 0.66 0.89 -0.83 -0.86
PAA -0.77 1.00 -0.60 0.90 -0.33 -0.67 0.96 0.77
VIO 0.93 -0.60 1.00 -0.75 0.52 0.79 -0.67 -0.83
VIA -0.91 0.90 -0.75 1.00 -0.42 -0.84 0.92 0.72
POT 0.66 -0.33 0.52 -0.42 1.00 0.60 -0.41 -0.55
LEC 0.89 -0.67 0.79 -0.84 0.60 1.00 -0.82 -0.75
RAI -0.83 0.96 -0.67 0.92 -0.41 -0.82 1.00 0.83
PLP -0.86 0.77 -0.83 0.72 -0.55 -0.75 0.83 1.00

Commentaire : La plus part des variables sont trés corrélées entre elles.
4. Effectuer l’ACP

> library(FactoMineR)
> pca=PCA(tab1)
> pca

**Results for the Principal Component Analysis (PCA)**


The analysis was performed on 8 individuals, described by 8 variables
*The results are available in the following objects:

name description
1 "$eig" "eigenvalues"
2 "$var" "results for the variables"
3 "$var$coord" "coord. for the variables"
4 "$var$cor" "correlations variables - dimensions"
5 "$var$cos2" "cos2 for the variables"
6 "$var$contrib" "contributions of the variables"
7 "$ind" "results for the individuals"
8 "$ind$coord" "coord. for the individuals"
9 "$ind$cos2" "cos2 for the individuals"
10 "$ind$contrib" "contributions of the individuals"
11 "$call" "summary statistics"
12 "$call$centre" "mean of the variables"
13 "$call$ecart.type" "standard error of the variables"
14 "$call$row.w" "weights for the individuals"
15 "$call$col.w" "weights for the variables"

5. Afficher le tableau des valeurs propres

2
> eig.tab1= pca$eig
> eig.tab1

eigenvalue percentage of variance cumulative percentage of variance


comp 1 6.207946839 77.59933549 77.59934
comp 2 0.879681393 10.99601741 88.59535
comp 3 0.415961123 5.19951404 93.79487
comp 4 0.306454670 3.83068337 97.62555
comp 5 0.168441497 2.10551872 99.73107
comp 6 0.018067709 0.22584636 99.95692
comp 7 0.003446769 0.04308461 100.00000

Commentaire :
comp1,...comp7 sont les composantes principales de l’ACP, les valeurs de la 1ère colonne
sont les valeurs propres associées aux vecteurs propres Comp1,...,comp7. La composante
comp8 a été ingorée par l’analyse car la valeur propre associée est nulle. Chaque valeur
propre λ étant la variance de la sème composante principale.
s
La 2ème colonne représente le pourcentage de la variance c-à-d pour chaque composante s
P
son pourcentage de variance est (λs / i λi ) × 100.
6. > inertie=eig.tab1[,2]
> inertie

comp 1 comp 2 comp 3 comp 4 comp 5 comp 6


77.59933549 10.99601741 5.19951404 3.83068337 2.10551872 0.22584636
comp 7
0.04308461

>

7. Nbre de facteurs retenus

Eboulis des valeurs propres


6
5
4
3
2
1
0

comp 1 comp 3 comp 5 comp 7

3
2 Rappel et interprétation
2.1 Coordonnées, contributions et qualités des individus

Les tableaux suivants résument les coordonnées, contributions et qualités des individus de
l’exemple précédent

Dim.1 Dim.2 Dim.1 Dim.2 Dim.1 Dim.2


AGRI -3.37 -0.25 AGRI 0.88 0.01 AGRI 22.89 0.86
SAAG -3.52 -0.45 SAAG 0.90 0.01 SAAG 24.97 2.84
PRIN 1.47 0.06 PRIN 0.57 0.00 PRIN 4.36 0.05
CSUP 4.36 0.18 CSUP 0.94 0.00 CSUP 38.26 0.44
CMOY 1.72 -0.86 CMOY 0.75 0.19 CMOY 5.94 10.43
EMPL 0.81 -0.81 EMPL 0.43 0.43 EMPL 1.31 9.29
OUVR -0.90 -0.18 OUVR 0.36 0.01 OUVR 1.63 0.48
INAC -0.56 2.31 INAC 0.06 0.93 INAC 0.64 75.61

Table 1: Coord des inds Table 2: QLT des inds Table 3: Contrib des inds

Rappel :
Coordonnées des individus :
Les coordonnés des individus dans le repère des composantes principales sont données par la table
1. La coordonnée de l’individu i sur la composante s est Fs (i), par exemple F1 (AGRI) = −3.37
Contribution des inds :
On rappelle que la contribution d’un individu d’un individu i par la composante s est

Fs (i)2
Contribs (i) =
pλs
ou p est le nombre d’individus. Plus la contribution est grande, plus la reprśentation est meilleure.
La table 3 donne les contributions des différents individus par les deux composantes, par exemple

contrib1 (CM OY ) = 5.94

Qualité de représentation des inds :


On rappelle que la qualité de représentation d’un individu i par la composante s est

Fs (i)2
QLTs (i) = P 2
= cos (θ)2
t F t (i)

ou θ est l’angle entre la droite (Oi) est l’axe s. Par exemple QLT2 (AGRI) = 0.00. Plus la qualité
est proche de 1, l’individu est proche de l’axe s.
Interprétation
On relève, pour chaque axe, quels sont les individus qui ont la plus forte contribution à la forma-
tion de l’axe. Par exemple, on retient (pour l’analyse) les individus dont la contribution relative
100
est supérieure à p %. On note également si cette contribution intervient dans la partie positive

4
Contribution of individuals to Dim−1 Contribution of individuals to Dim−2
40

30 60
Contributions (%)

Contributions (%)
20 40

10 20

0 0
P

AG

IN

VR

PL

AC

AC

PL

AG

VR

IN
R

R
O

O
SU

SU
AG

PR

AG

PR
EM

EM
IN

IN
M

M
U

U
SA

SA
C

C
O

O
C

Figure 1 Figure 2

ou dans la partie négative de l’axe. Soit on classe par un ordre croissant ou dćroissant ces con-
tributions ou on les représente par un histogramme. Les histogrammes des contributions par la
composante 1 et la composante 2 de l’exemple prćédent sont donnés par les figures 1 et 2.
On résume dans le tableau suivant Les individus qui contribuent à la formation de l’axe 1
(voir figure 1) dont leurs qualités de représentation (cos2 (θ) est proche de 1 en précisant le signe
donnant le sens de la contribution (voir table 1).

- +
SAAG CSUP
AGRI

Table 4: contrib des inds à l’axe 1

De même les individus qui contribuent à la formation de l’axe 2 ( voir figure 2) dont leurs qualités
de représentation par rapport à cette axe (cos2 (θ) est proche de 1, sont donnés par

- +
INAC

Table 5: contrib des inds à l’axe 2

2.2 Coordonées, contributions et qualités des variables

Les tableaux suivants résument les coordonnées, contributions et qualité des variables de
l’exemple précédent

Rappel :
Coordonnées des variables :

5
Dim.1 Dim.2
Dim.1 Dim.2 Dim.1 Dim.2
PAO 15.31 1.90
PAO -0.97 0.13 PAO 0.95 0.02
PAA 12.16 19.41
PAA 0.87 0.41 PAA 0.76 0.17
VIO 12.19 4.07
VIO -0.87 0.19 VIO 0.76 0.04
VIA 13.96 6.78
VIA 0.93 0.24 VIA 0.87 0.06
POT 6.07 55.33
POT -0.61 0.70 POT 0.38 0.49
LEC 13.31 1.64
LEC -0.91 0.12 LEC 0.83 0.01
RAI 13.92 10.63
RAI 0.93 0.31 RAI 0.86 0.09
PLP 13.08 0.25
PLP 0.90 -0.05 PLP 0.81 0.00
Table 8: Contrib des vari-
Table 6: Coord des variables Table 7: QLT des variables
ables

Les coordonnées des variables (centrées réduites initiales, X̃j ) dans le repère des composantes
principales sont les corrélations entre ces variables et les facteurs principales

corr(X̃j , Fs )

Elles sont données par la table 6, par exemple la coordonnée de la variable ”PAA” sur la com-
posante 1 est corr(X̃j , Fs ) = 0.87,
Contribution des variables :
On rappelle que la contribution d’une variable X̃j par la composante s est

(corr(X̃j , Fs ))2
Contribs (j) =
λs
Plus la contribution est grande, plus la représentation est meilleure.
La table 8 donne les contributions des différentes variables par les deux composantes, par exemple

contrib1 (P AA) = 12, 16

Qualité de représentation des variables :


La qualité de représentation de j ème variable par la sème composante principale est df́inie de la
même façon que pour les individus :

(corr(X̃j , Fs ))2
QLTs (j) = P = (corr(X̃j , Fs ))2
(corr( X̃ , F ))2
k k s

2
P
car k (corr(X̃k , Fs )) = 1. Par exemple QLT2 (P AA) = 0.17. Plus la qualité est proche de 1, la
variable est proche de l’axe s.

On résume dans le tableau suivant Les variables qui contribuent à la formation de l’axe 1
dont leurs qualités de reprśentation (voir table 7) est proche de 1 et leurs contributions sont assez
grandez (voir table 8) en précisant le signe donnant le sens de la contribution (voir table 6).

6
- +
PAO RAI
LEC VIA
VIO PLP
(PAA)

Table 9: contrib des variables à l’axe 2

De même, les variables qui contribuent à la formation de l’axe 2, sont données par

- +
POT
PAA

Table 10: contrib des variables à l’axe 2

2.3 Synthèse

Suite aux interprétations données dans les deux paragraphes précédents, on conclut
– d’après la table 9, la composante principale ”comp 1” ou ”dim 1” résume les variables PAO
(pain ordinaire), LEC (des légumes secs) VIO (vin ordinaire), RAI (raisin) et PLP (plats
préparés) (voir figure 3). D’après la table 4, elle oppose les individus (SAAG et AGRI) qui
consomment PAO, VIO et LEC aux individus (CSUP) qui consomment RAI et PLP. La
première composante principale mesure donc la répartition entre aliments ordinaires (PAO,
LEC et VIO) et les aliments (RAI, PLP et VIA) (voir figure 4).
– d’après la table 10, La deuxième composante principale résume les variables POT (pomme
de terre) et éventuellement PAA (Autre pain) (voir figure 3). Cette axe mesure la consom-
mation de pommes de terre. D’après la table 5, cette axe est caractérisés par les individus
inactif (INAC) (voir figure 4).
Variables − PCA Individuals − PCA
INAC
1.0 ●

2
POT

0.5
PAA
RAI
VIA
VIO coord
PAO
LEC 1
Dim2 (11%)

Dim2 (11%)

15
0.0 PLP
10

CSUP

PRIN

0
−0.5 OUVR
AGRI ●

SAAG

EMPL CMOY

−1.0 ●

−1
−1.0 −0.5 0.0 0.5 1.0 −2 0 2 4
Dim1 (77.6%) Dim1 (77.6%)

Figure 3: cercle des corrélations Figure 4: coordonnées des inds

Vous aimerez peut-être aussi