Correction ADD

Analyse des Données - Correction Examen Terminal 2004-2005
Partie 1
Analyse en Composantes Principales
1. Le nuage des individus doit être représenté dans R4 car on observe 4 variables sur chacun des étudiants.
2. Le nuage des variables doit être représenté dans R10 car pour chaque variable, on observe 10 notes.
3. On a le tableau suivant :
Variables Moyennes Ecarts types Minimum Maximum

Statistique 12.688 2.2113 7.88 15.56
Informatique 10.815 1.7782 7.45 13.5
Mathematiques 12.48 2.5707 8.55 16.95
Anglais 9.90 1.7659 7.76 13.64
4. Le barycentre du nuage des individus est

 
12.688
 10.815 
G=
 12.48 

9.90
5. La matrice des écarts-types est
 
2.2113 0 0 0
 0 1.7782 0 0 
Ds =  
 0 0 2.5707 0 
0 0 0 1.7659
6. Le rôle du barycentre et de la matrice des écart-types est de centrer et réduire le tableau de données initial.
7. Dans le cadre de l’ACP normée, la matrice à diagonaliser est Z t Dn ZMp = n1 Z t Z. Par calcul matriciel littéral,
on montre aisément que cette matrice n’est autre que la matrice des corrélations.
8. D’après cette matrice des corrélations, on observe que la variable “Stats” présente une quasi absence de corrélation
linéaire avec les variables “Info” et “Basesm” et une faible corrélation négative avec la variable “Anglai”. La
variable “Info” est faiblement corrélée positivement avec la variable “Anglai” et corrélée négativement avec la
variable “Basesm”. Enfin, les variables “Basesm” et “Anglai” présentent une quasi absence de corrélation.
9. La dernière valeur propre est facile à calculer car d’après le cours, on sait que la somme des valeurs propres est
égale à l’inertie totale du nuage des individus laquelle est égale (dans le cadre de l’ACP normée) au nombre de
variables actives. Finalement, on obtient λ4 = 0.161.
10. L’inertie d’un axe est égale à la valeur propre associée. Par conséquent, on obtient
I(1) = 1.8721 I(2) = 1.3656 I(3) = 0.6013 I(4) = 0.161

11. L’inertie totale est égale au nombre de variables actives. Par conséquent, on a I = 4.
I(α)
12. Le pourcentage d’inertie associé à chacun des axes est calculé selon la formule P I(α) = I . On obtient
P I(1) = 46.80% P I(2) = 34.14% P I(3) = 15.03 P I(4) = 4.03%

Les pourcentages cumulés vallent
1
P IC(1) = 46.80% P IC(2) = 80.94% P IC(3) = 95.97 P IC(4) = 100%
13. D’après le critère de la moyenne, il convient de conserver les axes pour lesquels l’inertie est supérieure à 1. Dans
le cas présent, il convient de conserver les 2 premiers axes.
14. Le diagramme des valeurs propres confirme ce choix puisque l’on observe une perte de 50% d’inertie entre l’axe
2 et l’axe 3.
15. A partir du tableau, il est facile de voir que les deux premières colonnes correspondent aux deux composantes
principales, lesquelles représentent les coordonnées des individus sur les deux premiers axes factoriels.
16. Les deux propriétés sont :
Ψα = 0 et V ar(Ψα ) = λα
Elles sont facilement vérifiées.
17. Les individus qui contribuent fortement à la formation d’un axe sont les individus qui présentent de fortes
coordonnées positives ou négatives sur l’axe. Ils sont donc facilement observables sur un graphique car ce sont
ceux qui sont les plus éloignés du barycentre. Cette réponse se justifie directement à partir de la formule des
contributions.
18. La formule permettant de compléter le tableau est
1 Ψ2α (i)
Cri (α) =
n λα
On obtient
individus Cri (1)(%) Cri (2)(%)

1 2.09 16.38
2 13.85 8.64
3 9.90 3.78
4 32.73 3.54
5 29.80 3.31
6 7.96 34.29
7 0.03 23.50
8 0.31 0.18
9 3.34 5.43
10 0.00 0.95
Si l’on retient les individus qui contribuent significativement à la formation d’un axe, il convient de retenir les
individus pour lesquels la contribution est supérieure à n1 , c’est-à-dire 10%. Ainsi, pour l’axe 1, les individus
2,4 et 5 contribuent significativement à la formation de cet axe. Les individus 2 et 5 présentent une coordonnée
négative tandis que l’individu 4 présente une coordonnée positive. Pour l’axe 2, ce sont les individus 1, 6 et 7
qui contribuent de manière significative. 1 et 7 présentent une coordonnée négative tandis que 6 présente une
coordonnée positive. Effectivement, on retrouve bien les individus énumérés dans la précédente question.
19. Pour calculer les qualités de représentation, il convient de faire usage de la formule
Ψ2α (i)
Quali (α) =
~ i k2
kGE
On obtient alors
2
individus Quali (1)(%) Quali (2)(%) Quali (1 × 2)(%)
1 13.59 77.80 91.39
2 45.81 20.84 66.65
3 49.81 13.87 63.68
4 86.83 6.84 93.67
5 92.11 7.47 99.58
6 22.05 69.29 91.34
7 0.20 99.72 99.92
8 4.21 1.82 6.03
9 44.03 52.31 96.34
10 0.00 6.96 6.96
20. Les individus 2 et 3 sont bien représentés dans le plan factoriel principal, tandis que les individus 1, 4, 5, 6, 7 et
9 sont très bien représentés dans ce plan.
21. Pour calculer les coordonnées des variables, il suffit de faire usage de la relation de transition suivante :
p
ϕα = λα uα .
On obtient alors :
   
−0.0738 −0.8600
 −0.9527   −0.0808 
ϕ1 = 
 0.8859 
 et ϕ2 = 
 0.2001 

−0.4174 0.7612
22. La qualité de représentation des variables dans le plan factoriel principal est d’autant meilleure que les variables
sont proches du cercle des corrélations. Dans le cas présent, toutes les variables sont bien ou très bien représentées.
23. La corrélation entre une variable et un axe ou entre deux variables se mesure par l’angle direct qui existe entre
eux. Cette mesure est fiable à partir du moment où les variables présentent une bonne qualité de représentation.
24. Les variables “Info” et “Basesm” sont fortement corrélées avec l’axe 1. La variable “Info” est corrélée négativement
(-95%) tandis que la variable “Basesm” est corrélée positivement (88%). Les deux autres variables sont très peu
ou pas du tout corrélées avec cet axe (-7% et -41%). Pour l’axe 2, c’est l’inverse, c’est-à-dire que les variables
“Stats” et “Anglai” sont fortement corrélées avec cet axe tandis que les autres variables sont très peu ou pas
du tout corrélées avec cet axe. On note que la variable “Anglai” est corrélée positivement (76%) tandis que la
variable “Stats” est corrélée négativement (-86%).
25. Les deux axes sont des axes d’opposition. L’axe 1 est un axe d’opposition entre d’un côté les étudiants plutôt
bons en informatique (ouest) et de l’autre les étudiants plutôt bons en mathématiques (est). L’axe 2 est lui un
axe d’opposition entre d’un côté les étudiants plutôt bons en statistique (sud) et de l’autre les étudiants plutôt
bons en anglais (nord).
26. En faisant référence à la qualité de représentation des individus dans le premier plan factoriel, il convient
“d’éliminer” les étudiants 8 et 10. Ainsi, les étudiants 5 et 2 se distinguent de la moyenne par des notes parti-
culièrement élevées pour les variables “Info” et “Anglai”, plus faibles pour les deux autres variables. L’étudiant
4 se distingue de la moyenne par des notes particulièrement élevées pour les variables “Basesm” et “Stats” et
faibles pour les autres variables. De même, les étudiants 3 et 6 se distinguent de la moyenne par de bonnes
notes en “Basesm” et “Anglai” et de mauvaises notes pour les autres matières. Enfin, les étudiants 1, 7 et 9 se
distinguent de la moyenne par une bonne note en “Stats” et une mauvaise en “Anglai”.
3
Partie 2
Analyse Factorielle Discriminante
1. Le barycentre du nuage de points est G de coordonnées :

11.0909
G=
10.5454
2. Les barycentres partiels sont G1 et G2 dont les coordonnées sont données par :

8.8333 13.8
G1 = et G2 =
12.8333 7.8
3. La quantité
n1 n2
G1 + G2
n n
se calcule comme suit :

6 8.8333 5 13.8 11.0909
+ =
11 12.8333 11 7.8 10.5454
On note finalement que ce calcul mène au barycentre du nuage de points. Cela n’est pas surprenant puisque le
barycentre d’un nuage de points peut être vu comme une somme pondérée des barycentres des classes constituant
le nuage des individus.
4. En prenant G comme centre du nouveau repère, on obtient les nouvelles coordonnées suivantes :
Individus X1∗ X2∗ Y

1 -4.0909 1.4546 1
2 -3.5909 2.9546 1
3 -3.0909 0.4546 1
4 -2.0909 2.4546 1
5 -0.5909 4.4546 1
6 -0.0909 1.9546 1
7 1.4091 -3.5454 2
8 1.9091 -2.0454 2
9 2.9091 -4.5454 2
10 3.4091 -2.0454 2
11 3.9091 -1.5454 2
G1 -2.2576 2.2879 1
G2 2.7091 -2.7454 2
5. On obtient
4
Nuage des individus
6
1
Axe discriminant
4
1
1
2
G1 1
1
A 1
X2
0
−2 2
2 2
G2
2
−4
Droite discriminante
2
−6
−6 −4 −2 0 2 4 6
X1
6. Les matrices des covariances intra-classes s’exprime de la manière suivante :

2.2222 0.8472 0.86 0.41
T1 = et T2 =
0.8472 1.5556 0.41 1.26
7. Sous forme littérale, la matrice W s’exprime comme :
n1 n2
W = T1 + T2
n n
Par conséquent, on obtient

1.6030 0.6485
W =
0.6485 1.4212
(a) Les matrices C, Dk et W −1 s’expriment respectivement comme
6

−2.2576 2.2879 11 0 0.7651 −0.3491
C= D2 = 5 W −1
=
2.7091 −2.7454 0 11 −0.3491 0.8629
(b) La matrice à diagonaliser est alors d’après les résultats d’AFG la matrice C t D2 CW −1 . Le calcul matriciel
amène à la matrice suivante :

t 6.8428 −7.4835
C D2 CW −1
=
−6.9345 7.5838
(c) Il est facile de voir que les valeurs propres sont λ1 = 14.4266 et λ2 = 0.
(d) Seule la première valeur propre est non nulle. Un vecteur propre unitaire associé est u = (−0.7024; 0.7118).
On en déduit l’équation de la droite associée à ce vecteur : X2 = −1.0134X1.
(e) Un vecteur directeur de l’axe discriminant est donc w = (−0.7859, 0.8594). L’équation de droite est alors
X2 = −1.0935X1.
8. On a
5
f (x∗ ) := d2Mp (x∗ , G∗1 ) − d2Mp (x∗ ; G∗2 )
= < x∗ ; G∗1 >Mp − < x∗ ; G∗2 >Mp
= (x∗ )t W −1 G∗1 − (x∗ )t W −1 G∗2
= (x∗ )t W −1 (G∗1 − G∗2 ).
9. L’équation f (x∗ ) = 0 s’écrit
(x∗ )t W −1 (G∗1 − G∗2 ) = 0

Autrement dit, l’ensemble des points vérifiant cette équation est une droite perpendiculaire au sens de la métrique
W −1 à la droite passant par les barycentres partiels. A partir de ce produit matriciel, on aboutit à l’équation de
droite suivante :
−5.5571x∗1 + 6.0771x∗2 = 0
10. Dans le repère de centre G, les étudiants A et B ont pour coordonnées : A = (−4.0909, 0.4546) et B =
(−4.0909, −6.5454). Selon la règle géométrique d’affectation, on déduit que si f (x∗ ) > 0 alors l’individu est
associé au groupe 2 ; inversement, si f (x∗ ) < 0 alors l’individu est associé au groupe 1. Dans le cas présent, on a
f (x∗A ) = 25.50 et f (x∗B ) = −17.04

Par conséquent, l’étudiant A provient vraisemblablement du Calvados tandis que l’étudiant B provient vraisem-
blablement de Seine-maitime puisqu’ils sont associés respectivement au groupe 2 et 1.

Correction ADD

Transféré par

Droits d'auteur :

Formats disponibles

Correction ADD

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Correction ADD

Transféré par

Droits d'auteur :

Formats disponibles

Analyse des Données - Correction Examen Terminal 2004-2005

Analyse en Composantes Principales

Variables Moyennes Ecarts types Minimum Maximum

4. Le barycentre du nuage des individus est

I(1) = 1.8721 I(2) = 1.3656 I(3) = 0.6013 I(4) = 0.161

P I(1) = 46.80% P I(2) = 34.14% P I(3) = 15.03 P I(4) = 4.03%

individus Cri (1)(%) Cri (2)(%)

Analyse Factorielle Discriminante

1. Le barycentre du nuage de points est G de coordonnées :

Individus X1∗ X2∗ Y

6. Les matrices des covariances intra-classes s’exprime de la manière suivante :

9. L’équation f (x∗ ) = 0 s’écrit

(x∗ )t W −1 (G∗1 − G∗2 ) = 0

f (x∗A ) = 25.50 et f (x∗B ) = −17.04

Vous aimerez peut-être aussi