Chapitre2 - Statistique Descriptive À Une Variable
Chapitre2 - Statistique Descriptive À Une Variable
Chapitre2 - Statistique Descriptive À Une Variable
Département Informatique
Chapitre II
Plan
1. Paramètres de position
Le mode 3. Paramètres de forme
La moyenne Coefficient d’asymétrie de Fisher
La moyenne pondérée Coefficient d’asymétrie de Yule
La médiane Coefficient d’asymétrie de Pearson
Les quantiles
4. Paramètre d’aplatissement
2. Paramètres de dispersion
L’étendue 5. Moyennes et variances dans des
La distance interquartile groupes
La variance
L’écart-type 6. Diagramme en tiges et feuilles
L’écart moyen absolu
L’écart médian absolu 7. La boîte à moustaches
1
Indicateurs statistiques
Indicateurs de position: Indicateurs de dispersion:
Caractère de tendance centrale Variabilité
Le mode L’étendue
La moyenne La distance interquartile
Moyenne pondérée La variance
La médiane L’écart-type
Quantiles L’écart moyen absolu
L’écart médian absolu
Remarque
Le mode n’est pas nécessairement unique. On peut avoir plus d’un mode ou rien.
Si une série a deux mode elle est nommée bimodale.
Le mode peut être calculé pour tous les types de variable, quantitative et
qualitative.
Quand une variable continue est découpée en classes, on peut définir une classe
modale (classe correspondant à l’effectif le plus élevé).
2
Paramètres de position: La médiane
La médiane
3
Paramètres de position: La moyenne arithmétique
La moyenne arithmétique
Soit un échantillon de n valeurs observées x1, x2, ….,xi,….,xn
∑x
1
x= i
n i =1
∑n x = ∑ f x
1
x= i i i i
n i =1 i =1
Dans certains cas, on n’accorde pas le même poids à toutes les observations. Par
exemple, si on calcule la moyenne des notes pour un programme d’étude, on peut
pondérer les notes de l’étudiant par le nombre de crédits ou par le nombre
d’heures de chaque cours. Si wi > 0, i = 1, . . . , n sont les poids associés à chaque
observation, alors la moyenne pondérée par wi est définie par
n n
xw = ∑w x ∑w
i =1
i i
i =1
i
4
Paramètres de position: La moyenne géométrique
La moyenne Géométrique
1/ n
n
G=
∏ xi
= (x1 × x2 ×...× xn )1/ n , si xi ≥ 0
i =1
La moyenne Harmonique
n
1
H =n ∑ x ,
i =1 i
si xi ≥ 0
10
10
5
Paramètres de position: Quantiles
Soit la série statistique {xi , i = 1,...,n} donnant lieu à la série
{ }
statistique ordonnée x j , j = 1,...,n . Considérons la proportion
p(0<p<1)
11
La médiane partage la série statistique ordonnée en deux sous-ensembles qui contiennent chacun la moitié
des observations.
Les quartiles: p=1/4 (1er quartile), 2/4 (2e quartile: médiane), 3/4 (3e quartile)
Les 3 quartiles partagent la série statistique ordonnée en 4 sous-ensembles qui contiennent chacun un
quart (25%) des observations.
Les déciles: p=1/10, 2/10, …,9/10
12
12
6
Paramètres de position: Quantiles
Exemple
Soit la série statistique 12, 13, 15, 16, 18, 19, 22, 24, 25, 27
contenant 10 observations (n = 10).
13
Paramètres de dispersion
14
14
7
Paramètres de dispersion: L’étendue
L’étendue
La différence entre la plus grande valeur et la plus petite valeur
du caractère, donnée par la quantité
e = xmax − xmin
Le calcul de l’étendue est très simple. Il donne une première idée
de la dispersion des observations.
15
15
IQ = x3 4 − x1 4
Cet intervalle contient 50% de la population en en éliminant
25% à chaque extrémité.
Cette caractéristique est nettement meilleure que l'étendue.
16
16
8
Paramètres de dispersion: La variance
La variance: Série non classée
On appelle variance d’une série statistique X, le nombre
2
∑ (x − x )
n
var( X ) =
1
i
n i =1
17
2 2
∑ n (x − x ) = ∑ f (x − x )
n n
var( X ) =
1
i i i i
n i =1 i =1
18
18
9
Paramètres de dispersion: La variance
Théorème de Koenig
19
19
La quantité
σ x = var(x )
20
20
10
Paramètres de dispersion: L’écart moyen absolu
L’écart moyen absolu est la somme des valeurs absolues
des écarts à la moyenne divisée par le nombre
d’observations :
n
∑ x −x
1
σ moy = i
n i =1
21
21
∑ x −x
1
σ med = i 1/ 2
n i =1
22
22
11
Paramètres de forme: Moments
Moment à l’origine d’ordre r
n
∑x
1
m' = i
r
, r∈Ν
n i =1
∑ (x − x ) ,
n
1 r
mr = i r∈Ν
n i =1
Les moments généralisent la plupart des paramètres.
' 1 n 2
∑
2
m1' = x m2 = xi = σ x2 + x
, n i =1
m1 = 0
m2 = σ x2
23
23
Paramètres de forme
Coefficient d’asymétrie
Trois types de distributions selon qu'elles sont dissymétriques
(asymétriques) à gauche (graphique de gauche), symétriques
(graphique du milieu) ou dissymétriques (asymétriques) à droite
(graphique de droite
Distribution étalée à droite M O < M e < x
Distribution symétrique M O = M e = x
Distribution étalée à gauche M O > M e > x
24
24
12
Paramètres de forme
Coefficient d’asymétrie de Fisher
Coefficient d’asymétrie de Fisher est définit par le rapport entre
le moment centré d’ordre 3 et l’écart-type au cube.
∑ (x − x)
n
1 3 m3
m3 = i ⇒ g1 =
n i =1 σ x3
25
25
Paramètres de forme
Coefficient d’asymétrie de Yule
Le coefficient d’asymétrie de Yule est basé sur les positions des 3
quartiles (premier quartile, médiane et troisième quartile), et est
normalisé par la distance interquartile :
x3 4 + x1 4 − 2 x1 2
AY =
x3 4 − x1 4
Si AY= 0, il y a symétrie ;
Si AY >0, il y a étalement à droite (oblique à gauche) ;
Si AY<0, il y a étalement à gauche (oblique à droite).
26
26
13
Paramètres de forme
Coefficient d’asymétrie de Pearson
Le coefficient d’asymétrie de Pearson est basé sur une
comparaison de la moyenne et du mode, et est standardisé
par l’écart-type :
x + xM
AP =
σx
27
27
Paramètres de forme
Exercice d’application
Une enquête menée auprès de 1500 ménages d'une certaine région
géographique rurale s'est intéressée à la variable X correspondant à la taille
du ménage, c'est-à-dire au nombre de personnes constituant le ménage. Les
données recueillies peuvent être présentées sous la forme du diagramme
en bâtons suivant
Calculer
1. Le coefficient de Yule
2. Le coefficient d’asymétrie
de Fisher
3. Le coefficient d’asymétrie
de Pearson
28
28
14
Paramètres de forme
Exercice d’application
1. Le coefficient de Yule Moyenne x 2,67
x1/4 1
La distribution est étalée x1/2 ou Me 2
à droite X3/4 4
Ay 0,33
2. Le coefficient d’asymétrie de Fisher
m3 2,831026
La distribution est étalée
Ecart type 1,505910577
à droite
g1 0,828984302
29
29
Loi normale
30
30
15
Paramètre d’aplatissement (Kurtosis)
L’aplatissement est mesuré par le coefficient d’aplatissement:
m4
β2 = (m4 est moment d’ordre 4)
σ x4
31
31
Observation de GA Observation de GB
∑ (x − x )
2 nA
∑ (x − x )
nA n n
∑x
1 1
∑x
1 1
σ A2 = i A xA = i xB = i σ B2 = i B
nA nA nB i = n A +1 nB
i =1 i =1 i = n A +1
1 A 1
( )
n n
x= ∑ xi + ∑ xi = n A x A + n B x B
n i =1 n
i = n A +1
32
32
16
Moyennes et variances dans des groupes
Théorème (de Huygens) La variance totale, définie par
2
∑ (x − x)
n
1
σ x2 = i
n i =1
se décompose en
σ x2 =
( )
2
n Aσ A2 + n Bσ B2 n A x A − x + n B x B − x
+
( )2
n n
33
33
34
34
17
Diagramme en tiges et feuilles
Exemple 1
Soit l’ensemble des données de la distribution suivante représentant la taille
en centimètres des étudiants d’une Faculté :
{152, 152, 154, 160, 161, 161, 162, 163, 163, 173, 173, 175, 175, 178}.
Exemple 2
L’acheteur d'une grande chaîne de magasins a recensé le nombre de paires de
bottes disponibles dans chacun des magasins et souhaite représenter ces
données par un diagramme tige-feuilles.
{17, 18 20, 25, 28, 34, 34, 37, 38, 50}
35
La boîte à moustaches
La boîte à moustaches, ou diagramme en boîte, ou encore boxplot en anglais,
est un diagramme qui permet de représenter la distribution d’une variable.
Ce diagramme est composé de :
Un rectangle qui s’étend du premier au troisième quartile. Le rectangle
est divisé par une ligne correspondant à la médiane.
Ce rectangle est complété par deux segments de droites.
Pour les dessiner, on calcule d’abord les bornes
36
18
La boîte à moustaches
37
37
La boîte à moustaches
Quand utiliser un box-plot?
38
38
19
La boîte à moustaches
Rechercher des indicateurs de données non normales ou aberrantes
Données asymétriques
Lorsque les données sont asymétriques, la majorité d'entre elles sont situées
sur le côté supérieur ou inférieur du graphique.
L'asymétrie indique que les données peuvent ne pas être normalement
distribuées.
Ces boîtes à moustaches illustrent des données asymétriques.
La boîte à moustaches avec des données asymétriques à droite illustre des
temps d'attente. La plupart des temps d'attente sont relativement courts,
seuls certains sont longs.
La boîte à moustaches avec des données asymétriques à gauche représente
des données de temps de défaillance. Quelques éléments rencontrent une
défaillance immédiatement, mais pour bien plus d'entre eux, elle survient
plus tard.
39
39
La boîte à moustaches
Rechercher des indicateurs de données non normales ou aberrantes
Valeurs aberrantes
Les valeurs aberrantes, qui sont des valeurs de données très éloignées des
autres valeurs de données, peuvent avoir une incidence importante sur vos
résultats.
Les valeurs aberrantes sont plus faciles à repérer sur une boîte à moustaches.
40
20
La boîte à moustaches
Exemple
On a relevé les notes de 24 élèves d’une classe lors d’un examen noté sur
100 points.
78 79 77 59 57 65 65 67
68 67 59 54 64 68 72 74
72 72 76 77 76 74 77 76
41
41
La boîte à moustaches
Trions les données
54 57 59 59 64 65 65 67
67 68 68 72 72 72 74 74
76 76 76 77 77 77 78 79
42
42
21
La boîte à moustaches
2) Dessiner la boite à moustache de cette série
43
43
La boîte à moustaches
3) .
4) Cette deuxième classe semble un peu plus hétérogène (un minimum inférieur
et un maximum supérieur ) mais pour 50 % des élèves ( l’intérieur des
boites) la deuxième classe est plus concentrée ( boite moins large ). Pour les
deux classes 75 % des élèves sont en dessous de 76 sur 100
44
44
22