Chapitre2 - Statistique Descriptive À Une Variable

Faculté des Sciences de Bizerte
Département Informatique
Fondements mathématiques des

données scientifiques
1er MP DS
Chapitre II
Statistique descriptive à une

variable
Dorsaf OMRI
Année Universitaire 2020/2021

1
Plan
1. Paramètres de position
Le mode 3. Paramètres de forme
La moyenne Coefficient d’asymétrie de Fisher
La moyenne pondérée Coefficient d’asymétrie de Yule
La médiane Coefficient d’asymétrie de Pearson
Les quantiles
4. Paramètre d’aplatissement
2. Paramètres de dispersion
L’étendue 5. Moyennes et variances dans des
La distance interquartile groupes
La variance
L’écart-type 6. Diagramme en tiges et feuilles
L’écart moyen absolu
L’écart médian absolu 7. La boîte à moustaches
1
Indicateurs statistiques
Indicateurs de position: Indicateurs de dispersion:
Caractère de tendance centrale Variabilité
Le mode L’étendue
La moyenne La distance interquartile
Moyenne pondérée La variance
La médiane L’écart-type
Quantiles L’écart moyen absolu
L’écart médian absolu
Paramètres de position: Le Mode

Le mode
Le mode est la valeur qui a le plus grand effectif partiel (ou la

plus grande fréquence partielle) et il est dénoté par M0.
Remarque
Le mode n’est pas nécessairement unique. On peut avoir plus d’un mode ou rien.
Si une série a deux mode elle est nommée bimodale.
Le mode peut être calculé pour tous les types de variable, quantitative et
qualitative.
Quand une variable continue est découpée en classes, on peut définir une classe
modale (classe correspondant à l’effectif le plus élevé).
2
Paramètres de position: La médiane
La médiane
La médiane est la valeur centrale de la série statistique

La médiane est la valeur de la variable pour laquelle la
fréquence cumulée est égale à 0,5 ou 50%. Elle correspond à
la valeur pour laquelle 50% des valeurs observées sont
supérieures et 50% sont inférieures.
Si n est impair, la médiane est la valeur au rang (n+1)/2

Si n est pair, la médiane est la moyenne des valeurs aux rangs
n/2 et (n/2) +1
La médiane peut être définie comme l’inverse de la fonction de répartition
pour la valeur 0,5 : xM = F (0,5)
−1
Paramètres de position: La médiane

Exemples
n est impaire (n=7)
On trie la série statistique par ordre croissant des valeurs observées.
La série observée:
3210012
On obtient On appelle cette série ordonnée la
0011223 statistique d’ordre
La médiane est la valeur qui se trouve au milieu de la série ordonnée
n est paire (n=8)

On trie la série statistique par ordre croissant des valeurs
observées.
00112234
1+ 2
La médiane est alors la moyenne de ces deux valeurs: xM = = 1,5
2
6
3
Paramètres de position: La moyenne arithmétique
La moyenne arithmétique
Soit un échantillon de n valeurs observées x1, x2, ….,xi,….,xn
∑x
1
x= i
n i =1
La moyenne ne peut être définie que sur une variable quantitative

- Facile à calculer
- La somme des écarts à la moyenne est nulle:
n
∑ (xi − x ) = 0
i =1
- Fortement influencée par les valeurs extrêmes
- Représente mal une population hétérogène
Paramètres de position: La moyenne pondérée

La moyenne pondérée: Chaque valeur de la variable est multipliée (pondérée) par un
coefficient, ici par l’effectif ni qui lui correspond. Dans ce cas, chaque valeur xi de la variable
intervient dans le calcul de la moyenne autant de fois qu’elle a été observée.
n n
∑n x = ∑ f x
1
x= i i i i
n i =1 i =1
Dans certains cas, on n’accorde pas le même poids à toutes les observations. Par
exemple, si on calcule la moyenne des notes pour un programme d’étude, on peut
pondérer les notes de l’étudiant par le nombre de crédits ou par le nombre
d’heures de chaque cours. Si wi > 0, i = 1, . . . , n sont les poids associés à chaque
observation, alors la moyenne pondérée par wi est définie par
n n
xw = ∑w x ∑w
i =1
i i
i =1
i
4
Paramètres de position: La moyenne géométrique
La moyenne Géométrique
1/ n
 n 
G=
 ∏ xi 

= (x1 × x2 ×...× xn )1/ n , si xi ≥ 0
 i =1 
On peut écrire la moyenne géométrique comme l’exponentielle de la moyenne

arithmétique des logarithmes des valeurs observées
1
 n  n
1 
n  n
log
 ∏ xi 

log
n  ∏xi  1
∑
n i=1
log( xi )
G = elogG = e  i=1  =e i=1  =e , si xi ≥ 0
Paramètres de position: La moyenne harmonique
La moyenne Harmonique
n
1
H =n ∑ x  ,
i =1 i
si xi ≥ 0
Il est possible de montrer que la moyenne harmonique est toujours inférieure

ou égale à la moyenne géométrique qui est toujours inférieure ou égale à la
moyenne arithmétique.
10
10
5
Paramètres de position: Quantiles
Soit la série statistique {xi , i = 1,...,n} donnant lieu à la série
{ }
statistique ordonnée x j , j = 1,...,n . Considérons la proportion
p(0<p<1)
• Si np n'est pas un nombre entier : x p = x[np]
Le quantile xp d’ordre p correspond à l’observation de rang [np], ou [np]

désigne le plus petit entier supérieur ou égal à np ([np] est la valeur obtenue
en arrondissant np à l’entier supérieur).
• Si np est un nombre entier:

Première convention: xp = x(np)
x(np) + x(np+1)
Deuxième convention: x p =
2
11
11

Les quantiles les plus utilisés
La médiane : p=1/2
La médiane partage la série statistique ordonnée en deux sous-ensembles qui contiennent chacun la moitié
des observations.
Les quartiles: p=1/4 (1er quartile), 2/4 (2e quartile: médiane), 3/4 (3e quartile)
Les 3 quartiles partagent la série statistique ordonnée en 4 sous-ensembles qui contiennent chacun un
quart (25%) des observations.
Les déciles: p=1/10, 2/10, …,9/10
Les percentiles: p=1/100, 2/100,…., 99/100

Les 99 percentiles partagent la série statistique ordonnée en 100 sous-ensembles qui contiennent chacun un
centième (1%) des observations.
12
12
6
Exemple
Soit la série statistique 12, 13, 15, 16, 18, 19, 22, 24, 25, 27
contenant 10 observations (n = 10).
Le premier quartile : Comme np = 0.25 × 10 = 2,5 n’est pas un

nombre entier, on a
x1/4 = x([2,5]) = x(3) = 15
La médiane : Comme np = 0.5 × 10 = 5 est un nombre entier,

on a
x1/ 2 =
1
2
{ }
x(5) + x(6) =
18 +19
2
= 18,5
Le troisième quartile : Comme np = 0.75 × 10 = 7.5 n’est pas

un nombre entier, on a
X3/4 = x([7,5]) = x(8) = 24
13
13
Paramètres de dispersion
14
14
7
Paramètres de dispersion: L’étendue
L’étendue
La différence entre la plus grande valeur et la plus petite valeur
du caractère, donnée par la quantité
e = xmax − xmin
Le calcul de l’étendue est très simple. Il donne une première idée
de la dispersion des observations.
15
15
Paramètres de dispersion: La distance interquartile
La distance interquartile est la différence entre le troisième

et le premier quartile :
IQ = x3 4 − x1 4
Cet intervalle contient 50% de la population en en éliminant
25% à chaque extrémité.
Cette caractéristique est nettement meilleure que l'étendue.
16
16
8
Paramètres de dispersion: La variance
La variance: Série non classée
On appelle variance d’une série statistique X, le nombre
2
∑ (x − x )
n
var( X ) =
1
i
n i =1
On dit que la variance est la moyenne des carrés des

écarts à la moyenne x. Les « écarts à la moyenne » sont les
((x−xi)
xi − x ) .
Les « carrés des écarts à la moyenne » sont donc les
(x i − x )2 . En faisant la moyenne de ces écarts, on trouve la
(x−xi)2.
variance.
17
17

La variance: Série classée
2 2
∑ n (x − x ) = ∑ f (x − x )
n n
var( X ) =
1
i i i i
n i =1 i =1
Dans le cas d’une variable statistique continue, xi représente le

centre de la ième classe.
La variance est toujours positive ou nulle.

Les formules de la variance (séries classée et non-classée) imposent
de calculer les différences (xi-x )2 ce qui est assez fastidieux
Eviter cet inconvénient en utilisant le théorème de Koenig.
18
18
9
Théorème de Koenig
La variance: Série non-classée

1 n 
var( X ) =  ∑x 2 2
n i − x
 i =1 
La variance: Série classée

1 n  2  n  2
var( X ) =  ∑ ni xi2  − x =  ∑ f i xi2  − x
n   
 i =1   i =1 
19
19
Paramètres de dispersion: L’écart type

L’écart type (ou l’écart quadratique moyen)
La quantité
σ x = var(x )
L’écart-type mesure la distance moyenne entre x et les valeurs de X. Il sert à

mesurer la dispersion d’une série statistique autour de sa moyenne:
Plus il est petit, plus les caractères sont concentrés autour de la moyenne (on dit
que la série est homogène).
Plus il est grand, plus les caractères sont dispersés autour de la moyenne (on dit
que la série est hétérogène).
20
20
10
Paramètres de dispersion: L’écart moyen absolu
L’écart moyen absolu est la somme des valeurs absolues
des écarts à la moyenne divisée par le nombre
d’observations :
n
∑ x −x
1
σ moy = i
n i =1
21
21
Paramètres de dispersion: L’écart médian absolu

L’écart médian absolu est la somme des valeurs absolues
des écarts à la médiane divisée par le nombre
d’observations :
n
∑ x −x
1
σ med = i 1/ 2
n i =1
22
22
11
Paramètres de forme: Moments
Moment à l’origine d’ordre r
n
∑x
1
m' = i
r
, r∈Ν
n i =1
Moment centré d’ordre r
∑ (x − x ) ,
n
1 r
mr = i r∈Ν
n i =1
Les moments généralisent la plupart des paramètres.
 ' 1 n 2
∑
2
m1' = x m2 = xi = σ x2 + x
 ,  n i =1
m1 = 0 
m2 = σ x2
23
23
Paramètres de forme
Coefficient d’asymétrie
Trois types de distributions selon qu'elles sont dissymétriques
(asymétriques) à gauche (graphique de gauche), symétriques
(graphique du milieu) ou dissymétriques (asymétriques) à droite
(graphique de droite
Distribution étalée à droite M O < M e < x
Distribution symétrique M O = M e = x
Distribution étalée à gauche M O > M e > x
24
24
12
Coefficient d’asymétrie de Fisher
Coefficient d’asymétrie de Fisher est définit par le rapport entre
le moment centré d’ordre 3 et l’écart-type au cube.
∑ (x − x)
n
1 3 m3
m3 = i ⇒ g1 =
n i =1 σ x3
Si la répartition de l’échantillon ou de la distribution est symétrique

autour de la moyenne alors le coefficient est nul.
Si la valeur est positive, l’étalement est à droite (asymétrique gauche).
Si elle est négative alors l’étalement est à gauche (asymétrie droite).
25
25
Coefficient d’asymétrie de Yule
Le coefficient d’asymétrie de Yule est basé sur les positions des 3
quartiles (premier quartile, médiane et troisième quartile), et est
normalisé par la distance interquartile :
x3 4 + x1 4 − 2 x1 2
AY =
x3 4 − x1 4
Si AY= 0, il y a symétrie ;
Si AY >0, il y a étalement à droite (oblique à gauche) ;
Si AY<0, il y a étalement à gauche (oblique à droite).
Le coefficient de Yule sert à mesurer l'asymétrie de la distribution

en tenant compte des positions relatives des quartiles par rapport à
la médiane
26
26
13
Coefficient d’asymétrie de Pearson
Le coefficient d’asymétrie de Pearson est basé sur une
comparaison de la moyenne et du mode, et est standardisé
par l’écart-type :
x + xM
AP =
σx
Si Ap=0, la distribution est symétrique.

Si Ap>0,la distribution est étalée à droite.
Si Ap<0, la distribution est étalée à gauche.
27
27
Exercice d’application
Une enquête menée auprès de 1500 ménages d'une certaine région
géographique rurale s'est intéressée à la variable X correspondant à la taille
du ménage, c'est-à-dire au nombre de personnes constituant le ménage. Les
données recueillies peuvent être présentées sous la forme du diagramme
en bâtons suivant
Calculer
1. Le coefficient de Yule
2. Le coefficient d’asymétrie
de Fisher
3. Le coefficient d’asymétrie
de Pearson
28
28
14
Exercice d’application
1. Le coefficient de Yule Moyenne x 2,67
x1/4 1
La distribution est étalée x1/2 ou Me 2
à droite X3/4 4
Ay 0,33
2. Le coefficient d’asymétrie de Fisher
m3 2,831026
La distribution est étalée
Ecart type 1,505910577
à droite
g1 0,828984302
3. Le coefficient d’asymétrie de Pearson

La distribution est étalée
Ap=0,687214973
à droite
29
29
Paramètre d’aplatissement (Kurtosis)

Mesure le degré d’aplatissement ou de rétrécissement
d’une variable X.
Loi normale
30
30
15
Paramètre d’aplatissement (Kurtosis)
L’aplatissement est mesuré par le coefficient d’aplatissement:
m4
β2 = (m4 est moment d’ordre 4)
σ x4
ou le coefficient d’aplatissement de Fisher

m4
g2 = β2 − 3 = −3
σ x4
Une courbe mésokurtique si g2 ≈ 0.
Une courbe leptokurtique si g2 > 0. Elle est plus pointue et possède des queues plus
longues.
Une courbe platykurtique si g2 < 0. Elle est plus arrondie et possède des queues
plus courtes.
31
31
Moyennes et variances dans des groupes

n observations réparties dans deux groupes GA et GB
Les nA premières observations sont dans le groupe GA
Les nB dernières observations sont dans le groupe GB
x1 , x 2 ,..., xn A −1 , xn A , xn A +1 , xn A + 2 ,..., xn −1 , xn
Observation de GA Observation de GB
∑ (x − x )
2 nA
∑ (x − x )
nA n n
∑x
1 1
∑x
1 1
σ A2 = i A xA = i xB = i σ B2 = i B
nA nA nB i = n A +1 nB
i =1 i =1 i = n A +1
1  A  1
( )
n n
x= ∑ xi + ∑ xi  = n A x A + n B x B
n  i =1  n
 i = n A +1 
32
32
16
Moyennes et variances dans des groupes
Théorème (de Huygens) La variance totale, définie par
2
∑ (x − x)
n
1
σ x2 = i
n i =1
se décompose en
σ x2 =
( )
2
n Aσ A2 + n Bσ B2 n A x A − x + n B x B − x
+
( )2
n n
Variance intra-groupes Variance inter-groupes
33
33
Diagramme en tiges et feuilles

Le diagramme en tiges et feuilles ou « Stem and leaf diagram » est une manière
rapide de présenter une variable quantitative.
Le diagramme permet de dépouiller simultanément les données d’une
distribution d’une variable statistique et d’en faire une représentation
graphique.
Chaque donnée individuelle est représentée par sa tige (premiers chiffres
communs à plusieurs données) et sa feuille (derniers chiffres de ces mêmes
données).
Unité de la feuille: 1.0

Unité de la branche: 10.0
Le diagramme montre simultanément la répartition des valeurs et les valeurs

elles-mêmes.
Les feuilles sont triées en ordre croissant.
Il faut faire attention lorsque l'on choisit l'échelle afin de mieux adapter aux
données.
34
34
17
Diagramme en tiges et feuilles
Exemple 1
Soit l’ensemble des données de la distribution suivante représentant la taille
en centimètres des étudiants d’une Faculté :
{152, 152, 154, 160, 161, 161, 162, 163, 163, 173, 173, 175, 175, 178}.
Exemple 2
L’acheteur d'une grande chaîne de magasins a recensé le nombre de paires de
bottes disponibles dans chacun des magasins et souhaite représenter ces
données par un diagramme tige-feuilles.
{17, 18 20, 25, 28, 34, 34, 37, 38, 50}
Lecture : 1∣∣8 signifie qu'un magasin dispose de 18 paires de bottes.

35
35
La boîte à moustaches
La boîte à moustaches, ou diagramme en boîte, ou encore boxplot en anglais,
est un diagramme qui permet de représenter la distribution d’une variable.
Ce diagramme est composé de :
Un rectangle qui s’étend du premier au troisième quartile. Le rectangle
est divisé par une ligne correspondant à la médiane.
Ce rectangle est complété par deux segments de droites.
Pour les dessiner, on calcule d’abord les bornes
b − = x1/ 4 − 1.5 IQ

 + IQ est la distance interquartile
b = x3 / 4 + 1.5 IQ
On identifie ensuite la plus petite et la plus grande observation comprise entre ces
bornes. Ces observations sont appelées “valeurs adjacentes”.
On trace les segments de droites reliant ces observations au rectangle.
Les valeurs qui ne sont pas comprises entre les valeurs adjacentes, sont représentées
par des points et sont appelées “valeurs extrêmes”.
36
36
18
37
37
Quand utiliser un box-plot?
Il est intéressant d’utiliser les box-plot lorsqu’on désire

visualiser des concepts tels que la symétrie, la dispersion ou la
centralité de la distribution des valeurs associées à une
variable.
Ils sont aussi très intéressant pour comparer des variables
basées sur des échelles similaires et pour comparer les valeurs
des observations de groupes d’individus sur la même variable.
38
38
19
Rechercher des indicateurs de données non normales ou aberrantes
Données asymétriques
Lorsque les données sont asymétriques, la majorité d'entre elles sont situées
sur le côté supérieur ou inférieur du graphique.
L'asymétrie indique que les données peuvent ne pas être normalement
distribuées.
Ces boîtes à moustaches illustrent des données asymétriques.
La boîte à moustaches avec des données asymétriques à droite illustre des
temps d'attente. La plupart des temps d'attente sont relativement courts,
seuls certains sont longs.
La boîte à moustaches avec des données asymétriques à gauche représente
des données de temps de défaillance. Quelques éléments rencontrent une
défaillance immédiatement, mais pour bien plus d'entre eux, elle survient
plus tard.
39
39
Rechercher des indicateurs de données non normales ou aberrantes
Valeurs aberrantes
Les valeurs aberrantes, qui sont des valeurs de données très éloignées des
autres valeurs de données, peuvent avoir une incidence importante sur vos
résultats.
Les valeurs aberrantes sont plus faciles à repérer sur une boîte à moustaches.
Essayez de déterminer la cause de toutes les valeurs aberrantes.

Corrigez les erreurs de mesure ou d’entrée des données.
Pensez à supprimer les valeurs de données associées à des événements
anormaux et uniques (causes spéciales)
40
40
20
Exemple
On a relevé les notes de 24 élèves d’une classe lors d’un examen noté sur
100 points.
78 79 77 59 57 65 65 67
68 67 59 54 64 68 72 74
72 72 76 77 76 74 77 76
1) Déterminer la médiane et les quartiles de cette série

2) Dessiner la boite à moustache de cette série
3) On peut comparer les résultats de cette classe avec les résultats
d’une autre classe dont on sait que la note minimale est 47 , la
note maximale est 85 , la médiane est 70, Q1 est 67 et Q3 est 76.
Tracer sur le même graphique que dans la question 2 la boite à
moustache de cette nouvelle série.
4) Que peut-on dire sur les différences entre les deux classes ?
41
41
Trions les données
54 57 59 59 64 65 65 67
67 68 68 72 72 72 74 74
76 76 76 77 77 77 78 79
1) Déterminer la médiane et les quartiles de cette série

Comme il y a 24 valeurs la médiane est la moyenne entre la
12ème et la 13ème valeur
Soit M = (72+72)/2 = 72 le premier quartile est la 6ème valeur
soit Q1 = 65 et le troisième quartile est la 18ème valeur Q3 = 76
42
42
21
2) Dessiner la boite à moustache de cette série
43
43
3) .
4) Cette deuxième classe semble un peu plus hétérogène (un minimum inférieur
et un maximum supérieur ) mais pour 50 % des élèves ( l’intérieur des
boites) la deuxième classe est plus concentrée ( boite moins large ). Pour les
deux classes 75 % des élèves sont en dessous de 76 sur 100
44
44
22

Chapitre2 - Statistique Descriptive À Une Variable

Transféré par

Droits d'auteur :

Formats disponibles

Chapitre2 - Statistique Descriptive À Une Variable

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Chapitre2 - Statistique Descriptive À Une Variable

Transféré par

Droits d'auteur :

Formats disponibles

Faculté des Sciences de Bizerte

Fondements mathématiques des

Statistique descriptive à une

Année Universitaire 2020/2021

Paramètres de position: Le Mode

Le mode est la valeur qui a le plus grand effectif partiel (ou la

La médiane est la valeur centrale de la série statistique

Si n est impair, la médiane est la valeur au rang (n+1)/2

Paramètres de position: La médiane

n est paire (n=8)

La moyenne ne peut être définie que sur une variable quantitative

Paramètres de position: La moyenne pondérée

On peut écrire la moyenne géométrique comme l’exponentielle de la moyenne

Paramètres de position: La moyenne harmonique

Il est possible de montrer que la moyenne harmonique est toujours inférieure

• Si np n'est pas un nombre entier : x p = x[np]

Le quantile xp d’ordre p correspond à l’observation de rang [np], ou [np]

• Si np est un nombre entier:

Paramètres de position: Quantiles

Les percentiles: p=1/100, 2/100,…., 99/100

Le premier quartile : Comme np = 0.25 × 10 = 2,5 n’est pas un

La médiane : Comme np = 0.5 × 10 = 5 est un nombre entier,

Le troisième quartile : Comme np = 0.75 × 10 = 7.5 n’est pas

Paramètres de dispersion: La distance interquartile

La distance interquartile est la différence entre le troisième

On dit que la variance est la moyenne des carrés des

Paramètres de dispersion: La variance

Dans le cas d’une variable statistique continue, xi représente le

La variance est toujours positive ou nulle.

La variance: Série non-classée

La variance: Série classée

Paramètres de dispersion: L’écart type

L’écart-type mesure la distance moyenne entre x et les valeurs de X. Il sert à

Paramètres de dispersion: L’écart médian absolu

Moment centré d’ordre r

Si la répartition de l’échantillon ou de la distribution est symétrique

Le coefficient de Yule sert à mesurer l'asymétrie de la distribution

Si Ap=0, la distribution est symétrique.

3. Le coefficient d’asymétrie de Pearson

Paramètre d’aplatissement (Kurtosis)

ou le coefficient d’aplatissement de Fisher

Moyennes et variances dans des groupes

Variance intra-groupes Variance inter-groupes

Diagramme en tiges et feuilles

Unité de la feuille: 1.0

Le diagramme montre simultanément la répartition des valeurs et les valeurs

Lecture : 1∣∣8 signifie qu'un magasin dispose de 18 paires de bottes.

b − = x1/ 4 − 1.5 IQ

Il est intéressant d’utiliser les box-plot lorsqu’on désire

Essayez de déterminer la cause de toutes les valeurs aberrantes.

1) Déterminer la médiane et les quartiles de cette série

1) Déterminer la médiane et les quartiles de cette série

Vous aimerez peut-être aussi