CH1 Stat Mines
CH1 Stat Mines
CH1 Stat Mines
— On appelle série statistique la suite des valeurs prises par une variable (un
caractère) X sur les unités d’observation, ces unités forment les modalités
de la variable.
– Cas discret :
Soit une série statistique à n observations et à k modalités discrètes x1, x2, ..., xk .
Le tableau statistique (complet) associé à cette série statistique est le suivant :
Modalité (xi ) Effectif (ni ) Fréquence (fi ) Fréquence cumulée (Fi ) Effectif cumulé (Ni )
x1 n1 f1 F1 N1
x2 n2 f2 F2 N2
: : : : :
: : : : :
xi ni fi Fi Ni
: : : : :
: : : : :
xk nk fk Fk = 1 Nk = n
Σ n 1 // //
avec, pour i = 1, 2, ..., n :
• ni est l’effectif associé à la modalité xi.
• fi = nni est la fréquence associée à la modalité xi.
Pi
• Fi = j=1 fj est la fréquence cumulée associée à la modalité xi.
Pi
• Ni = j=1 nj est l’effectif cumulé associé à la modalité xi.
Pk Pk
De plus, on a i=1 ni = n, i=1 fi = 1 et Fi = Fi−1 + fi, ...
– Cas continu :
Une variable quantitative continue peut prendre une infinité de valeurs
MINES — Rabat (13/93) Pr. M. Fihri & Pr. I. Medarhri
1 STATISTIQUE DESCRIPTIVE UNIVARIÉE
possibles. Soit une série statistique à n observations : x1, x2, ..., xn, on regroupe
les données sous forme de k classes.
Le tableau statistique (complet) associé à cette série statistique est le suivant :
Modalité (xi ) Effectif (ni ) Fréquence (fi ) Fréquence cumulée (Fi ) Effectif cumulé (Ni )
[v1, v2[ n1 f1 F1 N1
[v2, v3[ n2 f2 F2 N2
: : : : :
: : : : :
[vi, vi+1[ ni fi Fi Ni
: : : : :
: : : : :
[vk , vk+1[ nk fk Fk = 1 Nk = n
Σ n 1 // //
Si [vi, vi+1[ désigne la classe i, alors, pour i = 1, 2, ..., k :
— ni, fi, Fi et Ni se calculent de la même manière que dans le cas discret
et on a les mêmes propriétés,
— ci = vi+v2 i+1 est le centre de la classe [vi, vi+1[,
— ai = vi+1 − vi est l’amplitude de la classe [vi, vi+1[,
MINES — Rabat (14/93) Pr. M. Fihri & Pr. I. Medarhri
1 STATISTIQUE DESCRIPTIVE UNIVARIÉE
Exemple 1.4. Les données suivantes sont les durées de vie en heures
de 30 lampes miniatures.
419 451 412 412 375 397 429 407 454 375 393 357 456 355 364 414
413 425 467 345 432 392 329 422 426 439 381 451 413 421
on suit, en général, les étapes suivantes :
1. On ordonne :
329 345 355 357 364 375 375 381 392 393 397 407 412 412 413
413 414 419 421 422 425 426 429 432 439 451 451 454 456 467
2. La formule de Sturges donne le nombre de classes :
k = 1 + 3, 33 log10(30) ≃ 6 ⇒ 6 classes.
3. On calcule l’étendue : e = xmax − xmin = 476 − 329 = 138.
e 138
4. On calcule l’amplitude des classes : A = = = 23.
k 6
5. On obtient le tableau des classes ci-dessous :
x1 n1 f1
x2 n2 f2
: : :
: : :
xi ni fi
: : :
: : :
xk nk fk
Σ n 1
ni
avec, fi = n, pour i = 1, 2, ..., n, est la fréquence associée à la modalité xi.
Exemple 1.5. (1) Reprenons l’exemple 1.1 sur la variable X représentant
”l’état civil de 20 employés dans une entreprise”.
Le tableau statistique (complet) associé à cette série statistique est le
suivant :
1 5 5 0.10 0.10
2 9 14 0.18 0.28
3 15 29 0.30 0.58
4 10 39 0.20 0.78
5 6 45 0.12 0.90
6 3 48 0.06 0.96
8 2 50 0.04 1.00
Σ 50 // 1 //
MINES — Rabat (19/93) Pr. M. Fihri & Pr. I. Medarhri
1 STATISTIQUE DESCRIPTIVE UNIVARIÉE
Anglei = fi × 360
.
– Cas discret :
La représentation de la fonction cumulative croissante (appelée aussi fonction
de répartition) est réalisée au moyen des fréquences cumulées. Cette fonction
est définie de R dans [0, 1] et vaut, pour i = 1, 2, ..., k (où k est le nombre de
modalités discrètes) :
0 si x < x1
F (x) = Fi si xi ≤ x < xi+1
1 si x ≥ xk
Moyenne géométrique
La moyenne géométrique est appliquée à des mesures de grandeurs dont la
croissance est géométrique ou exponentielle.
La moyenne géométrique, notée x̄G, d’une variable dans une série statistique
est définie par :
MINES — Rabat (36/93) Pr. M. Fihri & Pr. I. Medarhri
1 STATISTIQUE DESCRIPTIVE UNIVARIÉE
— Cas discret :
v
u k k
uY n Y
n
x̄G = t xi i = xfi i ,
i=1 i=1
où x1, .., xk sont les différentes valeurs de la variable.
— Cas continu :
v
u k k
uY n Y
x̄G = t n
ci i = cfi i ,
i=1 i=1
vi + vi+1
où ci = est le centre de la classe [vi, vi+1[.
2
— Cas où les données ne sont pas groupées :
v
u n
uY
n
x̄G = t xi ,
i=1
Le bon taux moyen est bien x̄G et non x̄, car si on applique 4 fois le
taux moyen x̄G aux 1000DH, on obtient
1000DH × x̄4G = 1000 × 1.0994313774 = 1461.075DH.
Moyenne harmonique
La moyenne harmonique est utilisée lorsqu’on veut déterminer un rapport
moyen dans des domaines où il existe des liens de proportionnalité inverse.
Par exemple, pour une distance donnée, le temps de trajet est d’autant plus
court que la vitesse est élevée.
La moyenne harmonique, notée x̄H , d’une variable dans une série statistique
est définie par :
— Cas discret :
n 1
x̄H = Pk ni
== Pk fi
,
i=1 xi i=1 xi
où x1, .., xk sont les différentes valeurs de la variable.
— Cas continu :
n 1
x̄H = Pk ni
= Pk fi
,
i=1 ci i=1 ci
vi + vi+1
où ci = est le centre de la classe [vi, vi+1[.
2
— Cas où les données ne sont pas groupées :
n
x̄H = Pn 1,
i=1 xi
où n est la taille de la série statistique.
Exemple 1.17. Un cycliste parcourt 4 étapes de 100km. Les vitesses
respectives pour ces étapes sont de 10km/h, 30km/h, 40km/h et 20km/h.
Quelle était sa vitesse moyenne ?
Un raisonnement simple nous dit qu’il a parcouru la première étape en
10h, la deuxième en 3h20 la troisième en 2h30 et la quatrième en 5h. Il
a donc parcouru le total des 400km en 10 + 3h20 + 2h30 + 5h = 20h50 =
20.8333h, sa vitesse moyenne est donc
400
M oyenne = = 19.2km/h.
20.8333
MINES — Rabat (40/93) Pr. M. Fihri & Pr. I. Medarhri
1 STATISTIQUE DESCRIPTIVE UNIVARIÉE
1.5.4 Quantiles
e = xmax − xmin
12 − 15, 5 − 17 − 9 − 19 − 5 − 8, 5.
Les valeurs maximale et minimale sont respectivement : xmax = 19 et
xmin = 5, alors l’étendue est e = 19 − 5 = 14.
c’est à dire
V (X) ≃ 1110.3395
Et l’écart-type est :
s ≃ 33.3217
Il existe d’autres indicateur de dispersion, on cite par exemple :
Remarque 1.9 (L’écart moyen absolu et L’écart médian absolu).
— L’écart moyen absolu, noté emoy , est la somme des valeurs absolues
des écarts à la moyenne divisée par le nombre d’observations :
n
1X
emoy = |xi − x̄|,
n i=1
— L’écart médian absolu, noté emed, est la somme des valeurs absolues
des écarts à la médiane divisée par le nombre d’observations :
MINES — Rabat (53/93) Pr. M. Fihri & Pr. I. Medarhri
1 STATISTIQUE DESCRIPTIVE UNIVARIÉE
n
1X
emed = |xi − Me|,
n i=1
Les formule données concerne les séries non groupées, pour retrouver les
autres formules, il suffit de procéder de la même manière que dans le calcul
de la variance par exemple.
Q3 + Q1 − 2Me
AY = .
Q3 − Q1
— Si AY > 0 la série présente une asymétrie à droite,
— Si AY = 0 la série est symétrique,
— Si AY < 0 la série présente une asymétrie à gauche.
Exemple 1.26. On reprend l’exemple des notes.
x1 = 15 ; x2 = 10 ; x3 = 6 ; x4 = 9 ; x5 = 11 ; x6 = 5 ; x7 = 12 ; x8 = 7 ;
x9 = 16 ; x10 = 8.
3(9.9 − 9.5)
On a x̄ = 9.9, Me = 9.5 donc AP = > 0. Donc la série est
s
étalée vers la droite.
yi = a + xi, i = 1, ..., n
Définition 1.17. On appelle changement d’unité l’opération consistant
à multiplier (ou diviser) par la même quantité b ∈ R toutes les observations
xi d’une variable X de taille n et on note la nouvelle variable Y ayant
MINES — Rabat (61/93) Pr. M. Fihri & Pr. I. Medarhri
1 STATISTIQUE DESCRIPTIVE UNIVARIÉE
yi = bxi, i = 1, ..., n
Définition 1.18. On appelle changement d’origine et d’unité l’opération
consistant à multiplier (ou diviser) par la même quantité b ∈ R toutes les
observations xi d’une variable X de taille n puis rajouter (ou soustraire)
la même quantité b ∈ R et on note la nouvelle variable Y ayant les
observations yi telle que :
yi = a + bxi, i = 1, ..., n
Propriétés 1.1. Si on effectue un changement d’origine et d’unité
sur une variable X, alors
— sa moyenne est affectée du même changement d’origine et d’unité :
ȳ = a + bx̄;
— sa variance est affectée par le carré du changement d’unité et pas
par le changement d’origine :
V (Y ) = b2V (X).
MINES — Rabat (62/93) Pr. M. Fihri & Pr. I. Medarhri
1 STATISTIQUE DESCRIPTIVE UNIVARIÉE
Exercice
On a relevé la taille (en cm) de 50 étudiantes de la filière SMI, les résultats
sont regroupés dans le tableaux suivant
Classe [151.5, 155.5[[155.5, 159.5[[159, 5; 163, 5[[163, 5; 167, 5[[167, 5; 171, 5[
Effectif 10 12 11 7 10
1. Caractériser la distribution (la population et sa taille, l’individu, la
variable et son type).
2. Dresser le tableau statistique complet (calculer les fréquences, les fréquences
cumulées et les effectifs cumulés)
3. Tracer le diagramme correspondant.
4. Quelle est la classe modale ?
5. Définir et représenter la courbe cumulative croissante.
6. Calculer la moyenne et la variance.
7. Calculer le coefficient de variation. Interpréter le résultat.
Corrigé
(1) Caractériser la distribution (la population et sa taille, l’individu, la
variable et son type).
Population étudiée : Les étudiantes de la filière SMI ; Taille : 50 ;
L’individu : une étudiante de la filière SMI ;
Variable : ”taille en cm des étudiantes” ; Type : Quantitative continue.
(2) Le tableau statistique est le suivant :
Classe ni fi Fi Ni
[151.5, 155.5[ 10 0.20 0.20 10
[155.5, 159.5[ 12 0.24 0.44 22
[159, 5; 163, 5[ 11 0.22 0.66 33
[163, 5; 167, 5[ 7 0.14 0.80 40
[167, 5; 171, 5[ 10 0.20 1.00 50
Σ 50 1.00 // //
(3) Le diagramme correspondant : Puisque la variable est quantitative continue,
on trace l’histogramme des effectif ou des fréquence. Et puisque les classes
MINES — Rabat (65/93) Pr. M. Fihri & Pr. I. Medarhri
1 STATISTIQUE DESCRIPTIVE UNIVARIÉE
Pk Pk xi +xi+1
(6) La moyenne : x̄ = n1 i=1 ni ci = i=1 fi ci , avec ci = 2 est le centre
de la classe [xi, xi+1[.
10 × 153.5 + 12 × 157.5 + 11 × 161.5 + 7 × 165.5 + 10 × 169.5
x̄ =
50
= 0.20 × 153.5 + 0.24 × 157.5 + 0.22 × 161.5 + 0.14 × 165.5 + 0.20 × 169.5
= 161.1cm.
2 1
Pk 2 2
Pk 2
(6) La variance : S = n i=1 ni ci − (x̄) = i=1 fi ci − (x̄)2.
k
1 X 2 10 × 153.52 + 12 × 157.52 + 11 × 161.52 + 7 × 165.52 + 10 × 169.52
nici =
n i=1 50
= 25984.73cm2
k
X
fic2i = 0.20×153.52+0.24×157.52+0.22×161.52+0.14×165.52+0.20×169.52.
i=1
Classe Fi Ni
[151.5, 155.5[ 0.20 10
[155.5, 159.5[ 0.44 22
[159, 5; 163, 5[ 0.66 33
[163, 5; 167, 5[ 0.80 40
[167, 5; 171, 5[ 1.00 50
(8) La médiane : Me ∈]159, 5; 163, 5[ :
0.50 − 0.44
Me = 159.5 + × (163.5 − 159.5) ≃ 160.59cm
0.66 − 0.44
Le premier quartile : Q1 ∈]155, 5; 159, 5[ :
0.25 − 0.20
Q1 = 155.5 + × (159.5 − 155.5) ≃ 156.33cm
0.44 − 0.20
Le troisième quartile : Q3 ∈]163, 5; 167, 5[ :
0.75 − 0.66
Q3 = 163.5 + × (167.5 − 163.5) ≃ 166.07cm
0.80 − 0.66
⇒ EIQ = Q3 − Q1 ≃ 9.74cm
MINES — Rabat (69/93) Pr. M. Fihri & Pr. I. Medarhri
1 STATISTIQUE DESCRIPTIVE UNIVARIÉE
On considère une série statistique double (non groupée) mesurée par deux
variables X et Y ayant n observations : SX = {x1, ..., xn} et SY = {y1, ..., yn}
La liaison entre les deux variables X et Y est mesurée à travers plusieurs
indicateurs, on cite en particulier :
Définition 2.1. La Covariance entre deux variables X et Y , notée
cov(X, Y ), est donnée par la formule suivante :
n n
!
1X 1X
cov(X, Y ) = (xi − x̄)(yi − ȳ) = xiyi − x̄ȳ.
n i=1 n i=1
On remarque que la covariance dépend des unités de mesures dans lesquelles
sont exprimées les variables. Pour enlever l’effet de ces unité on réduit par les
écarts-type des deux variable, d’où la définition du coefficient de corrélation :
Définition 2.2. Le coefficient de corrélation linéaire entre X et
Y , noté cor(X, Y ) (ou encore r ou ρ), est donné par :
cov(X, Y )
cor(X, Y ) = p p
V (X) V (Y )
Le coefficient de corrélation linéaire entre X et Y est un indicateur
sans unité permet de mesurer l’intensité de la liaison entre les deux
variables X et Y et il est toujours compris entre −1 et 1.
2.3.2 Propriétés
On a :
— toujours −1 ≤ cor(X, Y ) ≤ 1,
— si cor(X, Y ) est proche de 1 alors les variables X et Y sont positivement
corrélées : si X croit alors Y croit (et vis versa) linéairement,
— si cor(X, Y ) est proche de −1 alors les variables X et Y sont négativement
corrélés : si X croit alors Y décroı̂t (et vice versa) linéairement,
— pratiquement, si |cor(X, Y )| ≥ 0, 8 alors les deux variables X et Y sont
fortement corrélées,
— si cor(X, Y ) est proche de 0 alors les variables X et Y sont non corrélées :
si X croit (ou décroı̂t) ce n’influence pas sur le comportement de Y .
R2 = (cor(X, Y ))2
et qui mesure l’adéquation entre le modèle et les données observées ou encore
à quel point l’équation de régression est adaptée pour décrire la distribution
des points.
Exemple 2.1. Considérons la série double précédente.
MINES — Rabat (76/93) Pr. M. Fihri & Pr. I. Medarhri
2 STATISTIQUE DESCRIPTIVE BIVARIÉE
cov(X, Y )
â = et b̂ = y − âx.
V ar(X)
Exercice. Démontrer ce théorème.
Remarque 2.1. — Ŷ = âX + b̂ s’appelle l’équation de la droite de
régression de Y en X.
— â est la pente de la droite.
— b̂ est l’ordonnée à l’origine.p
cov(X, Y ) cov(X, Y ) V (Y ) σY
— â = = p = cor(X, Y )
V (X) V (X) V ar(Y ) σX
où σX (respectivement σY ) est l’écart- type de X (respectivement de
Y ).
MINES — Rabat (80/93) Pr. M. Fihri & Pr. I. Medarhri
2 STATISTIQUE DESCRIPTIVE BIVARIÉE
2.5 Prédiction
Les modalités xi et yj peuvent être des valeurs discrètes (dans le cas d’une
variable quantitative discrète) ou intervalles (dans le cas d’une variable quantitative
continue).
Les ni. et n.j sont appelées les effectifs marginaux. Dans ce tableau,
— ni. représente le nombre de fois que la modalité xi apparait,
— n.j représente le nombre de fois que la modalité yj apparait,
n
— nij (resp. fij = nij ) représente le nombre de fois (resp. la fréquence) que
les modalités xi et yj apparaissent ensemble.
XI X J
On a : nij = n.j , pour j = 1, ..., J, nij = ni., pour i = 1, ..., I,
i=1 j=1
X x1 x2 ... xI total
ni. n1. n2. ... nI. n
Distribution marginale de Y : elle est composée des modalités de la
variable Y et les effectifs marginaux correspondants quelles que soit la valeur
de la modalité de X.
Y y1 y2 ... yJ total
n.j n.1 n.2 ... n.J n
Remarque 2.2. On aura des distributions à une variable ; ce qui permettra
d’appliquer toutes les propriétés vues dans la statistique descriptive univariée :
moyenne, variance, écart-type, coefficient de variation, médiane, quantiles,
mode, ... ; toutes ces propriétés seront appelées des indicateurs marginaux.
Exemple : moyenne marginale de X, écart-type marginal de Y , ...
I J I J
1 XX 1 XX
cov(X, Y ) = nij (xi − x̄)(yj − ȳ) = nij xiyj − x̄ȳ.
n i=1 j=1 n i=1 j=1
cov(X, Y )
cor(X, Y ) = p p .
V (X) V (Y )
— Pour tout a, b ∈ R, on a : V (aX+bY ) = a2V (X)+b2V (Y )+2ab cov(X, Y ).
— Les variables X et Y sont indépendantes si et seulement si
ni. × n.j
fij = fi. × f.j ⇐⇒ nij = , pour i = 1, ..., I et j = 1, ..., J.
n
— Les variables X et Y sont indépendantes si et seulement si les lignes (resp.
colonnes) du tableau croisé associé sont proportionnelles entre elles.
— Si les variables X et Y sont indépendantes alors cov(X, Y ) = 0 (la
réciproque n’est pas toujours vraie).
Exemple 2.4. Soit le tableau suivant associé à deux variables X et Y .
Y
H
HH
H
HH
−2 0 2 total
X H
HH
H
0 2 4 12 18
1 4 8 24 36
total 6 12 36 54
Les variables X et Y sont indépendantes.
Exercice
Soit le tableau suivant donnant la distribution du couple (X, Y ).
Y
HH
H
HH
0 1
X
H
HH
H
H
[0.5, 1.5[ 21 8
[1.5, 2.5[ 23 15
[2.5, 3.5[ 10 23
1. Quelles sont les distributions marginales de X et de Y ?
MINES — Rabat (87/93) Pr. M. Fihri & Pr. I. Medarhri
2 STATISTIQUE DESCRIPTIVE BIVARIÉE
Corrigé
2. On trouve :
3
1 X 29 × 1 + 38 × 2 + 33 × 3
x= ni.ci = = 2.04,
100 i=1 100
2
1 X 54 × 0 + 46 × 1
y= n.j yj = = 0.46,
100 j=1 100
3
!
1 X
V (X) = s2x = ni.c2i − (x)2 = 4.78 − 2.042 = 0.6184,
100 i=1
2
2 1 X
V (Y ) = sy = n.j yj2 − (y)2 = 0.2484.
100 j=1
√
sy
3. CVY = y = 0.2484
0.46 = 1.083473 ≃ 108%. la distribution de Y est
hétérogène.
4. Rappelons que les variables X et Y sont indépendantes si et seulement si
ni. × n.j
nij = , ∀i = 1, 2, 3 et j = 1, 2.
n
MINES — Rabat (89/93) Pr. M. Fihri & Pr. I. Medarhri
2 STATISTIQUE DESCRIPTIVE BIVARIÉE
Y
H
HH
H
HH
0 1 Σ
X HH
H
H
[0.5, 1.5[ 21 8 29
[1.5, 2.5[ 23 15 38
[2.5, 3.5[ 10 23 33
Σ 54 46 100
Or, on a (contre exemple)
n2. × n.1 38 × 54
n21 = 23 ̸= = = 20.52,
n 100
donc les variables X et Y sont liées.
5. V (Z) = V (0.165X + 0.13Y ) = 0.1652V (X) + 0.132V (Y ) + 2 × 0.165 ×
0.13 cov(X, Y ),
avec, la covariance entre X et Y :
3 X 2
1 X
sxy = cov(X, Y ) = nij ciyj − x × y = 0.1316
100 i=1 j=1
3 Manipulation sous R
Moyenne :
E=c(0,0,1,1,1,2,3,4)
n=length(E)
xb=sum(E)/n
xb
xb=mean(E)
xb
Médiane :
x=c(0 , 0 , 1 , 1 , 2 , 2 , 3)
median(x)
plot(ecdf(x),xlab="",ylab="",main="",frame=FALSE,yaxt = "n")
axis(2, c(0.0,0.25,0.50,0.75,1.00))
arrows(-1,0.5,1,0.50,length=0.14,col="blue")
arrows(1,0.50,1,0,length=0.14,col="blue")
x=c(0 , 0 , 1 , 1 , 2 , 2 , 3 , 4)
median(x)
plot(ecdf(x),xlab="",ylab="",main="",frame=FALSE,yaxt = "n")
MINES — Rabat (91/93) Pr. M. Fihri & Pr. I. Medarhri
3 MANIPULATION SOUS R
axis(2, c(0.0,0.25,0.50,0.75,1.00))
arrows(-1,0.5,1,0.50,length=0.14,col="blue")
arrows(1.5,0.50,1.5,0,,length=0.14,col="blue")
Quantiles :
x=c(12,13,15,16,18,19,22,24,25,27,28,34)
quantile(x,type=2)
x=c(12,13,15,16,18,19,22,24,25,27)
quantile(x,type=2)
Dispersion :
x=c(2,3,4,4,5,6,7,9)
n=length(x)
s2=sum((x-mean(x))^
2)/n
s2
S2=s2*n/(n-1)
S2
S2=var(x)
S2
s=sqrt(s2)
s
MINES — Rabat (92/93) Pr. M. Fihri & Pr. I. Medarhri
3 MANIPULATION SOUS R
S=sqrt(S2)
S
S=sd(x)
S
E=max(x)-min(x)
E
Nuage de Points :
poids=c(60,61,64,67,68,69,70,70,72,73,75,76,78,80,85,90,96,96,98,101
taille=c(155,162,157,170,164,162,169,170,178,173,180,175,173,175,179
plot(taille,poids)
Autres Exemples : voir Présentation de R.