Mat 142
Mat 142
Mat 142
PROBABILITES ET
STATISTIQUES I
Dr DONFACK-KOMMOGNE Véronique
PROGRAMME
I PROBABILITES
1. Analyse combinatoire
2. Probabilités sur les ensembles finis
3. Variables aléatoires discrètes
4. Variables aléatoires continues
II STATISTIQUES
1. Statistique à une dimension
2. Calcul des paramètres d’une variable statistique
3. Statistiques à deux dimension
4. Les séries chronologiques
1
Table des matières
1 Analyse combinatoire 5
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2 Les arrangements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3 Les permutations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.4 Les combinaisons . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.5 Les dérrangements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3 Variables Aléatoires 14
3.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.1.1 Définition et exemples . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.1.2 Loi de probabilité d’une variable aléatoire réelle . . . . . . . . . . . 14
3.1.3 Fonction de répartition . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.1.4 Caractéristiques d’une variable aléatoire réelle . . . . . . . . . . . . 17
3.2 Lois discrètes usuelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.2.1 Loi binomiale de paramètres n, p(n ∈ N∗ et p ∈ [0, 1]) . . . . . . . . 18
3.2.2 Loi de Poisson de paramètre λ : P(λ) . . . . . . . . . . . . . . . . . 18
2
4.3.2 Loi exponentielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3
PROBABILITES
4
Chapitre 1
Analyse combinatoire
1.1 Introduction
L’analyse combonatoire est la science du dénombrement ou comptage des disposi-
tions que l’on peut former à l’aide des éléments d’un ensemble fini. Un problème de
dénombrement des dispositions que l’on peut former à l’aide des éléments d’un ensemble
fini exige :
1- Le nombre total d’objets : Dans le cas où il y a des classes d’objets indiscernables,
il faut indiquer le nombre de classe et le nombre de répétition dans chaque classe.
2- Déterminer la nature et le nombre d’éléments dans la disposition : Pour cela, on
distingue les dispositions ordonnées, non ordonnées, semi-ordonnées d’une part, avec ou
sans répétition d’autre part. Les plus classiques sont :
- Les arrangements avec ou sans répétition.
-Les permutations avec ou sans répétition.
- Les combinaisons avec ou sans répétitions.
- Les dérangements
Dans la suite, Ω est un ensemble de n objets deux à deux discernables : Ω = {ω1 , ω2 , ..., ωn }.
Définition 1.1 On appelle arrangement avec répétition de p éléments choisis parmi les
n éléments de Ω, toute disposition ordonnéé, avec repétition éventuellement de p éléments
0
d’entre les n éléments. On note Anp .
5
b) Sans répétition :
Exemple 1.2 Nombre d’application injective d’un ensemble à p éléments vers un en-
semble à n éléments. On constate que pour que l’application soit injective, il faut que l’on
ait p ≤ n.
Remarque 1.3 1) Deux permutations ne sont distinctes que par l’ordre des n objets qui
les composent. On a évidemment Pn = Ann = n!.
2) Une permutation sans répéttion de n éléments est une application bijective d’un en-
semble de n éléments vers un ensemble de n éléments.
b) Avec répétition :
Définition 1.4 Soit une collection de n éléments formée de p groupes discernables d’éléments
indiscernables {a, a...a}, {b, b...b}, ..., {s, s...s} avec α, β, ..., λ éléments respectivement tels
que α + β + ... + λ = n.
On appelle permutation avec repétition de ces n éléments, toute disposition ordonnée
0 0
de l’ensemble des n éléments. On note Pn (α, β, ..., λ). On montre que Pn (α, β, ..., λ) =
n!
α!β!...!λ!
.
Exemple 1.3 1) Combien de mots peut-on former avec toutes les lettres du mot ” ana-
nas” ?
Un tel mot est une permutation avec répétition de 6 lettres réparties en 3 classes de 3, 2, 1
0 6!
éléments. P6 (3, 2, 1) = 3!2!1! .
2) Parmi ces mots, combien commencent et se terminent par n ? Ecrire un tel mot revient
à : placer les deux n dans leurs positions et permuter avec repétition les 4 autres lettres
0 4!
des deux classes. P4 (3, 1) = 3!1! .
6
1.4 Les combinaisons
a) Sans répétition :
Définition 1.5 On appelle combinaison de p éléments choisi parmi les n éléments de Ω,
toute disposition non ordonnée et sans repétition de p éléments choisi parmi ples n éléments
de l’ensemble. On note cpn le nombre de telle combinaison. On note cpn = Ap!n = p!(n−p)! n!
.
Remarque 1.4 a) Deux combinaisons sont différentes par la nature des éléments, quelque
soit l’ordre.
b) Propriétés des nombres cpn : cpn = cnn−p ; cnn = 1; c1n = n; cpn = cpn−1 + cp−1 0
n−1 ; cn = 1.
n
c) ∀a, b ∈ R, (a + b)n = ckn ak bn−k .
P
k=0
7
Chapitre 2
8
, d’où Ω − A = CΩA ∈ A.
⇐) Supposons que A est stable pour la complémentation et montrons que A est une
algèbre. Comme A est un anneau, il reste à montrer que Ω ∈ A. Comme A est un
anneau, alors ∅ ∈ A. Et comme A est stable pour la complémentation, alors CΩ∅ = Ω ∈ A.
Exemple 2.1 Soit Ω un ensemble non vide : P(Ω) est une algèbre de parties Ω.
Solution : Soit A({a, b}) =< {a, b} > cette algèbre. A({a, b}) ⊆ P(Ω). A({a, b}) =
{{a, b}, {c, d}, {a, b, c, d}, ∅}.
On peut classer schématiquement les expériences en deux groupes :les expériences déterministes
et les expériences aléatoires.
- Dans une expérience déterministe, lorsqu’on réalise à plusieurs reprises le même ensemble
de conditions, c’est toujours le même résultat qui est observé.
- Dans une expérience aléatoire E, si l’on réalise à plusieurs reprise le même ensemble
de conditions, le résultat observé peut varier sans que l’on puisse déterminer la nature
de la cause de cette variation. La seule certitude avant l’expérience est que le résultat
observé sera un élément d’un ensemble de résultat possible. Notons par Ω l’ensemble des
résultats possibles de l’expérience ou l’univers des possibles. Chaque résultat possible est
un évènement élémentaire représenté par un singleton de Ω.
Un évènement est un sous-ensemble de Ω représenté par l’ensemble des évènements
élémentaires qui le réalisent.
La tribu ou l’algèbre de Boole A de Ω associée à E représente l’ensemble des évènements
envisagés à l’issue de l’expérience : dans la pratique, A = P(Ω) ou A =< R > où R
est une famille fondamentale d’évènement associée à E : (Ω, A) est l’espace probabilisable
associé à l’expérience E.
Réciproquement, à tout espace probabilisable (Ω, A), on peut associer une expérience
aléatoire dont l’unuvers des possibles est Ω et A c’est < R > avec R la famille fondamen-
tale retenue.
9
2.1.3 Composition d’évènements
Soit une expérience aléatoire E à laquelle on a associé l’espace probabilisable fini (Ω, A).
A c’est l’ensemble des évènements associés à E. Les opérations de A sont applicables aux
évènements.
i) ∀A ∈ A, p(A) ≥ 0;
ii) ∀A, B ∈ A, A ∩ B = ∅ ⇒ p(A ∪ B) = p(A) + p(B);
iii) p(Ω) = 1.
2) Soit p une probabilité sur l’espace probalisable fini (Ω, A). (Ω, A, p) est un espace pro-
babilisé fini.
10
Théorème 2.1 Théorème des probabilités composées
∀A, B ∈ A, p(A ∪ B) = p(A) + p(B) − p(A ∩ B).
Preuve : Soit A, B ∈ A. Montrons p(A ∪ B) = p(A) + p(B) − p(A ∩ B). Nous avons :
A = (A − B) ∪ (A ∩ B), B = (B − A) ∪ (A ∩ B), A ∪ B = (A − B) ∪ (B − A) ∪ (A ∩ B).
Définition 2.6 On dit qu’il ya équiprobabilité si tout les évènements élémentaires ont la
même probabilité.
Exemple 2.4 On lance en l’air 3 pièces de monnaie identiques non truquées et l’on
observe le nombre de ”pile” obtenu.
a) définir Ω l’ensemble de tous les nombres de ”pile” obtenus.
b) Calculer les probabilités associées à chaque évènement élémentaire de Ω.
C) Calculer la probabilité d’obtenir 3 ”piles” ou 3 ”faces”.
11
2. Sachant que l’étudiant est une fille, déterminer la probabilité pour qu’elle habite sa
famille.
Solution Il y’a équiprobabilité des évènements élémentaires.
Ω = ensemble des 200 étudiants. CardΩ = 200.
1- p(A) = nomb cas favorables
nomb cas possibles
= 100200
.
nomb cas favorables 130
p(B) = nomb cas possibles = 200 .
p(C) = p(A ∩ B) = nomb cas favorables
nomb cas possibles
80
= 200 .
2- p(A/B) = p(A∩B)
p(B)
80
= 200 130
× 200 = 13080
.
50
3- p(A/B) = 1 − p(A/B) = 130 .
Si l’on sait au préalable que l’étudiant choisi est une fille , alors l’ensemble de référence
ou l’univers est plus restreint : il est constitué de 130 filles. Et la probabilité qu’il habite
80
chez ses parents sachant qu’elle est une fille est réalisée : on remarque : p(A/B) = 130 =
p(A∩B
p(B)
.
Théorème 2.2 (Des probabilités conditionnelles) Soit (Ω, A, p) un espace probabilisé fini
et A un évènement tel que p(A) 6= 0. La probabilité de B sachant que A est réalisé est
p(B/A) = p(A∩B)
p(A)
.
12
2.2.4 Théorème de BAYES
Définition 2.8 Soit (Ω, A, p) un espace probabilisé fini. On appelle système complet d’évènement
B1 , B2 , ..., Bn la famille satisfaisant les conditions suivantes :
i)∀i ∈ {1, 2, ..., n}, Bi 6= ∅
ii) ∀i, j ∈ {1, 2, ..., n}, i 6= j ⇒ Bi 6= Bj .
Sn
iii) Bi = Ω.
i=1
Théorème 2.3 Soit (Ω, A, p) un espace probabilisé fini et B1 , B2 , ..., Bn un système d’évènement
complet d’évènement vérifiant p(Bi ) 6= 0. Alors ∀A ∈ A tel que p(A) 6= 0.
p(Bi )×p(A/Bi )
p(Bi /A) = P n .
p(Bj ) × p(A/Bj )
j=1
Exemple 2.6 Trois machines A,B et C produisent respectivement 40%, 35% et 25% du
nombre total des comprimés fabriqués par un laboratoire pharmaceutique. Chacune de ces
machines produit respectivement 5, 6 et 3% de comprimés défectueux.
1. On prend un comprimé au hasard. Quelle est la probabilité qu’il soit défectueux ?
2. On prend un comprimé au hasard, on constate qu’il est défectueux. Quelle est la
probabilité qu’il ait été produit par la machine A ?
13
Chapitre 3
Variables Aléatoires
3.1 Généralités
3.1.1 Définition et exemples
Soit (Ω, A, p) un espace probabilisé fini
Définition 3.1 Soit X : Ω → R une application. X est une variable aléatoire réelle si
elle vérifie la condition suivante : ∀x ∈ R, X −1 ({x}) ∈ A.
Remarque 3.1 Cette définition n’est plus valable lorsque Ω est infini.
Convention d’écriture : Pour X une variable aléatoire réelle et x ∈ R :
i) On écrit ”(X = x)00 au lieu de X −1 ({x}).
ii) On écrit ”(X < x)00 au lieu de ω ∈ Ω, X(ω) < x.
Exemple 3.1 On jette simultanément 2 dés discernables D1 et D2 et on observe les
chiffres marqués sur les faces supérieures.
1) Définir un évènement élémentaire ou un résultat possible ωij où i est le numéro observé
sur D1 et j le numéro observé sur D2 .
Ω→R
2) Soit l’application X : Montrons que X est une variable aléatoire.
ωij 7→ i + j
Solution : 1) évènement élémentaire = ωij = (i, j) où i ∈ {1, 2, 3, 4, 5, 6} et j ∈
{1, 2, 3, 4, 5, 6}. Ω = {(i, j), i ∈ {1, 2, 3, 4, 5, 6}, j ∈ {1, 2, 3, 4, 5, 6}}.
Ω→R
2) Montrons que X : est une v.a.r sur (Ω, P(Ω)) c’est-à-dire montrons que
ωij 7→ i + j
∀x ∈ R, X −1 ({x}) = {ωij ∈ Ω, X(ωij ) = x} = {(i, j) ∈ Ω, i + j = x} ∈ P(Ω).
1er cas : Si x ∈ / {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12}, alors X −1 ({x}) = ∅ ∈ P(Ω).
2e cas : Si x ∈ {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12}, alors X −1 ({x}) = {(i, j) ∈ Ω, i + j = x} est
un sous-ensemble non vide de Ω. Ainsi, X −1 ({x}) ∈ P(Ω).
14
Preuve
Solution :l’ensemble des valeurs possibles de X X(Ω) = {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12}.
La loi de probabilité pX est déterminée par le calcul des réels p(X = x) où x ∈ X(Ω).
La remarque et l’exemple précédents expliquent pourquoi nous parlerons de la loi de
probabilité de la v.a.r X sans définir de façon explicite X. Ce qui nous conduit à la
remarque suivante :
15
i−1
P
∀x ∈]xi−1 , xi ], FX (x) = p(X = xk );
. . k=1 .
. . .
. . .
n−1
P
∀x ∈]xn−1 , xn ], FX (x) = p(X = xk );
k=1
∀x > xn , FX (x) = 1.
La représentation graphique de la fonction de répartition est la courbe cumulative de X.
C’est une courbe en escalier.
∀i ∈] − ∞, 2], F (x) = 0;
1
∀x ∈]2, 3], FX (x) = p(X = 2) = 15
;
1 2 3
∀x ∈]3, 4], FX (x) = p(X = 2) + p(X = 3) = 15
+ 15
= 15
,
1 2 3 6
∀x ∈]4, 5], FX (x) = p(X = 2) + p(X = 3) + p(X = 4) = 15
+ 15
+ 15
= 15
;
1 2 3 4 10
∀x ∈]5, 6], FX (x) = p(X = 2)+p(X = 3)+p(X = 4)+p(X = 5) = 15
+ 15 + 15 + 15 = 15
;
x -2 -1 0 1 2 3
P(X=x) 0.1 0.1 0.2 0.2 0.3 ?
i) Déterminer p(X = 3).
16
ii) Déterminer F (X).
B)Une société de prévention routière semble avoir dans une région une statistique peu
enviable quant au nombre d’accidents de voiture. L’information du tableau ci-dessous a
été remise au gérant de la société par le comité de sécurité sur le nombre d’accidents en
1ere journée et ceci pour une période de 250 jours.
3) Le responsable du comité de sécurité précise “95 chances sur 100 pour qu’au plus
3 accidents se produisent en 1 journée”. Est-ce que cette affirmation vous semble juste ?
Justifier.
4) Quelles sont les chances sur 100 qu’on observe plus de 4 accidents en 1ere journée ?
Remarque 3.4 Si en calculant E(X) par l’une des deux formules, on ne trouve pas un
réel, alors on conclut que cette v.a. n’admet pas d’espérance mathématique.
2
P
x2i p(X = xi ) − X si X est discrète
V ar(X) = xi ∈X(Ω) .
R +∞ 2 2
x f (x)dx − X si X est continue
−∞ p
Ecart-type de X : σX = V ar(X)
Mode : M0 est le réel de X(Ω) vérifiant : p(X = M0 ) = maximum.
N.B. Dans le cas où X est continue, M0 est un maximum de la densité de f .
Quantilles d’ordre α(α ∈ [0, 1]) : Qα
Qα est le réel de X(Ω) vérifiant FX (Qα ) = α. α généralement exprimé en %.
Cas particuliers
1) Si α = 12 = 50%, alors Q 1 = Me = médiane (2ème quartile).
2
25
2) Si α = 100 , alors Q 25 = Q25 est le 1er quartile.
100
75
3) Si α = 100 , alors Q 75 = Q75 est le 3e quartile.
100
α = p(X < Qα ) est le % d’observation dont les valeurs sont plus petites que Qα .
17
Proposition 3.2 Soit X et Y 2 v.a.r. sur (Ω, A)
E(aX + b) = aE(X) + b, avec a, b ∈ R.
V ar(aX + b) = α2 V ar(X).
σ(aX + b) =| α | σ(X).
Remarque 3.5 La loi de Poisson se rencontre dans les approximations de la loi bino-
miale. c’est pourquoi elle permet de modéliser des comptages d’évènements rares, c’est-à-
dire des évènements ayant une faible probabilité de réalisation : maladies rares, accidents
mortels rares, pannnes, radioactivté...
Théorème 3.2 Approximation de la loi binomiale par la loi de Poisson. Soit une loi
binomiale B(n, p). Si lorsque n → +∞ , p → 0, alors np → cte = λ. Ainsi, fx =
x
Cnx px q n−x → e−λ . λx! .
Preuve
Dans la pratique, on remplace B(n, p) par P(λ) si n > 20, p ≤ 0, 1 et np ≤ 5.
18
Exemple 3.4 Selon les statistiques d’une européennes, le nombre de noyades acciden-
telles en un an est de 2 pour 100000 habitants.
1) Déterminer la loi de probabilité correspondant à la variablé concernée.
2) Quelle est la probabilité, pour une ville de 2000000 habitants, de n’avoir aucune noyade
durant une année ? d’avoir une noyade ?
3) Avec quelle loi peut-on approximer les probabilités de la loi précédentes ?
2
Solution 1) Soit p la probabilité de noyade d’une personne dans cette ville. p = 100000 =
2.10−5 . Notons X le nombre de personnes de la ville qui se sont noyées durant cette année.
Comme les individus ont des risques indépendants les uns des autres, nous en déduisons
que X ,→ B(200000, 2.10−5 ).
0
2)Les probabilités recherchées sont : p(X = 0) = C200000 p0 q 200000 et p(X = 1) = C200000
1
p1 q 200000−1 .
3) n = 200000 > 20, p = 2.10−5 < 0, 1, np = 4 < 5, donc on peut approximer X par la loi
de Poisson P(4).
19
Chapitre 4
4.1 Généralités
- Soit (Ω, A, p) un espace probabilisé et X une v.a.r. sur (Ω, A) (si Ω est infini, X
est une v.a.r. si ∀x ∈ R, X −1 (] − ∞, x[) ∈ A; si Ω est fini, X est une v.a.r. si ∀x ∈
R, X −1 ({x}) ∈ A).
- La fonction de répartition de X (dans le cas où Ω est fini ou infini) est
R→R
F :
x 7→ FX (x) = p(X < x) = p[X −1 (] − ∞, x[)].
- ∀a, b ∈ R, p(a ≤ X ≤ b) = F (b) − F (a).
Définition 4.1 La loi de X est dite absolument continue s’il existe uneR fonction f : R →
x
R+ continue sur un ouvert O et nulle sur O telle que ∀x ∈ R, F (x) = −∞ f (t)dt.
Conséquence1) Lorsque X est une v.a.r. absolument continue, alors p(a < X < b) =
Rb
a
f (t)dt = p(a ≤ x < b) = p(a < X ≤ b) = p(a ≤ X ≤ b).
2) f est appelée densité de probabilité de X
0
3) Si f est continue en x0 , alors f (x0 ) = F (x0 ).
La loi d’une v.a.r. absolument continue est définie par son ensemble de valeurs et sa
densité de probabilité.
20
Vocabulaire 1) Si la moyenne d’une loi est égale à 0, on dit qu’elle est centrée.
2) Si la variance d’une loi est égale à 1, on dit qu’elle est réduite.
Changement de variable Si X ,→ N (m, σ), alors en posant τ = X−m σ
, on constate
que : - E(τ ) = E( X−m
σ
) = E( X
σ
− m
σ
) = 1
σ
E(X) − m
σ
= m
σ
− m
σ
= 0.
- V ar(τ ) = V ar( σ1 X − m
σ
) = 1
σ2
V ar(X) = 1.
X−m
Conclusion Si X ,→ N (m, σ), alors τ = σ
,→ N (0, 1) qui est la loi normale
centrée réduite :
X = R.
1 2
sa densité f (t) = √12π exp− 2 t .
La représentation graphique de f :
x−m
Ainsi, p(X < x) = p(τ < σ
) = Π( x−m
σ
).
Exemple 4.2 Déterminons t > 0 tel que p(−t ≤ τ ≤ t) = 0, 90 où τ ,→ N (0, 1).
Solution : Déterminons t.
1) Exprimons p(−t ≤ τ ≤ t) en fonction de Π. p(−t ≤ τ ≤ t) = p(τ ≤ t) − p(τ ≤
−t) = p(τ < t) − p(τ < −t) = Π(t) − Π(−t) = Π(t) − (1 − Π(t)) = 2Π(t) − 1.
21
Ainsi, p(−t ≤ τ ≤ t) = 2Π(t) − 1.
0,90+1
2) Déterminons t : p(−t ≤ τ ≤ t) = 0, 90 ⇒ 2Π(t)−1 = 0, 90 ⇒ Π(t) = 2
= 0, 950.
D’où t = 1, 65
Exemple 4.3 X ,→ N (5, 2). Calculer p(X < 9), p(X ≥ 8, 36), p(6 < X < 8).
Solution
p 1) X = 200 × 0, 45 = 90; V ar(X) = X × q = 90 × 0, 55 = 49, 5; σx =
V ar(X) = 7, 03.
2) Comme p = 0, 45 < 0, 5 et np = 90 ≥ 5, alors B(200; 0, 45) ≈ N (90; 7, 03).
p(X ≥ 100) = p(100 ≤ X ≤ 200) = p(99, 5 ≤ X ≤ 200, 5)
Posons τ = X−90
7,03
: on a 99, 5 ≤ X ≤ 200, 5 ⇔ 1, 351 ≤ τ ≤ 15, 718.
p(X ≥ 100) = p(1, 351 ≤ τ ≤ 15, 718) = p(τ ≤ 15, 715) − p(τ ≤ 1, 351) = τ (15, 718) −
τ (1, 351) = 1 − 0, 9115 = 0, 0885. Ainsi, p(X ≥ 100) ' 0, 0885.
a+b (b−a)2
Proposition 4.2 Soit X une loi uniforme sur [a, b]. Alors E(X) = 2
, V ar(X) = 12
.
22
4.3.2 Loi exponentielle
Définition 4.4 Une v.a.r. X suit une loi exponentielle de paramètre λ si :
X = R,
0 si x < 0
f (x) = .
λ exp(−λx) si x ≥ 0
1
λ= β
(β > 0).
Remarque 4.1 En fiabilité, λ est le taux moyen de défaillance et β est le temps entre 2
défaillances.
Exercice 4.1 Une machine fabrique des tubes en série dont le diamètre X est reparti
selon la loi normale de moyenne 20cm et d’écart-type 1, 5mm.
1) Calculer la probabilité pour qu’une pièce prise au hasard ait un diamètre compris
entre 19, 75cm et20, 25cm.
2) Quel intervalle de centre 20cm peut-on garantir avec une probabilité de 0, 95 ?
Exercice 4.2 Durant une heure de pointe, un autobus circule toute les 15 minutes sur
un certain parcours. Ne sachant pas l’horaire des autobus, une personne se présente à un
arrêt d’autobus sur ce parcours et ceci durant l’heure de pointe. Soit X la v.a. continue
représentant le temps d’attente en minute que l’on suppose uniformément distribué sur
l’intervalle [0, 15].
a) Préciser l’expression de la loi de probabilité de X.
b) Quelle est la probabilité qu’une personne doive attendre entre 5 et 10 minutes ?
c) Quelle est la probabilité qu’une personne doive attendre au moins 12 minutes ?
23
STATISTIQUES
24
Chapitre 5
5.1 Généralités
5.1.1 Concepts de base de la statistique
Définition 5.1 1. Population ou univers statistique : ensemble (au sens mathématique
du terme) concerné par une étude statistique.On parle parfois de champ de l’étude.
C’est l’ensemble des unités observées.
2. Individu ou unité statistique : Tout élément de la population.
3. Echantillon : Tout sous-ensemble de la population sur lequel sont effectivement
réalisés les observations.
4. Taille de l’échantillon (n) : cardinal du sous ensemble correspondant.
5. Enquête (statistique) : opération consistant à observer (ou mesurer, ou question-
ner,...) l’ensemble des individus d’un échantillon.
6. Recensement : enquête dans laquelle l’échantillon observé est la population tout
entière (enquête exhaustive).
7. Sondage : enquête dans laquelle l’échantillon observé est un sous-ensemble strict de
la population (enquête non exhaustive).
8. Sondage : enquête dans laquelle l’échantillon observé est un sous-ensemble strict de
la population (enquête non exhaustive).
9. Variable (statistique) : c’est une application X définie sur la population et observée
sur l’échantillon.
En fait c’est une application définie sur l’échantillon. X est une caractéristique (âge,
salaire, sexe,...). Si la variable est à valeurs dans R, elle est dite quantitative (âge,
salaire, taille,...) ; sinon elle est dite qualitative (sexe, catégorie socio profession-
nelle, couleurs des yeux,....) Modalité : c’est une valeur prise par la variable sur un
ou plusieurs individus.
10. Données (statistiques) : c’est l’ensemble des individus observés (échantillon), des
variables considérées, et des observations de ces variables sur ces individus. Elles
sont en général présentées sous forme de tableau (individus en lignes et variables en
colonnes) et stockées dans un fichier informatique. Lorsque le tableau ne comporte
que des nombres, il correspond à la notion mathématique de matrice.
25
5.1.2 Les différents types de variable
Une variable peut être qualitative ou quantitative.
Variable qualitative
Par définition, les modalités ne sont pas des valeurs numériques, mais des caractéristiques.
Lorsque ces modalités sont naturellement ordonnées (par exemple la mention au bac
dans une population d’étudiants), la variable est dite ordinale. Dans le cas contraire (par
exemple, la profession dans une population de personnes actives) la variable est dite no-
minale.
-Le type d’observation : les modalités.
- le tableau de présentations des données :
Variable quantitative
Il existe 2 types de variables quantitatives : les variables quantitatives discrètes et les
variables quantitatives continues.
variable quantitative discrète
En général c’est une variable ne prenant que des valeurs entières (plus rarement décimales).
Le nombre de modalités d’une telle variable est souvent faible (sauf exeption moins d’une
vingtaine). Citons, par exemple, le nombre d’enfants dans une population de familles,
le nombre d’années d’étude après le bac dans une population d’étudiants, le nombre de
voitures assurées par jour par une compagnie d’assurances.
-L’ensemble des valeurs est donc fini ou infini dénombrable.
- le tableau de présentations des données :
26
de valeurs possibles, soit directement sous forme d’intervalles (classes). Nous noterons
[e0 ; e1 ], [e1 ; e2 ], ..., [en−1 ; en ] les classes considérées. Les nombres ei−1 et ei sont appelés les
bornes de la i‘eme classe ; ci = ei−12+ei est le centre de cette classe et ai = ei − ei−1
l’amplitude de la classe.
-Les valeurs observées sont réparties en classes.
-Le tableau de présentations des données :
- Fonction de répartition : F telle que sa courbe passe par les points d’abscisses ei .
- Types de diagrammes : histogramme (effectif ou fréquence) et diagramme intégal
(courbe de F ).
Exemple 5.1 – Exemple 1
Lors d’un contrôle d’une chaı̂ne de médicaments, on s’interesse au nombre X de
comprimés défectueux dans un lot. L’étude de 200 lots a donné les résultats sui-
vants :
27
Chapitre 6
28
6.1 Les caractéristiques de tendance centrale
Trois caractéristiques sont généralement utilisées : le mode, la médiane et la moyenne
arithmétique (ou simplement moyenne).
6.1.2 La médiane
La médiane d’une distribution statistique est toute solution de l’équation FX (x) = 12
. Si on suppose les observations rangées par valeurs croissantes des modalités, la médiane
est la valeur qui divise l’effectif en 2 parties égales.
Remarque 6.2 1 La médiane peut ne pas exister (l’équation FX (x) = 0.5 n’admet pas
toujours une solution).
2. la médiane peut exister et ne pas être unique.
3. Si la variable est continue et FX est strictement croissante, la médiane existe et est
unique.
Détermination pratique :
• Cas d’une variable discrète. En général FX (x) = 0.5 n’a pas de solution. On distingue
2 cas :
Premier cas : ∀xi , FX (xi ) 6= 0.5. Dans ce cas, on convient de dire que la médiane est
la valeur xi telle que FX (xi ) < 12 < FX (xi+1 ) c’est à dire f1 + f2 + ... + fi−1 < 12 <
f1 + f2 + ... + fi .
Deuxième cas : ∃xi tel que FX (xi ) = 0.5. Dans ces conditions, ∀x ∈ [xi , xi+1 [, FX (xi ) =
0.5. [xi , xi+1 [ est appelé intervalle médian.
• Cas d’une variable continue. En général, l’équation FX(x) = 0.5 a une racine unique ;
sa résolution n’est pas commode, et on se contente dans un premier temps, de situer la
médiane dans une classe appelée classe mediane. L’estimation de la valeur précise de la
médiane est ensuite obtenue par interpolation linéaire à l’intérieur de la classe médiane.
(ei−1 , ei ) est la classe mediane si FX (ei−1 ) < 12 < FX (ei ). Par interpolation linéaire, on a :
M − ei−1 ei − ei−1 M − ei−1 ei − ei−1
= ⇔ =
FX (M ) − FX (ei−1 ) FX (ei ) − FX (ei−1 ) 0.5 − Fi−1 Fi − Fi−1
29
d’où l’on tire
(0.5 − Fi−1 )
M = ei−1 + (ei − ei−1 )
fi
ou encore
( n2 − nFi−1 )
M = ei−1 + (ei − ei−1 ) .
ni
Notion de quantile et applications : On se donne une valeur α ∈]0, 1[ et on
recherche xα tel que FX (xα ) = α. La valeur xα qui n’est pas nécessairement unique est
appelée quantile (ou fractile) d’ordre α de la série. Les quantiles les plus utilisés sont
associés à des valeurs particulières de α. Ainsi la médiane est le quantile d’ordre 12 . On
appelle premier quartile (noté en général Q1 ), le quantile d’ordre 14 , et troisième quartile
(noté Q3 ) celui d’ordre 43 . Le deuxième quartile (Q2 ) est donc confondu avec la mediane.
D’autres quantiles d’usage courant sont les quintiles, les déciles et les centiles.
6.1.3 La moyenne
La moyenne du caratère X est le réel noté X̄, défini par
p p
1X X
X̄ = n i xi = f i xi
n k=1 k=1
Cette formule est directement applicable aux variables statistiques discrètes. Dans le
cas d’une variable continue, on remplace la classe (ei−1 , ei ) par son centre ci = ei−12+ei .
Donc p p
1X X
X̄ = n i ci = f i ci
n k=1 k=1
Remarque 6.3 On utilise généralement les effectifs pour calculer X̄ car les fréquences
peuvent introduire des erreurs de calcul.
30
6.1.4 Généralisation de la notion de moyenne
Soit ϕ une fonction continue et monotone sur le segment [x1 , xp ] des modalités du
Pp
caractère X. La ϕ-moyenne de X est la quantité Mϕ telle que ϕ(Mϕ ) = fi ϕ(xi ).
k=1
Exemple 6.1 Moyenne d’ordre r. C’est la ϕ-moyenne pour l’application ϕ(x) = xr . C’est
donc Mr tel que
p
X
r
(Mr ) = fi x i r
k=1
donc v
u p
uX
M2 = t fi xi 2 = Q.
k=1
d’où
1
M−1 = p = H.
P 1
fi
k=1 xi
H est appelé moyenne harmonique. Moyenne géometrique : C’est la ϕ-moyenne pour
l’application ϕ(x) = lnx. Donc c’est G tel que
p p
X Y
lnG = fi lnxi = ln( x i fi )
k=1 k=1
d’où p
Y
G= x i fi .
k=1
Remarque 6.4 1- La plus recommandée des moyennes que nous venons de proposer est
la moyenne arithmétique X̄. Cependant les autres moyennes (en l’occurence les moyennes
géométriques et harmoniques) sont adaptées à des cas particuliers précis.
31
6.2 Les caractéristiques de dispersion
6.2.1 La variance et l’écart-type
• La variance du caractère X, est le réel noté σX 2 défini par
p p
2 1X 2
X 2
σX = ni (xi − X̄) = fi (xi − X̄) .
n k=1 k=1
p
1X 2
= ni (xi 2 − 2xi X̄ + X̄)
n k=1
p
1 X
= [( ni xi 2 ) − 2nX̄ 2 + nX̄ 2 ]
n k=1
p
1X
= ni xi 2 − X̄ 2 .
n k=1
Cette formule est directement applicable aux variables statistiques discrètes. Dans le
cas d’une variable continue, on remplace la classe (ei−1 , ei ) par son centre ci = ei−12+ei .
Propriétés de la variance : Comme la moyenne, elle satisfait assez bien l’ensemble
des conditions de Yule. Elle est moins sensible aux fluctuations d’échantillonnage et
possède de bonnes propriétés algébriques.
Changement de variable : Si Y = aX + b, alors σY 2 = a2 σX 2 donc σY = |a|σX .
6.2.3 L’étendue
C’est la différence entre la plus grande et la plus petite des valeurs observées. e =
xk − x1 .
32
6.2.4 L’écart inter-quartiles
C’est la différence entre le troisième quartile et le premier quartile : Q3−Q1 L’intervalle
(Q1, Q3) est appelé intervalle inter-quartiles. C’est donc l’intervalle qui contient 50% des
observations, en laissant 25% à gauche et 25% à droite.
On a :mr = (Mr )r
m0 = 1; m1 = X̄; m2 = σX 2 + m1 2 ;
µ0 = 1; µ1 = 0; µ2 = σX 2 .
Fonction génératrice des moments (FGM)
FGM non centrés : c’est la fonction m(t) définie par :
p
X
m(t) = fi etxi .
k=1
Remarque 6.5 1- La fonction m(t) est souvent appelée fonction génératrice des moments
de la variable statistique X. Cette fonction caractérise la loi statistique (ou distribution)
de X dans la population.
2- La variable statistique X peut être considérée comme une v.a.r dont la loi de proba-
bilité est donnée par le tableau de fréquences de X. Dans ces conditions, on a X̄ = E(X)
espérance mathématique de X et m(t) = E(e(tX) ).
33
Chapitre 7
Définition 7.1 La distribution statistique à deux variables relative au couple (X, Y ) est
définie par la donnée :
- les p valeurs possibles de X : x1 , x2 , ..., xp ;
-les q valeurs possibles de Y : y1 , y2 , ..., yq ;
- des p × q effectifs correspondant aux observations (X = xi ; Y = yj ) notée nij .
34
nij
- fij = n
est la fréquence des individus qui ont les modalités xi et yj ;
p P
P q
- n = n.. = nij est l’effectif total de la population étudiée.
i=1 j=1
N.B. Dans toute la suite, nous considérons que X et Y sont des variables quantita-
tives.
Modalités de X effectifs
x1 n1.
... ...
xi ni.
... ...
xp np.
T n
Les caractéristiques marginales de X sont :
p
- X̄ = n1
P
ni. xi est la moyenne marginale de X ;
i=1
p
2 1
− X̄)2 est la variance marginale de X.
P
- σX = n
ni. (xi
i=1
D’une façon analogue, la dernière ligne du tableau à double entrée qui contient les
effectifs n.j correspondant à chaque modalité yj de la variable Y , est la distribution mar-
ginale de Y .
Modalités de Y effectifs
y1 n.1
... ...
yj n.j
... ...
yq n.q
T n
Les caractéristiques marginales de Y sont :
q
- Ȳ = n1
P
n.j yj est la moyenne marginale de Y ;
j=1
q
- σY 2 = 1
− Ȳ )2 est la variance marginale de Y .
P
n
n.j (yj
j=1
Remarque 7.1 Si X (resp. Y) est une variable continue, xi (resp. yj ) est choisi, par
convention, égal au centre de la classe correspondante, comme pour le calcul de la moyenne
et de l’écart-type des distributions à une variable.
35
7.2.2 Distributions et caractéristiques conditionnelles
La colonne j du tableau de contingence décrit la répartition selon la variable X, des
n.j individus présentant la modalité yj de la variable Y. Chaque colonne ainsi désignée,
constitue une distribution conditionnelle de X lié par Y = yj .
Y /X = xi y1 ... yj ... yq T
ef f ectif s ni1 ... nij ... niq ni.
Il y a donc p distributions conditionnelles de Y. Les caractéristiques de la variable
conditionnelle Y /X = xi sont :
q
- ȳi = n1i.
P
nij yj est la i ème moyenne conditionnelle de Y ;
j=1
q
- σyi 2 = 1
nij (yj − ȳi )2 .
P
ni.
j=1
Relations entre caractéristiques marginales et conditionnelles
q
- X̄ = n1
P
n.j x¯j .
j=1
p
1
P
- Ȳ = n
ni. ȳi .
i=1
La moyenne marginale est donc égale à la moyenne des moyennes conditinnelles.
La variance marginale est donc égale à la somme de la moyenne des variances condition-
nelles, et de la variance des moyennes conditionnelles. On constate alors que la dispersion
de la distribution marginale resulte de deux facteurs :
- La dispersion de chacune des distributions conditionnelles autour de leurs moyennes,
et
- La dispersion des moyennes conditionnelles entre elles.
36
7.3 Caractéristiques globales d’une distribution à deux
caractères
Le calcul des distributions marginales et conditionnelles a permis de reduire une distri-
bution à deux dimensions à un ensemble de distributions à une seule dimension, que l’on
peut représenter graphiquement et résumer numériquement par leurs caractéristiques de
tendance centrale et de dispersion. Cependant, il n’est pas possible de caractériser ainsi,
de façon satisfaisante, toute l’information contenue dans une distribution à deux variables.
La représentation graphique de ces distributions, met en effet, en évidence, une nouvelle
notion : celle de dépendance statistique ou corrélatiopn entre les variables observées. Il se
pose alors deux problèmes :
- étudier la forme de la liaison statistique qui existe entre les deux variables : ceci
conduit à la détermination des courbes de régression.
- mesurer l’intensité de cette liaison par un indice approprié : selon le cas, l’indice
permettant de mesurer le dégré de liaison est le rapport de corrélaion ou le coéfficient de
corrélation linéaire.
Pour illustrer cette notion de corrélation, prenons un exemple simple. Supposons que
l’on étudie la population de yaoundé du point de vue de deux caractères, X le quartier
d’habitation et Y le revenu de l’habitant. Si nous savons qu’un habitant réside à Bastos,
ceci donne déjà une information sur le niveau de son revenu. Cependant, on ne peut pas
dire exactement le montant de ce revenu (l’information n’est pas totale) ; en revanche, on
peut savoir si ce revenu est plus ou moins élévé (l’information n’est pas nulle). Donc Y
est en corrélation avec X.
37
7.3.2 Courbes de regressions et droites de regressions
Il existe deux courbes de regression : la courbe de regression de Y en X et la courbe
de regression de X en Y.
En générale, ces courbes de regression représent des fonctions complexes et non exploi-
tables. A cet effet, on procède à un ajustement.
Pour ajuster, on choisit une famille de fonctions simples (polynomiales le souvent)
dans laquelle on détermine la fonction dont la représentation graphique est la ”plus proche
possible“ au sens des moindres carrés du nuage de points.
Concrètement : A chaque individu présentant les modalités xi de X et yj de Y, on
fait correspondre le point Pij du plan de coordonnées (xi , yj ). L’ensemble des points Pij
ainsi obtenu est appelé nuage de points. A chaque xi correspond une distribution de la
variable Y : c’est la distribution conditionnelle de Y lié par X = xi , Y /X = xi .
Problème : Quelle est la courbe la plus proche du nuage de points ? Soit y = ϕ(x)
l’équation de cette courbe. La distribution conditionnelle Y /X = xi est :
Y /X = xi y1 ... yj ... yq T
ef f ectif s ni1 ... nij ... niq ni.
Lorsqu’on remplace les points Pij (xi , yj ), j = 1, ..., q par le point Qi (xi , ϕ(xi )), on commet
une erreur que l’on convient de mesurer par
q q
X
2 1X
fij (yj − ϕ(xi )) = nij (yj − ϕ(xi ))2 .
j=1
n j=1
L’erreur totale lorsqu’on remplace tout le nuage de points par les points de la courbe
y = ϕ(x) est alors
p q p q
X X
2 1 XX
fij (yj − ϕ(xi )) = nij (yj − ϕ(xi ))2 = ∆(ϕ).
i=1 j=1
n i=1 j=1
On souhaite en fait faire le remplacement avec la plus petite erreur possible. Donc
nous cherchons ϕ qui minimise ∆(ϕ).
Remarque 7.2 1) En remplaçant les points Pij par les points Qi , on a en fait décidé de
consever les xi observés et de n’introduire l’erreur que sur les yj : l’écart entre Pij et Qi
est mesurée parallèlement à l’axe des ordonnées.
2) ∆(ϕ) est appelé critère des moindres carrés, car on minimise la somme des carrés
des écarts. De ce fait, la courbe de regression de Y en X est aussi appelée courbe des
moindres carrés.
38
Dans le cadre de ce cours, nous nous limiterons à l’ajustement linéaire.
p P
q p q p q p q
P X X X X X X
(2) ⇔ −2 fij (yj − axi − b)) = 0 ⇔ fij yj − a fij xi − fij b =
i=1 j=1 i=1 j=1 i=1 j=1 i=1 j=1
q p
X X
0⇔ f.j yj − a fi. xi − b = 0 ⇔ Ȳ − aX̄ = b. (3)
j=1 i=1
Donc si D est la droite des moindres carrés, elle passe par le point (X̄, Ȳ ) centre de
gravité du nuage. En remplaçant b par sa valeur dans ∆(a, b) et en résolvant (1), on
obtient : p P q
P
fij (xi − X̄)(yj − Ȳ )
i=1 j=1
a=
σX 2
p P
P q
Définition 7.3 i) cov(X, Y ) = fij (xi − X̄)(yj − Ȳ ) est appelé covariance de X et
i=1 j=1
Y.
cov(X,Y )
ii) r = σX σY
est appelé coéfficient de corrélation de X et de Y.
Exercice d’application
39
Soit la distribution statistique à deux variables définie par le tableau suivant :
X/Y −1 0 1 2 ni.
0 0 5 0 0 5
1 4 3 2 1 10
n.j 4 8 2 1 15
7) Construire le nuage de point et placer le point moyen dans un repère (O, i, j), et
construire les droites ci-dessus.
40
Chapitre 8
Exemple 8.1 Le tableau ci-dessous donne le nombre de vente par timestre de l’entrepise
CARREFOUR
N = 12; Y6 = 1021.
41
Représentation graphique : On trace la ligne brisée reliant les valeurs de Yt en fonction
du temps (t).
• p = 4 : série trimestrielle
• p = 12 : série mensulle
Avec p facteurs saisonniers, on caractérise le mouvement saisonnier.
42
- Les pertubations : variations ponctuelles de fortes amplitude dues à des grèves,
des conditions météorologiques exceptionnelles, un crash financier,... On les repère gra-
phiquement. Il faut les enlever avant toute étude statistique.
Yt = Tt + St + Et .(A)
L’amplitude de la composante saisonnière et du mouvement résiduel reste constante au
cours du temps. Ceci se traduit graphiquement par des fluctuations autour de la tendance
d’amplitude constante.
Hypothèses : Pour des raisons d’unicité d’écriture de la décomposition (A), on suppose
que :
p n
X X
Sj = 0; Et = 0.
j=1 t=1
Ainsi, on est assuré que les composantes St , Et sont centrées et donc toute l’information
concernant la tendance c’est-à-dire le comportement”moyen” est uniquement contenu dans
la composante Tt .
43
8.3.2 Modèle multiplicatif
Yt = Tt × St × Et .(B)
Dans ce modèle, l’amplitude de la composante saisonnière et du mouvement résiduel
n’est plus constante au cours du temps : elles varient au cours du temps proportionnelle-
ment à la tendance Tt .
Hypothèses : Pour assurer la cohérence de l’écriture de la décomposition (B), on
suppose que :
p n
X 1X
Sj = p ; Et = 1.
j=1
n t=1
• Si k est impair k = 2m + 1
m
1 X
Mk (t) = yt+i
k i=−m
• Si k est pair k = 2m
m
1 X
Mk (t) = yt+i
k i=−m
44
Exemple 8.2 Calcul d’une moyenne mobile d’ordre 3 des ventes de l’entreprise CAR-
REFOUR.
Exemple 8.3 Calcul des moyennes mobiles simple d’ordre 4 des ventes de l’entreprise
CARREFOUR.
0 0
Numéro du trimestre Ventes date Moy. mobile t M4 (t )
1990 1 860
2 794
3 1338 2.5 1035
4 1148 3.5 1094
1991 1 1096 4.5 1150.5
2 1021 5.5 1242.5
3 1705 6.5 1331.75
4 1505 7.5 1416.75
1992 1 1436 9.5 1502.25
2 1363 10.5 1655.75
3 2319 11.5 1791.25
4 2047
45
8.4.2 Moyennes Mobiles centrées
On a vu qu’une moyenne mobile d’ordre pair se calcule à des dates qui ne coincident
pas avec les dates des observations. Si l’on veut comparer la série lissée avec la série
initiale, on a besoin d’avoir les valeurs pour les mêmes dates d’oservations. On définit les
moyennes mobiles centrées pour pallier à cet inconvénient des moyennes mobiles simples
d’ordre pair.
Ainsi, on définit la série des moyennes mobiles centrées d’ordre k = 2m, notée M C k (t),
0
à partir de la moyenne mobile simple d’ordre pair Mk (t ) par
0 0 m−1
Mk (t ) + Mk (t + 1) 1 xt−m X xt+m
M C k (t) = = [ + xt+i + ].
2 k 2 i=−m+1
2
Exemple 8.4 Calcul des moyennes mobiles centrées d’ordre 4 des ventes de l’entreprise
CARREFOUR.
Numéro du trimestre Ventes date Moy. mobile Moy mobile simple M C 4 (t)
1990 1 860
2 794
3 1338 2.5 1035 1064,5
4 1148 3.5 1094 1122.25
1991 1 1096 4.5 1150.5 1196.5
2 1021 5.5 1242.5 1287.12
3 1705 6.5 1331.75 1374.25
4 1505 7.5 1416.75 1459.5
1992 1 1436 9.5 1502.25 1578.85
2 1363 10.5 1655.75 1723.5
3 2319 11.5 1791.25
4 2047
46
Numéro du trimestre Ventes Trend
1990 1 860
2 794
3 1338 1064,5
4 1148 1122.25
1991 1 1096 1196.5
2 1021 1287.12
3 1705 1374.25
4 1505 1459.5
1992 1 1436 1578.85
2 1363 1723.5
3 2319
4 2047
cov(T̄t , t)
T̄t = at + b où a= , b = T̄t − at̄.
V (t)
cov(T̄t , t)
Le coéfficient de corrélation linéaire : = .
σ(Tt ) × σ(t)
3 + 4 + 5 + 6 + 7 + 8 + 9 + 10
t̄ = = 6.5
8
10801
T̄t = = 1350
8
14.95 × 106
V (Tt ) = − 1350 ' 46309
8
47
9 + 16 + ... + 100
V (t) = − 6.5 ' 5.25
8
74.1 × 103
cov(Tt , t) ' 350 × 6.5 ' 488
8 1
488 ventes
a= ' 93( )
5.25 trimestre
b = 1350 − 93 × 6.5 ' 746(ventes)
488
r=√ ' 0.99
46309 × 5.25
Tt ' 93t + 745.5
avec une très bonne approximtion, car r ' 0.99.
48