11extrait Statistiques
11extrait Statistiques
11extrait Statistiques
Module : Statistique 1
J. Gergaud
19 septembre 2006
Table des matières
1 Introduction 1
1 Image de la statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
2 Exemples de problèmes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
2.1 Cas à une seule variable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
2.2 Cas à deux variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
2.3 Cas d’un nombre fini de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
3 Schéma général . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
4 Enseignement des mathématiques en tronc commun . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
5 Modules Statistique 1 et 2, première année . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
5.1 Objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
5.2 Statistique 1 : Outils et concepts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
6 Difficulté de cet enseignement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
6.1 Petite approche historique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
6.2 Mon sentiment sur cet enseignement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
7 Contrôle de connaissance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2 Statistique descriptive 5
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2 Types de données traitées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.1 Notion de caractère . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2 Types de caractères qualitatifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.3 Types de variables statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
3 Statistique descriptive à une dimension . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
3.2 Les distributions de fréquences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
3.3 Réduction des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.4 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
4 Statistique descriptive à 2 dimensions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.2 Les distributions en fréquences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
4.3 Représentations graphiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
4.4 Réduction des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
4.5 Droite de régression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
5 Compléments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
5.1 Changement de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
5.2 Cas à plus d’une variable explicative . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
6 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
6.1 Exercices avec solutions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
6.2 Exercices avec indications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
6.3 Exercices sans indications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3 Probabilités 35
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2 Définition des probabilités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.1 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.2 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.3 Représentation graphique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3 Probabilités conditionnelles et indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
i
ii TABLE DES MATIÈRES
4 Théorie de l’échantillonnage 59
1 Modélisation des variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
1.2 Variable aléatoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
2 Introduction à la théorie de l’échantillonnage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
2.1 Modélisation des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
2.2 Exemple de l’urne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
2.3 Exemple du référendum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
3 Échantillonnage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
3.1 Échantillon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
3.2 Schéma général . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
4 Distribution d’échantillonnage de certaines statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . 68
4.1 Distribution déchantillonnage de la moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
4.2 Distribution d’échantillonnage de la variance . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
4.3 Distribution d’échantillonnage de T . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
4.4 Distribution d’échantillonnage du rapport de variance . . . . . . . . . . . . . . . . . . . . . . 72
4.5 Distribution d’échantillonnage d’une fréquence . . . . . . . . . . . . . . . . . . . . . . . . . . 72
5 Principales lois de probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
6 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
6.1 Exercices avec corrigés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
6.2 Exercices avec indications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
6.3 Exercices sans indications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
6 Estimation 109
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
1.1 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
1.2 Position du problème . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
2 Principes généraux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
2.1 Formalisme mathématique, définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
2.2 Propriétés des estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
3 Estimations des principaux paramètres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
3.1 Estimation d’une variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
3.2 Estimation d’une moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
3.3 Estimation d’une proportion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
4 Compléments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
4.1 Lien entre intervalle de confiance et test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
4.2 Illustration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
4.3 Estimation robuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
4.4 Représentation graphique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
5 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
5.1 Exercices avec corrigés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
5.2 Exercices avec indications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
5.3 Exercices sans indications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
Chapitre 1
Introduction
1 Image de la statistique
– Il existe 3 formes de mensonges : les simples mensonges, les affreux mensonges et les statistiques.
– Le lit est plus dangereux que l’automobile car il est prouvé statistiquement que l’on meurt plus dans un lit
que dans une voiture.
– Le statisticien est un homme qui prétend qu’avoir la tête dans une fournaise et les pieds dans la glace permet
de bénéficier d’une température moyenne agréable.
2 Exemples de problèmes
2.1 Cas à une seule variable
Exemple 2.1.1. On désire estimer le nombre d’animaux d’une espèce donnée dans une région donnée.
Outil statistique : l’Analyse factorielle en Composantes Principales (ACP) et l’Analyse Factorielle des Corres-
pondances (AFC)
1
2 CHAPITRE 1. INTRODUCTION
Exemple 2.3.3. En taxinomie biologique et en écologie on est souvent amené à des problèmes de classifications.
3 Schéma général
9
?
Z Z
Z Z
Z Z
Z Z
Z Z
=
~
Z
= ~
Z
La statistique Analyse Inférence Théorie
descriptive des statistique des
à 1, 2, 3 données tests
dimensions
Sous objectifs
– Savoir ce qu’est un ”bon” estimateur
– Savoir ce qu’est un intervalle de confiance
– Savoir ce qu’est un test statistique
– Hypothèse nulle et alternative
– Risque de première espèce, notion de puissance
– Connaı̂tre la régression linéaire simple.
6. DIFFICULTÉ DE CET ENSEIGNEMENT 3
TD
TD1 : Statistique descriptive. Décrire les données par des graphiques et/ou quelques quantités numériques
TD2 : Probabilités, théorie de l’estimation
TD3 : Théorie des tests statistiques
TD4 : Tests statistiques et estimation
TD5 : Estimation
7 Contrôle de connaissance
– Examen écrit de 2 heures avec une page A4 recto-verso, calculatrice et tables statistiques ;
– Notations de TD ;
Chapitre 2
Statistique descriptive
1 Introduction
2 Types de données traitées
2.1 Notion de caractère
Définition 2.1.1 (Caractère). On appelle caractère tout critère sur lequel repose une étude statistique.
Exemple 2.1.2. La taille d’un individu, le poids d’un objet, la concentration d’une substance.
Définition 2.1.3 (Caractère quantitatif, variable statistique). On appelle caractère quantitatif ou variable statis-
tique tout caractère directement représentable par des nombres.
Définition 2.1.5 (Caractère qualitatif). On appelle caractère qualitatif tout caractère non quantitatif
Remarque 2.1.7. On pourrait très bien coder pile ou face par 0 et 1, mais nous aurions tout de même un caractère
qualitatif d’où le mot directement dans la définition. On peut aussi dire qu’une variable statistique est un caractère
mesurable. Les opérations comme l’addition ont donc un sens sur un caractère quantitatif, ce qui n’est pas le cas
sur un caractère qualitatif.
Définition 2.3.3 (Variable continue). On appelle variable continue toute variable pouvant prendre un nombre
infini non dénombrable de valeurs.
5
6 CHAPITRE 2. STATISTIQUE DESCRIPTIVE
Définition 3.2.1 (Fréquence absolue ou fréquence). On appelle fréquence absolue le nombre d’occurrences d’une
même valeur observée xi , c’est-à-dire le nombre de fois où la valeur xi est observée. On note ni cette fréquence liée
à la valeur xi .
Pp
Remarque 3.2.2. On a toujours n = i=1 ni
Définition 3.2.6 (Fréquences cumulées absolues). Les fréquences cumulées absolues sont données par :
N0 = 0
N1 = n1
..
.
Xk
Nk = ni si k ∈ {1, . . . , p}
i=1
..
.
Nk = n si k > p
Définition 3.2.7 (Fréquences cumulées relatives). Les fréquences cumulées relatives sont données par :
F0 = 0
F1 = f1
..
.
Xk
Fk = fi si k ∈ {1, . . . , p}
i=1
..
.
Fk = 1 si k > p
3. STATISTIQUE DESCRIPTIVE À UNE DIMENSION 7
Exemple 3.2.8. Nous donnons dans le tableau ci-dessous les valeurs des différentes fréquences définies précédemment
pour l’exemple (3.1.2).
Notes Fréquences Fréquences Fréquences cumulées Fréquences cumulées
absolues relatives absolues relatives
0 0 0 0 0
1 3 0,3 3 0,3
2 1 0,1 4 0,4
3 0 0 4 0,4
4 0 0 4 0,4
5 2 0,2 6 0,6
6 0 0 6 0,6
7 0 0 6 0,6
8 0 0 6 0,6
9 3 0,3 9 0,9
10 1 0,1 10 1
Nous avons étudié le cas où la variable ne pouvait prendre que peu de valeurs différentes. Il se pose donc la
question de savoir ce que l’on fait lorsque l’on a des valeurs observées distinctes en grand nombre (ce qui est le cas
en particulier lorsque l’on étudie des variables continues). Dans ce cas nous condensons les données en groupant
les observations en classes. Le nombre de classes est en général compris entre 10 et 20 et l’intervalle de classe est
constant (mais ceci n’est pas obligatoire). Une classe est définie par ses limites. La limite supérieure d’une classe
étant la limite inférieure de la classe suivante. Quant à la valeur de la classe, on choisit souvent le milieu de la
classe. Une fois que les classes ont été définies nous pouvons comme précédemment calculer les fréquences absolues,
relatives, cumulées absolues et cumulées relatives.
Exemple 3.2.9. Distribution de fréquence des étendues des exploitations agricoles belges (ces donnée proviennent
de l’ouvrage de Dagnélie “Théorie et méthodes statistiques” volume 1).
Etendues des Valeurs des Fréquences Fréquences Fréquences cumulées
exploitations classes absolues relatives relatives
de 1 à 3ha 2ha 58122 0,2925 0,2925
de 3 à 5ha 4ha 38221 0,1924 0,4849
de 5 à 10ha 7,5ha 52684 0,2651 0,75
de 10 à 20ha 15ha 35188 0,1771 0,9271
de 20 à 30ha 25ha 8344 0,0420 0,9691
de 30 à 50ha 40ha 3965 0,0199 0,9890
de 50 à 100ha 75ha 1873 0,0094 0,9984
plus de 100ha ? 309 0,0016 1,000
Remarque 3.2.10. Dans l’exemple ci-dessus la dernière classe n’a pas de limite supérieure. On dit que la classe
est ouverte.
Nous avons jusqu’à présent travaillé directement avec des nombres, mais un tableau de chiffres (même en
quantité restreinte) n’est jamais très lisible aussi nous allons maintenant étudier les représentations graphiques des
fréquences. Dans tous les cas nous aurons ici en abscisse les valeurs des variables et en ordonnées les fréquences.
Considérons tout d’abord le cas des fréquences non cumulées. Deux cas se présentent suivant que les données
sont groupées (i.e. mises en classes) ou non. Lorsque celles-ci sont non groupées, nous utiliserons des diagrammes
en bâtons : Pour chaque valeur de xi , nous traçons un segment de droite de longueur égale à la fréquence (absolue
ou relative suivant les cas) associée à xi .
Exemple 3.2.11. Reprenons les données de l’exemple (3.1.2), la figure (2.1) est le diagramme en bâtons relatif
aux fréquences relatives.
Lorsque les données sont groupées, nous représentons ces fréquences par des rectangles contigus dont les inter-
valles de classes sont les bases et les hauteurs des quantités telles que l’aire de chaque rectangle soit proportionnelle
à la fréquence de la classe correspondante.
Remarque 3.2.12. Si les classes sont équidistantes nous pouvons alors prendre comme hauteur les fréquences.
Exemple 3.2.13. Représentons les fréquences relatives des étendues des exploitations agricoles belges (exemple
(3.2.9))
8 CHAPITRE 2. STATISTIQUE DESCRIPTIVE
0.35
0.3
0.25
Fréquences relatives
0.2
0.15
0.1
0.05
0
0 2 4 6 8 10
Notes
0.16
0.14
0.12
0.1
0.08
0.06
0.04
0.02 ← Aire=0.01771×10=0.1771
0
Surfaces en ha
Remarque 3.2.15. (i) Lorsque nous étudions une variable continue nous avons dans la pratique un grand
nombre de mesures, certaines étant très proches les unes des autres, d’autres étant plus éloignées. Si nous
représentions ces données sous la forme d’un diagramme en bâtons nous aurions un graphique du type suivant :
1.8
1.6
1.4
Fréquences absolues
1.2
0.8
0.6
0.4
0.2
0
0 1 2 3 4 5 6 7 8
Valeurs de la variable
La densité d’une zone indiquerait alors que beaucoup de données seraient dans cette zone. Mais un tel gra-
phique n’est pas très lisible et une idée est donc de représenter cette densité en ordonnées. Celle-ci est obtenue
en divisant le nombre de mesures obtenues dans une classe (i.e. la fréquence absolue) par la longueur d’in-
tervalle de classe. C’est bien ceci que nous représentons dans un histogramme.
(ii) Les fréquences relatives sont en fait dans la pratique des estimations de probabilités. On verra que dans le cas
continu la probabilité qu’une variable aléatoire X appartienne à un intervalle ]xi , xi+1 [ est donnée par l’aire
A délimitée par cet intervalle et la fonction de densité :
3. STATISTIQUE DESCRIPTIVE À UNE DIMENSION 9
0.4
0.35
0.3
0.25
f(x)
0.2
0.15 ←A
0.1
0.05
0
−1 0 1 2 3 4 5
xi xi+1
x
L’histogramme des fréquences relatives n’est alors qu’une approximation empirique de cette fonction de densité
(si le facteur de proportionnalité est 1).
(iii) Si l’on veut mettre sur un même graphique une loi théorique de distribution de probabilités, il faut impérativement
travailler avec les fréquences relatives, et un facteur de proportionnalité de 1 pour l’histogramme.
Remarque 3.2.16. Attention, dans un logiciel comme Excel , le terme histogramme n’a pas le sens ci-dessus.
Remarque 3.2.17. La détermination du nombre de classes d’un histogramme ainsi que de leurs amplitudes est
difficile. De plus, représenter une distribution d’une variable continue par une fonction en escalier n’est pas très
logique. La théorie de l’estimation de densité permet de résoudre ces difficultés. Nous allons ici donner quelques
éléments de la méthode du noyau.
Considérons tout d’abord le cas d’histogrammes à classes d’égales amplitudes h. Dans l’histogramme on estime
ni
la densité en x par nh si x appartient à la classe i. La densité est donc constante sur chaque classe. On peut
améliorer ceci en utilisant la méthode de la ”fenêtre mobile”. On suppose ici que la série statistique est y1 , . . . , yn .
On construit autour de x une classe de longueur h : Ix = [x − h/2; x + h/2[ et on compte le nombre d’observations
nx
nx qui appartiennent à cette classe. On estime alors la densité en x par nh . On peut ainsi construire point par
ˆ
point cette fonction de densité estimée f (x). On peut en fait écrire cette dernière de la façon suivante :
n
ˆ 1 X x − yi
f (x) = K
nh i=1 h
où K est la fonction indicatrice de l’intervalle [−1/2; 1/2[, c’est-à-dire la fonction de R dans {0, 1} définie par :
K(u) = 0 si u 6∈ [−1/2; 1/2[
K(u) = 1 si u ∈ [−1/2; 1/2[
Par suite
x − yi
K = 1 ⇐⇒ yi ∈ Ix
h
Cette méthode donne encore des résultats trop peu régulier. Pour obtenir une fonction suffisamment ”lisse”, il faut
prendre des fonction noyau K plus régulière. En pratique on prend souvent un noyau gaussien :
1 2
K(u) = √ e−u /2
2π
ou parabolique :
u2
3
K(u) = √ 1− pour |u| < 5
4 5 5
L’exemple (3.2.18) donne une comparaison entre l’histogramme et l’estimation de densité.
Exemple 3.2.18. 1 Le tableau (2.1) donne les hauteurs de 50 pièces usinées. On a sur la figure (2.5) l’histogramme
de ces données pour un intervalle de classe de 0.03 et l’estimation de densité par la méthode du noyau avec le noyau
de Lejeune :
105
K(u) = (1 − u2 )2 (1 − 3u2 ) pour |u| ≤ 1
64
avec une constante h égale à 30% de l’étendue de l’échantillon. L’estimation de densité montre clairement une
distribution bimodale que nous ne voyons pas avec l’histogramme.
1 exemple provenant du livre de G. Saporta page 121
10 CHAPITRE 2. STATISTIQUE DESCRIPTIVE
10
−2
21.8 21.85 21.9 21.95 22 22.05 22.1 22.15
Il nous reste maintenant à étudier le cas des fréquences cumulées. Celles-ci sont représentés par des polygônes
de fréquences cumulés, mais nous avons encore ici une distinction suivant que les données soient groupées ou non.
Lorsque les données sont non groupées nous obtenons un polygône en escalier : la valeur de la fonction en un
point x est le nombre d’observations (absolues ou relatives) qui sont inférieures ou égales à x.
Quant aux données groupées, on joint par une ligne brisée les points obtenus en portant, pour les limites de
classes supérieures des ordonnées égales aux fréquences cumulées.
Exemple 3.2.20. Fréquences cumulées relatives des étendues des exploitations agricoles belges (exemple (3.2.9)).
Remarque 3.2.21. Les polygônes de fréquences relatives sont une représentation empirique des fonctions de
répartitions comme les histogrammes sont une représentation empirique des fonctions de densité.
1.2
0.6
0.4
0.2
0
0 2 4 6 8 10 12
Notes
1
Fréquences cumulées relatives
0.8
0.6
0.4
0.2
0
0 20 40 60 80 100 120
Surfaces en ha
Exemple 3.3.1. Nous considérons 11 mesures faites de la hauteur du maı̂tre-brin d’une céréale donnée (en cm).
Nous avons obtenu la série statistique suivante (mise en ordre croissant) :
59; 62; 63; 63; 64; 66; 66; 67; 69; 70; 70.
Les paramètres de position que nous allons étudier maintenant permettent de caractériser l’ordre de grandeur
des observations. Le paramètre le plus utilisé dans la pratique est la moyenne arithmétique ou moyenne.
Définition 3.3.2 (Moyenne arithmétique). On appelle moyenne arithmétique ou
moyenne la quantité donnée par :
– Si les observations sont données par une série statistique
n
1X
x̄ = xi
n i=1
x̄ = 65, 3636cm
Remarque 3.3.4. Lorsque les données sont groupées xi est la valeur de la classe i.
Définition 3.3.5 (Médiane). La médiane est la valeur de part et d’autre de laquelle se trouve un nombre égal
d’observations.
Remarque 3.3.6. (i) Pour les séries statistiques monotones (c’est-à-dire croissante ou décroissante) :
– si le nombre d’observations est pair la médiane est toute quantité comprise entre xn/2 et xn/2+1 (en général
on prend xe = 1/2(xn/2 + xn/2+1 ))
12 CHAPITRE 2. STATISTIQUE DESCRIPTIVE
1/2 − Fi
e = x0i + ∆xi
x
ni
où
i est l’indice de la classe médiane.
x0i est la limite inférieure de cette classe.
∆xi est l’intervalle de la classe i.
Fi est la fréquence cumulée relative de la classe i.
x
e = 66
Définition 3.3.8 (Quartiles). On définit de façon similaire les quartiles i.e les 3 quantités qui séparent les données
en 4 groupes contenant le même nombre de données. On notera Q1 , Q2 et Q3 les trois quartiles.
Définition 3.3.11 (Mode). On appelle mode d’une distribution non groupée toute valeur rendant maximale la
fréquence. On appelle classe modale d’une distribution groupée toute classe rendant maximale le rapport :
Fréquence
Intervalle de classe
Remarque 3.3.13. (i) Le mode est une valeur qui rend maximum la représentation graphique des fréquences
non cumulées.
(ii) Dans le cas d’une distribution théorique d’une variable aléatoire continue le mode est toute valeur qui maximise
la fonction de densité. C’est la valeur “la plus probable”.
Les paramètres de position sont très insuffisants pour caractériser des données ; aussi nous avons besoin de savoir
si les observations sont concentrées ou non autour d’un paramètre de position. C’est ce critère que l’on qualifie à
l’aide des paramètres de dispersion. Le paramètre le plus connu et le plus utilisé est la variance d’un échantillon.
Pn
Remarque 3.3.15. (i) On note souvent SCE = i=1 (xi − x̄)2 . SCE est la Somme des Carrés des Écarts,
sous entendu à la moyenne.
3. STATISTIQUE DESCRIPTIVE À UNE DIMENSION 13
0.1 0.4
0.1
0.02
0 0
0 10 20 30 −1 0 1 2 3 4 5
0.4 0.2
densité densité
0.3 mode 0.15 mode
moyenne moyenne
0.2 médiane 0.1 médiane
0.1 0.05
0 0
0 5 10 15 0 5 10 15
Lorsque l’on effectue les calculs à la main, c’est la formule (2.4) que l’on utilise.
Exemple 3.3.16. Pour les données de l’exemple (3.3.1), nous avons :
s2 = 11, 3223cm2
Remarque 3.3.17. On démontre que l’on a toujours :
n
X n
X
(xi − a)2 > (xi − x̄)2 = ns2 si a 6= x̄
i=1 i=1
2
Définition 3.3.18 (Écart type ). L’écart type est la racine carré de la variance.
√
Exemple 3.3.19. Pour les données de l’exemple (3.3.1), nous avons : s = s2 = 3, 3649cm
Remarque 3.3.20. L’écart type a la même dimension que les données (ce qui n’est pas le cas de la variance).
Définition 3.3.21 (Cœfficient de variation). On appelle cœfficient de variation l’indice de dispersion relatif exprimé
en pourcentage :
s
cv = × 100
x̄
On suppose bien évidemment que x̄ est différent de 0.
2 standard deviation en anglais
14 CHAPITRE 2. STATISTIQUE DESCRIPTIVE
cv = 5, 148%
Définition 3.3.23 (Amplitude). On appelle amplitude l’écart entre les valeurs extrêmes des données
Exemple 3.3.24. Pour les données de l’exemple (3.3.1), nous avons :
w = 11
Définition 3.3.25 (Écart interquartile). On appelle écart interquartile la différence entre le troisième et le premier
quartile : Q3 − Q1
Exemple 3.3.26. Pour les données de l’exemple (3.3.9), nous avons :
Q3 − Q1 = 16, 5
Définition 3.3.27 (boı̂te à moustaches3 ). Le diagramme en boı̂te à moustaches ou box-plot représente schématiquement
les principales caractéristiques d’une variable numérique en utilisant les quartiles. On représente la partie centrale
de la distribution par une boı̂te de largeur quelconque et de longueur l’intervalle interquartile. On trace à l’intérieur
la position de la médiane et on complète la boı̂te par des ”moustaches“ de valeurs :
– Pour la ”moustache supérieure“ : la plus grande valeur inférieure à Q3 + 1, 5(Q3 − Q1 ).
– Pour la ”moustache inférieure“ : la plus petite valeur supérieure à Q1 − 1, 5(Q3 − Q1 ).
Les valeurs extérieures représentées par des * sont celles qui sortent des ” moustaches“.
Exemple 3.3.28. Reprenons l’exemple (3.3.9). Nous avons Q1 = 20, x e = 27, 5 Q3 = 36, 5 et Q3 − Q1 = 16, 5.
Par suite :
– la plus grande des données inférieure à Q3 + 1, 5(Q3 − Q1 ) est 50 ;
– la plus petite des données supérieure à Q1 − 1, 5(Q3 − Q1 ) est 8.
D’où le schéma suivant :
Column Number
10 20 30 40 50 60 70 80
Values
Définition 3.3.29 (Moment d’ordre k par rapport à un point c). On appelle moment d’ordre k par rapport à un
point c la quantité :
– Si les données sont sous la forme d’une série statistique
n
1X
(xi − c)k
n i=1
Notation 3.3.30. (i) Lorsque c = 0 le moment d’ordre k s’appelle moment par rapport à l’origine et on le note
ak .
3 boxplot en anglais
3. STATISTIQUE DESCRIPTIVE À UNE DIMENSION 15
0.4
0.3
0.2
0.1
0
0 1 2 3 4 5 6
Fig. 2.10 – Différentes fonctions de densité pour différentes valeur du cœfficient de symétrie
3.4 Exemples
Exemple 3.4.1. Les données de la table (2.2) sont des longueurs de la rectrice centrale de la gélinotte huppée
mâle, juvénile. La figure (2.12) donne les différentes représentations graphiques de ces données.
Exemple 3.4.2. Les figures (2.13) et (2.14) donnent pour les mêmes données respectivement les histogrammes et
les boı̂tes à moustaches pour les longueurs d’ailes de mésanges noires selon leur âges et leurs sexes.
4 kurtosis en anglais, attention le terme kurtosis est parfois aussi utilisé pour désigner le cœfficient g2 de Fisher ci-après
5 skewness en anglais
16 CHAPITRE 2. STATISTIQUE DESCRIPTIVE
γ2=0
γ =2
2
0.4 γ2=−1.2
0.3
0.2
0.1
0
−3 −2 −1 0 1 2 3
Fig. 2.11 – Différentes fonctions de densité pour différentes valeur du cœfficient d’applatissement
1.5
1 1
0.5
0
140 150 160 170 180 140 150 160 170
longueur longueur
0.08
0.06
0.04
0.02
0
150 160 170
longueur
0.4 0.4
0.3 0.3
0.2 0.2
0.1 0.1
0 0
58 59 60 61 62 63 64 65 66 67 68 58 59 60 61 62 63 64 65 66 67 68
longueur d’ailes en mm longueur d’ailes en mm
0.6 0.6
0.4 0.4
0.3 0.3
0.2 0.2
0.1 0.1
0 0
58 59 60 61 62 63 64 65 66 67 68 58 59 60 61 62 63 64 65 66 67 68
longueur d’ailes en mm longueur d’ailes en mm
Fig. 2.13 – Distributions des longueurs d’ailes de mésanges noires selon leur âge et sexe
68
67
66
65
Longueur d’ailes en mm
64
63
62
61
60
59
58
1 2 3 4
Fig. 2.14 – Distributions des longueurs d’ailes de mésanges noires selon leur âge et sexe
pouvons essayer de mettre en évidence les relations qui peuvent exister entre deux caractères.
Comme en dimension 1 nous nous intéressons à des variables quantitatives et nous aurons comme données
initiales une suite double :
x1 , x2 , . . . , xn
y1 , y 2 , . . . , y n
La valeur du caractère 1 pour l’individu i est xi La valeur du caractère 2 pour l’individu i est yi
Définition 4.1.1 (Série statistique double). On appelle série statistique double la suite de n couples de valeurs
(xi , yi ).
Exemple 4.1.2. Poids des feuilles et poids des racines (en grammes) de 1000 individus de Cichorium intybus (cet
exemple provient de l’ouvrage de Dagnélie).
feuilles : 71 76 106 108 109 111 111 112 . . . 662 673 679 741
racines : 56 51 40 174 62 59 84 94 . . . 174 290 290 230
Notation 4.2.2. Nous rappelons que le point en indice signifie que l’on a sommé sur cet indice. Avec cette notation,
nous avons donc aussi :
Xp X q Xp Xq
n.. = nij = ni. = n.j
i=1 j=1 i=1 j=1
18 CHAPITRE 2. STATISTIQUE DESCRIPTIVE
Remarque 4.2.3. (i) Nous avons pris ici le cas des fréquences absolues mais nous pouvons bien évidemment
construire des tableaux de fréquences relatives :
nij
n,ij =
n
Définition 4.2.4 (Fréquence conditionnelle relative). On appelle fréquence conditionnelle relative pour que x = xi
(respectivement y = yj ) sachant que y = yj (respectivement x = xi ) la quantité :
nij
fi/j =
n.j
(respectivement
nij
fj/i = )
ni.
Définition 4.2.5 (Profils lignes, profils colonnes). On appelle profils lignes (respectivement profils colonnes) le
tableau des fréquences conditionnelles relatives fj/i (respectivement fi/j ).
Remarque 4.2.6. (i) Le tableau de fréquence relative est une représentation empirique de la fonction de proba-
bilité d’un couple de variables aléatoires et les fréquences conditionnelles relatives représentent des probabilités
conditionnelles.
(ii) le tableau des profils lignes est une représentation empirique les lois de distributions conditionnelles.
(iii) Si la tableau de contingence comporte en fait en ligne différentes populations et en colonne les différentes
modalités d’un caractère qualitatif (c’est-à-dire les valeurs d’une variable aléatoire discrète), alors les profils
lignes sont les lois de probabilités sur les différentes populations du caractère étudié.
Exemple 4.2.8. La table (4.2.8) donne l’évolution de l’âge de la population agricole familiale dans un canton du
Loiret. La table (2.4) donne quant-à elle les profils lignes.
Année :Âge < à 25 ans 25 à 34 ans 35 à 44 ans 45 à 54 ans 55 à 64 ans > à 65 ans Total
1970 88 24 27 61 20 25 245
1979 63 17 20 39 27 25 191
1988 41 15 18 22 31 17 144
Total 192 56 65 122 78 67 580
Année :Âge < à 25 ans 25 à 34 ans 35 à 44 ans 45 à 54 ans 55 à 64 ans > à 65 ans
1970 0.3592 0.0980 0.1102 0.2490 0.0816 0.1020
1979 0.3298 0.0890 0.1047 0.2042 0.1414 0.1309
1988 0.2847 0.1042 0.1250 0.1528 0.2153 0.1181
12
10
4
y
−2
−4
−6
−3 −2 −1 0 1 2 3 4 5 6 7
x
Quant aux distributions de fréquences elles se représentent dans un espace à trois dimensions par un diagramme
en bâtons si les variables sont discrètes et par un stéréogramme si la variable est continue. Un stéréogramme est un
diagramme composé de parallélépipèdes rectangles de bases les rectangles correspondant aux cellules du tableau
statistique et de hauteur les fréquences divisées par la surface de la base (ceci toujours pour avoir une estimation
de la densité de probabilité).
Exemple 4.3.1. Avec les données de l’exemple (4.1.2) on obtient la figure (2.16)
200
150
Fréquences absolues
100
50
0
40
120
200
280
360
440
520
600
680
Feuilles 760
Racine
Exemple 4.3.2. Reprenons l’exemple (4.2.8) de l’évolution de l’âge de la population agricole familiale dans un
canton du Loiret. On peut représenter les profils lignes (2.17). ceci nous permet de visualiser les différences de
répartition des âges en fonction des année. Ici, nous avons l’ensemble des populations étudiées, les profils lignes
sont donc exactement les lois de probabilités sur ces 3 populations. Dans le cas où nous n’aurions , pour chaque
population que des échantillons, il faudrait effectuer un test statistique (test du χ2 ici) pour savoir s’il y a réellement
une différence dans les lois de distributions. Ceci est hors de notre programme.
20 CHAPITRE 2. STATISTIQUE DESCRIPTIVE
Profils lignes
0.45
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
0 1 2 3 4 5 6 7
Remarque 4.4.2.
Pn
On note souvent SP E = i=1 (xi − x̄)(yi − ȳ). SP E est la Somme des Produits des Écarts, sous entendu aux
moyennes.
On peut aussi écrire :
n
X
SP E = (xi yi − xi ȳ − yi x̄ + x̄ȳ) (2.5)
i=1
Xn n
X n
X n
X
= xi yi − ȳ xi − x̄ yi + x̄ȳ (2.6)
i=1 i=1 i=1 i=1
Xn
= xi yi − 2nx̄ȳ + nx̄ȳ (2.7)
i=1
Xn
= xi yi − nx̄ȳ (2.8)
i=1
Lorsque l’on effectue les calculs à la main, c’est la formule (2.8) que l’on utilise.
Exemple 4.4.3. On considère la série statistique double suivante :
x 165,5 164,0 156,0 174,0 169,0 157,5 159,0 152,0 155,0 159,0
y 177,0 172,0 163,0 183,5 171,5 165,0 160,5 154,5 163,0 162,0
x (respectivement y) représente la taille (respectivement l’envergure) de 10 adolescents nés en 1947 (mensura-
tions relevées en 1962). On a alors :
cov(x, y) = 49, 68
4. STATISTIQUE DESCRIPTIVE À 2 DIMENSIONS 21
Remarque 4.4.4. (i) La covariance peut-être positive ou négative. Une covariance positive (respectivement
négative) indique une relation entre les données croissantes (respectivement décroissantes), i.e. que les valeurs
élevées d’une série correspondent, dans l’ensemble, à des valeurs élevées (respectivement faibles) de l’autre.
(ii) L’existence de termes positifs et négatifs dans le calcul de la covariance justifie pour celle-ci l’absence de
correction analogue aux corrections de Sheppard.
Théorème 4.4.5. On a toujours la relation suivante :
|cov(x, y)| ≤ sx sy
On sait qu’une condition nécessaire et suffisante pour qu’un trinôme soit toujours de même signe est que son
discriminant ∆ soit négatif ou nul. Par suite nous avons :
⇐⇒ |cov(x, y)| ≤ sx sy
De plus nous avons l’égalité |cov(x, y)| = sx sy si et seulement si ∆ = 0 et donc s’il existe λ1 = cov(x, y)/s2x tel que
n
X
(λ1 (xi − x̄) − (yi − ȳ))2 = 0 ⇐⇒ λ1 (xi − x̄) = yi − ȳ ∀i
i=1
⇐⇒ Les points (xi , yi )i=1,...,n sont alignés
Âges 25 25 25 25 25 25 25 35 35 35
Taux 1.8 2.3 2 2.4 2 2.5 2.6 2.6 2.9 2.3
Âges 35 35 35 35 45 45 45 45 45 45
Taux 2.4 2.1 2.5 2.7 2.7 3 3.1 2.3 2.5 3
Âges 45 45 55 55 55 55 55 65 65 65
Taux 3.3 2.7 3.1 2.9 3.4 2.4 3.4 3.7 2.8 3.3
Âges 65 65 65
Taux 3.5 3.3 2.6
3.5
Taux
2.5
1.5
1
20 25 30 35 40 45 50 55 60 65 70
Ages
9 0.9
10
8 0.8
7 0.7
8
6 0.6
6 5 0.5
y
4 0.4
4
3 0.3
2 0.2
2
1 0.1
0 0 0
0 2 4 6 0 2 4 6 0 2 4 6
x x x
Suivant les cas de la figure 2.19, nous pouvons penser aux modèles :
Cas (a) y(x) = β0 + β1 x ;
Cas (b) y(x) = β0 + β1 x + β2 x2 ;
Cas (c) pas de modèle.
L’objet de la régression linéaire simple est l’étude du cas (a). L’un des buts de la régression linéaire simple est
de prédire la ”meilleure” valeur de y connaissant x (si le modèle linéaire est bien évidemment correct). L’objectif
de cette section est uniquement descriptif, aussi nous n’allons étudier que l’estimation ponctuelle des paramètres.
Ici, les points (xi , yi )i=1,...,n sont connus, la question est de trouver les valeurs des paramètres β0 et β1 qui
rendent la valeur du critère la plus faible possible. Nous sommes ainsi ramené au problème d’optimisation suivant :
Pn Pn
M in f (β) = 12 i=1 ri2 = 21 i=1 (yi − β0 − β1 xi )2
(P )
β ∈ R2
En effet, plus f (β) sera proche de 0, plus les carrés des résidus, donc les résidus ri seront ”proches” de 0.
4. STATISTIQUE DESCRIPTIVE À 2 DIMENSIONS 23
25
← r10
20
← r9
← r8
← r7
15
←r
6
y
← r4 ← r5
10
← r3
← r2
5
← r1
0
0 2 4 6 8 10
x
Démonstration
On démontre qu’une condition nécessaire et suffisante de solution du problème d’optimisation est f 0 (β) = (0, 0).
D’où le système linéaire suivant :
Xn Xn
nβ0 + β1 xi = yi
i=1 i=1
n n n
(2.11)
X X X
2
β0 xi + β1 xi = xi yi
i=1 i=1 i=1
ȳ = β0 + β1 x̄
n n
⇔
x2i =
P P
nβ0 x̄ + β1 xi yi
i=1 i=1
ȳ = β0 + β1 x̄
n n
⇔
x2i =
P P
n(ȳ − β1 x̄)x̄ + β1 xi yi
i=1 i=1
ȳ = β0 + β1 x̄
n n
⇔
β1 ( x2i − nx̄2 ) =
P P
xi yi − nx̄ȳ
i=1 i=1
ȳ = β0 + β1 x̄
⇔ SP E
β1 =
SCEx
2
Remarque 4.5.3. On a supposé dans le calcul que SCEx 6= 0, c’est-à-dire que tous les xi ne sont pas identiques.
Nous noterons dans la suite β̂0 et β̂1 ces solutions.
Exemple 4.5.4. Reprenons l’exemple (4.5.1). Lorsque l’on effectue les calculs à la main il est utile de calculer le
tableau préliminaire 2.6.
Les estimations ponctuelles sont alors
1445 × 90.1
4103.5 − 158.2
β̂1 = 33 = = 0.025
14452 6351.5
69625 −
33
β̂0 = 2.73 − 0.025 × 43.79 = 1.64
24 CHAPITRE 2. STATISTIQUE DESCRIPTIVE
y x xy y2 x2
1 y1 x1 x1 y1 y12 x21
.. .. .. .. .. ..
. . . . . .
i yi xi xi yi yi2 x2i
.. .. .. .. .. ..
. . . . . .
n yn xn xn yn y2 x2
P Pn 2 Pn 2
Totaux Y. X. i xi yi i yi i xi
Moyennes ȳ. x̄.
x y xy x2 y2
1 25 1.8 45.0 625 3.24
2 25 2.3 57.5 625 5.29
3 25 2.0 50.0 625 4.00
4 25 2.4 60.0 625 5.76
5 25 2.0 50.0 625 4.00
6 25 2.5 62.5 625 6.25
7 25 2.6 65.0 625 6.76
8 35 2.6 91.0 1225 6.76
9 35 2.9 101.5 1225 8.41
.. .. .. .. .. ..
. . . . . .
33 65 2.6 169.0 4225 6.76
Totaux 1445 90.1 4103.5 69625 253.31
Moyennes 43.79 2.73
De la même façon que nous avons cherché à “exprimer” y en fonction de x, on peut essayer d’“exprimer” x en
fonction de y et nous obtenons ainsi la droite de régression d’équation :
x = β1xy y + β0xy
Exemple 4.5.6. Si nous reprenons les données de l’exemple (4.5.1) nous obtenons :
Définition 4.5.7 (Cœfficient de corrélation linéaire). On appelle cœfficient de corrélation linéaire le rapport de la
covariance sur les produits des écart-types :
cov(x, y)
r=
sx sy
4. STATISTIQUE DESCRIPTIVE À 2 DIMENSIONS 25
5 2 2
r=1 0 0 0
y
−5 −2 −2
−2
10 0 2 −2
5 0 2 −5
2 0 5
r~1 0 0 0
y
−10 −5 −2
−2
5 0 2 −2
5 0 2 −5
2 0 5
0<r<1 0 0 0
y
−5 −5 −2
−2
5 0 2 −5
5 0 5 −5
2 0 5
r=0 0 0 0
y
−5 −5 −2
−2
5 0 2 −5
5 0 5 −5
2 0 5
−1<r<0 0 0 0
y
−5 −5 −2
−2
5 0 2 −5
5 0 5 −10
2 0 10
r~−1 0 0 0
y
−5 −5 −2
−1
5 0 1 −5
5 0 5 −10
2 0 10
r=−1 0 0 0
y
−5 −5 −2
−2 0 2 −5 0 5 −5 0 5
x x x
Fig. 2.21 – Liens entre les nuages de points et le cœfficient de corrélation linéaire
26 CHAPITRE 2. STATISTIQUE DESCRIPTIVE
Remarque 4.5.9. Nous tenons à bien faire remarquer que le cœfficient de corrélation linéaire ne mesure qu’une
liaison de nature linéaire. Pour les 5 graphiques de la figure (2.22), on a les mêmes valeurs de x̄, ȳ, sx , sy , r et donc
la même droite de régression. Il est évident que les phénomènes sont très différents :
(i) pour le graphique en haut à gauche, il y a une forte dispersion mais le modèle linéaire semble a priori
approprié ;
(ii) pour le graphique en haut à droite, un modèle parabolique serait sans doute plus adapté ;
(iii) pour le graphique au milieu à gauche, il y a sans doute une donnée aberrante qui a un fort résidu ;
(iv) pour le graphique au milieu à droite, la dispersion des données semble augmenter quand x augmente ;
(v) pour le graphique en bas à gauche, il y a une donnée qui a une forte influence et un résidu nul.
30 30
20 20
y
y
10 10
0 0
0 10 20 30 0 10 20 30
x x
30 30
20 20
y
10 10
0 0
0 10 20 30 0 10 20 30
x x
30
20
y
10
0
0 10 20 30
x
Fig. 2.22 – Exemple de données ayant les mêmes valeurs des paramètres x̄, ȳ, sx , sy et r et donc la même droite de
régression
5 Compléments
5.1 Changement de variables
Nous allons tout d’abord voir que lorsque le modèle n’est pas au départ linéaire, on peut parfois s’y ramener
par un bon changement de variable. Considérons l’exemple suivant :
Exemple 5.1.1. Le carbone radioactif 14 C est produit dans l’atmosphère par l’effet des rayons cosmiques sur
l’azote atmosphérique. Il est oxydé en 14 CO2 et absorbé sous cette forme par les organismes vivants qui, par suite,
contiennent un certain pourcentage de carbone radioactif relativement aux carbones 12 C et 13 C qui sont stables. On
suppose que la production de carbone 14 C atmosphérique est demeurée constante durant les derniers millénaires. On
suppose d’autre part que, lorsqu’un organisme meurt, ses échanges avec l’atmosphère cessent et que la radioactivité
due au carbone 14 C décroit suivant la loi exponentielle suivante :
A(t) = A0 e−λt
où λest une constante positive, t représente le temps en année et A(t) est la radioactivité exprimée en nombre de
désintégrations par minute et par gramme de carbone. On désire estimer les paramètres A0 et λ par la méthode des
moindres carrés. Pour cela on analyse les troncs (le bois est un tissu mort) de très vieux arbres Sequoia gigantea
et Pinus aristaca. Par un prélèvement effectué sur le tronc, on peut obtenir :
5. COMPLÉMENTS 27
y(t) = β0 + β1
La condition nécessaire de solution du premier ordre nous donne alors (dérivée des fonctions composées) ce que
nous appelons l’équation normale
∇f (β) = t XX − t Xy = 0 (2.14)
La dérivée seconde de f est alors :
∇2 f (β) = t XX
On démontre en optimisation que dans ce cas si ∇2 f (β) est semi-définie positive alors la fonction f est convexe
(graphiquement c’est une cuvette pour une fonction de R2 à valeurs dans R) et dans ce cas l’équation (2.14) est
une condition nécessaire et suffisante de solution de notre problème d’optimisation. Or ici
(t XXβ|β) = (Xβ|Xβ) ≥ 0
Remarque 5.2.1. Dans le cas de la régression linéaire simple, si on développe l’équation normale (2.14), on
retrouve bien le système linéaire (2.11).
Nous allons maintenant étudier le cas où l’on a plus d’une variable explicative.
Considérons le modèle :
y(x) = β0 + β1 x1 + · · · βp xp (2.15)
où x = (x1 , . . . , xp ).
On collecte n (p+1)-uplets (yi , xi1 , . . . , xip )i=1,...,n . Notre problème d’optimisation pour estimer nos paramètres
s’écrit alors Pn
M in f (β) = 21 i=1 (yi − β0 − β1 xi1 − · · · − βp xip )2 = 21 ||Xβ − y||2
(P )
β ∈ R2
avec ici
28 CHAPITRE 2. STATISTIQUE DESCRIPTIVE
y1 1 xi1 ... xip r1
.. .. .. .. ..
. . . . β0 .
..
yi ;
y= X= 1 x i1 ... xip ; β= . et ri
r=
. . . .. .
.. .. .. . βp ..
yn 1 xn1 ... xnp rn
Par suite l’estimation des paramètres est aussi donné par la résolution du système linéaire des équations normales
t
XXβ = t Xy
6. EXERCICES 29
6 Exercices
6.1 Exercices avec solutions
Exercice 6.1.1. On observe les arrivées des clients à un bureau de poste pendant un intervalle de temps donné
(10 minutes). En répétant 100 fois cette observation, on obtient les résultats suivants.
(ii) Calculer la valeur de la moyenne arithmétique, de la médiane, de la variance et de l’écart type des résultats,
du coefficient de variation, de l’amplitude et de l’écart moyen des observations.
Correction
(i) Le diagramme en bâtons des fréquences relatives est le suivant :
0.3
0.25
0.2
Fréquence relative
0.15
0.1
0.05
0
1 2 3 4 5 6
Nombre d’arrivées
Diagramme en bâtons
Le diagramme des fréquences cumulées relatives est le suivant :
0.8
Fréquence cumulée relative
0.6
0.4
0.2
0 1 2 3 4 5 6 7 8
Nombre d’arrivées
La variance vaut :
n
s2 = n1 ( ni x2i − nx2 ) =1,96 et l’écart-type s = 1,4. Le coefficient de variation est égal à cv = 46,7 %.
P
i=1
L’amplitude des observations est de 5, l’écart moyen de
n
em = n1
P
ni |xi − x| = 1,10.
i=1
7
Exercice 6.1.2. On considère les compositions chimiques de 20 eaux minérales suivantes :
(i) Calculer les quartiles Q1 , Q2 , Q3 , l’écart interquartile et les limites des moustaches pour les variables HCO3−
et Ca+ .
(ii) Représenter les boı̂tes à moustaches pour les variables HCO3− et Ca+ .
Correction
(ii)
7 Les données proviennent de l’ouvrage de R. Tomassone, C. Dervin, J.P. Masson, ” Biométrie, modélisation de phénomènes biolo-
giques”, page114.
6. EXERCICES 31
400
350
300
250
Values
200
150
100
50
1 2 3 4 5 6
Column Number
Boı̂tes à moustache
Exercice 6.1.3. On a monté une série d’expériences dans une unité pilote en vue d’étudier l’influence de la
température sur le rendement d’une réaction chimique sous une pression donnée. Les données recueillies sont les
suivantes (x est la température t - 60 ◦ C ; y est le rendement en %) :
x 1 2 3 4 5 6 7 8 9 10
y 4 6 8 11 12 15 16 18 21 22
Étudier la liaison entre y et x. On fera le graphique en “ nuage de points ” des valeurs de y en fonction des
valeurs de x. On construira la droite de régression de y en x et on donnera la valeur du coefficient de corrélation
linéaire r(X,Y). Pour calculer la valeur des deux coefficients de la droite de régression, on se servira des formules
dans le cas d’une variable explicative et des relations matricielles (cas de plus d’une variable explicative).
Correction
25
expérimental
régression linéaire
20
15
y rendement
10
0
0 5 10 15
x (t−60) °C
Droite de régression
32 CHAPITRE 2. STATISTIQUE DESCRIPTIVE
n = 10;
P P 2
xi = 55; xi = 385;
i iP
yi2 = 2111;
P
yi = 133;
Pi i
xi yi = 899
i
D’où „ «2
P
xi
(xi − x)2 = x2i −
P P i
n
i i „ «2
P
yi
(yi − y)2 = yi2 −
P P i
n
i i „ «„ «
P P
P P xi yi
i i
(xi − x)(yi − y) = xi yi − n
i i
(xi − x)2 = 82, 5
P
i
(yi − y)2 = 342, 1
P
i
P
(xi − x)(yi − y) = 167, 5
i
Donc la droite de régression des moindres carrés de y en x est y = β̂ 0 + β̂ 1 x
Avec
β̂ 0 = 2,1333 ; β̂ 1 = 2,0303 ; r(x,y) = 0,9970.
Si on applique directement les relations matricielles, on obtient :
4 1 1
6 1 2
y = . ; X= . .
.. .. ..
22 1
10
t 10 55 t 133
XX = ; Xy =
55 385 899
L’équation normale est alors
10β0 + 55β1 = 133
55β0 + 385β1 = 899
d’où la solution
(i) tracer l’histogramme de ces données pour les revenus allant de 0 à 7000.
Indications Attention les intervalles de classes ne sont pas constants.
Exercice 6.2.2. On désire tester n produits. On fait appel à 2 goûteurs et on leur demande de classer ces n
produits. Nous avons donc à notre disposition une série statistique double :
x1 , x2 , . . . , xn
y1 , y 2 , . . . , y n
6. EXERCICES 33
avec :
{x1 , x2 , . . . , xn } = {y1 , y2 , . . . , yn } = {1, 2, . . . , n}
On appelle coefficient de Spearman le coefficient de corrélation linéaire :
cov(x, y)
rs =
sx sy
Étudier la liaison entre q e et C e en supposant que les incertitudes expérimentales sur C e sont négligeables
devant celles sur q e . On fera le graphique en “ nuage de points ” des valeurs de q e en fonction des valeurs de C e .
On étudiera ensuite les deux modèles suivants :
Modèle de Langmuir qe = q1+bC m bCe
e
1/n
Modèle de Freundlich qe = KCe
Pour chacun des deux modèles, on estimera les paramètres du modèle (q m et b, K et n) par régression linéaire
simple sur des variables “ modifiées ”.
Conclure sur “ l’adéquation ” des 2 modèles proposés.
Indications
On prendra pour le modèle de Langmuir les variables xL = 1/Ce et yL = 1/qe et pour le modèle de Freundlich
les variables xF = ln Ce et yF = ln qe . On donne
x2Li = 0.7904
P P P P
i xLi = 1.4151 i yLi = 0, 0628 i i xLi yL i = 0, 0185
Exercice 6.3.2. Dix répétitions d’une mesure de plomb ont été effectuées par spectrophotométrie d’absorption
atomique sur 10 échantillons indépendants. la table 6.3.2 suivant rassemble les valeurs trouvées.
34 CHAPITRE 2. STATISTIQUE DESCRIPTIVE
Mesures xi Mesures xi
1 0,975 6 1.210
2 1,095 7 1,232
3 1,135 8 1,242
4 1,165 9 1,362
5 1,180 10 2,185
Étudier la liaison entre E, H et T. On fera le graphique en “ nuage de points ” des valeurs de E en fonction
des valeurs de H, puis de T. On étudiera ensuite la régression linéaire multiple E = β 0 + β 1 H + β 2 T
On donne P P P
i Ei = 323, 5 Pi Hi2 = 283, 5 Pi Ti2 = 158, 9
P Pi Hi = 5420 Pi Ti = 1812, 4
i Ei Hi = 6260, 9 i Ei Ti = 3300, 4 i Hi Ti = 2651
Chapitre 3
Probabilités
1 Introduction
L’objet de la statistique est souvent d’obtenir des conclusions sur une population à partir de données. Afin de
d’obtenir celles-ci nous aurons besoin de connaı̂tre les lois de probabilité de certaines variables aléatoires définis
sur l’espace d’échantillonnage (i.e. sur l’espace de tous les échantillons possibles). Ceci est l’objet du chapitre sur
la théorie de l’échantillonnage. Pour cela nous avons donc besoin des notions fondamentale de probabilités.
Jeu de dé
6
Probabilités Statistiques
?
Population
6
Probabilités Statistiques
?
n-Échantillon
A l’origine les probabilités sont liées au jeux de hasard1 et on continue depuis à parler de science du hasard et
aussi de loi du hasard. Mais comment cela est-il possible puisque par définition même le hasard est imprévisible ?
Intuitivement on définit souvent la probabilité d’un événement comme le rapport du nombre de cas favorables
sur le nombre de cas total, supposés tous également possibles. Mais que veut dire “également possibles” sinon
“également probables” ? Et que signifie “également probables” sinon “de probabilités égales”. La probabilité est
ainsi définie à partir du terme probabilité ! Cette définition peut se comparer à la définition du point comme limite
d’une sphère dont le rayon tend vers 0 et de la sphère comme l’ensemble de points situés à une égale distance d’un
point fixe. Pourtant tout le monde sait ce qu’est un point et ce qu’est une sphère.
La théorie des probabilités est en fait une théorie mathématique parfaitement rigoureuse qui permet de modéliser
1 Il est à remarquer d’ailleurs que ce terme vient d’un mot arabe qui signifie : jeu de dé. Nous profitons de cette note pour souligner
que le terme aléa provient lui du latin alea qui signifie aussi jeu de dé.
35
36 CHAPITRE 3. PROBABILITÉS
des phénomènes où les résultats ne peuvent être connus avec certitude et c’est cette théorie que nous allons étudier
maintenant.
Exemple 2.1.2 (Cas infini dénombrable). On considère l’expérience aléatoire qui consiste à lancer un dé et à
noter le nombre de coups nécessaires pour obtenir 6 pour la première fois. On a donc Ω = {1, 2, 3, 4, . . .} = N∗ . La
probabilité de l’événement élémentaire n est :
n−1
5 1
pn =
6 6
+∞ +∞ n−1 +∞ n
X X 5 1 1X 5 1 1
pn = = = . 5 =1
n=1 n=1
6 6 6 n=0
6 6 1− 6
Exemple 2.1.3 (Cas infini non dénombrable). Un voyageur arrive à la date t = 0 à une station de bus. On sait
qu’un bus passe toutes les 5 minutes. Le voyageur étant seul ne peut savoir quand est passé le dernier bus. Quelle
probabilité peut-on définir ?
Le voyageur sait qu’il attendra au maximum 5 minutes. Donc ici Ω = [0, 5]. Mais il n’a aucune raison de
privilégier des instants par rapport à d’autres. Aussi il est logique de prendre comme probabilité d’un intervalle
[a, b] = A ⊂ Ω le rapport des longueurs des intervalles A et Ω :
b−a
P (A) =
5−0
Plus l’intervalle sera grand plus il aura de “chance” de voir le bus passer. L’ensemble des événements E contiendra
donc tout les intervalles du type [a, b] mais aussi :
– [0, a[= CΩ [a, 5]
– ]b, 5] = CΩ [0, b]
– [a, b[= ∪n∈N [a, b − (1/n)]
– ]a, b] = ∪n∈N [a + (1/n), b]
– ]a, b[=]a, (a + b)/2] ∪ [(a + b)/2, b[
– ∪n∈N (an , bn ) où (an , bn ) est un intervalle ouvert, fermé ou semi-ouvert
– ∩n∈N (an , bn ) = CΩ {∪n∈N CΩ (an , bn )}
– {a} = ∩n∈N [a − (a/n), a + (1/n)]
– etc ...
E est un ensemble très vaste mais on démontre qu’il est différent de P(Ω). Ayant défini P ([a, b]) par (b − a)/5 =
Rb
a
(1/5)dx on démontre alors que l’on peut construire une probabilité P sur E et que l’on a :
Z
P (A) = (1/5)dx
A
f (x) 6 'A
1
5
@@@@@@@@@
@ @@@@
@
@@@@@@@@@ @@@
@@ @ @@@@
@@@@@@@ @ @@@
@@@ @@@
@@@@@@@ @ @
@@@@ @ @ @@@@
@@@@@@ @ @@ @
@
@@@@@@@@
@@ @
@@@@ -
a b c d x
2.2 Définitions
Lorsque Ω est un ensemble infini non dénombrable (un intervalle de R par exemple) nous ne pouvons pas
définir la probabilité d’un événement de façon constructive. En fait il existe même des sous ensembles de Ω pour
lesquels nous ne pouvons pas calculer de probabilités, et l’ensemble des événements E est alors un sous ensemble
de P(Ω). Les ensembles pour lesquels nous ne pouvons pas calculer la probabilité sont assez pathologiques et on
ne les rencontre jamais dans la pratique ; néanmoins nous devons mathématiquement définir quelles propriétés doit
avoir l’ensemble E. La probabilité ne peut alors être définie que de façon axiomatique 2 .
Définition 2.2.1 (Tribu ou σ-algèbre de Boole). Soit Ω un ensemble non vide. Un sous ensemble E de P(Ω) est
une tribu ou une σ-algèbre de Boole si et seulement si elle vérifie les trois propriétés suivantes :
(i) ∅ ∈ E et Ω ∈ E
(ii) Si A ∈ E alors CΩ A ∈ E
(iii) Si Ai ∈ E ∀i ∈ I avec I fini où dénombrable alors
[
Ai ∈ E
i∈I
Définition 2.2.2 (Espace probabilisé ou mesurable). Tout couple (Ω, E) où E est une tribu est appelé un espace
probabilisé ou mesurable.
Définition 2.2.3 (Probabilité). Soit (Ω, E) un espace probabilisé. Une probabilité P sur E est une application de
E dans [0, 1] qui satisfait les trois axiomes suivants :
(i) 0 ≤ P (A) ≤ 1 ∀A ∈ E ; P (Ω) = 1
(ii) ∀(A, B) ∈ E × E A ∩ B = ∅ =⇒ P (A ∪ B) = P (A) + P (B)
(iii) Si (An )n∈N An ∈ E est une suite telle que An+1 ⊂ An et
\
An = ∅ alors lim P (An ) = 0
n→+∞
n∈N
Exemple 2.3.1. Reprenons l’exemple (2.1.1), alors Ω = {[c], [C]}, p = 3/4 q = 1/4
2 Cette définition axiomatique fut donnée la première fois par le mathématicien soviétique (ou russe ?) A.Kolmogorov en 1933. Cette
approche est donc assez récente. Ceci montre bien que cette notion de probabilité n’est pas aussi évidente qu’elle n’y paraı̂t à priori.
38 CHAPITRE 3. PROBABILITÉS
pk 6
3
4
1
4
-
[C] [c] k
pk 6
1
6
5
36
-
1 2 3 4 5 6 7 8 9 10 11 k
Par contre lorsque Ω est infini non dénombrable la probabilité est parfaitement déterminée par sa fonction de
densité.
Exemple 2.3.3. Loi uniforme sur un intervalle [a, b]. La fonction de densité est :
f (x) = 1/(b − a) sur [a, b] et 0 ailleurs.
f (x) 6 'A = 1
1
(b−a)
@@@@@@@@@@@@@@@@@@@
@
@@@@@@@@@@@@@@@@@@@
@@ @
@@@@@@@@@@@@@@@@@ @
@@@ @
@@@@@@@@@@@@@@@@@
@@@@ @
@@@@@@@@@@@@@@@@ @
@
@@@@@@@@
@@@@@@@@@@@@ -
a b x
f(x)
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
x
−3 −2 −1 0 1 2 3
Fig. 3.1 –
Définition 3.1.1 (Probabilité conditionnelle). Soit (Ω, E) un espace probabilisé et P une probabilité sur cet espace.
Soit B un événement de probabilité non nulle. On appelle probabilité conditionnelle de l’événement A sachant que
B est réalisée la quantité :
P (A ∩ B)
P (A/B) =
P (B)
P (A ∩ B) = P (A).P (B)
Démonstration
Si P (B) = 0 alors P (A ∩ B) = 0 (car 0 ≤ P (A ∩ B) ≤ P (B) = 0) donc P (A ∩ B) = P (A).P (B)
Si P (B) 6= 0 alors P (A ∩ B) = P (B).P (A/B) or A et B sont indépendants si et seulement si la réalisation de A ne
donne pas d’information sur B donc si et seulement si P (A/B) = P (A) Par suite P (A ∩ B) = P (A).P (B) 2
Exemple 3.2.3. On jette deux dés. Soit A l’événement “la somme des dés est 6” et B l’événement “le premier dé
est un 4”. Alors P (A ∩ B) = P ({(4, 2)}) = 1/36. Mais
P (A) = P ({(1, 5), (2, 4), (3, 3), (4, 2), (5, 1)}) = 5/36
et
P (B) = P ({(4, 1), (4, 2), (4, 3), (4, 4), (4, 5), (4, 6)}) = 1/6
40 CHAPITRE 3. PROBABILITÉS
donc P (A).P (B) 6= P (A ∩ B) et les deux événements sont dépendants. Ici P (A/B) = 1/6 et P (A/B̄) = 4/30 . Soit
C l’événement “la somme des dés est 7”. Alors
P (C) = P ({(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)}) = 1/6 et par suite
P (B ∩ C) = 1/36 = P (B).P (C). Ici B et C sont indépendants ; le fait de savoir que la somme est 7 ne donne
aucun renseignement sur le score du premier dé. Par contre le fait de savoir que la somme est 6 implique que l’on
ne peut pas avoir un 6 pour le premier dé.
Nous allons maintenant généraliser la notion d’indépendance à un nombre quelconque d’événements.
Définition 3.2.4 (Indépendance de n événements). Soit (Ai )i=1,...,n n événements d’un espace probabilisé. Ces
événements sont dits indépendants si et seulement si pour tout sous-ensembles
{A01 , A02 , . . . , A0r } de {A1 , . . . , An } r ≤ n on a :
P (A01 ∩ A02 . . . ∩ A0r ) = P (A01 ).P (A02 ) . . . P (A0r )
Remarque 3.2.5. Des événements (Ai )i=1,...,n peuvent être indépendants deux à deux sans être indépendants.
Considérons par exemple les 3 événements suivants de l’expérience aléatoire consistant à jeter deux pièces de
monnaie non truquées :
– L’événement A “la première pièce est Pile”
– L’événement B “la deuxième pièce est Face”
– L’événement C “les deux pièces sont sur le même côté”
Alors
P (A ∩ B) = 1/2.1/2 = P (A).P (B)
P (A ∩ C) = 1/2.1/2 = P (A).P (C)
P (B ∩ C) = 1/2.1/2 = P (B).P (C)
Les trois événements sont dont bien indépendants deux à deux. Mais
P (A ∩ B ∩ C) = P (∅) = 0 6= P (A).P (B).P (C)
par suite les trois événements ne sont pas indépendants. Ici le fait de savoir que la première pièce donne Pile et
que la deuxième pièce donne Face implique que l’événement C ne peut pas être réalisé.
4 Variables aléatoires
4.1 Introduction
Nous serons toujours amenés en pratique à travailler avec des variables aléatoires. Chaque mesure collectée sera
mise en relation avec une variable aléatoire. Ainsi les grandeurs auxquelles on s’intéressera seront en lien avec des
fonctions définies sur un ensemble fondamental, c’est-à-dire avec des variables aléatoires. Ce qui nous intéressera, en
pratique, sera la loi de probabilité sur l’espace d’arrivé. Nous donnons ci-après quelques exemples de formalisation
par des variables aléatoires où P désigne la population française :
X1 : P −→ {M, F }
ω 7−→ M si ω est un homme
ω 7−→ F si ω est une femme
X2 : P −→ R
ω 7−→ Revenu de ω
X4 : P −→ R
ω 7−→ taille de ω
X5 : P −→ N
ω 7−→ nombre de yaourts mangés par ω pendant un an
Dans cette section nous étudierons tout d’abord le cas simple où la variable aléatoire ne pourra prendre qu’un
nombre fini ou dénombrable de valeur différentes. Ensuite nous étudierons les variables aléatoires réelles continues,
puis nous nous intéresserons à la notion de fonction de répartition d’une variable réelle. Le paragraphe suivant sera
consacré à l’étude succincte des fonctions de variables aléatoires réelles. Enfin nous terminerons cette section par
une rapide étude des variables aléatoires vectorielles.
4. VARIABLES ALÉATOIRES 41
4.2 Définition
Variables aléatoires discrètes
Définition 4.2.1 (Variable aléatoire discrète). Soit (Ω, E) un espace probabilisé et P une probabilité sur cet espace.
On appelle variable aléatoire discrète définie sur (Ω, E) à valeur dans E toute application X de Ω dans E telle que :
(i) X ne prend qu’un nombre fini ou dénombrable de valeurs dans E.
(ii) Pour tout x ∈ X(Ω), le sous ensemble X −1 (x) = {ω ∈ Ω/X(ω) = x} de Ω est un événement (X −1 (x) ∈ E).
Théorème 4.2.2. Soit (Ω, E) un espace probabilisé et P une probabilité sur cet espace. Soit X une variable aléatoire
discrète de Ω dans E, alors l’application PX définie par :
PX : P(X(Ω)) −→ [0, 1]
A 7−→ PX (A) = P (X −1 (A)) = P ({ω ∈ Ω/X(ω) ∈ A}
Démonstration
Évidente. 2
Remarque 4.2.3. La terminologie employée ici est assez malheureuse et est source de confusion chez l’étudiant.
Nous tenons donc à bien faire prendre conscience qu’une variable aléatoire X est une fonction parfaitement
déterminée, cela n’a rien à voir avec une variable mathématique bien qu’on la note X. Quant au terme aléatoire il
n’est présent que pour rappeler que l’on travaille sur des espaces probabilisés.
Remarque 4.2.4. Une variable aléatoire permet en fait de transporter une probabilité définie sur un espace pro-
babilisé dans un autre espace probabilisé.
Remarque 4.2.5. En posant pn = PX (xn ) = P (X−1 ({xn })) nous retrouvons la définition d’une probabilité sur
un ensemble fini ou dénombrable.
Définition 4.2.6 (Loi d’une variable aléatoire). La probabilité PX est appelée la loi de la variable aléatoire X.
Exemple 4.2.7. On jette trois fois une pièce de monnaie et on s’intéresse au nombre de faces obtenu. Ici
et
X : Ω −→ R
ω 7−→ X(ω) = nombre de F dans ω
X(Ω) = {0, 1, 2, 3} = Ω0 , X est une variable aléatoire de (Ω, P(Ω)) dans (Ω0 , P(Ω0 ))
Exemple 4.2.8. Reprenons l’exemple (2.2.1.1) et posons Ω = {CC, Cc, cC, cc}. Nous pouvons alors définir le
phénotype comme la variable aléatoire suivante :
Définition 4.2.9 (Variable aléatoire discrète réelle). On appelle variable aléatoire discrète réelle (v.a.r.d.) toute
variable aléatoire discrète à valeur dans R.
Notation 4.2.10. Lorsque X est une variable aléatoire réelle on note aussi :
PX ({x}) = P (X = x) = P (X −1 (x))
PX (] − ∞, x]) = P (X ≤ x) = P (X −1 (] − ∞, x]))
Remarque 4.2.11. On représente la loi de probabilité d’une variable discrète réelle par des diagrammes en bâtons.
Définition 4.2.13 (Fonction de densité). On appelle fonction de densité d’une variable aléatoire réelle continue
X toute fonction f permettant de définir la probabilité comme indiqué dans la définition ci-dessus.
Remarque 4.2.14. Une fonction f est une fonction de densité si et seulement si :
(i) f (x) ≥ 0 pour tout x.
(ii) f est intégrable.
R +∞
(iii) −∞ f (x)dx = 1
Exemple 4.2.15. La durée de fonctionnement d’un ordinateur avant sa première panne est une variable aléatoire
continue de densité donnée par :
f : R −→ R
x 7−→ λe−x/100 si x ≥ 0
x 7−→ 0 sinon
Quelle est la probabilité que cette durée de fonctionnement soit comprise entre 50 et 150 heures ? Quelle est la
probabilité que l’ordinateur fonctionne moins de 100 heures ?
Z +∞ Z +∞
f (x)dx = λe−x/100 dx = 100λ
−∞ 0
Conclusion
Nous pouvons donc dire qu’une variable aléatoire c’est une fonction parfaitement connue qui permet de
transposer une probabilité d’un espace probabilisé dans un autre. Une variable aléatoire, c’est comme le
Saint Empire Romain : il n’était pas saint, ce n’était pas un empire et il n’était pas Romain3 . Quant-à la loi d’une
variable aléatoire, c’est la probabilité qu’elle définit sur l’espace d’arrivée. C’est cette loi ou des paramêtre de cette
loi qui nous intéressera en pratique. Par abus de langage nous dirons que :
3 Cette analogie vient de Donald E. Catlin ”Estimation, Control, and the Discrete Kalman Filter”, page 5, ed. Springer-Verlag 1989
4. VARIABLES ALÉATOIRES 43
Et nous noterons :
Définition 4.3.1 (Fonction de répartition). On appelle fonction de répartition associée à la variable aléatoire
réelle X la fonction F définie par :
F : R −→ R
x 7−→ F (x) = P (X ≤ x) = PX (] − ∞, x])
En d’autre termes F (x) est la probabilité que la variable aléatoire X prenne une valeur inférieure ou égale à x.
Nous allons maintenant voir les représentations graphiques des cette fonction sur trois exemples, l’un fini, l’autre
dénombrable et le troisième infini non dénombrable.
Exemple 4.3.2. Reprenons l’exemple (4.2.7) où la variable aléatoire X est le nombre de faces obtenu lors du jeté
de trois pièces. Ici la fonction de répartition est :
F (x) = 0 si x ∈] − ∞, 0[
1
F (x) = P (X ≤ x) = P (X = 0) = si x ∈ [0, 1[
8
1 3 1
F (x) = P (X = 0 ou X = 1) = P (X = 0) + P (X = 1) = + = si x ∈ [1, 2[
8 8 2
7
F (x) = si x ∈ [2, 3[
8
F (x) = 1 si x ∈ [3, +∞[
1 r
7 r
8
1 r
2
1 r
8
-
-1 0 1 2 3 x
44 CHAPITRE 3. PROBABILITÉS
Exemple 4.3.3. Soit X ne nombre de fois qu’il faut lancer une pièce de monnaie pour obtenir pile. Nous avons :
F (x) = 0 si x<1
1
F (x) = si x ∈ [1, 2[
2
1 1
F (x) = + si x ∈ [2, 3[
2 4
..
.
n
X 1 1
F (x) = n
= 1 − n si x ∈ [n, n + 1[
i=1
2 2
..
.
r
7 r
8
3 r
4
1 r
2
-
-1 0 1 2 3 x
Exemple 4.3.4. Considérons la loi uniforme sur [−1, +1], c’est-à-dire la loi définie par la fonction de densité f
suivante :
f :R −→ R
u 7−→ f (u) = 1/2 si u ∈ [−1, +1]
u 7−→ f (u) = 0 sinon
Z x Z x
Si x ≤ −1 alors F (x) = f (u)du = 0dx = 0
−∞ −∞
Z x Z x
1 1
Si − 1 ≤ x ≤ 1 alors F (x) = f (u)du = dx = (x + 1)
−∞ −1 2 2
Zx Z1
1
Si x ≥ 1 alors F (x) = f (u)du = dx = 1
−∞ −1 2
F (x) 6
1
2
-
-1 0 1 2 3 x
Remarque 4.3.5. Lorsque l’on parle de variable aléatoire réelle continue c’est la fonction de répartition qui est
continue et non pas la fonction de densité.
Théorème 4.3.6. La loi de probabilité d’une variable aléatoire réelle est parfaitement connue à partir de sa
fonction de répartition F . C’est-à-dire que si l’on connaı̂t la fonction de répartition d’une variable aléatoire réelle
X alors on peut calculer P (a < X < b) pour tout (a, b) dans R. Nous dirons alors que la loi de X est F .
Démonstration
Admise 2
Remarque 4.3.7. Nous emploierons indifféremment, par abus de langage, pour caractériser une loi les expres-
sions :
(i) X est de loi F où F est la fonction de répartition associée à X.
(ii) X est de loi f si X est continue et f est la fonction de densité associée à X.
(iii) X est de loi P (X = k) si X est discrète.
Théorème 4.3.8. Soit X une variable aléatoire réelle continue de fonction de densité f alors :
(i) Si f est continue en a et b alors :
Z b
P (a ≤ X ≤ b) = f (x)dx = P (a ≤ X < b)
a
= P (a < X ≤ b)
= P (a < X < b)
= F (b) − F (a)
(ii) Si f est continue en a alors :
dF
(a) = F 0 (a) = f (a)
dx
Démonstration
Cela provient des propriétés de l’intégrale 2
Corollaire 4.3.9. Soit X une variable aléatoire réelle continue définie par une fonction de densité f continue.
Alors si F est la fonction de répartition associée à X on a :
Z x
F (x) = f (u)du et F 0 (x) = f (x)
−∞
et
P (a < X < b) = F (b) − F (a)
P (a < X ≤ b) = F (b) − F (a)
P (a ≤ X < b) = F (b) − F (a)
P (a ≤ X ≤ b) = F (b) − F (a)
Remarque 4.3.10. Le corollaire précédent est important dans la pratique car c’est la fonction de répartition F
qui est donnée dans les tables statistiques.
46 CHAPITRE 3. PROBABILITÉS
Exemple 4.4.1. Soit X une variable uniformément distribuée sur [0, 1]. On obtiendra la distribution de Y = X 2
de la manière suivante :
FY (y) = P (Y ≤ y) y ≥ 0
= P (X 2 ≤ y)
√
= P (X ≤ y)
√ √
= FX ( y) = y si y ∈ [0, 1]
Donc
1
fY (y) = FY0 (y) = √ si y ∈ [0, 1]
2 y
fY (y) = 0 sinon
Théorème 4.4.2. Soit X une variable aléatoire réelle continue de densité fX et soit g une fonction strictement
monotone (croissante ou décroissante) et dérivable de R dans R. La densité de probabilité de la variable aléatoire
Y = g(X) est alors :
d −1
fX (g −1 (y)) dy
g (y) si il existe un x pour lequel y = g(x)
fY (y) =
0 si g(x) 6= y pour tout x
Démonstration
Cela provient du théorème de changement de variable dans une intégrale. 2
Application 4.4.3. Soit X une variable aléatoire réelle de loi normale de paramètre µ et σ, c’est-à-dire que X a
pour fonction de densité
1 2 2
f (u) = √ e−(x−µ) /(2σ )
2πσ
et soit
x−µ
g(x) = et Y = g(X)
σ
alors
x−µ
g(x) = y ⇐⇒ y=
σ
⇐⇒ x = σy + µ = g −1 (y)
Par suite
1 2
fY (y) = fX (σy + µ)σ = √ e−y /2
2π
et donc Y suit une lois normale réduite (i.e. de paramètres 0 et 1). Par conséquent nous avons :
Z a
FX (a) = fX (x)dx = P (X ≤ a)
−∞
a−µ
a−µ
Z σ
= fY (y)dy = P (Y ≤ )
−∞ σ
= P (σY + µ ≤ a)
a−µ
= FY ( )
σ
En conclusion si on connaı̂t la fonction de répartition de loi normale réduite on peut calculer la fonction de
répartition de toutes les lois normales.
4. VARIABLES ALÉATOIRES 47
Définition 4.5.1 (Vecteur aléatoire). On appelle vecteur aléatoire de dimension n tout n-uplet
(X1 , . . . , Xn ) de n variables aléatoires définies sur le même espace (Ω, E).
Définition 4.5.3 (Fonction de probabilité jointe). Soient X et Y 2 variables aléatoires discrètes à valeur respec-
tivement dans E et F . On appelle fonction de probabilité jointe de X et de Y la fonction p définissant la loi de
probabilité du couple de variables aléatoires (X, Y ) suivante.
p : E × F −→ R
(x, y) 7−→ p(x, y) = P (X = x etY = y)
Définition 4.5.5 (Loi marginale). Soient X et Y 2 variables aléatoires discrètes à valeurs dans E et F et p
la fonction de probabilité jointe de X et Y . On appelle loi de probabilité marginale de X (respectivement Y )
l’application
pX : E −→ R
X
x 7−→ pX (x) = p(x, y)
y∈F
respectivement
pY : F −→ R
X
y 7−→ pY (y) = p(x, y)
x∈E
Exemple 4.5.8. On lance deux dés à jouer et on s’intéresse à la somme des résultats obtenus (variable U ) et au
maximum des résultats des deux dés (variable V ). Nous avons alors :
48 CHAPITRE 3. PROBABILITÉS
U :V 1 2 3 4 5 6 pV
1 1
2 36 0 0 0 0 0 36
2 2
3 0 36 0 0 0 0 36
1 2 3
4 0 36 36 0 0 0 36
2 2 4
5 0 0 36 36 0 0 36
1 2 2 5
6 0 0 36 36 36 0 36
2 2 2 6
7 0 0 0 36 36 36 36
1 2 2 5
8 0 0 0 36 36 36 36
2 2 4
9 0 0 0 0 36 36 36
1 2 3
10 0 0 0 0 36 36 36
2 2
11 0 0 0 0 0 36 36
1 1
12 0 0 0 0 0 36 36
1 3 5 7 9 11
pU 36 36 36 36 36 36 1
Nous allons maintenant étudier le cas des variables aléatoires réelles continues.
Définition 4.5.9 (Fonction de densité d’un couple de v.a. continues).
On dit que le couple de variables aléatoires réelles continues a une densité de probabilité f , application de R2 dans
R positive et intégrable si et seulement si on peut écrire :
ZZ
P (A) = P ((X, Y ) ∈ A) = f (x, y)dxdy ∀A ∈ E
A
2
où E est la tribu de R qui contient les rectangles [a, b] × [c, d]
Remarque 4.5.10. Si A est un rectangle [a, b] × [c, d] alors on démontre que
Z b Z d
P (A) = ( f (x, y)dy)dx
a c
Illustration 4.5.11. Graphiquement z = f (x, y) représente dans R3 une surface et le volume totale délimité par
cette surface et le plan (O, x, y) est égale à 1 car
ZZ
P (Ω) = P (R2 ) = f (x, y)dxdy = 1
R2
Exemple 4.5.12. (Densité uniforme sur un disque C) Soit C le disque de centre O et de rayon a > 0, C =
{(x, y) ∈ R2 tel que x2 + y 2 ≤ a}
f (x, y) = πa1 2
si (x, y) ∈ C
f (x, y) = 0 sinon
4. VARIABLES ALÉATOIRES 49
2π
Définition 4.5.14 (Loi marginale). Soit X et Y un couple de variables aléatoires réelles continues de fonction de
densité f . On appelle loi de probabilité marginale de X (respectivement Y ) l’application :
fX : R −→ R
Z +∞
x 7−→ fX (x) = f (x, y)dy
y=−∞
respectivement
fY : R −→ R
Z +∞
y 7−→ fY (y) = f (x, y)dx
x=−∞
Remarque 4.5.15. (i) La loi marginale de X (respectivement de Y ) est en fait la loi de la variable aléatoire X
(respectivement Y )
(ii) La fonction de répartition de X (respectivement de Y ) est alors :
Z x Z x Z +∞
FX (x) = fX (u)du = f (u, v)dudv
−∞ u=−∞ v=−∞
Z y Z +∞ Z y
(respectivement FY (y) = fY (v)dv = f (u, v)dudv )
−∞ u=−∞ v=−∞
Remarque 4.5.16. (i) La généralisation au cas de n variables aléatoires (Y1 , . . . , Yn ) est immédiate. Lorsque
l’on traite des variables discrètes, on a :
p(y1 , y2 , . . . , yn ) = P (Y1 = y1 et Y2 = y2 . . . et Yn = yn )
Lorsque l’on traite des variables aléatoires réelles continues, on a :
Z Z Z
P (A) = · · · f (y1 , y2 , . . . , yn )dy1 dy2 . . . dyn
A
(ii) Rien ne nous empêche de définir aussi des lois jointes de deux variables aléatoires réelles X et Y lorsque X
est discrète et Y continue. Mais, comme nous ne les utiliserons pas ici, nous ne les étudierons pas.
5 Espérance mathématique
5.1 Définitions
L’espérance mathématique d’une variable aléatoire est l’un des concepts les plus important en théorie des
probabilités.
Définition 5.1.1 (Espérance mathématique d’une v.a.r.d.). Soit X une variable aléatoire réelle discrète de loi P .
On appelle espérance mathématique la grandeur, si elle existe, suivante.
X
E(X) = xP (X = x)
x
P (X = 0) = 1 − p = q et P (X = 1) = p
alors
E(X) = 0 × q + 1 × p = p
Définition 5.1.3 (Espérance mathématique d’une v.a.r. continue). Soit X une variable aléatoire réelle continue
de fonction de densité f . On appelle espérance mathématique de X la quantité si elle existe :
Z +∞
E(X) = xf (x)dx
−∞
Théorème 5.1.5. Soit X une variable aléatoire réelle et g une application de R dans R. Soit Y = g(X), alors
l’espérance mathématique de Y est si elle existe :
(i) Si X est discrète : X
E(Y ) = E(g(X)) = g(x)P (X = x)
x
Remarque 5.1.6. On devrait en fait écrire Y = g ◦ X au lieu de Y = g(X). En effet il s’agit bien ici de la
composition de fonction :
X g
Y : Ω −→ R −→ R
ω 7−→ X(ω) 7−→ g ◦ (X(ω))
Théorème 5.1.7. Soit a et b deux constantes réelles et X une variable aléatoire réelle d’espérance mathématique
E(X), alors nous avons
E(aX + b) = aE(X) + b
Démonstration
Il suffit de poser Y = aX + b et d’appliquer le théorème précédent. Le résultat s’obtient alors immédiatement en
utilisant la propriété de linéarité de la somme ou de l’intégrale. 2
Définition 5.1.8 (Moments par rapport à l’origine). Soit X une variable aléatoire réelle. On appelle n-ième
moment de X par rapport à l’origine la quantité si elle existe E(X n )
(i) Si X est discrète X
E(X n ) = xn P (X = x)
x
Remarque 5.1.9. Le n-ième moment de X par rapport à l’origine est l’espérance mathématique de la variable
aléatoire Y = X n .
Définition 5.1.10 (Moments centrés). Soit X une variable aléatoire réelle. On appelle n-ième moment centré de
X la quantité si elle existe E[(X − E(X))n ]
(i) Si X est discrète
X
E[(X − E(X))n ] = (x − E(X))n P (X = x)
x
Remarque 5.1.11. Si l’on pose µ = E(X) alors le n-ième moment centré de X est l’espérance mathématique de
la variable aléatoire Y = g(X) avec
g : R −→ R
x 7−→ (x − µ)n
Exemple 5.2.2. Soit (Y1 , . . . , Yn ) un n-uplet de variables de loi de Bernoulli de paramètre p alors :
Xn n
X n
X
E( Yi ) = E(Yi ) = p = np
i=1 i=1 i=1
5.3 Variance–Covariance
Définition 5.3.1 (Variance d’une variable aléatoire réelle). Soit X une variable aléatoire réelle. On appelle variance
de X la quantité si elle existe :
V ar(X) = E[(X − E(X))2 ]
Remarque 5.3.3. La variance est une mesure de l’écart moyen entre la variable aléatoire X et son espérance
mathématique. Nous aurions pu prendre comme mesure
E(|X − E(X)|), mais cette quantité est plus difficile à manipuler.
La variance a la dimension du carré de la variable aléatoire aussi, pour avoir une grandeur de la dimension de
la variable, on définit la quantité suivante.
Définition 5.3.4 (Écart type). Soit X une variable aléatoire réelle. On appelle écart type de X la quantité si elle
existe : p
σ(X) = V ar(X)
Théorème 5.3.5. La variance d’une variable aléatoire réelle existe si et seulement si le moment d’ordre deux de
X existe et on a la relation suivante :
Démonstration
Nous n’allons démontrer que la formule ci-dessus sans démontrer totalement le théorème. Posons µ = E(X)
2
Exemple 5.3.6. Soit X et Y de lois
1
P (X = 1) =
2
1
P (X = −1) =
2
1
P (Y = 100) =
2
1
P (Y = −100) =
2
alors E(X) = E(Y ) = 0 et
1 1
V ar(X) = E(X 2 ) = 12 × + (−1)2 × = 1
2 2
1 1
V ar(Y ) = E(Y 2 ) = 100 × + (−100)2 × = 10000
2
2 2
Cet exemple illustre bien la remarque (5.3.3) ci-dessus : les variables X et Y ont la même espérance mathématique
mais la dispersion des valeurs par rapport à cette espérance mathématique est plus grande pour Y que pour X.
Théorème 5.3.7. Soit X une variable aléatoire réelle qui possède une variance alors Y = aX + b a une variance
pour tout (a, b) ∈ R2 et on a :
V ar(Y ) = a2 V ar(X)
Théorème 5.3.8. Soit (X, Y ) un couple de variables aléatoires réelles indépendantes alors
E(XY ) = E(X)E(Y )
Remarque 5.3.9. Il faut bien faire attention à la signification de l’égalité ci-dessus. (X, Y ) est un couple de
variables aléatoires réelles, c’est-à-dire que
(X, Y ) : Ω −→ R2
ω 7−→ (X(ω), Y (ω))
g : R2 −→ R
(x, y) 7−→ g(x, y) = xy
Z : Ω −→ R
ω 7−→ Z(ω) = X(ω)Y (ω)
Théorème 5.3.13. Soit (X, Y ) un couple de variables aléatoires réelles admettant des espérances mathématiques.
La covariance de X et de Y existe si et seulement si E(XY ) existe et on a la relation suivante :
Corollaire 5.3.14. Soit (X, Y ) un couple de variables aléatoires réelles admettant des espérances mathématiques.
Si X et Y sont indépendantes alors :
Cov(X, Y ) = 0
Démonstration
Cela provient de l’application directe des théorèmes (5.3.8) et (5.3.13). 2
Théorème 5.3.15. Soit (X, Y ) un couple de variables aléatoires réelles admettant des espérances mathématiques
et des variances. Alors la variance de X + Y et la covariance de X et Y existent et on a la relation suivante :
Démonstration
2
Corollaire 5.3.16. Sous les mêmes hypothèses que précédemment et si de plus les variables aléatoires sont
indépendantes alors :
V ar(X + Y ) = V ar(X) + V ar(Y )
Démonstration
Immédiate 2
Remarque 5.3.17. Les résultat précédents se généralisent sans difficultés au cas d’un n-uplet de variables aléatoires :
(i)
Xn Xn X
V ar( Yi ) = V ar(Yi ) + 2 Cov(Yi , Yj )
i=1 i=1 i<j
Exemple 5.3.18. Considérons le cas d’un n-uplet de variables aléatoires de loi de Bernoulli de paramètre p
indépendantes.
Xn n
X n
X
V ar( Yi ) = V ar(Yi ) = pq = npq
i=1 i=1 i=1
Théorème 5.3.19. Soit (X, Y ) un couple de variables aléatoires réelles ayant des variances. Nous avons alors :
|Cov(X, Y )| ≤ σ(X)σ(Y )
Définition 5.3.20 (Corrélation). Soit (X, Y ) un couple de variables aléatoires réelles ayant des variances non
nulles. On appelle corrélation de X et Y la quantité :
Cov(X, Y )
ρ(X, Y ) =
σ(X)σ(Y )
Remarque 5.3.21. On a toujours, lorsque la corrélation est définie :
−1 ≤ ρ(X, Y ) ≤ +1
Définition 5.3.22 (Variables non corrélées). Deux variables aléatoires réelles X et Y pour lesquelles la corrélation
existe sont dites non corrélées si et seulement si leur corrélation est nulle.
54 CHAPITRE 3. PROBABILITÉS
6 Théorèmes limites
6.1 Introduction
Les théorèmes limites constituent sans doute les résultats théoriques parmi les plus importants de la théorie
des probabilités. Ces théorèmes sont répartis en deux grandes classes : les lois des grands nombres d’une part,
les théorèmes centraux limites d’autre part. Les lois des grands nombres énoncent des conditions sous lesquelles
la moyenne d’une suite de variables aléatoires de même loi converge (dans un sens à définir) vers leur espérance
mathématique commune, ceci implique notamment la convergence de la fréquence d’apparition d’un événement vers
sa probabilité. Les théorèmes centraux limites par contre déterminent sous quelles hypothèses la somme de variables
aléatoires converge (ici encore dans un sens à définir) vers la distribution normale ; ceci permet d’approximer la
somme d’un grand nombre de variables aléatoires à une loi normale et c’est ce type de théorème qui justifie de
façon théorique l’utilisation (parfois abusive) de la loi normale en statistique.
Dans toute cette section nous considérerons des variables aléatoires réelles définies sur un même espace (Ω, E).
Démonstration
Nous ne démontrerons le résultat que lorsque la variance (commune) des Yi σ 2 est finie.
Comme
n n
X 1 1X
E( Yi ) = E(Yi ) = µ
i=1
n n i=1
et
n
X nσ 2 σ2
V ar( Yi ) = 2 =
i=1
n n
Il résulte de l’inégalité de Thebychev que
σ2
Y1 + Y2 + · · · + Yn
0≤P − µ > ε ≤ 2
n nε
Démonstration
Admise. 2
Remarque 6.2.4. On a souvent, au début, du mal à saisir la différence entre la loi faible et la loi forte des grands
nombres. La loi faible assure que pour toute valeur de n suffisamment grande (Y1 + · · · + Yn )/n est probablement
très voisines de µ. Elle n’assure pas cependant que (Y1 + · · · + Yn )/n devra rester dans un voisinage étroit de µ. Il
6. THÉORÈMES LIMITES 55
est donc possible qu’il y ait de larges écarts entre (Y1 + · · · + Yn )/n et µ pour une infinité d’événements, infinité
dont la probabilité collective est très faible cependant. La loi forte des grands nombres exclut cette situation. Elle
assure en particulier qu’avec une probabilité de 1 et pour toute valeur de ε > 0 la valeur de l’expression ci-dessous
ne sera supérieure à ε qu’un nombre fini de fois.
n
X Y
i
− µ
n
i=1
Exemple 6.2.5. Supposons que l’on réalise une série d’épreuves indépendantes. Soit A un événement donnée
relatif à l’expérience ainsi répétée et P (A) sa probabilité, constante au cours des épreuve. On pose :
Yi = 1 si A survient au cours de l’épreuve numéro i
Yi = 0 sinon
0.5
0.45
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
−2.7 −2.1 −1.5 −0.9 −0.3 0.3 0.9 1.5 2.1 2.7
x
tend vers la distribution normale réduite quand n tend vers +∞, c’est-à-dire que :
Z a
1 x2
P (Zn ≤ a) −→ √ e− 2 dx = φ(a)
2π −∞
n −→ +∞
Démonstration
Admise. 2
56 CHAPITRE 3. PROBABILITÉS
0.25 0.25
0.2 0.2
0.15 0.15
0.1 0.1
0.05 0.05
0 0
0 5 10 0 5 10
0.25 0.25
0.2 0.2
0.15 0.15
0.1 0.1
0.05 0.05
0 0
0 5 10 0 5 10
0.25 0.25
0.2 0.2
0.15 0.15
0.1 0.1
0.05 0.05
0 0
0 5 10 0 5 10
0.25 0.25
0.2 0.2
0.15 0.15
0.1 0.1
0.05 0.05
0 0
0 5 10 0 5 10
Exemple 6.2.8. Lorsque les Yi sont des variables de Bernouilli de paramètre p, le théorème précédent nous donne :
Y1 + · · · + Yn − np
P √ ≤β −→ φ(β)
npq
n −→ +∞
La valeur de n à partir de laquelle on peut confondre les deux quantités dépend de la valeur du paramètre p, mais
si p est compris entre 0,1 et 0,9 alors on peut pratiquement faire l’approximation à partir de n = 30.
Exemple 6.2.9. Soit X une variable aléatoire continue uniforme sur [0, 12]. On définit alors :
Ȳn : Ωn −→ R
n n
1X 1X
ω = (ω1 , . . . , ωn ) 7−→ Ȳn (ω) = Yi (ω) = X(ωi )
n i=1 n i=1
et
Ȳn − µ
Zn = √
σ/ n
avec µ = E(X) = 2.5 et σ 2 = V ar(X) = 12
alors
Zn −→ Z : N (0, 1)
n −→ +∞
6. THÉORÈMES LIMITES 57
0.1 0.1
0.05 0.05
0 0
90 100 110 90 100 110
0.1 0.1
0.05 0.05
0 0
90 100 110 90 100 110
0.1 0.1
0.05 0.05
0 0
90 100 110 90 100 110
0.1 0.1
0.05 0.05
0 0
90 100 110 90 100 110
Fig. 3.7 – ”Convergence” de l’histogramme vers la fonction de densité (n = 100, 500, 1000, 5000)
σ2
Ȳn −→ Z̄ : N (µ, )
n
n −→ +∞
0.15 0.2
0.15
0.1
0.1
0.05
0.05
0 0
0 5 10 0 5 10
0.3 0.3
0.2 0.2
0.1 0.1
0 0
0 5 10 0 5 10
Fig. 3.8 – Théorème limite centrale dans le cas d’une loi uniforme sur [0, 12] (n = 1, 2, 3, 5).
Remarque 6.2.10. Ce théorème, comme nous l’avons déjà dit en introduction de cette section, est la justification
théorique de l’emploi fréquent de la loi normale.
Lorsque l’on étudie par exemple le rendement d’une céréale, ce rendement est en fait une moyenne et cette
moyenne suit approximativement une loi normale.
58 CHAPITRE 3. PROBABILITÉS
1 1
0.8 0.8
0.6 0.6
0.4 0.4
0.2 0.2
0 0
0 5 10 0 5 10
0.8
0.6
0.4
0.2
0
0 5 10
Fig. 3.9 – Théorème limite centrale dans le cas d’une loi uniforme sur [0, 12] (n = 10, 20, 50).
Chapitre 4
Théorie de l’échantillonnage
X:G −→ {0, 1}
g 7−→ 0 si g ne germe pas
g 7−→ 1 si g germe.
Cette fonction est une variable aléatoire de loi de Bernoulli de paramètre p = P (X = 1) = E(X) où p exprimé en
pourcentage n’est autre que le taux de germination. On peut donc définir le taux de germination, exprimé comme
un nombre dans l’intervalle [0, 1], comme étant l’espérance mathématique, c’est-à-dire la valeur moyenne, de la
variable aléatoire X. Estimer un taux de germination, c’est donc trouver une ”valeur approchée” du paramètre p
de la loi de Bernoulli de la variable aléatoire X.
Exemple 1.2.2. Le 29 mai 2005 les électeurs français seront appelés à se prononcer pour ou contre le projet de
traité établissant une constitution pour l’Europe3 . Si notre objectif est de savoir si la constitution sera acceptée ou
non, il faut considérer comme population l’ensemble des bulletins exprimés, c’est-à-dire l’ensemble des bulletins oui
1 Le terme de modélisation mathématique est, à notre grand regret, souvent galvaudé. Il signifie souvent l’utilisation de modèles
déjà établis. Mais l’art de la modélisation, c’est-à-dire l’art de construire des modèles mathématiques, est difficile. Newton a dû, pour
trouver la loi de la gravitation universelle, construire la notion de dérivée !
2 La modélisation mathématique intervient aujourd’hui dans tous les domaines scientifiques : l’environnement, la science du climat, la
biologie, l’économie, ... Elle utilise des notions mathématiques très variées et parfois très complexes : équations différentielles ordinaires
et stochastiques, équations aux dérivées partielles, chaı̂nes de Markov, ... La modélisation étudiée ici est donc un cas très particulier.
3 Nous avons fini de rédiger ce chapitre une semaine avant le référendum
59
60 CHAPITRE 4. THÉORIE DE L’ÉCHANTILLONNAGE
ou non4 . Soit P cette population, nous pouvons alors définir la variable aléatoire X suivante :
X:P −→ {0, 1}
b 7−→ 0 si le bulletin b est non
b 7−→ 1 si le bulletin b est oui.
X est encore une variable aléatoire de loi de Bernoulli de paramètre p. Ce paramètre représente ici le pourcentage
des électeurs qui ont voté oui dans la population des électeurs qui ont voté oui ou non. Le problème est alors de
connaı̂tre la valeur de ce paramètre et plus précisemment de savoir si cette valeur est supérieure ou inférieure à
1/2.
Remarque 1.2.3. Dans l’exemple précédent, nous avons considéré le cas d’un référendum et non celui d’un
sondage d’opinion. Dans le cas du référendum, les estimations qui seront données le soir du 29 mai seront obtenues
à partir de bulletins dépouillés, donc de données exactes. Le cas des sondages est lui beaucoup plus délicat. En effet,
on n’est pas sûr dans un sondage que les personnes interrogées répondent vraiment ce qu’elles pensent et on ne
sait pas si les personnes qui refusent de répondre ont le même comportement que celles qui répondent ; bref, nous
n’avons pas les données exactes. La fiabilité des données est bien évidemment une question très importante en
pratique qu’il faut toujours garder à l’esprit. Nous n’aborderons pas cette question dans ce cours, question qui est
totalement dépendante du domaine d’application. La collecte des données pour un référendum ou celle pour l’étude
de la pollution d’une nappe phréatique sont bien évidemment très différentes. Elle doit donc être effectuée par un
spécialiste du domaine. Nous supposerons donc toujours ici que les données sont fiables.
Exemple 1.2.4. Considérons maintenant un cas d’école qui nous sera très utile pédagogiquement. La population
U étudiée est une urne remplie de boules blanches et noires. On définit alors la variable aléatoire suivante
X:U −→ {0, 1}
b 7−→ 0 si b est noire
b 7−→ 1 si b est blanche.
X est toujours une variable aléatoire de loi de Bernoulli de paramètre p. Ici ce paramètre est le pourcentage de
boules blanches dans l’urne.
On voit donc ici qu’estimer un taux de germination, un pourcentage de réponses par oui à un référendum ou
un pourcentage de boules blanches dans une urne contenant des boules blanches et noires, sont des problèmes
identiques.
Exemple 1.2.5. On s’interesse ici à un caractére qualitatif (la couleur des yeux) dans une population déterminée
P, par exemple la population française. On définit alors la variable aléatoire
X : P −→ {marron,noir, bleu,vert,autre}
1 individu −
7 → la couleur de ses yeux.
Ce qu’on désire connaı̂tre c’est la proportion des individus qui ont la couleur des yeux marron, noir, bleu, vert et
autre, c’est-à-dire la loi de la variable aléatoire X : P (X = marron), P (X = noir), P (X = bleu), P (X = vert), et
P (X = autre).
Exemple 1.2.6. On s’intéresse au rendement exprimé en quintaux à l’hectare d’une variété fixée de tournesol T .
Définissons la variable aléatoire suivante :
X:P −→ R
une culture 7−→ le rendement de cette culture.
Exemple 1.2.8. On désire étudier simultanément sur la population P des étudiants français de l’année 2005 les
variables suivantes : le sexe, la taille, la couleur des yeux, et leurs ressources annuelles. On définit en fait ici le
vecteur aléatoire de dimension 5 suivant :
X : P −→ {M, F } × R × R × {marron,noir,bleu, vert,autre} × R
un étudiant 7−→ (son sexe,sa taille, son poids, la couleur de ses yeux, ses ressources annuelles).
Les applications composantes de X définissent cinq variables aléatoires X1 , X2 , X3 , X4 , X5 qui sont définies sur le
même espace de départ que X : P et qui représentent respectivement les variables sexe, taille, poids, couleur des
yeux et ressources. La variable couleur des yeux s’écrit par exemple
X4 : P −→ {marron,noir,bleu, vert,autre}
un étudiant 7−→ la couleur de ses yeux.
On peut donc parler ici de l’indépendance ou non de ces variables aléatoires (X1 , X2 , X3 , X4 , X5 ).
Ces exemples montrent clairement que l’on formalise toujours les variables étudiées par des variables aléatoires. Il
faudra toujours en pratique bien préciser ces variables aléatoires, c’est-à-dire la population de départ et l’application
elle même. En effet les données seront en pratique les valeurs obtenues des variables aléatoires sur un échantillon
de la population. Les statistiques ne pourront donner de réponses que sur la population à partir de laquelle on
a extrait l’échantillon et uniquement celle-ci. Précisons aussi que les termes de population et d’individu sont à
prendre dans leur sens statistique. Ainsi, dans l’exemple 1.2.6 un individu est en fait une culture sur une parcelle.
On parle aussi parfois d’unité expérimentale au lieu d’individu. On emploie aussi le terme de caractère au lieu de
variable.
En conclusion une variable sera en fait une variable aléatoire
X:P −→ C
ω 7−→ X(ω),
où
– la population P est en terme de probabilité un espace fondamental ;
– un individu ω est un élément de la population P ;
– C est l’ensemble des valeurs que peut prendre la variable aléaloire.
Ce que l’on souhaite connaı̂tre en pratique c’est la loi de cette variable aléatoire, ou la valeur de certain de ses
paramètres. Nous souhaitons ici souligner que la terminologie de variable aléatoire est très mauvaise. En effet, une variable aléatoire X de
P à valeurs dans C est en fait une fonction parfaitement déterninée qui permet de transposer une probabilité d’un espace probabilisé dans un
autre. Une variable aléatoire n’est donc pas une variable dans le sens mathématique du terme puisque c’est une fonction ; et cette fonction est
parfaitement connue. On peut donc dire, comme cela est mentionné dans [2] qu’une variable aléatoire, c’est comme le Saint Empire Romain
Germanique : il n’était pas saint, ce n’était pas un empire et il n’était pas romain ! ! !
62 CHAPITRE 4. THÉORIE DE L’ÉCHANTILLONNAGE
X:P −→ C
une gélinotte 7−→ la longueur de sa rectrice centrale.
où P est la population des gélinottes huppées mâles juveniles. Il s’agit d’un premier point de vue. C’est celui-ci qui
est pris en considération lorsque l’on représente graphiquement les données (voir la figure 4.1).
Mais nous pouvons adopter un autre point de vue qui est beaucoup moins intuitif. C’est ce deuxième point de
vue qui est pris en considération lorsque l’on fait une estimation ou un test statistique et que nous allons présenter
maintenant. Pour cela, on considère le vecteur aléatoire suivant :
où l’ensemble Ω est l’ensemble de tous les échantillons de taille 50 extraits de la population P, c’est-à-dire que
Y (g) est donc un vecteur contenant les 50 longeurs de la rectrice centrale des 50 gélinottes de l’échantillon g. Les
données de la table 4.1 sont alors une réalisation (ou une observation) de ce vecteur aléaloire Y .
En résumé les deux points de vues modélisant les données sont :
– l’échantillon (y1 , . . . , yn ) représente n observations de la variable aléatoire X ;
– l’échantillon (y1 , . . . , yn ) représente une onservation du vecteur aléatoire Y .
Nous allons maintenant voir ce que permet ce deuxième point de vue.
1.5
1 1
0.5
0
140 150 160 170 180 140 150 160 170
longueur longueur
0.08
0.06
0.04
0.02
0
150 160 170
longueur
Nous allons écrire Ȳ comme la moyenne de n variables aléatoires de loi de Bernoulli indépendantes. Nous en
déduirons alors la loi de Ȳ . Pour cela on considère la variable aléatoire X de loi de Bernoulli de paramètre
p = 5/20 = 1/4
X:U −→ {0, 1}
une boule 7−→ 0 si la boule est noire
une boule 7−→ 1 si la boule est blanche.
Ainsi Y est le vecteur aléatoire de dimension n qui associe à chaque tirage le n-upplet de 0 et de 1 suivant la
couleur des boules tirées. La i-ème composante de Y , Yi , représente quant à elle, l’application qui a un échantillon
associe 1 si la i-ème boule tirée est blanche et 0 si elle est noire. Cette variable aléatoire Yi s’écrit alors
Yi : U −→ {0, 1} (4.1)
b 7−→ Yi (b) = X(bi ). (4.2)
(4.3)
64 CHAPITRE 4. THÉORIE DE L’ÉCHANTILLONNAGE
Le tirage
Pnétant avec remise, les variables aléatoires (Yi ) ont la même loi que X et sont indépendantes. Par suite
nȲ = i=1 Yi suit une loi binômiale de paramètre n et p = 1/4 et la loi de Ȳ est donnée par P (Ȳ = k/n) =
P (nȲ = k) = Cnk (1/4)k (3/4)n−k .
Remarque 2.2.1. (i) Rappelons que dire que les variables aléatoires (Yi )i et X ont la même loi signifie que les
lois de probalilités définies par ces variables aléatoires sur leur espace d’arrivée, ici sur {0, 1} sont identiques.
Cela ne signifie en aucun cas que ces variables aléatoires sont égales (si tel était le cas elles ne pourraient
pas être indépendantes).
(ii) Les variables aléatoires Yi et Y sont toutes définies sur le même espace de départ. C’est l’espace d’échantillonnage,
Pn
l’ensemble de tous les tirages avec remise de n boules ici, c’est-à dire U n . L’écriture Ȳ = (1/n) i=1 Yi a
donc bien un sens ; il s’agit de l’égalité de deux fonctions.
Les théorèmes de la théorie des probabilités nous permet alors d’obtenir simplement l’espérance mathématique
et la variance de Ȳ .
n n
1X 1X
E(Ȳ ) = E(Yi ) = p=p
n i=1 n i=1
n
!
1 X
V ar(Ȳ ) = 2 V ar Yi
n i=1
n
1 X
= V ar(Yi ) car les (Yi )i sont indépendantes
n2 i=1
n
1 X pq
= 2
pq =
n i=1 n
C k C n−k
k
P Ȳ = = n−1 k n2 .
n CN
Nous avons toujours pour l’espérance mathématique E(Ȳ ) = p, mais la variance n’a plus la même valeur. On
démontre qu’elle est égale à :
N − n pq
V ar(Ȳ ) = .
N −1 n
La figure 4.2 représente les lois de Ȳ pour différentes valeurs de n et de p pour les échantillonnage avec remise
et sans remise.
2. INTRODUCTION À LA THÉORIE DE L’ÉCHANTILLONNAGE 65
0.5
avec remise
sans remise
0.4
0.3
0.2
0.1
0
−0.2 0 0.2 0.4 0.6 0.8 1 1.2
k/n
0.5
avec remise
sans remise
0.4
0.3
0.2
0.1
0
−0.2 0 0.2 0.4 0.6 0.8 1 1.2
k/n
Fig. 4.2 – Loi de Ȳ pour l’échantillonnage sans remise et avec remise (n = 5, p = 1/3, N = 15 et n = 4, p =
0.5, N = 16)
où
Ω = {b = (b1 , . . . , bn ) ∈ U |bi 6= bj pour tout i 6= j}.
Nous sommes donc exactement dans le cas d’un échantillonnage sans remises car on a en pratique jamais dans
un échantillon deux fois le même bulletin de vote. Nous avons donc comme précédemment pour nȲ une loi hy-
pergéométriques de paramètre N, n et p, et l’espérance mathématique et la variance de Ȳ ont pour valeurs
N − n pq
E(Ȳ ) = p et var(Ȳ ) = .
N −1 n
Un premier problème est qu’en pratique N est inconnu. Fort heureusement n est très inférieur à N . Ceci a pour
conséquence que l’on peut considérer le tirage sans remise comme un tirage avec remise (une règle empirique est
n < (N/10)). On peut donc considérer ici que nȲ suit une loi binômiale de paramètres (n, p). On peut de plus ici
faire une deuxième approximation. En effet, lorsque p n’est pas trop proche de 0 ou de 1, on peut approximer la loi
binômiale par une loi normale. La table 4.2 donne une règle pratique pour que cette approximation soit correcte.
66 CHAPITRE 4. THÉORIE DE L’ÉCHANTILLONNAGE
Tab. 4.2 – Approximation d’une loi binômiale par une loi normale
Dans le cas d’un référendum, nous sommes donc dans le cas favorable où l’on peut considérer que Ȳ suit une loi
N (p, pq/n). Or on sait (voir l’exercice 6.1.2) que dans le cas d’une loi normale on a
Supposons maintenant que la proportion dans la population de oui soit exactement de 50%, nous avons alors
p = 0.5,pet supposons que n = 100000. La formule 4.4 donne alors P (0.497 ≤ Ȳ ≤ 0.503) = 0.95 (µ = p
et σ = pq/n). Ceci signifie concrètement que l’on a 95 chance sur 100 d’avoir une proportion de oui dans
l’échantillon de taille n = 100000 compris entre 49.7% et 50.3%.
Remarque 2.3.1. (i) Le soir du référendum, les estimations sont données dès la fermeture des bureaux de vote des grandes villes.
Celles-ci sont obtenues à partir du dépouillement des résultats dans des communes tests qui ont fermées plus tôt. Nous ne sommes
donc pas en réalité dans le cas exposé ici où l’échantillon est supposé être pris totalement au hasard dans la population. Une
deuxième différence est qu’en pratique c’est le nombre total d’électeurs dans chaque commune test qui est fixé au départ, et non pas
le nombre totale de suffrages exprimés dans ces communes tests. Les choses sont donc en fait beaucoup plus compliqués. Le lecteur
intéressé pourra consulter les ouvrages suivants [1] et [6].
(ii) Si n = 1000 l’intervalle obtenu exprimé en pourcentage est [46.9%; 53.1%]. Les sondages effectués actuellement portent sur des
effectifs inférieurs à 1000 personnes. Bien que les méthodes utilisées (principalement la méthode des quotas), soient plus fines que
l’échantillonnage au hasard considéré ici, la précision obtenue, vue de plus les difficultés concernant la fiabilité des données et le
nombre d’indécis déjà mentionnées, est plus proche de ±5%, voir plus ! À notre avis, les journalistes et commentateurs politiques
feraient mieux d’utiliser les temps d’antenne radio ou de télévision à parler du fond du débat, plutôt que des sondages qui n’apportent
que peu d’informations.
Les résultats obtenus sur cet exemple peuvent être schématisés par le schéma 4.3.
Échantilonnage
?
Statistique M
?
Ȳ = M (Y ) : P n −→ R
Ȳ : N (p, pq/n)
L’objet de la théorie de l’échantillonnage est d’étudier ce schéma et les propriétés des variables aléatoires M (Y )
lorsque M est la moyenne ou une autre fonction.
3. ÉCHANTILLONNAGE 67
Remarque 2.3.2. Le soir du référendum, les instituts de sondages ont les résultats sur un échantillon de taille n.
Leur objectif est alors d’en déduire de l’information sur le paramètre p. Ce problème d’estimation, qui sera traité
au chapitre sur l’estimation, est le processus ”inverse” de celui de l’échantillonnage vu ici. En effet la théorie de
l’échantillonnage part de la population pour étudier ce qui se passe sur l’ensemble de tous les échantillons de taille
n alors que la théorie de l’estimation part d’un échantillon pour obtenir des informations sur la population.
3 Échantillonnage
3.1 Échantillon
D’une façon générale, on considère une variable aléatoire X définie sur une population P à valeurs dans un
ensemble C qui modélise la variable que l’on désire étudier. On construit ensuite le vecteur aléatoire Y suivant :
Y = (Y1 , . . . , Yn ) : Ω −→ Cn
ω = (ω1 , . . . , ωn ) 7−→ Y (ω) = (Y1 (ω), . . . , Yn (ω)) (4.5)
= (X(ω1 ), . . . , X(ωn )),
où Ω est l’espace déchantillonnage. Ω = P n si l’échantillonnage est avec remise et
Ω = {ω = (ω1 , . . . , ωn ) ∈ P|ωi 6= ωj pour tout i 6= j}, (4.6)
si l’échantillonnage est sans remise.
Définition 3.1.1 (Échantillon aléatoire). On appelle échantillon aléatoire de taille n ou n-échantillon aléatoire de
la variable aléatoire X le vecteur aléatoire Y = (Y1 , . . . , Yn ).
Définition 3.1.2 (échantillon). On appelle échantillon de taile n ou n-échantillon, une réalisation ou une obser-
vation (y1 , . . . , yn ) du n-échantillon aléatoire.
Remarque 3.1.3. Un n-échantillon n’est pas autre chose que les données relatif à la variable étudiée.
Remarque 3.1.4. (i) Comme nous l’avons déjà mentionné, les variables aléatoire (Yi )i=1,n sont définies sur le
même espace Ω que le n-échantillon aléatoire Y . Nous pouvons donc parler de l’indépendance ou de la non
indépendance de ces variables aléatoires (Yi )i .
(ii) Les variables aléatoires (Yi )i sont à valeurs dans le même ensemble que la variable aléatoire X et leurs lois
sont identiques à celle de X.
(iii) Nous avons en fait la relation suivante
Yi (ω) = X(ωi ), (4.7)
où l’indice i est à gauche sur la vecteur aléatoire Y et à droite sur l’argument de la variable aléatoire X.
Définition 3.1.5 (Échantillon aléatoire simple–Échantillon Bernoullien). On appelle échantillon aléatoire simple
ou échantillon Bernoullien tout n-échantillon aléatoire d’une variable aléatoire X où les variables aléatoires (Yi )i
sont indépendantes.
Lorsque l’échantillonnage est avec remise, Y est donc un échantillon Bernoullien, ce qui n’est plus le cas si
l’échantillonnage est sans remise. Cependant si la taille déchantillon n est très petite devant la taille de la population
N (en pratique si (n/N ) < 0.1) alors on peut approximer l’échantillonnage sans remise par un échantillonnage avec
remise. Dans ce cas des théorèmes de la théorie des probabilités nous permet, connaissant la loi de X, de déterminer
la loi de Y .
Théorème 3.1.6. Soit P une population et X une variable aléatoire (X : P → C) sur cette population. Soit
(Y1 , . . . , Yn ) un n-échantillon Bernoullien, alors les n variables aléatoires Y1 , . . . , Yn ont pour loi la loi de X, sont
indépendantes et Y = (Y1 , . . . , Yn ) est une variable aléatoire à n dimensions :
Y : Ω −→ C n
de loi :
(i) Si X est discrète :
n
Y n
Y
PC n (Y = (y1 , . . . , yn )) = PC (Yi = yi ) = PC (X = yi ). (4.8)
i=1 i=1
X : P −→ R
Échantilonnage
?
Y = (Y1 , . . . , Yn ) : Ω −→ Rn
ω = (ω1 , . . . , ωn ) 7−→ Y (ω) = (Y1 (ω), . . . , Yn (ω))
(X(ω1 ), . . . , X(ωn ))
Statistique S
?
S ◦ Y = S(Y ) : Ω −→ R
ω 7−→ S(Y (ω))
M : Rn −→ R
n
1X
y = (y1 , . . . , yn ) 7−→ M (y) = ȳ = yi .
n i=1
On a donc
n
1X
M (Y ) = Yi = Ȳ , (4.10)
n i=1
Théorème 4.1.1. Supposons que le caractère X admettent une espérance mathématique µ et un écart-type σ fini
alors :
(i) E(Ȳ ) = µ.
(ii) Si l’échantillon est Bernoullien alors
σ2
V ar(Ȳ ) = .
n
(iii) Si l’échantillon est sans remise et que la taille de la population est N alors :
N − n σ2
V ar(Ȳ ) = .
N −1 n
Démonstration
n
! n n
1X 1X 1X
E(Ȳ ) = E Yi = E(Yi ) = µ = µ.
n i=1 n i=1 n i=1
n
! n
1X 1 X
V ar(Ȳ ) = V ar Yi = V ar( Yi ).
n i=1 n2 i=1
(iii) admise
2
Théorème 4.1.2. Si X suit une loi normale N (µ, σ 2 ) et si l’échantillon est Bernoullien alors Ȳ suit une loi
normale N (µ, σ 2 /n).
Démonstration
Cela provient du théorème précédent et du fait qu’une somme de variables aléatoires de lois normales indépendantes
est une variable aléatoire de loi normale. 2
Théorème 4.1.3. Soit X une variable aléatoire de moyenne µ et de variance σ 2 finie et soit (Y1 , . . . , Yn ) un
n-échantillon Bernoullien. Alors Ȳ suit asymptotiquement une loi normale.
Démonstration
D’après le théorème centrale limite la loi de la variable aléatoire
Y1 + · · · + Yn − nµ Ȳ − µ
Zn = √ = σ
σ n √
n
converge lorsque n tend vers +∞ vers la loi normale réduite. Par suite
σ
Ȳ = √ Zn + µ
n
2
a asymptotiquement le même comportement qu’une loi N (µ, σn ). 2
Remarque 4.1.4. Le théorème précédent signifie concrètement que pour n grand (n ≥ 30 en pratique) on peut
2
approximer la loi de Ȳ par la loi normale N (µ, σn ).
70 CHAPITRE 4. THÉORIE DE L’ÉCHANTILLONNAGE
S 2 : Rn −→ R
n
1X
y = (y1 , . . . , yn ) 7−→ S 2 (y) = (yi − ȳ)2 ,
n i=1
Théorème 4.2.1. Supposons que X admette des moments centrés jusqu’à l’ordre 4 finis. Alors :
(i) Si l’échantillon est Bernoullien :
n−1 2
E(S 2 ) = σ ,
n
µ4 − σ 4 2(µ4 − 2σ 4 ) µ4 − 3σ 4
V ar(S 2 ) = − + ,
n n2 n3
n−1
Cov(M, S 2 ) = Cov(Ȳ , S 2 (Y )) = µ3 .
n2
(ii) Si l’échantillon est sans remise et que la taille de la population est N alors :
N n−1 2
E(S 2 ) = σ .
N −1 n
(iii) Si X suit une loi normale N (µ, σ 2 ) et si l’échantillon est Bernoullien alors :
Ȳ et S 2 (Y ) sont indépendantes.
2(n − 1) 4
V ar(S 2 ) = σ
n2
et nS 2 /σ 2 suit une loi du χ2 à n − 1 degrés de liberté.
Démonstration
(i)
E(S 2 (Y ))
` 1 Pn 2
´
= E n P i=1 (Yi − µ + µ − Ȳ )
n 2 Pn
= 1
n P i=1 E((Yi − µ) ) + 1
n i=1 E((Ȳ − µ)2 )
2 n
− n E( i=1 (Yi − µ)(Ȳ − µ))
σ2
= σ2 + n
2
− n E((Ȳ − µ)(nȲ − nµ))
n−1 2
= n σ
2 2 n−1 2
Cov(Ȳ , S (Y )) = E((Ȳ − µ)(S − σ ))
n
2 n − 1 2
= E((Ȳ − µ)S ) − σ E(Ȳ − µ)
n
n
!
1 X 2 2
= E((Ȳ − µ) (Yi − µ) − (Ȳ − µ)
n i=1
n n n
1 X X 2 1 X 3
= E( (Yi − µ) (Yi − µ) ) − 3 (E( (Yi − µ)) )
n2 i=1 i=1
n i=1
µ3 µ3 n−1
= − 2 = µ3 ,
n n n2
i(Y −µ)
Or si X suit une loi normale de paramètres (µ, σ), σ suit une loi normale réduite et donc, puisque l’échantillon (Y1 , . . . , Yn ) est
Bernoullien, S1 suit une loi du χ2 à n degrés de liberté. De plus S2 suit aussi une loi du χ2 à 1 degré de liberté et S 2 et S2 sont
indépendantes. Une propriété des lois du χ2 permet alors de conclure. Une conséquence immédiate de ce résultat est alors que
nS 2
V ar( ) = 2(n − 1)
σ2
et donc que
!2
2 σ2
V ar(S ) = 2(n − 1).
n
2
Pour illustrer la loi de nS 2 /σ 2 lorsque l’échantillonnage est Bernoullien à l’aide de la simulation, nous générons
5000 échantillons de taille n = 6, yk1 , . . . , yk6 pour k = 1, . . . , 5000, provenant d’une loi normale N (6, 12). Pour
chacun de ces 5000 échantillons nous calculons la quantité
P6
nS 2 (yk1 , . . . , yk6 ) i=1 (yki − ȳk. )2
s2k = =
12 12
Les 5000 valeurs s2k sont alors 5000 observations de la variable aléatoire nS 2 (Y )/σ 2 . Nous effectuons une deuxième
simulation de façon identique sauf que la loi de départ est une loi uniforme sur [0, 12]. La figure 4.5 montrent les
histogrammes pour chaque simulation de toutes les données génerées ainsi que des 5000 valeurs (s21 , . . . , s25000 ).
Nous avons rajouté sur ces graphiques les lois de départ pour les données et la loi du χ2 à ν = n − 1 = 5 degrés de
liberté pour les valeurs simulées. Nous pouvons observer que lorsque la loi de départ est normale, l’histogramme
”colle” très bien à la fonction de densité de la loi du χ2 à 5 ddl, ce qui n’est plus le cas lorsque la loi de départ est
une loi uniforme.
0.08
0.1
0.06
0.04
0.05
0.02
0 0
0 5 10 15 0 5 10
0.15 0.15
0.1 0.1
0.05 0.05
0 0
0 5 10 0 5 10
suit une loi normale centrée réduite. L’approximation étant encore valable si X adment une espérance mathématique
µ et une variance σ 2 finies et si n est grand (n ≥ 30 en pratique). Mais dans qla réalité nous ne connaissons pas σ
n
et il est donc logique de ce demander ce qui ce passe si on renplace σ par n−1 S 2 (Y ). C’est ce que nous allons
étudier maintenant.
Théorème 4.3.1. Si (Y1 , . . . , Yn ) est un échantillon Bernoullien et si X suit une loi normale de paramètre (µ, σ),
alors la statistique :
M −µ
T =r
S2
n−1
suit une loi de Student à (n − 1) degrés de liberté.
Démonstration
On a :
U
T = q ,
Z
ν
avec
M −µ
U = σ
de loi N (0, 1),
√
n
nS 2 2
Z = de loi χν=n−1 degrés de liberté,
σ2
n1 S12
(n1 − 1)σ12
F =
n2 S22
(n2 − 1)σ22
suit une loi de Fischer-Snedecor à n1 − 1 degrés de liberté au numérateur et à n2 − 1 degrés de liberté au
dénominateur.
Démonstration
n1 S12 n2 S22
D’après le théorème (4.2.1) 2 (respectivement 2 ) suit une loi du χ2 à n1 −1 (respectivement n2 −1) degrés de liberté et les hypothèses du
σ1 σ2
théorème impliquent que ces variables aléatoires sont indépendantes. On en déduit alors immédiatement le résultat en considérant la définition
2
d’une loi de Fisher-Snedecor.
La figure 4.6 donne une illustration, via la simulation d’une loi de Fisher à ν1 = 5 ddl au nuérateur et ν2 = 3
ddl au dénominateur.
0.15
0.1
0.1
0.05
0.05
0 0
−5 0 5 10 −5 0 5
0.6
0.4
0.2
0
0 2 4 6 8
Fig. 4.6 – Simulation loi de Fisher à (5,3) ddl (5000 échantillons). Statistique F
(ii) si l’échantillon est sans remise et si la population est finie (de taille N )
S suit une loi hypergéométrique de paramètre (N, n, p). et
E(S) = np E(Ȳ ) = p
−n pq N −n
V ar(S) = npq N
N −1 V ar(Ȳ ) = n N −1
Démonstration
Cela provient tout simplement des définitions des lois binômiale et hypergéométrique. 2
-
0 1 k
Loi de Bernoulli : B(p) C’est la loi d’une variable 1) Résultat du lancé d’une
aléatoire à valeur dans pièce P (X = 1) = p E(X) = p
{0, 1} 2) Réponse à une question P (X = 0) = q V ar(X) = pq
par oui ou non p+q =1
-
0 1 2 3 4 k
-
0 1 2 3 4 k
CHAPITRE 4. THÉORIE DE L’ÉCHANTILLONNAGE
Nom et notation de la v.a. Définition ou mécanisme Exemples de v.a. suivant la Définition analytique de la Valeur des paramètres de Représentation graphique
de construction loi loi la distribution
Loi multinômiale : C’est la loi jointe de Répartition d’un Nous ne pouvons pas
M(n, p1 , . . . , pl ) X(X1 , . . . , Xl ) où les Xi échantillon exhaustif représenter graphiquement
P (X1 = k1 , . . . , E(Xi ) = npi
sont des v.a. binômiales de de taille n provenant d’une cette loi car il faudrait
Xl = kl ) = E(X) = t (E(X1 ),
paramètres (n, pi ). population constituée de l n! faire un dessin dans Rl+1
k . . . , E(Xl ))
classes C1 , . . . , Cl pk1 . . . pl l
k 1 ! . . . kl ! 1 V ar(Xi ) = npi qi
Cov(Xi , Xj ) =
−npi pj i 6= j
-
0 1 2 3 k
75
Nom et notation de la v.a. Définition ou mécanisme Exemples de v.a. suivant la Définition analytique de la Valeur des paramètres de Représentation graphique
de construction loi loi la distribution
76
Loi normale ou de Gauss : Les valeurs de la v.a. 1) taille d’un individu
f(x)
N (µ, σ2) résulte de l’influence d’un 2) Rendement E(X) = µ 0.4
2πσ 0.15
telle que chaque cause par- 0.1
0
par rapport à la variance x
−3 −2 −1 0 1 2 3
résultante
Loi normale de dimension 1) (taille d’un individu,
n : N (µ, Γ) poids d’un individu). 1
„ «
E(X) = µ 0
2) Erreur de tir. f (x) = p n n = 2, µ =
(2π) 2
det(Γ) Γ = (γij )ij 0
t (x − µ)Γ−1 (x − µ) γij = Cov(Xi , Xj ) „ «
− 2 1
e 2 Γ=
1 5
où µ ∈ Rn et Γ est une
0.06
matrice carrée (n, n) réelle
0.05
0.03
0.02
0.01
4
5
2
0
−2 0
−4
−6 −5
Loi lognormale : LN (µ, σ) Une v.a. suit une loi lo- Salaire d’un employé
f(x)
gnormale si son logarithme prélevé dans une popula- 0.7
1 σ2 0.6
népérien suit une loi nor- tion générale f (x) = √
2πσx 0.5
male. E(X) = µe 2
(ln x − ln µ)2 0.4
− V ar(X) =
0.3
2σ 2 2 2
e µ2 eσ (eσ − 1) 0.2
0
x
0 1 2 3 4 5
CHAPITRE 4. THÉORIE DE L’ÉCHANTILLONNAGE
Nom et notation de la v.a. Définition ou mécanisme Exemples de v.a. suivant la Définition analytique de la Valeur des paramètres de Représentation graphique
de construction loi loi la distribution
Loi du Khi-2 à ν degrés de Une variable aléatoire 1) Variance empirique ν=4
f(x)
liberté : χν réelle suit une loi de Khi-2 d’un échantillon de E(X) = ν 0.2
ν x
à ν degrés de liberté si elle taille ν + 1 dont on ne −1 − V ar(X) = 2ν
f (x) = cx 2 e 2 0.15
0 2 4 6 8 10 12 14 16
ν ν−2
0.2
à ν degrés de liberté indépendants d’une popu- si ν > 2
0.15
indépendantes. Alors la lation normale. 0.1
Z/ν 0
x
une loi de Student à ν −5 −4 −3 −2 −1 0 1 2 3 4 5
degrés de liberté.
5. PRINCIPALES LOIS DE PROBABILITÉ
f (x) = x 2 ν2 − 2 0.5
et ν2 degrés de liberté indépendants extraits si ν2 > 2 0.4
(ν1 + ν2 )
indépendantes. Alors X = d’une population normale. − V ar(X) = 0.3
(X1 /ν1 ) (ν1 x + ν2 ) 2
suit une loi de 2ν22 (ν1 + ν2 − 2) 0.2
(X2 /ν2 )
0.1
Fisher à ν1 degrés de li- ν1 (ν2 − 2)2 (ν2 − 4)
0
x
berté au numérateur et 0 1 2 3 4 5
à ν2 degré de liberté au
dénominateur.
77
78 CHAPITRE 4. THÉORIE DE L’ÉCHANTILLONNAGE
6 Exercices
6.1 Exercices avec corrigés
Exercice 6.1.1 (Loi normale centrée réduite). L’objectif de cet exercice est le calcul de probabilités dans le cas
d’une variable aléatoire U de loi normale centrée réduite N (0, 1) en utilisant la table de cette loi.
(i) Calculer P (1 ≤ U ≤ 2, 5).
Ru
(ii) On note φ(u) = P (U ≤ u) = f (x)dx la fonction de répartition de la loi normale centrée réduite.
−∞ √ 2
Démontrer que φ(−u) = 1 − φ(u). On utilisera le fait que la fonction de densité f (x) = (1/ 2π)e−x est
paire, c’est-à-dire que f (−x) = f (x) pour tout x.
(iii) Calculer P (U ≤ −1).
(iv) Calculer P (U ∈ [−1, 2[).
(v) Encadrer P (U ≥ 6).
(vi) On note up = φ−1 (p) le réel défini par
P (U ≤ up ) = p
Donner u0.999 . On cherchera cette valeur dans la table de la loi normale centrée réduite et dans la table de
Student.
correction.
(i)
Z 2.5
P (1 ≤ U ≤ 2.5) = f (x)dx = φ(2.5) − φ(1)
1
= 0.9938 − 0.8413
= 0.1525
=A
0.4
0.3
f(x)
0.2
0.1
←A
0
−3 0 1 2.5 +3
x
(ii) Graphiquement (voir la figure 4.8) la parité de la fonction de densité f (x) donne
0.4
0.3
f(x)
0.2
0.1
A1 → ← A2
0
−3 −u 0 u +3
x
R +∞
(v) P (X ≥ 6) = 6 f (x)dx = 1 − φ(6). Or la fonction de répartition φ est strictement croissante de 0 vers 1.
Par suite on a
φ(3.99) < φ(6) < 1
On en déduit
1 − 1 < 1 − φ(6) < 1 − φ(3.99)
0 < 1 − φ(6) < 1 − 0.99997 = 0.00003
(vi) On a u0.999 = 3.09.
Remarque. La table de la loi normale centrée réduite donne la fonction de répartition φ(up ) = p alors que la
dernière ligne de la table de Student (degré de liberté égale à +∞) donne la fonction inverse de la fonction
de répartition φ−1 (p) = up .
2
Exercice 6.1.2 (Loi normale de paramètre µ et σ). L’objectif de cet exercice est le calcul de probabilités dans le
cas d’une variable aléatoire X de loi normale N (µ, σ 2 ). On utilisera le fait que U = (X − µ)/σ suit alors une loi
normale centrée réduite.
Soit X la variable aléatoire réelle X représentant le rendement d’une céréale C. On suppose que X suit une loi
normale de paramètres µ = 50q/ha et σ 2 = 5(q/ha)2 (voir 1.2.6).
(i) Formaliser cette variable aléatoire.
(ii) Calculer P (X < 0). Commentaires
(iii) Calculer P (48 ≤ X ≤ 50) et représenter graphiquement cette probabilité.
(iv) Quelle signification a la quantité ci-dessus ?
(v) Calculer P (µ − 1, 96σ ≤ X ≤ µ + 1, 96σ).
correction.
(i) voir l’exemple 1.2.6
(ii)
X − 50 0 − 50
P (X < 0) = P √ < √ = φ(−22.36) ∼ 0
5 5
La vraie valeur de cette probabilité est 0 car il est impossible d’avoir un rendement négatif. Le calcul ici
donne une valeur strictement positive, mais très faible. Le modèle considéré est donc rigoureusement faux.
Cependant, l’erreur faite est tout-à-fait négligeable.
(iii)
48 − 50 50 − 50
P (48 ≤ X ≤ 50) = P √ ≤U ≤ √
5 5
2 2
= φ(0) − φ − √ = φ(0) − 1 − φ √
5 5
= φ(0) − (1 − φ(0.89))
= 0.5 − 1 + 0.8133
= 0.3133
Voir la figure 4.9.
80 CHAPITRE 4. THÉORIE DE L’ÉCHANTILLONNAGE
0.18
0.16
0.14
0.12
0.1
f(x)
←A
0.08
0.06
0.04
0.02
0
44 46 48 50 52 54 56
x
(iv) On a environ 31 chances sur 100 lorsque l’on fait une culture dans les conditions expérimentales définies par
la population P d’avoir un rendement compris entre 48 et 50 q/ha.
(v)
(µ − 1.96σ) − µ (µ + 1.96σ) − µ
P (µ − 1, 96σ ≤ X ≤ µ + 1, 96σ) = P ≤U ≤
σ σ
= P (−1.96 ≤ U ≤ 1.96)
= φ(1.96) − φ(−1.96)
= 2φ(1.96) − 1
= 0.95
En résumé on a donc
P (µ − 1, 96σ ≤ X ≤ µ + 1, 96σ) = 0.95 (4.12)
Ceci est visualisé sur la figure 4.10
0.18
0.16
0.14
0.12
← A=0.95
0.1
f(x)
0.08
0.06
0.04
0.02
0
mu−1.96sigma mu mu+1.96sigma
x
2
Exercice 6.1.3. On considère une urne U constituée de n1 ≥ 2 boules blanches et n2 ≥ 2 boules noires. On note
N = n1 + n2 le nombre totale de boules dans l’urne et p = n1 /N . Soit X la variable aléatoire
X:U −→ {0, 1}
b 7−→ 0 si b est noire
b 7−→ 1 si b est blanche.
correction.
(i) (a) Le 2-échantillon aléatoire est défini par
Donc les valeurs possibles de Y sont (0, 0), (0, 1), (1, 0) et (1, 1).
(b)
(c) Les lois de Y1 et de Y2 sont identiques à celle de X. Ce sont donc des lois de Bernoulli de paramètres p.
(d)
Ȳ : U 2 −→ {0, 1/2, 1}
b = (b1 , b2 ) 7−→ Ȳ (b) = (1/2)(Y1 (b) + Y2 (b))
M : R2 −→ R
y = (y1 , y2 ) 7−→ M (y) = (1/2)(y1 + y2 )
(f)
(c)
Ȳ : Ω −→ {0, 1/2, 1}
b = (b1 , b2 ) 7−→ Ȳ (b) = (1/2)(Y1 (b) + Y2 (b))
M : R2 −→ R
y = (y1 , y2 ) 7−→ M (y) = (1/2)(y1 + y2 )
(e)
n2 (n2 − 1)
P (Ȳ = 0) = P (Y = (0, 0)) =
N (N − 1)
2n1 n2
P (Ȳ = 1/2)
N (N − 1)
n1 (n1 − 1)
P (Ȳ = 1) =
N (N − 1)
(f)
1 2n1 n2 n1 (n1 − 1)
E(Ȳ ) = +1
2 N (N − 1) N (N − 1)
n1 (n1 + n2 − 1)
= =p
N (N − 1)
6. EXERCICES 83
2
1 2n1 n2 n1 (n1 − 1)
V ar(Ȳ ) = + 12 − p2
2 N (N − 1) N (N − 1)
n1 n2 + 2n1 (n1 − 1) − 2p2 N (N − 1)
=
2N (N − 1)
n1
(n 2 + 2n 1 − 2 − 2p(N − 1))
= N
2(N − 1)
p(n2 − 2 + 2p)
=
2(N − 1)
p(N − 2)q
=
2(N − 1)
(N − n) pq
=
N −1 n
où n = 2. On retrouve bien les résultats du théorème 4.1.1
2
X:G −→ {0, 1}
g 7−→ 0 si g ne germe pas
g 7−→ 1 si g germe.
S : Rn −→ {0, 1, . . . , n}
X n
y = (y1 , . . . , yi ) 7−→ S(y) = yi
i=1
et M = (1/n)Y .
(i) Quelles sont les espaces de départ et d’arrivée de S(Y ) et de M (Y ).
(ii) Écrire S(Y ) et Ȳ = M (Y ) en fonction des variables aléatoires (Yi )i
(iii) On suppose que la taille de la population G est N , quelle est la loi de S
(iv) On suppose que N = +∞, quelle est la loi de S.
(v) On suppose que N = +∞ et qu’on peut approximer la loi de Ȳ par une loi normale N (µȲ , σȲ2 ).
(a) Donner µȲ et σȲ en fonction de n et p.
(b) Déterminer n en fonction de p pour avoir
S 2 : Rn −→ {0, 1, . . . , n}
n
1X
y = (y1 , . . . , yi ) 7−→ S 2 (y) = (yi − ȳ)2
n i=1
84 CHAPITRE 4. THÉORIE DE L’ÉCHANTILLONNAGE
(i) On prend n = 2
(a) Quels sont les valeurs que peut prendre la variable aléatoire S 2 (Y ) ?
(b) Écrire S(Y ) en fonction de Y1 et de Y2 .
(c) Donner la loi de S 2 (Y ).
(d) Calculer l’espérance mathématique et la variance de S 2 (Y ).
(e) les variables aléatoires Ȳ et S 2 (Y ) sont-elles indépendantes ?
(ii) On prend n = 3
(a) Quels sont les valeurs que peut prendre la variable aléatoire S 2 (Y ) ?
(b) Donner la loi de S 2 (Y ).
(c) Calculer l’espérance mathématique et la variance de S 2 (Y ).
Indications. Pour les espérances mathématiques et variances on doit trouver les mêmes résultats que dans le
théorème 4.2.1 2
Exercice 6.2.3. Soit X : P −→ R une variable aléatoire de loi normale N (µ, σ 2 ) et Y = (Y1 , . . . , Yn ) un n-
échantillon Bernoullien de X On considère les statistiques suivantes
S : Rn −→ R
n
1 X
y = (y1 , . . . , yi ) 7−→ S(y) = 2 (yi − µ)2 ,
σ i=1
SCE : Rn −→ R
n
1 X
y = (y1 , . . . , yi ) 7−→ SCE(y) = (yi − ȳ)2 ,
σ 2 i=1
et K = SCE/σ 2 .
(i) Quelle est la loi de S(Y ) ?
(ii) Quelle est la loi de K(Y ) ?
(iii) On prend n = 10 et on note χp l’unique réel vérifiant P (K ≤ χp ) = p. En vous aidant de la table de la loi du
χ2 donner les valeurs de χ0.025 et de χ0.975 .
(iv) Vérifier que P (χ0.025 < K < χ0.0975 ) = 0.95.
(v) En déduire la valeur de
2 SCE(Y ) SCE(Y )
P σ ∈ ; . (4.13)
χ0.0975 χ0.0025
(vi) Que signifie 4.13
Indications. On écrira S(Y ) comme le carré de n variables aléatoires de loi normale centrée réduite indépendantes.
2
P (X = 0) = 1/4
P (X = 1) = 1/2
P (X = 4) = 1/4
U : Rn −→ R
ȳ − 50
y = (y1 , . . . , yn ) 7−→ U (y) = p ,
5/n
SCE : Rn −→ R
n
X
y = (y1 , . . . , yn ) 7−→ SCE(y) = (yi − ȳ)2
i=1
et
T : Rn −→ R
ȳ − 50
y = (y1 , . . . , yn ) 7−→ T (y) = p .
SCE(y)/(n(n − 1))
1 Introduction
Le but d’un test statistique est de répondre à une question ”simple”, par exemple savoir laquelle de deux variétés
de Tournesol A et B donne le meilleur taux d’une protéine fixée. Pour cela, nous collecterons des données pour
les deux variétés, puis nous ferons un calcul à partir de ces données et en fonction de la valeur du résultat nous
validerons soit A, soit B. Nous pouvons donc faire en pratique deux erreurs :
– choisir A quand c’est B qui est meilleure ;
– choisir B quand c’est A qui est meilleure.
Par suite un test de statistique ne donnera jamais de réponse complètement déterministe, et comme dans tout
processus de prise de décision, il y aura toujours des risques d’erreur.
L’un des gros apports des tests statistiques est la connaissance, en terme de probabilités, des risques pris.
L’objectif de ce chapitre est donc de bien comprendre la définition de ces risques et d’assimiler toute la démarche
logique d’un test statistique. Ceci est fondamental si l’on désire utiliser cet outil correctement.
2 Exemple
2.1 Problème
Un industriel vient de mettre au point un nouveau procédé de fabrication d’ampoules électriques. Il désire
savoir si ce nouveau procédé est meilleur que celui utilisé actuellement dans le sens où les ampoules fabriquées
avec ce nouveau procédé ont une durée de vie plus longue. Des études antérieures ont montré que la durée de vie
d’une ampoule fabriquée par le procédé classique suit une loi normale de paramètres µ = 1400 heures et σ = 120
heures. On suppose que le nouveau procédé ne modifie pas la loi, ni la variance. On note A (respectivement A0 )
la population, supposée de taille très grande, des ampoules fabriquées avec le nouveau procédé (respectivement
l’ancien procédé). Nous pouvons alors définir les deux variables aléatoires suivantes :
X:A −→ R
1 ampoule 7−→ sa durée de vie
X0 : A0 −→ R
1 ampoule 7−→ sa durée de vie
Les informations données nous permettent alors de dire que la loi de la variable aléatoire X (respectivement X0 )
est une loi normale N (µ, 1202 ) (respectivement N (1400, 1202 )). La question est donc de savoir laquelle des deux
hypothèses ci-dessous est la bonne pour le nouveau procédé.
– µ ≤ 1400;
– µ > 1400.
Pour des raisons que nous verrons dans la suite de ce chapitre, nous formulerons les hypothèses de la façon suivante
– H0 : µ = 1400;
– H1 : µ > 1400.
Pour effectuer le choix entre ces 2 hypothèses on fait des mesures sur n =100 ampoules fabriquées avec le
nouveau procédé. On obtient les données de la table 5.1 dont les représentations graphiques sont données aux
figures 5.1 et 5.2.
87
88 CHAPITRE 5. TESTS STATISTIQUES : PRINCIPES GÉNÉRAUX
−3
x 10
4
3.5
2.5
1.5
0.5
0
1000 1200 1400 1600 1800 2000 2200
durées de vie
La question est maintenant de choisir, à partir de ces données, entre les deux hypothèses. Si nous appelons ȳ la
moyenne le l’échantillon, il semble logique ici de prendre la règle de décision suivante :
– Si ȳ > l alors on rejettera l’hypothèse nulle H0
– Si ȳ < l alors on acceptera l’hypothèse nulle H0
l sera la valeur critique du test.
Cette règle de décision induira deux types de risques : le risque de décider de rejeter l’hypothèse nulle H0 quand
elle est vraie et le risque de décider d’accepter l’hypothèse nulle H0 quand elle est fausse. Nous allons maintenant
dans un cas simple calculer ces risques.
M : R100 −→ R
100
1 X
(y1 , . . . , y100 ) 7−→ ȳ = yi .
100 i=1
P
Nous avons donc défini la variable aléatoire Ȳ = M (Y ) = (1/n) i Yi . Le chapitre 4 sur la théorie de l’échantillonnage
nous dit alors que
– si l’hypothèse nulle H0 est vraie alors Ȳ suit une loi N (1400, 1202 /100) ;
2. EXEMPLE 89
2000
1900
durée de vie
1800
1700
1600
1500
1
échantillons
– si l’hypothèse H1 est vraie alors Ȳ suit une loi N (1450, 1202 /100).
On suppose enfin que la valeur limite l est fixée à 1430. Ceci nous définit alors deux événements :
– accepter H0 = Ȳ ≤ 1430 ;
– accepter H1 = Ȳ > 1430.
Nous pouvons maintenant calculer les deux risques, que nous appellerons risques de première et de deuxième
espèce.
0.04
0.035
0.03
0.025
← Loi de M ← Loi de M
si H0 est vraie si H1 est vraie
0.02
0.015
0.01
0.005
β→
←α
0
1380 1400 1420 1440 1460 1480
l
Fig. 5.3 – Risque α de première espèce et β de deuxième espèce pour l’exemple des ”ampoules”.
α = PH0 (rejeter H0 )
1202
0.05 = PH0 (Ȳ > Ȳcrit ) avec Ȳ : N 1400,
100
= 1 − PH0 (Ȳ ≤ Ȳcrit )
Ȳ − 1400 Ȳcrit − 1400
= 1 − PH0 ≤
12 12
Ȳcrit − 1400
= 1−φ .
12
Par suite, nous obtenons
Ȳcrit − 1400
φ = 0.95
12
Ȳcrit − 1400
⇒ = 1.645
12
⇒ Ȳcrit = 1419.74
β = PH1 (accepter H0 )
1202
= PH1 (Ȳ < Ȳcrit ) avec Ȳ : N µ,
100
Ȳ − µ Ȳcrit − µ
= PH1 ( < )
12 12
Ȳcrit − µ
= φ
12
On définit la puissance d’un test comme la probabilité de l’événement accepter H1 quand H1 est vraie. La
puissance est donc égale à 1 − β.
Remarque 2.3.1. La puissance est la probabilité de ”mettre en évidence une différence qui existe”.
La table 5.2 donne le risque β et la puissance (visualisée par la figure 5.4) pour différentes valeurs de la moyenne
µ.
3. PRINCIPES GÉNÉRAUX 91
µ 1380 1390 1394 1396 1398 1400 1410 1420 1430 1440 1450 1460
1419.74 − µ
3.31 2.48 2.14 1.98 1.81 1.64 0.81 -0.02 -0.855 -1.69 -2.52 -3.36
12
β 1.00 0.99 0.98 0.98 0.96 0.95 0.79 0.49 0.20 0.05 0.00 0.00
1−β 0.00 0.01 0.02 0.02 0.04 0.05 0.21 0.51 0.80 0.95 1.00 1.00
0.9
0.8
0.7
0.6
Puissance
0.5
0.4
0.3
0.2
0.1
0
1380 1390 1400 1410 1420 1430 1440 1450 1460
µ
Remarque 2.3.2. Pour calculer la valeur critique d’un test, on doit parfaitement connaı̂tre la loi de la statistique
de décision quand l’hypothèse nulle H0 est vraie. Ceci justifie le fait que l’on ait écrit dans cet exemple cette
hypothèse nulle sous la forme d’une égalité : H0 : µ = 1400 et non pas sous la forme d’une inégalité. La question
de départ étant de savoir si le nouveau procédé était meilleur que l’ancien, on a comme hypothèse alternative
H1 : µ > 1400. La fonction puissance 5.4 nous montre que la probabilité de l’événement accepter H1 est proche
de 1 pour les valeurs de µ très supérieures à 1 et proche de 0 pour les faibles valeurs de µ ; ce qui est bien ce que
nous désirions.
Remarque 2.3.3. Il ne faut pas confondre les hypothèses nulle H0 et alternative H1 avec les événements accepter
H0 et accepter H1 . L’événement accepter H0 est en pratique l’ensemble des valeurs de la statistique de décision
qui conclura à accepter l’hypothèse nulle H0 . Cet événement s’écrit dans notre exemple Ȳ ≤ Ȳcrit et est égale à
l’intervalle ] − ∞, Ȳcrit ] sur l’axe des abscisses de la figure 5.3
3 Principes généraux
X :A −→ R
1 ampoule 7−→ sa durée de vie
Règle de décision. On Si H0 est vraie alors S suit une loi connue. α étant fixé 1202
se donne α le risque de on en déduit la zone de rejet de l’hypothèse nulle. Si H0 est vraie alors Ȳ suit une loi N (1400, ) α
100
première espèce. On en étant fixé, on en déduit Ȳcrit telle que P (Ȳ > Ȳcrit ) =
déduit la zone de rejet de α. On en déduit alors la règle de décision
l’hypothèse nulle
Remarque 3.1.1. Le choix de la statistique S peut paraı̂tre parfois mystérieux. Il est, bien évidemment, en lien
direct avec le problème. Cette statistique est souvent une ”distance” entre les données et l’hypothèse nulle. Si
Sobs = S(y1 , . . . , yn ) est grand alors il y a peu de chance que les données viennent d’une population où l’hypothèse
nulle est vraie, si Sobs est faible on ne peut pas rejeter l’hypothèse nulle.
(i) C’est dans la démonstration du calcul de la loi de la statistique S qu’interviennent les hypothèses sur la loi
de X et le fait que (Y1 , . . . , Yn ) soit un échantillon Bernoullien. Le terme hypothèse étant déjà utilisé pour
les hypothèses nulle H0 et alternative H1 nous utiliserons ici le terme de postulats1 .
(ii) Lorsque (Y1 , . . . , Yn ) est un n-échantillon Bernoullien, les (Yi )i=1,··· ,n sont indépendantes et de même loi que
X. Ce sont ces dernières propriétés qui interviennent dans la démonstration de la loi de la statistique S et
nous écrirons souvent dans les postulats : (Yi )i=1,··· ,n i.i.d. pour indépendantes et identiquement distribuées.
(iii) Dans la construction d’un test c’est le risque de première espèce α qui joue un rôle particulier. La symétrie
entre les deux risques est de fait rompue.
(iv) Lorsque nous acceptons l’hypothèse nulle, le risque de faire une erreur est le risque de deuxième espèce. Nous
dirons cependant que l’on accepte l’hypothèse nulle au risque α. Ceci est dû au fait que c’est le risque de
première expèce qui permet de construire la règle de décision et qu’en pratique le risque de deuxième espèce
dépend de l’hypothèse alternative qui n’est jamais complètement définie.
Nous présenterons un test statistique de la façon suivante.
(i) Définition du problème :
(a) question de départ ;
(b) définition des populations, variables aléatoires ;
(c) hypothèses nulle et alternative ;
(d) description des données.
1 Il y a en anglais deux termes pour hypothèse : asumption et hypothesis.
3. PRINCIPES GÉNÉRAUX 93
3.2 Définitions
Définition 3.2.1 (Risques de première et de deuxième espèce, puissance). On appelle risque de première espèce
et on note α la probabilité de l’événement rejeter l’hypothèse nulle quand elle est vraie :
On appelle risque de deuxième espèce et on note β la probabilité de l’événement accepter l’hypothèse nulle
quand elle est fausse :
On appelle puissance la probabilité de l’événement accepter l’hypothèse alternative quand elle est vraie :
Décision : réalité H0 H1
H0 1−α β
H1 α 1−β
Remarque 3.2.2. (i) Le risque de première espèce est aussi la probabilité de conclure à une différence qui
n’existe pas en réalité.
(ii) Le risque de deuxième espèce est aussi la probabilité de ne pas déceler une différence qui existe.
(iii) La puissance du test est la probabilité de déceler une différence qui existe. C’est un critère de précision, de
qualité d’un test.
Définition 3.2.3 (Test unilatéral, test bilatéral). Un test est dit unilatéral si sa zone de rejet, c’est-à-dire
lévénement accepter H1 , est continue. Il est dit bilatéral si elle est en deux morceaux.
Exemple 3.2.4. Dans l’exemple introductif il n’y avait qu’une seule zone de rejet et l’hypothèse alternative était
H1 : µ > 1400. Nous avions donc un test unilatéral. Si on désirait comparer 2 procédés de fabrication pour savoir
lequel des 2 était le meilleur nous aurions écrit l’hypothèse alternative de la façon suivante : H1 : µ < 1400 ou
µ > 1400. Nous aurions alors eu 2 zones de rejet. Le test aurait été bilatéral.
Définition 3.2.5 (test non paramétrique). On appelle test non paramétrique tout test où dans les postulats il
n’est pas fait mention de lois. Le test est dit paramétrique dans le cas contraire.
Remarque 3.2.6. Dans un test paramétrique les hypothèses nulles et alternative s’expriment par des relations sur
des valeurs de paramètres, d’où la terminologie. En anglais on parle de ”distribution free test” ce qui est à notre
avis plus clair.
Exemple 3.2.8. Si on désire tester l’hypothèse nulle H0 : le caractère suit une loi de poisson ; le test sera un test
non paramétrique.
Définition 3.2.9 (Robustesse). Un test est dit robuste s’il est ”peu” sensibles à la loi de distribution du caractère
étudié.
Remarque 3.2.10. Nous aurons parfois le choix entre plusieurs tests pour une question donnée. Nous choisirons
en pratique parmi ceux qui vérifient les postulats celui qui aura la puissance la plus forte.
94 CHAPITRE 5. TESTS STATISTIQUES : PRINCIPES GÉNÉRAUX
4 Test bilatéral
4.1 Puissance d’un test bilatéral
Exemple 4.1.1. 2 Un acheteur souhaite acquérir un lot de dindes. Ces dindes doivent avoir un poids moyen de
6.5kg et l’acheteur désire que le poids moyen ne soit ni trop faible ni trop élevé. Un vendeur est candidat pour ce
marché qui doit porter sur 60 000 dindes. Afin de s’assurer que la spécification imposée est bien vérifiée, l’acheteur
va prélever un échantillon simple et aléatoire de 64 animaux qu’il pèse. Des résultats antérieurs permettent de
penser que le poids suit une loi normale et on admettra que l’écart-type est connu et est σ = 2 kg. Nous allons ici
donner la règle de décision puis la fonction de puissance de ce test. Formalisons tout d’abord cette expérience. Le
caractère de départ est ici :
X : P −→ R
1 dinde −
7 → son poids.
A chaque lot de 64 animaux l’acheteur obtiendra 64 poids y1 , y2 , . . . y64 . La taille des échantillons (n = 64) étant
faible par rapport à la taille de la population P (N = 60000), on peut approximer l’échantillonnage sans remise
par un échantillonnage avec remise. On peut donc définir le n-échantillons Bernoullien :
PH0 (m1 ≤ Ȳ ≤ m2 ) = 1 − α.
Par suite si nous prenons le même risque à droite et à gauche nous aurons :
D’où
m1 − 6.5 = −1.96
0.25 m1 = 6.01
m2 − 6.5 ⇒
= 1.96 m 2 = 6.99
0.25
La règle de décision est donc :
– Si Ȳobs = M (y1 , . . . , y64 ) ∈ [6.01; 6.99] alors on accepte l’hypothèse nulle d’égalité de la moyenne à 6.5 kg au
risque α de 5%
2 Données provenant du cours de biométrie de l’INAPG de R. Tomassone, juillet 1986, chapitre 5 page 34.
4. TEST BILATÉRAL 95
µ 5.25 5.50 5.75 6.00 6.25 6.50 6.75 7.00 7.25 7.50 7.75
6.01 − µ
3.04 2.04 1.04 0.04 -0.96 -1.96 -2.96 -3.96 -4.96 -5.96 -6.96
0.25
6.99 − µ
6.96 5.96 4.96 3.96 2.96 1.96 0.96 -0.04 -1.04 -2.04 -3.04
0.25
6.01 − µ
φ 1.00 0.98 0.85 0.52 0.17 0.02 0.00 0.00 0.00 0.00 0.00
0.25
6.99 − µ
φ 1.00 1.00 1.00 1.00 1.00 0.98 0.83 0.48 0.15 0.02 0.00
0.25
β(µ) 0.00 0.02 0.15 0.48 0.83 0.95 0.83 0.48 0.15 0.02 0.00
P uis(µ) 1.00 0.98 0.85 0.52 0.17 0.05 0.17 0.52 0.85 0.98 1.00
Le tableau 5.3 et le graphique 5.5 donnent les résultats pour diférentes valeurs de µ
0.9
0.8
0.7
0.6
Puissance
0.5
0.4
0.3
0.2
0.1
0
5 5.5 6 6.5 7 7.5 8
mu
Fig. 5.5 – Puissance d’un test bilatéral : exemple ”dindes” α = 0.05, n = 64.
Comme le montre le graphique (5.3) plus le risque de première espèce augmente, plus la zone d’acceptation de
l’hypothèse nulle diminue et donc plus le risque de deuxième espèce diminu. Par suite la puissance augmente. Le
graphique (5.6) donne la puissance P uis(µ) pour différente valeur du risque de première espèce.
96 CHAPITRE 5. TESTS STATISTIQUES : PRINCIPES GÉNÉRAUX
0.9
0.8
0.7
0.6
Puissance
0.5
0.4
0.3
0.2
0.1
0
4.5 5 5.5 6 6.5 7 7.5 8 8.5
mu
Fig. 5.6 – Puissance, exemple des ”dindes” pour α = 0.0001, 0.01, 05 et 0.1 (σ 2 = 4 et n = 64).
Puissance et variance
Plus la variance est faible, plus la puissance est grande. Ce résultat est logique. En effet plus nous aurons
une variabilité faible, plus facile sera la mise en évidence d’une différence qui existe. Le graphique (5.7) donne les
courbes de puissance pour différentes valeurs de la variance.
1
0.9
0.8
0.7
0.6
Puissance
0.5
0.4
0.3
0.2
0.1
0
4.5 5 5.5 6 6.5 7 7.5 8 8.5
mu
0.9
0.8
0.7
0.6
Puissance
0.5
0.4
0.3
0.2
0.1
0
4.5 5 5.5 6 6.5 7 7.5 8 8.5
mu
Fig. 5.8 – Puissance, exemple des ”dindes” pour n = 50, 100, 150 et 200 (α = 0.05 et σ 2 = 4).
5. CONCLUSION 97
5 Conclusion
5.1 Présentation et conclusion d’un test
Nous tenons ici à rappeler que la première chose à faire lorsque l’on a des données est de les visualiser à l’aide
des outils de la statistique descriptive. Ceci permet, en particulier de visualiser la variabilité de la variable étudiée.
La réalisation pratique d’un test comprendra donc :
(i) la définition de la question posée ;
(ii) la méthode de collecte des données ;
(iii) la visualisation des données ;
(iv) le choix du test statistique ;
(v) la réalisation des calculs ;
(vi) la conclusion.
critiques – très justifiées – souvent adressées à ces techniques. Les échantillons non significatifs, c’est-à-dire mal
prélévés, sont la cause d’un grand nombre de conclusion erronées.
L’erreur qui a été faite dans cet exemple concerne la définition des populations. Il s’agit au fond de la même
erreur lorsque l’on dit que le lit est plus dangereux que l’automobile car il est prouvé statistiquement que l’on
meurt plus souvent dans un lit que dans une automobile. Cette dernière assertion est tout-à-fait exacte, mais la
conclusion est bien évidemment fausse. Le ”lit” n’est pas la cause de déces, mais lorsque l’on est gravement malade,
on est souvent alité. Il s’agit là de ce que nous appellerons du risque de troisième espèce qui est de nature très
différente des risques de première et de deuxième espèce ; mais on aurait tord de penser qu’il est le moins grave.
Ce risque sera évité le plus souvent par le bon sens, encore faut-il se poser les bonnes questions.
6. EXERCICES 99
6 Exercices
6.1 Exercices avec corrigés
Exercice 6.1.1. 3
On sait que les conditions habituelles d’élevage de bovins conduisent à un poids moyen à un âge donné de 300
kg avec un écart type de 24 kg. On suppose que le poids suit une loi normale. On envisage un nouveau régime et
on désire savoir si ce régime est meilleur que l’ancien. Pour cela on teste ce régime sur 64 animaux. On suppose
que ni la loi de la variable aléatoire, ni sa variance σ 2 ne sont modifiées par le nouveau régime.
(i) Définissez les variables aléatoires X0 ”poids ancien régime” et X ”poids nouveau régime”.
(ii) On suppose que les populations étudiées sont de très grandes tailles et on peut donc considérer le 64-échantillon
Bernoullien
Y = (Y1 , . . . , Yn ) : P 64 −→ R64
b = (b1 , . . . , b64 ) 7−→ Y (b) = (X(b1 ), . . . , X(b64 )).
On considère la statistique M
M : R64 −→ R
64
1 X
(y1 , . . . , y64 ) 7−→ ȳ = yi .
64 i=1
X0 : P0 −→ R
1 bovin 7−→ son poids
(ii) Ȳ suit une loi normale N (µ, 242 /64), où µ est l’espérance mathématique de X.
(iii) – H0 : µ = 300 ;
– H1 : µ > 300.
Le test est unilatéral à droite car on désire savoir si le nouveau régime est meilleur que l’ancien.
(iv) (a)
α = PH0 (rejeter H0 )
= PH0 (Ȳ > Ȳcrit )
Ȳ − 300 Ȳcrit − 300
= PH0 >
3 3
Ȳ − 300
⇒φ = 1 − α = 0.95
3
Ȳcrit − 300
⇒ = 1.645
3
⇒Ȳcrit = 304.935
3 Données provenant du cours de biométrie de l’INAPG de R. Tomassone, juillet 1986, chapitre 5 page 36.
100 CHAPITRE 5. TESTS STATISTIQUES : PRINCIPES GÉNÉRAUX
β = PH1 (accepter H0 )
= PH1 (Ȳ < Ȳcrit )
Ȳ − µ Ȳcrit − µ
= PH1 <
3 3
Ȳcrit − µ
=φ
3
et la puissance est PH1 (accepter H1 ) = 1 − β(µ). La table 5.4 donne les valeurs numériques du risque
de deuxième espèce et de la puissance pour les valeurs demandées et la figure 5.9 visualise la fonction
puissance.
0.9
0.8
0.7
0.6
Puissance
0.5
0.4
0.3
0.2
0.1
(c) Pour µ = 307.5 l’expérience avec 64 bovins conclura que l’hypothèse alternative H1 est vraie, c’est-à-dire
que le nouveau régime est meilleur que l’ancien, avec une probabilité de 0.804.
2
Exercice 6.1.2. On désire savoir si un juge reconnaı̂t le différence entre 2 produits A et B. Pour cela on lui
présente 3 produits dont 2 sont identiques et on lui demander de désigner celui qui est différent. On considère donc
la variable aléatoire X suivante :
X:Ω −→ {0, 1}
1 triplet 7−→ 1 si le juge reconnaı̂t le produit différent
1 triplet 7−→ 0 si le juge ne reconnaı̂t pas le produit différent
où Ω est l’ensemble des triplets possibes des deux produits A et B, deux produits étant identiques. X est une
variable aléatoire de loi de Bernoulli de paramètre p. On désire savoir si le juge répond totalement au hasard ou s’il
reconnaı̂t le produit différent. Pour cela, on fait n fois l’expérience. On obtient alors un n-échantillon qui est une
6. EXERCICES 101
Z : Ωn −→ {0, 1, . . . , n}
ω = (ω1 , . . . , ωn ) 7−→ nombre de bonnes réponses
correction.
(i) Si le juge choisi au hasard p est égal à 1/3. Si le juge ne répond pas au hasard c’est que p > 1/3 (si p < 1/3,
c’est que le juge répond de façon pire que s’il répondait totalement au hasard !). Le test est donc un test
unilatéral à droite. Par suite les hypothèses nulle et alternative sont
– H0 : p = 1/3 ;
– H1 : p > 1/3.
(ii) S est
S : Rn −→ R
n
X
(y1 , . . . , yn ) 7−→ S(y) = yi
i=1
P
Donc Z = S(Y ) = i Yi . Par suite Z suit une loi binômiale de paramètre (n, p).
(iii) Attention, il faut ici lorsqu’on définit les événemants accepter H0 et accepter H1 , bien préciser si on
prend des inégalités large ou strict car la loi de la variable aléatoire de décision est discrète.
On a
α = PH0 (rejeter H0 )
= PH0 (Z ≥ Zcrit )
= PH0 (Z = Zcrit ) + PH0 (Z = Zcrit + 1) + · · · + P (Z = n)
Xn
= Cnk pk q n−k
k=Zcrit
La table ci-après donne pour différentes valeurs de Zcrit les valeurs de α obtenus.
Zcrit 12 13 14 15 16 17 ...
(a)
α 0.091 0.041 0.016 0.005 0.001 0.000 ...
On en déduit que pour avoir α le plus proche de 0.05 tout en étant inférieur il faut prendre Zcrit = 13.
102 CHAPITRE 5. TESTS STATISTIQUES : PRINCIPES GÉNÉRAUX
0.18
β
puissance
0.16
0.14
0.12
0.1
Loi de Z
0.08
0.06
0.04
0.02
0
0 5 10 15 20 25
k
(c)
(d) Pour p = 1/3 on a
β = PH1 (accepter H0 )
= 1 − 0.041 = 0.939
0.9
0.8
0.7
0.6
Puissance
0.5
0.4
0.3
0.2
0.1
(e)
2
6. EXERCICES 103
Ȳ : P 20 −→ R
20 observations 7−→ ȳ
4 Problème provenant du livre de R. Céhessat ”Exercices commentés de statistique et informatique appliquées”. Dunod 1976, page
176
5 Exemple issu de l’ouvrage ”Statistique concepts et méthodes” Sabin Lessard, Monga ; PUM Masson 1993. exercice 8.25 page 311.
104 CHAPITRE 5. TESTS STATISTIQUES : PRINCIPES GÉNÉRAUX
Indications.
(i)
(ii)
(iii) α = 0.00288.
(iv) β = 0.93 pour les deux valeurs de µ.
2
X : P −→ R
un paquet 7−→ son poids
On suppose que X suit une loi normale N (µ, σ 2 ) avec σ = 5g. Le poids marqué sur les paquets est 700g. On
désire savoir si la machine de remplissage est bien réglée. Nous allons donc réaliser un test statistique. En pratique
on prélève 10 paquets de lessive et on mesure le poids moyen de ces 10 paquets de lessive. On suppose la population
des paquets de lessive est très grande, on peut donc définir la variable aléatoire suivante :
Ȳ : P 10 −→ R
10 paquets de lessive 7−→ le poids moyen
Enfin on ne veut léser ni le client, ni l’entreprise. On suppose que la variance ne bouge pas.
(i) Donner les hypothèses nulles et alternatives du test. On précisera si le test est unilatéral ou bilatéral.
(ii) Quelle est la loi de Ȳ .
(iii) On prend un risque de première espèce de 0, 05. On a obtenu sur un échantillon une valeur du poids moyen
ȳ = 710, quelle sera la conclusion ?
(iv) Visualiser pour µ = 705 le risque de première espèce, de deuxième espèce et la puissance du test.
(v) Calculer la puissance de ce test quand µ = 690; 695; 700; 705; 710. Tracer la forme de la courbe de puissance
en fonction de µ.
(vi) On veut, pour µ = 705 une puissance de 0, 99. Donner l’équation que doit vérifier n : le nombre de paquets
de lessive qu’il faut prendre.
Exercice 6.3.2. Le cahier des charge entre un semencier et un agriculteur stipule que le taux de contamination
des semences ne doit pas dépasser 2%. Afin de s’assurer que cela est bien le cas le semencier décide de faire un test
statistique. Pour cela il prélève un lot de n semences provenant de l’agriculteur, effectue les tests biologiques sur
ce lot et définit la procédure suivante :
– Si dans le lot, il y a plus de 2% de semences contaminées alors on rejette la production ;
– Si dans le lot, il y a moins de 2% de semences contaminées alors on accepte la production.
6 Exercice construit à partir de l’exercice 10 du chapitre ”théorie des tests” de ”Statistique, exercices corrigés avec rappels de cours”,
Cette expérience se formalise de la façon suivante. On définit la population P des semences produites par l’agri-
culteur et la variable aléatoire X de loi de Bernoulli de paramètre p.
X:P −→ {0, 1}
1 semence 7−→ 1 si la semence est contaminée
1 semence 7−→ 0 si la semence n’est pas contaminée
Ȳ : P n −→ R
1 lot de semences de taille n 7−→ (le nombre de semences contaminées dans le lot)/n
(i) On suppose que l’on peut approximer la loi de Ȳ par une loi normale. Donner les paramètres de cette lois en
fonction de p et n.
(a) Donner pour ces deux tests le risque de première espèce et donner leur signification concrète.
(b) On suppose que n = 1000. Calculer pour ces deux tests le risque de deuxième espèce pour p = 0.01; 0.02
et 0.03.
(iii) En fait le semencier veut avoir une forte probabilité de rejeter la production si le taux de contamination est
effectivement de 2% et l’agriculteur veut lui avoir une forte probabilité que sa production soit acceptée si le
taux de contamination est de 1%. On étudie pour cela le test :
– H0 : p = 0.02 ;
– H1 : p = 0.01.
Exercice 6.3.3. Un semencier a mis au point une variété OGM d’une plante résistante à un herbicide. Il désire
savoir si, dans des conditions de culture normales il peut y avoir transfert du gène de résistance aux plantes rudérales
à une distance donnée (1 km par exemple). Il met en place sur le terrain l’expérimentation suivante :
106 CHAPITRE 5. TESTS STATISTIQUES : PRINCIPES GÉNÉRAUX
Parcelle
de
rudérales
1 km
?
Parcelle
émettrice
de pollen
On prélève dans la parcelle ”rudérales” n graines et on réalise un test biologique sur ces graines pour savoir s’il
y a eu transfert de gène. On définit la variable aléatoire suivante :
X:G −→ {0, 1}
1 graine 7−→ 0 si la graine n’est pas transformée
1 graine 7−→ 1 si la graine est transformée
On suppose que la population G est très grande et on note p la proportion dans G de graines transformées. On
définit Y = (Y1 , . . . , Yn ) le n-échantillon Bernoullien de X et on considère la statistique
S : Rn −→ R
n
X
y = (y1 , y2 , . . . , yn ) 7−→ S(y) = yi
i=1
S(Y ) : G n −→ R
g = (g1 , g2 , . . . , gn ) 7−→ le nombre de graines transformées parmi les n graines
Estimation
1 Introduction
1.1 Exemples
Exemple 1.1.1. 1 Le merle à plastron (Turdus torquatus) est un oiseau qui en automne erre dans les bois clairs
et les buissons des montagnes, entre 1500 mètres et 2000 mètres d’altitude. En 1968, à la station ornithologique
du Col de la Golèze située dans les Alpes à 1700 mètres d’altitude, 48 merles à plastron ont été capturés au filet
japonais durant 89 jours d’ouverture de la station. Les données de la table (6.1) ont ainsi été obtenues.
Jours 1 2 ... 88 89
Nombre de merles capturés 0 2 ... 0 1
La table (6.2) donne alors la distribution des fréquences absolues des captures obtenues.
La représentation graphique du tableau des fréquences relatives associées est donc fournie par le diagramme en
bâtons de la figure (6.1)
0.7
0.6
0.5
Fréquences relatives
0.4
0.3
0.2
0.1
0
0 1 2 3 4 5
k
On suppose que la répartition dans le temps des captures de merles est aléatoires (i.e. qu’une capture n’influence
pas une autre capture). La population des merles est supposée très grande. On peut modéliser cette expérience par
la variable aléatoire suivante :
X : J −→ N
un jour 7−→ nombre de merles capturés
1 Exemple provenant de B. Scherrer [5] page 242
109
110 CHAPITRE 6. ESTIMATION
Nous pouvons supposer que cette variable aléatoire suit une loi de Poisson :
λ −λ
P (X = k) = e
k!
Question : Comment à partir des résultats obtenir une estimation de ce paramètre λ ?
Nous pouvons penser à différentes solutions :
(i) Nous avons P (X = 0) = e−λ , nous pouvons donc penser à la formule :
(ii) Nous avons aussi E(X) = λ et nous pouvons donc penser à la formule :
22 + 2 × 9 + 3 + 5
λ̂ = ȳ = = 0.551
89
(iii) Mais nous avons encore V ar(X) = λ et nous pouvons donc penser à une troisième formule :
n
1X
λ̂ = s2 = (yi − ȳ)2
n 1
Exemple 1.1.2. 2 Imaginons une population dans laquelle nous savons que tous les éléments ont été numérotés de 1
à N , par exemple lors d’un concours, mais nous ne connaissons pas cette valeur. Nous extrayons de cette population
un échantillon de taille 5 et nous relevons les 5 numéros : y1 = 203; y2 = 504; y3 = 366; y4 = 326; y5 = 77. La
question est comment estimer la valeur de N à partir de ces 5 données. Là encore nous pouvons penser à plusieurs
formules :
(i) maxi=1,...,5 (yi ) ;
(ii) maxi=1,...,5 (yi ) + mini=1,...,5 (yi ) − 1 ;
(iii) 2 × yei (2 fois la médiane des données).
2 Principes généraux
2.1 Formalisme mathématique, définitions
Considérons le problème de l’estimation d’un taux de germination d’une variété fixée dans des conditions
expérimentales bien définies. Appelons P la population des graines supposée de taille infinie. Estimer le taux de
germination c’est estimer le paramètre p de la loi de Bernoulli de la variable aléatoire
X:P −→ {0, 1}
une graine 7−→ 1 si la graine germe et 0 sinon
Pour cela on réalise l’expérience qui consiste à prendre n graines et à les mettre à germer. On estimera alors le
paramètre p par la fréquence de graines qui auront germé dans l’échantillon. Si nous ”répétons cette expérience
une infinité de fois”, nous définissons ainsi la variable aléatoire suivante :
Ȳ : P n −→ R
le nombre de graines qui germent dans l’échantillon
un échantillon de n graines 7−→
n
2 Exemple provenant de Tommassone [7] page 10
2. PRINCIPES GÉNÉRAUX 111
C’est la théorie de l’échantillonnage (et la théorie des probabilités) qui nous permet d’avoir des résultats sur la
variable Ȳ et en particulier sa loi. Schématiquement nous avons :
Y : P n → Rn
X:P→R échantillonnage
- T : Rn → R
loi de X : f (x, θ)
Loi de T (Y1 , . . . , Yn )
Résultats sur
Information Estimation
un échantillon de taille n
sur la valeur de θ
T (y1 , . . . , yn )
POSTULATS On supposera toujours dans la suite que l’on a un n-échantillon Bernoullien et donc que les
variables aléatoires (Yi )i=1,...,n sont indépendantes et de même loi. Nous écrirons alors (Yi )i=1,...,n i.i.d3
Définition 2.1.1 (Problème d’estimation). Soit X un caractère sur une population Ω de loi f (x; θ) si X est
continue et p(x; θ) si X est discrète. Estimer θ c’est déterminer à partir d’un échantillon (y1 , . . . , yn ) une valeur
approchée de θ. θ s’appelle un paramètre et on notera (Pe ) un problème d’estimation.
3 indépendantes et identiquement distribuées
112 CHAPITRE 6. ESTIMATION
Remarque 2.1.2. La définition ci-dessus est valable que θ soit un réel ou un vecteur. Si l’on désire par exemple
estimer les paramètres µ et σ pour une variable aléatoire de loi normale, on aura : θ = (θ1 , θ2 ) = (µ, σ) ∈ R2 .
Nous n’étudierons dans cette section que le cas où la variable aléatoire sera à valeurs dans R et où le paramètre
sera un réel.
Définition 2.1.3 (Estimateur – Estimation ponctuelle). Soit (Pe )un problème d’estimation. On appelle estimateur
toute variable aléatoire T (Y1 , . . . , Yn ), où (Y1 , . . . , Yn ) est un n-échantillon aléatoire, ayant pour but d’estimer le
paramètre θ. On appelle valeur estimée ou estimation ponctuelle ou estimation par point ou encore estimation la
quantité θ̂ = T (y1 , . . . , yn ) obtenue à partir d’un n-échantillon (y1 , . . . , yn ).
Définition 2.1.4 (Estimation par intervalle – Intervalle de confiance). Soit (Pe ) un problème d’estimation où θ
est réel. On appelle estimation par intervalle ou intervalle de confiance au niveau 1 − α tout intervalle [θ̂1 ; θ̂2 ] tel
que la probabilité que cette intervalle contienne la valeur du paramètre θ soit égale à 1 − α.
Remarque 2.1.5. (i) L’avantage d’avoir un intervalle de confiance est que l’on a ainsi une idée de la précision
de l’estimation.
(ii) Dire que l’intervalle recouvre la valeur du paramètre θ, c’est dire que θ est dans l’intervalle. Nous pouvons
donc prendre comme définition d’un intervalle de confiance tout intervalle tel que :
Par abus de langage nous dirons que θ appartient à l’intervalle [θ̂1 ; θ̂2 ] au niveau 1−α. Il faut bien comprendre
en effet que dans l’équation ci-dessus θ est une constante (c’est ce que l’on cherche à estimer). C’est l’intervalle
qui est ici aléatoire. Si l’on désire par exemple avoir un intervalle de confiance d’un taux de germination, nous
réaliserons concrètrement l’expérience consistant à mettre à germer n graines. A partir des résultats de cette
expérience, nous construirons l’intervalle de confiance du taux de germination (voir la sous section (3.3)) .
Si nous réalisons une nouvelle fois cette expérience nous obtiendrons un nouvel intervalle de confiance. C’est
donc bien cet intervalle qui varie et non pas le taux de germination qui est ce qu’il est. Par conséquent écrire
θ ∈ [θ̂1 ; θ̂2 ] au niveau 1−α n’est pas très rigoureux car θ, qui est une constante soit appartient à cet intervalle,
soit est hors de cet intervalle ; il ne peut y être avec une probabilité de 1 − α. La bonne formulation serait
de dire que l’intervalle [θ̂1 ; θ̂2 ] recouvre la vraie valeur du paramètre θ avec la probabilié de (1 − α). Mais
l’habitude veut que l’on emploie la première formulation.
Nous allons maintenant voir les propriétés que doit posséder tout ”bon” estimateur.
Définition 2.2.1 (Estimation sans biais). Soit (Pe ) un problème d’estimation. Un estimateur T est dit sans biais
si et seulement si l’espérance mathématique de T est égale à la valeur du paramètre θ cherchée :
E(T ) = θ
Définition 2.2.2 (Estimation asymptotiquement sans biais). Soit (Pe ) un problème d’estimation. Un estimateur
Tn est dit asymptotiquement sans biais si et seulement si l’espérance mathématique de Tn tend vers la valeur du
paramètre θ cherchée quand n tend vers +∞ :
E(Tn ) −→ θ
n −→ +∞
Exemple 2.2.3. Considérons le problème de l’estimation d’une variance σ 2 dans le cas où la variable aléatoire
suit une loi normale. Soit donc (Y1 , . . . , Yn ) un n-échantillon aléatoire Bernoullien de la variable aléatoire X dont
on cherche à estimer la variance. Considérons l’estimateur
n
1X
T (Y1 , . . . , Yn ) = (Yi − Ȳ )2 = S 2 (Y )
n i=1
Par suite S 2 n’est pas un estimateur sans biais de σ 2 . Pour obtenir un estimateur sans biais il faut en fait prendre :
n
1 X n
T (Y1 , . . . , Yn ) = (Yi − Ȳ )2 = S 2 (Y )
n − 1 i=1 n−1
0.08 0.04
0.06 0.03
0.04 0.02
0.02 0.01
0 0
85 90 95 100 105 110 115 0 25 90
SCE/(n−1)
0.05
0.04
0.03
0.02
0.01
0
0 25 90
Nous pouvons observer que la valeur moyenne obtenue pour le troisème graphique est bien la valeur de la
variance σ 2 recherchée alors que sur le deuxième elle est inférieure (la valeur est de 4/5σ 2 )
Remarque 2.2.4. Nous tenons a rapeller ici que l’illustration via la simulation informatique n’est qu’une illustra-
tion. Il faudrait en fait non pas prendre 5000 échantillons, mais une infinité. Ce sont les théorèmes mathématiques
qui nous permettent d’affirmer que le résultat est bien exact.
S 2 n’est pas un estimateur de la variance sans biais, mais il est asymptotiquement sans biais puisque E(S 2 ) =
n−1 2
n σ tend vers σ 2 quand n tend vers +∞.
Une deuxième propriété, qui est fondamentale, que doit avoir tout ”bon” estimateur est que si l’on a suffisamment
de données la valeur de la variable aléatoire soit très proche de la valeur du paramètre recherché. Ceci ce traduit par
le fait que l’estimateur soit asymptotiquement sans biais et qu’il fluctue peu autour de son espérance mathématique
lorsque n est grand, c’est-à-dire que sa variance soit petite pour n grand. Nous débouchons ainsi sur la notion
d’estimateur convergent.
Définition 2.2.5 (Estimateur convergent). Soit (Pe ) un problème d’estimation. Un estimateur Tn est dit convergent
si et seulement si il est asymptotiquement sans biais et si sa variance tend vers 0 quand n tend vers +∞ :
E(Tn ) −→ θ et V ar(Tn ) −→ 0
n −→ +∞ n −→ +∞
Exemple 2.2.6. Considérons le problème de l’estimation d’une moyenne µ. Soit donc (Y1 , . . . , Yn ) un n-échantillon
aléatoire Bernoullien de la variable aléatoire X dont on cherche à estimer la moyenne. Considérons l’estimateur
n
1X
Tn (Y1 , . . . , Yn ) = Ȳn = Yi
n i=1
Nous savons alors que : E(Ȳn ) = µ pour tout n. Par suite cet estimateur est sans biais et donc asympotiquement
sans biais. Quand à la variance de cet estimateur elle est :
σ2
V ar(Ȳn ) =
n
Par suite cet estimateur est un estimateur convergent.
114 CHAPITRE 6. ESTIMATION
Exemple 2.2.7. Supposons, pour simplifier, que X suive une loi normale. Nous avons déjà vu à l’exemple 2.2.3
2
que n/(n − 1)S 2 est un estimateur sans biais et le théorème (4.4.2.1) nous dit que V ar(n/(n − 1)Sn2 ) = σ4
n−1
qui donc tend vers 0 quand n tend vers +∞. Par suite n/(n − 1)S 2 est un estimateur convergent de la variance.
Illustrons le phénomène grâce à la simulation. Construisons 5000 échantillons de taille 5 de données provenant
d’une loi normale N (100, 25). Pour chacun des 5000 échantillons nous calculons la quantité SCE/(n − 1). Nous
obtenons ainsi 5000 réalisations de la variable aléatoire n/(n − 1)S 2 . Traçons alors l’histogramme de ces 5000
nombres. Nous obtenons le premier histogramme de la figure (6.3). Nous avons sur ce même graphique tracé la
fonction de densité de la variable aléatoire n/(n − 1)S 2 . Les deuxième et troisième graphiques de cette même figure
sont obtenus de façon similaire mais avec n = 20 et n = 50. Nous avons sur le dernier graphique mis les fonctions
de densité théoriques. Nous observons bien ici le phénomène de convergence : plus n est grand, plus les valeurs de
la variable aléatoire se concentrent autour de la vraie valeur de la variance recherchée.
n=5 n=20
0.1 0.1
0.08 0.08
0.06 0.06
0.04 0.04
0.02 0.02
0 0
0 25 100 0 25 100
n=50
0.1 0.1
0.08 0.08
0.06 0.06
0.04 0.04
0.02 0.02
0 0
0 25 100 0 25 100
Nous pouvons maintenant définir un critère pour choisir entre deux estimateurs sans biais : c’est celui qui aura
une dispersion minimale en terme de variance.
Définition 2.2.8 (Estimateur efficace). Soit (Pe ) un problème d’estimation. Un estimateur sans biais Tn est dit
efficace si quel que soit l’estimateur sans biais Tn0 , on a :
V ar(Tn ) ≤ V ar(Tn0 )
Exemple 2.2.9. Considérons une variable aléatoire X de loi uniforme sur [0; 12]. La simulation obtenue avec 1000
échantillons de taille n montre que la moyenne est plus efficace que la médiane (cf. la figure 6.4).
Données
0.1
0.08
0.06
0.04
0.02
0
0 2 4 6 8 10 12
Moyennes Médianes
0.4 0.4
0.3 0.3
0.2 0.2
0.1 0.1
0 0
0 5 10 0 5 10
Démonstration
Le point (i) a été vu à la section précédente et le point (ii) sera admis. 2
Théorème 3.1.2. Soit (Pe ) le problème d’estimation de la variance θ = σ 2 où X est une variable aléatoire réelle
continue de loi normale alors l’intervalle de confiance au niveau (1 − α) est donné par :
" #
2 SCE SCE
σ ∈ ; au niveau (1 − α)
χ21−α/2 χ2α/2
Corollaire
√ 3.1.3. Sous les mêmes hypothèses que le théorème précédent l’estimation ponctuelle de l’écart type σ
est σ̂ = σ̂ 2 et, si la loi de la variable aléatoire de départ X est normale, l’estimation par intervalle est :
"s s #
SCE SCE
σ∈ ; au niveau (1 − α)
χ21−α/2 χ2α/2
Démonstration
Cela provient du théorème (4.4.2.1) qui dit entre autre que la variable aléatoire :
nS 2 (Y )
K(Y ) = : Pn −→ R
σ2
n
1 X
ω = (ω1 , . . . , ωn ) 7−→ (X(ωi ) − Ȳ (ω))2
σ 2 i=1
suit une loi du Khi-2 à ν = (n − 1) degré de liberté si l’échantillon aléatoire est Bernoullien et si la variable aléatoire
X suit une loi normale. Par suite, si nous définissons les valeurs de χ2α/2 et χ21−α/2 par :
nS 2 (Y )
2
P χα/2 < < χ1−α/2 =1−α
σ2
!
nS 2 (Y ) 2 nS 2 (Y )
⇔ P <σ < =1−α
χ1−α/2 χ2α/2
Or à partir des données nous avons une observation de la variable aléatoire nS 2 qui est donnée par la somme
des carrés des écarts SCE. D’où le résultat. 2
Exemple 3.1.4. Reprenons les données de la table 4.1 où l’on s’intéressait à la longueur de la rectrice centrale de
la gélinotte huppée mâle, juvénile. On désire ici avoir une estimation de la variance. La variable aléatoire étudiée
est :
X : Ω −→ R
une gélinotte 7−→ la longueur de sa rectrice
116 CHAPITRE 6. ESTIMATION
0.045
0.04
0.035
0.03
0.025
0.02
0.015
0.01
0.005
← α/2
α/2→
0
0 100
χ20.025 χ20.975
où u1−α/2 est défini par P (U < u1−α/2 ) = 1 − α/2, U étant une variable aléatoire de loi normale centrée réduite.
On en déduit alors que :
σ σ
P Ȳ − u1−α/2 √ ≤ µ ≤ Ȳ + u1−α/2 √ =1−α
n n
d’où le résultat.
Ȳ − µ
(ii) Lorsque X suit une loi normale N (µ, σ 2 ), il est toujours vrai que U = suit une loi normale centrée
√σ
n
réduite. Le problème est ici que σ est inconnue. L’idée immédiate est de remplacer σ par son estimation σ̂. Ceci
nous conduit à construire le variable aléatoire suivante :
T (Y ) : P n −→ R
Ȳ (ω) − µ
ω = (ω1 , . . . , ωn ) 7−→ T (ω) = q Pn
i=1 (X(ωi )−Ȳ (ω))2
(n−1)n
où U est une variable aléatoire de loi normale centrée réduite, Z est une variable aléatoire de loi du Khi-2 à
ν = n − 1 degré de liberté, et ces deux variables aléatoires sont indépendantes. Par suite T suit une loi de Student
à ν = (n − 1) ddl.
Par conséquent, si nous définissons t1−α/2 par :
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
← α/2
α/2→
0
−4 4
t t
0.025 0.975
qui est r
σ̂ 2
ȳ − t1−α/2
n
Nous avons le même type de résultat pour la deuxième borne de l’intervalle. D’où le résultat.
2
Exemple 3.2.3. Reprenons les données de la table 4.1 où l’on s’intéressait à la longueur de la rectrice centrale
de la gélinotte huppée mâle, juvénile. Calculons l’intervalle de confiance de la moyenne. Nous supposons toujours
ici que la loi de la vaviable aléatoire est normale. Nous avons obtenu à l’exemple 3.1.4 ȳ = 158.86 et σ̂ = 6.0979.
Le nombre de données est n = 50, et donc ν = 49. Par suite nous avons t0.975,ν=49 = 2.0096. Ce qui nous donne
comme intervalle de confiance à 95% :
6.0979 6.0979
µ ∈ 158.86 − 2.0096 × √ ; 158.86 − 2.0096 × √ = [157.13; 160.59] au niveau 0.95
50 50
Le théorème précédent nous donne les résultats théoriques lorsque la loi de la variable aléatoire X est normale,
mais on sait, grâce au théorème limite central que Ȳ suit asymptotiquement une loi normale, c’est-à-dire que pour
n grand, on peut approximer la loi de Ȳ par une loi normale. Il reste à savoir à partir de quand on est en droit
d’utiliser cette approximation pour ensuite obtenir des intervalles de confiance de la moyenne. Plus la loi de départ
sera disymétrique, plus n devra être grand. La proposition suivante donne une règle couramment utilisée.
Proposition 3.2.4. Soit Pe un problème d’estimation où X est une variable aléatoire continue et θ = E(X) = µ
alors l’intervalle de confiance est :
(i) si la variance σ 2 est connue et si n > 5
σ σ
µ ∈ ȳ − u1−α/2 √ ; ȳ + u1−α/2 √ au niveau (1 − α)
n n
4
Définition 3.2.5 (Erreur standard). On appelle erreur standard l’estimation ponctuelle de l’écart type de la
moyenne, c’est-à-dire la quantité : √
σ̂/ n
Remarque 3.2.6. On trouvera aussi comme terminologie erreur standard de la moyenne au lieu d’erreur standard.
Nous pouvons utiliser maintenant les résultats précédents pour déterminer le nombre n de mesures nécessaires
afin d’obtenir une estimation avec une précision voulue. Considérons par exemple le cas où la variable aléatoire X
suit une loi normale, alors l’intervalle de confiance au niveau (1 − α) est donné par :
σ̂ σ̂
µ ∈ ȳ − t1−α/2 √ ; ȳ + t1−α/2 √ au niveau (1 − α)
n n
Exemple 3.2.7. On se propose de déterminer la quantité d’olives que l’on doit prendre pour pouvoir estimer à
une décimale près la teneur en huile (exprimée en pourcentage du poids frais). Comme nous n’avons au départ
aucune information, nous prenons, dans un premier temps 100 olives. On suppose que la variable aléatoire ”teneur
en huile” suit une loi normale. Après avoir analysé celles-ci, nous avons obtenu : ȳ = 28.5% et σ̂ = 5.7%. Nous
prenons α = 0.05. L’intervalle de confiance de µ au niveau 0.95 est alors de
5.7 5.7
28.5 − t1−α/2 √ ; 28.5 + t1−α/2 √ = [28.5 − 1.12; 28.5 + 1.12]
100 100
n = 100 est donc trop petit. Déterminons maintenant la taille de l’échantillon nécessaire. Nous conservons l’esti-
mation de σ obtenue lors de notre première expérience et nous remplaçons t1−α/2 par u1−α/2 dans l’équation (6.2).
Nous obtenons ainsi
1.96 × 5.7
d= = 0.1
n
soit
n ' 13000
On vérifie a posteriori que la valeur de n est grande et donc que l’approximation de t1−α/2 par u1−α/2 est correcte.
Si n est faible, il faut itérer pour trouver la solution de l’équation (6.2).
et
k
obs
kobs X
P (Ȳ ≤ )= Cni pi1 (1 − p1 )n−i = α/2 (6.4)
n i=1
Démonstration
Cela provient tout simplement de la théorie de l’échantillonnage et pour (ii) du fait que nȲ suit une loi binômiale.
2
Les équations 6.3 et 6.4 sont difficiles à résoudre et on sait que l’on peut souvent en pratique approximer
une loi binômiale ou hypergéométrique par une loi normale d’où la proposition suivante. Nous notons dans cette
proposition σ̂p l’estimation de la variance de X̄ qui est données par :
p̂q̂
(i) σ̂p2 = si l’échantillonnage est avec remise ;
n−1
p̂q̂ N − n
(ii) σ̂p2 = si l’échantillonnage est sans remise.
n−1 N
Proposition 3.3.2. Soit Pe un problème d’estimation où X est une variable aléatoire de loi de Bernoulli B(p). Si
n est supérieur aux valeurs mentionnées dans la table 6.3 alors l’intervalle de confiance est données par
1 1
p ∈ p̂ − u1−α/2 σ̂p − ; p̂ + u1−α/2 σ̂p + au niveau (1 − α)
2n 2n
Démonstration
Puisque l’on peut faire l’approximation par une loi normale on obtient l’intervalle en prenant l’intervalle de confiance
1
d’une moyenne. Le terme 2n est un terme de correction de non continuité [3] 2
Remarque 3.3.3. (i) Pour les valeurs de n inférieures à 100 et pour n/N < 0.1 on a construit des tables
statistiques qu’il suffit d’aller consulter.
(ii) pour les valeurs de p très proche de 0 on peut aussi utiliser l’approximation de la loi binômiale par une loi de
poisson.
120 CHAPITRE 6. ESTIMATION
p n
0.5 30
0.4 50
0.3 80
0.2 200
0.1 600
0.05 1400
Tab. 6.3 – valeurs minimales de n en fonction de p pour pouvoir utiliser la loi normale dans le calcul de l’intervalle
de confiance d’une proportion
(iii) Quand l’échantillonnage est sans remise, ce qui est toujours le cas en pratique ! ! !, et quand n/N > 0.1, nous
devons travailler avec la loi hypergéométrique, ce qui complique les calculs. Il faut pour répondre à la question
alors se tourner vers les logiciels spécifiques.
Exemple 3.3.4. 5 A la fin de l’été et au cours de l’automne 1975, une épidémie virale provoqua la mort d’environ
1000 cerfs de Virginie (Odocoileus virginianus) dans le New Jersey ([4]). L’analyse d’un échantillon de 146 victimes,
dont le sexe a pu être identifié, révéla que seulement 41 mâles dont 10 faons composaient l’échantillon.
Quel est l’intervalle de confiance au niveau 0.95 du pourcentage de mâles morts de cette maladie lors de
l’épidémie de 1975 ?
41
L’échantillon se compose de 146 animaux et l’estimation ponctuelle de la proportion est p̂ = 146 = 0.28 Comme
cette valeur est proche de 0.3 et que l’effectif de l’échantillon n est supérieur à 80, nous pouvons utiliser l’approxi-
mation normale. L’effectif de la population est ici environ N = 1000, donc
r
0.28 × 0.72 1000 − 146
σ̂p = = 0.0344
145 1000
par suite l’intervalle de confiance est :
1 1
p ∈ 0.28 − 1.96 × 0.034 − ; 0.28 + 1.96 × 0.034 + = [0.21; 0.35] au niveau (1 − α)
292 292
4 Compléments
4.1 Lien entre intervalle de confiance et test
L’intervalle de confiance de la moyenne dans le cas où l’on connaı̂t la variance σ 2 et où la variable aléatoire X est normale est donnée par :
» –
σ σ
ȳ − u1−α/2 √ ; ȳ + u1−α/2 √ au niveau 1 − α
n n
Considérons maintenant, toujours sous les mêmes postulats, le test bilatéral suivant :
H0 : µ = µ0
H1 : µ 6= µ0
Nous aurons alors
» la règle de décision suivante : –
σ σ
– si ȳ ∈ µ0 − u1−α/2 √ ; µ0 + u1−α/2 √ alors on accepte l’hypothèse nulle H0 au risque α ;
» n n–
σ σ
– si ȳ 6∈ µ0 − u1−α/2 √ ; µ0 + u1−α/2 √ alors on accepte l’hypothèse alternative H1 au risque α.
n n
Ce qui est equivalent
» à : –
σ σ
– si µ0 ∈ ȳ − u1−α/2 √ ; ȳ + u1−α/2 √ alors on accepte l’hypothèse nulle H0 au risque α ;
» n n–
σ σ
– si µ0 6∈ ȳ − u1−α/2 √ ; ȳ + u1−α/2 √ alors on accepte l’hypothèse alternative H1 au risque α.
n n
En d’autres termes, on peut considérer l’intervalle de confiance comme l’ensemble des valeurs de la moyenne µ0 pour lesquelles on accepterait
l’hypothèse nulle dans le test bilatéral.
4.2 Illustration
Soit Pe un problème d’estimation où la loi de la variable aléatoire X est continue et où θ ∈ R. Soit T un estimateur de θ.
Fixons θ 0 dans R. Si nous connaissons la loi de T pour ce paramètre θ 0 , nous pouvons déterminer les valeurs h1 (θ 0 ) et h2 (θ 0 ) telles que :
0
P (T < h1 (θ )) = α/2
0
P (T < h2 (θ )) = 1 − α/2
Si maintenant nous calculons à partir d’un n-échantillon l’estimation ponctuelle θ̂ = T (y1 , . . . , yn ) nous avons la relation suivante :
0 0 0 −1 −1
θ̂ ∈ [h1 (θ ), h2 (θ )] ⇐⇒ θ ∈ [θ̂1 ; θ̂2 ] = [h2 (θ̂); h1 (θ̂)]
estimations
paramètres
170 170
165 165
160 160
Values
155
155
150
150
145
145
140
140
0 0.5 1 1.5 2 1
Column Number
La figure (6.10) montre quant-à elle les différents intervalles de confiance de la moyenne à 95% pour les données
des longueurs d’ailes de mésanges noires selon leur âge et sexe.
Remarque 4.4.1. Nous pouvons voir sur les graphiques des boı̂tes à moustaches qu’il y a peut-être des données
aberrantes. Les intervalles de confiances ont ici été calculés sur toutes les données car nous n’avions aucune infor-
mation nous permettant d’exclure une de ces données.
122 CHAPITRE 6. ESTIMATION
68
67
66
65
Longueur d’ailes en mm
64
63
62
61
60
59
58
1 2 3 4
68
67
66
65
Longueur d’ailes en mm
64
63
62
61
60
59
58
5 Exercices
5.1 Exercices avec corrigés
Exercice 5.1.1. 6 Une biochimiste étudie un type de moisissure qui attaque les cultures de blé. La toxine contenue
dans cette moisissure est obtenue sous la forme d’une solution organique. On mesure la quantité de substance par
gramme de solution. Sur 9 extraits on a obtenu les mesures suivantes :
correction.
(i) L’estimation ponctuelle de la moyenne est
1
µ̂ = ȳ = (1.2 + 0.8 + · · · + 1.0) = 1.0222
n
.
(ii)
n
X n
X
SCE = (yi − ȳ)2 = yi2 − nȳ 2
i=1 i=1
= 9.96 − 9(1.0222)2
= 0.5556
6 Données provenant du livre de Stephan Morgenthaler, ”Introduction à la statistique”, exercice 3 page 146
5. EXERCICES 123
SCE 0.5556
σ̂ 2 =
= = 0.0694
n−1 8
√
Et l’estimation ponctuelle de l’écart type est σ̂ = σ 2 = 0.2635.
Remarque. Suivant la précision avec lesquels on fait les calculs intermédiaires on obtiendra des résultats plus
ou moins différents de ceux données ici. Nous n’insisterons pas sur ce point dans la mesure ou aujourd’hui
les calculs sont fait sur l’ordinateur.
(iii) La loi étant supposée normale on a pour intervalle de confiance de la variance
2 SCE SCE
σ ∈ ; 2 à 90%
χ2 χ0.05
0.95
0.5556 0.5556
σ2 ∈ ; à 90%
15.507 2.733
σ 2 ∈ [0.0358; 0.2033] à 90%
(iv) La loi étant supposée normale on a comme intervalle de confiance pour la moyenne
σ̂ σ̂
µ ∈ ȳ − t1−α/2 √ ; ȳ + t1−α/2 √ au niveau 1 − α
n n
µ ∈ [0.7275; 1.3169]
Remarque.
– On peut constater que plus le degré de confiance est grand, plus l’intervalle est grand ; ce qui est logique.
2
Exercice 5.1.2. 7 Le ministère de la construction désire connaı̂tre le nombre de garages qu’il est souhaitables de
construire avec une H.L.M., afin que les locataires puissent y ranger leur voiture.
(i) Sur 100 ménages on en a trouvé 40 qui possédaient une voiture. Donner l’intervalle de confiance à 95% de la
proportion des ménages qui possèdent une voiture. On supposera que l’approximation par la loi normale est
correcte.
(ii) On suppose connu la proportion p des ménages possédant une voiture. Exprimer n le nombre de ménages
en fonction de p et de d que l’on interroger pour être sûr à 97% que l’estimation ponctuelle soit dans un
intervalle [p − d; p + d]. Pour d fixé quelle est la valeur de p la plus défavorable, c’est-à-dire celle qui donne la
valeur de n la plus grande. Calculer n pour d = 0.01; 0.05 et p = 0.04
(iii) On interroge 3238 ménages. On trouve parmi eux 971 possesseurs de voitures.
(a) Donner l’estimation ponctuelle de la proportion p.
(b) Donner l’intervalle de confiance à 99% de la proportion p.
Remarque 5.1.1. Nous avons maintes fois fait l’approximation d’une loi binômiale par une loi normale. L’intérêt
de cette approximation est de permettre des calculs plus simple. Pour que cette approximation soit correcte il faut
que n soit suffisamment grand et que p ne soit pas trop proche de 0 ou de 1. Dans le cas où le paramètre p est
très proche de 0 la bonne approximation pour la loi binômiale est la loi de Poisson. Le tableau ci-dessous donne les
limites de l’approximation :
7 Exercice n◦ 81 du livre de C. Labrousse ”Statistique exercices corrigés avec rappels de cours”
124 CHAPITRE 6. ESTIMATION
Il ne s’agit ici que de résultats empiriques que nous utiliserons très souvent.
correction.
(i) On a p̂ = 40/100 = 0.4 et
p̂q̂ 0.4 × 0.6
σ̂p2 = = = 2.4210−3
n−1 99
Par suite l’intervalle de confiance de p est
(ii) On est ici dans la théorie de l’ échantillonnage, en effet on suppose que l’on connaı̂t la valeur et p et on cherche
n pour que l’estimation p̂ soit suffisamment proche de p, c’est-à-dire dans un intervalle [p − d; p + d] avec une
probabilité de 0.97. L’estimateur est ici Ȳ et on sait que l’on peut supposer que cette variable aléatoire suit
une loi normale N (p, pq/n). Par suite on a
r r
pq pq
P Ȳ ∈ p − u1−α/2 ; p + u1−α/2 =1−α
n n
Par suite pour avoir P (Ȳ ∈ [p − d; p + d]) = 0.97, il suffit de prendre α = 0.03 et
r
pq
d = u1−α/2
n
u 2
1−α/2
⇔n = p(1 − p)
d
avec ici u1−α/2 = u0.985 = 2.17. La fonction n(p) est donc une parabole concave (n00 (p) < 0) et le maximum
sur [0; 1] est en 0.5 (unique point où n0 (p) = 0). (voir la figure 6.11)
12000
10000
8000
6000
n
4000
2000
0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
p
Pour p = 0.4 et d = 0.01 on trouve n ∼ 11301 et pour p = 0.4 et d = 0.05 on trouve n ∼ 452.
(iii) (a) p̂ = 971/3238 = 0.299.
5. EXERCICES 125
2
Exercice 5.1.3. 8
Les sondages sont largement utilisés dans le marketing direct : il arrive souvent, en effet, que l’on estime par
sondage le rendement d’un fichier donné, que l’on souhaite comparer les rendements de plusieurs fichiers, ou encore
que, disposant de plusieurs fichiers, l’on souhaite estimer par sondage le rendement global de l’ensemble des fichiers.
Dans cet exercice, on suppose l’existence d’un fichier de N =200 000 adresses. On note p le rendement inconnu du
fichier à une offre d’abonnement à prix réduit avec calculette offerte en prime ; c’est donc la proportion d’individus
qui s’abonneraient si l’offre était faite à tous les individus du fichiers. On prélève au hasard, sans remise, n individus.
On note :
– P la population des 200 000 individus ;
n
– f= ;
N
– σ 2 = pq ;
– Ȳ la variable aléatoire
Ȳ : P n −→ R
nombre d’individus qui s’abonnent
n individus 7−→
n
σ2
Nous pouvons dans ce cas approximer la loi de la variable Ȳ par une loi normale N (p, (1−f ) ). (L’échantillonnage
n
est sans remise et nous ne pouvons ici l’approximer par un échantillonnage avec remise).
(i) On suppose que p = 0.02. Quelle taille d’échantillon doit-on prendre pour estimer p avec une précision absolue
de 0.5% et un degré de confiance de 95% ;
(ii) Même question pour des précisions de 0.3% et 0.1% ;
(iii) Le test a porté sur 10 000 adresses, et on a noté 230 abonnements. Donner l’intervalle de confiance à 95% de
p et du nombre total d’abonnements si l’offre était faite sur l’ensemble du fichier.
correction.
Remarque. Dans le cours, théorème 4.1.1, on dit que
N − n σ2
V ar(Ȳ ) =
N −1 n
alors qu’ici on a
σ2 n σ2 N − n σ2
(1 − f )
= 1− =
n N n N n
La bonne formule est bien sûr celle du cours, mais ici N est suffisamment grand pour confondre N et N − 1.
(i) La variable de départ est ici
X : P −→ {0, 1}
1 individu 7−→ 1 s’il s’abonne
1 individu 7−→ 0 s’il ne s’abonne pas
X suit une loi de Bernoulli de paramètre p et a donc pour variance pq. On cherche donc a estimer p et on
nous dit que Ȳ peut être approximée par une loi normale de paramètre N (p, (1 − f )pq/n). Nous pouvons
donc écrire r r
pq pq
P p − u1−α/2 (1 − f ) ≤ Ȳ ≤ p + u1−α/2 (1 − f ) =1−α
n n
Or ici on veut P (p − d ≤ Ȳ ≤ p + d) = 1 − α avec
– p = 0.02 ;
– d = 0.005 ;
8 Exercice 5 page 8 de l’ouvrage ”Exercices de sondages” A.N. Dussaix et J.M. Grosbras, Ed. Economica 1992
126 CHAPITRE 6. ESTIMATION
– α = 0.05.
Nous pouvons maintenant exprimer n en fonction de d, N, p et α. On veut
r
n pq
d = u1−α/2 1−
N n
2
d n pq pq pq
⇔ = 1− = −
u1−α/2 N n n N
pq d pq
⇔ = +
n u1−α/2 N
N pqu21−α/2
=⇒n =
N d2 + pqu21−α/2
cov(X, Y )
ρ=
σ(X)σ(Y )
L’estimation ponctuelle est donnée par :
cov(x, y) SP E(x, y)
ρ̂ = =p
sx sy SCE(x)SCE(y)
Pour avoir un intervalle de confiance de ce coefficient de corrélation linéaire il faut que le couple de variable aléatoire
(X, Y ) soit de loi normale de dimension 2. La distribution d’échantillonnage est toutefois complexe. cependant Fisher
a montré que la variable auxiliaire :
1 1+R
Z = ln
2 1−R
obéissait à une loi très proche de d’une loi normale de paramètres :
1 1+ρ 1
E(Z) = ln ; V ar(Z) =
2 1−ρ n−3
Aussi pour avoir un intervalle de confiance de ce coefficient de corrélation linéaire il faut :
9 Exemple provenant du livre de Scherrer page 591 et suivantes
5. EXERCICES 127
(i) calculer
1 1 + ρ̂
ẑ = f (ρ̂) = ln ;
2 1 − ρ̂
(ii) Calculer l’intervalle r r
1 1
[ẑ − u1−α/2 ; ẑ + u1−α/2 ]
n−3 n−3
(iii) Calculer à l’aide de la transformation de Fisher inverse, c’est-à dire à f −1 , les limites de l’intervalle de
confiance de ρ.
Application
Dans une étude sur la dynamique des populations naturelles de la tenthrède du pin (Diprion frutetarum) de
Oliveira (1972) a observé la capacité de reproduction en fonction de différentes mesures du cocon et de l’insecte
adulte. La capacité de reproduction a été évaluée par le nombre y d’oocytes (œufs) matures par cocon. Parmi les
mesures prises sur le cocon figure la longueur x en millimètres de ce dernier. Les données relatives à ces observations
sont les suivantes :
x y x y x y
8.5 60 9.5 89 9.4 73
8.0 27 7.8 37 8.9 68
9.0 72 8.8 51 7.9 29
7.7 41 9.5 89 8.2 28
8.5 66 8.8 42 8.8 47
8.0 46 9.0 33 8.0 46
9.1 57 9.4 65 9.0 55
9.0 99 7.8 42 8.5 47
9.3 85 8.6 57 8.9 85
8.4 48 7.8 48 8.7 72
9.5 86 9.1 85 8.8 67
8.2 47 9.7 77 8.8 60
9.5 93 9.0 78 8.6 53
8.9 45 8.5 66 8.4 60
8.5 55 9.0 71 9.4 32
9.1 79 9.2 67 8.8 69
8.5 61 8.8 85 9.5 98
8.5 77 7.8 48 9.0 58
8.5 77 8.7 49 8.0 43
8.9 43 9.0 39 8.5 64
8.5 56 9.3 76 8.6 70
7.4 25 8.5 82 9.1 33
10.0 56 9.8 48 8.8 57
On donne : P P
x = 603.5mm y = 4139œufs
P i2 i 2
P i2 i 2 P
i i = 5299.11mm
x i i = 271681œufs
y i xi yi = 36576.4
(i) Donner l’intervalle de confiance à 99% du coefficient de corrélation linéaire.
Exercice 5.2.2. Les montants de timbres ont été relevés sur un échantillon pris au hasard de 400 paquets traités
par la poste d’une zone de distribution un jour donné. On suppose que la population des paquets est grande et que
la loi de la variable aléatoire modélisant le prix est normale. On donne ȳ = 4.70 euros et SCE = 3080
(i) Donner une estimation ponctuelle σ̂ de l’écart type de la variable aléatoire prix.
(ii) Pouvez-vous donner l’intervalle
√
de confiance à 90% de cet écart type. Pour ν > 100 on peut approximer une
2
loi du Khi-2 par (U + 22ν−1) où U suit une loi normale centrée réduite.
(iii) Donner l’intervalle de confiance à 90 % de la moyenne µ de la variable aléatoire prix.
(iv) Calculer l’intervalle [ȳ − √σ̂ ; ȳ + √σ̂ ]. Quel niveau de confiance est associé à cet intervalle ?
n n
128 CHAPITRE 6. ESTIMATION
(v) Si on tirait 100 échantillons de 400 paquets indépendamment les uns des autres, et si on calculait pour chacun
d’eux l’intervalle de confiance à 90%, quelle proportion de ces 100 intervalles contenant effectivement la valeur
inconnue de µ peut-on attendre ?
(vi) Sur quelle population cette expérience permet-elle de conclure ?
Indications.
(i) σ̂ 2 = 7.72.
(ii)
σ 2 ∈ [6.9; 8.71] à 90%
(iii)
µ ∈ [4.47; 4.93] à 90%
(iv) (1 − α) = 0.6826
2
Exercice 5.2.3. Un économiste souhaite connaı̂tre la variabilité des revenus des habitants d’une ville donnée. On
sait, par des études antérieures, que l’on peut considérer la loi de la variable aléatoire ”revenus” est une loi log
normale. Il collecte pour son étude 100 données et obtient les estimations suivantes à partir de ces données :
– µ̂ = 10000 ;
– σ̂ 2 = 4000000.
(i) Donner un intervalle de confiance à 99% de la moyenne.
(ii) On désire, toujours avec un degré de confiance de 99%, une précision absolue pour l’intervalle de confiance
d = 100. Combien faut-il de données ?
(iii) Pouvez-vous donner un intervalle de confiance à 90% de la variance ?
(iv) Après avoir discuté avec l’économiste, on s’aperçoit que ces données on été obtenues en interrogeant les
personnes dans la semaine et l’après-midi par téléphone. Quels problèmes cela pose-t-il ?
Indications.
(i) µ ∈ [99484.8; 100515.2] à 99%
(ii) n ∼ 2654
(iii) Pensez aux hypothèses.
2
1150, 1500, 1700, 1800, 1800, 1850, 2200, 2700, 2900, 3000, 3100, 3500, 3900, 4000, 5400
(i) Donner l’intervalle de confiance de la moyenne à 95%. Donner l’amplitude de cet intervalle.
10 www.cnam.fr/math/IMG/pdf/Fiche8.pdf
5. EXERCICES 129
(ii) Si n désigne la taille d’un échantillon, donner l’amplitude de l’intervalle de confiance en fonction de n.
(iii) On souhaite construire un intervalle de confiance de la moyenne à 95% d’une amplitude de 500g. Quelle taille
d’échantillon faut-il ?
Exercice 5.3.4. Cet exercice est difficile. 11
Un commissaire aux Comptes contrôle un stock composé de N = 2000 références d’une valeur totale V inconnue.
Les documents comptables fournissent une ”valeur totale d’inventaire” de 5447560 d’Euros. On définit les deux
variables aléatoires suivantes :
X : S −→ R
un article 7−→ sa valeur comptable d’inventaire
Y :S −→ R
un article 7−→ sa valeur réelle
2
On note µX et µY les espérances mathématique des variables X et Y ; et σX et σY2 les variances des variables
X et Y .
(i) Les variables aléatoires X et Y sont-elles a priori indépendantes ? (On justifiera la réponse).
(ii) Le commissaire fait tirer sans remise un échantillon de n = 160 références dans le stock afin d’estimer V
et V̄ (valeur comptable moyenne par référence). On obtient ȳ = 2705, 64 Euros et σ̂y = 1527, 31 Euros. On
2
n σY
suppose que l’on peut approximer la loi de Ȳ par une loi normale N (µ, (1 − N ) ).
n
(a) Donner un intervalle de confiance à 99% de µY .
(b) Donner l’estimation ponctuelle de V et un intervalle de confiance à 99% de V .
(c) Conclusion.
(d) On veut une précision absolue, c’est-à-dire une demi longueur de l’intervalle de confiance, de 100 pour
la moyenne µY . Donner le nombre d’articles qu’il faut prendre.
(e) Quelle est la valeur de µX ?
(iii) On pose D = Y − X, Yd = µX + D et Ȳd = µX + D̄
(a) Calculer E(Ȳd ) en fonction de µY .
(b) On démontre que :
n V ar(Yd )
V ar(Ȳd ) = 1 −
N n
On suppose que Ȳd suit une loi normale. Dans l’échantillon on a trouvé : d¯ = 10.67 Euros et σ̂D = 41.82
Euros. Donner l’intervalle de confiance à 99% de µY .
(c) Commentaires
[1] Gildas Brossier and Anne-Marie Dussaix. Enquêtes et sondages. Méthodes, modèles, applications, nouvelles
technologies. Dunod, 1999. ISBN : 2 10 004023 5.
[2] Donald E. Catlin. Estimation, Control, and the Discrete Kaman Filter. Springer, 1989.
[3] W.G. Cochran. Sampling Techniques. Wiley, New York, 1977.
[4] P. McConnel, R. Lund, and N. Rose. The 1975 outbreak of hemorrhagic desease among white tail deer in north
western new jersey. Transaction of the Northeast Section of the Wildlife Soc. ; Hershey, Pennsylvania, 1976.
[5] Bruno Scherer. Biostatistique. Gaëtan Morin, 1984.
[6] Yves Tillé. Théorie des sondages, échantillonnage et estimation en population finies. Cours et exercices corrigés.
Dunod, 2001. ISBN : 2 10 005484 8.
[7] R. Tomassone, C. Dervin, and J.P. Masson. BIOMÉTRIE, Modélisation de phénomènes biologiques. Masson,
1993.
131