11extrait Statistiques

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 135

Département Biosciences Végétales

Module : Statistique 1

J. Gergaud

19 septembre 2006
Table des matières

1 Introduction 1
1 Image de la statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
2 Exemples de problèmes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
2.1 Cas à une seule variable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
2.2 Cas à deux variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
2.3 Cas d’un nombre fini de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
3 Schéma général . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
4 Enseignement des mathématiques en tronc commun . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
5 Modules Statistique 1 et 2, première année . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
5.1 Objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
5.2 Statistique 1 : Outils et concepts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
6 Difficulté de cet enseignement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
6.1 Petite approche historique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
6.2 Mon sentiment sur cet enseignement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
7 Contrôle de connaissance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2 Statistique descriptive 5
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2 Types de données traitées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.1 Notion de caractère . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2 Types de caractères qualitatifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.3 Types de variables statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
3 Statistique descriptive à une dimension . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
3.2 Les distributions de fréquences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
3.3 Réduction des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.4 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
4 Statistique descriptive à 2 dimensions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.2 Les distributions en fréquences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
4.3 Représentations graphiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
4.4 Réduction des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
4.5 Droite de régression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
5 Compléments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
5.1 Changement de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
5.2 Cas à plus d’une variable explicative . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
6 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
6.1 Exercices avec solutions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
6.2 Exercices avec indications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
6.3 Exercices sans indications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

3 Probabilités 35
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2 Définition des probabilités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.1 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.2 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.3 Représentation graphique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3 Probabilités conditionnelles et indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

i
ii TABLE DES MATIÈRES

3.1 Probabilités conditionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39


3.2 Indépendance d’événements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4 Variables aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.2 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.3 Fonction de répartition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.4 Fonction d’une variable aléatoire réelle continue . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.5 Variables aléatoires vectorielles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.6 Variables aléatoires indépendantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
5 Espérance mathématique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
5.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
5.2 Espérance d’une somme de variables aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5.3 Variance–Covariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
6 Théorèmes limites . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
6.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
6.2 Lois des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

4 Théorie de l’échantillonnage 59
1 Modélisation des variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
1.2 Variable aléatoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
2 Introduction à la théorie de l’échantillonnage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
2.1 Modélisation des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
2.2 Exemple de l’urne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
2.3 Exemple du référendum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
3 Échantillonnage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
3.1 Échantillon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
3.2 Schéma général . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
4 Distribution d’échantillonnage de certaines statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . 68
4.1 Distribution déchantillonnage de la moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
4.2 Distribution d’échantillonnage de la variance . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
4.3 Distribution d’échantillonnage de T . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
4.4 Distribution d’échantillonnage du rapport de variance . . . . . . . . . . . . . . . . . . . . . . 72
4.5 Distribution d’échantillonnage d’une fréquence . . . . . . . . . . . . . . . . . . . . . . . . . . 72
5 Principales lois de probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
6 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
6.1 Exercices avec corrigés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
6.2 Exercices avec indications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
6.3 Exercices sans indications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

5 Tests statistiques : principes généraux 87


1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
2 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
2.1 Problème . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
2.2 Cas simplifié . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
2.3 Cas général . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
3 Principes généraux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
3.1 Logique générale d’un test statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
3.2 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
4 Test bilatéral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
4.1 Puissance d’un test bilatéral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
4.2 Puissance et paramètres α, σ 2 et n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
4.3 Tests multiples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
5.1 Présentation et conclusion d’un test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
5.2 Risque de troisième espèce . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
6 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
6.1 Exercices avec corrigés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
6.2 Exercices avec indications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
6.3 Exercices sans indications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
TABLE DES MATIÈRES iii

6 Estimation 109
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
1.1 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
1.2 Position du problème . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
2 Principes généraux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
2.1 Formalisme mathématique, définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
2.2 Propriétés des estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
3 Estimations des principaux paramètres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
3.1 Estimation d’une variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
3.2 Estimation d’une moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
3.3 Estimation d’une proportion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
4 Compléments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
4.1 Lien entre intervalle de confiance et test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
4.2 Illustration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
4.3 Estimation robuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
4.4 Représentation graphique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
5 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
5.1 Exercices avec corrigés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
5.2 Exercices avec indications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
5.3 Exercices sans indications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
Chapitre 1

Introduction

1 Image de la statistique
– Il existe 3 formes de mensonges : les simples mensonges, les affreux mensonges et les statistiques.
– Le lit est plus dangereux que l’automobile car il est prouvé statistiquement que l’on meurt plus dans un lit
que dans une voiture.
– Le statisticien est un homme qui prétend qu’avoir la tête dans une fournaise et les pieds dans la glace permet
de bénéficier d’une température moyenne agréable.

2 Exemples de problèmes
2.1 Cas à une seule variable
Exemple 2.1.1. On désire estimer le nombre d’animaux d’une espèce donnée dans une région donnée.

Outil statistique : l’estimation


Exemple 2.1.2. On désire estimer le taux de germination d’une variété donnée.

Outil statistique : l’estimation


Exemple 2.1.3. On désire savoir laquelle de deux variétés (ou plus) a le plus fort rendement.

Outils statistiques : le test de Student, l’analyse de la variance.

2.2 Cas à deux variables


Exemple 2.2.1. Quelle est la relation entre le rendement et la pluviométrie à une période donnée ?
Exemple 2.2.2. Y-a-til une liaison entre le rendement et la teneur du grain en protéines
La réponse à ces questions repose sur l’étude de modèles mathématiques de nature aléatoire :
– la régression linéaire simple
– la régression non linéaire
– la corrélation

2.3 Cas d’un nombre fini de variables


Exemple 2.3.1. Quelle est la relation entre le rendement d’une variété donnée et un ensemble de variables
météorologiques.

Outil statistique : la régression linéaire multiple


Exemple 2.3.2. Quelles sont les relations existant entre p caractères morphologiques, physiologiques et agrono-
miques d’une plante donnée : hauteur totale, dimension foliaire, ramification, ... ? On s’intéresse alors à la structure
de l’ensemble des individus et/ou de l’ensemble des caractères.

Outil statistique : l’Analyse factorielle en Composantes Principales (ACP) et l’Analyse Factorielle des Corres-
pondances (AFC)

1
2 CHAPITRE 1. INTRODUCTION

Exemple 2.3.3. En taxinomie biologique et en écologie on est souvent amené à des problèmes de classifications.

Outil statistique : l’Analyse Factorielle Discriminante (AFD), méthodes de classification

3 Schéma général

Les statistiques La statistique


 


 
9
 ?

La statistique descriptive La statistique mathématique

Z Z
 Z  Z
 Z  Z
 Z  Z
 Z  Z
=
 ~
Z 
= ~
Z
La statistique Analyse Inférence Théorie
descriptive des statistique des
à 1, 2, 3 données tests

dimensions

4 Enseignement des mathématiques en tronc commun


– Modules Statistique 1 et 2 1ère année
– Module Algèbre Linéaire 1ère année
– Module Optimisation 1ère année
– Module Plans d’expérience 2ème année
– Module Analyse Multivariable 2ème année

5 Modules Statistique 1 et 2, première année


5.1 Objectifs
Objectifs finaux
– Savoir sur un cas concret simple et pour une question donnée simple choisir la méthode statistique adaptée
et savoir appliquer cette méthode
– Connaı̂tre les limites de chaque méthode et interpréter correctement les résultats
– Prendre conscience de l’importance d’une bonne collecte des données

Sous objectifs
– Savoir ce qu’est un ”bon” estimateur
– Savoir ce qu’est un intervalle de confiance
– Savoir ce qu’est un test statistique
– Hypothèse nulle et alternative
– Risque de première espèce, notion de puissance
– Connaı̂tre la régression linéaire simple.
6. DIFFICULTÉ DE CET ENSEIGNEMENT 3

5.2 Statistique 1 : Outils et concepts


Cours
– Statistique descriptive à 1 et 2 dimensions
– Théorie de l’échantillonnage ; lois du χ2 , de Student et de Fisher
– Théorie des tests
– Estimation

TD
TD1 : Statistique descriptive. Décrire les données par des graphiques et/ou quelques quantités numériques
TD2 : Probabilités, théorie de l’estimation
TD3 : Théorie des tests statistiques
TD4 : Tests statistiques et estimation
TD5 : Estimation

6 Difficulté de cet enseignement


6.1 Petite approche historique
– En 2238 avant J.C. l’empereur chinois Yao organisa un recensement des productions agricoles
– Sans le recensement d’Hérode Jésus Christ ne serait pas né dans une étable
– Rôle précurseur des marchands de la République de Venise rassemblant au XIIIe et XIVe siècles des données
sur le commerce extérieur.
– Premiers concepts au XVIIe siècle
– En Prusse : École descriptive allemande qui créa le mot statistique1 (Statistik)
– En Angleterre : École des arithméticiens politiques qui s’est attachée à l’aspect mathématique des assurances
– En France : L’état, avec Colbert et Vauban exécute de nombreux inventaires et recensements
– Au XVIIIe et XIXe siècle on assiste surtout au développement de bureaux de statistiques
– Développement des probabilités
– Pierre Simon de FERMAT (1601-1665)
– Blaise PASCAL (1623-1662)
– Jacques BERNOULLI (1654-1705)
– Abraham de MOIVRE (1667-1754)
– Thomas BAYES (1702-1761)
– Pierre Simon de LAPLACE (1749-1827)
– Simeon Denis POISSON (1781-1840)
– Karl Friedrich GAUSS (1777-1855)
– Irénée Jules BIENAYME (1796-1878)
– Pafnuti Livovic TCHEBYCHEV (1821-1894)
– Adolphe QUETELET (1796-1874) : Lien entre les probabilités et les statistiques
– Francis GALTON (1822-1911) : Droite de régression
– Karl PEARSON (1857-1936) : Khi-2, corrélation, tables statistiques
– William Sealy GOSSET (1876-1937) : Pseudonyme de STUDENT
– Ronald Aylmer FISHER (1890-1962) : Analyse de la variance, maximum de vraisemblance
– Jerzy NEYMAN (1894-1981) : Théorie des tests, intervalle de confiance
– Egon PEARSON (1895-1980) : Théorie des tests
– ...

6.2 Mon sentiment sur cet enseignement


– Difficulté liée à l’assimilation de concepts et à la formalisation mathématique.
– Gros problème de terminologie et de notations
– Lorsque l’on fait des statistiques on est toujours avec du concret et de l’abstrait. On travaille avec des données
et on utilise de la théorie.
– Un bon statisticien doit :
– Être rigoureux
1 Ce mot vient du substantif latin status qui signifie état
4 CHAPITRE 1. INTRODUCTION

– Savoir utiliser le formalisme mathématique


– Être pragmatique et plein de bon sens
– La formation en France est encore très déterministe (Descarte, Laplace,...)
– On aimerait avoir une réponse par oui ou non ! ! !
– La démarche statistique ne s’acquiert pas en 40 heures ! ! !
– C’est difficile mais passionnant.

7 Contrôle de connaissance
– Examen écrit de 2 heures avec une page A4 recto-verso, calculatrice et tables statistiques ;
– Notations de TD ;
Chapitre 2

Statistique descriptive

1 Introduction
2 Types de données traitées
2.1 Notion de caractère
Définition 2.1.1 (Caractère). On appelle caractère tout critère sur lequel repose une étude statistique.

Exemple 2.1.2. La taille d’un individu, le poids d’un objet, la concentration d’une substance.

Définition 2.1.3 (Caractère quantitatif, variable statistique). On appelle caractère quantitatif ou variable statis-
tique tout caractère directement représentable par des nombres.

Exemple 2.1.4. La taille, l’âge d’un individu, le nombre de particules.

Définition 2.1.5 (Caractère qualitatif). On appelle caractère qualitatif tout caractère non quantitatif

Exemple 2.1.6. La couleur des yeux, pile ou face.

Remarque 2.1.7. On pourrait très bien coder pile ou face par 0 et 1, mais nous aurions tout de même un caractère
qualitatif d’où le mot directement dans la définition. On peut aussi dire qu’une variable statistique est un caractère
mesurable. Les opérations comme l’addition ont donc un sens sur un caractère quantitatif, ce qui n’est pas le cas
sur un caractère qualitatif.

2.2 Types de caractères qualitatifs


On range les caractères qualitatifs en plusieurs catégories :
– Les caractères qualitatifs ordonnés (i.e. que l’on peut les classer) comme le niveau d’un élève (bon, moyen,
mauvais).
– Les caractères qualitatifs non ordonnés comme la couleur des yeux.
– Les caractères dichotomiques (i.e. qui ne peuvent prendre que deux valeurs différentes) comme le sexe, pile
ou face.

2.3 Types de variables statistiques


Définition 2.3.1 (Variable discrète). On appelle variable discrète toute variable qui ne peut prendre qu’un nombre
fini ou dénombrable de valeurs.

Exemple 2.3.2. – Nombre de points sur la face supérieur d’un dé.


– Nombre de lancés d’une pièce de monnaie avant d’obtenir face.

Définition 2.3.3 (Variable continue). On appelle variable continue toute variable pouvant prendre un nombre
infini non dénombrable de valeurs.

Exemple 2.3.4. – Poids d’un individu.


– Taille d’un individu.
– Concentration d’une substance.

5
6 CHAPITRE 2. STATISTIQUE DESCRIPTIVE

3 Statistique descriptive à une dimension


3.1 Introduction
Nous allons nous intéresser dans cette section au cas d’un seul caractère quantitatif. Nous avons donc au départ
une suite de n nombres :y1 , y2 , . . . , yn . Nous pouvons bien évidemment avoir dans cette suite plusieurs fois la même
valeur.

Définition 3.1.1 (Série statistique). On appelle série statistique la suite y1 , y2 , . . . , yn .

Exemple 3.1.2. Notes sur 10 de 10 élèves à un devoir de français.

10; 05; 01; 09; 02; 05; 01; 09; 09; 01

3.2 Les distributions de fréquences


Lorsque la série est trop grande mais que les valeurs prises par la variable ne sont pas trop nombreuses nous
pouvons condenser les résultats sous la forme d’une distribution de fréquences. Notons xi les différentes valeurs du
caractère étudié obtenues i = 1, . . . , p.

Définition 3.2.1 (Fréquence absolue ou fréquence). On appelle fréquence absolue le nombre d’occurrences d’une
même valeur observée xi , c’est-à-dire le nombre de fois où la valeur xi est observée. On note ni cette fréquence liée
à la valeur xi .
Pp
Remarque 3.2.2. On a toujours n = i=1 ni

Notation 3.2.3. On note aussi n. = n


Le point signifie que l’on a fait une sommation sur l’indice i.

Définition 3.2.4 (Fréquence relative). On appelle fréquence relative associée à xi la quantité :


ni
fi =
n
Remarque 3.2.5. On a toujours :
p p p
X X ni 1X
fi = = ni = 1
i=1 i=1
n n i=1

Définition 3.2.6 (Fréquences cumulées absolues). Les fréquences cumulées absolues sont données par :

N0 = 0
N1 = n1
..
.
Xk
Nk = ni si k ∈ {1, . . . , p}
i=1
..
.
Nk = n si k > p

Définition 3.2.7 (Fréquences cumulées relatives). Les fréquences cumulées relatives sont données par :

F0 = 0
F1 = f1
..
.
Xk
Fk = fi si k ∈ {1, . . . , p}
i=1
..
.
Fk = 1 si k > p
3. STATISTIQUE DESCRIPTIVE À UNE DIMENSION 7

Exemple 3.2.8. Nous donnons dans le tableau ci-dessous les valeurs des différentes fréquences définies précédemment
pour l’exemple (3.1.2).
Notes Fréquences Fréquences Fréquences cumulées Fréquences cumulées
absolues relatives absolues relatives
0 0 0 0 0
1 3 0,3 3 0,3
2 1 0,1 4 0,4
3 0 0 4 0,4
4 0 0 4 0,4
5 2 0,2 6 0,6
6 0 0 6 0,6
7 0 0 6 0,6
8 0 0 6 0,6
9 3 0,3 9 0,9
10 1 0,1 10 1

Nous avons étudié le cas où la variable ne pouvait prendre que peu de valeurs différentes. Il se pose donc la
question de savoir ce que l’on fait lorsque l’on a des valeurs observées distinctes en grand nombre (ce qui est le cas
en particulier lorsque l’on étudie des variables continues). Dans ce cas nous condensons les données en groupant
les observations en classes. Le nombre de classes est en général compris entre 10 et 20 et l’intervalle de classe est
constant (mais ceci n’est pas obligatoire). Une classe est définie par ses limites. La limite supérieure d’une classe
étant la limite inférieure de la classe suivante. Quant à la valeur de la classe, on choisit souvent le milieu de la
classe. Une fois que les classes ont été définies nous pouvons comme précédemment calculer les fréquences absolues,
relatives, cumulées absolues et cumulées relatives.

Exemple 3.2.9. Distribution de fréquence des étendues des exploitations agricoles belges (ces donnée proviennent
de l’ouvrage de Dagnélie “Théorie et méthodes statistiques” volume 1).
Etendues des Valeurs des Fréquences Fréquences Fréquences cumulées
exploitations classes absolues relatives relatives
de 1 à 3ha 2ha 58122 0,2925 0,2925
de 3 à 5ha 4ha 38221 0,1924 0,4849
de 5 à 10ha 7,5ha 52684 0,2651 0,75
de 10 à 20ha 15ha 35188 0,1771 0,9271
de 20 à 30ha 25ha 8344 0,0420 0,9691
de 30 à 50ha 40ha 3965 0,0199 0,9890
de 50 à 100ha 75ha 1873 0,0094 0,9984
plus de 100ha ? 309 0,0016 1,000

Remarque 3.2.10. Dans l’exemple ci-dessus la dernière classe n’a pas de limite supérieure. On dit que la classe
est ouverte.

Nous avons jusqu’à présent travaillé directement avec des nombres, mais un tableau de chiffres (même en
quantité restreinte) n’est jamais très lisible aussi nous allons maintenant étudier les représentations graphiques des
fréquences. Dans tous les cas nous aurons ici en abscisse les valeurs des variables et en ordonnées les fréquences.
Considérons tout d’abord le cas des fréquences non cumulées. Deux cas se présentent suivant que les données
sont groupées (i.e. mises en classes) ou non. Lorsque celles-ci sont non groupées, nous utiliserons des diagrammes
en bâtons : Pour chaque valeur de xi , nous traçons un segment de droite de longueur égale à la fréquence (absolue
ou relative suivant les cas) associée à xi .

Exemple 3.2.11. Reprenons les données de l’exemple (3.1.2), la figure (2.1) est le diagramme en bâtons relatif
aux fréquences relatives.

Lorsque les données sont groupées, nous représentons ces fréquences par des rectangles contigus dont les inter-
valles de classes sont les bases et les hauteurs des quantités telles que l’aire de chaque rectangle soit proportionnelle
à la fréquence de la classe correspondante.

Remarque 3.2.12. Si les classes sont équidistantes nous pouvons alors prendre comme hauteur les fréquences.

Exemple 3.2.13. Représentons les fréquences relatives des étendues des exploitations agricoles belges (exemple
(3.2.9))
8 CHAPITRE 2. STATISTIQUE DESCRIPTIVE

0.35

0.3

0.25

Fréquences relatives
0.2

0.15

0.1

0.05

0
0 2 4 6 8 10
Notes

Fig. 2.1 – Diagramme en bâtons

0.16

0.14

0.12

0.1

0.08

0.06

0.04

0.02 ← Aire=0.01771×10=0.1771

0
Surfaces en ha

Fig. 2.2 – Histogramme

Définition 3.2.14 (Histogramme). On appelle histogramme un diagramme du type précédent.

Remarque 3.2.15. (i) Lorsque nous étudions une variable continue nous avons dans la pratique un grand
nombre de mesures, certaines étant très proches les unes des autres, d’autres étant plus éloignées. Si nous
représentions ces données sous la forme d’un diagramme en bâtons nous aurions un graphique du type suivant :

1.8

1.6

1.4
Fréquences absolues

1.2

0.8

0.6

0.4

0.2

0
0 1 2 3 4 5 6 7 8
Valeurs de la variable

Fig. 2.3 – ”Densité”

La densité d’une zone indiquerait alors que beaucoup de données seraient dans cette zone. Mais un tel gra-
phique n’est pas très lisible et une idée est donc de représenter cette densité en ordonnées. Celle-ci est obtenue
en divisant le nombre de mesures obtenues dans une classe (i.e. la fréquence absolue) par la longueur d’in-
tervalle de classe. C’est bien ceci que nous représentons dans un histogramme.
(ii) Les fréquences relatives sont en fait dans la pratique des estimations de probabilités. On verra que dans le cas
continu la probabilité qu’une variable aléatoire X appartienne à un intervalle ]xi , xi+1 [ est donnée par l’aire
A délimitée par cet intervalle et la fonction de densité :
3. STATISTIQUE DESCRIPTIVE À UNE DIMENSION 9

0.4

0.35

0.3

0.25

f(x)
0.2

0.15 ←A

0.1

0.05

0
−1 0 1 2 3 4 5
xi xi+1
x

Fig. 2.4 – Fonction de densité

L’histogramme des fréquences relatives n’est alors qu’une approximation empirique de cette fonction de densité
(si le facteur de proportionnalité est 1).
(iii) Si l’on veut mettre sur un même graphique une loi théorique de distribution de probabilités, il faut impérativement
travailler avec les fréquences relatives, et un facteur de proportionnalité de 1 pour l’histogramme.
Remarque 3.2.16. Attention, dans un logiciel comme Excel , le terme histogramme n’a pas le sens ci-dessus.
Remarque 3.2.17. La détermination du nombre de classes d’un histogramme ainsi que de leurs amplitudes est
difficile. De plus, représenter une distribution d’une variable continue par une fonction en escalier n’est pas très
logique. La théorie de l’estimation de densité permet de résoudre ces difficultés. Nous allons ici donner quelques
éléments de la méthode du noyau.
Considérons tout d’abord le cas d’histogrammes à classes d’égales amplitudes h. Dans l’histogramme on estime
ni
la densité en x par nh si x appartient à la classe i. La densité est donc constante sur chaque classe. On peut
améliorer ceci en utilisant la méthode de la ”fenêtre mobile”. On suppose ici que la série statistique est y1 , . . . , yn .
On construit autour de x une classe de longueur h : Ix = [x − h/2; x + h/2[ et on compte le nombre d’observations
nx
nx qui appartiennent à cette classe. On estime alors la densité en x par nh . On peut ainsi construire point par
ˆ
point cette fonction de densité estimée f (x). On peut en fait écrire cette dernière de la façon suivante :
n  
ˆ 1 X x − yi
f (x) = K
nh i=1 h

où K est la fonction indicatrice de l’intervalle [−1/2; 1/2[, c’est-à-dire la fonction de R dans {0, 1} définie par :

K(u) = 0 si u 6∈ [−1/2; 1/2[
K(u) = 1 si u ∈ [−1/2; 1/2[
Par suite  
x − yi
K = 1 ⇐⇒ yi ∈ Ix
h
Cette méthode donne encore des résultats trop peu régulier. Pour obtenir une fonction suffisamment ”lisse”, il faut
prendre des fonction noyau K plus régulière. En pratique on prend souvent un noyau gaussien :
1 2
K(u) = √ e−u /2

ou parabolique :
u2
 
3
K(u) = √ 1− pour |u| < 5
4 5 5
L’exemple (3.2.18) donne une comparaison entre l’histogramme et l’estimation de densité.
Exemple 3.2.18. 1 Le tableau (2.1) donne les hauteurs de 50 pièces usinées. On a sur la figure (2.5) l’histogramme
de ces données pour un intervalle de classe de 0.03 et l’estimation de densité par la méthode du noyau avec le noyau
de Lejeune :
105
K(u) = (1 − u2 )2 (1 − 3u2 ) pour |u| ≤ 1
64
avec une constante h égale à 30% de l’étendue de l’échantillon. L’estimation de densité montre clairement une
distribution bimodale que nous ne voyons pas avec l’histogramme.
1 exemple provenant du livre de G. Saporta page 121
10 CHAPITRE 2. STATISTIQUE DESCRIPTIVE

21.86 21.90 21.98


21.84 21.89 21.96
21.88 21.92 21.98
21.90 21.91 21.95
21.92 21.91 21.97
21.87 21.92 21.94
21.90 21.91 22.01
21.87 21.93 21.96
21.90 21.96 21.95
21.93 21.91 21.95
21.92 21.97 21.97
21.90 21.97 21.96
21.91 21.97 21.95
21.89 21.97 21.94
21.91 21.98 21.97
21.87 21.95 21.95
21.89 21.89

Tab. 2.1 – hauteurs de 50 pièces usinées


12

10

−2
21.8 21.85 21.9 21.95 22 22.05 22.1 22.15

Fig. 2.5 – Histogramme et densité estimée

Il nous reste maintenant à étudier le cas des fréquences cumulées. Celles-ci sont représentés par des polygônes
de fréquences cumulés, mais nous avons encore ici une distinction suivant que les données soient groupées ou non.
Lorsque les données sont non groupées nous obtenons un polygône en escalier : la valeur de la fonction en un
point x est le nombre d’observations (absolues ou relatives) qui sont inférieures ou égales à x.

Exemple 3.2.19. Reprenons encore l’exemple (3.1.2)

Quant aux données groupées, on joint par une ligne brisée les points obtenus en portant, pour les limites de
classes supérieures des ordonnées égales aux fréquences cumulées.

Exemple 3.2.20. Fréquences cumulées relatives des étendues des exploitations agricoles belges (exemple (3.2.9)).

Remarque 3.2.21. Les polygônes de fréquences relatives sont une représentation empirique des fonctions de
répartitions comme les histogrammes sont une représentation empirique des fonctions de densité.

3.3 Réduction des données


Le but est ici de caractériser les données à l’aide de quelques paramètres. Il y a deux grands types de paramètres :
les paramètres de position ou de tendance centrale que nous étudierons en premier et les paramètres de dispersion
que nous verrons ensuite.
Nous donnerons pour chaque paramètre que nous définirons la valeur numérique correspondant à l’exemple
suivant :
3. STATISTIQUE DESCRIPTIVE À UNE DIMENSION 11

1.2

Fréquences cumulées relatives


0.8

0.6

0.4

0.2

0
0 2 4 6 8 10 12
Notes

Fig. 2.6 – Fréquences cumulées relatives : données (3.1.2)


1.2

1
Fréquences cumulées relatives

0.8

0.6

0.4

0.2

0
0 20 40 60 80 100 120
Surfaces en ha

Fig. 2.7 – Fréquences cumulées relatives : données (3.2.9)

Exemple 3.3.1. Nous considérons 11 mesures faites de la hauteur du maı̂tre-brin d’une céréale donnée (en cm).
Nous avons obtenu la série statistique suivante (mise en ordre croissant) :

59; 62; 63; 63; 64; 66; 66; 67; 69; 70; 70.

Les paramètres de position que nous allons étudier maintenant permettent de caractériser l’ordre de grandeur
des observations. Le paramètre le plus utilisé dans la pratique est la moyenne arithmétique ou moyenne.
Définition 3.3.2 (Moyenne arithmétique). On appelle moyenne arithmétique ou
moyenne la quantité donnée par :
– Si les observations sont données par une série statistique
n
1X
x̄ = xi
n i=1

– Si les observations sont données par leurs fréquences absolues


p
1X
x̄ = ni xi
n i=1

Exemple 3.3.3. Pour les données de l’exemple (3.3.1), nous avons :

x̄ = 65, 3636cm

Remarque 3.3.4. Lorsque les données sont groupées xi est la valeur de la classe i.
Définition 3.3.5 (Médiane). La médiane est la valeur de part et d’autre de laquelle se trouve un nombre égal
d’observations.
Remarque 3.3.6. (i) Pour les séries statistiques monotones (c’est-à-dire croissante ou décroissante) :
– si le nombre d’observations est pair la médiane est toute quantité comprise entre xn/2 et xn/2+1 (en général
on prend xe = 1/2(xn/2 + xn/2+1 ))
12 CHAPITRE 2. STATISTIQUE DESCRIPTIVE

– si le nombre d’observations est impair la médiane est x


e = xn/2+1 .
(ii) Pour les données groupées la classe médiane est celle qui contient la médiane. En admettant que les obser-
vations appartenant à cette classe sont réparties uniformément, la médiane aura pour expression :

1/2 − Fi
e = x0i + ∆xi
x
ni

où
i est l’indice de la classe médiane.
x0i est la limite inférieure de cette classe.
∆xi est l’intervalle de la classe i.
Fi est la fréquence cumulée relative de la classe i.

Exemple 3.3.7. Pour les données de l’exemple (3.3.1), nous avons :

x
e = 66

Définition 3.3.8 (Quartiles). On définit de façon similaire les quartiles i.e les 3 quantités qui séparent les données
en 4 groupes contenant le même nombre de données. On notera Q1 , Q2 et Q3 les trois quartiles.

Exemple 3.3.9. Considérons les 24 données suivantes :


8 13 27 32 25 16 32 27 8 28 79 25 35 25 38 29 80 50 38 30 20 20 49 9
Ces données mises en ordre croissant sont :
8 8 9 13 16 20 20 25 25 25 27 27 28 29 30 32 32 35 38 38 49 50 79 80
Les quartiles sont alors : Q1 = 20, Q2 = x
e = 27, 5 et Q3 = 36, 5.

Remarque 3.3.10. Le deuxième quartile est égale à la médiane.

Définition 3.3.11 (Mode). On appelle mode d’une distribution non groupée toute valeur rendant maximale la
fréquence. On appelle classe modale d’une distribution groupée toute classe rendant maximale le rapport :

Fréquence
Intervalle de classe

Exemple 3.3.12. Pour les données de l’exemple (3.3.1), il y a 3 modes : 63,66,70.

Remarque 3.3.13. (i) Le mode est une valeur qui rend maximum la représentation graphique des fréquences
non cumulées.
(ii) Dans le cas d’une distribution théorique d’une variable aléatoire continue le mode est toute valeur qui maximise
la fonction de densité. C’est la valeur “la plus probable”.

Les paramètres de position sont très insuffisants pour caractériser des données ; aussi nous avons besoin de savoir
si les observations sont concentrées ou non autour d’un paramètre de position. C’est ce critère que l’on qualifie à
l’aide des paramètres de dispersion. Le paramètre le plus connu et le plus utilisé est la variance d’un échantillon.

Définition 3.3.14 (Variance d’un échantillon). On appelle variance de l’échantillon la quantité :


– Si les données sont sous la forme d’une série statistique
n
1X
s2 = (xi − x̄)2
n i=1

– Si les données sont sous la forme d’une distribution de fréquences absolues


p
1X
s2 = ni (xi − x̄)2
n i=1

Pn
Remarque 3.3.15. (i) On note souvent SCE = i=1 (xi − x̄)2 . SCE est la Somme des Carrés des Écarts,
sous entendu à la moyenne.
3. STATISTIQUE DESCRIPTIVE À UNE DIMENSION 13

0.1 0.4

0.08 densité densité


mode 0.3 mode
0.06 moyenne moyenne
médiane 0.2 médiane
0.04

0.1
0.02

0 0
0 10 20 30 −1 0 1 2 3 4 5

0.4 0.2

densité densité
0.3 mode 0.15 mode
moyenne moyenne
0.2 médiane 0.1 médiane

0.1 0.05

0 0
0 5 10 15 0 5 10 15

Fig. 2.8 – Différences entre le mode, la moyenne et la médiane

(ii) On peut aussi écrire :


n
X
SCE = (x2i − 2xi x̄ + x̄2 ) (2.1)
i=1
Xn n
X n
X
= x2i − 2x̄ xi + x̄2 (2.2)
i=1 i=1 i=1
Xn
= x2i − 2nx̄2 + nx̄2 (2.3)
i=1
Xn
= x2i − nx̄2 (2.4)
i=1

Lorsque l’on effectue les calculs à la main, c’est la formule (2.4) que l’on utilise.
Exemple 3.3.16. Pour les données de l’exemple (3.3.1), nous avons :
s2 = 11, 3223cm2
Remarque 3.3.17. On démontre que l’on a toujours :
n
X n
X
(xi − a)2 > (xi − x̄)2 = ns2 si a 6= x̄
i=1 i=1

2
Définition 3.3.18 (Écart type ). L’écart type est la racine carré de la variance.

Exemple 3.3.19. Pour les données de l’exemple (3.3.1), nous avons : s = s2 = 3, 3649cm
Remarque 3.3.20. L’écart type a la même dimension que les données (ce qui n’est pas le cas de la variance).
Définition 3.3.21 (Cœfficient de variation). On appelle cœfficient de variation l’indice de dispersion relatif exprimé
en pourcentage :
s
cv = × 100

On suppose bien évidemment que x̄ est différent de 0.
2 standard deviation en anglais
14 CHAPITRE 2. STATISTIQUE DESCRIPTIVE

Exemple 3.3.22. Pour les données de l’exemple (3.3.1), nous avons :

cv = 5, 148%

Définition 3.3.23 (Amplitude). On appelle amplitude l’écart entre les valeurs extrêmes des données
Exemple 3.3.24. Pour les données de l’exemple (3.3.1), nous avons :

w = 11

Définition 3.3.25 (Écart interquartile). On appelle écart interquartile la différence entre le troisième et le premier
quartile : Q3 − Q1
Exemple 3.3.26. Pour les données de l’exemple (3.3.9), nous avons :

Q3 − Q1 = 16, 5

Définition 3.3.27 (boı̂te à moustaches3 ). Le diagramme en boı̂te à moustaches ou box-plot représente schématiquement
les principales caractéristiques d’une variable numérique en utilisant les quartiles. On représente la partie centrale
de la distribution par une boı̂te de largeur quelconque et de longueur l’intervalle interquartile. On trace à l’intérieur
la position de la médiane et on complète la boı̂te par des ”moustaches“ de valeurs :
– Pour la ”moustache supérieure“ : la plus grande valeur inférieure à Q3 + 1, 5(Q3 − Q1 ).
– Pour la ”moustache inférieure“ : la plus petite valeur supérieure à Q1 − 1, 5(Q3 − Q1 ).
Les valeurs extérieures représentées par des * sont celles qui sortent des ” moustaches“.
Exemple 3.3.28. Reprenons l’exemple (3.3.9). Nous avons Q1 = 20, x e = 27, 5 Q3 = 36, 5 et Q3 − Q1 = 16, 5.
Par suite :
– la plus grande des données inférieure à Q3 + 1, 5(Q3 − Q1 ) est 50 ;
– la plus petite des données supérieure à Q1 − 1, 5(Q3 − Q1 ) est 8.
D’où le schéma suivant :
Column Number

10 20 30 40 50 60 70 80
Values

Fig. 2.9 – Boı̂te à moustaches

Définition 3.3.29 (Moment d’ordre k par rapport à un point c). On appelle moment d’ordre k par rapport à un
point c la quantité :
– Si les données sont sous la forme d’une série statistique
n
1X
(xi − c)k
n i=1

– Si les données sont sous la forme d’une distribution de fréquences


p
1X
ni (xi − c)k
n i=1

Notation 3.3.30. (i) Lorsque c = 0 le moment d’ordre k s’appelle moment par rapport à l’origine et on le note
ak .
3 boxplot en anglais
3. STATISTIQUE DESCRIPTIVE À UNE DIMENSION 15

(ii) Lorsque c = x̄ le moment d’ordre k s’appelle moment centré et on le note mk .


Remarque 3.3.31. a1 = x̄, m1 = 0 et m2 = s2 .
Remarque 3.3.32. (i) Les moments centrés d’ordre k pairs sont des paramètres de dispersion.
(ii) Les moments centrés d’ordre k impairs sont des indices de dissymétrie ou d’obliquité : Ils sont nuls pour les
distributions symétriques et différentes de 0 pour les distributions dissymétriques.
Définition 3.3.33 (Cœfficients de Pearson). Les cœfficients de Pearson sont :
(i) Le degré de symétrie donné par
m2 m2
b1 = 33 = 63
m2 s
(ii) Le degré d’aplatissement4 donné par :
m4 m4
b2 = = 4
m22 s
Exemple 3.3.34. Pour les données de l’exemple (3.3.1), nous avons :
b1 = 0, 0298 b2 = 2, 12
Définition 3.3.35 (Cœfficient de Fisher). Les cœfficients de Fisher sont :
(i) Le degré de symétrie5 donné par :
m3 m3 p
g1 = 3/2 = 3 = b1
m2 s
(ii) Le degré d’aplatissement donné par :
m4 m4
g2 = 2 − 3 = 4 − 3 = b2 − 3
m2 s
Exemple 3.3.36. Pour les données de l’exemple (3.3.1), nous avons :
g1 = 0, 1726 g2 = −0, 88
Remarque 3.3.37. Pour la loi normale réduite (cf. chapitre sur les probabilités) on a : g1 = 0 et g2 = 0.
Les figures (2.10,2.11) donnent des exemples de distributions théoriques avec différentes valeurs des cœfficients
de symétrie et d’aplatissement.
0.5
β =0
1
β1=1.75
β1=1.5

0.4

0.3

0.2

0.1

0
0 1 2 3 4 5 6

Fig. 2.10 – Différentes fonctions de densité pour différentes valeur du cœfficient de symétrie

3.4 Exemples
Exemple 3.4.1. Les données de la table (2.2) sont des longueurs de la rectrice centrale de la gélinotte huppée
mâle, juvénile. La figure (2.12) donne les différentes représentations graphiques de ces données.
Exemple 3.4.2. Les figures (2.13) et (2.14) donnent pour les mêmes données respectivement les histogrammes et
les boı̂tes à moustaches pour les longueurs d’ailes de mésanges noires selon leur âges et leurs sexes.
4 kurtosis en anglais, attention le terme kurtosis est parfois aussi utilisé pour désigner le cœfficient g2 de Fisher ci-après
5 skewness en anglais
16 CHAPITRE 2. STATISTIQUE DESCRIPTIVE

γ2=0
γ =2
2
0.4 γ2=−1.2

0.3

0.2

0.1

0
−3 −2 −1 0 1 2 3

Fig. 2.11 – Différentes fonctions de densité pour différentes valeur du cœfficient d’applatissement

153 165 160 150 159 151 163


160 158 149 154 153 163 140
158 150 158 155 163 159 157
162 160 152 164 158 153 162
166 162 165 157 174 158 171
162 155 156 159 162 152 158
164 164 162 158 156 171 164
158

Tab. 2.2 – Longueurs de la rectrice centrale de la gélinotte huppée mâle, juvénile


2

1.5

1 1

0.5

0
140 150 160 170 180 140 150 160 170
longueur longueur

0.08

0.06

0.04

0.02

0
150 160 170
longueur

Fig. 2.12 – Données, boı̂te à moustaches et histogramme


0.6 0.6

0.5 Mâles adultes 0.5 Mâles immatures

0.4 0.4

0.3 0.3

0.2 0.2

0.1 0.1

0 0
58 59 60 61 62 63 64 65 66 67 68 58 59 60 61 62 63 64 65 66 67 68
longueur d’ailes en mm longueur d’ailes en mm

0.6 0.6

0.5 Femelles adultes 0.5 Femelles immatures

0.4 0.4

0.3 0.3

0.2 0.2

0.1 0.1

0 0
58 59 60 61 62 63 64 65 66 67 68 58 59 60 61 62 63 64 65 66 67 68
longueur d’ailes en mm longueur d’ailes en mm

Fig. 2.13 – Distributions des longueurs d’ailes de mésanges noires selon leur âge et sexe

4 Statistique descriptive à 2 dimensions


4.1 Introduction
De même qu’en dimension 1 nous désirons représenter les données sous la forme de tableaux ou de graphiques
ou de réduire les données à quelques paramètres. La grande différence avec la section précédente est que nous
4. STATISTIQUE DESCRIPTIVE À 2 DIMENSIONS 17

68

67

66

65

Longueur d’ailes en mm
64

63

62

61

60

59

58

1 2 3 4

Mâles adultes Mâles immatures Femelles adultes Femelles immatures

Fig. 2.14 – Distributions des longueurs d’ailes de mésanges noires selon leur âge et sexe

pouvons essayer de mettre en évidence les relations qui peuvent exister entre deux caractères.
Comme en dimension 1 nous nous intéressons à des variables quantitatives et nous aurons comme données
initiales une suite double :
x1 , x2 , . . . , xn
y1 , y 2 , . . . , y n
La valeur du caractère 1 pour l’individu i est xi La valeur du caractère 2 pour l’individu i est yi
Définition 4.1.1 (Série statistique double). On appelle série statistique double la suite de n couples de valeurs
(xi , yi ).
Exemple 4.1.2. Poids des feuilles et poids des racines (en grammes) de 1000 individus de Cichorium intybus (cet
exemple provient de l’ouvrage de Dagnélie).
feuilles : 71 76 106 108 109 111 111 112 . . . 662 673 679 741
racines : 56 51 40 174 62 59 84 94 . . . 174 290 290 230

4.2 Les distributions en fréquences


Comme dans le cas monodimensionnel lorsque le nombre de données est trop important nous condensons des
données en une distribution de fréquences. Pour cela nous construisons un tableau à double entrée ; le nombre
d’individus nij ayant les occurrences xi et yj des caractères x et y se trouve à l’intersection de la ligne i et de la
colonne j. Dans ce paragraphe les indices i et j qualifient les occurrences des caractères pour des variables discrètes
et les classes pour des variables continues et non pas des individus : xi 6= xi0 si i 6= i0 et yj 6= yj 0 si j 6= j 0 . Le
tableau que l’on construit a donc la structure suivante :

x:y y1 y2 ... yj ... yq T otaux


x1 n11 n12 ... n1j ... n1q n1.
.. .. .. .. .. ..
. . . . . .
xi ni1 ni2 ... nij ... niq ni.
.. .. .. .. .. ..
. . . . . .
xp np1 np2 ... npj ... npq np.
T otaux n.1 n.2 ... n.j ... n.q n..
Définition 4.2.1 (Fréquence marginale). On appelle fréquence marginale les quantités définies par :
q
X
ni. = nij
j=1
Xp
n.j = nij
i=1

Notation 4.2.2. Nous rappelons que le point en indice signifie que l’on a sommé sur cet indice. Avec cette notation,
nous avons donc aussi :
Xp X q Xp Xq
n.. = nij = ni. = n.j
i=1 j=1 i=1 j=1
18 CHAPITRE 2. STATISTIQUE DESCRIPTIVE

Remarque 4.2.3. (i) Nous avons pris ici le cas des fréquences absolues mais nous pouvons bien évidemment
construire des tableaux de fréquences relatives :
nij
n,ij =
n

(ii) Nous ne construisons pas en général de tableau de fréquences cumulées.


(iii) Nous pouvons bien entendu étudier séparément les caractères x et y et notamment faire deux statistiques
descriptives à une dimension. Cela revient alors à travailler avec les fréquences marginales.

Définition 4.2.4 (Fréquence conditionnelle relative). On appelle fréquence conditionnelle relative pour que x = xi
(respectivement y = yj ) sachant que y = yj (respectivement x = xi ) la quantité :
nij
fi/j =
n.j

(respectivement
nij
fj/i = )
ni.
Définition 4.2.5 (Profils lignes, profils colonnes). On appelle profils lignes (respectivement profils colonnes) le
tableau des fréquences conditionnelles relatives fj/i (respectivement fi/j ).

Remarque 4.2.6. (i) Le tableau de fréquence relative est une représentation empirique de la fonction de proba-
bilité d’un couple de variables aléatoires et les fréquences conditionnelles relatives représentent des probabilités
conditionnelles.
(ii) le tableau des profils lignes est une représentation empirique les lois de distributions conditionnelles.
(iii) Si la tableau de contingence comporte en fait en ligne différentes populations et en colonne les différentes
modalités d’un caractère qualitatif (c’est-à-dire les valeurs d’une variable aléatoire discrète), alors les profils
lignes sont les lois de probabilités sur les différentes populations du caractère étudié.

Exemple 4.2.7. Avec les données de l’exemple (4.1.2) nous obtenons :


Feuilles :Racines 40 à 80 à 120 à 160 à 200 à 240 à 280 à 320 à Totaux
79 119 159 199 239 279 319 259
0 à 79 2 2
80 à 159 49 46 5 2 102
160 à 239 86 137 46 11 280
240 à 319 27 153 89 25 7 301
320 à 399 5 45 91 40 6 187
400 à 479 10 33 21 16 1 1 82
480 à 559 1 4 11 10 3 29
560 à 639 2 1 2 4 1 10
640 à 719 1 3 2 6
720 à 799 1 1
Totaux 169 392 270 112 42 11 3 1 1000

Exemple 4.2.8. La table (4.2.8) donne l’évolution de l’âge de la population agricole familiale dans un canton du
Loiret. La table (2.4) donne quant-à elle les profils lignes.

Année :Âge < à 25 ans 25 à 34 ans 35 à 44 ans 45 à 54 ans 55 à 64 ans > à 65 ans Total
1970 88 24 27 61 20 25 245
1979 63 17 20 39 27 25 191
1988 41 15 18 22 31 17 144
Total 192 56 65 122 78 67 580

Tab. 2.3 – Tableau de contingence, exploitations agricoles dans le Loiret


4. STATISTIQUE DESCRIPTIVE À 2 DIMENSIONS 19

Année :Âge < à 25 ans 25 à 34 ans 35 à 44 ans 45 à 54 ans 55 à 64 ans > à 65 ans
1970 0.3592 0.0980 0.1102 0.2490 0.0816 0.1020
1979 0.3298 0.0890 0.1047 0.2042 0.1414 0.1309
1988 0.2847 0.1042 0.1250 0.1528 0.2153 0.1181

Tab. 2.4 – Tableau des profils lignes

12

10

4
y

−2

−4

−6

−3 −2 −1 0 1 2 3 4 5 6 7
x

Fig. 2.15 – Nuage de points

4.3 Représentations graphiques


Les séries statistiques doubles peuvent être représentées par un nuage de points (2.15).

Quant aux distributions de fréquences elles se représentent dans un espace à trois dimensions par un diagramme
en bâtons si les variables sont discrètes et par un stéréogramme si la variable est continue. Un stéréogramme est un
diagramme composé de parallélépipèdes rectangles de bases les rectangles correspondant aux cellules du tableau
statistique et de hauteur les fréquences divisées par la surface de la base (ceci toujours pour avoir une estimation
de la densité de probabilité).

Exemple 4.3.1. Avec les données de l’exemple (4.1.2) on obtient la figure (2.16)

200

150
Fréquences absolues

100

50

0
40
120
200
280
360
440
520
600
680
Feuilles 760
Racine

Fig. 2.16 – Stéréogramme

Exemple 4.3.2. Reprenons l’exemple (4.2.8) de l’évolution de l’âge de la population agricole familiale dans un
canton du Loiret. On peut représenter les profils lignes (2.17). ceci nous permet de visualiser les différences de
répartition des âges en fonction des année. Ici, nous avons l’ensemble des populations étudiées, les profils lignes
sont donc exactement les lois de probabilités sur ces 3 populations. Dans le cas où nous n’aurions , pour chaque
population que des échantillons, il faudrait effectuer un test statistique (test du χ2 ici) pour savoir s’il y a réellement
une différence dans les lois de distributions. Ceci est hors de notre programme.
20 CHAPITRE 2. STATISTIQUE DESCRIPTIVE

Profils lignes
0.45

0.4

0.35

0.3

0.25

0.2

0.15

0.1

0.05

0
0 1 2 3 4 5 6 7

Fig. 2.17 – Profils lignes

4.4 Réduction des données


Nous avons ici deux types de paramètres, tout d’abord les paramètres liés à une seule variable qui caractérisent
les fréquences marginales et conditionnelles. Nous avons dans ce cas les paramètres habituels de la statistique
descriptive à une dimension qui sont principalement les moyennes marginales x̄ et ȳ et les variances marginales
s2x et s2y , ainsi que les moyennes conditionnelles x¯j et y¯i et les variances conditionnelles s2x/j et s2i/y . Ensuite nous
avons les paramètres permettant de décrire des relations existant entre les deux séries d’observations. Ce sont ces
paramètres que nous allons étudier maintenant.
Définition 4.4.1 (Covariance d’un échantillon). On appelle covariance d’un échantillon la quantité :
– Si les données sont sous la forme d’une série statistique double
n
1X
cov(x, y) = (xi − x̄)(yi − ȳ)
n i=1

– Si les données sont sous la forme d’une distribution en fréquence


p q
1 XX
cov(x, y) = nij (xi − x̄)(yj − ȳ)
n i=1 j=1

Remarque 4.4.2.
Pn
On note souvent SP E = i=1 (xi − x̄)(yi − ȳ). SP E est la Somme des Produits des Écarts, sous entendu aux
moyennes.
On peut aussi écrire :
n
X
SP E = (xi yi − xi ȳ − yi x̄ + x̄ȳ) (2.5)
i=1
Xn n
X n
X n
X
= xi yi − ȳ xi − x̄ yi + x̄ȳ (2.6)
i=1 i=1 i=1 i=1
Xn
= xi yi − 2nx̄ȳ + nx̄ȳ (2.7)
i=1
Xn
= xi yi − nx̄ȳ (2.8)
i=1

Lorsque l’on effectue les calculs à la main, c’est la formule (2.8) que l’on utilise.
Exemple 4.4.3. On considère la série statistique double suivante :
x 165,5 164,0 156,0 174,0 169,0 157,5 159,0 152,0 155,0 159,0
y 177,0 172,0 163,0 183,5 171,5 165,0 160,5 154,5 163,0 162,0
x (respectivement y) représente la taille (respectivement l’envergure) de 10 adolescents nés en 1947 (mensura-
tions relevées en 1962). On a alors :
cov(x, y) = 49, 68
4. STATISTIQUE DESCRIPTIVE À 2 DIMENSIONS 21

Remarque 4.4.4. (i) La covariance peut-être positive ou négative. Une covariance positive (respectivement
négative) indique une relation entre les données croissantes (respectivement décroissantes), i.e. que les valeurs
élevées d’une série correspondent, dans l’ensemble, à des valeurs élevées (respectivement faibles) de l’autre.
(ii) L’existence de termes positifs et négatifs dans le calcul de la covariance justifie pour celle-ci l’absence de
correction analogue aux corrections de Sheppard.
Théorème 4.4.5. On a toujours la relation suivante :

|cov(x, y)| ≤ sx sy

L’égalité n’a lieu que si les points (xi , yi ) sont alignés.


Démonstration
Développons l’expression positive suivante :
n
1X
(λ(xi − x̄) − (yi − ȳ))2 = λ2 s2x − 2λcov(x, y) + s2y ≥ 0
n i=1

On sait qu’une condition nécessaire et suffisante pour qu’un trinôme soit toujours de même signe est que son
discriminant ∆ soit négatif ou nul. Par suite nous avons :

∆ = 4cov 2 (x, y) − 4s2x s2y ≤ 0


⇐⇒ cov (x, y) ≤ s2x s2y
2

⇐⇒ |cov(x, y)| ≤ sx sy

De plus nous avons l’égalité |cov(x, y)| = sx sy si et seulement si ∆ = 0 et donc s’il existe λ1 = cov(x, y)/s2x tel que
n
X
(λ1 (xi − x̄) − (yi − ȳ))2 = 0 ⇐⇒ λ1 (xi − x̄) = yi − ȳ ∀i
i=1
⇐⇒ Les points (xi , yi )i=1,...,n sont alignés

4.5 Droite de régression


Introduction
Exemple 4.5.1. 6 On désire savoir comment le taux de cholestérol sérique dépend de l’âge chez l’homme. Pour
cela on a pris 5 échantillons d’hommes adultes d’âges bien déterminés 25, 35, 45, 55 et 65 ans. On a obtenu les
données suivantes :

Âges 25 25 25 25 25 25 25 35 35 35
Taux 1.8 2.3 2 2.4 2 2.5 2.6 2.6 2.9 2.3
Âges 35 35 35 35 45 45 45 45 45 45
Taux 2.4 2.1 2.5 2.7 2.7 3 3.1 2.3 2.5 3
Âges 45 45 55 55 55 55 55 65 65 65
Taux 3.3 2.7 3.1 2.9 3.4 2.4 3.4 3.7 2.8 3.3
Âges 65 65 65
Taux 3.5 3.3 2.6

La figure 2.18 donne la représentation graphique de ces données.

Que peut-on conclure de ces données ?


En pratique nous sommes souvent amenés à rechercher une relation entre deux variables x et y. Pour cela, dans
un premier temps, nous collectons des données (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ). Ensuite nous représentons graphique-
ment ces données. Nous pouvons par exemple avoir les cas suivants :

6 Exemple provenant de l’ouvrage de Grémy et Salmon, ”Bases statistiques”, page 122.


22 CHAPITRE 2. STATISTIQUE DESCRIPTIVE

3.5

Taux
2.5

1.5

1
20 25 30 35 40 45 50 55 60 65 70
Ages

Fig. 2.18 – Taux de cholestérol en fonction de l’âge

Cas (a) Cas (b) Cas (c)


12 10 1

9 0.9

10
8 0.8

7 0.7
8

6 0.6

6 5 0.5
y

4 0.4

4
3 0.3

2 0.2
2

1 0.1

0 0 0
0 2 4 6 0 2 4 6 0 2 4 6
x x x

Fig. 2.19 – Différentes formes de graphes

Suivant les cas de la figure 2.19, nous pouvons penser aux modèles :
Cas (a) y(x) = β0 + β1 x ;
Cas (b) y(x) = β0 + β1 x + β2 x2 ;
Cas (c) pas de modèle.
L’objet de la régression linéaire simple est l’étude du cas (a). L’un des buts de la régression linéaire simple est
de prédire la ”meilleure” valeur de y connaissant x (si le modèle linéaire est bien évidemment correct). L’objectif
de cette section est uniquement descriptif, aussi nous n’allons étudier que l’estimation ponctuelle des paramètres.

Estimation des paramètres


Une droite sera d’autant plus proche des points Mi (xi , yi ) que les écarts entre ces points et la droite seront
faibles. L’un des critères les plus utilisés est le critère des moindres carrés qui est la somme des carrés des écarts
ri = yi − ŷi (cf figure (2.20)).

Ici, les points (xi , yi )i=1,...,n sont connus, la question est de trouver les valeurs des paramètres β0 et β1 qui
rendent la valeur du critère la plus faible possible. Nous sommes ainsi ramené au problème d’optimisation suivant :
Pn Pn
M in f (β) = 12 i=1 ri2 = 21 i=1 (yi − β0 − β1 xi )2

(P )
β ∈ R2

En effet, plus f (β) sera proche de 0, plus les carrés des résidus, donc les résidus ri seront ”proches” de 0.
4. STATISTIQUE DESCRIPTIVE À 2 DIMENSIONS 23

25

← r10
20

← r9
← r8
← r7
15
←r
6

y
← r4 ← r5
10

← r3
← r2
5

← r1

0
0 2 4 6 8 10
x

Fig. 2.20 – Moindres carrés.

Théorème 4.5.2. La solution du problème (P ) est :

β̂0 = ȳ − β̂1 x̄ (2.9)


Pn
(y − ȳ)(xi − x̄) SP E
β̂1 = i=1 Pn i 2
= (2.10)
i=1 (xi − x̄) SCEx

Démonstration
On démontre qu’une condition nécessaire et suffisante de solution du problème d’optimisation est f 0 (β) = (0, 0).
D’où le système linéaire suivant : 
Xn Xn
nβ0 + β1 xi = yi





i=1 i=1
n n n
(2.11)
 X X X
2
 β0 xi + β1 xi = xi yi



i=1 i=1 i=1

 ȳ = β0 + β1 x̄
n n

x2i =
P P
 nβ0 x̄ + β1 xi yi
i=1 i=1

 ȳ = β0 + β1 x̄
n n

x2i =
P P
 n(ȳ − β1 x̄)x̄ + β1 xi yi
i=1 i=1

 ȳ = β0 + β1 x̄
n n

 β1 ( x2i − nx̄2 ) =
P P
xi yi − nx̄ȳ
i=1 i=1

 ȳ = β0 + β1 x̄
⇔ SP E
 β1 =
SCEx
2
Remarque 4.5.3. On a supposé dans le calcul que SCEx 6= 0, c’est-à-dire que tous les xi ne sont pas identiques.
Nous noterons dans la suite β̂0 et β̂1 ces solutions.
Exemple 4.5.4. Reprenons l’exemple (4.5.1). Lorsque l’on effectue les calculs à la main il est utile de calculer le
tableau préliminaire 2.6.
Les estimations ponctuelles sont alors
1445 × 90.1
4103.5 − 158.2
β̂1 = 33 = = 0.025
14452 6351.5
69625 −
33
β̂0 = 2.73 − 0.025 × 43.79 = 1.64
24 CHAPITRE 2. STATISTIQUE DESCRIPTIVE

y x xy y2 x2
1 y1 x1 x1 y1 y12 x21
.. .. .. .. .. ..
. . . . . .
i yi xi xi yi yi2 x2i
.. .. .. .. .. ..
. . . . . .
n yn xn xn yn y2 x2
P Pn 2 Pn 2
Totaux Y. X. i xi yi i yi i xi
Moyennes ȳ. x̄.

Tab. 2.5 – Calculs préliminaires

x y xy x2 y2
1 25 1.8 45.0 625 3.24
2 25 2.3 57.5 625 5.29
3 25 2.0 50.0 625 4.00
4 25 2.4 60.0 625 5.76
5 25 2.0 50.0 625 4.00
6 25 2.5 62.5 625 6.25
7 25 2.6 65.0 625 6.76
8 35 2.6 91.0 1225 6.76
9 35 2.9 101.5 1225 8.41
.. .. .. .. .. ..
. . . . . .
33 65 2.6 169.0 4225 6.76
Totaux 1445 90.1 4103.5 69625 253.31
Moyennes 43.79 2.73

Tab. 2.6 – Calculs préliminaires sur l’exemple

Remarque 4.5.5. Nous noterons ri le résidu d’indice i :

ri = yi − (β̂0 + β̂1 xi ) = yi − ŷi

On vérifie alors que


Pn Pn
i=1 ri = (yi − (β̂0 + β̂1 xi ))
Pi=1
n Pn Pn
= i= i −
y i=1 β̂0 − i=1 β̂1 xi
= nȳ − nβ̂0 − nx̄β̂1 = 0

De la même façon que nous avons cherché à “exprimer” y en fonction de x, on peut essayer d’“exprimer” x en
fonction de y et nous obtenons ainsi la droite de régression d’équation :

x = β1xy y + β0xy

Les estimations sont alors


SP E
β̂1xy = et β̂0xy = x̄ − β̂1xy ȳ
s2y

Exemple 4.5.6. Si nous reprenons les données de l’exemple (4.5.1) nous obtenons :

β̂1xy = 21.64 β̂0xy = −15, 29


β̂1yx = 0.025 β̂0yx = 1.64

Définition 4.5.7 (Cœfficient de corrélation linéaire). On appelle cœfficient de corrélation linéaire le rapport de la
covariance sur les produits des écart-types :
cov(x, y)
r=
sx sy
4. STATISTIQUE DESCRIPTIVE À 2 DIMENSIONS 25

On peut aussi écrire


SP E
r= p
SCEx SCEy
Notons ~xc (respectivement ~yc ) le vecteur des données centrées de la variable x (respectivement y). C’est-à-dire que
~xc = (x1 − x̄, . . . , xn − x̄)T et ~yc = (y1 − ȳ, . . . , yn − ȳ)T . Ces vecteurs sont dans Rn . Alors SP E est le produit
scalaire entre ces deux vecteurs centrées et SCEx et SCEy sont les normes au carrés de ces vecteurs. Par suite le
cœfficient de corrélation linéaire s’interprète comme le cosinus de l’angle de ces deux vecteurs de Rn . On en déduit
la remarque suivante.
Remarque 4.5.8. Le cœfficient de corrélation linéaire a les propriétés suivantes :
(i)
r ∈ [−1, +1]
.
(ii) |r| = 1 si et seulement si les points (xi , yi ) sont alignés.
On montre que l’on a en fait les différents cas de figures suivant

sx>sy sx=sy sx<sy

5 2 2
r=1 0 0 0
y

−5 −2 −2
−2
10 0 2 −2
5 0 2 −5
2 0 5
r~1 0 0 0
y

−10 −5 −2
−2
5 0 2 −2
5 0 2 −5
2 0 5
0<r<1 0 0 0
y

−5 −5 −2
−2
5 0 2 −5
5 0 5 −5
2 0 5
r=0 0 0 0
y

−5 −5 −2
−2
5 0 2 −5
5 0 5 −5
2 0 5
−1<r<0 0 0 0
y

−5 −5 −2
−2
5 0 2 −5
5 0 5 −10
2 0 10
r~−1 0 0 0
y

−5 −5 −2
−1
5 0 1 −5
5 0 5 −10
2 0 10
r=−1 0 0 0
y

−5 −5 −2
−2 0 2 −5 0 5 −5 0 5
x x x

Fig. 2.21 – Liens entre les nuages de points et le cœfficient de corrélation linéaire
26 CHAPITRE 2. STATISTIQUE DESCRIPTIVE

Remarque 4.5.9. Nous tenons à bien faire remarquer que le cœfficient de corrélation linéaire ne mesure qu’une
liaison de nature linéaire. Pour les 5 graphiques de la figure (2.22), on a les mêmes valeurs de x̄, ȳ, sx , sy , r et donc
la même droite de régression. Il est évident que les phénomènes sont très différents :
(i) pour le graphique en haut à gauche, il y a une forte dispersion mais le modèle linéaire semble a priori
approprié ;
(ii) pour le graphique en haut à droite, un modèle parabolique serait sans doute plus adapté ;
(iii) pour le graphique au milieu à gauche, il y a sans doute une donnée aberrante qui a un fort résidu ;
(iv) pour le graphique au milieu à droite, la dispersion des données semble augmenter quand x augmente ;
(v) pour le graphique en bas à gauche, il y a une donnée qui a une forte influence et un résidu nul.

30 30

20 20
y

y
10 10

0 0
0 10 20 30 0 10 20 30
x x
30 30

20 20
y

10 10

0 0
0 10 20 30 0 10 20 30
x x
30

20
y

10

0
0 10 20 30
x

Fig. 2.22 – Exemple de données ayant les mêmes valeurs des paramètres x̄, ȳ, sx , sy et r et donc la même droite de
régression

5 Compléments
5.1 Changement de variables
Nous allons tout d’abord voir que lorsque le modèle n’est pas au départ linéaire, on peut parfois s’y ramener
par un bon changement de variable. Considérons l’exemple suivant :

Exemple 5.1.1. Le carbone radioactif 14 C est produit dans l’atmosphère par l’effet des rayons cosmiques sur
l’azote atmosphérique. Il est oxydé en 14 CO2 et absorbé sous cette forme par les organismes vivants qui, par suite,
contiennent un certain pourcentage de carbone radioactif relativement aux carbones 12 C et 13 C qui sont stables. On
suppose que la production de carbone 14 C atmosphérique est demeurée constante durant les derniers millénaires. On
suppose d’autre part que, lorsqu’un organisme meurt, ses échanges avec l’atmosphère cessent et que la radioactivité
due au carbone 14 C décroit suivant la loi exponentielle suivante :

A(t) = A0 e−λt

où λest une constante positive, t représente le temps en année et A(t) est la radioactivité exprimée en nombre de
désintégrations par minute et par gramme de carbone. On désire estimer les paramètres A0 et λ par la méthode des
moindres carrés. Pour cela on analyse les troncs (le bois est un tissu mort) de très vieux arbres Sequoia gigantea
et Pinus aristaca. Par un prélèvement effectué sur le tronc, on peut obtenir :
5. COMPLÉMENTS 27

– son âge t en année, en comptant le nombre des anneaux de croissance,


– sa radioactivité A en mesurant le nombre de désintégration.
t 500 1000 2000 3000 4000 5000 6300
A 14.5 13.5 12.0 10.8 9.9 8.9 8.0
Posons y(t) = ln A(t), β0 = ln A0 , β1 = −λ et yi = ln(Ai ). Le modèle s’écrit alors

y(t) = β0 + β1

Nous sommes donc ramené au cas de la régression linéaire simple.

5.2 Cas à plus d’une variable explicative


Cette section dépasse le cadre de la statistique descriptive puisque si nous avons par exemple 4 variables, nous ne
pouvons plus faire de graphique. Mais nous allons voir cependant qu’en ce qui concerne l’estimation des paramètres,
cela ne change pas grand chose.
Avant de passer au cas à p variables, nous allons réécrire le problème de la régression linéaire simple à 1 variable.
Posons      
y1 1 x1 r1
 ..   .. ..   .. 
 .   . .     . 
    β0
 
y =  yi  ;
  X =  1 xi  ;
  β= et r =  ri 
 .   . .  β1

 . 

 ..   .. ..   .. 
yn 1 xn rn
alors
yi = β0 + β1 xi + ri ∀i = 1, . . . , n (2.12)
est équivalent à
y = Xβ + r (2.13)
et le problème d’optimisation s’écrit alors
1
Pn
− β0 − β1 xi )2 = 21 ||Xβ − y||2

M in f (β) = 2 i=1 (yi
(P )
β ∈ R2

La condition nécessaire de solution du premier ordre nous donne alors (dérivée des fonctions composées) ce que
nous appelons l’équation normale
∇f (β) = t XX − t Xy = 0 (2.14)
La dérivée seconde de f est alors :
∇2 f (β) = t XX
On démontre en optimisation que dans ce cas si ∇2 f (β) est semi-définie positive alors la fonction f est convexe
(graphiquement c’est une cuvette pour une fonction de R2 à valeurs dans R) et dans ce cas l’équation (2.14) est
une condition nécessaire et suffisante de solution de notre problème d’optimisation. Or ici

(t XXβ|β) = (Xβ|Xβ) ≥ 0

ceci pour tout β, donc ∇2 f (β) est bien semi-définie positive.

Remarque 5.2.1. Dans le cas de la régression linéaire simple, si on développe l’équation normale (2.14), on
retrouve bien le système linéaire (2.11).

Nous allons maintenant étudier le cas où l’on a plus d’une variable explicative.
Considérons le modèle :
y(x) = β0 + β1 x1 + · · · βp xp (2.15)
où x = (x1 , . . . , xp ).
On collecte n (p+1)-uplets (yi , xi1 , . . . , xip )i=1,...,n . Notre problème d’optimisation pour estimer nos paramètres
s’écrit alors Pn
M in f (β) = 21 i=1 (yi − β0 − β1 xi1 − · · · − βp xip )2 = 21 ||Xβ − y||2

(P )
β ∈ R2
avec ici
28 CHAPITRE 2. STATISTIQUE DESCRIPTIVE

     
y1 1 xi1 ... xip r1
 ..   .. .. ..     .. 
 .  . . .  β0  . 
     ..   
 yi  ;
y= X= 1 x i1 ... xip ; β= .  et  ri 
r=
 

 .  . . ..   . 
 ..   .. .. .  βp  .. 
yn 1 xn1 ... xnp rn
Par suite l’estimation des paramètres est aussi donné par la résolution du système linéaire des équations normales
t
XXβ = t Xy
6. EXERCICES 29

6 Exercices
6.1 Exercices avec solutions
Exercice 6.1.1. On observe les arrivées des clients à un bureau de poste pendant un intervalle de temps donné
(10 minutes). En répétant 100 fois cette observation, on obtient les résultats suivants.

Nombre d’arrivées 1 2 3 4 5 6 Total


Nombre d’observa- 15 25 26 20 7 7 100
tions

(i) Représenter graphiquement ces résultats.

(ii) Calculer la valeur de la moyenne arithmétique, de la médiane, de la variance et de l’écart type des résultats,
du coefficient de variation, de l’amplitude et de l’écart moyen des observations.

Correction
(i) Le diagramme en bâtons des fréquences relatives est le suivant :
0.3

0.25

0.2
Fréquence relative

0.15

0.1

0.05

0
1 2 3 4 5 6
Nombre d’arrivées

Diagramme en bâtons
Le diagramme des fréquences cumulées relatives est le suivant :

0.8
Fréquence cumulée relative

0.6

0.4

0.2

0 1 2 3 4 5 6 7 8
Nombre d’arrivées

Fréquences cumulées relatives


(ii) La moyenne arithmétique vaut :
n
x = n1
P
ni xi = 3. La médiane et le mode valent 3.
i=1
30 CHAPITRE 2. STATISTIQUE DESCRIPTIVE

La variance vaut :
n
s2 = n1 ( ni x2i − nx2 ) =1,96 et l’écart-type s = 1,4. Le coefficient de variation est égal à cv = 46,7 %.
P
i=1
L’amplitude des observations est de 5, l’écart moyen de
n
em = n1
P
ni |xi − x| = 1,10.
i=1

7
Exercice 6.1.2. On considère les compositions chimiques de 20 eaux minérales suivantes :

Origines HCO3− SO4− Cl− Ca+ M g+ N a+


Aix-les-Bains 341 27 3 84 23 2
Beckerish 263 23 9 91 5 3
Cayranne 287 3 5 44 24 23
Chambon 298 9 23 96 6 11
Cristal-Roc 200 15 8 70 2 4
St Cyr 250 5 20 71 6 11
Evian 357 10 2 78 24 5
Ferita 311 14 18 73 18 13
St Hyppolite 256 6 23 86 3 18
Laurier 186 10 16 64 4 9
Ogeu 183 16 44 48 11 31
Ondine 398 218 15 157 35 8
Perrier 348 51 31 140 4 14
Ribes 168 24 8 55 5 9
Spa 110 65 5 4 1 3
Thonon 332 14 8 103 16 5
Veri 196 18 6 58 6 13
Viladreau 59 7 6 16 2 9
Vittel 402 306 15 202 36 3
Volvic 64 7 8 10 6 8

(i) Calculer les quartiles Q1 , Q2 , Q3 , l’écart interquartile et les limites des moustaches pour les variables HCO3−
et Ca+ .

(ii) Représenter les boı̂tes à moustaches pour les variables HCO3− et Ca+ .

Correction

HCO3− SO4− Cl− Ca+ M g+ N a+


Q1 184.5 8.0 6.0 51.5 4.0 4.5
Médianes 259.5 14.5 8.5 72.0 6.0 9.0
Q3 336.5 25.5 19.0 93.5 20.5 13.0
(i) Ecarts interquartiles 152.0 17.5 13.0 42.0 16.5 8.5
Q1 − 1, 5(Q3 − Q1 ) -43.50 -18.25 -13.50 -11.50 -20.75 -8.25
Q3 + 1, 5(Q3 − Q1 ) 564.50 51.75 38.50 156.50 45.25 25.75
Moustaches inférieures 59 3 2 4 1 2
Moustaches supérieures 402 51 31 140 36 23

(ii)

7 Les données proviennent de l’ouvrage de R. Tomassone, C. Dervin, J.P. Masson, ” Biométrie, modélisation de phénomènes biolo-

giques”, page114.
6. EXERCICES 31

400

350

300

250

Values
200

150

100

50

1 2 3 4 5 6
Column Number

Boı̂tes à moustache

Exercice 6.1.3. On a monté une série d’expériences dans une unité pilote en vue d’étudier l’influence de la
température sur le rendement d’une réaction chimique sous une pression donnée. Les données recueillies sont les
suivantes (x est la température t - 60 ◦ C ; y est le rendement en %) :

x 1 2 3 4 5 6 7 8 9 10
y 4 6 8 11 12 15 16 18 21 22

Étudier la liaison entre y et x. On fera le graphique en “ nuage de points ” des valeurs de y en fonction des
valeurs de x. On construira la droite de régression de y en x et on donnera la valeur du coefficient de corrélation
linéaire r(X,Y). Pour calculer la valeur des deux coefficients de la droite de régression, on se servira des formules
dans le cas d’une variable explicative et des relations matricielles (cas de plus d’une variable explicative).

Correction

25
expérimental
régression linéaire

20

15
y rendement

10

0
0 5 10 15
x (t−60) °C

Droite de régression
32 CHAPITRE 2. STATISTIQUE DESCRIPTIVE

n = 10;
P P 2
xi = 55; xi = 385;
i iP
yi2 = 2111;
P
yi = 133;
Pi i
xi yi = 899
i
D’où „ «2
P
xi
(xi − x)2 = x2i −
P P i
n
i i „ «2
P
yi
(yi − y)2 = yi2 −
P P i
n
i i „ «„ «
P P
P P xi yi
i i
(xi − x)(yi − y) = xi yi − n
i i
(xi − x)2 = 82, 5
P
i
(yi − y)2 = 342, 1
P
i
P
(xi − x)(yi − y) = 167, 5
i
Donc la droite de régression des moindres carrés de y en x est y = β̂ 0 + β̂ 1 x
Avec
β̂ 0 = 2,1333 ; β̂ 1 = 2,0303 ; r(x,y) = 0,9970.
Si on applique directement les relations matricielles, on obtient :
   
4 1 1
 6   1 2 
y =  . ; X= . . 
   
 ..   .. .. 
22 1
10
   
t 10 55 t 133
XX = ; Xy =
55 385 899
L’équation normale est alors 
10β0 + 55β1 = 133
55β0 + 385β1 = 899
d’où la solution

6.2 Exercices avec indications


Exercice 6.2.1. Le tableau suivant donne les revenus imposables des Français en 1970.

Classes Fréquences relatives


[2500 ;5000[ 0.0067
[5000 ;10000[ 0.3018
[10000 ;15000[ 0.2750
[15000 ;20000[ 0.1709
[20000 ;30000[ 0.1445
[30000 ;50000[ 0.0701
[50000 ;70000[ 0.0166
[70000 ;100000[ 0.0081
[100000 ;200000[ 0.0051
[200000 ;400000[ 0.0010

(i) tracer l’histogramme de ces données pour les revenus allant de 0 à 7000.
Indications Attention les intervalles de classes ne sont pas constants.
Exercice 6.2.2. On désire tester n produits. On fait appel à 2 goûteurs et on leur demande de classer ces n
produits. Nous avons donc à notre disposition une série statistique double :
x1 , x2 , . . . , xn
y1 , y 2 , . . . , y n
6. EXERCICES 33

avec :
{x1 , x2 , . . . , xn } = {y1 , y2 , . . . , yn } = {1, 2, . . . , n}
On appelle coefficient de Spearman le coefficient de corrélation linéaire :

cov(x, y)
rs =
sx sy

(i) Montrer que Pn


6 i=1 d2i
rs = 1 −
n(n2 − 1)
où di = xi − yi .
(ii) Que signifie rs = 1, rs = −1, rs = 0 ?
Indication
(i) On rappelle que la somme des n premiers entiers est égale à n(n + 1)/2 et que la somme des carrés des n
premiers entiers est égale à n(n + 1)(2n + 1)/6.
On calculera SCEx en fonction de n
Exercice 6.2.3. Dans une solution aqueuse contenant un polluant, on plonge un solide absorbant (charbon actif
sous forme de tissu) qui “ capture ” une partie des molécules de la substance polluante. Au bout d’un certain
temps, le système est à l’équilibre : Chaque point d’équilibre est caractérisé par la concentration à l’équilibre
C e et la quantité de polluant absorbé par unité de masse de charbon actif, q e . A une température donnée, on
peut mesurer différents points sur une courbe (C e , q e ) dite isotherme d’adsorption. Le tableau suivant fournit
l’isotherme d’adsorption de l’aniline à 25 ◦ C (Faur-Brasquet, 1998).

Ce 72 57,7 38,5 21,3 13,1 6,9 3,9 1,2


(mg/l)
qe 232,5 211 192 163,4 136,7 116,3 96,2 61,9
(mg/g)

Étudier la liaison entre q e et C e en supposant que les incertitudes expérimentales sur C e sont négligeables
devant celles sur q e . On fera le graphique en “ nuage de points ” des valeurs de q e en fonction des valeurs de C e .
On étudiera ensuite les deux modèles suivants :
Modèle de Langmuir qe = q1+bC m bCe
e
1/n
Modèle de Freundlich qe = KCe
Pour chacun des deux modèles, on estimera les paramètres du modèle (q m et b, K et n) par régression linéaire
simple sur des variables “ modifiées ”.
Conclure sur “ l’adéquation ” des 2 modèles proposés.

Indications
On prendra pour le modèle de Langmuir les variables xL = 1/Ce et yL = 1/qe et pour le modèle de Freundlich
les variables xF = ln Ce et yF = ln qe . On donne

x2Li = 0.7904
P P P P
i xLi = 1.4151 i yLi = 0, 0628 i i xLi yL i = 0, 0185

x2F i = 69, 6526


P P P P
i xF i = 21, 0887 i yF i = 39, 5204 i i xF i yF i = 108, 5925

6.3 Exercices sans indications


Exercice 6.3.1. Pour une élection où il y a trois candidats, on désire savoir si les femmes et les hommes ont le
même comportement. C’est-à-dire si les populations des hommes et des femmes sont homogènes pour ce critère.
On réalise pour cela un sondage sur 200 hommes et 100 femmes et on a obtenu les données de la table 6.3.1

(i) Calculer les profils colonnes ;


(ii) Réaliser le graphique adapté à ces données.

Exercice 6.3.2. Dix répétitions d’une mesure de plomb ont été effectuées par spectrophotométrie d’absorption
atomique sur 10 échantillons indépendants. la table 6.3.2 suivant rassemble les valeurs trouvées.
34 CHAPITRE 2. STATISTIQUE DESCRIPTIVE

Candidats :Populations Hommes Femmes


1 68 22
2 51 24
3 81 54

Tab. 2.10 – Données

Mesures xi Mesures xi
1 0,975 6 1.210
2 1,095 7 1,232
3 1,135 8 1,242
4 1,165 9 1,362
5 1,180 10 2,185

Tab. 2.11 – Données

(i) Calculer la moyenne et la médiane de ces données ;


(ii) Calculer l’écart type et l’écart interquartile de ces données ;
(iii) Représenter graphiquement ces données ;
(iv) On supprime la plus grande des données.
(a) Calculer la moyenne et la médiane de ces données ;
(b) Calculer l’écart type et l’écart interquartile de ces données ;
(v) Commentaires.
Exercice 6.3.3. Des mesures ont été réalisées pendant plusieurs journées sur un chauffe-eau solaire. On a mesuré
l’énergie E accumulée en fin de journée dans le ballon de stockage. On considère cette variable comme la “ réponse ”
du système vis à vis de deux autres variables mesurées simultanément : l’irradiation solaire journalière H reçue
sur le plan du capteur et l’écart moyen de température T entre l’eau froide et l’air extérieur. Les performances
énergétiques journalières du chauffe-eau sont fournies dans le tableau suivant (Source :Adnot et al., 1988)

Date E (MJ) H (MJ/m22 ) T (◦ C)


24 mars 19,0 16,8 6,9
25 mars 13,3 14,0 4,4
26 mars 7,1 8,2 5,8
27 mars 0,7 1,6 2,2
28 mars 0,7 2,3 1,4
29 mars 13,1 13,1 4,2
30 mars 29,4 27,9 5,0
31 mars 23,9 24,1 4,1
1 avril 12,1 14,2 1,0
16 septembre 10,9 8,2 10,0
17 septembre 8,4 6,5 11,3
18 septembre 16,9 14,6 12,7
19 septembre 4,0 3,0 8,6
20 septembre 20,5 18,1 9,7
21 septembre 26,1 23,9 10,6
22 septembre 24,8 23,2 9,5
1 juillet 33,2 23,1 16,8
2 juillet 32,0 21,7 17,9
3 juillet 27,4 19,0 16,8

Étudier la liaison entre E, H et T. On fera le graphique en “ nuage de points ” des valeurs de E en fonction
des valeurs de H, puis de T. On étudiera ensuite la régression linéaire multiple E = β 0 + β 1 H + β 2 T
On donne P P P
i Ei = 323, 5 Pi Hi2 = 283, 5 Pi Ti2 = 158, 9
P Pi Hi = 5420 Pi Ti = 1812, 4
i Ei Hi = 6260, 9 i Ei Ti = 3300, 4 i Hi Ti = 2651
Chapitre 3

Probabilités

1 Introduction
L’objet de la statistique est souvent d’obtenir des conclusions sur une population à partir de données. Afin de
d’obtenir celles-ci nous aurons besoin de connaı̂tre les lois de probabilité de certaines variables aléatoires définis
sur l’espace d’échantillonnage (i.e. sur l’espace de tous les échantillons possibles). Ceci est l’objet du chapitre sur
la théorie de l’échantillonnage. Pour cela nous avons donc besoin des notions fondamentale de probabilités.

Jeu de dé

6
Probabilités Statistiques
?

Résultat de 100 lancés

Population

6
Probabilités Statistiques
?

n-Échantillon

A l’origine les probabilités sont liées au jeux de hasard1 et on continue depuis à parler de science du hasard et
aussi de loi du hasard. Mais comment cela est-il possible puisque par définition même le hasard est imprévisible ?
Intuitivement on définit souvent la probabilité d’un événement comme le rapport du nombre de cas favorables
sur le nombre de cas total, supposés tous également possibles. Mais que veut dire “également possibles” sinon
“également probables” ? Et que signifie “également probables” sinon “de probabilités égales”. La probabilité est
ainsi définie à partir du terme probabilité ! Cette définition peut se comparer à la définition du point comme limite
d’une sphère dont le rayon tend vers 0 et de la sphère comme l’ensemble de points situés à une égale distance d’un
point fixe. Pourtant tout le monde sait ce qu’est un point et ce qu’est une sphère.
La théorie des probabilités est en fait une théorie mathématique parfaitement rigoureuse qui permet de modéliser
1 Il est à remarquer d’ailleurs que ce terme vient d’un mot arabe qui signifie : jeu de dé. Nous profitons de cette note pour souligner

que le terme aléa provient lui du latin alea qui signifie aussi jeu de dé.

35
36 CHAPITRE 3. PROBABILITÉS

des phénomènes où les résultats ne peuvent être connus avec certitude et c’est cette théorie que nous allons étudier
maintenant.

2 Définition des probabilités


2.1 Exemples
Exemple 2.1.1 (Cas fini). On considère un caractère dû à un gène ayant deux allèles C et c. On sait que dans
un croisement chacun des deux parents donne un des deux gènes ; si les parents sont tous les deux hétérozygotes,
c’est-à-dire ont tous les deux le génotype Cc, les génotypes des descendants sont de l’un des quatre types suivants
(le premier gène indiqué est celui de la mère) :CC, Cc, cC, cc. Nous avons ainsi les quatre événements élémentaires
de l’épreuve. Si ces événements sont équiprobables, la probabilité de chacun d’entre eux est p = 1/4. Supposons
maintenant que ce qui nous intéresse est le phénotype des individus et que l’allèle C soit dominant. L’ensemble
fondamental devient alors Ω = {[C], [c]} où [C] (respectivement [c]) représente le phénotype C (respectivement c)
et correspond aux génotypes CC, Cc, cC (respectivement cc). Si les génotypes sont tous équiprobables alors nous
avons P ([C]) = 3/4 et P ([c]) = 1/4.

Exemple 2.1.2 (Cas infini dénombrable). On considère l’expérience aléatoire qui consiste à lancer un dé et à
noter le nombre de coups nécessaires pour obtenir 6 pour la première fois. On a donc Ω = {1, 2, 3, 4, . . .} = N∗ . La
probabilité de l’événement élémentaire n est :
 n−1
5 1
pn =
6 6

+∞ +∞  n−1 +∞  n
X X 5 1 1X 5 1 1
pn = = = . 5 =1
n=1 n=1
6 6 6 n=0
6 6 1− 6

Exemple 2.1.3 (Cas infini non dénombrable). Un voyageur arrive à la date t = 0 à une station de bus. On sait
qu’un bus passe toutes les 5 minutes. Le voyageur étant seul ne peut savoir quand est passé le dernier bus. Quelle
probabilité peut-on définir ?
Le voyageur sait qu’il attendra au maximum 5 minutes. Donc ici Ω = [0, 5]. Mais il n’a aucune raison de
privilégier des instants par rapport à d’autres. Aussi il est logique de prendre comme probabilité d’un intervalle
[a, b] = A ⊂ Ω le rapport des longueurs des intervalles A et Ω :

b−a
P (A) =
5−0

Plus l’intervalle sera grand plus il aura de “chance” de voir le bus passer. L’ensemble des événements E contiendra
donc tout les intervalles du type [a, b] mais aussi :
– [0, a[= CΩ [a, 5]
– ]b, 5] = CΩ [0, b]
– [a, b[= ∪n∈N [a, b − (1/n)]
– ]a, b] = ∪n∈N [a + (1/n), b]
– ]a, b[=]a, (a + b)/2] ∪ [(a + b)/2, b[
– ∪n∈N (an , bn ) où (an , bn ) est un intervalle ouvert, fermé ou semi-ouvert
– ∩n∈N (an , bn ) = CΩ {∪n∈N CΩ (an , bn )}
– {a} = ∩n∈N [a − (a/n), a + (1/n)]
– etc ...
E est un ensemble très vaste mais on démontre qu’il est différent de P(Ω). Ayant défini P ([a, b]) par (b − a)/5 =
Rb
a
(1/5)dx on démontre alors que l’on peut construire une probabilité P sur E et que l’on a :
Z
P (A) = (1/5)dx
A

La loi de probabilité est alors parfaitement définie par la fonction


f (x) = 1/5 si x ∈ [0, 5].
Soit A = [a, b[∪]c, d[ alors, avec a < b < c < d
R Rb Rd
P (A) = A f (x)dx = a f (x)dx + c f (x)dx = A = aire achurée.
2. DÉFINITION DES PROBABILITÉS 37

f (x) 6 'A
1
5
@@@@@@@@@
@ @@@@
@
@@@@@@@@@ @@@
@@ @ @@@@
@@@@@@@ @ @@@
@@@ @@@
@@@@@@@ @ @
@@@@ @ @ @@@@
@@@@@@ @ @@ @
@
@@@@@@@@
@@ @
@@@@ -
a b c d x

Remarque 2.1.4. On a P ({a}) = (a − a)/5 = 0 et


P ([0, a[∪]a, 5]) = 1 − P ({a}) = 1. L’événement {a} peut se produire, mais a une probabilité nulle et l’événement
[0, a[∪]a, 5] peut ne pas se produire mais a une probabilité égale à 1. Ce type de résultat étonne toujours l’étudiant
au début, mais cela montre un peu la difficulté de travailler sur un ensemble non dénombrable.

2.2 Définitions
Lorsque Ω est un ensemble infini non dénombrable (un intervalle de R par exemple) nous ne pouvons pas
définir la probabilité d’un événement de façon constructive. En fait il existe même des sous ensembles de Ω pour
lesquels nous ne pouvons pas calculer de probabilités, et l’ensemble des événements E est alors un sous ensemble
de P(Ω). Les ensembles pour lesquels nous ne pouvons pas calculer la probabilité sont assez pathologiques et on
ne les rencontre jamais dans la pratique ; néanmoins nous devons mathématiquement définir quelles propriétés doit
avoir l’ensemble E. La probabilité ne peut alors être définie que de façon axiomatique 2 .

Définition 2.2.1 (Tribu ou σ-algèbre de Boole). Soit Ω un ensemble non vide. Un sous ensemble E de P(Ω) est
une tribu ou une σ-algèbre de Boole si et seulement si elle vérifie les trois propriétés suivantes :
(i) ∅ ∈ E et Ω ∈ E
(ii) Si A ∈ E alors CΩ A ∈ E
(iii) Si Ai ∈ E ∀i ∈ I avec I fini où dénombrable alors
[
Ai ∈ E
i∈I

Définition 2.2.2 (Espace probabilisé ou mesurable). Tout couple (Ω, E) où E est une tribu est appelé un espace
probabilisé ou mesurable.

Définition 2.2.3 (Probabilité). Soit (Ω, E) un espace probabilisé. Une probabilité P sur E est une application de
E dans [0, 1] qui satisfait les trois axiomes suivants :
(i) 0 ≤ P (A) ≤ 1 ∀A ∈ E ; P (Ω) = 1
(ii) ∀(A, B) ∈ E × E A ∩ B = ∅ =⇒ P (A ∪ B) = P (A) + P (B)
(iii) Si (An )n∈N An ∈ E est une suite telle que An+1 ⊂ An et
\
An = ∅ alors lim P (An ) = 0
n→+∞
n∈N

2.3 Représentation graphique


Lorsque Ω est fini où dénombrable la probabilité P est parfaitement déterminée par la donnée des pi . On
représente alors cette probabilité par un diagramme en bâtons.

Exemple 2.3.1. Reprenons l’exemple (2.1.1), alors Ω = {[c], [C]}, p = 3/4 q = 1/4

2 Cette définition axiomatique fut donnée la première fois par le mathématicien soviétique (ou russe ?) A.Kolmogorov en 1933. Cette

approche est donc assez récente. Ceci montre bien que cette notion de probabilité n’est pas aussi évidente qu’elle n’y paraı̂t à priori.
38 CHAPITRE 3. PROBABILITÉS

pk 6
3
4

1
4

-
[C] [c] k

Exemple 2.3.2. Reprenons l’exemple(2.1.2) : Ω = N∗ et


 n−1
5 1
pn = .
6 6

pk 6
1
6

5
36

-
1 2 3 4 5 6 7 8 9 10 11 k

Par contre lorsque Ω est infini non dénombrable la probabilité est parfaitement déterminée par sa fonction de
densité.
Exemple 2.3.3. Loi uniforme sur un intervalle [a, b]. La fonction de densité est :
f (x) = 1/(b − a) sur [a, b] et 0 ailleurs.
f (x) 6 'A = 1
1
(b−a)
@@@@@@@@@@@@@@@@@@@
@
@@@@@@@@@@@@@@@@@@@
@@ @
@@@@@@@@@@@@@@@@@ @
@@@ @
@@@@@@@@@@@@@@@@@
@@@@ @
@@@@@@@@@@@@@@@@ @
@
@@@@@@@@
@@@@@@@@@@@@ -
a b x

Exemple 2.3.4. Loi normale réduite. La fonction de densité est :


1 2
f (x) = √ e−x /2

Remarque 2.3.5. On démontre que


Z +∞ Z B
f (x)dx = lim f (x)dx = 1 = P (Ω)
−∞ A→−∞ B→+∞ A
3. PROBABILITÉS CONDITIONNELLES ET INDÉPENDANCE 39

f(x)
0.4

0.35

0.3

0.25

0.2

0.15

0.1

0.05

0
x

−3 −2 −1 0 1 2 3

Fig. 3.1 –

3 Probabilités conditionnelles et indépendance


3.1 Probabilités conditionnelles
Considérons pour illustrer notre propos l’expérience aléatoire qui consiste à jeter deux dés (l’un rouge et l’autre
bleu). On suppose que chacun des 36 événements élémentaires sont équiprobables ; ils ont donc pour probabilité
p = 1/36. Ω = {(i, j), i ∈ I et j ∈ J} où I = J = {1, 2, 3, 4, 5, 6} (i, j) signifie que le dé rouge a donné i et le dé
bleu a donné j.
Supposons maintenant que l’on sache que le dé rouge a donné 3. Quelle est alors la probabilité que la somme
des deux dés soit 8 ?
Pour calculer cette probabilité on peut raisonner de la façon suivante : nous ne pouvons en fait avoir que 6
événements dans notre expérience : (3,1), (3,2), (3,3), (3,4), (3,5), (3,6). Aussi, sachant que le dé rouge est un 3,
la probabilité (conditionnelle) de chacun des événements (3,1), (3,2), (3,3), (3,4), (3,5), (3,6) est 1/6, alors que la
probabilité (conditionnelle) des 30 autres événements est nulle. Par conséquent la réponse à la question est 1/6.
Si nous désignons par A l’événement “la somme des 2 dés est 8” et par B l’événement “le dé rouge est 3”, alors
la probabilité calculée précédemment s’appelle la probabilité conditionnelle que A apparaisse sachant que B est
réalisée et elle est notée P (A/B).

Définition 3.1.1 (Probabilité conditionnelle). Soit (Ω, E) un espace probabilisé et P une probabilité sur cet espace.
Soit B un événement de probabilité non nulle. On appelle probabilité conditionnelle de l’événement A sachant que
B est réalisée la quantité :
P (A ∩ B)
P (A/B) =
P (B)

3.2 Indépendance d’événements


Définition 3.2.1 (Indépendance–dépendance de deux événements). Deux événements sont dits indépendants si
la réalisation de l’un d’entre eux ne modifie pas la réalisation de l’autre, en d’autres termes, si la réalisation de l’un
d’entre eux n’apporte aucune information au sujet de l’autre. Les événements A et B sont dits dépendants dans le
cas contraire.

Théorème 3.2.2. Deux événements A et B sont indépendants si et seulement si :

P (A ∩ B) = P (A).P (B)

Démonstration
Si P (B) = 0 alors P (A ∩ B) = 0 (car 0 ≤ P (A ∩ B) ≤ P (B) = 0) donc P (A ∩ B) = P (A).P (B)
Si P (B) 6= 0 alors P (A ∩ B) = P (B).P (A/B) or A et B sont indépendants si et seulement si la réalisation de A ne
donne pas d’information sur B donc si et seulement si P (A/B) = P (A) Par suite P (A ∩ B) = P (A).P (B) 2

Exemple 3.2.3. On jette deux dés. Soit A l’événement “la somme des dés est 6” et B l’événement “le premier dé
est un 4”. Alors P (A ∩ B) = P ({(4, 2)}) = 1/36. Mais

P (A) = P ({(1, 5), (2, 4), (3, 3), (4, 2), (5, 1)}) = 5/36

et
P (B) = P ({(4, 1), (4, 2), (4, 3), (4, 4), (4, 5), (4, 6)}) = 1/6
40 CHAPITRE 3. PROBABILITÉS

donc P (A).P (B) 6= P (A ∩ B) et les deux événements sont dépendants. Ici P (A/B) = 1/6 et P (A/B̄) = 4/30 . Soit
C l’événement “la somme des dés est 7”. Alors
P (C) = P ({(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)}) = 1/6 et par suite
P (B ∩ C) = 1/36 = P (B).P (C). Ici B et C sont indépendants ; le fait de savoir que la somme est 7 ne donne
aucun renseignement sur le score du premier dé. Par contre le fait de savoir que la somme est 6 implique que l’on
ne peut pas avoir un 6 pour le premier dé.
Nous allons maintenant généraliser la notion d’indépendance à un nombre quelconque d’événements.
Définition 3.2.4 (Indépendance de n événements). Soit (Ai )i=1,...,n n événements d’un espace probabilisé. Ces
événements sont dits indépendants si et seulement si pour tout sous-ensembles
{A01 , A02 , . . . , A0r } de {A1 , . . . , An } r ≤ n on a :
P (A01 ∩ A02 . . . ∩ A0r ) = P (A01 ).P (A02 ) . . . P (A0r )
Remarque 3.2.5. Des événements (Ai )i=1,...,n peuvent être indépendants deux à deux sans être indépendants.
Considérons par exemple les 3 événements suivants de l’expérience aléatoire consistant à jeter deux pièces de
monnaie non truquées :
– L’événement A “la première pièce est Pile”
– L’événement B “la deuxième pièce est Face”
– L’événement C “les deux pièces sont sur le même côté”
Alors
P (A ∩ B) = 1/2.1/2 = P (A).P (B)
P (A ∩ C) = 1/2.1/2 = P (A).P (C)
P (B ∩ C) = 1/2.1/2 = P (B).P (C)
Les trois événements sont dont bien indépendants deux à deux. Mais
P (A ∩ B ∩ C) = P (∅) = 0 6= P (A).P (B).P (C)
par suite les trois événements ne sont pas indépendants. Ici le fait de savoir que la première pièce donne Pile et
que la deuxième pièce donne Face implique que l’événement C ne peut pas être réalisé.

4 Variables aléatoires
4.1 Introduction
Nous serons toujours amenés en pratique à travailler avec des variables aléatoires. Chaque mesure collectée sera
mise en relation avec une variable aléatoire. Ainsi les grandeurs auxquelles on s’intéressera seront en lien avec des
fonctions définies sur un ensemble fondamental, c’est-à-dire avec des variables aléatoires. Ce qui nous intéressera, en
pratique, sera la loi de probabilité sur l’espace d’arrivé. Nous donnons ci-après quelques exemples de formalisation
par des variables aléatoires où P désigne la population française :

X1 : P −→ {M, F }
ω 7−→ M si ω est un homme
ω 7−→ F si ω est une femme

X2 : P −→ R
ω 7−→ Revenu de ω

X3 : P −→ {CSP1 , CSP2 , . . . , CSPn }


ω 7−→ la catégorie socioprofessionnelle de ω

X4 : P −→ R
ω 7−→ taille de ω

X5 : P −→ N
ω 7−→ nombre de yaourts mangés par ω pendant un an
Dans cette section nous étudierons tout d’abord le cas simple où la variable aléatoire ne pourra prendre qu’un
nombre fini ou dénombrable de valeur différentes. Ensuite nous étudierons les variables aléatoires réelles continues,
puis nous nous intéresserons à la notion de fonction de répartition d’une variable réelle. Le paragraphe suivant sera
consacré à l’étude succincte des fonctions de variables aléatoires réelles. Enfin nous terminerons cette section par
une rapide étude des variables aléatoires vectorielles.
4. VARIABLES ALÉATOIRES 41

4.2 Définition
Variables aléatoires discrètes
Définition 4.2.1 (Variable aléatoire discrète). Soit (Ω, E) un espace probabilisé et P une probabilité sur cet espace.
On appelle variable aléatoire discrète définie sur (Ω, E) à valeur dans E toute application X de Ω dans E telle que :
(i) X ne prend qu’un nombre fini ou dénombrable de valeurs dans E.
(ii) Pour tout x ∈ X(Ω), le sous ensemble X −1 (x) = {ω ∈ Ω/X(ω) = x} de Ω est un événement (X −1 (x) ∈ E).

Théorème 4.2.2. Soit (Ω, E) un espace probabilisé et P une probabilité sur cet espace. Soit X une variable aléatoire
discrète de Ω dans E, alors l’application PX définie par :

PX : P(X(Ω)) −→ [0, 1]
A 7−→ PX (A) = P (X −1 (A)) = P ({ω ∈ Ω/X(ω) ∈ A}

est une probabilité sur (X(Ω), P(X(Ω))).

Démonstration
Évidente. 2

Remarque 4.2.3. La terminologie employée ici est assez malheureuse et est source de confusion chez l’étudiant.
Nous tenons donc à bien faire prendre conscience qu’une variable aléatoire X est une fonction parfaitement
déterminée, cela n’a rien à voir avec une variable mathématique bien qu’on la note X. Quant au terme aléatoire il
n’est présent que pour rappeler que l’on travaille sur des espaces probabilisés.

Remarque 4.2.4. Une variable aléatoire permet en fait de transporter une probabilité définie sur un espace pro-
babilisé dans un autre espace probabilisé.

Remarque 4.2.5. En posant pn = PX (xn ) = P (X−1 ({xn })) nous retrouvons la définition d’une probabilité sur
un ensemble fini ou dénombrable.

Définition 4.2.6 (Loi d’une variable aléatoire). La probabilité PX est appelée la loi de la variable aléatoire X.

Exemple 4.2.7. On jette trois fois une pièce de monnaie et on s’intéresse au nombre de faces obtenu. Ici

Ω = {(F, F, F ), (F, F, P ), (F, P, F ), (F, P, P ), (P, F, F ), (P, F, P ), (P, P, F ), (P, P, P )}

et

X : Ω −→ R
ω 7−→ X(ω) = nombre de F dans ω

X(Ω) = {0, 1, 2, 3} = Ω0 , X est une variable aléatoire de (Ω, P(Ω)) dans (Ω0 , P(Ω0 ))

X −1 ({0}) = {(P, P, P )} et PX ({0}) = P ({(P, P, P )}) = 1/8


X −1 ({1}) = {(P, P, F ), (P, F, P ), (F, P, P )} et PX ({1}) = 3/8
X −1 ({2}) = {(P, F, F ), (F, P, F ), (F, F, P )} et PX ({2}) = 3/8
X −1 ({3}) = {(F, F, F )} et PX ({3}) = 1/8

Exemple 4.2.8. Reprenons l’exemple (2.2.1.1) et posons Ω = {CC, Cc, cC, cc}. Nous pouvons alors définir le
phénotype comme la variable aléatoire suivante :

X:Ω −→ {[C], [c]}


CC 7−→ [C]
Cc 7−→ [C]
cC 7−→ [C]
cc 7−→ [c]

Nous avons bien alors :

PX ({[C]}) = P ({CC, Cc, cC}) = 3/4


PX ({[c]}) = P ({cc}) = 1/4
42 CHAPITRE 3. PROBABILITÉS

Définition 4.2.9 (Variable aléatoire discrète réelle). On appelle variable aléatoire discrète réelle (v.a.r.d.) toute
variable aléatoire discrète à valeur dans R.
Notation 4.2.10. Lorsque X est une variable aléatoire réelle on note aussi :

PX ({x}) = P (X = x) = P (X −1 (x))
PX (] − ∞, x]) = P (X ≤ x) = P (X −1 (] − ∞, x]))

Par exemple dans l’exemple (4.2.7) on note aussi

PX ({1}) = P (X = 1) = 3/8 et PX ({0, 1, 2}) = P (X ≤ 2) = 7/8

Remarque 4.2.11. On représente la loi de probabilité d’une variable discrète réelle par des diagrammes en bâtons.

Variables aléatoires réelles continues


Définition 4.2.12 (Variable aléatoire réelle continue). Soit (Ω, E) un espace probabilisé et P une probabilité sur
cet espace. On appelle variable aléatoire réelle continue (v.a.r. continue) définie sur (Ω, E) toute application X de
Ω dans R ayant les propriétés suivantes :
(i) L’ensemble {ω ∈ Ω/X(ω) ∈ [a, b]} est un événement (i.e ; un élément de E) pour tout couple (a, b) de R 2 .
(ii) Il existe une fonction f de R dans R telle que
Z b
P (X ∈ [a, b]) = P (X −1 ([a, b])) = PX ([a, b]) = f (x)dx
a

Définition 4.2.13 (Fonction de densité). On appelle fonction de densité d’une variable aléatoire réelle continue
X toute fonction f permettant de définir la probabilité comme indiqué dans la définition ci-dessus.
Remarque 4.2.14. Une fonction f est une fonction de densité si et seulement si :
(i) f (x) ≥ 0 pour tout x.
(ii) f est intégrable.
R +∞
(iii) −∞ f (x)dx = 1
Exemple 4.2.15. La durée de fonctionnement d’un ordinateur avant sa première panne est une variable aléatoire
continue de densité donnée par :

f : R −→ R
x 7−→ λe−x/100 si x ≥ 0
x 7−→ 0 sinon

Quelle est la probabilité que cette durée de fonctionnement soit comprise entre 50 et 150 heures ? Quelle est la
probabilité que l’ordinateur fonctionne moins de 100 heures ?
Z +∞ Z +∞
f (x)dx = λe−x/100 dx = 100λ
−∞ 0

Donc f est une fonction de densité si et seulement si λ = 1/100. Par suite :


Z 150
1 −x/100
P (X ∈ [50, 150]) = e dx = e−1/2 − e−3/2 ' 0, 384
50 100
Z 100
P (X ≤ 100) = f (x)dx = 1 − e−1 ' 0, 633
0

Conclusion
Nous pouvons donc dire qu’une variable aléatoire c’est une fonction parfaitement connue qui permet de
transposer une probabilité d’un espace probabilisé dans un autre. Une variable aléatoire, c’est comme le
Saint Empire Romain : il n’était pas saint, ce n’était pas un empire et il n’était pas Romain3 . Quant-à la loi d’une
variable aléatoire, c’est la probabilité qu’elle définit sur l’espace d’arrivée. C’est cette loi ou des paramêtre de cette
loi qui nous intéressera en pratique. Par abus de langage nous dirons que :
3 Cette analogie vient de Donald E. Catlin ”Estimation, Control, and the Discrete Kalman Filter”, page 5, ed. Springer-Verlag 1989
4. VARIABLES ALÉATOIRES 43

(i) X est une v.a.r. de loi F (fonction de répartition) ;

(ii) X est une v.a.r. continue de loi f (fonction de densité) ;

(iii) X est une v.a.r. discrète de loi P (X = k).

Et nous noterons :

P (a ≤ X ≤ b) = P (X ∈ [a, b]) = PX ([a, b]) = P (X −1 ([a, b]))

4.3 Fonction de répartition

Nous n’étudierons dans ce paragraphe que des variables aléatoires réelles.

Définition 4.3.1 (Fonction de répartition). On appelle fonction de répartition associée à la variable aléatoire
réelle X la fonction F définie par :

F : R −→ R
x 7−→ F (x) = P (X ≤ x) = PX (] − ∞, x])

En d’autre termes F (x) est la probabilité que la variable aléatoire X prenne une valeur inférieure ou égale à x.

Nous allons maintenant voir les représentations graphiques des cette fonction sur trois exemples, l’un fini, l’autre
dénombrable et le troisième infini non dénombrable.

Exemple 4.3.2. Reprenons l’exemple (4.2.7) où la variable aléatoire X est le nombre de faces obtenu lors du jeté
de trois pièces. Ici la fonction de répartition est :

F (x) = 0 si x ∈] − ∞, 0[
1
F (x) = P (X ≤ x) = P (X = 0) = si x ∈ [0, 1[
8
1 3 1
F (x) = P (X = 0 ou X = 1) = P (X = 0) + P (X = 1) = + = si x ∈ [1, 2[
8 8 2
7
F (x) = si x ∈ [2, 3[
8
F (x) = 1 si x ∈ [3, +∞[

Nous avons donc la représentation graphique suivante :


F (x) 6

1 r
7 r
8

1 r
2

1 r
8
-
-1 0 1 2 3 x
44 CHAPITRE 3. PROBABILITÉS

Exemple 4.3.3. Soit X ne nombre de fois qu’il faut lancer une pièce de monnaie pour obtenir pile. Nous avons :

F (x) = 0 si x<1
1
F (x) = si x ∈ [1, 2[
2
1 1
F (x) = + si x ∈ [2, 3[
2 4
..
.
n
X 1 1
F (x) = n
= 1 − n si x ∈ [n, n + 1[
i=1
2 2
..
.

et la représentation graphique donne :


F (x) 6

r
7 r
8
3 r
4

1 r
2

-
-1 0 1 2 3 x

Exemple 4.3.4. Considérons la loi uniforme sur [−1, +1], c’est-à-dire la loi définie par la fonction de densité f
suivante :

f :R −→ R
u 7−→ f (u) = 1/2 si u ∈ [−1, +1]
u 7−→ f (u) = 0 sinon

Nous avons alors :

Z x Z x
Si x ≤ −1 alors F (x) = f (u)du = 0dx = 0
−∞ −∞
Z x Z x
1 1
Si − 1 ≤ x ≤ 1 alors F (x) = f (u)du = dx = (x + 1)
−∞ −1 2 2
Zx Z1
1
Si x ≥ 1 alors F (x) = f (u)du = dx = 1
−∞ −1 2

Nous avons donc la visualisation suivante :


4. VARIABLES ALÉATOIRES 45

F (x) 6

1
2

-
-1 0 1 2 3 x

Remarque 4.3.5. Lorsque l’on parle de variable aléatoire réelle continue c’est la fonction de répartition qui est
continue et non pas la fonction de densité.
Théorème 4.3.6. La loi de probabilité d’une variable aléatoire réelle est parfaitement connue à partir de sa
fonction de répartition F . C’est-à-dire que si l’on connaı̂t la fonction de répartition d’une variable aléatoire réelle
X alors on peut calculer P (a < X < b) pour tout (a, b) dans R. Nous dirons alors que la loi de X est F .
Démonstration
Admise 2
Remarque 4.3.7. Nous emploierons indifféremment, par abus de langage, pour caractériser une loi les expres-
sions :
(i) X est de loi F où F est la fonction de répartition associée à X.
(ii) X est de loi f si X est continue et f est la fonction de densité associée à X.
(iii) X est de loi P (X = k) si X est discrète.
Théorème 4.3.8. Soit X une variable aléatoire réelle continue de fonction de densité f alors :
(i) Si f est continue en a et b alors :
Z b
P (a ≤ X ≤ b) = f (x)dx = P (a ≤ X < b)
a
= P (a < X ≤ b)
= P (a < X < b)
= F (b) − F (a)
(ii) Si f est continue en a alors :
dF
(a) = F 0 (a) = f (a)
dx
Démonstration
Cela provient des propriétés de l’intégrale 2
Corollaire 4.3.9. Soit X une variable aléatoire réelle continue définie par une fonction de densité f continue.
Alors si F est la fonction de répartition associée à X on a :
Z x
F (x) = f (u)du et F 0 (x) = f (x)
−∞
et
P (a < X < b) = F (b) − F (a)
P (a < X ≤ b) = F (b) − F (a)
P (a ≤ X < b) = F (b) − F (a)
P (a ≤ X ≤ b) = F (b) − F (a)
Remarque 4.3.10. Le corollaire précédent est important dans la pratique car c’est la fonction de répartition F
qui est donnée dans les tables statistiques.
46 CHAPITRE 3. PROBABILITÉS

4.4 Fonction d’une variable aléatoire réelle continue


Il arrive souvent dans la pratique que l’on connaisse la distribution d’une variable aléatoire X mais que l’on
s’intéresse plutôt à celle d’une fonction de cette variable aléatoire. En d’autres termes on connaı̂t X mais on désire
connaı̂tre g(X).

Exemple 4.4.1. Soit X une variable uniformément distribuée sur [0, 1]. On obtiendra la distribution de Y = X 2
de la manière suivante :

FY (y) = P (Y ≤ y) y ≥ 0
= P (X 2 ≤ y)

= P (X ≤ y)
√ √
= FX ( y) = y si y ∈ [0, 1]

Donc
1
fY (y) = FY0 (y) = √ si y ∈ [0, 1]
2 y
fY (y) = 0 sinon

Théorème 4.4.2. Soit X une variable aléatoire réelle continue de densité fX et soit g une fonction strictement
monotone (croissante ou décroissante) et dérivable de R dans R. La densité de probabilité de la variable aléatoire
Y = g(X) est alors :

d −1
fX (g −1 (y)) dy

g (y) si il existe un x pour lequel y = g(x)
fY (y) =
0 si g(x) 6= y pour tout x

Démonstration
Cela provient du théorème de changement de variable dans une intégrale. 2
Application 4.4.3. Soit X une variable aléatoire réelle de loi normale de paramètre µ et σ, c’est-à-dire que X a
pour fonction de densité
1 2 2
f (u) = √ e−(x−µ) /(2σ )
2πσ
et soit
x−µ
g(x) = et Y = g(X)
σ
alors
x−µ
g(x) = y ⇐⇒ y=
σ
⇐⇒ x = σy + µ = g −1 (y)

Par suite
1 2
fY (y) = fX (σy + µ)σ = √ e−y /2

et donc Y suit une lois normale réduite (i.e. de paramètres 0 et 1). Par conséquent nous avons :
Z a
FX (a) = fX (x)dx = P (X ≤ a)
−∞
a−µ
a−µ
Z σ
= fY (y)dy = P (Y ≤ )
−∞ σ
= P (σY + µ ≤ a)
a−µ
= FY ( )
σ
En conclusion si on connaı̂t la fonction de répartition de loi normale réduite on peut calculer la fonction de
répartition de toutes les lois normales.
4. VARIABLES ALÉATOIRES 47

4.5 Variables aléatoires vectorielles


Dans les applications pratiques on rencontre souvent des problèmes dans lesquels les résultats des expériences
se trouvent décrits non pas par une variable aléatoire mais par deux ou plusieurs variables aléatoires. Par exemple
lorsque l’on jette 3 dés le résultat est donné par 3 nombres, ou lorsque l’on désire étudier simultanément le rendement
d’une variété de blé et les précipitations de mars à juin.
Comme pour les variables aléatoires réelles nous allons tout d’abord étudier les variables aléatoires discrètes,
puis les variables aléatoires réelles continues. Nous étudierons tout d’abord le cas de deux variables aléatoires, puis
nous généraliserons.

Définition 4.5.1 (Vecteur aléatoire). On appelle vecteur aléatoire de dimension n tout n-uplet
(X1 , . . . , Xn ) de n variables aléatoires définies sur le même espace (Ω, E).

Notation 4.5.2. Lorsque n = 2 on parle de couple de variables aléatoires et on note (X, Y ).

Définition 4.5.3 (Fonction de probabilité jointe). Soient X et Y 2 variables aléatoires discrètes à valeur respec-
tivement dans E et F . On appelle fonction de probabilité jointe de X et de Y la fonction p définissant la loi de
probabilité du couple de variables aléatoires (X, Y ) suivante.

p : E × F −→ R
(x, y) 7−→ p(x, y) = P (X = x etY = y)

Remarque 4.5.4. Soit p la fonction de probabilité jointe de X et de Y alors :


(i) p(x, y) ≥ 0 ∀(x, y) ∈ E × F
(ii)
XX
p(x, y) = 1
x∈E y∈Y

Définition 4.5.5 (Loi marginale). Soient X et Y 2 variables aléatoires discrètes à valeurs dans E et F et p
la fonction de probabilité jointe de X et Y . On appelle loi de probabilité marginale de X (respectivement Y )
l’application

pX : E −→ R
X
x 7−→ pX (x) = p(x, y)
y∈F

respectivement

pY : F −→ R
X
y 7−→ pY (y) = p(x, y)
x∈E

Remarque 4.5.6. pX (respectivement pY ) est la loi de probabilité de la variable aléatoire X (respectivement Y )

Remarque 4.5.7. Lorsque E et F sont finis, E = {x1 , . . . , xn } et F = {y1 , . . . , ym } on représente p(x, y) de la


façon suivante :
y1 y2 ··· yj ··· ym pX
x1 p(x1 , y1 ) p(x1 , y2 ) · · · p(x1 , yj ) ··· p(x1 , ym ) pX (x1 )
x2 p(x2 , y1 ) p(x2 , y2 ) · · · p(x2 , yj ) ··· p(x2 , ym ) pX (x2 )
.. .. .. .. .. ..
. . . . . .
xi p(xi , y1 ) p(xi , y2 ) · · · p(xi , yj ) ··· p(xi , ym ) pX (xi )
.. .. .. .. .. ..
. . . . . .
xn p(xn , y1 ) p(xn , y2 ) · · · p(xn , yj ) ··· p(xn , ym ) pX (xn )
pY pY (y1 ) pY (y2 ) ··· pY (yi ) ··· pY (ym ) 1

Exemple 4.5.8. On lance deux dés à jouer et on s’intéresse à la somme des résultats obtenus (variable U ) et au
maximum des résultats des deux dés (variable V ). Nous avons alors :
48 CHAPITRE 3. PROBABILITÉS

U :V 1 2 3 4 5 6 pV
1 1
2 36 0 0 0 0 0 36
2 2
3 0 36 0 0 0 0 36
1 2 3
4 0 36 36 0 0 0 36
2 2 4
5 0 0 36 36 0 0 36
1 2 2 5
6 0 0 36 36 36 0 36
2 2 2 6
7 0 0 0 36 36 36 36
1 2 2 5
8 0 0 0 36 36 36 36
2 2 4
9 0 0 0 0 36 36 36
1 2 3
10 0 0 0 0 36 36 36
2 2
11 0 0 0 0 0 36 36
1 1
12 0 0 0 0 0 36 36
1 3 5 7 9 11
pU 36 36 36 36 36 36 1
Nous allons maintenant étudier le cas des variables aléatoires réelles continues.
Définition 4.5.9 (Fonction de densité d’un couple de v.a. continues).
On dit que le couple de variables aléatoires réelles continues a une densité de probabilité f , application de R2 dans
R positive et intégrable si et seulement si on peut écrire :
ZZ
P (A) = P ((X, Y ) ∈ A) = f (x, y)dxdy ∀A ∈ E
A
2
où E est la tribu de R qui contient les rectangles [a, b] × [c, d]
Remarque 4.5.10. Si A est un rectangle [a, b] × [c, d] alors on démontre que
Z b Z d
P (A) = ( f (x, y)dy)dx
a c

Illustration 4.5.11. Graphiquement z = f (x, y) représente dans R3 une surface et le volume totale délimité par
cette surface et le plan (O, x, y) est égale à 1 car
ZZ
P (Ω) = P (R2 ) = f (x, y)dxdy = 1
R2

Si A = [a, b] × [c, d] alors P (A) est le volume ombré ci-dessous :

Fig. 3.2 – Densité d’un couple de variables aléatoires réelles

Exemple 4.5.12. (Densité uniforme sur un disque C) Soit C le disque de centre O et de rayon a > 0, C =
{(x, y) ∈ R2 tel que x2 + y 2 ≤ a}
f (x, y) = πa1 2

si (x, y) ∈ C
f (x, y) = 0 sinon
4. VARIABLES ALÉATOIRES 49

Ici les variables aléatoires X et Y sont les applications composantes.


Exemple 4.5.13. (Loi normale réduite à 2 dimensions) La fonction de densité est ici :
1 − x2 +y 2 “ ”
f (x, y) =
e 2


Définition 4.5.14 (Loi marginale). Soit X et Y un couple de variables aléatoires réelles continues de fonction de
densité f . On appelle loi de probabilité marginale de X (respectivement Y ) l’application :
fX : R −→ R
Z +∞
x 7−→ fX (x) = f (x, y)dy
y=−∞

respectivement
fY : R −→ R
Z +∞
y 7−→ fY (y) = f (x, y)dx
x=−∞

Remarque 4.5.15. (i) La loi marginale de X (respectivement de Y ) est en fait la loi de la variable aléatoire X
(respectivement Y )
(ii) La fonction de répartition de X (respectivement de Y ) est alors :
Z x Z x Z +∞
FX (x) = fX (u)du = f (u, v)dudv
−∞ u=−∞ v=−∞
Z y Z +∞ Z y
(respectivement FY (y) = fY (v)dv = f (u, v)dudv )
−∞ u=−∞ v=−∞

Remarque 4.5.16. (i) La généralisation au cas de n variables aléatoires (Y1 , . . . , Yn ) est immédiate. Lorsque
l’on traite des variables discrètes, on a :
p(y1 , y2 , . . . , yn ) = P (Y1 = y1 et Y2 = y2 . . . et Yn = yn )
Lorsque l’on traite des variables aléatoires réelles continues, on a :
Z Z Z
P (A) = · · · f (y1 , y2 , . . . , yn )dy1 dy2 . . . dyn
A

(ii) Rien ne nous empêche de définir aussi des lois jointes de deux variables aléatoires réelles X et Y lorsque X
est discrète et Y continue. Mais, comme nous ne les utiliserons pas ici, nous ne les étudierons pas.

4.6 Variables aléatoires indépendantes


Nous considérons dans cette section deux variables aléatoires X et Y définies sur le même espace Ω.
Définition 4.6.1 (Indépendance de 2 v.a.r.). Deux variables aléatoires réelles X et Y sont dites indépendantes si
et seulement si pour tout événement A ⊂ R et B ⊂ R, on a :
P (X ∈ A et Y ∈ B) = P (X ∈ A) × P (Y ∈ B)
Remarque 4.6.2. La définition précédente est équivalente à dire que les événements X −1 (A) et Y −1 (B) sont
indépendants pour tout ensemble A et B.
Théorème 4.6.3. Soient X et Y 2 variables aléatoires discrètes. X et Y sont indépendantes si et seulement si :
p(x, y) = pX (x) × pY (y) ∀(x, y) ∈ R2
Théorème 4.6.4. Soient X et Y deux variables aléatoires réelles continues. X et Y sont indépendantes si et
seulement si
f (x, y) = fX (x) × fY (y) ∀(x, y) ∈ R2
Démonstration
Démonstration admise. 2
Remarque 4.6.5. (i) Pour pouvoir parler d’indépendance ou de dépendance de 2 ou plus variables aléatoires il
faut que celles-ci soient définies sur le même espace fondamental.
(ii) La signification concrète de l’indépendance de 2 variables aléatoires est que la connaissance de la valeur
d’une des variables aléatoires sur un individu n’apporte aucune information sur la valeur de l’autre variable
aléatoire.
50 CHAPITRE 3. PROBABILITÉS

5 Espérance mathématique
5.1 Définitions
L’espérance mathématique d’une variable aléatoire est l’un des concepts les plus important en théorie des
probabilités.

Définition 5.1.1 (Espérance mathématique d’une v.a.r.d.). Soit X une variable aléatoire réelle discrète de loi P .
On appelle espérance mathématique la grandeur, si elle existe, suivante.
X
E(X) = xP (X = x)
x

Exemple 5.1.2. Soit X de loi de Bernoulli de paramètre p ; c’est-à-dire :

P (X = 0) = 1 − p = q et P (X = 1) = p

alors
E(X) = 0 × q + 1 × p = p

Définition 5.1.3 (Espérance mathématique d’une v.a.r. continue). Soit X une variable aléatoire réelle continue
de fonction de densité f . On appelle espérance mathématique de X la quantité si elle existe :
Z +∞
E(X) = xf (x)dx
−∞

Exemple 5.1.4. Soit X de loi uniforme sur [a, b] alors


Z +∞
1 1 a+b
E(X) = x dx = (b2 − a2 ) =
−∞ b−a 2(b − a) 2

Théorème 5.1.5. Soit X une variable aléatoire réelle et g une application de R dans R. Soit Y = g(X), alors
l’espérance mathématique de Y est si elle existe :
(i) Si X est discrète : X
E(Y ) = E(g(X)) = g(x)P (X = x)
x

(ii) Si X est continue de loi f


Z +∞
E(Y ) = E(g(X)) = g(x)f (x)dx
−∞

Remarque 5.1.6. On devrait en fait écrire Y = g ◦ X au lieu de Y = g(X). En effet il s’agit bien ici de la
composition de fonction :
X g
Y : Ω −→ R −→ R
ω 7−→ X(ω) 7−→ g ◦ (X(ω))
Théorème 5.1.7. Soit a et b deux constantes réelles et X une variable aléatoire réelle d’espérance mathématique
E(X), alors nous avons
E(aX + b) = aE(X) + b

Démonstration
Il suffit de poser Y = aX + b et d’appliquer le théorème précédent. Le résultat s’obtient alors immédiatement en
utilisant la propriété de linéarité de la somme ou de l’intégrale. 2

Définition 5.1.8 (Moments par rapport à l’origine). Soit X une variable aléatoire réelle. On appelle n-ième
moment de X par rapport à l’origine la quantité si elle existe E(X n )
(i) Si X est discrète X
E(X n ) = xn P (X = x)
x

(ii) Si X est continue de densité f


Z +∞
n
E(X ) = xn f (x)dx
−∞
5. ESPÉRANCE MATHÉMATIQUE 51

Remarque 5.1.9. Le n-ième moment de X par rapport à l’origine est l’espérance mathématique de la variable
aléatoire Y = X n .

Définition 5.1.10 (Moments centrés). Soit X une variable aléatoire réelle. On appelle n-ième moment centré de
X la quantité si elle existe E[(X − E(X))n ]
(i) Si X est discrète
X
E[(X − E(X))n ] = (x − E(X))n P (X = x)
x

(ii) Si X est continue de densité f


Z +∞
E[(X − E(X))n ] = (x − E(X))n f (x)dx
−∞

Remarque 5.1.11. Si l’on pose µ = E(X) alors le n-ième moment centré de X est l’espérance mathématique de
la variable aléatoire Y = g(X) avec

g : R −→ R
x 7−→ (x − µ)n

Remarque 5.1.12.P Très souvent pour passer


R d’une variable discrète à une variable continue il suffit de changer
une somme finie en une “somme infinie” .

5.2 Espérance d’une somme de variables aléatoires


Théorème 5.2.1. Soit (Y
P1n, Y2 , . . . , Yn ) un n-uplet de variables aléatoires réelles qui possèdent des espérances
mathématiques alors S = i=1 Yi possède une espérance mathématique et on a :
n
X
E(S) = E(Yi )
i=1

Exemple 5.2.2. Soit (Y1 , . . . , Yn ) un n-uplet de variables de loi de Bernoulli de paramètre p alors :

Xn n
X n
X
E( Yi ) = E(Yi ) = p = np
i=1 i=1 i=1

5.3 Variance–Covariance
Définition 5.3.1 (Variance d’une variable aléatoire réelle). Soit X une variable aléatoire réelle. On appelle variance
de X la quantité si elle existe :
V ar(X) = E[(X − E(X))2 ]

Remarque 5.3.2. La variance est en fait le moment centré d’ordre deux.

Remarque 5.3.3. La variance est une mesure de l’écart moyen entre la variable aléatoire X et son espérance
mathématique. Nous aurions pu prendre comme mesure
E(|X − E(X)|), mais cette quantité est plus difficile à manipuler.

La variance a la dimension du carré de la variable aléatoire aussi, pour avoir une grandeur de la dimension de
la variable, on définit la quantité suivante.

Définition 5.3.4 (Écart type). Soit X une variable aléatoire réelle. On appelle écart type de X la quantité si elle
existe : p
σ(X) = V ar(X)

Théorème 5.3.5. La variance d’une variable aléatoire réelle existe si et seulement si le moment d’ordre deux de
X existe et on a la relation suivante :

V ar(X) = E(X 2 ) − (E(X))2


52 CHAPITRE 3. PROBABILITÉS

Démonstration
Nous n’allons démontrer que la formule ci-dessus sans démontrer totalement le théorème. Posons µ = E(X)

V ar(X) = E[(X − µ)2 ] = E[X 2 − 2µX + µ2 ]


= E(X 2 ) − 2µE(X) + µ2
= E(X 2 ) − µ2

2
Exemple 5.3.6. Soit X et Y de lois
1
P (X = 1) =
2
1
P (X = −1) =
2
1
P (Y = 100) =
2
1
P (Y = −100) =
2
alors E(X) = E(Y ) = 0 et
1 1
V ar(X) = E(X 2 ) = 12 × + (−1)2 × = 1
2 2
1 1
V ar(Y ) = E(Y 2 ) = 100 × + (−100)2 × = 10000
2
2 2
Cet exemple illustre bien la remarque (5.3.3) ci-dessus : les variables X et Y ont la même espérance mathématique
mais la dispersion des valeurs par rapport à cette espérance mathématique est plus grande pour Y que pour X.
Théorème 5.3.7. Soit X une variable aléatoire réelle qui possède une variance alors Y = aX + b a une variance
pour tout (a, b) ∈ R2 et on a :
V ar(Y ) = a2 V ar(X)
Théorème 5.3.8. Soit (X, Y ) un couple de variables aléatoires réelles indépendantes alors

E(XY ) = E(X)E(Y )

Remarque 5.3.9. Il faut bien faire attention à la signification de l’égalité ci-dessus. (X, Y ) est un couple de
variables aléatoires réelles, c’est-à-dire que

(X, Y ) : Ω −→ R2
ω 7−→ (X(ω), Y (ω))

et XY est la variable aléatoire réelle Z = g ◦ (X, Y ) où

g : R2 −→ R
(x, y) 7−→ g(x, y) = xy

En d’autre terme Z est la variable aléatoire réelle suivante :

Z : Ω −→ R
ω 7−→ Z(ω) = X(ω)Y (ω)

E(XY ) n’est alors que E(Z).


Remarque 5.3.10. La réciproque du théorème précédent est fausse, on peut avoir
E(XY ) = E(X)E(Y ) sans avoir des variables indépendantes.
Définition 5.3.11 (Covariance). Soit (X, Y ) un couple de variables aléatoires réelles admettant des espérances
mathématiques. On appelle covariance de X et de Y la quantité, si elle existe définie par :

Cov(X, Y ) = E[(X − E(X))(Y − E(Y ))]

Remarque 5.3.12. On a V ar(X) = Cov(X, X).


5. ESPÉRANCE MATHÉMATIQUE 53

Théorème 5.3.13. Soit (X, Y ) un couple de variables aléatoires réelles admettant des espérances mathématiques.
La covariance de X et de Y existe si et seulement si E(XY ) existe et on a la relation suivante :

Cov(X, Y ) = E(XY ) − E(X)E(Y )

Corollaire 5.3.14. Soit (X, Y ) un couple de variables aléatoires réelles admettant des espérances mathématiques.
Si X et Y sont indépendantes alors :
Cov(X, Y ) = 0
Démonstration
Cela provient de l’application directe des théorèmes (5.3.8) et (5.3.13). 2
Théorème 5.3.15. Soit (X, Y ) un couple de variables aléatoires réelles admettant des espérances mathématiques
et des variances. Alors la variance de X + Y et la covariance de X et Y existent et on a la relation suivante :

V ar(X + Y ) = V ar(X) + V ar(Y ) + 2Cov(X, Y )

Démonstration

V ar(X + Y ) = E[(X + Y − E(X + Y ))2 ]


= E[((X − E(X)) + (Y − E(Y )))2 ]
= E[(X − E(X))2 ] + E[(Y − E(Y ))2 ] + E[2(X − E(X))(Y − E(Y ))]
= V ar(X) + V ar(Y ) + 2Cov(X, Y )

2
Corollaire 5.3.16. Sous les mêmes hypothèses que précédemment et si de plus les variables aléatoires sont
indépendantes alors :
V ar(X + Y ) = V ar(X) + V ar(Y )
Démonstration
Immédiate 2
Remarque 5.3.17. Les résultat précédents se généralisent sans difficultés au cas d’un n-uplet de variables aléatoires :
(i)
Xn Xn X
V ar( Yi ) = V ar(Yi ) + 2 Cov(Yi , Yj )
i=1 i=1 i<j

(ii) Si les variables sont indépendantes deux à deux


Xn n
X
V ar( Yi ) = V ar(Yi )
i=1 i=1

Exemple 5.3.18. Considérons le cas d’un n-uplet de variables aléatoires de loi de Bernoulli de paramètre p
indépendantes.
Xn n
X n
X
V ar( Yi ) = V ar(Yi ) = pq = npq
i=1 i=1 i=1

Théorème 5.3.19. Soit (X, Y ) un couple de variables aléatoires réelles ayant des variances. Nous avons alors :

|Cov(X, Y )| ≤ σ(X)σ(Y )

Définition 5.3.20 (Corrélation). Soit (X, Y ) un couple de variables aléatoires réelles ayant des variances non
nulles. On appelle corrélation de X et Y la quantité :
Cov(X, Y )
ρ(X, Y ) =
σ(X)σ(Y )
Remarque 5.3.21. On a toujours, lorsque la corrélation est définie :

−1 ≤ ρ(X, Y ) ≤ +1

Définition 5.3.22 (Variables non corrélées). Deux variables aléatoires réelles X et Y pour lesquelles la corrélation
existe sont dites non corrélées si et seulement si leur corrélation est nulle.
54 CHAPITRE 3. PROBABILITÉS

6 Théorèmes limites
6.1 Introduction
Les théorèmes limites constituent sans doute les résultats théoriques parmi les plus importants de la théorie
des probabilités. Ces théorèmes sont répartis en deux grandes classes : les lois des grands nombres d’une part,
les théorèmes centraux limites d’autre part. Les lois des grands nombres énoncent des conditions sous lesquelles
la moyenne d’une suite de variables aléatoires de même loi converge (dans un sens à définir) vers leur espérance
mathématique commune, ceci implique notamment la convergence de la fréquence d’apparition d’un événement vers
sa probabilité. Les théorèmes centraux limites par contre déterminent sous quelles hypothèses la somme de variables
aléatoires converge (ici encore dans un sens à définir) vers la distribution normale ; ceci permet d’approximer la
somme d’un grand nombre de variables aléatoires à une loi normale et c’est ce type de théorème qui justifie de
façon théorique l’utilisation (parfois abusive) de la loi normale en statistique.
Dans toute cette section nous considérerons des variables aléatoires réelles définies sur un même espace (Ω, E).

6.2 Lois des grands nombres


Théorème 6.2.1 (Loi faible des grands nombres). Soient Y1 , Y2 , . . . une suite de variables aléatoires indépendantes
et identiquement distribuées, d’espérance mathématique commune finie (E(Yi ) = µ) et de variance commune finie
(V ar(Yi ) = σ 2 ). Alors pour tout ε > 0 on a :
 
Y1 + Y2 + · · · + Yn
P − µ > ε
−→ 0
n
n −→ +∞

Démonstration
Nous ne démontrerons le résultat que lorsque la variance (commune) des Yi σ 2 est finie.
Comme
n n
X 1 1X
E( Yi ) = E(Yi ) = µ
i=1
n n i=1
et
n
X nσ 2 σ2
V ar( Yi ) = 2 =
i=1
n n
Il résulte de l’inégalité de Thebychev que

σ2
 
Y1 + Y2 + · · · + Yn
0≤P − µ > ε ≤ 2

n nε

On en déduit immédiatement le résultat. 2


Remarque 6.2.2. La loi faible des grands nombres fut établie pour la première fois par Jacques Bernoulli pour le
cas particulier où les variables sont de loi de Bernoulli. L’énoncé de ce théorème et la démonstration qu’il en donne
figurent dans son ouvrage :”Ars Conjectandi” publié en 1713 par son neveu Nicolas Bernoulli huit ans après sa
mort. Il faut savoir qu’à cette époque on ne connaissait pas l’inégalité de Tchebychev, et Bernoulli dut développer
une démonstration extrêmement ingénieuse pour établir ce résultat.
Théorème 6.2.3 (Loi forte des grands nombres). Soient Y1 , Y2 , . . . une suite de variables aléatoires indépendantes
et identiquement distribuées, d’espérance mathématique commune finie (E(Yi ) = µ) et de variance commune finie
(V ar(Yi ) = σ 2 ). Alors on a
Y1 + · · · + Yn
−→ µ
n
n −→ +∞
 
Y1 + · · · + Yn
(i.e. P lim =µ = 1)
n→+∞ n

Démonstration
Admise. 2
Remarque 6.2.4. On a souvent, au début, du mal à saisir la différence entre la loi faible et la loi forte des grands
nombres. La loi faible assure que pour toute valeur de n suffisamment grande (Y1 + · · · + Yn )/n est probablement
très voisines de µ. Elle n’assure pas cependant que (Y1 + · · · + Yn )/n devra rester dans un voisinage étroit de µ. Il
6. THÉORÈMES LIMITES 55

est donc possible qu’il y ait de larges écarts entre (Y1 + · · · + Yn )/n et µ pour une infinité d’événements, infinité
dont la probabilité collective est très faible cependant. La loi forte des grands nombres exclut cette situation. Elle
assure en particulier qu’avec une probabilité de 1 et pour toute valeur de ε > 0 la valeur de l’expression ci-dessous
ne sera supérieure à ε qu’un nombre fini de fois.
n
X Y
i
− µ

n


i=1

Exemple 6.2.5. Supposons que l’on réalise une série d’épreuves indépendantes. Soit A un événement donnée
relatif à l’expérience ainsi répétée et P (A) sa probabilité, constante au cours des épreuve. On pose :

Yi = 1 si A survient au cours de l’épreuve numéro i
Yi = 0 sinon

La loi forte des grands nombres établit qu’avec une probabilité 1 on a :


Y1 + · · · + Yn
−→ E(X) = P (A) quand n −→ +∞ (3.1)
n
Comme Y1 + · · · + Yn représente le nombre d’occurrences de l’événement A au cours des n premières épreuves (3.1)
peut donc recevoir l’interprétation suivante : La fréquence relative d’apparition de l’événement A converge, avec
une probabilité de 1, vers la probabilité d’apparition de l’événement A P (A).
Exemple 6.2.6. Soit X une variable aléatoire réelle continue de loi f . Soit y1 , y2 , . . . , yN N réalisations indépendantes
de X. On trace alors l’histogramme suivant :

0.5

0.45

0.4

0.35

0.3

0.25

0.2

0.15

0.1

0.05

0
−2.7 −2.1 −1.5 −0.9 −0.3 0.3 0.9 1.5 2.1 2.7
x

Fig. 3.3 – Histogramme et fonction de densité

La loi des grands nombres dit que :


R xi+1
A −→ xi
f (x)dx
n −→ +∞
En d’autres termes l’histogramme ”converge” vers la fonction de densité lorsque n tend vers l’infini
et l’intervalle de classe ”tend” vers 0.
Théorème 6.2.7 (Théorème de limite centrale). Soient Y1 , Y2 , . . . une suite de variables aléatoires réelles indépendantes
et identiquement distribuées, d’espérance mathématique µ et de variance σ finies. Alors la distribution de
Y1 + · · · + Yn − nµ
Zn = √
σ n

tend vers la distribution normale réduite quand n tend vers +∞, c’est-à-dire que :
Z a
1 x2
P (Zn ≤ a) −→ √ e− 2 dx = φ(a)
2π −∞
n −→ +∞

Démonstration
Admise. 2
56 CHAPITRE 3. PROBABILITÉS

0.25 0.25

0.2 0.2

0.15 0.15

0.1 0.1

0.05 0.05

0 0
0 5 10 0 5 10

0.25 0.25

0.2 0.2

0.15 0.15

0.1 0.1

0.05 0.05

0 0
0 5 10 0 5 10

Fig. 3.4 – 500 données d’une loi uniforme sur [0,12]

0.25 0.25

0.2 0.2

0.15 0.15

0.1 0.1

0.05 0.05

0 0
0 5 10 0 5 10

0.25 0.25

0.2 0.2

0.15 0.15

0.1 0.1

0.05 0.05

0 0
0 5 10 0 5 10

Fig. 3.5 – ”Convergence” de l’histogramme vers la fonction de densité (n=100,500,1000,5000)

Exemple 6.2.8. Lorsque les Yi sont des variables de Bernouilli de paramètre p, le théorème précédent nous donne :
 
Y1 + · · · + Yn − np
P √ ≤β −→ φ(β)
npq
n −→ +∞

Pour n “assez” grand ceci nous permet de calculer :


 
Y1 + · · · + Yn − np
P α≤ √ ≤ β ' φ(β) − φ(α)
npq

La valeur de n à partir de laquelle on peut confondre les deux quantités dépend de la valeur du paramètre p, mais
si p est compris entre 0,1 et 0,9 alors on peut pratiquement faire l’approximation à partir de n = 30.

Exemple 6.2.9. Soit X une variable aléatoire continue uniforme sur [0, 12]. On définit alors :

Ȳn : Ωn −→ R
n n
1X 1X
ω = (ω1 , . . . , ωn ) 7−→ Ȳn (ω) = Yi (ω) = X(ωi )
n i=1 n i=1
et

Ȳn − µ
Zn = √
σ/ n
avec µ = E(X) = 2.5 et σ 2 = V ar(X) = 12
alors

Zn −→ Z : N (0, 1)
n −→ +∞
6. THÉORÈMES LIMITES 57

0.1 0.1

0.05 0.05

0 0
90 100 110 90 100 110

0.1 0.1

0.05 0.05

0 0
90 100 110 90 100 110

Fig. 3.6 – 500 données d’une loi N (100, 25)

0.1 0.1

0.05 0.05

0 0
90 100 110 90 100 110

0.1 0.1

0.05 0.05

0 0
90 100 110 90 100 110

Fig. 3.7 – ”Convergence” de l’histogramme vers la fonction de densité (n = 100, 500, 1000, 5000)

σ2
Ȳn −→ Z̄ : N (µ, )
n
n −→ +∞

0.15 0.2

0.15
0.1

0.1

0.05
0.05

0 0
0 5 10 0 5 10

0.3 0.3

0.2 0.2

0.1 0.1

0 0
0 5 10 0 5 10

Fig. 3.8 – Théorème limite centrale dans le cas d’une loi uniforme sur [0, 12] (n = 1, 2, 3, 5).

Remarque 6.2.10. Ce théorème, comme nous l’avons déjà dit en introduction de cette section, est la justification
théorique de l’emploi fréquent de la loi normale.
Lorsque l’on étudie par exemple le rendement d’une céréale, ce rendement est en fait une moyenne et cette
moyenne suit approximativement une loi normale.
58 CHAPITRE 3. PROBABILITÉS

1 1

0.8 0.8

0.6 0.6

0.4 0.4

0.2 0.2

0 0
0 5 10 0 5 10

0.8

0.6

0.4

0.2

0
0 5 10

Fig. 3.9 – Théorème limite centrale dans le cas d’une loi uniforme sur [0, 12] (n = 10, 20, 50).
Chapitre 4

Théorie de l’échantillonnage

1 Modélisation des variables


1.1 Introduction
L’objet de cette section est la modélisation des données. Il faut ici entendre le terme modélisation dans le sens
de la modélisation mathématique ou de la formalisation mathématique1 . On s’intéresse donc à l’art de représenter
à l’aide d’objets mathématiques des situations concrètes. Nous n’aborderons ici la modélisation mathématique que
dans le cadre très restreint de l’estimation et de la théorie des tests statistiques2 . Le premier point à aborder
concerne donc le passage de la question de départ à son écriture mathématique ; par exemple comment écrivons
nous le problème de l’estimation d’un taux de germination et par quel objet mathématique représentons nous ce
taux de germination.

1.2 Variable aléatoire


Exemple 1.2.1. Taux le germination
Considérons l’exemple d’un taux de germination. Soit donc T une variété fixée de tournesol. Le taux de germination
est le pourcentage de graines qui germent quand on met à germer les graines de cette variété T . Il nous faut pour
définir rigoureusement ce taux de germination bien définir la population G sur laquelle nous travaillons. En effet
les conditions dans lesquelles on met à germer les graines comme la température, l’éclairage, ... peuvent influencer
ce taux de germination. Définir G, c’est donc non seulement définir rigoureusement la variété, mais aussi les
conditions expérimentales. Cette population est a priori infinie car on peut considérer les graines qui existent
aujourd’hui, mais aussi celle à venir dans un an, dans 2 ans, ... Une fois la population G définie, on peut écrire la
fonction de G à valeurs dans {0, 1} suivante :

X:G −→ {0, 1}
g 7−→ 0 si g ne germe pas
g 7−→ 1 si g germe.

Cette fonction est une variable aléatoire de loi de Bernoulli de paramètre p = P (X = 1) = E(X) où p exprimé en
pourcentage n’est autre que le taux de germination. On peut donc définir le taux de germination, exprimé comme
un nombre dans l’intervalle [0, 1], comme étant l’espérance mathématique, c’est-à-dire la valeur moyenne, de la
variable aléatoire X. Estimer un taux de germination, c’est donc trouver une ”valeur approchée” du paramètre p
de la loi de Bernoulli de la variable aléatoire X.

Exemple 1.2.2. Le 29 mai 2005 les électeurs français seront appelés à se prononcer pour ou contre le projet de
traité établissant une constitution pour l’Europe3 . Si notre objectif est de savoir si la constitution sera acceptée ou
non, il faut considérer comme population l’ensemble des bulletins exprimés, c’est-à-dire l’ensemble des bulletins oui
1 Le terme de modélisation mathématique est, à notre grand regret, souvent galvaudé. Il signifie souvent l’utilisation de modèles

déjà établis. Mais l’art de la modélisation, c’est-à-dire l’art de construire des modèles mathématiques, est difficile. Newton a dû, pour
trouver la loi de la gravitation universelle, construire la notion de dérivée !
2 La modélisation mathématique intervient aujourd’hui dans tous les domaines scientifiques : l’environnement, la science du climat, la

biologie, l’économie, ... Elle utilise des notions mathématiques très variées et parfois très complexes : équations différentielles ordinaires
et stochastiques, équations aux dérivées partielles, chaı̂nes de Markov, ... La modélisation étudiée ici est donc un cas très particulier.
3 Nous avons fini de rédiger ce chapitre une semaine avant le référendum

59
60 CHAPITRE 4. THÉORIE DE L’ÉCHANTILLONNAGE

ou non4 . Soit P cette population, nous pouvons alors définir la variable aléatoire X suivante :

X:P −→ {0, 1}
b 7−→ 0 si le bulletin b est non
b 7−→ 1 si le bulletin b est oui.

X est encore une variable aléatoire de loi de Bernoulli de paramètre p. Ce paramètre représente ici le pourcentage
des électeurs qui ont voté oui dans la population des électeurs qui ont voté oui ou non. Le problème est alors de
connaı̂tre la valeur de ce paramètre et plus précisemment de savoir si cette valeur est supérieure ou inférieure à
1/2.
Remarque 1.2.3. Dans l’exemple précédent, nous avons considéré le cas d’un référendum et non celui d’un
sondage d’opinion. Dans le cas du référendum, les estimations qui seront données le soir du 29 mai seront obtenues
à partir de bulletins dépouillés, donc de données exactes. Le cas des sondages est lui beaucoup plus délicat. En effet,
on n’est pas sûr dans un sondage que les personnes interrogées répondent vraiment ce qu’elles pensent et on ne
sait pas si les personnes qui refusent de répondre ont le même comportement que celles qui répondent ; bref, nous
n’avons pas les données exactes. La fiabilité des données est bien évidemment une question très importante en
pratique qu’il faut toujours garder à l’esprit. Nous n’aborderons pas cette question dans ce cours, question qui est
totalement dépendante du domaine d’application. La collecte des données pour un référendum ou celle pour l’étude
de la pollution d’une nappe phréatique sont bien évidemment très différentes. Elle doit donc être effectuée par un
spécialiste du domaine. Nous supposerons donc toujours ici que les données sont fiables.
Exemple 1.2.4. Considérons maintenant un cas d’école qui nous sera très utile pédagogiquement. La population
U étudiée est une urne remplie de boules blanches et noires. On définit alors la variable aléatoire suivante

X:U −→ {0, 1}
b 7−→ 0 si b est noire
b 7−→ 1 si b est blanche.

X est toujours une variable aléatoire de loi de Bernoulli de paramètre p. Ici ce paramètre est le pourcentage de
boules blanches dans l’urne.
On voit donc ici qu’estimer un taux de germination, un pourcentage de réponses par oui à un référendum ou
un pourcentage de boules blanches dans une urne contenant des boules blanches et noires, sont des problèmes
identiques.
Exemple 1.2.5. On s’interesse ici à un caractére qualitatif (la couleur des yeux) dans une population déterminée
P, par exemple la population française. On définit alors la variable aléatoire

X : P −→ {marron,noir, bleu,vert,autre}
1 individu −
7 → la couleur de ses yeux.

Ce qu’on désire connaı̂tre c’est la proportion des individus qui ont la couleur des yeux marron, noir, bleu, vert et
autre, c’est-à-dire la loi de la variable aléatoire X : P (X = marron), P (X = noir), P (X = bleu), P (X = vert), et
P (X = autre).
Exemple 1.2.6. On s’intéresse au rendement exprimé en quintaux à l’hectare d’une variété fixée de tournesol T .
Définissons la variable aléatoire suivante :

X:P −→ R
une culture 7−→ le rendement de cette culture.

Il faut là encore bien définir la population P. On doit en autre préciser :


– la variété T ;
– le type de terrain ;
4 En France les bulletins blancs sont considérés comme des bulletins nuls et ne sont donc pas des suffrages exprimés. Ceci n’est pas

le cas dans tous les pays.


1. MODÉLISATION DES VARIABLES 61

– la taille des parcelles, leurs expositions, ... ;


– les conditions de cultures ;
– ...
Le rendement est alors définie comme l’espérance mathématique de cette variable : µ = E(X). Estimer un ren-
dement, c’est donc encore trouver une ”valeur approchée” de l’espérance mathématique d’une variable aléatoire.
Nous supposerons en pratique pour cela que la loi de cette variable aléatoire (qui est une loi de probabilité sur R)
est normale de paramètre µ et σ. On écrira que X suit une loi N (µ, σ 2 ) (attention nous mettons la variance σ 2 et
non l’écart type dans N (µ, σ 2 )). Ceci n’est bien sûr qu’un modèle. En effet, un rendement est toujours positif et
donc on sait que P (X < 0) = 0. Or, si X suit une loi normale, cette quantité est ègale à
Z 0
1 2 2
√ e−(x−µ) /(2σ ) dx,
−∞ 2πσ
qui est strictement positif. Cependant, cette dernière quantité sera en pratique extrêment faible (voir l’exercice
6.1.2). Elle ne remettra donc pas en cause le modèle choisi.
Remarque 1.2.7. Le choix d’une loi de probabilité d’une variable aléatoire comme le rendement n’est pas toujours évident. Il se fait en
pratique à partir de la connaissance que l’on peut avoir a priori. La justification théorique de l’emploi de la loi normale vient du théorème
limite central. On peut en effet penser que le rendement obtenu est le résultat moyen d’un grand nombre de variable indépendantes (de
variances majorées). Le théorème limite central nous dit alors que la loi de probabilité qui en résulte est très proche d’une loi normale.
Nous mettons cependant en garde le lecteur sur l’utilisation parfois abusive de cette loi normale.

Exemple 1.2.8. On désire étudier simultanément sur la population P des étudiants français de l’année 2005 les
variables suivantes : le sexe, la taille, la couleur des yeux, et leurs ressources annuelles. On définit en fait ici le
vecteur aléatoire de dimension 5 suivant :
X : P −→ {M, F } × R × R × {marron,noir,bleu, vert,autre} × R
un étudiant 7−→ (son sexe,sa taille, son poids, la couleur de ses yeux, ses ressources annuelles).

Les applications composantes de X définissent cinq variables aléatoires X1 , X2 , X3 , X4 , X5 qui sont définies sur le
même espace de départ que X : P et qui représentent respectivement les variables sexe, taille, poids, couleur des
yeux et ressources. La variable couleur des yeux s’écrit par exemple
X4 : P −→ {marron,noir,bleu, vert,autre}
un étudiant 7−→ la couleur de ses yeux.

On peut donc parler ici de l’indépendance ou non de ces variables aléatoires (X1 , X2 , X3 , X4 , X5 ).
Ces exemples montrent clairement que l’on formalise toujours les variables étudiées par des variables aléatoires. Il
faudra toujours en pratique bien préciser ces variables aléatoires, c’est-à-dire la population de départ et l’application
elle même. En effet les données seront en pratique les valeurs obtenues des variables aléatoires sur un échantillon
de la population. Les statistiques ne pourront donner de réponses que sur la population à partir de laquelle on
a extrait l’échantillon et uniquement celle-ci. Précisons aussi que les termes de population et d’individu sont à
prendre dans leur sens statistique. Ainsi, dans l’exemple 1.2.6 un individu est en fait une culture sur une parcelle.
On parle aussi parfois d’unité expérimentale au lieu d’individu. On emploie aussi le terme de caractère au lieu de
variable.
En conclusion une variable sera en fait une variable aléatoire
X:P −→ C
ω 7−→ X(ω),

où
– la population P est en terme de probabilité un espace fondamental ;
– un individu ω est un élément de la population P ;
– C est l’ensemble des valeurs que peut prendre la variable aléaloire.
Ce que l’on souhaite connaı̂tre en pratique c’est la loi de cette variable aléatoire, ou la valeur de certain de ses
paramètres. Nous souhaitons ici souligner que la terminologie de variable aléatoire est très mauvaise. En effet, une variable aléatoire X de
P à valeurs dans C est en fait une fonction parfaitement déterninée qui permet de transposer une probabilité d’un espace probabilisé dans un
autre. Une variable aléatoire n’est donc pas une variable dans le sens mathématique du terme puisque c’est une fonction ; et cette fonction est
parfaitement connue. On peut donc dire, comme cela est mentionné dans [2] qu’une variable aléatoire, c’est comme le Saint Empire Romain
Germanique : il n’était pas saint, ce n’était pas un empire et il n’était pas romain ! ! !
62 CHAPITRE 4. THÉORIE DE L’ÉCHANTILLONNAGE

2 Introduction à la théorie de l’échantillonnage


2.1 Modélisation des données
On considère les données de la tables 4.1, [5]. Ces données, notées (y1 , . . . , yn ) sont des longueurs de la rectrice
centrale de la gélinotte huppée mâle, juvénile. Ces 50 données sont 50 réalisations ou 50 observations de la variable
aléatoire

X:P −→ C
une gélinotte 7−→ la longueur de sa rectrice centrale.

où P est la population des gélinottes huppées mâles juveniles. Il s’agit d’un premier point de vue. C’est celui-ci qui
est pris en considération lorsque l’on représente graphiquement les données (voir la figure 4.1).

153 165 160 150 159 151 163


160 158 149 154 153 163 140
158 150 158 155 163 159 157
162 160 152 164 158 153 162
166 162 165 157 174 158 171
162 155 156 159 162 152 158
164 164 162 158 156 171 164
158

Tab. 4.1 – Longueurs de la rectrice centrale de la gélinotte huppée mâle, juvénile

Mais nous pouvons adopter un autre point de vue qui est beaucoup moins intuitif. C’est ce deuxième point de
vue qui est pris en considération lorsque l’on fait une estimation ou un test statistique et que nous allons présenter
maintenant. Pour cela, on considère le vecteur aléatoire suivant :

Y = (Y1 , . . . , Y50 ) : Ω −→ R50


g = (g1 , . . . , g50 ) 7−→ Y (g) = (X(g1 ), . . . , X(g50 ),

où l’ensemble Ω est l’ensemble de tous les échantillons de taille 50 extraits de la population P, c’est-à-dire que

Ω = {g = (g1 , . . . , g50 ) ∈ P 50 |gi 6= gj pour i 6= j}.

Y (g) est donc un vecteur contenant les 50 longeurs de la rectrice centrale des 50 gélinottes de l’échantillon g. Les
données de la table 4.1 sont alors une réalisation (ou une observation) de ce vecteur aléaloire Y .
En résumé les deux points de vues modélisant les données sont :
– l’échantillon (y1 , . . . , yn ) représente n observations de la variable aléatoire X ;
– l’échantillon (y1 , . . . , yn ) représente une onservation du vecteur aléatoire Y .
Nous allons maintenant voir ce que permet ce deuxième point de vue.

2.2 Exemple de l’urne


Nous commençons par l’étude du cas d’école d’une urne rempli de boules blanches et noires. L’intérêt de cet
exemple, outre sa simplicité, est de bien comprendre la différence entre ce que nous appellerons un échantillonnage
avec remise et un échantillonnage sans remise.

Tirage avec remise


Considérons l’expérience qui consiste à tirer avec remise n boules d’une urne contenant 5 boules blanches et 15
boules noires. Nous nous intéressons maintenant à la variable aléatoire suivante :

Ȳ : U n −→ {0, 1/n, 2/n, . . . , n/n}


b = (b1 , b2 , . . . , bn ) 7−→ (le nombre de boule blanches parmi {b1 , b2 , . . . , bn })/n.
2. INTRODUCTION À LA THÉORIE DE L’ÉCHANTILLONNAGE 63

1.5

1 1

0.5

0
140 150 160 170 180 140 150 160 170
longueur longueur

0.08

0.06

0.04

0.02

0
150 160 170
longueur

Fig. 4.1 – Données, boı̂te à moustaches et histogramme

Nous allons écrire Ȳ comme la moyenne de n variables aléatoires de loi de Bernoulli indépendantes. Nous en
déduirons alors la loi de Ȳ . Pour cela on considère la variable aléatoire X de loi de Bernoulli de paramètre
p = 5/20 = 1/4

X:U −→ {0, 1}
une boule 7−→ 0 si la boule est noire
une boule 7−→ 1 si la boule est blanche.

On construit alors le vecteur aléatoire Y de dimension n

Y = (Y1 , . . . , Yn ) : U n −→ {0, 1}n


b = (b1 , . . . , bn ) 7−→ Y (b) = (Y1 (b), . . . , Yn (b))
= (X(b1 ), . . . , X(bn )).

Ainsi Y est le vecteur aléatoire de dimension n qui associe à chaque tirage le n-upplet de 0 et de 1 suivant la
couleur des boules tirées. La i-ème composante de Y , Yi , représente quant à elle, l’application qui a un échantillon
associe 1 si la i-ème boule tirée est blanche et 0 si elle est noire. Cette variable aléatoire Yi s’écrit alors

Yi : U −→ {0, 1} (4.1)
b 7−→ Yi (b) = X(bi ). (4.2)
(4.3)
64 CHAPITRE 4. THÉORIE DE L’ÉCHANTILLONNAGE

On considère maintenant la fonction M définie par

M : Rn −→ {0, 1/n, . . . , n/n}


n
1X
y = (y1 , . . . , yi ) 7−→ M (y) = ȳ = yi .
n i=1

On peut alors écrire la variable aléatoire Ȳ comme la composée des fonctions M et Y : Ȳ = M ◦ Y = M (Y ).


Ce qui donne ici :
n
1X
Ȳ = Yi
n i=1

Le tirage
Pnétant avec remise, les variables aléatoires (Yi ) ont la même loi que X et sont indépendantes. Par suite
nȲ = i=1 Yi suit une loi binômiale de paramètre n et p = 1/4 et la loi de Ȳ est donnée par P (Ȳ = k/n) =
P (nȲ = k) = Cnk (1/4)k (3/4)n−k .
Remarque 2.2.1. (i) Rappelons que dire que les variables aléatoires (Yi )i et X ont la même loi signifie que les
lois de probalilités définies par ces variables aléatoires sur leur espace d’arrivée, ici sur {0, 1} sont identiques.
Cela ne signifie en aucun cas que ces variables aléatoires sont égales (si tel était le cas elles ne pourraient
pas être indépendantes).
(ii) Les variables aléatoires Yi et Y sont toutes définies sur le même espace de départ. C’est l’espace d’échantillonnage,
Pn
l’ensemble de tous les tirages avec remise de n boules ici, c’est-à dire U n . L’écriture Ȳ = (1/n) i=1 Yi a
donc bien un sens ; il s’agit de l’égalité de deux fonctions.
Les théorèmes de la théorie des probabilités nous permet alors d’obtenir simplement l’espérance mathématique
et la variance de Ȳ .

n n
1X 1X
E(Ȳ ) = E(Yi ) = p=p
n i=1 n i=1
n
!
1 X
V ar(Ȳ ) = 2 V ar Yi
n i=1
n
1 X
= V ar(Yi ) car les (Yi )i sont indépendantes
n2 i=1
n
1 X pq
= 2
pq =
n i=1 n

Tirage sans remise


On considère maintenant le cas où le tirage est sans remise. Le nombre de boules n tirées est alors bien
évidemment inférireur au nombre N = 20 de boules totales dans l’urne. Dans ce cas, nous avons les mêmes expres-
sions pour les variables aléatoires Y , (Yi )i et Ȳ excepté que l’espace de départ, c’est-à-dire l’espace déchantillonnage,
n’est plus U n mais est
Ω = {b = (b1 , . . . , bn ) ∈ U |bi 6= bj pour tout i 6= j}.
Les (Yi )i ont toujours la même loi que X, mais elles ne sont plus indépendantes. En effet la probabilité d’avoir
une boule blanche à la deuxième boule diffère suivant le résultat de la première boule. La loi de nȲ est alors la loi
hypergéométrique de paramètre N = 20, n, p = 1/4. Par suite la loi de Ȳ est donnée par

C k C n−k
 
k
P Ȳ = = n−1 k n2 .
n CN

Nous avons toujours pour l’espérance mathématique E(Ȳ ) = p, mais la variance n’a plus la même valeur. On
démontre qu’elle est égale à :
N − n pq
V ar(Ȳ ) = .
N −1 n
La figure 4.2 représente les lois de Ȳ pour différentes valeurs de n et de p pour les échantillonnage avec remise
et sans remise.
2. INTRODUCTION À LA THÉORIE DE L’ÉCHANTILLONNAGE 65

0.5
avec remise
sans remise
0.4

0.3

0.2

0.1

0
−0.2 0 0.2 0.4 0.6 0.8 1 1.2
k/n

0.5
avec remise
sans remise
0.4

0.3

0.2

0.1

0
−0.2 0 0.2 0.4 0.6 0.8 1 1.2
k/n

Fig. 4.2 – Loi de Ȳ pour l’échantillonnage sans remise et avec remise (n = 5, p = 1/3, N = 15 et n = 4, p =
0.5, N = 16)

2.3 Exemple du référendum


Reprenons l’exemple 1.2.2. Notons N le nombre totale de suffrage exprimés et supposons que quelques instants
après la fermeture des bureaux de vote on ait connaissance du résultat sur n bulletins exprimés pris au hasard dans
la population P. On s’intéresse alors à la variable aléatoire suivante :

Ȳ : Ω −→ {0, 1/n, 2/n, . . . , n/n}


b = (b1 , b2 , . . . , bn ) 7−→ (le nombre de bulletin oui parmi les bulletins {b1 , b2 , . . . , bn })/n,

où
Ω = {b = (b1 , . . . , bn ) ∈ U |bi 6= bj pour tout i 6= j}.
Nous sommes donc exactement dans le cas d’un échantillonnage sans remises car on a en pratique jamais dans
un échantillon deux fois le même bulletin de vote. Nous avons donc comme précédemment pour nȲ une loi hy-
pergéométriques de paramètre N, n et p, et l’espérance mathématique et la variance de Ȳ ont pour valeurs
N − n pq
E(Ȳ ) = p et var(Ȳ ) = .
N −1 n
Un premier problème est qu’en pratique N est inconnu. Fort heureusement n est très inférieur à N . Ceci a pour
conséquence que l’on peut considérer le tirage sans remise comme un tirage avec remise (une règle empirique est
n < (N/10)). On peut donc considérer ici que nȲ suit une loi binômiale de paramètres (n, p). On peut de plus ici
faire une deuxième approximation. En effet, lorsque p n’est pas trop proche de 0 ou de 1, on peut approximer la loi
binômiale par une loi normale. La table 4.2 donne une règle pratique pour que cette approximation soit correcte.
66 CHAPITRE 4. THÉORIE DE L’ÉCHANTILLONNAGE

Paramètre p Valeur minimale de n


pour une approximation
par la loi normale
0.5 30
0.4 50
0.3 80
0.2 200
0.1 600
0.05 1400
0.0 poisson

Tab. 4.2 – Approximation d’une loi binômiale par une loi normale

Dans le cas d’un référendum, nous sommes donc dans le cas favorable où l’on peut considérer que Ȳ suit une loi
N (p, pq/n). Or on sait (voir l’exercice 6.1.2) que dans le cas d’une loi normale on a

P (µ − 1, 96σ ≤ X ≤ µ + 1, 96σ) = 0.95 (4.4)

Supposons maintenant que la proportion dans la population de oui soit exactement de 50%, nous avons alors
p = 0.5,pet supposons que n = 100000. La formule 4.4 donne alors P (0.497 ≤ Ȳ ≤ 0.503) = 0.95 (µ = p
et σ = pq/n). Ceci signifie concrètement que l’on a 95 chance sur 100 d’avoir une proportion de oui dans
l’échantillon de taille n = 100000 compris entre 49.7% et 50.3%.
Remarque 2.3.1. (i) Le soir du référendum, les estimations sont données dès la fermeture des bureaux de vote des grandes villes.
Celles-ci sont obtenues à partir du dépouillement des résultats dans des communes tests qui ont fermées plus tôt. Nous ne sommes
donc pas en réalité dans le cas exposé ici où l’échantillon est supposé être pris totalement au hasard dans la population. Une
deuxième différence est qu’en pratique c’est le nombre total d’électeurs dans chaque commune test qui est fixé au départ, et non pas
le nombre totale de suffrages exprimés dans ces communes tests. Les choses sont donc en fait beaucoup plus compliqués. Le lecteur
intéressé pourra consulter les ouvrages suivants [1] et [6].
(ii) Si n = 1000 l’intervalle obtenu exprimé en pourcentage est [46.9%; 53.1%]. Les sondages effectués actuellement portent sur des
effectifs inférieurs à 1000 personnes. Bien que les méthodes utilisées (principalement la méthode des quotas), soient plus fines que
l’échantillonnage au hasard considéré ici, la précision obtenue, vue de plus les difficultés concernant la fiabilité des données et le
nombre d’indécis déjà mentionnées, est plus proche de ±5%, voir plus ! À notre avis, les journalistes et commentateurs politiques
feraient mieux d’utiliser les temps d’antenne radio ou de télévision à parler du fond du débat, plutôt que des sondages qui n’apportent
que peu d’informations.

Les résultats obtenus sur cet exemple peuvent être schématisés par le schéma 4.3.

X : P :−→ {0, 1} de loi B(p)


p = proportion de oui dans la population P

Échantilonnage
?

Y = (Y1 , . . . , Yn ) : P n −→ {0, 1}n

Statistique M
?

Ȳ = M (Y ) : P n −→ R
Ȳ : N (p, pq/n)

Fig. 4.3 – Échantillonnage de la moyenne pour un référundum

L’objet de la théorie de l’échantillonnage est d’étudier ce schéma et les propriétés des variables aléatoires M (Y )
lorsque M est la moyenne ou une autre fonction.
3. ÉCHANTILLONNAGE 67

Remarque 2.3.2. Le soir du référendum, les instituts de sondages ont les résultats sur un échantillon de taille n.
Leur objectif est alors d’en déduire de l’information sur le paramètre p. Ce problème d’estimation, qui sera traité
au chapitre sur l’estimation, est le processus ”inverse” de celui de l’échantillonnage vu ici. En effet la théorie de
l’échantillonnage part de la population pour étudier ce qui se passe sur l’ensemble de tous les échantillons de taille
n alors que la théorie de l’estimation part d’un échantillon pour obtenir des informations sur la population.

3 Échantillonnage
3.1 Échantillon
D’une façon générale, on considère une variable aléatoire X définie sur une population P à valeurs dans un
ensemble C qui modélise la variable que l’on désire étudier. On construit ensuite le vecteur aléatoire Y suivant :
Y = (Y1 , . . . , Yn ) : Ω −→ Cn
ω = (ω1 , . . . , ωn ) 7−→ Y (ω) = (Y1 (ω), . . . , Yn (ω)) (4.5)
= (X(ω1 ), . . . , X(ωn )),
où Ω est l’espace déchantillonnage. Ω = P n si l’échantillonnage est avec remise et
Ω = {ω = (ω1 , . . . , ωn ) ∈ P|ωi 6= ωj pour tout i 6= j}, (4.6)
si l’échantillonnage est sans remise.
Définition 3.1.1 (Échantillon aléatoire). On appelle échantillon aléatoire de taille n ou n-échantillon aléatoire de
la variable aléatoire X le vecteur aléatoire Y = (Y1 , . . . , Yn ).
Définition 3.1.2 (échantillon). On appelle échantillon de taile n ou n-échantillon, une réalisation ou une obser-
vation (y1 , . . . , yn ) du n-échantillon aléatoire.
Remarque 3.1.3. Un n-échantillon n’est pas autre chose que les données relatif à la variable étudiée.
Remarque 3.1.4. (i) Comme nous l’avons déjà mentionné, les variables aléatoire (Yi )i=1,n sont définies sur le
même espace Ω que le n-échantillon aléatoire Y . Nous pouvons donc parler de l’indépendance ou de la non
indépendance de ces variables aléatoires (Yi )i .
(ii) Les variables aléatoires (Yi )i sont à valeurs dans le même ensemble que la variable aléatoire X et leurs lois
sont identiques à celle de X.
(iii) Nous avons en fait la relation suivante
Yi (ω) = X(ωi ), (4.7)
où l’indice i est à gauche sur la vecteur aléatoire Y et à droite sur l’argument de la variable aléatoire X.
Définition 3.1.5 (Échantillon aléatoire simple–Échantillon Bernoullien). On appelle échantillon aléatoire simple
ou échantillon Bernoullien tout n-échantillon aléatoire d’une variable aléatoire X où les variables aléatoires (Yi )i
sont indépendantes.
Lorsque l’échantillonnage est avec remise, Y est donc un échantillon Bernoullien, ce qui n’est plus le cas si
l’échantillonnage est sans remise. Cependant si la taille déchantillon n est très petite devant la taille de la population
N (en pratique si (n/N ) < 0.1) alors on peut approximer l’échantillonnage sans remise par un échantillonnage avec
remise. Dans ce cas des théorèmes de la théorie des probabilités nous permet, connaissant la loi de X, de déterminer
la loi de Y .
Théorème 3.1.6. Soit P une population et X une variable aléatoire (X : P → C) sur cette population. Soit
(Y1 , . . . , Yn ) un n-échantillon Bernoullien, alors les n variables aléatoires Y1 , . . . , Yn ont pour loi la loi de X, sont
indépendantes et Y = (Y1 , . . . , Yn ) est une variable aléatoire à n dimensions :
Y : Ω −→ C n
de loi :
(i) Si X est discrète :
n
Y n
Y
PC n (Y = (y1 , . . . , yn )) = PC (Yi = yi ) = PC (X = yi ). (4.8)
i=1 i=1

(ii) Si X est continue de fonction de densité f (x), Y a pour densité :


n
Y
g(y) = f (yi ) ; où y = (y1 , . . . , yn ). (4.9)
i=1
68 CHAPITRE 4. THÉORIE DE L’ÉCHANTILLONNAGE

3.2 Schéma général


Dans toute cette section la variable aléatoire sera réelle.
Définition 3.2.1 (Statistique). Soit X une variable aléatoire réelle définie sur une population P. Soit Y =
(Y1 , . . . , Yn ) un n-échantillon aléatoire. On appelle statistique toute variable aléatoire S de Rn à valeurs dans R,
la loi de probabilité sur Rn étant la loi du n-vecteur aléatoire Y .
Si S est une statistique alors S ◦ Y = S(Y ) est une variable aléatoire reélle définie sur l’espace d’échantillonnage
Ω.
Exemple 3.2.2. Si nous reprenons l’exemple des tirages d’une urne (voir la sous section 2.2) ou d’un référendum
(voir la sous section 2.3), la variable aléatoire M définie surPRn et à valeurs dans R est la fonction qui à n nombres
réels (y1 , . . . , yn ) associe leur moyenne M (y) = ȳ = (1/n) i yi est une statistique et M (Y ) = Ȳ .
D’une façon générale nous avons donc le schéma 4.4

X : P −→ R

Échantilonnage
?
Y = (Y1 , . . . , Yn ) : Ω −→ Rn
ω = (ω1 , . . . , ωn ) 7−→ Y (ω) = (Y1 (ω), . . . , Yn (ω))
(X(ω1 ), . . . , X(ωn ))

Statistique S
?

S ◦ Y = S(Y ) : Ω −→ R
ω 7−→ S(Y (ω))

Fig. 4.4 – Schéma général

Définition 3.2.3 (Distribution déchantillonnage). On appelle distribution d’échantillonnage d’une statistique S


la loi de probabilité de la variable aléatoire S.
Si on connaı̂t la loi de probabilité du n-échantillon aléatoire Y , on peut espérer en déduire des caractéristiques
comme l’espérance mathématique ou la variance, voire la loi, de la statistique S pour certaines fonction S. Ceci est
l’objet des sous-sections suivantes pour des fonctions qui interviennent souvent en statistique.

4 Distribution d’échantillonnage de certaines statistiques


4.1 Distribution déchantillonnage de la moyenne
On considère dans cette sous section la statistique

M : Rn −→ R
n
1X
y = (y1 , . . . , yn ) 7−→ M (y) = ȳ = yi .
n i=1

On a donc
n
1X
M (Y ) = Yi = Ȳ , (4.10)
n i=1

et la loi de M est celle de Ȳ .


4. DISTRIBUTION D’ÉCHANTILLONNAGE DE CERTAINES STATISTIQUES 69

Théorème 4.1.1. Supposons que le caractère X admettent une espérance mathématique µ et un écart-type σ fini
alors :
(i) E(Ȳ ) = µ.
(ii) Si l’échantillon est Bernoullien alors
σ2
V ar(Ȳ ) = .
n
(iii) Si l’échantillon est sans remise et que la taille de la population est N alors :

N − n σ2
V ar(Ȳ ) = .
N −1 n

Démonstration

(i) La linéarité de l’espérance mathématique implique immédiatement :

n
! n n
1X 1X 1X
E(Ȳ ) = E Yi = E(Yi ) = µ = µ.
n i=1 n i=1 n i=1

(ii) Les propriétés de la variance impliquent :

n
! n
1X 1 X
V ar(Ȳ ) = V ar Yi = V ar( Yi ).
n i=1 n2 i=1

De plus les (Yi )i sont indépendants. Par suite nous avons :


n
1 X σ2
V ar(Ȳ ) = V ar(Yi ) = .
n2 i=1 n

(iii) admise
2

Théorème 4.1.2. Si X suit une loi normale N (µ, σ 2 ) et si l’échantillon est Bernoullien alors Ȳ suit une loi
normale N (µ, σ 2 /n).

Démonstration
Cela provient du théorème précédent et du fait qu’une somme de variables aléatoires de lois normales indépendantes
est une variable aléatoire de loi normale. 2

Théorème 4.1.3. Soit X une variable aléatoire de moyenne µ et de variance σ 2 finie et soit (Y1 , . . . , Yn ) un
n-échantillon Bernoullien. Alors Ȳ suit asymptotiquement une loi normale.

Démonstration
D’après le théorème centrale limite la loi de la variable aléatoire

Y1 + · · · + Yn − nµ Ȳ − µ
Zn = √ = σ
σ n √
n

converge lorsque n tend vers +∞ vers la loi normale réduite. Par suite
σ
Ȳ = √ Zn + µ
n
2
a asymptotiquement le même comportement qu’une loi N (µ, σn ). 2

Remarque 4.1.4. Le théorème précédent signifie concrètement que pour n grand (n ≥ 30 en pratique) on peut
2
approximer la loi de Ȳ par la loi normale N (µ, σn ).
70 CHAPITRE 4. THÉORIE DE L’ÉCHANTILLONNAGE

4.2 Distribution d’échantillonnage de la variance


On considère dans cette sous section la statistique que nous appellerons variance déchantillon et que nous
noterons S 2

S 2 : Rn −→ R
n
1X
y = (y1 , . . . , yn ) 7−→ S 2 (y) = (yi − ȳ)2 ,
n i=1

où ȳ est la moyenne arithmétique des y1 , . . . , yn . On peut alors voir que


1X 1X
S 2 (Y (ω)) = (Yi (ω) − Ȳ (ω))2 = (X(ωi ) − Ȳ (ω))2 . (4.11)
n i n i

Théorème 4.2.1. Supposons que X admette des moments centrés jusqu’à l’ordre 4 finis. Alors :
(i) Si l’échantillon est Bernoullien :
n−1 2
E(S 2 ) = σ ,
n
µ4 − σ 4 2(µ4 − 2σ 4 ) µ4 − 3σ 4
V ar(S 2 ) = − + ,
n n2 n3
n−1
Cov(M, S 2 ) = Cov(Ȳ , S 2 (Y )) = µ3 .
n2
(ii) Si l’échantillon est sans remise et que la taille de la population est N alors :
N n−1 2
E(S 2 ) = σ .
N −1 n

(iii) Si X suit une loi normale N (µ, σ 2 ) et si l’échantillon est Bernoullien alors :
Ȳ et S 2 (Y ) sont indépendantes.
2(n − 1) 4
V ar(S 2 ) = σ
n2
et nS 2 /σ 2 suit une loi du χ2 à n − 1 degrés de liberté.
Démonstration
(i)
E(S 2 (Y ))
` 1 Pn 2
´
= E n P i=1 (Yi − µ + µ − Ȳ )
n 2 Pn
= 1
n P i=1 E((Yi − µ) ) + 1
n i=1 E((Ȳ − µ)2 )
2 n
− n E( i=1 (Yi − µ)(Ȳ − µ))
σ2
= σ2 + n
2
− n E((Ȳ − µ)(nȲ − nµ))
n−1 2
= n σ

On admettra le resultat pour V ar(S 2 ).


Quant à la covariance il suffit d’écrire :

2 2 n−1 2
Cov(Ȳ , S (Y )) = E((Ȳ − µ)(S − σ ))
n
2 n − 1 2
= E((Ȳ − µ)S ) − σ E(Ȳ − µ)
n
n
!
1 X 2 2
= E((Ȳ − µ) (Yi − µ) − (Ȳ − µ)
n i=1
n n n
1 X X 2 1 X 3
= E( (Yi − µ) (Yi − µ) ) − 3 (E( (Yi − µ)) )
n2 i=1 i=1
n i=1
µ3 µ3 n−1
= − 2 = µ3 ,
n n n2

car les Yi sont indépendants et donc Cov(Yi , Yj ) = 0 si i 6= j.


(ii) admise.
(iii) On déduit de (i) que si X est normale alors Cov(Ȳ , S 2 (Y )) = 0 car le moment centré d’ordre 3 d’une loi normale est nul. Mais ceci ne
montre pas que les variables aléatoires Ȳ et S 2 (Y ) soient indépendantes. Nous admettrons ici ce résultat.
Pour démontrer la suite il suffit d’écrire :
n
nS 2 (Y ) 1 X 2
= ( (Yi − µ) − n(Ȳ − µ)2 )
σ2 2
σ i=1
!2
Yi − µ 2 Ȳ − µ
„ «
Pn
= i=1 − σ
σ √
n
= S1 − S2
4. DISTRIBUTION D’ÉCHANTILLONNAGE DE CERTAINES STATISTIQUES 71

i(Y −µ)
Or si X suit une loi normale de paramètres (µ, σ), σ suit une loi normale réduite et donc, puisque l’échantillon (Y1 , . . . , Yn ) est
Bernoullien, S1 suit une loi du χ2 à n degrés de liberté. De plus S2 suit aussi une loi du χ2 à 1 degré de liberté et S 2 et S2 sont
indépendantes. Une propriété des lois du χ2 permet alors de conclure. Une conséquence immédiate de ce résultat est alors que

nS 2
V ar( ) = 2(n − 1)
σ2

et donc que
!2
2 σ2
V ar(S ) = 2(n − 1).
n

2
Pour illustrer la loi de nS 2 /σ 2 lorsque l’échantillonnage est Bernoullien à l’aide de la simulation, nous générons
5000 échantillons de taille n = 6, yk1 , . . . , yk6 pour k = 1, . . . , 5000, provenant d’une loi normale N (6, 12). Pour
chacun de ces 5000 échantillons nous calculons la quantité
P6
nS 2 (yk1 , . . . , yk6 ) i=1 (yki − ȳk. )2
s2k = =
12 12
Les 5000 valeurs s2k sont alors 5000 observations de la variable aléatoire nS 2 (Y )/σ 2 . Nous effectuons une deuxième
simulation de façon identique sauf que la loi de départ est une loi uniforme sur [0, 12]. La figure 4.5 montrent les
histogrammes pour chaque simulation de toutes les données génerées ainsi que des 5000 valeurs (s21 , . . . , s25000 ).
Nous avons rajouté sur ces graphiques les lois de départ pour les données et la loi du χ2 à ν = n − 1 = 5 degrés de
liberté pour les valeurs simulées. Nous pouvons observer que lorsque la loi de départ est normale, l’histogramme
”colle” très bien à la fonction de densité de la loi du χ2 à 5 ddl, ce qui n’est plus le cas lorsque la loi de départ est
une loi uniforme.

Données: N(6,12) Données: U([0,12])


0.15 0.1

0.08
0.1
0.06

0.04
0.05
0.02

0 0
0 5 10 15 0 5 10

SCE/sigma²: Loi du Khi−2 à 5ddl SCE/sigma²: Non loi du Khi−2 à 5ddl


0.2 0.2

0.15 0.15

0.1 0.1

0.05 0.05

0 0
0 5 10 0 5 10

Fig. 4.5 – Simulation loi du χ2 à 5 ddl (5000 échantillons). Statistique : nS 2 /σ 2


72 CHAPITRE 4. THÉORIE DE L’ÉCHANTILLONNAGE

4.3 Distribution d’échantillonnage de T


Dans les théorèmes précédents on a vu que si la variable aléatoire X suit une loi normale et si l’échantillon est
Bernoullien alors la variable aléatoire
Ȳ − µ
√σ
n

suit une loi normale centrée réduite. L’approximation étant encore valable si X adment une espérance mathématique
µ et une variance σ 2 finies et si n est grand (n ≥ 30 en pratique). Mais dans qla réalité nous ne connaissons pas σ
n
et il est donc logique de ce demander ce qui ce passe si on renplace σ par n−1 S 2 (Y ). C’est ce que nous allons
étudier maintenant.
Théorème 4.3.1. Si (Y1 , . . . , Yn ) est un échantillon Bernoullien et si X suit une loi normale de paramètre (µ, σ),
alors la statistique :
M −µ
T =r
S2
n−1
suit une loi de Student à (n − 1) degrés de liberté.
Démonstration
On a :
U
T = q ,
Z
ν

avec
M −µ
U = σ
de loi N (0, 1),

n

nS 2 2
Z = de loi χν=n−1 degrés de liberté,
σ2

et U et Z indépendantes. Par suite T suit une loi de Student à n − 1 degrés de liberté. 2

4.4 Distribution d’échantillonnage du rapport de variance


Nous allons maintenant nous intéresser à la distribution d’échantillonnage du rapport de variance.
Théorème 4.4.1. On considère deux caractères X1 et X2 de loi normale respectivement N (µ1 , σ12 ) et N (µ2 , σ22 ).
2 2
Soient deux échantillons Bernoullien
Pn1 indépendants (Y11 , . . . , Y1n1 ) et (Y
P21n,2 . . . , Y2n2 ). 2Si S1 (respectivement S2 ) est
2 1 2 2 1
la statistique S1 (y) = n1 i=1 (y1i − ȳ1 ) (respectivement S2 (y) = n2 i=1 (y2i − ȳ2 ) ) alors la statistique :

n1 S12
(n1 − 1)σ12
F =
n2 S22
(n2 − 1)σ22
suit une loi de Fischer-Snedecor à n1 − 1 degrés de liberté au numérateur et à n2 − 1 degrés de liberté au
dénominateur.
Démonstration
n1 S12 n2 S22
D’après le théorème (4.2.1) 2 (respectivement 2 ) suit une loi du χ2 à n1 −1 (respectivement n2 −1) degrés de liberté et les hypothèses du
σ1 σ2
théorème impliquent que ces variables aléatoires sont indépendantes. On en déduit alors immédiatement le résultat en considérant la définition
2
d’une loi de Fisher-Snedecor.
La figure 4.6 donne une illustration, via la simulation d’une loi de Fisher à ν1 = 5 ddl au nuérateur et ν2 = 3
ddl au dénominateur.

4.5 Distribution d’échantillonnage d’une fréquence


Nous allons terminer cette section en rappelant la distribution d’échantillonnage d’une proportion.
Théorème 4.5.1. Soit XPune variable aléatoire Pde Bernoulli de paramètre p et soit (Y1 , . . . , Yn ) un n-échantillon
n n
aléatoire. Posons S(y) = i=1 yi et M (y) = n1 i=1 yi , alors :
(i) si l’échantillon est avec remise ou si la population est infinie
S suit une loi binômiale de paramètre (n, p) et :
E(S) = np E(Ȳ ) = p
pq
V ar(S) = npq V ar(Ȳ ) = n
5. PRINCIPALES LOIS DE PROBABILITÉ 73

Données: N(2,9) Données: N(1,4)


0.15 0.2

0.15
0.1

0.1

0.05
0.05

0 0
−5 0 5 10 −5 0 5

F: Loi Fisher à (5,3) ddl

0.6

0.4

0.2

0
0 2 4 6 8

Fig. 4.6 – Simulation loi de Fisher à (5,3) ddl (5000 échantillons). Statistique F

(ii) si l’échantillon est sans remise et si la population est finie (de taille N )
S suit une loi hypergéométrique de paramètre (N, n, p). et

E(S) = np E(Ȳ ) = p
−n pq N −n
V ar(S) = npq N
N −1 V ar(Ȳ ) = n N −1

Démonstration
Cela provient tout simplement des définitions des lois binômiale et hypergéométrique. 2

5 Principales lois de probabilité


Nous donnons dans les tableaux ci-après les principales lois de probabilités utilisées dans la pratique. Les 5
premières lois sont des lois discrètes et les suivantes sont continues. Pour chacune d’entres elles nous donnerons
tout d’abord la définition ou un mécanisme permettant d’obtenir une variable aléatoire suivant cette loi. Ensuite
nous donnerons un exemple d’utilisation de cette loi, puis la forme analytique de cette loi, c’est-à-dire les quantités
P (X = k) pour les lois discrètes et la fonction de densité f (x) pour les lois continues. Nous donnerons enfin les
valeurs de leur principaux paramètres et nous visualiserons ces lois.
Nom et notation de la v.a. Définition ou mécanisme Exemples de v.a. suivant la Définition analytique de la Valeur des paramètres de Représentation graphique
de construction loi loi la distribution
74
P (X = k)
q 6

-
0 1 k
Loi de Bernoulli : B(p) C’est la loi d’une variable 1) Résultat du lancé d’une
aléatoire à valeur dans pièce P (X = 1) = p E(X) = p
{0, 1} 2) Réponse à une question P (X = 0) = q V ar(X) = pq
par oui ou non p+q =1

Loi binômiale : B(n, p) Somme de n v.a.r. de loi de Nombre d’individus


Bernoulli indépendantes. possédant un caractère P (X = k) = E(X) = np n=5
donné parmi n prélevés au Cnk pk q n−k V ar(X) = npq p = 0, 25
hasard, avec remise, dans
une population générale. P (X = k)
0.40 6

-
0 1 2 3 4 k

Loi Hypergéométirque : Nombre d’individus possé- nombre d’individus ayant


H(N, n, p) dant une propriété donnée répondus oui à une ques- P (X = k) = N = 20
k C n−k E(X) = np n=5
parmi n prélevés au ha- tion dans un échantillon Cn 1 N −n1 n1
sard (sans remise) dans une de taille n provenant d’une n
V ar(X) = n p = 0, 25
CN “ N”−1
population générale de N population de taille N dont n
avec (1 − p) 1 − P (X = k)
individus dont n1 = N p la proportion de réponses n1 = pN N
jouissent de la dite pro- “oui” est p dans toute la 0.44
6
priété. population.

-
0 1 2 3 4 k
CHAPITRE 4. THÉORIE DE L’ÉCHANTILLONNAGE
Nom et notation de la v.a. Définition ou mécanisme Exemples de v.a. suivant la Définition analytique de la Valeur des paramètres de Représentation graphique
de construction loi loi la distribution
Loi multinômiale : C’est la loi jointe de Répartition d’un Nous ne pouvons pas
M(n, p1 , . . . , pl ) X(X1 , . . . , Xl ) où les Xi échantillon exhaustif représenter graphiquement
P (X1 = k1 , . . . , E(Xi ) = npi
sont des v.a. binômiales de de taille n provenant d’une cette loi car il faudrait
Xl = kl ) = E(X) = t (E(X1 ),
paramètres (n, pi ). population constituée de l n! faire un dessin dans Rl+1
k . . . , E(Xl ))
classes C1 , . . . , Cl pk1 . . . pl l
k 1 ! . . . kl ! 1 V ar(Xi ) = npi qi
Cov(Xi , Xj ) =
−npi pj i 6= j

Loi de poisson : P(λ) C’est la loi du nombre 1) Nombre de personnes


d’apparitions pendant arrivant pendant une unité E(X) = λ λ = 0, 5
λk −λ V ar(X) = λ
une unité de temps de temps à un guichet. P (X = k) = e
d’un événement dont la 2) nombre de sinistres k! P (X = k)
k = 0, 1, 2, . . .
réalisation ne dépend pas pendant une unité de 0.61 6
du nombre de réalisations temps dans une population
passées et n’influe pas sur donnée.
les futures ; les épreuves 0.30
se déroulant dans des
conditions stationnaires.
0.08
5. PRINCIPALES LOIS DE PROBABILITÉ

-
0 1 2 3 k
75
Nom et notation de la v.a. Définition ou mécanisme Exemples de v.a. suivant la Définition analytique de la Valeur des paramètres de Représentation graphique
de construction loi loi la distribution
76
Loi normale ou de Gauss : Les valeurs de la v.a. 1) taille d’un individu
f(x)
N (µ, σ2) résulte de l’influence d’un 2) Rendement E(X) = µ 0.4

f (x) = V ar(X) = σ 2 0.35


grand nombre de facteurs 0.3
(x − µ)2
indépendants agissant sous 1 − 0.25

forme additive, de fa¸con √ e 2σ 2 0.2

2πσ 0.15
telle que chaque cause par- 0.1

tielle ait une variance faible 0.05

0
par rapport à la variance x

−3 −2 −1 0 1 2 3
résultante
Loi normale de dimension 1) (taille d’un individu,
n : N (µ, Γ) poids d’un individu). 1
„ «
E(X) = µ 0
2) Erreur de tir. f (x) = p n n = 2, µ =
(2π) 2
det(Γ) Γ = (γij )ij 0
t (x − µ)Γ−1 (x − µ) γij = Cov(Xi , Xj ) „ «
− 2 1
e 2 Γ=
1 5
où µ ∈ Rn et Γ est une
0.06
matrice carrée (n, n) réelle
0.05

symétrique définie positive. 0.04

0.03

0.02

0.01

4
5
2
0
−2 0
−4
−6 −5

Loi lognormale : LN (µ, σ) Une v.a. suit une loi lo- Salaire d’un employé
f(x)
gnormale si son logarithme prélevé dans une popula- 0.7
1 σ2 0.6
népérien suit une loi nor- tion générale f (x) = √
2πσx 0.5
male. E(X) = µe 2
(ln x − ln µ)2 0.4

− V ar(X) =
0.3
2σ 2 2 2
e µ2 eσ (eσ − 1) 0.2

0 < x < +∞ 0.1

0
x

0 1 2 3 4 5
CHAPITRE 4. THÉORIE DE L’ÉCHANTILLONNAGE
Nom et notation de la v.a. Définition ou mécanisme Exemples de v.a. suivant la Définition analytique de la Valeur des paramètres de Représentation graphique
de construction loi loi la distribution
Loi du Khi-2 à ν degrés de Une variable aléatoire 1) Variance empirique ν=4
f(x)
liberté : χν réelle suit une loi de Khi-2 d’un échantillon de E(X) = ν 0.2
ν x
à ν degrés de liberté si elle taille ν + 1 dont on ne −1 − V ar(X) = 2ν
f (x) = cx 2 e 2 0.15

est la somme de ν carrés de connaı̂t pas la moyenne. 0 < x < +∞ 0.1


variables aléatoires réelles 2) Mesure de l’écart
de loi normale réduite (i.e. entre des lois théorique et 0.05

N (0, 1)) indépendantes. empirique


0
x

0 2 4 6 8 10 12 14 16

Loi de Student à ν degrés Soient Y une variable Mesure normalisée de ν=4


f(x)
de liberté : tν aléatoire de loi normale l’écart de deux moyen- 0.4

f (x) = E(X) = 0 0.35


réduite et Z une variable nes empiriques calculées ν 0.3
x2 (ν+1)/2 V ar(X) =
aléatoire de loi du Khi-2 sur deux échantillons c(1 + ) 0.25

ν ν−2
0.2
à ν degrés de liberté indépendants d’une popu- si ν > 2
0.15
indépendantes. Alors la lation normale. 0.1

variables X = √Y suit 0.05

Z/ν 0
x
une loi de Student à ν −5 −4 −3 −2 −1 0 1 2 3 4 5

degrés de liberté.
5. PRINCIPALES LOIS DE PROBABILITÉ

Loi de Fisher à (ν1 , ν2 ) Soient X1 et X2 deux va- Rapport de deux variances ν1 = 4 et ν2 = 6


f(x)
degrés de liberté : Fν1 ,ν2 riables réelles de loi du empiriques construites ν1 ν2 0.7

Khi-2 à respectivement ν1 sur deux échantillons −1 E(X) = 0.6

f (x) = x 2 ν2 − 2 0.5
et ν2 degrés de liberté indépendants extraits si ν2 > 2 0.4
(ν1 + ν2 )
indépendantes. Alors X = d’une population normale. − V ar(X) = 0.3
(X1 /ν1 ) (ν1 x + ν2 ) 2
suit une loi de 2ν22 (ν1 + ν2 − 2) 0.2
(X2 /ν2 )
0.1
Fisher à ν1 degrés de li- ν1 (ν2 − 2)2 (ν2 − 4)
0
x
berté au numérateur et 0 1 2 3 4 5

à ν2 degré de liberté au
dénominateur.
77
78 CHAPITRE 4. THÉORIE DE L’ÉCHANTILLONNAGE

6 Exercices
6.1 Exercices avec corrigés
Exercice 6.1.1 (Loi normale centrée réduite). L’objectif de cet exercice est le calcul de probabilités dans le cas
d’une variable aléatoire U de loi normale centrée réduite N (0, 1) en utilisant la table de cette loi.
(i) Calculer P (1 ≤ U ≤ 2, 5).
Ru
(ii) On note φ(u) = P (U ≤ u) = f (x)dx la fonction de répartition de la loi normale centrée réduite.
−∞ √ 2
Démontrer que φ(−u) = 1 − φ(u). On utilisera le fait que la fonction de densité f (x) = (1/ 2π)e−x est
paire, c’est-à-dire que f (−x) = f (x) pour tout x.
(iii) Calculer P (U ≤ −1).
(iv) Calculer P (U ∈ [−1, 2[).
(v) Encadrer P (U ≥ 6).
(vi) On note up = φ−1 (p) le réel défini par
P (U ≤ up ) = p
Donner u0.999 . On cherchera cette valeur dans la table de la loi normale centrée réduite et dans la table de
Student.

correction.
(i)
Z 2.5
P (1 ≤ U ≤ 2.5) = f (x)dx = φ(2.5) − φ(1)
1
= 0.9938 − 0.8413
= 0.1525
=A

Voir la figure 4.7

0.4

0.3
f(x)

0.2

0.1

←A

0
−3 0 1 2.5 +3
x

Fig. 4.7 – Visualisation de la probabilité

(ii) Graphiquement (voir la figure 4.8) la parité de la fonction de densité f (x) donne

A1 = φ(−u) = P (U ≤ −u) = P (X > u) = A2


= 1 − P (X ≤ u)
= 1 − φ(u)
R −u
Montrons maintenant que A1 = −∞
f (x)dx = A2 . Pour cela on fait le changement de variable y = −x dans
l’intégrale. On obtient alors Z u Z +∞
A1 = − f (−y)dy = f (y)dy = A2
+∞ u

(iii) P (X ≤ −1) = φ(−1) = 1 − φ(1) = 1 − 0.8413 = 0.1587


(iv) P (X ∈ [−1, 2[) = φ(2) − φ(−1) = 0.97725 − 0.1587 = 0.81855
6. EXERCICES 79

0.4

0.3

f(x)
0.2

0.1

A1 → ← A2

0
−3 −u 0 u +3
x

Fig. 4.8 – Visualisation Φ(−u) = 1 − φ(u)

R +∞
(v) P (X ≥ 6) = 6 f (x)dx = 1 − φ(6). Or la fonction de répartition φ est strictement croissante de 0 vers 1.
Par suite on a
φ(3.99) < φ(6) < 1
On en déduit
1 − 1 < 1 − φ(6) < 1 − φ(3.99)
0 < 1 − φ(6) < 1 − 0.99997 = 0.00003
(vi) On a u0.999 = 3.09.
Remarque. La table de la loi normale centrée réduite donne la fonction de répartition φ(up ) = p alors que la
dernière ligne de la table de Student (degré de liberté égale à +∞) donne la fonction inverse de la fonction
de répartition φ−1 (p) = up .
2
Exercice 6.1.2 (Loi normale de paramètre µ et σ). L’objectif de cet exercice est le calcul de probabilités dans le
cas d’une variable aléatoire X de loi normale N (µ, σ 2 ). On utilisera le fait que U = (X − µ)/σ suit alors une loi
normale centrée réduite.
Soit X la variable aléatoire réelle X représentant le rendement d’une céréale C. On suppose que X suit une loi
normale de paramètres µ = 50q/ha et σ 2 = 5(q/ha)2 (voir 1.2.6).
(i) Formaliser cette variable aléatoire.
(ii) Calculer P (X < 0). Commentaires
(iii) Calculer P (48 ≤ X ≤ 50) et représenter graphiquement cette probabilité.
(iv) Quelle signification a la quantité ci-dessus ?
(v) Calculer P (µ − 1, 96σ ≤ X ≤ µ + 1, 96σ).
correction.
(i) voir l’exemple 1.2.6
(ii)  
X − 50 0 − 50
P (X < 0) = P √ < √ = φ(−22.36) ∼ 0
5 5
La vraie valeur de cette probabilité est 0 car il est impossible d’avoir un rendement négatif. Le calcul ici
donne une valeur strictement positive, mais très faible. Le modèle considéré est donc rigoureusement faux.
Cependant, l’erreur faite est tout-à-fait négligeable.
(iii)
 
48 − 50 50 − 50
P (48 ≤ X ≤ 50) = P √ ≤U ≤ √
5 5
    
2 2
= φ(0) − φ − √ = φ(0) − 1 − φ √
5 5
= φ(0) − (1 − φ(0.89))
= 0.5 − 1 + 0.8133
= 0.3133
Voir la figure 4.9.
80 CHAPITRE 4. THÉORIE DE L’ÉCHANTILLONNAGE

0.18

0.16

0.14

0.12

0.1

f(x)
←A
0.08

0.06

0.04

0.02

0
44 46 48 50 52 54 56
x

Fig. 4.9 – P (48 ≤ X ≤ 50) = A = 0.3133

(iv) On a environ 31 chances sur 100 lorsque l’on fait une culture dans les conditions expérimentales définies par
la population P d’avoir un rendement compris entre 48 et 50 q/ha.
(v)
 
(µ − 1.96σ) − µ (µ + 1.96σ) − µ
P (µ − 1, 96σ ≤ X ≤ µ + 1, 96σ) = P ≤U ≤
σ σ
= P (−1.96 ≤ U ≤ 1.96)
= φ(1.96) − φ(−1.96)
= 2φ(1.96) − 1
= 0.95

En résumé on a donc
P (µ − 1, 96σ ≤ X ≤ µ + 1, 96σ) = 0.95 (4.12)
Ceci est visualisé sur la figure 4.10
0.18

0.16

0.14

0.12

← A=0.95
0.1
f(x)

0.08

0.06

0.04

0.02

0
mu−1.96sigma mu mu+1.96sigma
x

Fig. 4.10 – Visualisation de l’équation 4.12

2
Exercice 6.1.3. On considère une urne U constituée de n1 ≥ 2 boules blanches et n2 ≥ 2 boules noires. On note
N = n1 + n2 le nombre totale de boules dans l’urne et p = n1 /N . Soit X la variable aléatoire

X:U −→ {0, 1}
b 7−→ 0 si b est noire
b 7−→ 1 si b est blanche.

On considère Y = (Y1 , Y2 ) le 2-échantillon aléatoire de X et Ȳ = (1/2)(Y1 + Y2 ).


(i) On suppose que l’échantillonnage est avec remise
(a) Quelles valeurs peut prendre Y .
6. EXERCICES 81

(b) Donner la loi de Y .


(c) Quelles sont les lois de Y1 et Y2 .
(d) Écrire la variable aléatoire Ȳ .
(e) Écrire Ȳ = M (Y ) (on précisera M ).
(f) Calculer, à partir de la loi de Y la loi de Ȳ .
(g) Calculer, à partir de la loi de Ȳ l’espérance mathématique et la variance de Ȳ .
(ii) On suppose l’échantillonnage sans remise
(a) Quelles valeurs peut prendre Y .
(b) Donner la loi de Y .
(c) Quelles sont les lois de Y1 et Y2 .
(d) Écrire Ȳ = M (Y ) (on précisera M ).
(e) Calculer, à partir de la loi de Y la loi de Ȳ .
(f) Calculer, à partir de la loi de Ȳ l’espérance mathématique et la variance de Ȳ .

correction.
(i) (a) Le 2-échantillon aléatoire est défini par

Y = (Y1 , Y2 ) : U 2 −→ {0, 1} × {0, 1}


b = (b1 , b2 ) 7−→ Y (b) = (Y1 (b), Y2 (b))
= (X(b1 ), X(b2 )).

Donc les valeurs possibles de Y sont (0, 0), (0, 1), (1, 0) et (1, 1).
(b)

P (Y = (0, 0)) = P (Y1 = 0 et Y2 = 0)


= P (Y1 = 0)P (Y2 = 0) = q 2 car Y1 et Y2 sont indépendantes
P (Y = (0, 1)) = pq
P (Y = (1, 0)) = qp
P (Y = (1, 1)) = p2

(c) Les lois de Y1 et de Y2 sont identiques à celle de X. Ce sont donc des lois de Bernoulli de paramètres p.
(d)

Ȳ : U 2 −→ {0, 1/2, 1}
b = (b1 , b2 ) 7−→ Ȳ (b) = (1/2)(Y1 (b) + Y2 (b))

On peut écrire Ȳ = (1/2)(Y1 + Y2 ) ou encore Ȳ = M (Y ) avec

M : R2 −→ R
y = (y1 , y2 ) 7−→ M (y) = (1/2)(y1 + y2 )

(e) Remarquons tout d’abord que :


– la loi de probabilité de Y est une probabilité sur son espace d’arrivé CY = {0, 1}2 ;
– la loi de probabilité de Ȳ est une probabilité sur son espace d’arrivé CȲ = {0, 1/2, 1}.

PCȲ (Ȳ = 0) = PCY (Y = (0, 0)) = PCY (Y1 = 0 et Y2 = 0) = q 2


PCȲ (Ȳ = 1/2) = PCY (Y = (0, 1) ou Y = (1, 0)) = 2pq
PCȲ (Ȳ = 1) = PCY (Y = (1, 1)) = q 2
82 CHAPITRE 4. THÉORIE DE L’ÉCHANTILLONNAGE

(f)

E(Ȳ ) = 0q 2 + (1/2)2pq + 1p2 = p(p + q) = p


pq
V ar(Ȳ ) = E(Ȳ 2 ) − E(Ȳ )2 = 02 q 2 + (1/2)2 2pq + 12 p2 − p2 =
2
On retrouve bien pour 2Ȳ la loi binômiale et les valeurs de E(Ȳ ) et de V ar(Ȳ ) pour un tirage avec
remise.
(ii) (a) idem cas avec remise.
(b)
n2 n2 − 1
P (Y = (0, 0)) =
N N −1
n2 n1
P (Y = (0, 1)) =
N N −1
n1 n2
P (Y = (1, 0)) =
N N −1
n1 n1 − 1
P (Y = (1, 1)) =
N N −1

(c)

P (Y1 = 1) = P (Y = (1, 0) ou Y = (1, 1))


n1 n2 + n1 (n1 − 1) n1 (n1 + n2 − 1)
= =
N (N − 1) N (N − 1)
n1
= =p
N
P (Y1 = 0) = 1 − P (Y1 = 1) = 1 − p

Donc Y1 suit la même loi de Bernoulli que X


Idem pour Y2 .
(d)

Ȳ : Ω −→ {0, 1/2, 1}
b = (b1 , b2 ) 7−→ Ȳ (b) = (1/2)(Y1 (b) + Y2 (b))

avec Ω = {b = b1 , b2 ) ∈ U 2 |b1 6= b2 }. On peut écrire Ȳ = (1/2)(Y1 + Y2 ) ou encore Ȳ = M (Y ) avec

M : R2 −→ R
y = (y1 , y2 ) 7−→ M (y) = (1/2)(y1 + y2 )

(e)
n2 (n2 − 1)
P (Ȳ = 0) = P (Y = (0, 0)) =
N (N − 1)
2n1 n2
P (Ȳ = 1/2)
N (N − 1)
n1 (n1 − 1)
P (Ȳ = 1) =
N (N − 1)

(f)
1 2n1 n2 n1 (n1 − 1)
E(Ȳ ) = +1
2 N (N − 1) N (N − 1)
n1 (n1 + n2 − 1)
= =p
N (N − 1)
6. EXERCICES 83

 2
1 2n1 n2 n1 (n1 − 1)
V ar(Ȳ ) = + 12 − p2
2 N (N − 1) N (N − 1)
n1 n2 + 2n1 (n1 − 1) − 2p2 N (N − 1)
=
2N (N − 1)
n1
(n 2 + 2n 1 − 2 − 2p(N − 1))
= N
2(N − 1)
p(n2 − 2 + 2p)
=
2(N − 1)
p(N − 2)q
=
2(N − 1)
(N − n) pq
=
N −1 n
où n = 2. On retrouve bien les résultats du théorème 4.1.1
2

6.2 Exercices avec indications


Exercice 6.2.1 (Taux de germination). On s’intéresse dans cet exercice au taux de germination, donc au paramètre
p de la loi de Bernoulli de la variable aléatoire

X:G −→ {0, 1}
g 7−→ 0 si g ne germe pas
g 7−→ 1 si g germe.

(voir l’exemple 1.2.1)


On considère un n-échantillon aléatoire Y = (Y1 , . . . , Yn ) de X. L’échantillonnage est bien sûr sans remise (on
ne peut pas mettre à germer une graine deux fois !). On définit les statistiques

S : Rn −→ {0, 1, . . . , n}
X n
y = (y1 , . . . , yi ) 7−→ S(y) = yi
i=1

et M = (1/n)Y .
(i) Quelles sont les espaces de départ et d’arrivée de S(Y ) et de M (Y ).
(ii) Écrire S(Y ) et Ȳ = M (Y ) en fonction des variables aléatoires (Yi )i
(iii) On suppose que la taille de la population G est N , quelle est la loi de S
(iv) On suppose que N = +∞, quelle est la loi de S.
(v) On suppose que N = +∞ et qu’on peut approximer la loi de Ȳ par une loi normale N (µȲ , σȲ2 ).
(a) Donner µȲ et σȲ en fonction de n et p.
(b) Déterminer n en fonction de p pour avoir

P (µȲ − 0.025 < Ȳ < µȲ + 0.025) = 0.95

(c) On prend p = 0.5, calculer n. Que signifie ce résultat ?


Indications. Penser à l’urne et l’échantillonnage avec et sans remise. Pour (vb), utiliser l’équation 4.4 2
Exercice 6.2.2. Soit X : P −→ {0, 1} une variable aléatoire de loi de Bernoulli de paramètre p et Y = (Y1 , . . . , Yn )
un n-échantillon Bernoullien de X On considère la statistique S 2 suivante

S 2 : Rn −→ {0, 1, . . . , n}
n
1X
y = (y1 , . . . , yi ) 7−→ S 2 (y) = (yi − ȳ)2
n i=1
84 CHAPITRE 4. THÉORIE DE L’ÉCHANTILLONNAGE

(i) On prend n = 2
(a) Quels sont les valeurs que peut prendre la variable aléatoire S 2 (Y ) ?
(b) Écrire S(Y ) en fonction de Y1 et de Y2 .
(c) Donner la loi de S 2 (Y ).
(d) Calculer l’espérance mathématique et la variance de S 2 (Y ).
(e) les variables aléatoires Ȳ et S 2 (Y ) sont-elles indépendantes ?
(ii) On prend n = 3
(a) Quels sont les valeurs que peut prendre la variable aléatoire S 2 (Y ) ?
(b) Donner la loi de S 2 (Y ).
(c) Calculer l’espérance mathématique et la variance de S 2 (Y ).
Indications. Pour les espérances mathématiques et variances on doit trouver les mêmes résultats que dans le
théorème 4.2.1 2
Exercice 6.2.3. Soit X : P −→ R une variable aléatoire de loi normale N (µ, σ 2 ) et Y = (Y1 , . . . , Yn ) un n-
échantillon Bernoullien de X On considère les statistiques suivantes

S : Rn −→ R
n
1 X
y = (y1 , . . . , yi ) 7−→ S(y) = 2 (yi − µ)2 ,
σ i=1

SCE : Rn −→ R
n
1 X
y = (y1 , . . . , yi ) 7−→ SCE(y) = (yi − ȳ)2 ,
σ 2 i=1

et K = SCE/σ 2 .
(i) Quelle est la loi de S(Y ) ?
(ii) Quelle est la loi de K(Y ) ?
(iii) On prend n = 10 et on note χp l’unique réel vérifiant P (K ≤ χp ) = p. En vous aidant de la table de la loi du
χ2 donner les valeurs de χ0.025 et de χ0.975 .
(iv) Vérifier que P (χ0.025 < K < χ0.0975 ) = 0.95.
(v) En déduire la valeur de   
2 SCE(Y ) SCE(Y )
P σ ∈ ; . (4.13)
χ0.0975 χ0.0025
(vi) Que signifie 4.13
Indications. On écrira S(Y ) comme le carré de n variables aléatoires de loi normale centrée réduite indépendantes.
2

6.3 Exercices sans indications


Exercice 6.3.1. Soit X la variable aléatoire définie sur P, à valeurs dans {0, 1, 4} et de loi

P (X = 0) = 1/4
P (X = 1) = 1/2
P (X = 4) = 1/4

On considère Y = (Y1 , Y2 ) un 2-échantillon Bernoullien de X et Ȳ = (1/2)(Y1 + Y2 ).


(i) Quelles sont les valeurs possibles de Ȳ ?
(ii) Calculer la loi de Y .
(iii) Calculer la loi de Ȳ .
Exercice 6.3.2. Soit X la variable aléatoire rendement de loi normale N (50, 5) définie à l’exercice 6.1.2. Soit
Y = (Y1 , . . . , Yn ) un n-échantillon Bernoullien de X (On suppose la population infinie et on peut donc considérer
que l’échantillonnage avec remise se confond avec l’échantillonnage sans remise).
6. EXERCICES 85

(i) On définit la statistique U suivante

U : Rn −→ R
ȳ − 50
y = (y1 , . . . , yn ) 7−→ U (y) = p ,
5/n

où ȳ désigne toujours la moyenne arithmétique des (yi ).


(a) Écrire U (Y ) (espace de départ, espace d’arrivé et fonction).
(b) Écrire U (Y ) en fonction de Ȳ . En déduire la loi de U .
(c) Calculer p p
P (Ȳ ∈ [50 − 1.96( 5/n); 50 + 1.96 5/n])
et donner son interprétation.
(ii) On suppose maintenant que la variance de X est inconnue. La loi de X est donc N (50, σ 2 ). On définit alors
les statistiques suivantes

SCE : Rn −→ R
n
X
y = (y1 , . . . , yn ) 7−→ SCE(y) = (yi − ȳ)2
i=1

et

T : Rn −→ R
ȳ − 50
y = (y1 , . . . , yn ) 7−→ T (y) = p .
SCE(y)/(n(n − 1))

(a) Écrire T (Y ) (espace de départ, espace d’arrivé et fonction).


(b) Écrire T (Y ) en fonction de Ȳ et de S 2 . En déduire la loi de T .
(c) On suppose que n = 10, donner l’unique réel t0.975 vérifiant P (T < t0.975 ) = 0.975 (voir les tables
statistiques). En déduire
p p
P (Ȳ ∈ [50 − t0.975 ( SCE(Y )/(n(n − 1))); 50 + t0.975 SCE(Y )/(n(n − 1))])

et donner son interprétation.


86 CHAPITRE 4. THÉORIE DE L’ÉCHANTILLONNAGE
Chapitre 5

Tests statistiques : principes généraux

1 Introduction
Le but d’un test statistique est de répondre à une question ”simple”, par exemple savoir laquelle de deux variétés
de Tournesol A et B donne le meilleur taux d’une protéine fixée. Pour cela, nous collecterons des données pour
les deux variétés, puis nous ferons un calcul à partir de ces données et en fonction de la valeur du résultat nous
validerons soit A, soit B. Nous pouvons donc faire en pratique deux erreurs :
– choisir A quand c’est B qui est meilleure ;
– choisir B quand c’est A qui est meilleure.
Par suite un test de statistique ne donnera jamais de réponse complètement déterministe, et comme dans tout
processus de prise de décision, il y aura toujours des risques d’erreur.
L’un des gros apports des tests statistiques est la connaissance, en terme de probabilités, des risques pris.
L’objectif de ce chapitre est donc de bien comprendre la définition de ces risques et d’assimiler toute la démarche
logique d’un test statistique. Ceci est fondamental si l’on désire utiliser cet outil correctement.

2 Exemple
2.1 Problème
Un industriel vient de mettre au point un nouveau procédé de fabrication d’ampoules électriques. Il désire
savoir si ce nouveau procédé est meilleur que celui utilisé actuellement dans le sens où les ampoules fabriquées
avec ce nouveau procédé ont une durée de vie plus longue. Des études antérieures ont montré que la durée de vie
d’une ampoule fabriquée par le procédé classique suit une loi normale de paramètres µ = 1400 heures et σ = 120
heures. On suppose que le nouveau procédé ne modifie pas la loi, ni la variance. On note A (respectivement A0 )
la population, supposée de taille très grande, des ampoules fabriquées avec le nouveau procédé (respectivement
l’ancien procédé). Nous pouvons alors définir les deux variables aléatoires suivantes :

X:A −→ R
1 ampoule 7−→ sa durée de vie

X0 : A0 −→ R
1 ampoule 7−→ sa durée de vie

Les informations données nous permettent alors de dire que la loi de la variable aléatoire X (respectivement X0 )
est une loi normale N (µ, 1202 ) (respectivement N (1400, 1202 )). La question est donc de savoir laquelle des deux
hypothèses ci-dessous est la bonne pour le nouveau procédé.
– µ ≤ 1400;
– µ > 1400.
Pour des raisons que nous verrons dans la suite de ce chapitre, nous formulerons les hypothèses de la façon suivante
– H0 : µ = 1400;
– H1 : µ > 1400.
Pour effectuer le choix entre ces 2 hypothèses on fait des mesures sur n =100 ampoules fabriquées avec le
nouveau procédé. On obtient les données de la table 5.1 dont les représentations graphiques sont données aux
figures 5.1 et 5.2.

87
88 CHAPITRE 5. TESTS STATISTIQUES : PRINCIPES GÉNÉRAUX

Tab. 5.1 – Donnés de l’exemple ampoules en milliers d’heures


1.7152 1.6602 1.7944 1.5417 1.5712 2.0019 1.7514 2.0755 1.7308 1.7808
.. .. .. .. .. .. .. .. .. ..
. . . . . . . . . .
1.6244 1.7249 1.6901 1.6524 1.7898 1.5812 1.7976 1.5170 1.8235 1.8012

−3
x 10
4

3.5

2.5

1.5

0.5

0
1000 1200 1400 1600 1800 2000 2200
durées de vie

Fig. 5.1 – Histogramme des données de l’exemple ampoule.

La question est maintenant de choisir, à partir de ces données, entre les deux hypothèses. Si nous appelons ȳ la
moyenne le l’échantillon, il semble logique ici de prendre la règle de décision suivante :
– Si ȳ > l alors on rejettera l’hypothèse nulle H0
– Si ȳ < l alors on acceptera l’hypothèse nulle H0
l sera la valeur critique du test.
Cette règle de décision induira deux types de risques : le risque de décider de rejeter l’hypothèse nulle H0 quand
elle est vraie et le risque de décider d’accepter l’hypothèse nulle H0 quand elle est fausse. Nous allons maintenant
dans un cas simple calculer ces risques.

2.2 Cas simplifié


On considère, dans une premier temps, le cas simplifié où les seules valeurs que peut prendre la moyenne µ
sont 1400 et 1450. Ce cas n’est pas, bien évidemment, réaliste. Nous le considérons uniquement pour des raisons
pédagogiques. Les hypothèses nulles H0 et alternatives H1 deviennent donc
– H0 : µ = 1400 ;
– H1 : µ = 1450.
La population A étant supposé très grande, on peut considérer que les données sont une observation du 100-
échantillon aléatoire Bernoullien.

(Y1 , . . . , Y100 ) : A100 −→ R100


100 ampoules 7−→ (durée de vie de l’ampoule 1, . . . , durée de vie de l’ampoule 100)
a = (a1 , . . . , a100 ) 7−→ Y (a) = (X(a1 , . . . , X(a100 ))

Nous pouvons alors définir la statistique

M : R100 −→ R
100
1 X
(y1 , . . . , y100 ) 7−→ ȳ = yi .
100 i=1

P
Nous avons donc défini la variable aléatoire Ȳ = M (Y ) = (1/n) i Yi . Le chapitre 4 sur la théorie de l’échantillonnage
nous dit alors que
– si l’hypothèse nulle H0 est vraie alors Ȳ suit une loi N (1400, 1202 /100) ;
2. EXEMPLE 89

2000

1900

durée de vie
1800

1700

1600

1500
1
échantillons

Fig. 5.2 – Boı̂te à moustaches des données de l’exemple ampoules.

– si l’hypothèse H1 est vraie alors Ȳ suit une loi N (1450, 1202 /100).
On suppose enfin que la valeur limite l est fixée à 1430. Ceci nous définit alors deux événements :
– accepter H0 = Ȳ ≤ 1430 ;
– accepter H1 = Ȳ > 1430.
Nous pouvons maintenant calculer les deux risques, que nous appellerons risques de première et de deuxième
espèce.

α = Probabilité de l’événement rejeter H0 quand H0 est vraie


= PH0 (rejeter H0 )
1202
 
= PH0 (Ȳ > 1430) avec Ȳ : N 1400,
100
= 1 − PH0 (Ȳ < 1430)
 
Ȳ − 1400 1430 − 1400
= 1 − PH0 <
12 12
= 1 − φ(2.5) = 0.00621

β = Probabilité de l’événement accepter H0 quand H0 est fausse


= Probabilité de l’événement accepter H0 quand H1 est vraie
= PH1 (accepter H0 )
1202
 
= PH1 (Ȳ ≤ 1430) avec Ȳ : N 1450,
100
 
Ȳ − 1450 1430 − 1450
= PH1 ≤
12 12
= φ(−1.67) = 1 − φ(1.67)
= 0.04746

Ces risques α et β sont visualisés sur la figure 5.3.

2.3 Cas général


En réalité lorsque l’hypothèse nulle H0 est fausse, on ne connaı̂t pas la vraie valeur de la moyenne µ. Aussi
l’hypothèse alternative H1 sera µ > 1400. Le risque de deuxième espèce sera alors fonction de la valeur de cette
moyenne. Une autre différence avec la démarche utilisée en pratique est que l’on se fixe la valeur du risque de
première espèce α. On calculera alors la valeur limite l que l’on appelera valeur critique et que l’on notera ici Ȳcrit .
90 CHAPITRE 5. TESTS STATISTIQUES : PRINCIPES GÉNÉRAUX

0.04

0.035

0.03

0.025
← Loi de M ← Loi de M
si H0 est vraie si H1 est vraie

0.02

0.015

0.01

0.005

β→
←α
0
1380 1400 1420 1440 1460 1480
l

Fig. 5.3 – Risque α de première espèce et β de deuxième espèce pour l’exemple des ”ampoules”.

Fixons le risque de première espèce α = 0.05, cela donne

α = PH0 (rejeter H0 )
1202
 
0.05 = PH0 (Ȳ > Ȳcrit ) avec Ȳ : N 1400,
100
= 1 − PH0 (Ȳ ≤ Ȳcrit )
 
Ȳ − 1400 Ȳcrit − 1400
= 1 − PH0 ≤
12 12
 
Ȳcrit − 1400
= 1−φ .
12
Par suite, nous obtenons
 
Ȳcrit − 1400
φ = 0.95
12
Ȳcrit − 1400
⇒ = 1.645
12
⇒ Ȳcrit = 1419.74

Nous pouvons alors maintenant calculer le risque de deuxième espèce β.

β = PH1 (accepter H0 )
1202
 
= PH1 (Ȳ < Ȳcrit ) avec Ȳ : N µ,
100
Ȳ − µ Ȳcrit − µ
= PH1 ( < )
 12  12
Ȳcrit − µ
= φ
12
On définit la puissance d’un test comme la probabilité de l’événement accepter H1 quand H1 est vraie. La
puissance est donc égale à 1 − β.

1−β = Probabilité de l’événement accepter H1 quand H1 est vraie


= PH1 (accepter H1 )

Remarque 2.3.1. La puissance est la probabilité de ”mettre en évidence une différence qui existe”.
La table 5.2 donne le risque β et la puissance (visualisée par la figure 5.4) pour différentes valeurs de la moyenne
µ.
3. PRINCIPES GÉNÉRAUX 91

µ 1380 1390 1394 1396 1398 1400 1410 1420 1430 1440 1450 1460
1419.74 − µ
3.31 2.48 2.14 1.98 1.81 1.64 0.81 -0.02 -0.855 -1.69 -2.52 -3.36
12
β 1.00 0.99 0.98 0.98 0.96 0.95 0.79 0.49 0.20 0.05 0.00 0.00
1−β 0.00 0.01 0.02 0.02 0.04 0.05 0.21 0.51 0.80 0.95 1.00 1.00

Tab. 5.2 – Risque β et puissance en fonction de la moyenne µ

0.9

0.8

0.7

0.6
Puissance

0.5

0.4

0.3

0.2

0.1

0
1380 1390 1400 1410 1420 1430 1440 1450 1460
µ

Fig. 5.4 – Fonction puissance pour l’exemple ”ampoules” : 1 − β(µ).

Remarque 2.3.2. Pour calculer la valeur critique d’un test, on doit parfaitement connaı̂tre la loi de la statistique
de décision quand l’hypothèse nulle H0 est vraie. Ceci justifie le fait que l’on ait écrit dans cet exemple cette
hypothèse nulle sous la forme d’une égalité : H0 : µ = 1400 et non pas sous la forme d’une inégalité. La question
de départ étant de savoir si le nouveau procédé était meilleur que l’ancien, on a comme hypothèse alternative
H1 : µ > 1400. La fonction puissance 5.4 nous montre que la probabilité de l’événement accepter H1 est proche
de 1 pour les valeurs de µ très supérieures à 1 et proche de 0 pour les faibles valeurs de µ ; ce qui est bien ce que
nous désirions.

Remarque 2.3.3. Il ne faut pas confondre les hypothèses nulle H0 et alternative H1 avec les événements accepter
H0 et accepter H1 . L’événement accepter H0 est en pratique l’ensemble des valeurs de la statistique de décision
qui conclura à accepter l’hypothèse nulle H0 . Cet événement s’écrit dans notre exemple Ȳ ≤ Ȳcrit et est égale à
l’intervalle ] − ∞, Ȳcrit ] sur l’axe des abscisses de la figure 5.3

3 Principes généraux

3.1 Logique générale d’un test statistique

Le tableau suivant donne le schéma général d’un test statistique


92 CHAPITRE 5. TESTS STATISTIQUES : PRINCIPES GÉNÉRAUX

Situation concrète Formalisation mathématique Exemple ”ampoules”


Question de départ H0 : hypothèse nulle H0 : µ = 1400
H1 : hypothèse alternative H1 : µ > 1400
Variable étudiée variable aléatoire X : P −→ R

X :A −→ R
1 ampoule 7−→ sa durée de vie

Connaissance de départ loi de X X : N (µ, 1202 )


Collecte de données n- échantillon aléatoire Bernoullien
(y1 , . . . , yn )
n n 100 100
(Y1 , . . . , Yn ) : P −→ R (Y1 , . . . , Y100 ) : A −→ R
ω = (ω1 , . . . , ωn ) 7−→ (Y1 (ω), . . . , Yn (ω)) 100 ampoules 7−→ (durée de vie de
ω = (ω1 , . . . , ωn ) 7−→ (X(ω1 ), . . . , X(ωn )) l’ampoule 1,
.
.
.,
durée de vie de
l’ampoule 100)

Calcul de Sobs = Statistique de décision


S(y1 , . . . , yn )
100
n (Y1 ,...,Yn ) n S Ȳ : A −→ R
P −→ R −→ R
100 ampoules 7−→ moyenne des
durées de vie
des 100 ampoules
1
(a1 , . . . , an ) 7−→ (X(a1 ) + · · · + X(an ))
n
100
M :R −→ R
100
1 X
(y1 , . . . , y100 ) 7−→ ȳ = yi
100 i=1

Règle de décision. On Si H0 est vraie alors S suit une loi connue. α étant fixé 1202
se donne α le risque de on en déduit la zone de rejet de l’hypothèse nulle. Si H0 est vraie alors Ȳ suit une loi N (1400, ) α
100
première espèce. On en étant fixé, on en déduit Ȳcrit telle que P (Ȳ > Ȳcrit ) =
déduit la zone de rejet de α. On en déduit alors la règle de décision
l’hypothèse nulle

Remarque 3.1.1. Le choix de la statistique S peut paraı̂tre parfois mystérieux. Il est, bien évidemment, en lien
direct avec le problème. Cette statistique est souvent une ”distance” entre les données et l’hypothèse nulle. Si
Sobs = S(y1 , . . . , yn ) est grand alors il y a peu de chance que les données viennent d’une population où l’hypothèse
nulle est vraie, si Sobs est faible on ne peut pas rejeter l’hypothèse nulle.
(i) C’est dans la démonstration du calcul de la loi de la statistique S qu’interviennent les hypothèses sur la loi
de X et le fait que (Y1 , . . . , Yn ) soit un échantillon Bernoullien. Le terme hypothèse étant déjà utilisé pour
les hypothèses nulle H0 et alternative H1 nous utiliserons ici le terme de postulats1 .
(ii) Lorsque (Y1 , . . . , Yn ) est un n-échantillon Bernoullien, les (Yi )i=1,··· ,n sont indépendantes et de même loi que
X. Ce sont ces dernières propriétés qui interviennent dans la démonstration de la loi de la statistique S et
nous écrirons souvent dans les postulats : (Yi )i=1,··· ,n i.i.d. pour indépendantes et identiquement distribuées.
(iii) Dans la construction d’un test c’est le risque de première espèce α qui joue un rôle particulier. La symétrie
entre les deux risques est de fait rompue.
(iv) Lorsque nous acceptons l’hypothèse nulle, le risque de faire une erreur est le risque de deuxième espèce. Nous
dirons cependant que l’on accepte l’hypothèse nulle au risque α. Ceci est dû au fait que c’est le risque de
première expèce qui permet de construire la règle de décision et qu’en pratique le risque de deuxième espèce
dépend de l’hypothèse alternative qui n’est jamais complètement définie.
Nous présenterons un test statistique de la façon suivante.
(i) Définition du problème :
(a) question de départ ;
(b) définition des populations, variables aléatoires ;
(c) hypothèses nulle et alternative ;
(d) description des données.
1 Il y a en anglais deux termes pour hypothèse : asumption et hypothesis.
3. PRINCIPES GÉNÉRAUX 93

(ii) Description du test :


(a) postulats ;
(b) statistique utilisée (variable de décision).
(iii) Mode opératoire.

3.2 Définitions
Définition 3.2.1 (Risques de première et de deuxième espèce, puissance). On appelle risque de première espèce
et on note α la probabilité de l’événement rejeter l’hypothèse nulle quand elle est vraie :

α = Probabilité de l’événement rejeter H0 quand H0 est vraie


= PH0 (rejeter H0 )

On appelle risque de deuxième espèce et on note β la probabilité de l’événement accepter l’hypothèse nulle
quand elle est fausse :

β = Probabilité de l’événement accepter H0 quand H0 est fausse


= PH1 (accepter H0 )

On appelle puissance la probabilité de l’événement accepter l’hypothèse alternative quand elle est vraie :

1−β = Probabilité de lévénement accepter H1 quand H1 est vraie


= PH1 (accepter H1 )

On peut résumer ces définitions par le tableau suivant :

Décision : réalité H0 H1
H0 1−α β
H1 α 1−β

Remarque 3.2.2. (i) Le risque de première espèce est aussi la probabilité de conclure à une différence qui
n’existe pas en réalité.
(ii) Le risque de deuxième espèce est aussi la probabilité de ne pas déceler une différence qui existe.
(iii) La puissance du test est la probabilité de déceler une différence qui existe. C’est un critère de précision, de
qualité d’un test.

Définition 3.2.3 (Test unilatéral, test bilatéral). Un test est dit unilatéral si sa zone de rejet, c’est-à-dire
lévénement accepter H1 , est continue. Il est dit bilatéral si elle est en deux morceaux.

Exemple 3.2.4. Dans l’exemple introductif il n’y avait qu’une seule zone de rejet et l’hypothèse alternative était
H1 : µ > 1400. Nous avions donc un test unilatéral. Si on désirait comparer 2 procédés de fabrication pour savoir
lequel des 2 était le meilleur nous aurions écrit l’hypothèse alternative de la façon suivante : H1 : µ < 1400 ou
µ > 1400. Nous aurions alors eu 2 zones de rejet. Le test aurait été bilatéral.

Définition 3.2.5 (test non paramétrique). On appelle test non paramétrique tout test où dans les postulats il
n’est pas fait mention de lois. Le test est dit paramétrique dans le cas contraire.

Remarque 3.2.6. Dans un test paramétrique les hypothèses nulles et alternative s’expriment par des relations sur
des valeurs de paramètres, d’où la terminologie. En anglais on parle de ”distribution free test” ce qui est à notre
avis plus clair.

Exemple 3.2.7. Dans l’exemple introductif le test est un test paramétrique.

Exemple 3.2.8. Si on désire tester l’hypothèse nulle H0 : le caractère suit une loi de poisson ; le test sera un test
non paramétrique.

Définition 3.2.9 (Robustesse). Un test est dit robuste s’il est ”peu” sensibles à la loi de distribution du caractère
étudié.

Remarque 3.2.10. Nous aurons parfois le choix entre plusieurs tests pour une question donnée. Nous choisirons
en pratique parmi ceux qui vérifient les postulats celui qui aura la puissance la plus forte.
94 CHAPITRE 5. TESTS STATISTIQUES : PRINCIPES GÉNÉRAUX

4 Test bilatéral
4.1 Puissance d’un test bilatéral
Exemple 4.1.1. 2 Un acheteur souhaite acquérir un lot de dindes. Ces dindes doivent avoir un poids moyen de
6.5kg et l’acheteur désire que le poids moyen ne soit ni trop faible ni trop élevé. Un vendeur est candidat pour ce
marché qui doit porter sur 60 000 dindes. Afin de s’assurer que la spécification imposée est bien vérifiée, l’acheteur
va prélever un échantillon simple et aléatoire de 64 animaux qu’il pèse. Des résultats antérieurs permettent de
penser que le poids suit une loi normale et on admettra que l’écart-type est connu et est σ = 2 kg. Nous allons ici
donner la règle de décision puis la fonction de puissance de ce test. Formalisons tout d’abord cette expérience. Le
caractère de départ est ici :

X : P −→ R
1 dinde −
7 → son poids.

A chaque lot de 64 animaux l’acheteur obtiendra 64 poids y1 , y2 , . . . y64 . La taille des échantillons (n = 64) étant
faible par rapport à la taille de la population P (N = 60000), on peut approximer l’échantillonnage sans remise
par un échantillonnage avec remise. On peut donc définir le n-échantillons Bernoullien :

Y = (Y1 , . . . , Y64 ) : P 64 −→ R64


1 lot de 64 dindes 7−→ (y1 , y2 , . . . y64 )

L’énoncé nous dit que nous avons les postulats suivants :


– (Yi ) i.i.d.
– Yi de loi N (µ, σ 2 ) avec σ 2 = 4
Les hypothèses nulle et alternative sont :
– H0 : µ = 6.5 ;
– H1 : µ 6= 6.5 (µ < 6.5 ou µ > 6.5).
Il s’agit donc d’un test bilatéral. P64
1
La statistique utilisée sera : M (Y ) = Ȳ = 64 i=1 Yi .
Si l’hypothèse nulle est vraie alors Ȳ suit une loi normale N (6.5, 0.0625). Nous rejetterons l’hypothèse nulle
si la valeur de la variable aléatoire Ȳ sur l’échantillon Ȳobs = M (y1 , . . . , yn ) est très grande ou très petite. Nous
aurons ici deux zones de rejet.
Nous avons donc

PH0 (m1 ≤ Ȳ ≤ m2 ) = 1 − α.
Par suite si nous prenons le même risque à droite et à gauche nous aurons :

PH0 (m1 < Ȳ ) = 1 − α/2,


PH0 (Ȳ < m2 ) = 1 − α/2.

Soit si nous prenons α = 0.05


 
m1 − 6.5 Ȳ − µ
PH0  < q  = 0.975
0.25 σ2
n
 
m2 − 6.5
PH0 Ȳ < = 0.975
0.25

D’où

 m1 − 6.5 = −1.96
 
0.25 m1 = 6.01
m2 − 6.5 ⇒

 = 1.96 m 2 = 6.99
0.25
La règle de décision est donc :
– Si Ȳobs = M (y1 , . . . , y64 ) ∈ [6.01; 6.99] alors on accepte l’hypothèse nulle d’égalité de la moyenne à 6.5 kg au
risque α de 5%
2 Données provenant du cours de biométrie de l’INAPG de R. Tomassone, juillet 1986, chapitre 5 page 34.
4. TEST BILATÉRAL 95

µ 5.25 5.50 5.75 6.00 6.25 6.50 6.75 7.00 7.25 7.50 7.75
6.01 − µ
3.04 2.04 1.04 0.04 -0.96 -1.96 -2.96 -3.96 -4.96 -5.96 -6.96
0.25
6.99 − µ
6.96 5.96 4.96 3.96 2.96 1.96 0.96 -0.04 -1.04 -2.04 -3.04
0.25 
6.01 − µ
φ 1.00 0.98 0.85 0.52 0.17 0.02 0.00 0.00 0.00 0.00 0.00
 0.25 
6.99 − µ
φ 1.00 1.00 1.00 1.00 1.00 0.98 0.83 0.48 0.15 0.02 0.00
0.25
β(µ) 0.00 0.02 0.15 0.48 0.83 0.95 0.83 0.48 0.15 0.02 0.00
P uis(µ) 1.00 0.98 0.85 0.52 0.17 0.05 0.17 0.52 0.85 0.98 1.00

Tab. 5.3 – Risque β et puissance en fonction de la moyenne µ

– Si Ȳobs = M (y1 , . . . , y64 ) ∈


/ [6.01; 6.99] alors on rejette l’hypothèse nulle d’égalité de la moyenne à 6.5 kg au
risque α de 5%
Calculons maintenant la puissance de ce test en fonction de µ.
Si H1 est vraie alors Ȳ suit une loi normale N (µ, 0.0625)
Nous avons donc :

P uis(µ) = 1 − β(µ) = 1 − PH1 (m1 ≤ Ȳ ≤ m2 )


 
m 1 − µ Ȳ − µ m 2 − µ
= 1 − PH1  ≤ q ≤ 
0.25 σ2 0.25
  n 
m2 − µ m1 − µ
= 1−φ +φ
0.25 0.25

Le tableau 5.3 et le graphique 5.5 donnent les résultats pour diférentes valeurs de µ

Exemple de puissance pour un test bilatéral


1

0.9

0.8

0.7

0.6
Puissance

0.5

0.4

0.3

0.2

0.1

0
5 5.5 6 6.5 7 7.5 8
mu

Fig. 5.5 – Puissance d’un test bilatéral : exemple ”dindes” α = 0.05, n = 64.

4.2 Puissance et paramètres α, σ 2 et n


Comme nous l’avons vu sur les deux exemples traités dans ce chapitre, la puissance dépend de la vraie valeur
du paramètre µ. Mais elle dépend aussi du risque de première espèce, de la variance et du nombre de mesures.
Nous allons maintenant voir sur le deuxième exemple des ”dindes comment évolue cette puissance en fonction de
chacun de ces trois paramètres (les 2 autres restant fixes).

Puissance et risque de première espèce

Comme le montre le graphique (5.3) plus le risque de première espèce augmente, plus la zone d’acceptation de
l’hypothèse nulle diminue et donc plus le risque de deuxième espèce diminu. Par suite la puissance augmente. Le
graphique (5.6) donne la puissance P uis(µ) pour différente valeur du risque de première espèce.
96 CHAPITRE 5. TESTS STATISTIQUES : PRINCIPES GÉNÉRAUX

0.9

0.8

0.7

0.6

Puissance
0.5

0.4

0.3

0.2

0.1

0
4.5 5 5.5 6 6.5 7 7.5 8 8.5
mu

Fig. 5.6 – Puissance, exemple des ”dindes” pour α = 0.0001, 0.01, 05 et 0.1 (σ 2 = 4 et n = 64).

Puissance et variance
Plus la variance est faible, plus la puissance est grande. Ce résultat est logique. En effet plus nous aurons
une variabilité faible, plus facile sera la mise en évidence d’une différence qui existe. Le graphique (5.7) donne les
courbes de puissance pour différentes valeurs de la variance.
1

0.9

0.8

0.7

0.6
Puissance

0.5

0.4

0.3

0.2

0.1

0
4.5 5 5.5 6 6.5 7 7.5 8 8.5
mu

Fig. 5.7 – Puissance, exemple des ”dindes” pour σ 2 = 2, 4, 6 et 8 (α = 0.05 et n = 64).

Puissance et nombre de données


Le nombre de données n intervient, pour un risque α fixé, dans le calcul de la valeur critique et dans le calcul
σ2
de la puissance. En effet la variance de la statistique Ȳ est égale à . Par suite plus le nombre de données sera
n
grand plus la variance de Ȳ sera faible et plus la puissance sera forte. L’influence du nombre de données est inverse
de celle de la variance des données. Le graphique (5.8) donne les courbes de puissance pour différentes valeurs de
n.
1

0.9

0.8

0.7

0.6
Puissance

0.5

0.4

0.3

0.2

0.1

0
4.5 5 5.5 6 6.5 7 7.5 8 8.5
mu

Fig. 5.8 – Puissance, exemple des ”dindes” pour n = 50, 100, 150 et 200 (α = 0.05 et σ 2 = 4).
5. CONCLUSION 97

4.3 Tests multiples


Sur l’exemple précédent des ”dindes” on définit le test T suivant :
(i) On réalise le test unilatéral à droite Td avec un risque α suivant :
– H0 : µ = 6.5
– H1 : µ > 6.5
On réalise le test unilatéral à gauche Tg avec un risque α suivant :
– H0 : µ = 6.5
– H1 : µ < 6.5
(ii) On réalise alors le test global suivant :
– H0 : µ = 6.5
– H1 : µ 6= 6.5
où on rejette l’hypothèse nulle si et seulement si on a rejetté l’hypothèse nulle du test unilatéral à droite
Td ou du test unilatéral à gauche Tg .
Le test T est alors un test bilatéral mais attention avec un risque de première espèce de 2α. Le fait de réaliser
des tests multiples avec une même finalité sur un même ensemble de données augmente implicitement de risque de
première espèce.

5 Conclusion
5.1 Présentation et conclusion d’un test
Nous tenons ici à rappeler que la première chose à faire lorsque l’on a des données est de les visualiser à l’aide
des outils de la statistique descriptive. Ceci permet, en particulier de visualiser la variabilité de la variable étudiée.
La réalisation pratique d’un test comprendra donc :
(i) la définition de la question posée ;
(ii) la méthode de collecte des données ;
(iii) la visualisation des données ;
(iv) le choix du test statistique ;
(v) la réalisation des calculs ;
(vi) la conclusion.

5.2 Risque de troisième espèce


Nous reprenons ci-dessous le texte de l’introduction du livre ”Techniques statistiques moyens rationnels de choix
et de décision de Georges Parreins paru aux éditions Dunod en 1974 page v et vi de l’introduction
”Citons un exemple, paraı̂t-il authentique, mais même s’il n’ l’est pas nous pensons qu’il restera présent à l’esprit
des lecteurs et nous souhaitons dans tous les cas ne rapeller aucun mauvais souvenir aux lectrices de ce livre. Afin
de prouver la nécessité d’avoir un médecin au moment d’un accouchement, on questionna des mamans : pour 50
accouchements avec médecin on constata 4 complications, ce nombre était de 3 pour un groupe de même importance
qui avait accouché sans le secours d’un praticien.
Ce résultat déplut aux organisateurs de l’enquête, ils la soumirent à un statisticien, qui très rapidement déclara
que ces résultats n’étaient pas significatifs et que pour une conclusion sérieuse il faudrait opérer sur des effectifs
beaucoup plus importants. On recueillit donc des observations. Sur deux séries de 500 accouchements on trouva 47
complications dans le premier groupe – avec médecins – et 19 dans l’autre. Le même statisticien déclara que dans
ce cas les résultats étaient hautement significatifs : on pouvait affirmer avec un risque très faible de se tromper
– de l’ordre de 1 sur dix mille – qu’il y avait beaucoup moins de complications en l’absence de médecin. Devant
ce résultat quelque peu inquiétant, notre statisticien étudia les modalités de l’échantillonnage : l’enquête avait été
faite à la campagne, on appelait surtout le médecin quand la venue au monde du nouveau bébé se présentait mal. Il
est à peu près évident que si on avait obtenu les résultats inverses, personne ne se serait posé de questions et cela
aurait constitué une lourde faute. Les expérimentateurs doivent toujours concerver le même esprit critique, devant
les résultats quels qu’il soient et ne pas se demander comment les observations ont été faites uniquement quand on
arrive à un résultat déplaisant.
Relisons Claude Bernard ”l’expérimentateur doit toujours douter, fuir les idées fixes et garder toujours sa liberté
d’esprit”
Il faut bien comprendre, qu’il est en général possible de faire dire aux statistiques tout – et uniquement – ce
que l’on désire, sous réserve d’éviter de dire comment elles ont été établies. C’est par ce biais que s’explique les
98 CHAPITRE 5. TESTS STATISTIQUES : PRINCIPES GÉNÉRAUX

critiques – très justifiées – souvent adressées à ces techniques. Les échantillons non significatifs, c’est-à-dire mal
prélévés, sont la cause d’un grand nombre de conclusion erronées.
L’erreur qui a été faite dans cet exemple concerne la définition des populations. Il s’agit au fond de la même
erreur lorsque l’on dit que le lit est plus dangereux que l’automobile car il est prouvé statistiquement que l’on
meurt plus souvent dans un lit que dans une automobile. Cette dernière assertion est tout-à-fait exacte, mais la
conclusion est bien évidemment fausse. Le ”lit” n’est pas la cause de déces, mais lorsque l’on est gravement malade,
on est souvent alité. Il s’agit là de ce que nous appellerons du risque de troisième espèce qui est de nature très
différente des risques de première et de deuxième espèce ; mais on aurait tord de penser qu’il est le moins grave.
Ce risque sera évité le plus souvent par le bon sens, encore faut-il se poser les bonnes questions.
6. EXERCICES 99

6 Exercices
6.1 Exercices avec corrigés
Exercice 6.1.1. 3
On sait que les conditions habituelles d’élevage de bovins conduisent à un poids moyen à un âge donné de 300
kg avec un écart type de 24 kg. On suppose que le poids suit une loi normale. On envisage un nouveau régime et
on désire savoir si ce régime est meilleur que l’ancien. Pour cela on teste ce régime sur 64 animaux. On suppose
que ni la loi de la variable aléatoire, ni sa variance σ 2 ne sont modifiées par le nouveau régime.
(i) Définissez les variables aléatoires X0 ”poids ancien régime” et X ”poids nouveau régime”.
(ii) On suppose que les populations étudiées sont de très grandes tailles et on peut donc considérer le 64-échantillon
Bernoullien
Y = (Y1 , . . . , Yn ) : P 64 −→ R64
b = (b1 , . . . , b64 ) 7−→ Y (b) = (X(b1 ), . . . , X(b64 )).

On considère la statistique M
M : R64 −→ R
64
1 X
(y1 , . . . , y64 ) 7−→ ȳ = yi .
64 i=1

et on définit Ȳ = M (Y ). Quelle loi suit la variable aléatoire Ȳ .


(iii) Quel test peut-on effectuer ? On précisera :
– l’hypothèse nulle H0 .
– s’il s’agit d’un test unilatéral ou bilatéral, on précisera l’hypothèse alternative H1 .
(iv) On prend comme risque de première espèce α = 0, 05.
(a) Donner la règle de décision du test.
(b) Calculer la puissance de ce test en fonction de la vraie valeur de la moyenne µ pour
µ = 280; 290; 295; 297.5; 300; 302.5; 305; 307.5; 310; 320 et tracer cette fonction.
(c) Quelle information vous donne la puissance si la vraie valeur de µ est 307.5 ?
correction.
(i) On considère P (respectivement P0 ) la population des bovins nourris avec le nouveau régime (respectivement
avec l’ancien régime). Les variables aléatoires X et X0 sont alors
X : P −→ R
1 bovin −
7 → son poids

X0 : P0 −→ R
1 bovin 7−→ son poids
(ii) Ȳ suit une loi normale N (µ, 242 /64), où µ est l’espérance mathématique de X.
(iii) – H0 : µ = 300 ;
– H1 : µ > 300.
Le test est unilatéral à droite car on désire savoir si le nouveau régime est meilleur que l’ancien.
(iv) (a)
α = PH0 (rejeter H0 )
= PH0 (Ȳ > Ȳcrit )
 
Ȳ − 300 Ȳcrit − 300
= PH0 >
3 3
 
Ȳ − 300
⇒φ = 1 − α = 0.95
3
Ȳcrit − 300
⇒ = 1.645
3
⇒Ȳcrit = 304.935
3 Données provenant du cours de biométrie de l’INAPG de R. Tomassone, juillet 1986, chapitre 5 page 36.
100 CHAPITRE 5. TESTS STATISTIQUES : PRINCIPES GÉNÉRAUX

(b) Le risque de deuxième espèce β est

β = PH1 (accepter H0 )
= PH1 (Ȳ < Ȳcrit )
 
Ȳ − µ Ȳcrit − µ
= PH1 <
3 3
 
Ȳcrit − µ

3

et la puissance est PH1 (accepter H1 ) = 1 − β(µ). La table 5.4 donne les valeurs numériques du risque
de deuxième espèce et de la puissance pour les valeurs demandées et la figure 5.9 visualise la fonction
puissance.

µ 280.0 290.0 295.0 297.5 300.0


304.935−µ
3 8.311 4.978 3.311 2.478 1.645
β(µ) 1.000 1.000 0.999 0.993 0.950
1 − β(µ) 0.000 0.000 0.001 0.007 0.050
µ 302.5 305.0 307.5 310.0 320.0
304.935−µ
3 0.811 -0.022 -0.855 -1.689 -5.022
β(µ) 0.791 0.491 0.196 0.046 0.000
1 − β(µ) 0.209 0.509 0.804 0.954 1.000

Tab. 5.4 – Risque de deuxième espèce et puissance

0.9

0.8

0.7

0.6
Puissance

0.5

0.4

0.3

0.2

0.1

290 295 300 305 310 315 320


mu

Fig. 5.9 – Fonction puissance

(c) Pour µ = 307.5 l’expérience avec 64 bovins conclura que l’hypothèse alternative H1 est vraie, c’est-à-dire
que le nouveau régime est meilleur que l’ancien, avec une probabilité de 0.804.
2
Exercice 6.1.2. On désire savoir si un juge reconnaı̂t le différence entre 2 produits A et B. Pour cela on lui
présente 3 produits dont 2 sont identiques et on lui demander de désigner celui qui est différent. On considère donc
la variable aléatoire X suivante :

X:Ω −→ {0, 1}
1 triplet 7−→ 1 si le juge reconnaı̂t le produit différent
1 triplet 7−→ 0 si le juge ne reconnaı̂t pas le produit différent

où Ω est l’ensemble des triplets possibes des deux produits A et B, deux produits étant identiques. X est une
variable aléatoire de loi de Bernoulli de paramètre p. On désire savoir si le juge répond totalement au hasard ou s’il
reconnaı̂t le produit différent. Pour cela, on fait n fois l’expérience. On obtient alors un n-échantillon qui est une
6. EXERCICES 101

observation du n-échantillon Bernoullien Y = (Y1 , . . . , Yn ) de la variable aléatoire X. On Définit alors la variable


aléatoire suivante :

Z : Ωn −→ {0, 1, . . . , n}
ω = (ω1 , . . . , ωn ) 7−→ nombre de bonnes réponses

(i) On considère les hypothèses nulle et alternative suivantes :


– H0 : le juge répond totalement au hasard ;
– H1 : le juge ne répond pas totalement au hasard.
Écrire les hypothèses nulle et alternative du test à l’aide du paramètre p.
(ii) écrire Z = S(Y ) (on donnera S), et en déduire la loi de Z.
(iii) On prend n = 25 et α = 0.05 et on donne pour p = 1/3
k 10 11 12 13 14 15 16 17 ...
Cnk pk q n−k 0.126 0.086 0.050 0.025 0.011 0.004 0.001 0.000 ...
et pour p = 2/3
k 13 14 15 16 17 18 19
Cnk pk q n−k 0.05 0.086 0.126 0.158 0.167 0.149 0.110
k 20 21 22 23 24 25
Cnk pk q n−k 0.066 0.031 0.011 0.003 0.000 0.000
(a) Calculer la valeur critique du test.
(b) Calculer le risque de deuxième espèce et la puissance pour p = 2/3.
(c) Visualiser le risque de deuxième espèce et la puissance pour p = 2/3.
(d) Calculer le risque de deuxième espèce et la puissance pour p = 1/3.
(e) Donner la forme de la fonction puissance en fonction de p.

correction.
(i) Si le juge choisi au hasard p est égal à 1/3. Si le juge ne répond pas au hasard c’est que p > 1/3 (si p < 1/3,
c’est que le juge répond de façon pire que s’il répondait totalement au hasard !). Le test est donc un test
unilatéral à droite. Par suite les hypothèses nulle et alternative sont
– H0 : p = 1/3 ;
– H1 : p > 1/3.
(ii) S est

S : Rn −→ R
n
X
(y1 , . . . , yn ) 7−→ S(y) = yi
i=1
P
Donc Z = S(Y ) = i Yi . Par suite Z suit une loi binômiale de paramètre (n, p).
(iii) Attention, il faut ici lorsqu’on définit les événemants accepter H0 et accepter H1 , bien préciser si on
prend des inégalités large ou strict car la loi de la variable aléatoire de décision est discrète.
On a

α = PH0 (rejeter H0 )
= PH0 (Z ≥ Zcrit )
= PH0 (Z = Zcrit ) + PH0 (Z = Zcrit + 1) + · · · + P (Z = n)
Xn
= Cnk pk q n−k
k=Zcrit

La table ci-après donne pour différentes valeurs de Zcrit les valeurs de α obtenus.
Zcrit 12 13 14 15 16 17 ...
(a)
α 0.091 0.041 0.016 0.005 0.001 0.000 ...
On en déduit que pour avoir α le plus proche de 0.05 tout en étant inférieur il faut prendre Zcrit = 13.
102 CHAPITRE 5. TESTS STATISTIQUES : PRINCIPES GÉNÉRAUX

(b) Pour p = 2/3


12
X
β= P (Z = k)
k=0
25
X
=1− P (Z = k)
k=13
= 1 − 0.05 + 0.086 + 0.126 + 0.158 + 0.167 + 0.149 + 0.110 + 0.066 + 0.031 + 0.011 + 0.003
= 1 − 0.957 = 0.043

0.18
β
puissance
0.16

0.14

0.12

0.1
Loi de Z

0.08

0.06

0.04

0.02

0
0 5 10 15 20 25
k

Fig. 5.10 – Risque de deuxième espèce et puissance

(c)
(d) Pour p = 1/3 on a

β = PH1 (accepter H0 )
= 1 − 0.041 = 0.939

0.9

0.8

0.7

0.6
Puissance

0.5

0.4

0.3

0.2

0.1

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1


p

Fig. 5.11 – Puissance en fonction de p

(e)
2
6. EXERCICES 103

6.2 Exercices avec indications


Exercice 6.2.1. 4
La législation en vigueur impose aux aéroports certaines normes concernant les bruits émis par les avions au
décollage et à l’atterrissage. Ainsi pour les zones habitées proches d’un aéroport, la limite tolérée se situe à environ
80 décibels. Au delà de cette limite, l’aéroport doit indemniser les riverains.
Les habitants d’un village proche d’un aéroport assurent que le bruit au dessus du village atteint la valeur
limite de 80 décibels en moyenne, pour un certain type d’avions (les plus bruyants). L’aéroport affirme qu’il n’est
que de 78 décibels. Des experts sont convoqués pour trancher entre les deux parties en présence. Ils admettent que
l’intensité du bruit causé par un avion de ce type suit une loi normale d’espérance µ et de variance σ 2 = 49. Ils
enregistrent l’intensité du bruit provoqué par le passage de ces avions sur un échantillon de taille n = 100.
On définit la variable aléatoire suivantes :

Ȳ : P 100 = {échantillons de 100 avions} −→ R


E100 = (avion1 , . . . , avion100 ) 7−→ moyenne des bruits des 100 avions
On considère les 2 cas suivants :
Test 1 les hypothèses nulle et alternative sont les suivantes :
H0 : µ = 80
H1 : µ < 80

Test 2 les hypothèses nulle et alternative sont les suivantes :


H0 : µ = 78
H1 : µ > 78

(i) Quelle est la loi de Ȳ ?


(ii) On prend comme risque de première espèce α = 0.05. Donner la règle de décision du test 1.
(iii) On suppose que µ = 78, Calculer le risque de deuxième espèce β et la puissance du test 1.
(iv) On prend comme risque de première espèce α = 0.05. Donner la règle de décision du test 2.
(v) On suppose que µ = 80, Calculer le risque de deuxième espèce β et la puissance du test 2.
(vi) Dans le cas du test 1 on veut que le risque de première espèce soit égal au risque de deuxième espèce lorsque
µ = 78. Quelle est la règle de décision et la valeur des risques.
(vii) Trouver n pour que dans le cas précédent le risque de première espèce soit égal à 0.05.
(viii) Conclusion
Indications. Attention à la position de l’événement rejeter H0 .
(i)
(ii) Pour le Test 1 la valeur critique Ȳcrit est 78.8485.
(iii) β = 0.113.
(iv) Pour le Test 2 la valeur critique est Ȳcrit est 79.155
(v) β = 0.113.
(vi) Ȳcrit = 79.
(vii) n ∼ 133.
2
Exercice 6.2.2. 5
La quantité d’acide nitrique (en micro-grammes) dans un mélange chimique doit être égale à 10. Cependant,
des erreurs de manipulation font en sorte que cette quantité suit une loi normale de moyenne µ et de variance
σ 2 = 0.09. On décide de tester les hypothèses H0 : µ = 10 contre H1 : µ 6= 10 à l’aide de résultats d’observations
de 20 mélanges prélevés au hasard et de rejeter l’hypothèse nulle H0 si ȳ < 9.80 ou ȳ > 10.20 où ȳ est la quantité
moyenne d’acide nitrique dans les 20 mélanges. On pose

Ȳ : P 20 −→ R
20 observations 7−→ ȳ
4 Problème provenant du livre de R. Céhessat ”Exercices commentés de statistique et informatique appliquées”. Dunod 1976, page
176
5 Exemple issu de l’ouvrage ”Statistique concepts et méthodes” Sabin Lessard, Monga ; PUM Masson 1993. exercice 8.25 page 311.
104 CHAPITRE 5. TESTS STATISTIQUES : PRINCIPES GÉNÉRAUX

(i) Quelle est la loi de Ȳ ;


(ii) Le test sera-t-il un test unilatéral ou bilatéral ?
(iii) Calculer et visualiser l’erreur de première espèce ;
(iv) Calculer et visualiser l’erreur de deuxième espèce et la puissance dans les cas où µ = 9.90 et µ = 10.10 ;
(v) Tracer la forme générale de la fonction de puissance en fonction de µ ;
(vi) Comment évolue cette fonction quand le nombre d’observations n augmente (le risque de première espèce
restant le même).

Indications.
(i)
(ii)
(iii) α = 0.00288.
(iv) β = 0.93 pour les deux valeurs de µ.
2

6.3 Exercices sans indications


Exercice 6.3.1. 6
Le poids de paquets de poudre de lessive, à l’issue de l’empactage, est une variable aléatoire réelle X :

X : P −→ R
un paquet 7−→ son poids

On suppose que X suit une loi normale N (µ, σ 2 ) avec σ = 5g. Le poids marqué sur les paquets est 700g. On
désire savoir si la machine de remplissage est bien réglée. Nous allons donc réaliser un test statistique. En pratique
on prélève 10 paquets de lessive et on mesure le poids moyen de ces 10 paquets de lessive. On suppose la population
des paquets de lessive est très grande, on peut donc définir la variable aléatoire suivante :

Ȳ : P 10 −→ R
10 paquets de lessive 7−→ le poids moyen

Enfin on ne veut léser ni le client, ni l’entreprise. On suppose que la variance ne bouge pas.

(i) Donner les hypothèses nulles et alternatives du test. On précisera si le test est unilatéral ou bilatéral.
(ii) Quelle est la loi de Ȳ .
(iii) On prend un risque de première espèce de 0, 05. On a obtenu sur un échantillon une valeur du poids moyen
ȳ = 710, quelle sera la conclusion ?
(iv) Visualiser pour µ = 705 le risque de première espèce, de deuxième espèce et la puissance du test.
(v) Calculer la puissance de ce test quand µ = 690; 695; 700; 705; 710. Tracer la forme de la courbe de puissance
en fonction de µ.
(vi) On veut, pour µ = 705 une puissance de 0, 99. Donner l’équation que doit vérifier n : le nombre de paquets
de lessive qu’il faut prendre.

Exercice 6.3.2. Le cahier des charge entre un semencier et un agriculteur stipule que le taux de contamination
des semences ne doit pas dépasser 2%. Afin de s’assurer que cela est bien le cas le semencier décide de faire un test
statistique. Pour cela il prélève un lot de n semences provenant de l’agriculteur, effectue les tests biologiques sur
ce lot et définit la procédure suivante :
– Si dans le lot, il y a plus de 2% de semences contaminées alors on rejette la production ;
– Si dans le lot, il y a moins de 2% de semences contaminées alors on accepte la production.
6 Exercice construit à partir de l’exercice 10 du chapitre ”théorie des tests” de ”Statistique, exercices corrigés avec rappels de cours”,

J-P Lecoutre, S. Legait-Maille et P. Passi.


6. EXERCICES 105

Cette expérience se formalise de la façon suivante. On définit la population P des semences produites par l’agri-
culteur et la variable aléatoire X de loi de Bernoulli de paramètre p.

X:P −→ {0, 1}
1 semence 7−→ 1 si la semence est contaminée
1 semence 7−→ 0 si la semence n’est pas contaminée

On suppose que la population P est de très grande taille et on définit

Ȳ : P n −→ R
1 lot de semences de taille n 7−→ (le nombre de semences contaminées dans le lot)/n

(i) On suppose que l’on peut approximer la loi de Ȳ par une loi normale. Donner les paramètres de cette lois en
fonction de p et n.

(ii) On définit les deux test suivants :


Test 1
– H0 : p = 0.02 ;
– H1 : p > 0.02.
et
Test 2
– H0 : p = 0.02 ;
– H1 : p < 0.02.

(a) Donner pour ces deux tests le risque de première espèce et donner leur signification concrète.

(b) On suppose que n = 1000. Calculer pour ces deux tests le risque de deuxième espèce pour p = 0.01; 0.02
et 0.03.

(iii) En fait le semencier veut avoir une forte probabilité de rejeter la production si le taux de contamination est
effectivement de 2% et l’agriculteur veut lui avoir une forte probabilité que sa production soit acceptée si le
taux de contamination est de 1%. On étudie pour cela le test :

– H0 : p = 0.02 ;
– H1 : p = 0.01.

(a) Donner la règle de décision pour avoir α = β.

(b) Calculer n pour avoir α = β = 0.05.

Exercice 6.3.3. Un semencier a mis au point une variété OGM d’une plante résistante à un herbicide. Il désire
savoir si, dans des conditions de culture normales il peut y avoir transfert du gène de résistance aux plantes rudérales
à une distance donnée (1 km par exemple). Il met en place sur le terrain l’expérimentation suivante :
106 CHAPITRE 5. TESTS STATISTIQUES : PRINCIPES GÉNÉRAUX

Parcelle

de

rudérales

1 km

?
Parcelle

émettrice

de pollen

On prélève dans la parcelle ”rudérales” n graines et on réalise un test biologique sur ces graines pour savoir s’il
y a eu transfert de gène. On définit la variable aléatoire suivante :

X:G −→ {0, 1}
1 graine 7−→ 0 si la graine n’est pas transformée
1 graine 7−→ 1 si la graine est transformée

On suppose que la population G est très grande et on note p la proportion dans G de graines transformées. On
définit Y = (Y1 , . . . , Yn ) le n-échantillon Bernoullien de X et on considère la statistique

S : Rn −→ R
n
X
y = (y1 , y2 , . . . , yn ) 7−→ S(y) = yi
i=1

S(Y ) est alors la variable aléatoire

S(Y ) : G n −→ R
g = (g1 , g2 , . . . , gn ) 7−→ le nombre de graines transformées parmi les n graines

(i) Quelle est la loi de la variable aléatoire X


(ii) Quelle est la loi de la variable aléatoire S(Y )
(iii) Écrire la variable S(Y ) comme somme de n variables aléatoires de loi de Bernoulli indépendantes.
(iv) On considère le test suivant :
– H0 : il n’y a aucun transfert de gène ;
– H1 : il y a transfert de gène.
avec la règle de décision suivante :
– Si S(y) = 0 alors on accepte l’hypothèse nulle ;
– Si S(y) > 0 alors on rejette l’hypothèse nulle ;
(a) Écrire les hypothèses nulle et alternative à l’aide du paramètre p du test.
(b) Quel est le risque de première espèce α ?
(c) Donner la puissance du test en fonction de n et p.
6. EXERCICES 107

(d) Application numérique : n = 1000 et p = 0.001; 0.002 et 0.01.


(e) Visualiser le risque de deuxième espèce et la puissance du test lorsque p = 0.002.
(f) On veut une puissance de 0.95 pour p = 0.001. Calculer n.
(v) En supposant que la loi de S(Y ) puisse être approximée par une loi normale donner les paramètres de cette
loi.
(vi) On supposera que l’on peut approximer la loi de S(Y ) par une loi normale et on prendra n = 1000. On désire
réaliser le test statistique suivant :
– H0 : p = 0.1
– H1 : p > 0.1
(a) Le test est-il un test unilatéral ou bilatéral ?
(b) On prend α = 0.05. Donner la règle de décision.
(c) Calculer la puissance du test pour p = 0.05; 0.1; 0.11.
(d) Visualiser sur un graphique les risques α, β, et la puissance pour p = 0.11.
(e) Donner l’allure de la fonction puissance en fonction de p pour n fixé.
108 CHAPITRE 5. TESTS STATISTIQUES : PRINCIPES GÉNÉRAUX
Chapitre 6

Estimation

1 Introduction
1.1 Exemples
Exemple 1.1.1. 1 Le merle à plastron (Turdus torquatus) est un oiseau qui en automne erre dans les bois clairs
et les buissons des montagnes, entre 1500 mètres et 2000 mètres d’altitude. En 1968, à la station ornithologique
du Col de la Golèze située dans les Alpes à 1700 mètres d’altitude, 48 merles à plastron ont été capturés au filet
japonais durant 89 jours d’ouverture de la station. Les données de la table (6.1) ont ainsi été obtenues.

Jours 1 2 ... 88 89
Nombre de merles capturés 0 2 ... 0 1

Tab. 6.1 – Données initiales

La table (6.2) donne alors la distribution des fréquences absolues des captures obtenues.

Nombres de merles capturés 0 1 2 3 4 5 6


Nombres de jours 56 22 9 1 0 1 0

Tab. 6.2 – Tableau des fréquences absolues

La représentation graphique du tableau des fréquences relatives associées est donc fournie par le diagramme en
bâtons de la figure (6.1)
0.7

0.6

0.5
Fréquences relatives

0.4

0.3

0.2

0.1

0
0 1 2 3 4 5
k

Fig. 6.1 – Diagramme en bâtons

On suppose que la répartition dans le temps des captures de merles est aléatoires (i.e. qu’une capture n’influence
pas une autre capture). La population des merles est supposée très grande. On peut modéliser cette expérience par
la variable aléatoire suivante :
X : J −→ N
un jour 7−→ nombre de merles capturés
1 Exemple provenant de B. Scherrer [5] page 242

109
110 CHAPITRE 6. ESTIMATION

Nous pouvons supposer que cette variable aléatoire suit une loi de Poisson :
λ −λ
P (X = k) = e
k!
Question : Comment à partir des résultats obtenir une estimation de ce paramètre λ ?
Nous pouvons penser à différentes solutions :
(i) Nous avons P (X = 0) = e−λ , nous pouvons donc penser à la formule :

nombre de jours où il y a eu 0 captures 56


e−λ̂ = =
nombre total de jours 89
 
56
λ̂ = − ln = 0.463
89

(ii) Nous avons aussi E(X) = λ et nous pouvons donc penser à la formule :
22 + 2 × 9 + 3 + 5
λ̂ = ȳ = = 0.551
89
(iii) Mais nous avons encore V ar(X) = λ et nous pouvons donc penser à une troisième formule :
n
1X
λ̂ = s2 = (yi − ȳ)2
n 1

Exemple 1.1.2. 2 Imaginons une population dans laquelle nous savons que tous les éléments ont été numérotés de 1
à N , par exemple lors d’un concours, mais nous ne connaissons pas cette valeur. Nous extrayons de cette population
un échantillon de taille 5 et nous relevons les 5 numéros : y1 = 203; y2 = 504; y3 = 366; y4 = 326; y5 = 77. La
question est comment estimer la valeur de N à partir de ces 5 données. Là encore nous pouvons penser à plusieurs
formules :
(i) maxi=1,...,5 (yi ) ;
(ii) maxi=1,...,5 (yi ) + mini=1,...,5 (yi ) − 1 ;
(iii) 2 × yei (2 fois la médiane des données).

1.2 Position du problème


Les deux exemples ci-dessus posent le problème de savoir quelle est la ”meilleure” formule pour une
estimation. Il faut pour cela avoir un/des critères pour pouvoir choisir. Nous allons dans la section qui suit donner la
définition d’un problème d’estimation et définir les bonnes propriétés que doit avoir un estimateur. Nous donnerons
ensuite les estimateurs pour les paramètres les plus courants.

2 Principes généraux
2.1 Formalisme mathématique, définitions
Considérons le problème de l’estimation d’un taux de germination d’une variété fixée dans des conditions
expérimentales bien définies. Appelons P la population des graines supposée de taille infinie. Estimer le taux de
germination c’est estimer le paramètre p de la loi de Bernoulli de la variable aléatoire

X:P −→ {0, 1}
une graine 7−→ 1 si la graine germe et 0 sinon

Pour cela on réalise l’expérience qui consiste à prendre n graines et à les mettre à germer. On estimera alors le
paramètre p par la fréquence de graines qui auront germé dans l’échantillon. Si nous ”répétons cette expérience
une infinité de fois”, nous définissons ainsi la variable aléatoire suivante :

Ȳ : P n −→ R
le nombre de graines qui germent dans l’échantillon
un échantillon de n graines 7−→
n
2 Exemple provenant de Tommassone [7] page 10
2. PRINCIPES GÉNÉRAUX 111

C’est la théorie de l’échantillonnage (et la théorie des probabilités) qui nous permet d’avoir des résultats sur la
variable Ȳ et en particulier sa loi. Schématiquement nous avons :

G n =ensemble de tous les


G =ensemble de graines échantillonnage
- échantillons de taille n
p =taux de germination
Loi de probabilité de Ȳ

Information sur le Estimation Résultats sur



taux de germination un échantillon de taille n

D’une façon générale nous aurons le schéma suivant :

Y : P n → Rn
X:P→R échantillonnage
- T : Rn → R
loi de X : f (x, θ)
Loi de T (Y1 , . . . , Yn )

Résultats sur
Information Estimation
 un échantillon de taille n
sur la valeur de θ
T (y1 , . . . , yn )

POSTULATS On supposera toujours dans la suite que l’on a un n-échantillon Bernoullien et donc que les
variables aléatoires (Yi )i=1,...,n sont indépendantes et de même loi. Nous écrirons alors (Yi )i=1,...,n i.i.d3

Définition 2.1.1 (Problème d’estimation). Soit X un caractère sur une population Ω de loi f (x; θ) si X est
continue et p(x; θ) si X est discrète. Estimer θ c’est déterminer à partir d’un échantillon (y1 , . . . , yn ) une valeur
approchée de θ. θ s’appelle un paramètre et on notera (Pe ) un problème d’estimation.
3 indépendantes et identiquement distribuées
112 CHAPITRE 6. ESTIMATION

Remarque 2.1.2. La définition ci-dessus est valable que θ soit un réel ou un vecteur. Si l’on désire par exemple
estimer les paramètres µ et σ pour une variable aléatoire de loi normale, on aura : θ = (θ1 , θ2 ) = (µ, σ) ∈ R2 .
Nous n’étudierons dans cette section que le cas où la variable aléatoire sera à valeurs dans R et où le paramètre
sera un réel.

Définition 2.1.3 (Estimateur – Estimation ponctuelle). Soit (Pe )un problème d’estimation. On appelle estimateur
toute variable aléatoire T (Y1 , . . . , Yn ), où (Y1 , . . . , Yn ) est un n-échantillon aléatoire, ayant pour but d’estimer le
paramètre θ. On appelle valeur estimée ou estimation ponctuelle ou estimation par point ou encore estimation la
quantité θ̂ = T (y1 , . . . , yn ) obtenue à partir d’un n-échantillon (y1 , . . . , yn ).

Définition 2.1.4 (Estimation par intervalle – Intervalle de confiance). Soit (Pe ) un problème d’estimation où θ
est réel. On appelle estimation par intervalle ou intervalle de confiance au niveau 1 − α tout intervalle [θ̂1 ; θ̂2 ] tel
que la probabilité que cette intervalle contienne la valeur du paramètre θ soit égale à 1 − α.

Remarque 2.1.5. (i) L’avantage d’avoir un intervalle de confiance est que l’on a ainsi une idée de la précision
de l’estimation.
(ii) Dire que l’intervalle recouvre la valeur du paramètre θ, c’est dire que θ est dans l’intervalle. Nous pouvons
donc prendre comme définition d’un intervalle de confiance tout intervalle tel que :

P (θ ∈ [θ̂1 ; θ̂2 ]) = 1 − α (6.1)

Par abus de langage nous dirons que θ appartient à l’intervalle [θ̂1 ; θ̂2 ] au niveau 1−α. Il faut bien comprendre
en effet que dans l’équation ci-dessus θ est une constante (c’est ce que l’on cherche à estimer). C’est l’intervalle
qui est ici aléatoire. Si l’on désire par exemple avoir un intervalle de confiance d’un taux de germination, nous
réaliserons concrètrement l’expérience consistant à mettre à germer n graines. A partir des résultats de cette
expérience, nous construirons l’intervalle de confiance du taux de germination (voir la sous section (3.3)) .
Si nous réalisons une nouvelle fois cette expérience nous obtiendrons un nouvel intervalle de confiance. C’est
donc bien cet intervalle qui varie et non pas le taux de germination qui est ce qu’il est. Par conséquent écrire
θ ∈ [θ̂1 ; θ̂2 ] au niveau 1−α n’est pas très rigoureux car θ, qui est une constante soit appartient à cet intervalle,
soit est hors de cet intervalle ; il ne peut y être avec une probabilité de 1 − α. La bonne formulation serait
de dire que l’intervalle [θ̂1 ; θ̂2 ] recouvre la vraie valeur du paramètre θ avec la probabilié de (1 − α). Mais
l’habitude veut que l’on emploie la première formulation.

Nous allons maintenant voir les propriétés que doit posséder tout ”bon” estimateur.

2.2 Propriétés des estimateurs


La première chose que l’on demande à un estimateur est de ne pas faire d’erreur systématique, c’est-à-dire que
l’estimateur donne ”en moyenne” la bonne valeur du paramètre recherché. C’est la notion d’estimateur sans biais.

Définition 2.2.1 (Estimation sans biais). Soit (Pe ) un problème d’estimation. Un estimateur T est dit sans biais
si et seulement si l’espérance mathématique de T est égale à la valeur du paramètre θ cherchée :

E(T ) = θ

Définition 2.2.2 (Estimation asymptotiquement sans biais). Soit (Pe ) un problème d’estimation. Un estimateur
Tn est dit asymptotiquement sans biais si et seulement si l’espérance mathématique de Tn tend vers la valeur du
paramètre θ cherchée quand n tend vers +∞ :

E(Tn ) −→ θ
n −→ +∞

Exemple 2.2.3. Considérons le problème de l’estimation d’une variance σ 2 dans le cas où la variable aléatoire
suit une loi normale. Soit donc (Y1 , . . . , Yn ) un n-échantillon aléatoire Bernoullien de la variable aléatoire X dont
on cherche à estimer la variance. Considérons l’estimateur
n
1X
T (Y1 , . . . , Yn ) = (Yi − Ȳ )2 = S 2 (Y )
n i=1

Nous avons alors vu au théorème (4.4.2.1) que l’on a


n−1 2
E(T ) = E(S 2 ) = σ
n
2. PRINCIPES GÉNÉRAUX 113

Par suite S 2 n’est pas un estimateur sans biais de σ 2 . Pour obtenir un estimateur sans biais il faut en fait prendre :
n
1 X n
T (Y1 , . . . , Yn ) = (Yi − Ȳ )2 = S 2 (Y )
n − 1 i=1 n−1

En effet la propriété de linéarité le l’espérance mathématique donne immédiatement :


 
n n
S2 = E S 2 = σ2

E
n−1 n−1
Illustrons ceci par la simulation. Construisons 5000 échantillons de taille 5 de données provenant d’une loi nor-
male N (100, 25). Pour chacun des 5000 échantillons nous calculons la quantité SCE/n. Nous obtenons ainsi
5000 réalisations de la variable aléatoire S 2 . Traçons alors l’histogramme de ces 5000 nombres. Nous obtenons le
deuxième graphique de la figure (6.2). Si maintenant pour les mêmes 5000 échantillons nous calculons les quantités
SCE/(n − 1), nous obtenons 5000 réalisations de la variable aléatoire n/(n − 1)S 2 . L’histogramme de ces 5000
valeurs nous donne alors le troisième graphique de la figure (6.2).
Données SCE/n
0.1 0.05

0.08 0.04

0.06 0.03

0.04 0.02

0.02 0.01

0 0
85 90 95 100 105 110 115 0 25 90

SCE/(n−1)
0.05

0.04

0.03

0.02

0.01

0
0 25 90

Fig. 6.2 – Echantillonnage de S 2 et de nS 2 /(n − 1)

Nous pouvons observer que la valeur moyenne obtenue pour le troisème graphique est bien la valeur de la
variance σ 2 recherchée alors que sur le deuxième elle est inférieure (la valeur est de 4/5σ 2 )
Remarque 2.2.4. Nous tenons a rapeller ici que l’illustration via la simulation informatique n’est qu’une illustra-
tion. Il faudrait en fait non pas prendre 5000 échantillons, mais une infinité. Ce sont les théorèmes mathématiques
qui nous permettent d’affirmer que le résultat est bien exact.
S 2 n’est pas un estimateur de la variance sans biais, mais il est asymptotiquement sans biais puisque E(S 2 ) =
n−1 2
n σ tend vers σ 2 quand n tend vers +∞.
Une deuxième propriété, qui est fondamentale, que doit avoir tout ”bon” estimateur est que si l’on a suffisamment
de données la valeur de la variable aléatoire soit très proche de la valeur du paramètre recherché. Ceci ce traduit par
le fait que l’estimateur soit asymptotiquement sans biais et qu’il fluctue peu autour de son espérance mathématique
lorsque n est grand, c’est-à-dire que sa variance soit petite pour n grand. Nous débouchons ainsi sur la notion
d’estimateur convergent.
Définition 2.2.5 (Estimateur convergent). Soit (Pe ) un problème d’estimation. Un estimateur Tn est dit convergent
si et seulement si il est asymptotiquement sans biais et si sa variance tend vers 0 quand n tend vers +∞ :
E(Tn ) −→ θ et V ar(Tn ) −→ 0
n −→ +∞ n −→ +∞
Exemple 2.2.6. Considérons le problème de l’estimation d’une moyenne µ. Soit donc (Y1 , . . . , Yn ) un n-échantillon
aléatoire Bernoullien de la variable aléatoire X dont on cherche à estimer la moyenne. Considérons l’estimateur
n
1X
Tn (Y1 , . . . , Yn ) = Ȳn = Yi
n i=1

Nous savons alors que : E(Ȳn ) = µ pour tout n. Par suite cet estimateur est sans biais et donc asympotiquement
sans biais. Quand à la variance de cet estimateur elle est :
σ2
V ar(Ȳn ) =
n
Par suite cet estimateur est un estimateur convergent.
114 CHAPITRE 6. ESTIMATION

Exemple 2.2.7. Supposons, pour simplifier, que X suive une loi normale. Nous avons déjà vu à l’exemple 2.2.3
2
que n/(n − 1)S 2 est un estimateur sans biais et le théorème (4.4.2.1) nous dit que V ar(n/(n − 1)Sn2 ) = σ4
n−1
qui donc tend vers 0 quand n tend vers +∞. Par suite n/(n − 1)S 2 est un estimateur convergent de la variance.
Illustrons le phénomène grâce à la simulation. Construisons 5000 échantillons de taille 5 de données provenant
d’une loi normale N (100, 25). Pour chacun des 5000 échantillons nous calculons la quantité SCE/(n − 1). Nous
obtenons ainsi 5000 réalisations de la variable aléatoire n/(n − 1)S 2 . Traçons alors l’histogramme de ces 5000
nombres. Nous obtenons le premier histogramme de la figure (6.3). Nous avons sur ce même graphique tracé la
fonction de densité de la variable aléatoire n/(n − 1)S 2 . Les deuxième et troisième graphiques de cette même figure
sont obtenus de façon similaire mais avec n = 20 et n = 50. Nous avons sur le dernier graphique mis les fonctions
de densité théoriques. Nous observons bien ici le phénomène de convergence : plus n est grand, plus les valeurs de
la variable aléatoire se concentrent autour de la vraie valeur de la variance recherchée.

n=5 n=20
0.1 0.1

0.08 0.08

0.06 0.06

0.04 0.04

0.02 0.02

0 0
0 25 100 0 25 100

n=50
0.1 0.1

0.08 0.08

0.06 0.06

0.04 0.04

0.02 0.02

0 0
0 25 100 0 25 100

Fig. 6.3 – Visualisation de la convergence de la statistique nS 2 /(n − 1)

Nous pouvons maintenant définir un critère pour choisir entre deux estimateurs sans biais : c’est celui qui aura
une dispersion minimale en terme de variance.

Définition 2.2.8 (Estimateur efficace). Soit (Pe ) un problème d’estimation. Un estimateur sans biais Tn est dit
efficace si quel que soit l’estimateur sans biais Tn0 , on a :

V ar(Tn ) ≤ V ar(Tn0 )

Exemple 2.2.9. Considérons une variable aléatoire X de loi uniforme sur [0; 12]. La simulation obtenue avec 1000
échantillons de taille n montre que la moyenne est plus efficace que la médiane (cf. la figure 6.4).

Données
0.1

0.08

0.06

0.04

0.02

0
0 2 4 6 8 10 12

Moyennes Médianes
0.4 0.4

0.3 0.3

0.2 0.2

0.1 0.1

0 0
0 5 10 0 5 10

Fig. 6.4 – Efficacité de la moyenne par rapport à la médiane


3. ESTIMATIONS DES PRINCIPAUX PARAMÈTRES 115

3 Estimations des principaux paramètres


3.1 Estimation d’une variance
Théorème 3.1.1. Soit (Pe ) le problème d’estimation de la variance θ = σ 2 où X est une variable aléatoire réelle
continue. Alors
n
S 2 (Y ) : P n −→ R
n−1
n
1 X
ω = (ω1 , . . . , ωn ) 7−→ (X(ωi ) − Ȳ (ω))2
n − 1 i=1

(i) est un estimateur sans biais de σ 2 . On notera σ̂ 2 l’estimation ponctuelle.


(ii) si X suit une loi normale, c’est un estimateur convergent et asymptotiquement efficace.

Démonstration
Le point (i) a été vu à la section précédente et le point (ii) sera admis. 2

Théorème 3.1.2. Soit (Pe ) le problème d’estimation de la variance θ = σ 2 où X est une variable aléatoire réelle
continue de loi normale alors l’intervalle de confiance au niveau (1 − α) est donné par :
" #
2 SCE SCE
σ ∈ ; au niveau (1 − α)
χ21−α/2 χ2α/2

Corollaire
√ 3.1.3. Sous les mêmes hypothèses que le théorème précédent l’estimation ponctuelle de l’écart type σ
est σ̂ = σ̂ 2 et, si la loi de la variable aléatoire de départ X est normale, l’estimation par intervalle est :
"s s #
SCE SCE
σ∈ ; au niveau (1 − α)
χ21−α/2 χ2α/2

Démonstration
Cela provient du théorème (4.4.2.1) qui dit entre autre que la variable aléatoire :

nS 2 (Y )
K(Y ) = : Pn −→ R
σ2
n
1 X
ω = (ω1 , . . . , ωn ) 7−→ (X(ωi ) − Ȳ (ω))2
σ 2 i=1

suit une loi du Khi-2 à ν = (n − 1) degré de liberté si l’échantillon aléatoire est Bernoullien et si la variable aléatoire
X suit une loi normale. Par suite, si nous définissons les valeurs de χ2α/2 et χ21−α/2 par :

P (K(Y ) < χα/2 ) = α/2 et P (K(Y ) < χ21−α/2 ) = 1 − α/2

nous avons (cf. figure (6.5))

nS 2 (Y )
 
2
P χα/2 < < χ1−α/2 =1−α
σ2
!
nS 2 (Y ) 2 nS 2 (Y )
⇔ P <σ < =1−α
χ1−α/2 χ2α/2

Or à partir des données nous avons une observation de la variable aléatoire nS 2 qui est donnée par la somme
des carrés des écarts SCE. D’où le résultat. 2

Exemple 3.1.4. Reprenons les données de la table 4.1 où l’on s’intéressait à la longueur de la rectrice centrale de
la gélinotte huppée mâle, juvénile. On désire ici avoir une estimation de la variance. La variable aléatoire étudiée
est :

X : Ω −→ R
une gélinotte 7−→ la longueur de sa rectrice
116 CHAPITRE 6. ESTIMATION

0.045

0.04

0.035

0.03

0.025

0.02

0.015

0.01

0.005
← α/2
α/2→
0
0 100
χ20.025 χ20.975

Fig. 6.5 – Loi du Khi-2 à ν ddl

L’estimation ponctuelle de la variance est alors


SCE 1263647 − 50 × 158.862 1822
σ̂ 2 = = = = 37.18mm2
n−1 49 49
On peut supposer ici que la loi de la variable aléatoire est une loi normale et on peut donc calculer l’intervalle de
confiance à 95% de la variance :
" #  
SCE SCE 1822 1822
; = ; = [25.95; 57.74]
χ21−α/2 χ2α/2 70.222 31.555

L’intervalle de confiance de l’écart type est alors :


[5.1; 7.6] au niveau 0.95
Remarque 3.1.5. (i) Si la loi de départ n’est plus une loi normale, la formule n’est plus valable car la variable
2
aléatoire K = nS
σ 2 ne suit plus une loi du Khi − 2 (cf la figure 4.5).
(ii) L’intervalle de confiance n’est pas symétrique : σ̂ 2 n’est pas le milieu de l’intervalle.
(iii) On démontre que l’estimation de l’écart type est biaisée mais qu’elle elle est asymptotiquement sans biais.

3.2 Estimation d’une moyenne


Théorème 3.2.1. Soit Pe un problème d’estimation où X est une variable aléatoire continue et θ = E(X) = µ.
1 Pn
Alors Ȳ = Yi
n i=1
(i) est un estimateur sans biais et convergent de µ ;
(ii) est un estimateur efficace si X suit une loi normale.
Démonstration
Le (i) est immédiat et a déjà été démontré dans le chapitre de la théorie de l’échantillannage. Le (ii) est admis. 2
Théorème 3.2.2 (Intervalle de confiance de la moyenne). Soit Pe un problème d’estimation où X est une variable
aléatoire de loi normale et θ = E(X) = µ alors l’intervalle de confiance est :
(i) si la variance σ 2 est connue
 
σ σ
µ ∈ ȳ − u1−α/2 √ ; ȳ + u1−α/2 √ au niveau (1 − α)
n n

(ii) si la variance σ 2 n’est pas connue


 
σ̂ σ̂
µ ∈ ȳ − t1−α/2 √ ; ȳ + t1−α/2 √ au niveau (1 − α)
n n
Démonstration
(i) Si σ est connue alors la théorie de l’échantillonnage nous dit que la variable aléatoire Ȳ suit une loi normale
2
N (µ, σn ). Nous avons donc :
 
σ σ
P µ − u1−α/2 √ ≤ Ȳ ≤ µ + u1−α/2 √ =1−α
n n
3. ESTIMATIONS DES PRINCIPAUX PARAMÈTRES 117

où u1−α/2 est défini par P (U < u1−α/2 ) = 1 − α/2, U étant une variable aléatoire de loi normale centrée réduite.
On en déduit alors que :  
σ σ
P Ȳ − u1−α/2 √ ≤ µ ≤ Ȳ + u1−α/2 √ =1−α
n n
d’où le résultat.
Ȳ − µ
(ii) Lorsque X suit une loi normale N (µ, σ 2 ), il est toujours vrai que U = suit une loi normale centrée
√σ
n
réduite. Le problème est ici que σ est inconnue. L’idée immédiate est de remplacer σ par son estimation σ̂. Ceci
nous conduit à construire le variable aléatoire suivante :

T (Y ) : P n −→ R
Ȳ (ω) − µ
ω = (ω1 , . . . , ωn ) 7−→ T (ω) = q Pn
i=1 (X(ωi )−Ȳ (ω))2
(n−1)n

Nous pouvons reécrire cette variable aléatoire de la façon suivante


Ȳ −µ

σ/ n U
T (Y ) = q =p
nS 2 (Y )
/(n − 1) Z/ν
σ2

où U est une variable aléatoire de loi normale centrée réduite, Z est une variable aléatoire de loi du Khi-2 à
ν = n − 1 degré de liberté, et ces deux variables aléatoires sont indépendantes. Par suite T suit une loi de Student
à ν = (n − 1) ddl.
Par conséquent, si nous définissons t1−α/2 par :

P (T (Y ) < t1−α/2 ) = 1 − α/2

nous avons (cf. figure (6.6)) :


P (−t1−α/2 < T (Y ) < t1−α/2 ) = 1 − α

0.4

0.35

0.3

0.25

0.2

0.15

0.1

0.05
← α/2
α/2→
0
−4 4
t t
0.025 0.975

Fig. 6.6 – Loi de Student à ν ddl

Nous en déduisons donc


 
Ȳ − µ
P −t1−α/2 < q 2 < t1−α/2  =1−α
S (Y )
n−1
r r !
S 2 (Y ) S 2 (Y )
⇔ P Ȳ − t1−α/2 < µ < Ȳ + =1−α
n−1 n−1

Nous avons à partir de nos données une observation de


s
S 2 (Y )
Ȳ − t1−α/2
n−1
118 CHAPITRE 6. ESTIMATION

qui est r
σ̂ 2
ȳ − t1−α/2
n
Nous avons le même type de résultat pour la deuxième borne de l’intervalle. D’où le résultat.
2
Exemple 3.2.3. Reprenons les données de la table 4.1 où l’on s’intéressait à la longueur de la rectrice centrale
de la gélinotte huppée mâle, juvénile. Calculons l’intervalle de confiance de la moyenne. Nous supposons toujours
ici que la loi de la vaviable aléatoire est normale. Nous avons obtenu à l’exemple 3.1.4 ȳ = 158.86 et σ̂ = 6.0979.
Le nombre de données est n = 50, et donc ν = 49. Par suite nous avons t0.975,ν=49 = 2.0096. Ce qui nous donne
comme intervalle de confiance à 95% :
 
6.0979 6.0979
µ ∈ 158.86 − 2.0096 × √ ; 158.86 − 2.0096 × √ = [157.13; 160.59] au niveau 0.95
50 50
Le théorème précédent nous donne les résultats théoriques lorsque la loi de la variable aléatoire X est normale,
mais on sait, grâce au théorème limite central que Ȳ suit asymptotiquement une loi normale, c’est-à-dire que pour
n grand, on peut approximer la loi de Ȳ par une loi normale. Il reste à savoir à partir de quand on est en droit
d’utiliser cette approximation pour ensuite obtenir des intervalles de confiance de la moyenne. Plus la loi de départ
sera disymétrique, plus n devra être grand. La proposition suivante donne une règle couramment utilisée.

Proposition 3.2.4. Soit Pe un problème d’estimation où X est une variable aléatoire continue et θ = E(X) = µ
alors l’intervalle de confiance est :
(i) si la variance σ 2 est connue et si n > 5
 
σ σ
µ ∈ ȳ − u1−α/2 √ ; ȳ + u1−α/2 √ au niveau (1 − α)
n n

(ii) si la variance σ 2 n’est pas connue et si n > 30


 
σ̂ σ̂
µ ∈ ȳ − u1−α/2 √ ; ȳ + u1−α/2 √ au niveau (1 − α)
n n

4
Définition 3.2.5 (Erreur standard). On appelle erreur standard l’estimation ponctuelle de l’écart type de la
moyenne, c’est-à-dire la quantité : √
σ̂/ n

Remarque 3.2.6. On trouvera aussi comme terminologie erreur standard de la moyenne au lieu d’erreur standard.

Nous pouvons utiliser maintenant les résultats précédents pour déterminer le nombre n de mesures nécessaires
afin d’obtenir une estimation avec une précision voulue. Considérons par exemple le cas où la variable aléatoire X
suit une loi normale, alors l’intervalle de confiance au niveau (1 − α) est donné par :
 
σ̂ σ̂
µ ∈ ȳ − t1−α/2 √ ; ȳ + t1−α/2 √ au niveau (1 − α)
n n

Par suite si nous posons


σ̂
d = t1−α/2 √
n
nous avons alors
µ ∈ [ȳ − d; ȳ + d] au niveau (1 − α)
Nous en déduisons l’équation suivante
 2
t1−α/2 σ̂
n− =0 (6.2)
d
Par suite si nous connaissons la valeur du rapport σ̂/d, nous pouvons en déduire la valeur de n. Attention n apparaı̂t
deux fois dans l’équation (6.2), il est en effet présent de façon implicite dans t1−α/2 qui est en lien avec une loi
de Student à (n − 1) ddl. En pratique, pour avoir un ordre de grandeur de n on remplacera ce terme t1−α/2 par
u1−α/2 .
4 standard error en anglais
3. ESTIMATIONS DES PRINCIPAUX PARAMÈTRES 119

Exemple 3.2.7. On se propose de déterminer la quantité d’olives que l’on doit prendre pour pouvoir estimer à
une décimale près la teneur en huile (exprimée en pourcentage du poids frais). Comme nous n’avons au départ
aucune information, nous prenons, dans un premier temps 100 olives. On suppose que la variable aléatoire ”teneur
en huile” suit une loi normale. Après avoir analysé celles-ci, nous avons obtenu : ȳ = 28.5% et σ̂ = 5.7%. Nous
prenons α = 0.05. L’intervalle de confiance de µ au niveau 0.95 est alors de
 
5.7 5.7
28.5 − t1−α/2 √ ; 28.5 + t1−α/2 √ = [28.5 − 1.12; 28.5 + 1.12]
100 100
n = 100 est donc trop petit. Déterminons maintenant la taille de l’échantillon nécessaire. Nous conservons l’esti-
mation de σ obtenue lors de notre première expérience et nous remplaçons t1−α/2 par u1−α/2 dans l’équation (6.2).
Nous obtenons ainsi
1.96 × 5.7
d= = 0.1
n
soit
n ' 13000
On vérifie a posteriori que la valeur de n est grande et donc que l’approximation de t1−α/2 par u1−α/2 est correcte.
Si n est faible, il faut itérer pour trouver la solution de l’équation (6.2).

3.3 Estimation d’une proportion


Théorème 3.3.1. Soit Pe un problème d’estimation où X est une variable aléatoire de loi de Bernoulli B(p) alors
(i) Ȳ est un estimateur sans biais et convergent du paramètre p et l’estimation ponctuelle est donc donnée par
kobs
p̂ = ;
n
(ii) si l’échantillonnage est avec remise l’intervalle de confiance au niveau (1 − α) est donné par p ∈ [p1 ; p2 ] où
p1 et p2 sont déterminés par :
n
kobs X
P (Ȳ ≥ )= Cni pi2 (1 − p2 )n−i = α/2 (6.3)
n
i=kobs

et
k
obs
kobs X
P (Ȳ ≤ )= Cni pi1 (1 − p1 )n−i = α/2 (6.4)
n i=1

Démonstration
Cela provient tout simplement de la théorie de l’échantillonnage et pour (ii) du fait que nȲ suit une loi binômiale.
2
Les équations 6.3 et 6.4 sont difficiles à résoudre et on sait que l’on peut souvent en pratique approximer
une loi binômiale ou hypergéométrique par une loi normale d’où la proposition suivante. Nous notons dans cette
proposition σ̂p l’estimation de la variance de X̄ qui est données par :
p̂q̂
(i) σ̂p2 = si l’échantillonnage est avec remise ;
n−1
p̂q̂ N − n
(ii) σ̂p2 = si l’échantillonnage est sans remise.
n−1 N
Proposition 3.3.2. Soit Pe un problème d’estimation où X est une variable aléatoire de loi de Bernoulli B(p). Si
n est supérieur aux valeurs mentionnées dans la table 6.3 alors l’intervalle de confiance est données par
 
1 1
p ∈ p̂ − u1−α/2 σ̂p − ; p̂ + u1−α/2 σ̂p + au niveau (1 − α)
2n 2n

Démonstration
Puisque l’on peut faire l’approximation par une loi normale on obtient l’intervalle en prenant l’intervalle de confiance
1
d’une moyenne. Le terme 2n est un terme de correction de non continuité [3] 2
Remarque 3.3.3. (i) Pour les valeurs de n inférieures à 100 et pour n/N < 0.1 on a construit des tables
statistiques qu’il suffit d’aller consulter.
(ii) pour les valeurs de p très proche de 0 on peut aussi utiliser l’approximation de la loi binômiale par une loi de
poisson.
120 CHAPITRE 6. ESTIMATION

p n
0.5 30
0.4 50
0.3 80
0.2 200
0.1 600
0.05 1400

Tab. 6.3 – valeurs minimales de n en fonction de p pour pouvoir utiliser la loi normale dans le calcul de l’intervalle
de confiance d’une proportion

(iii) Quand l’échantillonnage est sans remise, ce qui est toujours le cas en pratique ! ! !, et quand n/N > 0.1, nous
devons travailler avec la loi hypergéométrique, ce qui complique les calculs. Il faut pour répondre à la question
alors se tourner vers les logiciels spécifiques.

Exemple 3.3.4. 5 A la fin de l’été et au cours de l’automne 1975, une épidémie virale provoqua la mort d’environ
1000 cerfs de Virginie (Odocoileus virginianus) dans le New Jersey ([4]). L’analyse d’un échantillon de 146 victimes,
dont le sexe a pu être identifié, révéla que seulement 41 mâles dont 10 faons composaient l’échantillon.
Quel est l’intervalle de confiance au niveau 0.95 du pourcentage de mâles morts de cette maladie lors de
l’épidémie de 1975 ?
41
L’échantillon se compose de 146 animaux et l’estimation ponctuelle de la proportion est p̂ = 146 = 0.28 Comme
cette valeur est proche de 0.3 et que l’effectif de l’échantillon n est supérieur à 80, nous pouvons utiliser l’approxi-
mation normale. L’effectif de la population est ici environ N = 1000, donc
r
0.28 × 0.72 1000 − 146
σ̂p = = 0.0344
145 1000
par suite l’intervalle de confiance est :
 
1 1
p ∈ 0.28 − 1.96 × 0.034 − ; 0.28 + 1.96 × 0.034 + = [0.21; 0.35] au niveau (1 − α)
292 292

4 Compléments
4.1 Lien entre intervalle de confiance et test
L’intervalle de confiance de la moyenne dans le cas où l’on connaı̂t la variance σ 2 et où la variable aléatoire X est normale est donnée par :
» –
σ σ
ȳ − u1−α/2 √ ; ȳ + u1−α/2 √ au niveau 1 − α
n n

Considérons maintenant, toujours sous les mêmes postulats, le test bilatéral suivant :
H0 : µ = µ0
H1 : µ 6= µ0
Nous aurons alors
» la règle de décision suivante : –
σ σ
– si ȳ ∈ µ0 − u1−α/2 √ ; µ0 + u1−α/2 √ alors on accepte l’hypothèse nulle H0 au risque α ;
» n n–
σ σ
– si ȳ 6∈ µ0 − u1−α/2 √ ; µ0 + u1−α/2 √ alors on accepte l’hypothèse alternative H1 au risque α.
n n
Ce qui est equivalent
» à : –
σ σ
– si µ0 ∈ ȳ − u1−α/2 √ ; ȳ + u1−α/2 √ alors on accepte l’hypothèse nulle H0 au risque α ;
» n n–
σ σ
– si µ0 6∈ ȳ − u1−α/2 √ ; ȳ + u1−α/2 √ alors on accepte l’hypothèse alternative H1 au risque α.
n n
En d’autres termes, on peut considérer l’intervalle de confiance comme l’ensemble des valeurs de la moyenne µ0 pour lesquelles on accepterait
l’hypothèse nulle dans le test bilatéral.

4.2 Illustration
Soit Pe un problème d’estimation où la loi de la variable aléatoire X est continue et où θ ∈ R. Soit T un estimateur de θ.
Fixons θ 0 dans R. Si nous connaissons la loi de T pour ce paramètre θ 0 , nous pouvons déterminer les valeurs h1 (θ 0 ) et h2 (θ 0 ) telles que :

0
P (T < h1 (θ )) = α/2
0
P (T < h2 (θ )) = 1 − α/2

5 Exemple provenant de B. Scherrer [5] page 351


4. COMPLÉMENTS 121

Nous avons ainsi défini deux fonctions h1 et h2 . Nous avons aussi


0 0
P (h1 (θ ) < T < h2 (θ )) = 1 − α

Si maintenant nous calculons à partir d’un n-échantillon l’estimation ponctuelle θ̂ = T (y1 , . . . , yn ) nous avons la relation suivante :
0 0 0 −1 −1
θ̂ ∈ [h1 (θ ), h2 (θ )] ⇐⇒ θ ∈ [θ̂1 ; θ̂2 ] = [h2 (θ̂); h1 (θ̂)]

Par conséquent nous avons bien :


P (θ ∈ [θ̂1 ; θ̂2 ]) = 1 − α
Nous retrouvons ici la vraie signification de l’intervalle de confiance : la probabilité que l’intervalle [θ̂1 ; θ̂2 ] recouvre la vraie valeur du
paramètre θ est 1 − α. C’est l’intervalle qui varie, non le paramètre θ.
La figure (6.7) visualise ceci

estimations

paramètres

Fig. 6.7 – Intervalle de confiance

4.3 Estimation robuste


nous avons vu que pour avoir un ”bon” estimateur : estimateur sans biais, convergent et si possible efficace, nous avions souvent besoin
du postulat de normalité. Or ceci n’est pas toujours le cas en pratique. On peut donc aussi rechercher des estimateurs peu sensibles à la loi de
probabilité. Un estimateur ayant cette propriété sera appelé un estimateur robuste. Par exemple, pour une loi symétrique, la médiane est un
estimateur plus robuste de E(X) que la moyenne arithmétique.
Il existe un deuxième type de robustesse. Elle concerne l’insensibilité à des valeurs ”aberrantes”. La encore la médiane sera plus robuste
que la moyenne arithmétique. Les qualités de robustesse et d’efficacité sont très souvent en opposition : on ne peut pas gagner sur tous les
tableaux. En pratique, pour estimer une moyenne, on essaiera, à l’aide des graphiques des boı̂tes à moustache par exemple, de détecter les
valeurs ”aberrantes”, puis on calculera l’estimation de E(X) par la moyenne arithmétique sur les données restantes.
L’étude de la robustesse est hors de propos ici, mais il s’agit d’une propriété en pratique importante.

4.4 Représentation graphique


La figure (6.8) montre comment nous pouvons visualiser l’intervalle de confiance de la moyenne pour l’exemple
(3.2.3). Attention, certains auteurs visualisent l’intervalle [ȳ − es; ȳ + es] où es = √σ̂n est l’erreur standard ! ! !

données Box plot


175
175

170 170

165 165

160 160
Values

155
155

150
150

145
145

140
140
0 0.5 1 1.5 2 1
Column Number

Fig. 6.8 – Intervalle de confiance longueur de la rectrice centrale

La figure (6.10) montre quant-à elle les différents intervalles de confiance de la moyenne à 95% pour les données
des longueurs d’ailes de mésanges noires selon leur âge et sexe.
Remarque 4.4.1. Nous pouvons voir sur les graphiques des boı̂tes à moustaches qu’il y a peut-être des données
aberrantes. Les intervalles de confiances ont ici été calculés sur toutes les données car nous n’avions aucune infor-
mation nous permettant d’exclure une de ces données.
122 CHAPITRE 6. ESTIMATION

68

67

66

65

Longueur d’ailes en mm
64

63

62

61

60

59

58

1 2 3 4

Mâles adultes Mâles immatures Femelles adultes Femelles immatures

Fig. 6.9 – Boı̂tes à moustaches longueurs d’ailes

68

67

66

65
Longueur d’ailes en mm

64

63

62

61

60

59

58

0.5 1 1.5 2 2.5 3 3.5 4 4.5

Mâles adultes Mâles immatures Femelles adultes Femelles immatures

Fig. 6.10 – Données et intervalle de confiance longueurs d’ailes

5 Exercices
5.1 Exercices avec corrigés
Exercice 5.1.1. 6 Une biochimiste étudie un type de moisissure qui attaque les cultures de blé. La toxine contenue
dans cette moisissure est obtenue sous la forme d’une solution organique. On mesure la quantité de substance par
gramme de solution. Sur 9 extraits on a obtenu les mesures suivantes :

1.2 0.8 0.6 1.1 1.2 0.9 1.5 0.9 1.0

On suppose que cette quantité de substance suit une loi normale.


(i) Calculer les estimations ponctuelles de la moyenne et de la variance ;
(ii) Calculer l’intervalle de confiance à 90% de la variance ;
(iii) Calculer les intervalles de confiance à 90% et à 99% de la moyenne.

correction.
(i) L’estimation ponctuelle de la moyenne est
1
µ̂ = ȳ = (1.2 + 0.8 + · · · + 1.0) = 1.0222
n
.
(ii)
n
X n
X
SCE = (yi − ȳ)2 = yi2 − nȳ 2
i=1 i=1
= 9.96 − 9(1.0222)2
= 0.5556
6 Données provenant du livre de Stephan Morgenthaler, ”Introduction à la statistique”, exercice 3 page 146
5. EXERCICES 123

L’estimation ponctuelle de la variance est donc

SCE 0.5556
σ̂ 2 =
= = 0.0694
n−1 8

Et l’estimation ponctuelle de l’écart type est σ̂ = σ 2 = 0.2635.
Remarque. Suivant la précision avec lesquels on fait les calculs intermédiaires on obtiendra des résultats plus
ou moins différents de ceux données ici. Nous n’insisterons pas sur ce point dans la mesure ou aujourd’hui
les calculs sont fait sur l’ordinateur.
(iii) La loi étant supposée normale on a pour intervalle de confiance de la variance
 
2 SCE SCE
σ ∈ ; 2 à 90%
χ2 χ0.05
 0.95 
0.5556 0.5556
σ2 ∈ ; à 90%
15.507 2.733
σ 2 ∈ [0.0358; 0.2033] à 90%

(iv) La loi étant supposée normale on a comme intervalle de confiance pour la moyenne
 
σ̂ σ̂
µ ∈ ȳ − t1−α/2 √ ; ȳ + t1−α/2 √ au niveau 1 − α
n n

Ici α = 0.1 et ν = n − 1 = 8 donc t1−α = 1.86 et


 
0.2635 0.2635
µ ∈ 1.0222 − 1.86 ; 1.0222 + 1.86 à 90%.
9 9
µ ∈[0.8588; 1.1856] à 90%.

Pour α = 0.01, on a t1−α/2 = 3.355 et on obtient

µ ∈ [0.7275; 1.3169]

Remarque.
– On peut constater que plus le degré de confiance est grand, plus l’intervalle est grand ; ce qui est logique.
2

Exercice 5.1.2. 7 Le ministère de la construction désire connaı̂tre le nombre de garages qu’il est souhaitables de
construire avec une H.L.M., afin que les locataires puissent y ranger leur voiture.
(i) Sur 100 ménages on en a trouvé 40 qui possédaient une voiture. Donner l’intervalle de confiance à 95% de la
proportion des ménages qui possèdent une voiture. On supposera que l’approximation par la loi normale est
correcte.
(ii) On suppose connu la proportion p des ménages possédant une voiture. Exprimer n le nombre de ménages
en fonction de p et de d que l’on interroger pour être sûr à 97% que l’estimation ponctuelle soit dans un
intervalle [p − d; p + d]. Pour d fixé quelle est la valeur de p la plus défavorable, c’est-à-dire celle qui donne la
valeur de n la plus grande. Calculer n pour d = 0.01; 0.05 et p = 0.04
(iii) On interroge 3238 ménages. On trouve parmi eux 971 possesseurs de voitures.
(a) Donner l’estimation ponctuelle de la proportion p.
(b) Donner l’intervalle de confiance à 99% de la proportion p.

Remarque 5.1.1. Nous avons maintes fois fait l’approximation d’une loi binômiale par une loi normale. L’intérêt
de cette approximation est de permettre des calculs plus simple. Pour que cette approximation soit correcte il faut
que n soit suffisamment grand et que p ne soit pas trop proche de 0 ou de 1. Dans le cas où le paramètre p est
très proche de 0 la bonne approximation pour la loi binômiale est la loi de Poisson. Le tableau ci-dessous donne les
limites de l’approximation :
7 Exercice n◦ 81 du livre de C. Labrousse ”Statistique exercices corrigés avec rappels de cours”
124 CHAPITRE 6. ESTIMATION

Paramètre p Valeur minimale de n


pour une approximation
par la loi normale
0.5 30
0.4 50
0.3 80
0.2 200
0.1 600
0.05 1400
0.0 poisson

Il ne s’agit ici que de résultats empiriques que nous utiliserons très souvent.

correction.
(i) On a p̂ = 40/100 = 0.4 et
p̂q̂ 0.4 × 0.6
σ̂p2 = = = 2.4210−3
n−1 99
Par suite l’intervalle de confiance de p est

p ∈[p̂ − u1−α/2 σ̂p − 1/2n; p̂ + u1−α/2 σ̂p + 1/2n] au niveau 1 − α


√ √
p ∈[0.4 − 1.96 2.4210−3 − 1/200; 0.4 + 1.96 2.4210−3 + 1/200] à 95%
p ∈[0.298; 0.5015] à 95%

(ii) On est ici dans la théorie de l’ échantillonnage, en effet on suppose que l’on connaı̂t la valeur et p et on cherche
n pour que l’estimation p̂ soit suffisamment proche de p, c’est-à-dire dans un intervalle [p − d; p + d] avec une
probabilité de 0.97. L’estimateur est ici Ȳ et on sait que l’on peut supposer que cette variable aléatoire suit
une loi normale N (p, pq/n). Par suite on a
  r r 
pq pq
P Ȳ ∈ p − u1−α/2 ; p + u1−α/2 =1−α
n n

Par suite pour avoir P (Ȳ ∈ [p − d; p + d]) = 0.97, il suffit de prendre α = 0.03 et
r
pq
d = u1−α/2
n
u 2
1−α/2
⇔n = p(1 − p)
d
avec ici u1−α/2 = u0.985 = 2.17. La fonction n(p) est donc une parabole concave (n00 (p) < 0) et le maximum
sur [0; 1] est en 0.5 (unique point où n0 (p) = 0). (voir la figure 6.11)

12000

10000

8000

6000
n

4000

2000

0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
p

Fig. 6.11 – n en fonction de p

Pour p = 0.4 et d = 0.01 on trouve n ∼ 11301 et pour p = 0.4 et d = 0.05 on trouve n ∼ 452.
(iii) (a) p̂ = 971/3238 = 0.299.
5. EXERCICES 125

(b) u0.995 = 2.576 donc


" r r #
0.299 × 0.701 0.299 × 0.701
p ∈ 0.299 − 2.576 ; 0.299 + 2.576 à 99%
3237 3237
p ∈[0.28; 0.32] à 99%

2
Exercice 5.1.3. 8
Les sondages sont largement utilisés dans le marketing direct : il arrive souvent, en effet, que l’on estime par
sondage le rendement d’un fichier donné, que l’on souhaite comparer les rendements de plusieurs fichiers, ou encore
que, disposant de plusieurs fichiers, l’on souhaite estimer par sondage le rendement global de l’ensemble des fichiers.
Dans cet exercice, on suppose l’existence d’un fichier de N =200 000 adresses. On note p le rendement inconnu du
fichier à une offre d’abonnement à prix réduit avec calculette offerte en prime ; c’est donc la proportion d’individus
qui s’abonneraient si l’offre était faite à tous les individus du fichiers. On prélève au hasard, sans remise, n individus.
On note :
– P la population des 200 000 individus ;
n
– f= ;
N
– σ 2 = pq ;
– Ȳ la variable aléatoire
Ȳ : P n −→ R
nombre d’individus qui s’abonnent
n individus 7−→
n
σ2
Nous pouvons dans ce cas approximer la loi de la variable Ȳ par une loi normale N (p, (1−f ) ). (L’échantillonnage
n
est sans remise et nous ne pouvons ici l’approximer par un échantillonnage avec remise).
(i) On suppose que p = 0.02. Quelle taille d’échantillon doit-on prendre pour estimer p avec une précision absolue
de 0.5% et un degré de confiance de 95% ;
(ii) Même question pour des précisions de 0.3% et 0.1% ;
(iii) Le test a porté sur 10 000 adresses, et on a noté 230 abonnements. Donner l’intervalle de confiance à 95% de
p et du nombre total d’abonnements si l’offre était faite sur l’ensemble du fichier.
correction.
Remarque. Dans le cours, théorème 4.1.1, on dit que

N − n σ2
V ar(Ȳ ) =
N −1 n
alors qu’ici on a
σ2  n  σ2 N − n σ2
(1 − f )
= 1− =
n N n N n
La bonne formule est bien sûr celle du cours, mais ici N est suffisamment grand pour confondre N et N − 1.
(i) La variable de départ est ici

X : P −→ {0, 1}
1 individu 7−→ 1 s’il s’abonne
1 individu 7−→ 0 s’il ne s’abonne pas

X suit une loi de Bernoulli de paramètre p et a donc pour variance pq. On cherche donc a estimer p et on
nous dit que Ȳ peut être approximée par une loi normale de paramètre N (p, (1 − f )pq/n). Nous pouvons
donc écrire  r r 
pq pq
P p − u1−α/2 (1 − f ) ≤ Ȳ ≤ p + u1−α/2 (1 − f ) =1−α
n n
Or ici on veut P (p − d ≤ Ȳ ≤ p + d) = 1 − α avec
– p = 0.02 ;
– d = 0.005 ;
8 Exercice 5 page 8 de l’ouvrage ”Exercices de sondages” A.N. Dussaix et J.M. Grosbras, Ed. Economica 1992
126 CHAPITRE 6. ESTIMATION

– α = 0.05.
Nous pouvons maintenant exprimer n en fonction de d, N, p et α. On veut
r
n  pq
d = u1−α/2 1−
N n

 2
d  n  pq pq pq
⇔ = 1− = −
u1−α/2 N n n N
 
pq d pq
⇔ = +
n u1−α/2 N
N pqu21−α/2
=⇒n =
N d2 + pqu21−α/2

(ii) Application numérique


d 0.005 0.003 0.001
n 2967 8030 54702
(iii) n = 10000 et p̂ = 230/10000 = 0.0230. L’intervalle de confiance est
" r r #
p̂q̂ 1 p̂q̂ 1
p ∈ p − u1−α/2 (1 − f ) − ; p + u1−α/2 (1 − f ) −
n − 1 2n n − 1 2n

au niveau 1 − α. Pour le calcul on peut ici négliger le terme en 1/2n


" r r #
p̂q̂ p̂q̂
p ∈ p − u1−α/2 (1 − f ) ; p + u1−α/2 (1 − f )
n n

et on obtient comme intervalle de confiance sur le nombre d’abonnés


[0.020N ; 0.026N ] = [4000; 5200] à 95%.
2

5.2 Exercices avec indications


9
Exercice 5.2.1.

Intervalle de confiance du coefficient de corrélation linéaire


On rappelle que le coefficient de corrélation linéaire d’un couple de variable aléatoire (X, Y ) est donné par :

cov(X, Y )
ρ=
σ(X)σ(Y )
L’estimation ponctuelle est donnée par :
cov(x, y) SP E(x, y)
ρ̂ = =p
sx sy SCE(x)SCE(y)

Pour avoir un intervalle de confiance de ce coefficient de corrélation linéaire il faut que le couple de variable aléatoire
(X, Y ) soit de loi normale de dimension 2. La distribution d’échantillonnage est toutefois complexe. cependant Fisher
a montré que la variable auxiliaire :  
1 1+R
Z = ln
2 1−R
obéissait à une loi très proche de d’une loi normale de paramètres :
 
1 1+ρ 1
E(Z) = ln ; V ar(Z) =
2 1−ρ n−3
Aussi pour avoir un intervalle de confiance de ce coefficient de corrélation linéaire il faut :
9 Exemple provenant du livre de Scherrer page 591 et suivantes
5. EXERCICES 127

(i) calculer  
1 1 + ρ̂
ẑ = f (ρ̂) = ln ;
2 1 − ρ̂
(ii) Calculer l’intervalle r r
1 1
[ẑ − u1−α/2 ; ẑ + u1−α/2 ]
n−3 n−3
(iii) Calculer à l’aide de la transformation de Fisher inverse, c’est-à dire à f −1 , les limites de l’intervalle de
confiance de ρ.

Application
Dans une étude sur la dynamique des populations naturelles de la tenthrède du pin (Diprion frutetarum) de
Oliveira (1972) a observé la capacité de reproduction en fonction de différentes mesures du cocon et de l’insecte
adulte. La capacité de reproduction a été évaluée par le nombre y d’oocytes (œufs) matures par cocon. Parmi les
mesures prises sur le cocon figure la longueur x en millimètres de ce dernier. Les données relatives à ces observations
sont les suivantes :

x y x y x y
8.5 60 9.5 89 9.4 73
8.0 27 7.8 37 8.9 68
9.0 72 8.8 51 7.9 29
7.7 41 9.5 89 8.2 28
8.5 66 8.8 42 8.8 47
8.0 46 9.0 33 8.0 46
9.1 57 9.4 65 9.0 55
9.0 99 7.8 42 8.5 47
9.3 85 8.6 57 8.9 85
8.4 48 7.8 48 8.7 72
9.5 86 9.1 85 8.8 67
8.2 47 9.7 77 8.8 60
9.5 93 9.0 78 8.6 53
8.9 45 8.5 66 8.4 60
8.5 55 9.0 71 9.4 32
9.1 79 9.2 67 8.8 69
8.5 61 8.8 85 9.5 98
8.5 77 7.8 48 9.0 58
8.5 77 8.7 49 8.0 43
8.9 43 9.0 39 8.5 64
8.5 56 9.3 76 8.6 70
7.4 25 8.5 82 9.1 33
10.0 56 9.8 48 8.8 57

On donne : P P
x = 603.5mm y = 4139œufs
P i2 i 2
P i2 i 2 P
i i = 5299.11mm
x i i = 271681œufs
y i xi yi = 36576.4
(i) Donner l’intervalle de confiance à 99% du coefficient de corrélation linéaire.

Indications. On trouve ρ̂ = 0.54 et l’intervalle de confiance à 99% est [0.28; 0.73]. 2

Exercice 5.2.2. Les montants de timbres ont été relevés sur un échantillon pris au hasard de 400 paquets traités
par la poste d’une zone de distribution un jour donné. On suppose que la population des paquets est grande et que
la loi de la variable aléatoire modélisant le prix est normale. On donne ȳ = 4.70 euros et SCE = 3080
(i) Donner une estimation ponctuelle σ̂ de l’écart type de la variable aléatoire prix.
(ii) Pouvez-vous donner l’intervalle

de confiance à 90% de cet écart type. Pour ν > 100 on peut approximer une
2
loi du Khi-2 par (U + 22ν−1) où U suit une loi normale centrée réduite.
(iii) Donner l’intervalle de confiance à 90 % de la moyenne µ de la variable aléatoire prix.
(iv) Calculer l’intervalle [ȳ − √σ̂ ; ȳ + √σ̂ ]. Quel niveau de confiance est associé à cet intervalle ?
n n
128 CHAPITRE 6. ESTIMATION

(v) Si on tirait 100 échantillons de 400 paquets indépendamment les uns des autres, et si on calculait pour chacun
d’eux l’intervalle de confiance à 90%, quelle proportion de ces 100 intervalles contenant effectivement la valeur
inconnue de µ peut-on attendre ?
(vi) Sur quelle population cette expérience permet-elle de conclure ?
Indications.
(i) σ̂ 2 = 7.72.
(ii)
σ 2 ∈ [6.9; 8.71] à 90%
(iii)
µ ∈ [4.47; 4.93] à 90%
(iv) (1 − α) = 0.6826
2
Exercice 5.2.3. Un économiste souhaite connaı̂tre la variabilité des revenus des habitants d’une ville donnée. On
sait, par des études antérieures, que l’on peut considérer la loi de la variable aléatoire ”revenus” est une loi log
normale. Il collecte pour son étude 100 données et obtient les estimations suivantes à partir de ces données :
– µ̂ = 10000 ;
– σ̂ 2 = 4000000.
(i) Donner un intervalle de confiance à 99% de la moyenne.
(ii) On désire, toujours avec un degré de confiance de 99%, une précision absolue pour l’intervalle de confiance
d = 100. Combien faut-il de données ?
(iii) Pouvez-vous donner un intervalle de confiance à 90% de la variance ?
(iv) Après avoir discuté avec l’économiste, on s’aperçoit que ces données on été obtenues en interrogeant les
personnes dans la semaine et l’après-midi par téléphone. Quels problèmes cela pose-t-il ?
Indications.
(i) µ ∈ [99484.8; 100515.2] à 99%
(ii) n ∼ 2654
(iii) Pensez aux hypothèses.
2

5.3 Exercices sans indications


Exercice 5.3.1. Geissler a observé dans 53680 familles ayant 8 enfants, 221023 garçons et 208417 filles.
(i) Donner l’intervalle de confiance à 95% de la proportion de garçons dans la population.
(ii) Commentaire.
Exercice 5.3.2. 10 On a mesuré la quantité d’alcool total (mesurée en g/l) contenue dans 10 cidres doux du
marché. On suppose que la quantité d’alcool des cidres suit une loi normale de moyenne µ et d’écart-type σ. On a
obtenu les valeurs suivantes :
5.42, 5.55, 5.61, 5.93, 6.15, 6.20, 6.79, 7.07, 7.37
.
(i) Déterminer l’intervalle de confiance à 95% de la moyenne :
(a) si l’on suppose que σ = 0.6g/l ;
(b) si σ est inconnu.
(ii) Déterminer un intervalle de confiance de σ 2 à 95%.
Exercice 5.3.3. On a pesé 15 poulpes mâles pêchés au large des côtes mauritaniennes. On suppose que pour cette
espèce de poulpe, le poids suit une loi normale. On a obtenu les valeurs suivantes (en grammes) :

1150, 1500, 1700, 1800, 1800, 1850, 2200, 2700, 2900, 3000, 3100, 3500, 3900, 4000, 5400

(i) Donner l’intervalle de confiance de la moyenne à 95%. Donner l’amplitude de cet intervalle.
10 www.cnam.fr/math/IMG/pdf/Fiche8.pdf
5. EXERCICES 129

(ii) Si n désigne la taille d’un échantillon, donner l’amplitude de l’intervalle de confiance en fonction de n.
(iii) On souhaite construire un intervalle de confiance de la moyenne à 95% d’une amplitude de 500g. Quelle taille
d’échantillon faut-il ?
Exercice 5.3.4. Cet exercice est difficile. 11
Un commissaire aux Comptes contrôle un stock composé de N = 2000 références d’une valeur totale V inconnue.
Les documents comptables fournissent une ”valeur totale d’inventaire” de 5447560 d’Euros. On définit les deux
variables aléatoires suivantes :

X : S −→ R
un article 7−→ sa valeur comptable d’inventaire

Y :S −→ R
un article 7−→ sa valeur réelle
2
On note µX et µY les espérances mathématique des variables X et Y ; et σX et σY2 les variances des variables
X et Y .
(i) Les variables aléatoires X et Y sont-elles a priori indépendantes ? (On justifiera la réponse).
(ii) Le commissaire fait tirer sans remise un échantillon de n = 160 références dans le stock afin d’estimer V
et V̄ (valeur comptable moyenne par référence). On obtient ȳ = 2705, 64 Euros et σ̂y = 1527, 31 Euros. On
2
n σY
suppose que l’on peut approximer la loi de Ȳ par une loi normale N (µ, (1 − N ) ).
n
(a) Donner un intervalle de confiance à 99% de µY .
(b) Donner l’estimation ponctuelle de V et un intervalle de confiance à 99% de V .
(c) Conclusion.
(d) On veut une précision absolue, c’est-à-dire une demi longueur de l’intervalle de confiance, de 100 pour
la moyenne µY . Donner le nombre d’articles qu’il faut prendre.
(e) Quelle est la valeur de µX ?
(iii) On pose D = Y − X, Yd = µX + D et Ȳd = µX + D̄
(a) Calculer E(Ȳd ) en fonction de µY .
(b) On démontre que :
 n  V ar(Yd )
V ar(Ȳd ) = 1 −
N n
On suppose que Ȳd suit une loi normale. Dans l’échantillon on a trouvé : d¯ = 10.67 Euros et σ̂D = 41.82
Euros. Donner l’intervalle de confiance à 99% de µY .
(c) Commentaires

11 Exercice 7 de ”Exercices de sondages” A-M. Dussaix et J-M Grosbras


130 CHAPITRE 6. ESTIMATION
Bibliographie

[1] Gildas Brossier and Anne-Marie Dussaix. Enquêtes et sondages. Méthodes, modèles, applications, nouvelles
technologies. Dunod, 1999. ISBN : 2 10 004023 5.
[2] Donald E. Catlin. Estimation, Control, and the Discrete Kaman Filter. Springer, 1989.
[3] W.G. Cochran. Sampling Techniques. Wiley, New York, 1977.
[4] P. McConnel, R. Lund, and N. Rose. The 1975 outbreak of hemorrhagic desease among white tail deer in north
western new jersey. Transaction of the Northeast Section of the Wildlife Soc. ; Hershey, Pennsylvania, 1976.
[5] Bruno Scherer. Biostatistique. Gaëtan Morin, 1984.
[6] Yves Tillé. Théorie des sondages, échantillonnage et estimation en population finies. Cours et exercices corrigés.
Dunod, 2001. ISBN : 2 10 005484 8.
[7] R. Tomassone, C. Dervin, and J.P. Masson. BIOMÉTRIE, Modélisation de phénomènes biologiques. Masson,
1993.

131

Vous aimerez peut-être aussi