11extrait Statistiques

Département Biosciences Végétales
Module : Statistique 1
J. Gergaud
19 septembre 2006
Table des matières
1 Introduction 1
1 Image de la statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
2 Exemples de problèmes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
2.1 Cas à une seule variable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
2.2 Cas à deux variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
2.3 Cas d’un nombre fini de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
3 Schéma général . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
4 Enseignement des mathématiques en tronc commun . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
5 Modules Statistique 1 et 2, première année . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
5.1 Objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
5.2 Statistique 1 : Outils et concepts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
6 Difficulté de cet enseignement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
6.1 Petite approche historique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
6.2 Mon sentiment sur cet enseignement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
7 Contrôle de connaissance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2 Statistique descriptive 5
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2 Types de données traitées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.1 Notion de caractère . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2 Types de caractères qualitatifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.3 Types de variables statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
3 Statistique descriptive à une dimension . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
3.2 Les distributions de fréquences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
3.3 Réduction des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.4 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
4 Statistique descriptive à 2 dimensions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.2 Les distributions en fréquences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
4.3 Représentations graphiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
4.4 Réduction des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
4.5 Droite de régression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
5 Compléments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
5.1 Changement de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
5.2 Cas à plus d’une variable explicative . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
6 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
6.1 Exercices avec solutions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
6.2 Exercices avec indications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
6.3 Exercices sans indications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3 Probabilités 35
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2 Définition des probabilités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.1 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.2 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.3 Représentation graphique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3 Probabilités conditionnelles et indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
i
ii TABLE DES MATIÈRES
3.1 Probabilités conditionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

3.2 Indépendance d’événements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4 Variables aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.2 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.3 Fonction de répartition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.4 Fonction d’une variable aléatoire réelle continue . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.5 Variables aléatoires vectorielles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.6 Variables aléatoires indépendantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
5 Espérance mathématique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
5.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
5.2 Espérance d’une somme de variables aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5.3 Variance–Covariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
6 Théorèmes limites . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
6.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
6.2 Lois des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4 Théorie de l’échantillonnage 59
1 Modélisation des variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
1.2 Variable aléatoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
2 Introduction à la théorie de l’échantillonnage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
2.1 Modélisation des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
2.2 Exemple de l’urne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
2.3 Exemple du référendum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
3 Échantillonnage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
3.1 Échantillon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
3.2 Schéma général . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
4 Distribution d’échantillonnage de certaines statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . 68
4.1 Distribution déchantillonnage de la moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
4.2 Distribution d’échantillonnage de la variance . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
4.3 Distribution d’échantillonnage de T . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
4.4 Distribution d’échantillonnage du rapport de variance . . . . . . . . . . . . . . . . . . . . . . 72
4.5 Distribution d’échantillonnage d’une fréquence . . . . . . . . . . . . . . . . . . . . . . . . . . 72
5 Principales lois de probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
6 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
6.1 Exercices avec corrigés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
5 Tests statistiques : principes généraux 87

1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
2 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
2.1 Problème . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
2.2 Cas simplifié . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
2.3 Cas général . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
3 Principes généraux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
3.1 Logique générale d’un test statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
3.2 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
4 Test bilatéral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
4.1 Puissance d’un test bilatéral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
4.2 Puissance et paramètres α, σ 2 et n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
4.3 Tests multiples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
5.1 Présentation et conclusion d’un test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
5.2 Risque de troisième espèce . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
6 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
TABLE DES MATIÈRES iii
6 Estimation 109
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
1.1 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
1.2 Position du problème . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
2 Principes généraux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
2.1 Formalisme mathématique, définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
2.2 Propriétés des estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
3 Estimations des principaux paramètres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
3.1 Estimation d’une variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
3.2 Estimation d’une moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
3.3 Estimation d’une proportion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
4 Compléments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
4.1 Lien entre intervalle de confiance et test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
4.2 Illustration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
4.3 Estimation robuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
4.4 Représentation graphique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
5 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
Chapitre 1
Introduction
1 Image de la statistique
– Il existe 3 formes de mensonges : les simples mensonges, les affreux mensonges et les statistiques.
– Le lit est plus dangereux que l’automobile car il est prouvé statistiquement que l’on meurt plus dans un lit
que dans une voiture.
– Le statisticien est un homme qui prétend qu’avoir la tête dans une fournaise et les pieds dans la glace permet
de bénéficier d’une température moyenne agréable.
2 Exemples de problèmes
2.1 Cas à une seule variable
Exemple 2.1.1. On désire estimer le nombre d’animaux d’une espèce donnée dans une région donnée.
Outil statistique : l’estimation

Exemple 2.1.2. On désire estimer le taux de germination d’une variété donnée.
Outil statistique : l’estimation

Exemple 2.1.3. On désire savoir laquelle de deux variétés (ou plus) a le plus fort rendement.
Outils statistiques : le test de Student, l’analyse de la variance.
2.2 Cas à deux variables

Exemple 2.2.1. Quelle est la relation entre le rendement et la pluviométrie à une période donnée ?
Exemple 2.2.2. Y-a-til une liaison entre le rendement et la teneur du grain en protéines
La réponse à ces questions repose sur l’étude de modèles mathématiques de nature aléatoire :
– la régression linéaire simple
– la régression non linéaire
– la corrélation
2.3 Cas d’un nombre fini de variables

Exemple 2.3.1. Quelle est la relation entre le rendement d’une variété donnée et un ensemble de variables
météorologiques.
Outil statistique : la régression linéaire multiple

Exemple 2.3.2. Quelles sont les relations existant entre p caractères morphologiques, physiologiques et agrono-
miques d’une plante donnée : hauteur totale, dimension foliaire, ramification, ... ? On s’intéresse alors à la structure
de l’ensemble des individus et/ou de l’ensemble des caractères.
Outil statistique : l’Analyse factorielle en Composantes Principales (ACP) et l’Analyse Factorielle des Corres-
pondances (AFC)
1
2 CHAPITRE 1. INTRODUCTION
Exemple 2.3.3. En taxinomie biologique et en écologie on est souvent amené à des problèmes de classifications.
Outil statistique : l’Analyse Factorielle Discriminante (AFD), méthodes de classification
3 Schéma général
Les statistiques La statistique

9
?
La statistique descriptive La statistique mathématique
Z Z
Z Z
Z Z
Z Z
Z Z
=
~
Z
= ~
Z
La statistique Analyse Inférence Théorie
descriptive des statistique des
à 1, 2, 3 données tests
dimensions
4 Enseignement des mathématiques en tronc commun

– Modules Statistique 1 et 2 1ère année
– Module Algèbre Linéaire 1ère année
– Module Optimisation 1ère année
– Module Plans d’expérience 2ème année
– Module Analyse Multivariable 2ème année
5 Modules Statistique 1 et 2, première année

5.1 Objectifs
Objectifs finaux
– Savoir sur un cas concret simple et pour une question donnée simple choisir la méthode statistique adaptée
et savoir appliquer cette méthode
– Connaı̂tre les limites de chaque méthode et interpréter correctement les résultats
– Prendre conscience de l’importance d’une bonne collecte des données
Sous objectifs
– Savoir ce qu’est un ”bon” estimateur
– Savoir ce qu’est un intervalle de confiance
– Savoir ce qu’est un test statistique
– Hypothèse nulle et alternative
– Risque de première espèce, notion de puissance
– Connaı̂tre la régression linéaire simple.
6. DIFFICULTÉ DE CET ENSEIGNEMENT 3
5.2 Statistique 1 : Outils et concepts

Cours
– Statistique descriptive à 1 et 2 dimensions
– Théorie de l’échantillonnage ; lois du χ2 , de Student et de Fisher
– Théorie des tests
– Estimation
TD
TD1 : Statistique descriptive. Décrire les données par des graphiques et/ou quelques quantités numériques
TD2 : Probabilités, théorie de l’estimation
TD3 : Théorie des tests statistiques
TD4 : Tests statistiques et estimation
TD5 : Estimation
6 Difficulté de cet enseignement

6.1 Petite approche historique
– En 2238 avant J.C. l’empereur chinois Yao organisa un recensement des productions agricoles
– Sans le recensement d’Hérode Jésus Christ ne serait pas né dans une étable
– Rôle précurseur des marchands de la République de Venise rassemblant au XIIIe et XIVe siècles des données
sur le commerce extérieur.
– Premiers concepts au XVIIe siècle
– En Prusse : École descriptive allemande qui créa le mot statistique1 (Statistik)
– En Angleterre : École des arithméticiens politiques qui s’est attachée à l’aspect mathématique des assurances
– En France : L’état, avec Colbert et Vauban exécute de nombreux inventaires et recensements
– Au XVIIIe et XIXe siècle on assiste surtout au développement de bureaux de statistiques
– Développement des probabilités
– Pierre Simon de FERMAT (1601-1665)
– Blaise PASCAL (1623-1662)
– Jacques BERNOULLI (1654-1705)
– Abraham de MOIVRE (1667-1754)
– Thomas BAYES (1702-1761)
– Pierre Simon de LAPLACE (1749-1827)
– Simeon Denis POISSON (1781-1840)
– Karl Friedrich GAUSS (1777-1855)
– Irénée Jules BIENAYME (1796-1878)
– Pafnuti Livovic TCHEBYCHEV (1821-1894)
– Adolphe QUETELET (1796-1874) : Lien entre les probabilités et les statistiques
– Francis GALTON (1822-1911) : Droite de régression
– Karl PEARSON (1857-1936) : Khi-2, corrélation, tables statistiques
– William Sealy GOSSET (1876-1937) : Pseudonyme de STUDENT
– Ronald Aylmer FISHER (1890-1962) : Analyse de la variance, maximum de vraisemblance
– Jerzy NEYMAN (1894-1981) : Théorie des tests, intervalle de confiance
– Egon PEARSON (1895-1980) : Théorie des tests
– ...
6.2 Mon sentiment sur cet enseignement

– Difficulté liée à l’assimilation de concepts et à la formalisation mathématique.
– Gros problème de terminologie et de notations
– Lorsque l’on fait des statistiques on est toujours avec du concret et de l’abstrait. On travaille avec des données
et on utilise de la théorie.
– Un bon statisticien doit :
– Être rigoureux
1 Ce mot vient du substantif latin status qui signifie état
4 CHAPITRE 1. INTRODUCTION
– Savoir utiliser le formalisme mathématique

– Être pragmatique et plein de bon sens
– La formation en France est encore très déterministe (Descarte, Laplace,...)
– On aimerait avoir une réponse par oui ou non ! ! !
– La démarche statistique ne s’acquiert pas en 40 heures ! ! !
– C’est difficile mais passionnant.
7 Contrôle de connaissance
– Examen écrit de 2 heures avec une page A4 recto-verso, calculatrice et tables statistiques ;
– Notations de TD ;
Chapitre 2
Statistique descriptive
1 Introduction
2 Types de données traitées
2.1 Notion de caractère
Définition 2.1.1 (Caractère). On appelle caractère tout critère sur lequel repose une étude statistique.
Exemple 2.1.2. La taille d’un individu, le poids d’un objet, la concentration d’une substance.
Définition 2.1.3 (Caractère quantitatif, variable statistique). On appelle caractère quantitatif ou variable statis-
tique tout caractère directement représentable par des nombres.
Exemple 2.1.4. La taille, l’âge d’un individu, le nombre de particules.
Définition 2.1.5 (Caractère qualitatif). On appelle caractère qualitatif tout caractère non quantitatif
Exemple 2.1.6. La couleur des yeux, pile ou face.
Remarque 2.1.7. On pourrait très bien coder pile ou face par 0 et 1, mais nous aurions tout de même un caractère
qualitatif d’où le mot directement dans la définition. On peut aussi dire qu’une variable statistique est un caractère
mesurable. Les opérations comme l’addition ont donc un sens sur un caractère quantitatif, ce qui n’est pas le cas
sur un caractère qualitatif.
2.2 Types de caractères qualitatifs

On range les caractères qualitatifs en plusieurs catégories :
– Les caractères qualitatifs ordonnés (i.e. que l’on peut les classer) comme le niveau d’un élève (bon, moyen,
mauvais).
– Les caractères qualitatifs non ordonnés comme la couleur des yeux.
– Les caractères dichotomiques (i.e. qui ne peuvent prendre que deux valeurs différentes) comme le sexe, pile
ou face.
2.3 Types de variables statistiques

Définition 2.3.1 (Variable discrète). On appelle variable discrète toute variable qui ne peut prendre qu’un nombre
fini ou dénombrable de valeurs.
Exemple 2.3.2. – Nombre de points sur la face supérieur d’un dé.

– Nombre de lancés d’une pièce de monnaie avant d’obtenir face.
Définition 2.3.3 (Variable continue). On appelle variable continue toute variable pouvant prendre un nombre
infini non dénombrable de valeurs.
Exemple 2.3.4. – Poids d’un individu.

– Taille d’un individu.
– Concentration d’une substance.
5
6 CHAPITRE 2. STATISTIQUE DESCRIPTIVE
3 Statistique descriptive à une dimension

3.1 Introduction
Nous allons nous intéresser dans cette section au cas d’un seul caractère quantitatif. Nous avons donc au départ
une suite de n nombres :y1 , y2 , . . . , yn . Nous pouvons bien évidemment avoir dans cette suite plusieurs fois la même
valeur.
Définition 3.1.1 (Série statistique). On appelle série statistique la suite y1 , y2 , . . . , yn .
Exemple 3.1.2. Notes sur 10 de 10 élèves à un devoir de français.
10; 05; 01; 09; 02; 05; 01; 09; 09; 01
3.2 Les distributions de fréquences

Lorsque la série est trop grande mais que les valeurs prises par la variable ne sont pas trop nombreuses nous
pouvons condenser les résultats sous la forme d’une distribution de fréquences. Notons xi les différentes valeurs du
caractère étudié obtenues i = 1, . . . , p.
Définition 3.2.1 (Fréquence absolue ou fréquence). On appelle fréquence absolue le nombre d’occurrences d’une
même valeur observée xi , c’est-à-dire le nombre de fois où la valeur xi est observée. On note ni cette fréquence liée
à la valeur xi .
Pp
Remarque 3.2.2. On a toujours n = i=1 ni
Notation 3.2.3. On note aussi n. = n

Le point signifie que l’on a fait une sommation sur l’indice i.
Définition 3.2.4 (Fréquence relative). On appelle fréquence relative associée à xi la quantité :

ni
fi =
n
Remarque 3.2.5. On a toujours :
p p p
X X ni 1X
fi = = ni = 1
i=1 i=1
n n i=1
Définition 3.2.6 (Fréquences cumulées absolues). Les fréquences cumulées absolues sont données par :
N0 = 0
N1 = n1
..
.
Xk
Nk = ni si k ∈ {1, . . . , p}
i=1
..
.
Nk = n si k > p
Définition 3.2.7 (Fréquences cumulées relatives). Les fréquences cumulées relatives sont données par :
F0 = 0
F1 = f1
..
.
Xk
Fk = fi si k ∈ {1, . . . , p}
i=1
..
.
Fk = 1 si k > p
3. STATISTIQUE DESCRIPTIVE À UNE DIMENSION 7
Exemple 3.2.8. Nous donnons dans le tableau ci-dessous les valeurs des différentes fréquences définies précédemment
pour l’exemple (3.1.2).
Notes Fréquences Fréquences Fréquences cumulées Fréquences cumulées
absolues relatives absolues relatives
0 0 0 0 0
1 3 0,3 3 0,3
2 1 0,1 4 0,4
3 0 0 4 0,4
4 0 0 4 0,4
5 2 0,2 6 0,6
6 0 0 6 0,6
7 0 0 6 0,6
8 0 0 6 0,6
9 3 0,3 9 0,9
10 1 0,1 10 1
Nous avons étudié le cas où la variable ne pouvait prendre que peu de valeurs différentes. Il se pose donc la
question de savoir ce que l’on fait lorsque l’on a des valeurs observées distinctes en grand nombre (ce qui est le cas
en particulier lorsque l’on étudie des variables continues). Dans ce cas nous condensons les données en groupant
les observations en classes. Le nombre de classes est en général compris entre 10 et 20 et l’intervalle de classe est
constant (mais ceci n’est pas obligatoire). Une classe est définie par ses limites. La limite supérieure d’une classe
étant la limite inférieure de la classe suivante. Quant à la valeur de la classe, on choisit souvent le milieu de la
classe. Une fois que les classes ont été définies nous pouvons comme précédemment calculer les fréquences absolues,
relatives, cumulées absolues et cumulées relatives.
Exemple 3.2.9. Distribution de fréquence des étendues des exploitations agricoles belges (ces donnée proviennent
de l’ouvrage de Dagnélie “Théorie et méthodes statistiques” volume 1).
Etendues des Valeurs des Fréquences Fréquences Fréquences cumulées
exploitations classes absolues relatives relatives
de 1 à 3ha 2ha 58122 0,2925 0,2925
de 3 à 5ha 4ha 38221 0,1924 0,4849
de 5 à 10ha 7,5ha 52684 0,2651 0,75
de 10 à 20ha 15ha 35188 0,1771 0,9271
de 20 à 30ha 25ha 8344 0,0420 0,9691
de 30 à 50ha 40ha 3965 0,0199 0,9890
de 50 à 100ha 75ha 1873 0,0094 0,9984
plus de 100ha ? 309 0,0016 1,000
Remarque 3.2.10. Dans l’exemple ci-dessus la dernière classe n’a pas de limite supérieure. On dit que la classe
est ouverte.
Nous avons jusqu’à présent travaillé directement avec des nombres, mais un tableau de chiffres (même en
quantité restreinte) n’est jamais très lisible aussi nous allons maintenant étudier les représentations graphiques des
fréquences. Dans tous les cas nous aurons ici en abscisse les valeurs des variables et en ordonnées les fréquences.
Considérons tout d’abord le cas des fréquences non cumulées. Deux cas se présentent suivant que les données
sont groupées (i.e. mises en classes) ou non. Lorsque celles-ci sont non groupées, nous utiliserons des diagrammes
en bâtons : Pour chaque valeur de xi , nous traçons un segment de droite de longueur égale à la fréquence (absolue
ou relative suivant les cas) associée à xi .
Exemple 3.2.11. Reprenons les données de l’exemple (3.1.2), la figure (2.1) est le diagramme en bâtons relatif
aux fréquences relatives.
Lorsque les données sont groupées, nous représentons ces fréquences par des rectangles contigus dont les inter-
valles de classes sont les bases et les hauteurs des quantités telles que l’aire de chaque rectangle soit proportionnelle
à la fréquence de la classe correspondante.
Remarque 3.2.12. Si les classes sont équidistantes nous pouvons alors prendre comme hauteur les fréquences.
Exemple 3.2.13. Représentons les fréquences relatives des étendues des exploitations agricoles belges (exemple
(3.2.9))
0.35
0.3
0.25
Fréquences relatives
0.2
0.15
0.1
0.05
0
0 2 4 6 8 10
Notes
Fig. 2.1 – Diagramme en bâtons
0.16
0.14
0.12
0.1
0.08
0.06
0.04
0.02 ← Aire=0.01771×10=0.1771
0
Surfaces en ha
Fig. 2.2 – Histogramme
Définition 3.2.14 (Histogramme). On appelle histogramme un diagramme du type précédent.
Remarque 3.2.15. (i) Lorsque nous étudions une variable continue nous avons dans la pratique un grand
nombre de mesures, certaines étant très proches les unes des autres, d’autres étant plus éloignées. Si nous
représentions ces données sous la forme d’un diagramme en bâtons nous aurions un graphique du type suivant :
1.8
1.6
1.4
Fréquences absolues
1.2
0.8
0.6
0.4
0.2
0
0 1 2 3 4 5 6 7 8
Valeurs de la variable
Fig. 2.3 – ”Densité”
La densité d’une zone indiquerait alors que beaucoup de données seraient dans cette zone. Mais un tel gra-
phique n’est pas très lisible et une idée est donc de représenter cette densité en ordonnées. Celle-ci est obtenue
en divisant le nombre de mesures obtenues dans une classe (i.e. la fréquence absolue) par la longueur d’in-
tervalle de classe. C’est bien ceci que nous représentons dans un histogramme.
(ii) Les fréquences relatives sont en fait dans la pratique des estimations de probabilités. On verra que dans le cas
continu la probabilité qu’une variable aléatoire X appartienne à un intervalle ]xi , xi+1 [ est donnée par l’aire
A délimitée par cet intervalle et la fonction de densité :
0.4
0.35
0.3
0.25
f(x)
0.2
0.15 ←A
0.1
0.05
0
−1 0 1 2 3 4 5
xi xi+1
x
Fig. 2.4 – Fonction de densité
L’histogramme des fréquences relatives n’est alors qu’une approximation empirique de cette fonction de densité
(si le facteur de proportionnalité est 1).
(iii) Si l’on veut mettre sur un même graphique une loi théorique de distribution de probabilités, il faut impérativement
travailler avec les fréquences relatives, et un facteur de proportionnalité de 1 pour l’histogramme.
Remarque 3.2.16. Attention, dans un logiciel comme Excel , le terme histogramme n’a pas le sens ci-dessus.
Remarque 3.2.17. La détermination du nombre de classes d’un histogramme ainsi que de leurs amplitudes est
difficile. De plus, représenter une distribution d’une variable continue par une fonction en escalier n’est pas très
logique. La théorie de l’estimation de densité permet de résoudre ces difficultés. Nous allons ici donner quelques
éléments de la méthode du noyau.
Considérons tout d’abord le cas d’histogrammes à classes d’égales amplitudes h. Dans l’histogramme on estime
ni
la densité en x par nh si x appartient à la classe i. La densité est donc constante sur chaque classe. On peut
améliorer ceci en utilisant la méthode de la ”fenêtre mobile”. On suppose ici que la série statistique est y1 , . . . , yn .
On construit autour de x une classe de longueur h : Ix = [x − h/2; x + h/2[ et on compte le nombre d’observations
nx
nx qui appartiennent à cette classe. On estime alors la densité en x par nh . On peut ainsi construire point par
ˆ
point cette fonction de densité estimée f (x). On peut en fait écrire cette dernière de la façon suivante :
n
ˆ 1 X x − yi
f (x) = K
nh i=1 h
où K est la fonction indicatrice de l’intervalle [−1/2; 1/2[, c’est-à-dire la fonction de R dans {0, 1} définie par :

K(u) = 0 si u 6∈ [−1/2; 1/2[
K(u) = 1 si u ∈ [−1/2; 1/2[
Par suite
x − yi
K = 1 ⇐⇒ yi ∈ Ix
h
Cette méthode donne encore des résultats trop peu régulier. Pour obtenir une fonction suffisamment ”lisse”, il faut
prendre des fonction noyau K plus régulière. En pratique on prend souvent un noyau gaussien :
1 2
K(u) = √ e−u /2
2π
ou parabolique :
u2

3
K(u) = √ 1− pour |u| < 5
4 5 5
L’exemple (3.2.18) donne une comparaison entre l’histogramme et l’estimation de densité.
Exemple 3.2.18. 1 Le tableau (2.1) donne les hauteurs de 50 pièces usinées. On a sur la figure (2.5) l’histogramme
de ces données pour un intervalle de classe de 0.03 et l’estimation de densité par la méthode du noyau avec le noyau
de Lejeune :
105
K(u) = (1 − u2 )2 (1 − 3u2 ) pour |u| ≤ 1
64
avec une constante h égale à 30% de l’étendue de l’échantillon. L’estimation de densité montre clairement une
distribution bimodale que nous ne voyons pas avec l’histogramme.
1 exemple provenant du livre de G. Saporta page 121
21.86 21.90 21.98

21.84 21.89 21.96
21.88 21.92 21.98
21.90 21.91 21.95
21.92 21.91 21.97
21.87 21.92 21.94
21.90 21.91 22.01
21.87 21.93 21.96
21.90 21.96 21.95
21.93 21.91 21.95
21.92 21.97 21.97
21.90 21.97 21.96
21.91 21.97 21.95
21.89 21.97 21.94
21.91 21.98 21.97
21.87 21.95 21.95
21.89 21.89
Tab. 2.1 – hauteurs de 50 pièces usinées

12
10
−2
21.8 21.85 21.9 21.95 22 22.05 22.1 22.15
Fig. 2.5 – Histogramme et densité estimée
Il nous reste maintenant à étudier le cas des fréquences cumulées. Celles-ci sont représentés par des polygônes
de fréquences cumulés, mais nous avons encore ici une distinction suivant que les données soient groupées ou non.
Lorsque les données sont non groupées nous obtenons un polygône en escalier : la valeur de la fonction en un
point x est le nombre d’observations (absolues ou relatives) qui sont inférieures ou égales à x.
Exemple 3.2.19. Reprenons encore l’exemple (3.1.2)
Quant aux données groupées, on joint par une ligne brisée les points obtenus en portant, pour les limites de
classes supérieures des ordonnées égales aux fréquences cumulées.
Exemple 3.2.20. Fréquences cumulées relatives des étendues des exploitations agricoles belges (exemple (3.2.9)).
Remarque 3.2.21. Les polygônes de fréquences relatives sont une représentation empirique des fonctions de
répartitions comme les histogrammes sont une représentation empirique des fonctions de densité.
3.3 Réduction des données

Le but est ici de caractériser les données à l’aide de quelques paramètres. Il y a deux grands types de paramètres :
les paramètres de position ou de tendance centrale que nous étudierons en premier et les paramètres de dispersion
que nous verrons ensuite.
Nous donnerons pour chaque paramètre que nous définirons la valeur numérique correspondant à l’exemple
suivant :
1.2
Fréquences cumulées relatives

0.8
0.6
0.4
0.2
0
0 2 4 6 8 10 12
Notes
Fig. 2.6 – Fréquences cumulées relatives : données (3.1.2)

1.2
1
Fréquences cumulées relatives
0.8
0.6
0.4
0.2
0
0 20 40 60 80 100 120
Surfaces en ha
Fig. 2.7 – Fréquences cumulées relatives : données (3.2.9)
Exemple 3.3.1. Nous considérons 11 mesures faites de la hauteur du maı̂tre-brin d’une céréale donnée (en cm).
Nous avons obtenu la série statistique suivante (mise en ordre croissant) :
59; 62; 63; 63; 64; 66; 66; 67; 69; 70; 70.
Les paramètres de position que nous allons étudier maintenant permettent de caractériser l’ordre de grandeur
des observations. Le paramètre le plus utilisé dans la pratique est la moyenne arithmétique ou moyenne.
Définition 3.3.2 (Moyenne arithmétique). On appelle moyenne arithmétique ou
moyenne la quantité donnée par :
– Si les observations sont données par une série statistique
n
1X
x̄ = xi
n i=1
– Si les observations sont données par leurs fréquences absolues

p
1X
x̄ = ni xi
n i=1
Exemple 3.3.3. Pour les données de l’exemple (3.3.1), nous avons :
x̄ = 65, 3636cm
Remarque 3.3.4. Lorsque les données sont groupées xi est la valeur de la classe i.
Définition 3.3.5 (Médiane). La médiane est la valeur de part et d’autre de laquelle se trouve un nombre égal
d’observations.
Remarque 3.3.6. (i) Pour les séries statistiques monotones (c’est-à-dire croissante ou décroissante) :
– si le nombre d’observations est pair la médiane est toute quantité comprise entre xn/2 et xn/2+1 (en général
on prend xe = 1/2(xn/2 + xn/2+1 ))
– si le nombre d’observations est impair la médiane est x

e = xn/2+1 .
(ii) Pour les données groupées la classe médiane est celle qui contient la médiane. En admettant que les obser-
vations appartenant à cette classe sont réparties uniformément, la médiane aura pour expression :
1/2 − Fi
e = x0i + ∆xi
x
ni
où
i est l’indice de la classe médiane.
x0i est la limite inférieure de cette classe.
∆xi est l’intervalle de la classe i.
Fi est la fréquence cumulée relative de la classe i.
x
e = 66
Définition 3.3.8 (Quartiles). On définit de façon similaire les quartiles i.e les 3 quantités qui séparent les données
en 4 groupes contenant le même nombre de données. On notera Q1 , Q2 et Q3 les trois quartiles.
Exemple 3.3.9. Considérons les 24 données suivantes :

8 13 27 32 25 16 32 27 8 28 79 25 35 25 38 29 80 50 38 30 20 20 49 9
Ces données mises en ordre croissant sont :
8 8 9 13 16 20 20 25 25 25 27 27 28 29 30 32 32 35 38 38 49 50 79 80
Les quartiles sont alors : Q1 = 20, Q2 = x
e = 27, 5 et Q3 = 36, 5.
Remarque 3.3.10. Le deuxième quartile est égale à la médiane.
Définition 3.3.11 (Mode). On appelle mode d’une distribution non groupée toute valeur rendant maximale la
fréquence. On appelle classe modale d’une distribution groupée toute classe rendant maximale le rapport :
Fréquence
Intervalle de classe
Exemple 3.3.12. Pour les données de l’exemple (3.3.1), il y a 3 modes : 63,66,70.
Remarque 3.3.13. (i) Le mode est une valeur qui rend maximum la représentation graphique des fréquences
non cumulées.
(ii) Dans le cas d’une distribution théorique d’une variable aléatoire continue le mode est toute valeur qui maximise
la fonction de densité. C’est la valeur “la plus probable”.
Les paramètres de position sont très insuffisants pour caractériser des données ; aussi nous avons besoin de savoir
si les observations sont concentrées ou non autour d’un paramètre de position. C’est ce critère que l’on qualifie à
l’aide des paramètres de dispersion. Le paramètre le plus connu et le plus utilisé est la variance d’un échantillon.
Définition 3.3.14 (Variance d’un échantillon). On appelle variance de l’échantillon la quantité :

– Si les données sont sous la forme d’une série statistique
n
1X
s2 = (xi − x̄)2
n i=1
– Si les données sont sous la forme d’une distribution de fréquences absolues

p
1X
s2 = ni (xi − x̄)2
n i=1
Pn
Remarque 3.3.15. (i) On note souvent SCE = i=1 (xi − x̄)2 . SCE est la Somme des Carrés des Écarts,
sous entendu à la moyenne.
0.1 0.4
0.08 densité densité

mode 0.3 mode
0.06 moyenne moyenne
médiane 0.2 médiane
0.04
0.1
0.02
0 0
0 10 20 30 −1 0 1 2 3 4 5
0.4 0.2
densité densité
0.3 mode 0.15 mode
moyenne moyenne
0.2 médiane 0.1 médiane
0.1 0.05
0 0
0 5 10 15 0 5 10 15
Fig. 2.8 – Différences entre le mode, la moyenne et la médiane
(ii) On peut aussi écrire :

n
X
SCE = (x2i − 2xi x̄ + x̄2 ) (2.1)
i=1
Xn n
X n
X
= x2i − 2x̄ xi + x̄2 (2.2)
i=1 i=1 i=1
Xn
= x2i − 2nx̄2 + nx̄2 (2.3)
i=1
Xn
= x2i − nx̄2 (2.4)
i=1
Lorsque l’on effectue les calculs à la main, c’est la formule (2.4) que l’on utilise.
s2 = 11, 3223cm2
Remarque 3.3.17. On démontre que l’on a toujours :
n
X n
X
(xi − a)2 > (xi − x̄)2 = ns2 si a 6= x̄
i=1 i=1
2
Définition 3.3.18 (Écart type ). L’écart type est la racine carré de la variance.
√
Exemple 3.3.19. Pour les données de l’exemple (3.3.1), nous avons : s = s2 = 3, 3649cm
Remarque 3.3.20. L’écart type a la même dimension que les données (ce qui n’est pas le cas de la variance).
Définition 3.3.21 (Cœfficient de variation). On appelle cœfficient de variation l’indice de dispersion relatif exprimé
en pourcentage :
s
cv = × 100
x̄
On suppose bien évidemment que x̄ est différent de 0.
2 standard deviation en anglais
cv = 5, 148%
Définition 3.3.23 (Amplitude). On appelle amplitude l’écart entre les valeurs extrêmes des données
w = 11
Définition 3.3.25 (Écart interquartile). On appelle écart interquartile la différence entre le troisième et le premier
quartile : Q3 − Q1
Q3 − Q1 = 16, 5
Définition 3.3.27 (boı̂te à moustaches3 ). Le diagramme en boı̂te à moustaches ou box-plot représente schématiquement
les principales caractéristiques d’une variable numérique en utilisant les quartiles. On représente la partie centrale
de la distribution par une boı̂te de largeur quelconque et de longueur l’intervalle interquartile. On trace à l’intérieur
la position de la médiane et on complète la boı̂te par des ”moustaches“ de valeurs :
– Pour la ”moustache supérieure“ : la plus grande valeur inférieure à Q3 + 1, 5(Q3 − Q1 ).
– Pour la ”moustache inférieure“ : la plus petite valeur supérieure à Q1 − 1, 5(Q3 − Q1 ).
Les valeurs extérieures représentées par des * sont celles qui sortent des ” moustaches“.
Exemple 3.3.28. Reprenons l’exemple (3.3.9). Nous avons Q1 = 20, x e = 27, 5 Q3 = 36, 5 et Q3 − Q1 = 16, 5.
Par suite :
– la plus grande des données inférieure à Q3 + 1, 5(Q3 − Q1 ) est 50 ;
– la plus petite des données supérieure à Q1 − 1, 5(Q3 − Q1 ) est 8.
D’où le schéma suivant :
Column Number
10 20 30 40 50 60 70 80
Values
Fig. 2.9 – Boı̂te à moustaches
Définition 3.3.29 (Moment d’ordre k par rapport à un point c). On appelle moment d’ordre k par rapport à un
point c la quantité :
– Si les données sont sous la forme d’une série statistique
n
1X
(xi − c)k
n i=1
– Si les données sont sous la forme d’une distribution de fréquences

p
1X
ni (xi − c)k
n i=1
Notation 3.3.30. (i) Lorsque c = 0 le moment d’ordre k s’appelle moment par rapport à l’origine et on le note
ak .
3 boxplot en anglais
(ii) Lorsque c = x̄ le moment d’ordre k s’appelle moment centré et on le note mk .

Remarque 3.3.31. a1 = x̄, m1 = 0 et m2 = s2 .
Remarque 3.3.32. (i) Les moments centrés d’ordre k pairs sont des paramètres de dispersion.
(ii) Les moments centrés d’ordre k impairs sont des indices de dissymétrie ou d’obliquité : Ils sont nuls pour les
distributions symétriques et différentes de 0 pour les distributions dissymétriques.
Définition 3.3.33 (Cœfficients de Pearson). Les cœfficients de Pearson sont :
(i) Le degré de symétrie donné par
m2 m2
b1 = 33 = 63
m2 s
(ii) Le degré d’aplatissement4 donné par :
m4 m4
b2 = = 4
m22 s
b1 = 0, 0298 b2 = 2, 12
Définition 3.3.35 (Cœfficient de Fisher). Les cœfficients de Fisher sont :
(i) Le degré de symétrie5 donné par :
m3 m3 p
g1 = 3/2 = 3 = b1
m2 s
(ii) Le degré d’aplatissement donné par :
m4 m4
g2 = 2 − 3 = 4 − 3 = b2 − 3
m2 s
g1 = 0, 1726 g2 = −0, 88
Remarque 3.3.37. Pour la loi normale réduite (cf. chapitre sur les probabilités) on a : g1 = 0 et g2 = 0.
Les figures (2.10,2.11) donnent des exemples de distributions théoriques avec différentes valeurs des cœfficients
de symétrie et d’aplatissement.
0.5
β =0
1
β1=1.75
β1=1.5
0.4
0.3
0.2
0.1
0
0 1 2 3 4 5 6
Fig. 2.10 – Différentes fonctions de densité pour différentes valeur du cœfficient de symétrie
3.4 Exemples
Exemple 3.4.1. Les données de la table (2.2) sont des longueurs de la rectrice centrale de la gélinotte huppée
mâle, juvénile. La figure (2.12) donne les différentes représentations graphiques de ces données.
Exemple 3.4.2. Les figures (2.13) et (2.14) donnent pour les mêmes données respectivement les histogrammes et
les boı̂tes à moustaches pour les longueurs d’ailes de mésanges noires selon leur âges et leurs sexes.
4 kurtosis en anglais, attention le terme kurtosis est parfois aussi utilisé pour désigner le cœfficient g2 de Fisher ci-après
5 skewness en anglais
γ2=0
γ =2
2
0.4 γ2=−1.2
0.3
0.2
0.1
0
−3 −2 −1 0 1 2 3
Fig. 2.11 – Différentes fonctions de densité pour différentes valeur du cœfficient d’applatissement
153 165 160 150 159 151 163

160 158 149 154 153 163 140
158 150 158 155 163 159 157
162 160 152 164 158 153 162
166 162 165 157 174 158 171
162 155 156 159 162 152 158
164 164 162 158 156 171 164
158
Tab. 2.2 – Longueurs de la rectrice centrale de la gélinotte huppée mâle, juvénile

2
1.5
1 1
0.5
0
140 150 160 170 180 140 150 160 170
longueur longueur
0.08
0.06
0.04
0.02
0
150 160 170
longueur
Fig. 2.12 – Données, boı̂te à moustaches et histogramme

0.6 0.6
0.5 Mâles adultes 0.5 Mâles immatures
0.4 0.4
0.3 0.3
0.2 0.2
0.1 0.1
0 0
58 59 60 61 62 63 64 65 66 67 68 58 59 60 61 62 63 64 65 66 67 68
longueur d’ailes en mm longueur d’ailes en mm
0.6 0.6
0.5 Femelles adultes 0.5 Femelles immatures
0.4 0.4
0.3 0.3
0.2 0.2
0.1 0.1
0 0
58 59 60 61 62 63 64 65 66 67 68 58 59 60 61 62 63 64 65 66 67 68
longueur d’ailes en mm longueur d’ailes en mm
Fig. 2.13 – Distributions des longueurs d’ailes de mésanges noires selon leur âge et sexe
4 Statistique descriptive à 2 dimensions

4.1 Introduction
De même qu’en dimension 1 nous désirons représenter les données sous la forme de tableaux ou de graphiques
ou de réduire les données à quelques paramètres. La grande différence avec la section précédente est que nous
4. STATISTIQUE DESCRIPTIVE À 2 DIMENSIONS 17
68
67
66
65
Longueur d’ailes en mm
64
63
62
61
60
59
58
1 2 3 4
Mâles adultes Mâles immatures Femelles adultes Femelles immatures
Fig. 2.14 – Distributions des longueurs d’ailes de mésanges noires selon leur âge et sexe
pouvons essayer de mettre en évidence les relations qui peuvent exister entre deux caractères.
Comme en dimension 1 nous nous intéressons à des variables quantitatives et nous aurons comme données
initiales une suite double :
x1 , x2 , . . . , xn
y1 , y 2 , . . . , y n
La valeur du caractère 1 pour l’individu i est xi La valeur du caractère 2 pour l’individu i est yi
Définition 4.1.1 (Série statistique double). On appelle série statistique double la suite de n couples de valeurs
(xi , yi ).
Exemple 4.1.2. Poids des feuilles et poids des racines (en grammes) de 1000 individus de Cichorium intybus (cet
exemple provient de l’ouvrage de Dagnélie).
feuilles : 71 76 106 108 109 111 111 112 . . . 662 673 679 741
racines : 56 51 40 174 62 59 84 94 . . . 174 290 290 230
4.2 Les distributions en fréquences

Comme dans le cas monodimensionnel lorsque le nombre de données est trop important nous condensons des
données en une distribution de fréquences. Pour cela nous construisons un tableau à double entrée ; le nombre
d’individus nij ayant les occurrences xi et yj des caractères x et y se trouve à l’intersection de la ligne i et de la
colonne j. Dans ce paragraphe les indices i et j qualifient les occurrences des caractères pour des variables discrètes
et les classes pour des variables continues et non pas des individus : xi 6= xi0 si i 6= i0 et yj 6= yj 0 si j 6= j 0 . Le
tableau que l’on construit a donc la structure suivante :
x:y y1 y2 ... yj ... yq T otaux

x1 n11 n12 ... n1j ... n1q n1.
.. .. .. .. .. ..
. . . . . .
xi ni1 ni2 ... nij ... niq ni.
.. .. .. .. .. ..
. . . . . .
xp np1 np2 ... npj ... npq np.
T otaux n.1 n.2 ... n.j ... n.q n..
Définition 4.2.1 (Fréquence marginale). On appelle fréquence marginale les quantités définies par :
q
X
ni. = nij
j=1
Xp
n.j = nij
i=1
Notation 4.2.2. Nous rappelons que le point en indice signifie que l’on a sommé sur cet indice. Avec cette notation,
nous avons donc aussi :
Xp X q Xp Xq
n.. = nij = ni. = n.j
i=1 j=1 i=1 j=1
Remarque 4.2.3. (i) Nous avons pris ici le cas des fréquences absolues mais nous pouvons bien évidemment
construire des tableaux de fréquences relatives :
nij
n,ij =
n
(ii) Nous ne construisons pas en général de tableau de fréquences cumulées.

(iii) Nous pouvons bien entendu étudier séparément les caractères x et y et notamment faire deux statistiques
descriptives à une dimension. Cela revient alors à travailler avec les fréquences marginales.
Définition 4.2.4 (Fréquence conditionnelle relative). On appelle fréquence conditionnelle relative pour que x = xi
(respectivement y = yj ) sachant que y = yj (respectivement x = xi ) la quantité :
nij
fi/j =
n.j
(respectivement
nij
fj/i = )
ni.
Définition 4.2.5 (Profils lignes, profils colonnes). On appelle profils lignes (respectivement profils colonnes) le
tableau des fréquences conditionnelles relatives fj/i (respectivement fi/j ).
Remarque 4.2.6. (i) Le tableau de fréquence relative est une représentation empirique de la fonction de proba-
bilité d’un couple de variables aléatoires et les fréquences conditionnelles relatives représentent des probabilités
conditionnelles.
(ii) le tableau des profils lignes est une représentation empirique les lois de distributions conditionnelles.
(iii) Si la tableau de contingence comporte en fait en ligne différentes populations et en colonne les différentes
modalités d’un caractère qualitatif (c’est-à-dire les valeurs d’une variable aléatoire discrète), alors les profils
lignes sont les lois de probabilités sur les différentes populations du caractère étudié.
Exemple 4.2.7. Avec les données de l’exemple (4.1.2) nous obtenons :

Feuilles :Racines 40 à 80 à 120 à 160 à 200 à 240 à 280 à 320 à Totaux
79 119 159 199 239 279 319 259
0 à 79 2 2
80 à 159 49 46 5 2 102
160 à 239 86 137 46 11 280
240 à 319 27 153 89 25 7 301
320 à 399 5 45 91 40 6 187
400 à 479 10 33 21 16 1 1 82
480 à 559 1 4 11 10 3 29
560 à 639 2 1 2 4 1 10
640 à 719 1 3 2 6
720 à 799 1 1
Totaux 169 392 270 112 42 11 3 1 1000
Exemple 4.2.8. La table (4.2.8) donne l’évolution de l’âge de la population agricole familiale dans un canton du
Loiret. La table (2.4) donne quant-à elle les profils lignes.
Année :Âge < à 25 ans 25 à 34 ans 35 à 44 ans 45 à 54 ans 55 à 64 ans > à 65 ans Total
1970 88 24 27 61 20 25 245
1979 63 17 20 39 27 25 191
1988 41 15 18 22 31 17 144
Total 192 56 65 122 78 67 580
Tab. 2.3 – Tableau de contingence, exploitations agricoles dans le Loiret

Année :Âge < à 25 ans 25 à 34 ans 35 à 44 ans 45 à 54 ans 55 à 64 ans > à 65 ans
1970 0.3592 0.0980 0.1102 0.2490 0.0816 0.1020
1979 0.3298 0.0890 0.1047 0.2042 0.1414 0.1309
1988 0.2847 0.1042 0.1250 0.1528 0.2153 0.1181
Tab. 2.4 – Tableau des profils lignes
12
10
4
y
−2
−4
−6
−3 −2 −1 0 1 2 3 4 5 6 7
x
Fig. 2.15 – Nuage de points
4.3 Représentations graphiques

Les séries statistiques doubles peuvent être représentées par un nuage de points (2.15).
Quant aux distributions de fréquences elles se représentent dans un espace à trois dimensions par un diagramme
en bâtons si les variables sont discrètes et par un stéréogramme si la variable est continue. Un stéréogramme est un
diagramme composé de parallélépipèdes rectangles de bases les rectangles correspondant aux cellules du tableau
statistique et de hauteur les fréquences divisées par la surface de la base (ceci toujours pour avoir une estimation
de la densité de probabilité).
Exemple 4.3.1. Avec les données de l’exemple (4.1.2) on obtient la figure (2.16)
200
150
Fréquences absolues
100
50
0
40
120
200
280
360
440
520
600
680
Feuilles 760
Racine
Fig. 2.16 – Stéréogramme
Exemple 4.3.2. Reprenons l’exemple (4.2.8) de l’évolution de l’âge de la population agricole familiale dans un
canton du Loiret. On peut représenter les profils lignes (2.17). ceci nous permet de visualiser les différences de
répartition des âges en fonction des année. Ici, nous avons l’ensemble des populations étudiées, les profils lignes
sont donc exactement les lois de probabilités sur ces 3 populations. Dans le cas où nous n’aurions , pour chaque
population que des échantillons, il faudrait effectuer un test statistique (test du χ2 ici) pour savoir s’il y a réellement
une différence dans les lois de distributions. Ceci est hors de notre programme.
Profils lignes
0.45
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
0 1 2 3 4 5 6 7
Fig. 2.17 – Profils lignes
4.4 Réduction des données

Nous avons ici deux types de paramètres, tout d’abord les paramètres liés à une seule variable qui caractérisent
les fréquences marginales et conditionnelles. Nous avons dans ce cas les paramètres habituels de la statistique
descriptive à une dimension qui sont principalement les moyennes marginales x̄ et ȳ et les variances marginales
s2x et s2y , ainsi que les moyennes conditionnelles x¯j et y¯i et les variances conditionnelles s2x/j et s2i/y . Ensuite nous
avons les paramètres permettant de décrire des relations existant entre les deux séries d’observations. Ce sont ces
paramètres que nous allons étudier maintenant.
Définition 4.4.1 (Covariance d’un échantillon). On appelle covariance d’un échantillon la quantité :
– Si les données sont sous la forme d’une série statistique double
n
1X
cov(x, y) = (xi − x̄)(yi − ȳ)
n i=1
– Si les données sont sous la forme d’une distribution en fréquence

p q
1 XX
cov(x, y) = nij (xi − x̄)(yj − ȳ)
n i=1 j=1
Remarque 4.4.2.
Pn
On note souvent SP E = i=1 (xi − x̄)(yi − ȳ). SP E est la Somme des Produits des Écarts, sous entendu aux
moyennes.
On peut aussi écrire :
n
X
SP E = (xi yi − xi ȳ − yi x̄ + x̄ȳ) (2.5)
i=1
Xn n
X n
X n
X
= xi yi − ȳ xi − x̄ yi + x̄ȳ (2.6)
i=1 i=1 i=1 i=1
Xn
= xi yi − 2nx̄ȳ + nx̄ȳ (2.7)
i=1
Xn
= xi yi − nx̄ȳ (2.8)
i=1
Lorsque l’on effectue les calculs à la main, c’est la formule (2.8) que l’on utilise.
Exemple 4.4.3. On considère la série statistique double suivante :
x 165,5 164,0 156,0 174,0 169,0 157,5 159,0 152,0 155,0 159,0
y 177,0 172,0 163,0 183,5 171,5 165,0 160,5 154,5 163,0 162,0
x (respectivement y) représente la taille (respectivement l’envergure) de 10 adolescents nés en 1947 (mensura-
tions relevées en 1962). On a alors :
cov(x, y) = 49, 68
Remarque 4.4.4. (i) La covariance peut-être positive ou négative. Une covariance positive (respectivement
négative) indique une relation entre les données croissantes (respectivement décroissantes), i.e. que les valeurs
élevées d’une série correspondent, dans l’ensemble, à des valeurs élevées (respectivement faibles) de l’autre.
(ii) L’existence de termes positifs et négatifs dans le calcul de la covariance justifie pour celle-ci l’absence de
correction analogue aux corrections de Sheppard.
Théorème 4.4.5. On a toujours la relation suivante :
|cov(x, y)| ≤ sx sy
L’égalité n’a lieu que si les points (xi , yi ) sont alignés.

Démonstration
Développons l’expression positive suivante :
n
1X
(λ(xi − x̄) − (yi − ȳ))2 = λ2 s2x − 2λcov(x, y) + s2y ≥ 0
n i=1
On sait qu’une condition nécessaire et suffisante pour qu’un trinôme soit toujours de même signe est que son
discriminant ∆ soit négatif ou nul. Par suite nous avons :
∆ = 4cov 2 (x, y) − 4s2x s2y ≤ 0

⇐⇒ cov (x, y) ≤ s2x s2y
2
⇐⇒ |cov(x, y)| ≤ sx sy
De plus nous avons l’égalité |cov(x, y)| = sx sy si et seulement si ∆ = 0 et donc s’il existe λ1 = cov(x, y)/s2x tel que
n
X
(λ1 (xi − x̄) − (yi − ȳ))2 = 0 ⇐⇒ λ1 (xi − x̄) = yi − ȳ ∀i
i=1
⇐⇒ Les points (xi , yi )i=1,...,n sont alignés
4.5 Droite de régression

Introduction
Exemple 4.5.1. 6 On désire savoir comment le taux de cholestérol sérique dépend de l’âge chez l’homme. Pour
cela on a pris 5 échantillons d’hommes adultes d’âges bien déterminés 25, 35, 45, 55 et 65 ans. On a obtenu les
données suivantes :
Âges 25 25 25 25 25 25 25 35 35 35
Taux 1.8 2.3 2 2.4 2 2.5 2.6 2.6 2.9 2.3
Âges 35 35 35 35 45 45 45 45 45 45
Taux 2.4 2.1 2.5 2.7 2.7 3 3.1 2.3 2.5 3
Âges 45 45 55 55 55 55 55 65 65 65
Taux 3.3 2.7 3.1 2.9 3.4 2.4 3.4 3.7 2.8 3.3
Âges 65 65 65
Taux 3.5 3.3 2.6
La figure 2.18 donne la représentation graphique de ces données.
Que peut-on conclure de ces données ?

En pratique nous sommes souvent amenés à rechercher une relation entre deux variables x et y. Pour cela, dans
un premier temps, nous collectons des données (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ). Ensuite nous représentons graphique-
ment ces données. Nous pouvons par exemple avoir les cas suivants :
6 Exemple provenant de l’ouvrage de Grémy et Salmon, ”Bases statistiques”, page 122.

3.5
Taux
2.5
1.5
1
20 25 30 35 40 45 50 55 60 65 70
Ages
Fig. 2.18 – Taux de cholestérol en fonction de l’âge
Cas (a) Cas (b) Cas (c)

12 10 1
9 0.9
10
8 0.8
7 0.7
8
6 0.6
6 5 0.5
y
4 0.4
4
3 0.3
2 0.2
2
1 0.1
0 0 0
0 2 4 6 0 2 4 6 0 2 4 6
x x x
Fig. 2.19 – Différentes formes de graphes
Suivant les cas de la figure 2.19, nous pouvons penser aux modèles :
Cas (a) y(x) = β0 + β1 x ;
Cas (b) y(x) = β0 + β1 x + β2 x2 ;
Cas (c) pas de modèle.
L’objet de la régression linéaire simple est l’étude du cas (a). L’un des buts de la régression linéaire simple est
de prédire la ”meilleure” valeur de y connaissant x (si le modèle linéaire est bien évidemment correct). L’objectif
de cette section est uniquement descriptif, aussi nous n’allons étudier que l’estimation ponctuelle des paramètres.
Estimation des paramètres

Une droite sera d’autant plus proche des points Mi (xi , yi ) que les écarts entre ces points et la droite seront
faibles. L’un des critères les plus utilisés est le critère des moindres carrés qui est la somme des carrés des écarts
ri = yi − ŷi (cf figure (2.20)).
Ici, les points (xi , yi )i=1,...,n sont connus, la question est de trouver les valeurs des paramètres β0 et β1 qui
rendent la valeur du critère la plus faible possible. Nous sommes ainsi ramené au problème d’optimisation suivant :
Pn Pn
M in f (β) = 12 i=1 ri2 = 21 i=1 (yi − β0 − β1 xi )2

(P )
β ∈ R2
En effet, plus f (β) sera proche de 0, plus les carrés des résidus, donc les résidus ri seront ”proches” de 0.
25
← r10
20
← r9
← r8
← r7
15
←r
6
y
← r4 ← r5
10
← r3
← r2
5
← r1
0
0 2 4 6 8 10
x
Fig. 2.20 – Moindres carrés.
Théorème 4.5.2. La solution du problème (P ) est :
β̂0 = ȳ − β̂1 x̄ (2.9)

Pn
(y − ȳ)(xi − x̄) SP E
β̂1 = i=1 Pn i 2
= (2.10)
i=1 (xi − x̄) SCEx
Démonstration
On démontre qu’une condition nécessaire et suffisante de solution du problème d’optimisation est f 0 (β) = (0, 0).
D’où le système linéaire suivant : 
Xn Xn
nβ0 + β1 xi = yi





i=1 i=1
n n n
(2.11)
 X X X
2
 β0 xi + β1 xi = xi yi



i=1 i=1 i=1

 ȳ = β0 + β1 x̄
n n
⇔
x2i =
P P
 nβ0 x̄ + β1 xi yi
i=1 i=1

 ȳ = β0 + β1 x̄
n n
⇔
x2i =
P P
 n(ȳ − β1 x̄)x̄ + β1 xi yi
i=1 i=1

 ȳ = β0 + β1 x̄
n n
⇔
 β1 ( x2i − nx̄2 ) =
P P
xi yi − nx̄ȳ
i=1 i=1

 ȳ = β0 + β1 x̄
⇔ SP E
 β1 =
SCEx
2
Remarque 4.5.3. On a supposé dans le calcul que SCEx 6= 0, c’est-à-dire que tous les xi ne sont pas identiques.
Nous noterons dans la suite β̂0 et β̂1 ces solutions.
Exemple 4.5.4. Reprenons l’exemple (4.5.1). Lorsque l’on effectue les calculs à la main il est utile de calculer le
tableau préliminaire 2.6.
Les estimations ponctuelles sont alors
1445 × 90.1
4103.5 − 158.2
β̂1 = 33 = = 0.025
14452 6351.5
69625 −
33
β̂0 = 2.73 − 0.025 × 43.79 = 1.64
y x xy y2 x2
1 y1 x1 x1 y1 y12 x21
.. .. .. .. .. ..
. . . . . .
i yi xi xi yi yi2 x2i
.. .. .. .. .. ..
. . . . . .
n yn xn xn yn y2 x2
P Pn 2 Pn 2
Totaux Y. X. i xi yi i yi i xi
Moyennes ȳ. x̄.
Tab. 2.5 – Calculs préliminaires
x y xy x2 y2
1 25 1.8 45.0 625 3.24
2 25 2.3 57.5 625 5.29
3 25 2.0 50.0 625 4.00
4 25 2.4 60.0 625 5.76
5 25 2.0 50.0 625 4.00
6 25 2.5 62.5 625 6.25
7 25 2.6 65.0 625 6.76
8 35 2.6 91.0 1225 6.76
9 35 2.9 101.5 1225 8.41
.. .. .. .. .. ..
. . . . . .
33 65 2.6 169.0 4225 6.76
Totaux 1445 90.1 4103.5 69625 253.31
Moyennes 43.79 2.73
Tab. 2.6 – Calculs préliminaires sur l’exemple
Remarque 4.5.5. Nous noterons ri le résidu d’indice i :
ri = yi − (β̂0 + β̂1 xi ) = yi − ŷi
On vérifie alors que

Pn Pn
i=1 ri = (yi − (β̂0 + β̂1 xi ))
Pi=1
n Pn Pn
= i= i −
y i=1 β̂0 − i=1 β̂1 xi
= nȳ − nβ̂0 − nx̄β̂1 = 0
De la même façon que nous avons cherché à “exprimer” y en fonction de x, on peut essayer d’“exprimer” x en
fonction de y et nous obtenons ainsi la droite de régression d’équation :
x = β1xy y + β0xy
Les estimations sont alors

SP E
β̂1xy = et β̂0xy = x̄ − β̂1xy ȳ
s2y
Exemple 4.5.6. Si nous reprenons les données de l’exemple (4.5.1) nous obtenons :
β̂1xy = 21.64 β̂0xy = −15, 29

β̂1yx = 0.025 β̂0yx = 1.64
Définition 4.5.7 (Cœfficient de corrélation linéaire). On appelle cœfficient de corrélation linéaire le rapport de la
covariance sur les produits des écart-types :
cov(x, y)
r=
sx sy
On peut aussi écrire

SP E
r= p
SCEx SCEy
Notons ~xc (respectivement ~yc ) le vecteur des données centrées de la variable x (respectivement y). C’est-à-dire que
~xc = (x1 − x̄, . . . , xn − x̄)T et ~yc = (y1 − ȳ, . . . , yn − ȳ)T . Ces vecteurs sont dans Rn . Alors SP E est le produit
scalaire entre ces deux vecteurs centrées et SCEx et SCEy sont les normes au carrés de ces vecteurs. Par suite le
cœfficient de corrélation linéaire s’interprète comme le cosinus de l’angle de ces deux vecteurs de Rn . On en déduit
la remarque suivante.
Remarque 4.5.8. Le cœfficient de corrélation linéaire a les propriétés suivantes :
(i)
r ∈ [−1, +1]
.
(ii) |r| = 1 si et seulement si les points (xi , yi ) sont alignés.
On montre que l’on a en fait les différents cas de figures suivant
sx>sy sx=sy sx<sy
5 2 2
r=1 0 0 0
y
−5 −2 −2
−2
10 0 2 −2
5 0 2 −5
2 0 5
r~1 0 0 0
y
−10 −5 −2
−2
5 0 2 −2
5 0 2 −5
2 0 5
0<r<1 0 0 0
y
−5 −5 −2
−2
5 0 2 −5
5 0 5 −5
2 0 5
r=0 0 0 0
y
−5 −5 −2
−2
5 0 2 −5
5 0 5 −5
2 0 5
−1<r<0 0 0 0
y
−5 −5 −2
−2
5 0 2 −5
5 0 5 −10
2 0 10
r~−1 0 0 0
y
−5 −5 −2
−1
5 0 1 −5
5 0 5 −10
2 0 10
r=−1 0 0 0
y
−5 −5 −2
−2 0 2 −5 0 5 −5 0 5
x x x
Fig. 2.21 – Liens entre les nuages de points et le cœfficient de corrélation linéaire
Remarque 4.5.9. Nous tenons à bien faire remarquer que le cœfficient de corrélation linéaire ne mesure qu’une
liaison de nature linéaire. Pour les 5 graphiques de la figure (2.22), on a les mêmes valeurs de x̄, ȳ, sx , sy , r et donc
la même droite de régression. Il est évident que les phénomènes sont très différents :
(i) pour le graphique en haut à gauche, il y a une forte dispersion mais le modèle linéaire semble a priori
approprié ;
(ii) pour le graphique en haut à droite, un modèle parabolique serait sans doute plus adapté ;
(iii) pour le graphique au milieu à gauche, il y a sans doute une donnée aberrante qui a un fort résidu ;
(iv) pour le graphique au milieu à droite, la dispersion des données semble augmenter quand x augmente ;
(v) pour le graphique en bas à gauche, il y a une donnée qui a une forte influence et un résidu nul.
30 30
20 20
y
y
10 10
0 0
0 10 20 30 0 10 20 30
x x
30 30
20 20
y
10 10
0 0
0 10 20 30 0 10 20 30
x x
30
20
y
10
0
0 10 20 30
x
Fig. 2.22 – Exemple de données ayant les mêmes valeurs des paramètres x̄, ȳ, sx , sy et r et donc la même droite de
régression
5 Compléments
5.1 Changement de variables
Nous allons tout d’abord voir que lorsque le modèle n’est pas au départ linéaire, on peut parfois s’y ramener
par un bon changement de variable. Considérons l’exemple suivant :
Exemple 5.1.1. Le carbone radioactif 14 C est produit dans l’atmosphère par l’effet des rayons cosmiques sur
l’azote atmosphérique. Il est oxydé en 14 CO2 et absorbé sous cette forme par les organismes vivants qui, par suite,
contiennent un certain pourcentage de carbone radioactif relativement aux carbones 12 C et 13 C qui sont stables. On
suppose que la production de carbone 14 C atmosphérique est demeurée constante durant les derniers millénaires. On
suppose d’autre part que, lorsqu’un organisme meurt, ses échanges avec l’atmosphère cessent et que la radioactivité
due au carbone 14 C décroit suivant la loi exponentielle suivante :
A(t) = A0 e−λt
où λest une constante positive, t représente le temps en année et A(t) est la radioactivité exprimée en nombre de
désintégrations par minute et par gramme de carbone. On désire estimer les paramètres A0 et λ par la méthode des
moindres carrés. Pour cela on analyse les troncs (le bois est un tissu mort) de très vieux arbres Sequoia gigantea
et Pinus aristaca. Par un prélèvement effectué sur le tronc, on peut obtenir :
5. COMPLÉMENTS 27
– son âge t en année, en comptant le nombre des anneaux de croissance,

– sa radioactivité A en mesurant le nombre de désintégration.
t 500 1000 2000 3000 4000 5000 6300
A 14.5 13.5 12.0 10.8 9.9 8.9 8.0
Posons y(t) = ln A(t), β0 = ln A0 , β1 = −λ et yi = ln(Ai ). Le modèle s’écrit alors
y(t) = β0 + β1
Nous sommes donc ramené au cas de la régression linéaire simple.
5.2 Cas à plus d’une variable explicative

Cette section dépasse le cadre de la statistique descriptive puisque si nous avons par exemple 4 variables, nous ne
pouvons plus faire de graphique. Mais nous allons voir cependant qu’en ce qui concerne l’estimation des paramètres,
cela ne change pas grand chose.
Avant de passer au cas à p variables, nous allons réécrire le problème de la régression linéaire simple à 1 variable.
Posons      
y1 1 x1 r1
 ..   .. ..   .. 
 .   . .   . 
    β0
 
y =  yi  ;
  X =  1 xi  ;
  β= et r =  ri 
 .   . .  β1

 . 

 ..   .. ..   .. 
yn 1 xn rn
alors
yi = β0 + β1 xi + ri ∀i = 1, . . . , n (2.12)
est équivalent à
y = Xβ + r (2.13)
et le problème d’optimisation s’écrit alors
1
Pn
− β0 − β1 xi )2 = 21 ||Xβ − y||2

M in f (β) = 2 i=1 (yi
(P )
β ∈ R2
La condition nécessaire de solution du premier ordre nous donne alors (dérivée des fonctions composées) ce que
nous appelons l’équation normale
∇f (β) = t XX − t Xy = 0 (2.14)
La dérivée seconde de f est alors :
∇2 f (β) = t XX
On démontre en optimisation que dans ce cas si ∇2 f (β) est semi-définie positive alors la fonction f est convexe
(graphiquement c’est une cuvette pour une fonction de R2 à valeurs dans R) et dans ce cas l’équation (2.14) est
une condition nécessaire et suffisante de solution de notre problème d’optimisation. Or ici
(t XXβ|β) = (Xβ|Xβ) ≥ 0
ceci pour tout β, donc ∇2 f (β) est bien semi-définie positive.
Remarque 5.2.1. Dans le cas de la régression linéaire simple, si on développe l’équation normale (2.14), on
retrouve bien le système linéaire (2.11).
Nous allons maintenant étudier le cas où l’on a plus d’une variable explicative.
Considérons le modèle :
y(x) = β0 + β1 x1 + · · · βp xp (2.15)
où x = (x1 , . . . , xp ).
On collecte n (p+1)-uplets (yi , xi1 , . . . , xip )i=1,...,n . Notre problème d’optimisation pour estimer nos paramètres
s’écrit alors Pn
M in f (β) = 21 i=1 (yi − β0 − β1 xi1 − · · · − βp xip )2 = 21 ||Xβ − y||2

(P )
β ∈ R2
avec ici
     
y1 1 xi1 ... xip r1
 ..   .. .. ..     .. 
 .  . . .  β0  . 
     ..   
 yi  ;
y= X= 1 x i1 ... xip ; β= .  et  ri 
r=
 

 .  . . ..   . 
 ..   .. .. .  βp  .. 
yn 1 xn1 ... xnp rn
Par suite l’estimation des paramètres est aussi donné par la résolution du système linéaire des équations normales
t
XXβ = t Xy
6. EXERCICES 29
6 Exercices
6.1 Exercices avec solutions
Exercice 6.1.1. On observe les arrivées des clients à un bureau de poste pendant un intervalle de temps donné
(10 minutes). En répétant 100 fois cette observation, on obtient les résultats suivants.
Nombre d’arrivées 1 2 3 4 5 6 Total

Nombre d’observa- 15 25 26 20 7 7 100
tions
(i) Représenter graphiquement ces résultats.
(ii) Calculer la valeur de la moyenne arithmétique, de la médiane, de la variance et de l’écart type des résultats,
du coefficient de variation, de l’amplitude et de l’écart moyen des observations.
Correction
(i) Le diagramme en bâtons des fréquences relatives est le suivant :
0.3
0.25
0.2
Fréquence relative
0.15
0.1
0.05
0
1 2 3 4 5 6
Nombre d’arrivées
Diagramme en bâtons
Le diagramme des fréquences cumulées relatives est le suivant :
0.8
Fréquence cumulée relative
0.6
0.4
0.2
0 1 2 3 4 5 6 7 8
Nombre d’arrivées
Fréquences cumulées relatives

(ii) La moyenne arithmétique vaut :
n
x = n1
P
ni xi = 3. La médiane et le mode valent 3.
i=1
La variance vaut :
n
s2 = n1 ( ni x2i − nx2 ) =1,96 et l’écart-type s = 1,4. Le coefficient de variation est égal à cv = 46,7 %.
P
i=1
L’amplitude des observations est de 5, l’écart moyen de
n
em = n1
P
ni |xi − x| = 1,10.
i=1
7
Exercice 6.1.2. On considère les compositions chimiques de 20 eaux minérales suivantes :
Origines HCO3− SO4− Cl− Ca+ M g+ N a+

Aix-les-Bains 341 27 3 84 23 2
Beckerish 263 23 9 91 5 3
Cayranne 287 3 5 44 24 23
Chambon 298 9 23 96 6 11
Cristal-Roc 200 15 8 70 2 4
St Cyr 250 5 20 71 6 11
Evian 357 10 2 78 24 5
Ferita 311 14 18 73 18 13
St Hyppolite 256 6 23 86 3 18
Laurier 186 10 16 64 4 9
Ogeu 183 16 44 48 11 31
Ondine 398 218 15 157 35 8
Perrier 348 51 31 140 4 14
Ribes 168 24 8 55 5 9
Spa 110 65 5 4 1 3
Thonon 332 14 8 103 16 5
Veri 196 18 6 58 6 13
Viladreau 59 7 6 16 2 9
Vittel 402 306 15 202 36 3
Volvic 64 7 8 10 6 8
(i) Calculer les quartiles Q1 , Q2 , Q3 , l’écart interquartile et les limites des moustaches pour les variables HCO3−
et Ca+ .
(ii) Représenter les boı̂tes à moustaches pour les variables HCO3− et Ca+ .
Correction
HCO3− SO4− Cl− Ca+ M g+ N a+

Q1 184.5 8.0 6.0 51.5 4.0 4.5
Médianes 259.5 14.5 8.5 72.0 6.0 9.0
Q3 336.5 25.5 19.0 93.5 20.5 13.0
(i) Ecarts interquartiles 152.0 17.5 13.0 42.0 16.5 8.5
Q1 − 1, 5(Q3 − Q1 ) -43.50 -18.25 -13.50 -11.50 -20.75 -8.25
Q3 + 1, 5(Q3 − Q1 ) 564.50 51.75 38.50 156.50 45.25 25.75
Moustaches inférieures 59 3 2 4 1 2
Moustaches supérieures 402 51 31 140 36 23
(ii)
7 Les données proviennent de l’ouvrage de R. Tomassone, C. Dervin, J.P. Masson, ” Biométrie, modélisation de phénomènes biolo-
giques”, page114.
6. EXERCICES 31
400
350
300
250
Values
200
150
100
50
1 2 3 4 5 6
Column Number
Boı̂tes à moustache
Exercice 6.1.3. On a monté une série d’expériences dans une unité pilote en vue d’étudier l’influence de la
température sur le rendement d’une réaction chimique sous une pression donnée. Les données recueillies sont les
suivantes (x est la température t - 60 ◦ C ; y est le rendement en %) :
x 1 2 3 4 5 6 7 8 9 10
y 4 6 8 11 12 15 16 18 21 22
Étudier la liaison entre y et x. On fera le graphique en “ nuage de points ” des valeurs de y en fonction des
valeurs de x. On construira la droite de régression de y en x et on donnera la valeur du coefficient de corrélation
linéaire r(X,Y). Pour calculer la valeur des deux coefficients de la droite de régression, on se servira des formules
dans le cas d’une variable explicative et des relations matricielles (cas de plus d’une variable explicative).
Correction
25
expérimental
régression linéaire
20
15
y rendement
10
0
0 5 10 15
x (t−60) °C
Droite de régression
n = 10;
P P 2
xi = 55; xi = 385;
i iP
yi2 = 2111;
P
yi = 133;
Pi i
xi yi = 899
i
D’où „ «2
P
xi
(xi − x)2 = x2i −
P P i
n
i i „ «2
P
yi
(yi − y)2 = yi2 −
P P i
n
i i „ «„ «
P P
P P xi yi
i i
(xi − x)(yi − y) = xi yi − n
i i
(xi − x)2 = 82, 5
P
i
(yi − y)2 = 342, 1
P
i
P
(xi − x)(yi − y) = 167, 5
i
Donc la droite de régression des moindres carrés de y en x est y = β̂ 0 + β̂ 1 x
Avec
β̂ 0 = 2,1333 ; β̂ 1 = 2,0303 ; r(x,y) = 0,9970.
Si on applique directement les relations matricielles, on obtient :
   
4 1 1
 6   1 2 
y =  . ; X= . . 
   
 ..   .. .. 
22 1
10

t 10 55 t 133
XX = ; Xy =
55 385 899
L’équation normale est alors
10β0 + 55β1 = 133
55β0 + 385β1 = 899
d’où la solution
6.2 Exercices avec indications

Exercice 6.2.1. Le tableau suivant donne les revenus imposables des Français en 1970.
Classes Fréquences relatives

[2500 ;5000[ 0.0067
[5000 ;10000[ 0.3018
[10000 ;15000[ 0.2750
[15000 ;20000[ 0.1709
[20000 ;30000[ 0.1445
[30000 ;50000[ 0.0701
[50000 ;70000[ 0.0166
[70000 ;100000[ 0.0081
[100000 ;200000[ 0.0051
[200000 ;400000[ 0.0010
(i) tracer l’histogramme de ces données pour les revenus allant de 0 à 7000.
Indications Attention les intervalles de classes ne sont pas constants.
Exercice 6.2.2. On désire tester n produits. On fait appel à 2 goûteurs et on leur demande de classer ces n
produits. Nous avons donc à notre disposition une série statistique double :
x1 , x2 , . . . , xn
y1 , y 2 , . . . , y n
6. EXERCICES 33
avec :
{x1 , x2 , . . . , xn } = {y1 , y2 , . . . , yn } = {1, 2, . . . , n}
On appelle coefficient de Spearman le coefficient de corrélation linéaire :
cov(x, y)
rs =
sx sy
(i) Montrer que Pn

6 i=1 d2i
rs = 1 −
n(n2 − 1)
où di = xi − yi .
(ii) Que signifie rs = 1, rs = −1, rs = 0 ?
Indication
(i) On rappelle que la somme des n premiers entiers est égale à n(n + 1)/2 et que la somme des carrés des n
premiers entiers est égale à n(n + 1)(2n + 1)/6.
On calculera SCEx en fonction de n
Exercice 6.2.3. Dans une solution aqueuse contenant un polluant, on plonge un solide absorbant (charbon actif
sous forme de tissu) qui “ capture ” une partie des molécules de la substance polluante. Au bout d’un certain
temps, le système est à l’équilibre : Chaque point d’équilibre est caractérisé par la concentration à l’équilibre
C e et la quantité de polluant absorbé par unité de masse de charbon actif, q e . A une température donnée, on
peut mesurer différents points sur une courbe (C e , q e ) dite isotherme d’adsorption. Le tableau suivant fournit
l’isotherme d’adsorption de l’aniline à 25 ◦ C (Faur-Brasquet, 1998).
Ce 72 57,7 38,5 21,3 13,1 6,9 3,9 1,2

(mg/l)
qe 232,5 211 192 163,4 136,7 116,3 96,2 61,9
(mg/g)
Étudier la liaison entre q e et C e en supposant que les incertitudes expérimentales sur C e sont négligeables
devant celles sur q e . On fera le graphique en “ nuage de points ” des valeurs de q e en fonction des valeurs de C e .
On étudiera ensuite les deux modèles suivants :
Modèle de Langmuir qe = q1+bC m bCe
e
1/n
Modèle de Freundlich qe = KCe
Pour chacun des deux modèles, on estimera les paramètres du modèle (q m et b, K et n) par régression linéaire
simple sur des variables “ modifiées ”.
Conclure sur “ l’adéquation ” des 2 modèles proposés.
Indications
On prendra pour le modèle de Langmuir les variables xL = 1/Ce et yL = 1/qe et pour le modèle de Freundlich
les variables xF = ln Ce et yF = ln qe . On donne
x2Li = 0.7904
P P P P
i xLi = 1.4151 i yLi = 0, 0628 i i xLi yL i = 0, 0185
x2F i = 69, 6526

P P P P
i xF i = 21, 0887 i yF i = 39, 5204 i i xF i yF i = 108, 5925
6.3 Exercices sans indications

Exercice 6.3.1. Pour une élection où il y a trois candidats, on désire savoir si les femmes et les hommes ont le
même comportement. C’est-à-dire si les populations des hommes et des femmes sont homogènes pour ce critère.
On réalise pour cela un sondage sur 200 hommes et 100 femmes et on a obtenu les données de la table 6.3.1
(i) Calculer les profils colonnes ;

(ii) Réaliser le graphique adapté à ces données.
Exercice 6.3.2. Dix répétitions d’une mesure de plomb ont été effectuées par spectrophotométrie d’absorption
atomique sur 10 échantillons indépendants. la table 6.3.2 suivant rassemble les valeurs trouvées.
Candidats :Populations Hommes Femmes

1 68 22
2 51 24
3 81 54
Tab. 2.10 – Données
Mesures xi Mesures xi
1 0,975 6 1.210
2 1,095 7 1,232
3 1,135 8 1,242
4 1,165 9 1,362
5 1,180 10 2,185
Tab. 2.11 – Données
(i) Calculer la moyenne et la médiane de ces données ;

(ii) Calculer l’écart type et l’écart interquartile de ces données ;
(iii) Représenter graphiquement ces données ;
(iv) On supprime la plus grande des données.
(a) Calculer la moyenne et la médiane de ces données ;
(b) Calculer l’écart type et l’écart interquartile de ces données ;
(v) Commentaires.
Exercice 6.3.3. Des mesures ont été réalisées pendant plusieurs journées sur un chauffe-eau solaire. On a mesuré
l’énergie E accumulée en fin de journée dans le ballon de stockage. On considère cette variable comme la “ réponse ”
du système vis à vis de deux autres variables mesurées simultanément : l’irradiation solaire journalière H reçue
sur le plan du capteur et l’écart moyen de température T entre l’eau froide et l’air extérieur. Les performances
énergétiques journalières du chauffe-eau sont fournies dans le tableau suivant (Source :Adnot et al., 1988)
Date E (MJ) H (MJ/m22 ) T (◦ C)

24 mars 19,0 16,8 6,9
25 mars 13,3 14,0 4,4
26 mars 7,1 8,2 5,8
27 mars 0,7 1,6 2,2
28 mars 0,7 2,3 1,4
29 mars 13,1 13,1 4,2
30 mars 29,4 27,9 5,0
31 mars 23,9 24,1 4,1
1 avril 12,1 14,2 1,0
16 septembre 10,9 8,2 10,0
17 septembre 8,4 6,5 11,3
18 septembre 16,9 14,6 12,7
19 septembre 4,0 3,0 8,6
20 septembre 20,5 18,1 9,7
21 septembre 26,1 23,9 10,6
22 septembre 24,8 23,2 9,5
1 juillet 33,2 23,1 16,8
2 juillet 32,0 21,7 17,9
3 juillet 27,4 19,0 16,8
Étudier la liaison entre E, H et T. On fera le graphique en “ nuage de points ” des valeurs de E en fonction
des valeurs de H, puis de T. On étudiera ensuite la régression linéaire multiple E = β 0 + β 1 H + β 2 T
On donne P P P
i Ei = 323, 5 Pi Hi2 = 283, 5 Pi Ti2 = 158, 9
P Pi Hi = 5420 Pi Ti = 1812, 4
i Ei Hi = 6260, 9 i Ei Ti = 3300, 4 i Hi Ti = 2651
Chapitre 3
Probabilités
1 Introduction
L’objet de la statistique est souvent d’obtenir des conclusions sur une population à partir de données. Afin de
d’obtenir celles-ci nous aurons besoin de connaı̂tre les lois de probabilité de certaines variables aléatoires définis
sur l’espace d’échantillonnage (i.e. sur l’espace de tous les échantillons possibles). Ceci est l’objet du chapitre sur
la théorie de l’échantillonnage. Pour cela nous avons donc besoin des notions fondamentale de probabilités.
Jeu de dé
6
Probabilités Statistiques
?
Résultat de 100 lancés
Population
6
Probabilités Statistiques
?
n-Échantillon
A l’origine les probabilités sont liées au jeux de hasard1 et on continue depuis à parler de science du hasard et
aussi de loi du hasard. Mais comment cela est-il possible puisque par définition même le hasard est imprévisible ?
Intuitivement on définit souvent la probabilité d’un événement comme le rapport du nombre de cas favorables
sur le nombre de cas total, supposés tous également possibles. Mais que veut dire “également possibles” sinon
“également probables” ? Et que signifie “également probables” sinon “de probabilités égales”. La probabilité est
ainsi définie à partir du terme probabilité ! Cette définition peut se comparer à la définition du point comme limite
d’une sphère dont le rayon tend vers 0 et de la sphère comme l’ensemble de points situés à une égale distance d’un
point fixe. Pourtant tout le monde sait ce qu’est un point et ce qu’est une sphère.
La théorie des probabilités est en fait une théorie mathématique parfaitement rigoureuse qui permet de modéliser
1 Il est à remarquer d’ailleurs que ce terme vient d’un mot arabe qui signifie : jeu de dé. Nous profitons de cette note pour souligner
que le terme aléa provient lui du latin alea qui signifie aussi jeu de dé.
35
36 CHAPITRE 3. PROBABILITÉS
des phénomènes où les résultats ne peuvent être connus avec certitude et c’est cette théorie que nous allons étudier
maintenant.
2 Définition des probabilités

2.1 Exemples
Exemple 2.1.1 (Cas fini). On considère un caractère dû à un gène ayant deux allèles C et c. On sait que dans
un croisement chacun des deux parents donne un des deux gènes ; si les parents sont tous les deux hétérozygotes,
c’est-à-dire ont tous les deux le génotype Cc, les génotypes des descendants sont de l’un des quatre types suivants
(le premier gène indiqué est celui de la mère) :CC, Cc, cC, cc. Nous avons ainsi les quatre événements élémentaires
de l’épreuve. Si ces événements sont équiprobables, la probabilité de chacun d’entre eux est p = 1/4. Supposons
maintenant que ce qui nous intéresse est le phénotype des individus et que l’allèle C soit dominant. L’ensemble
fondamental devient alors Ω = {[C], [c]} où [C] (respectivement [c]) représente le phénotype C (respectivement c)
et correspond aux génotypes CC, Cc, cC (respectivement cc). Si les génotypes sont tous équiprobables alors nous
avons P ([C]) = 3/4 et P ([c]) = 1/4.
Exemple 2.1.2 (Cas infini dénombrable). On considère l’expérience aléatoire qui consiste à lancer un dé et à
noter le nombre de coups nécessaires pour obtenir 6 pour la première fois. On a donc Ω = {1, 2, 3, 4, . . .} = N∗ . La
probabilité de l’événement élémentaire n est :
n−1
5 1
pn =
6 6
+∞ +∞ n−1 +∞ n
X X 5 1 1X 5 1 1
pn = = = . 5 =1
n=1 n=1
6 6 6 n=0
6 6 1− 6
Exemple 2.1.3 (Cas infini non dénombrable). Un voyageur arrive à la date t = 0 à une station de bus. On sait
qu’un bus passe toutes les 5 minutes. Le voyageur étant seul ne peut savoir quand est passé le dernier bus. Quelle
probabilité peut-on définir ?
Le voyageur sait qu’il attendra au maximum 5 minutes. Donc ici Ω = [0, 5]. Mais il n’a aucune raison de
privilégier des instants par rapport à d’autres. Aussi il est logique de prendre comme probabilité d’un intervalle
[a, b] = A ⊂ Ω le rapport des longueurs des intervalles A et Ω :
b−a
P (A) =
5−0
Plus l’intervalle sera grand plus il aura de “chance” de voir le bus passer. L’ensemble des événements E contiendra
donc tout les intervalles du type [a, b] mais aussi :
– [0, a[= CΩ [a, 5]
– ]b, 5] = CΩ [0, b]
– [a, b[= ∪n∈N [a, b − (1/n)]
– ]a, b] = ∪n∈N [a + (1/n), b]
– ]a, b[=]a, (a + b)/2] ∪ [(a + b)/2, b[
– ∪n∈N (an , bn ) où (an , bn ) est un intervalle ouvert, fermé ou semi-ouvert
– ∩n∈N (an , bn ) = CΩ {∪n∈N CΩ (an , bn )}
– {a} = ∩n∈N [a − (a/n), a + (1/n)]
– etc ...
E est un ensemble très vaste mais on démontre qu’il est différent de P(Ω). Ayant défini P ([a, b]) par (b − a)/5 =
Rb
a
(1/5)dx on démontre alors que l’on peut construire une probabilité P sur E et que l’on a :
Z
P (A) = (1/5)dx
A
La loi de probabilité est alors parfaitement définie par la fonction

f (x) = 1/5 si x ∈ [0, 5].
Soit A = [a, b[∪]c, d[ alors, avec a < b < c < d
R Rb Rd
P (A) = A f (x)dx = a f (x)dx + c f (x)dx = A = aire achurée.
2. DÉFINITION DES PROBABILITÉS 37
f (x) 6 'A
1
5
@@@@@@@@@
@ @@@@
@
@@@@@@@@@ @@@
@@ @ @@@@
@@@@@@@ @ @@@
@@@ @@@
@@@@@@@ @ @
@@@@ @ @ @@@@
@@@@@@ @ @@ @
@
@@@@@@@@
@@ @
@@@@ -
a b c d x
Remarque 2.1.4. On a P ({a}) = (a − a)/5 = 0 et

P ([0, a[∪]a, 5]) = 1 − P ({a}) = 1. L’événement {a} peut se produire, mais a une probabilité nulle et l’événement
[0, a[∪]a, 5] peut ne pas se produire mais a une probabilité égale à 1. Ce type de résultat étonne toujours l’étudiant
au début, mais cela montre un peu la difficulté de travailler sur un ensemble non dénombrable.
2.2 Définitions
Lorsque Ω est un ensemble infini non dénombrable (un intervalle de R par exemple) nous ne pouvons pas
définir la probabilité d’un événement de façon constructive. En fait il existe même des sous ensembles de Ω pour
lesquels nous ne pouvons pas calculer de probabilités, et l’ensemble des événements E est alors un sous ensemble
de P(Ω). Les ensembles pour lesquels nous ne pouvons pas calculer la probabilité sont assez pathologiques et on
ne les rencontre jamais dans la pratique ; néanmoins nous devons mathématiquement définir quelles propriétés doit
avoir l’ensemble E. La probabilité ne peut alors être définie que de façon axiomatique 2 .
Définition 2.2.1 (Tribu ou σ-algèbre de Boole). Soit Ω un ensemble non vide. Un sous ensemble E de P(Ω) est
une tribu ou une σ-algèbre de Boole si et seulement si elle vérifie les trois propriétés suivantes :
(i) ∅ ∈ E et Ω ∈ E
(ii) Si A ∈ E alors CΩ A ∈ E
(iii) Si Ai ∈ E ∀i ∈ I avec I fini où dénombrable alors
[
Ai ∈ E
i∈I
Définition 2.2.2 (Espace probabilisé ou mesurable). Tout couple (Ω, E) où E est une tribu est appelé un espace
probabilisé ou mesurable.
Définition 2.2.3 (Probabilité). Soit (Ω, E) un espace probabilisé. Une probabilité P sur E est une application de
E dans [0, 1] qui satisfait les trois axiomes suivants :
(i) 0 ≤ P (A) ≤ 1 ∀A ∈ E ; P (Ω) = 1
(ii) ∀(A, B) ∈ E × E A ∩ B = ∅ =⇒ P (A ∪ B) = P (A) + P (B)
(iii) Si (An )n∈N An ∈ E est une suite telle que An+1 ⊂ An et
\
An = ∅ alors lim P (An ) = 0
n→+∞
n∈N
2.3 Représentation graphique

Lorsque Ω est fini où dénombrable la probabilité P est parfaitement déterminée par la donnée des pi . On
représente alors cette probabilité par un diagramme en bâtons.
Exemple 2.3.1. Reprenons l’exemple (2.1.1), alors Ω = {[c], [C]}, p = 3/4 q = 1/4
2 Cette définition axiomatique fut donnée la première fois par le mathématicien soviétique (ou russe ?) A.Kolmogorov en 1933. Cette
approche est donc assez récente. Ceci montre bien que cette notion de probabilité n’est pas aussi évidente qu’elle n’y paraı̂t à priori.
pk 6
3
4
1
4
-
[C] [c] k
Exemple 2.3.2. Reprenons l’exemple(2.1.2) : Ω = N∗ et

n−1
5 1
pn = .
6 6
pk 6
1
6
5
36
-
1 2 3 4 5 6 7 8 9 10 11 k
Par contre lorsque Ω est infini non dénombrable la probabilité est parfaitement déterminée par sa fonction de
densité.
Exemple 2.3.3. Loi uniforme sur un intervalle [a, b]. La fonction de densité est :
f (x) = 1/(b − a) sur [a, b] et 0 ailleurs.
f (x) 6 'A = 1
1
(b−a)
@@@@@@@@@@@@@@@@@@@
@
@@@@@@@@@@@@@@@@@@@
@@ @
@@@@@@@@@@@@@@@@@ @
@@@ @
@@@@@@@@@@@@@@@@@
@@@@ @
@@@@@@@@@@@@@@@@ @
@
@@@@@@@@
@@@@@@@@@@@@ -
a b x
Exemple 2.3.4. Loi normale réduite. La fonction de densité est :

1 2
f (x) = √ e−x /2
2π
Remarque 2.3.5. On démontre que

Z +∞ Z B
f (x)dx = lim f (x)dx = 1 = P (Ω)
−∞ A→−∞ B→+∞ A
3. PROBABILITÉS CONDITIONNELLES ET INDÉPENDANCE 39
f(x)
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
x
−3 −2 −1 0 1 2 3
Fig. 3.1 –
3 Probabilités conditionnelles et indépendance

3.1 Probabilités conditionnelles
Considérons pour illustrer notre propos l’expérience aléatoire qui consiste à jeter deux dés (l’un rouge et l’autre
bleu). On suppose que chacun des 36 événements élémentaires sont équiprobables ; ils ont donc pour probabilité
p = 1/36. Ω = {(i, j), i ∈ I et j ∈ J} où I = J = {1, 2, 3, 4, 5, 6} (i, j) signifie que le dé rouge a donné i et le dé
bleu a donné j.
Supposons maintenant que l’on sache que le dé rouge a donné 3. Quelle est alors la probabilité que la somme
des deux dés soit 8 ?
Pour calculer cette probabilité on peut raisonner de la façon suivante : nous ne pouvons en fait avoir que 6
événements dans notre expérience : (3,1), (3,2), (3,3), (3,4), (3,5), (3,6). Aussi, sachant que le dé rouge est un 3,
la probabilité (conditionnelle) de chacun des événements (3,1), (3,2), (3,3), (3,4), (3,5), (3,6) est 1/6, alors que la
probabilité (conditionnelle) des 30 autres événements est nulle. Par conséquent la réponse à la question est 1/6.
Si nous désignons par A l’événement “la somme des 2 dés est 8” et par B l’événement “le dé rouge est 3”, alors
la probabilité calculée précédemment s’appelle la probabilité conditionnelle que A apparaisse sachant que B est
réalisée et elle est notée P (A/B).
Définition 3.1.1 (Probabilité conditionnelle). Soit (Ω, E) un espace probabilisé et P une probabilité sur cet espace.
Soit B un événement de probabilité non nulle. On appelle probabilité conditionnelle de l’événement A sachant que
B est réalisée la quantité :
P (A ∩ B)
P (A/B) =
P (B)
3.2 Indépendance d’événements

Définition 3.2.1 (Indépendance–dépendance de deux événements). Deux événements sont dits indépendants si
la réalisation de l’un d’entre eux ne modifie pas la réalisation de l’autre, en d’autres termes, si la réalisation de l’un
d’entre eux n’apporte aucune information au sujet de l’autre. Les événements A et B sont dits dépendants dans le
cas contraire.
Théorème 3.2.2. Deux événements A et B sont indépendants si et seulement si :
P (A ∩ B) = P (A).P (B)
Démonstration
Si P (B) = 0 alors P (A ∩ B) = 0 (car 0 ≤ P (A ∩ B) ≤ P (B) = 0) donc P (A ∩ B) = P (A).P (B)
Si P (B) 6= 0 alors P (A ∩ B) = P (B).P (A/B) or A et B sont indépendants si et seulement si la réalisation de A ne
donne pas d’information sur B donc si et seulement si P (A/B) = P (A) Par suite P (A ∩ B) = P (A).P (B) 2
Exemple 3.2.3. On jette deux dés. Soit A l’événement “la somme des dés est 6” et B l’événement “le premier dé
est un 4”. Alors P (A ∩ B) = P ({(4, 2)}) = 1/36. Mais
P (A) = P ({(1, 5), (2, 4), (3, 3), (4, 2), (5, 1)}) = 5/36
et
P (B) = P ({(4, 1), (4, 2), (4, 3), (4, 4), (4, 5), (4, 6)}) = 1/6
donc P (A).P (B) 6= P (A ∩ B) et les deux événements sont dépendants. Ici P (A/B) = 1/6 et P (A/B̄) = 4/30 . Soit
C l’événement “la somme des dés est 7”. Alors
P (C) = P ({(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)}) = 1/6 et par suite
P (B ∩ C) = 1/36 = P (B).P (C). Ici B et C sont indépendants ; le fait de savoir que la somme est 7 ne donne
aucun renseignement sur le score du premier dé. Par contre le fait de savoir que la somme est 6 implique que l’on
ne peut pas avoir un 6 pour le premier dé.
Nous allons maintenant généraliser la notion d’indépendance à un nombre quelconque d’événements.
Définition 3.2.4 (Indépendance de n événements). Soit (Ai )i=1,...,n n événements d’un espace probabilisé. Ces
événements sont dits indépendants si et seulement si pour tout sous-ensembles
{A01 , A02 , . . . , A0r } de {A1 , . . . , An } r ≤ n on a :
P (A01 ∩ A02 . . . ∩ A0r ) = P (A01 ).P (A02 ) . . . P (A0r )
Remarque 3.2.5. Des événements (Ai )i=1,...,n peuvent être indépendants deux à deux sans être indépendants.
Considérons par exemple les 3 événements suivants de l’expérience aléatoire consistant à jeter deux pièces de
monnaie non truquées :
– L’événement A “la première pièce est Pile”
– L’événement B “la deuxième pièce est Face”
– L’événement C “les deux pièces sont sur le même côté”
Alors
P (A ∩ B) = 1/2.1/2 = P (A).P (B)
P (A ∩ C) = 1/2.1/2 = P (A).P (C)
P (B ∩ C) = 1/2.1/2 = P (B).P (C)
Les trois événements sont dont bien indépendants deux à deux. Mais
P (A ∩ B ∩ C) = P (∅) = 0 6= P (A).P (B).P (C)
par suite les trois événements ne sont pas indépendants. Ici le fait de savoir que la première pièce donne Pile et
que la deuxième pièce donne Face implique que l’événement C ne peut pas être réalisé.
4 Variables aléatoires
4.1 Introduction
Nous serons toujours amenés en pratique à travailler avec des variables aléatoires. Chaque mesure collectée sera
mise en relation avec une variable aléatoire. Ainsi les grandeurs auxquelles on s’intéressera seront en lien avec des
fonctions définies sur un ensemble fondamental, c’est-à-dire avec des variables aléatoires. Ce qui nous intéressera, en
pratique, sera la loi de probabilité sur l’espace d’arrivé. Nous donnons ci-après quelques exemples de formalisation
par des variables aléatoires où P désigne la population française :
X1 : P −→ {M, F }
ω 7−→ M si ω est un homme
ω 7−→ F si ω est une femme
X2 : P −→ R
ω 7−→ Revenu de ω
X3 : P −→ {CSP1 , CSP2 , . . . , CSPn }

ω 7−→ la catégorie socioprofessionnelle de ω
X4 : P −→ R
ω 7−→ taille de ω
X5 : P −→ N
ω 7−→ nombre de yaourts mangés par ω pendant un an
Dans cette section nous étudierons tout d’abord le cas simple où la variable aléatoire ne pourra prendre qu’un
nombre fini ou dénombrable de valeur différentes. Ensuite nous étudierons les variables aléatoires réelles continues,
puis nous nous intéresserons à la notion de fonction de répartition d’une variable réelle. Le paragraphe suivant sera
consacré à l’étude succincte des fonctions de variables aléatoires réelles. Enfin nous terminerons cette section par
une rapide étude des variables aléatoires vectorielles.
4. VARIABLES ALÉATOIRES 41
4.2 Définition
Variables aléatoires discrètes
Définition 4.2.1 (Variable aléatoire discrète). Soit (Ω, E) un espace probabilisé et P une probabilité sur cet espace.
On appelle variable aléatoire discrète définie sur (Ω, E) à valeur dans E toute application X de Ω dans E telle que :
(i) X ne prend qu’un nombre fini ou dénombrable de valeurs dans E.
(ii) Pour tout x ∈ X(Ω), le sous ensemble X −1 (x) = {ω ∈ Ω/X(ω) = x} de Ω est un événement (X −1 (x) ∈ E).
Théorème 4.2.2. Soit (Ω, E) un espace probabilisé et P une probabilité sur cet espace. Soit X une variable aléatoire
discrète de Ω dans E, alors l’application PX définie par :
PX : P(X(Ω)) −→ [0, 1]
A 7−→ PX (A) = P (X −1 (A)) = P ({ω ∈ Ω/X(ω) ∈ A}
est une probabilité sur (X(Ω), P(X(Ω))).
Démonstration
Évidente. 2
Remarque 4.2.3. La terminologie employée ici est assez malheureuse et est source de confusion chez l’étudiant.
Nous tenons donc à bien faire prendre conscience qu’une variable aléatoire X est une fonction parfaitement
déterminée, cela n’a rien à voir avec une variable mathématique bien qu’on la note X. Quant au terme aléatoire il
n’est présent que pour rappeler que l’on travaille sur des espaces probabilisés.
Remarque 4.2.4. Une variable aléatoire permet en fait de transporter une probabilité définie sur un espace pro-
babilisé dans un autre espace probabilisé.
Remarque 4.2.5. En posant pn = PX (xn ) = P (X−1 ({xn })) nous retrouvons la définition d’une probabilité sur
un ensemble fini ou dénombrable.
Définition 4.2.6 (Loi d’une variable aléatoire). La probabilité PX est appelée la loi de la variable aléatoire X.
Exemple 4.2.7. On jette trois fois une pièce de monnaie et on s’intéresse au nombre de faces obtenu. Ici
Ω = {(F, F, F ), (F, F, P ), (F, P, F ), (F, P, P ), (P, F, F ), (P, F, P ), (P, P, F ), (P, P, P )}
et
X : Ω −→ R
ω 7−→ X(ω) = nombre de F dans ω
X(Ω) = {0, 1, 2, 3} = Ω0 , X est une variable aléatoire de (Ω, P(Ω)) dans (Ω0 , P(Ω0 ))
X −1 ({0}) = {(P, P, P )} et PX ({0}) = P ({(P, P, P )}) = 1/8

X −1 ({1}) = {(P, P, F ), (P, F, P ), (F, P, P )} et PX ({1}) = 3/8
X −1 ({2}) = {(P, F, F ), (F, P, F ), (F, F, P )} et PX ({2}) = 3/8
X −1 ({3}) = {(F, F, F )} et PX ({3}) = 1/8
Exemple 4.2.8. Reprenons l’exemple (2.2.1.1) et posons Ω = {CC, Cc, cC, cc}. Nous pouvons alors définir le
phénotype comme la variable aléatoire suivante :
X:Ω −→ {[C], [c]}

CC 7−→ [C]
Cc 7−→ [C]
cC 7−→ [C]
cc 7−→ [c]
Nous avons bien alors :
PX ({[C]}) = P ({CC, Cc, cC}) = 3/4

PX ({[c]}) = P ({cc}) = 1/4
Définition 4.2.9 (Variable aléatoire discrète réelle). On appelle variable aléatoire discrète réelle (v.a.r.d.) toute
variable aléatoire discrète à valeur dans R.
Notation 4.2.10. Lorsque X est une variable aléatoire réelle on note aussi :
PX ({x}) = P (X = x) = P (X −1 (x))
PX (] − ∞, x]) = P (X ≤ x) = P (X −1 (] − ∞, x]))
Par exemple dans l’exemple (4.2.7) on note aussi
PX ({1}) = P (X = 1) = 3/8 et PX ({0, 1, 2}) = P (X ≤ 2) = 7/8
Remarque 4.2.11. On représente la loi de probabilité d’une variable discrète réelle par des diagrammes en bâtons.
Variables aléatoires réelles continues

Définition 4.2.12 (Variable aléatoire réelle continue). Soit (Ω, E) un espace probabilisé et P une probabilité sur
cet espace. On appelle variable aléatoire réelle continue (v.a.r. continue) définie sur (Ω, E) toute application X de
Ω dans R ayant les propriétés suivantes :
(i) L’ensemble {ω ∈ Ω/X(ω) ∈ [a, b]} est un événement (i.e ; un élément de E) pour tout couple (a, b) de R 2 .
(ii) Il existe une fonction f de R dans R telle que
Z b
P (X ∈ [a, b]) = P (X −1 ([a, b])) = PX ([a, b]) = f (x)dx
a
Définition 4.2.13 (Fonction de densité). On appelle fonction de densité d’une variable aléatoire réelle continue
X toute fonction f permettant de définir la probabilité comme indiqué dans la définition ci-dessus.
Remarque 4.2.14. Une fonction f est une fonction de densité si et seulement si :
(i) f (x) ≥ 0 pour tout x.
(ii) f est intégrable.
R +∞
(iii) −∞ f (x)dx = 1
Exemple 4.2.15. La durée de fonctionnement d’un ordinateur avant sa première panne est une variable aléatoire
continue de densité donnée par :
f : R −→ R
x 7−→ λe−x/100 si x ≥ 0
x 7−→ 0 sinon
Quelle est la probabilité que cette durée de fonctionnement soit comprise entre 50 et 150 heures ? Quelle est la
probabilité que l’ordinateur fonctionne moins de 100 heures ?
Z +∞ Z +∞
f (x)dx = λe−x/100 dx = 100λ
−∞ 0
Donc f est une fonction de densité si et seulement si λ = 1/100. Par suite :

Z 150
1 −x/100
P (X ∈ [50, 150]) = e dx = e−1/2 − e−3/2 ' 0, 384
50 100
Z 100
P (X ≤ 100) = f (x)dx = 1 − e−1 ' 0, 633
0
Conclusion
Nous pouvons donc dire qu’une variable aléatoire c’est une fonction parfaitement connue qui permet de
transposer une probabilité d’un espace probabilisé dans un autre. Une variable aléatoire, c’est comme le
Saint Empire Romain : il n’était pas saint, ce n’était pas un empire et il n’était pas Romain3 . Quant-à la loi d’une
variable aléatoire, c’est la probabilité qu’elle définit sur l’espace d’arrivée. C’est cette loi ou des paramêtre de cette
loi qui nous intéressera en pratique. Par abus de langage nous dirons que :
3 Cette analogie vient de Donald E. Catlin ”Estimation, Control, and the Discrete Kalman Filter”, page 5, ed. Springer-Verlag 1989
(i) X est une v.a.r. de loi F (fonction de répartition) ;
(ii) X est une v.a.r. continue de loi f (fonction de densité) ;
(iii) X est une v.a.r. discrète de loi P (X = k).
Et nous noterons :
P (a ≤ X ≤ b) = P (X ∈ [a, b]) = PX ([a, b]) = P (X −1 ([a, b]))
4.3 Fonction de répartition
Nous n’étudierons dans ce paragraphe que des variables aléatoires réelles.
Définition 4.3.1 (Fonction de répartition). On appelle fonction de répartition associée à la variable aléatoire
réelle X la fonction F définie par :
F : R −→ R
x 7−→ F (x) = P (X ≤ x) = PX (] − ∞, x])
En d’autre termes F (x) est la probabilité que la variable aléatoire X prenne une valeur inférieure ou égale à x.
Nous allons maintenant voir les représentations graphiques des cette fonction sur trois exemples, l’un fini, l’autre
dénombrable et le troisième infini non dénombrable.
Exemple 4.3.2. Reprenons l’exemple (4.2.7) où la variable aléatoire X est le nombre de faces obtenu lors du jeté
de trois pièces. Ici la fonction de répartition est :
F (x) = 0 si x ∈] − ∞, 0[
1
F (x) = P (X ≤ x) = P (X = 0) = si x ∈ [0, 1[
8
1 3 1
F (x) = P (X = 0 ou X = 1) = P (X = 0) + P (X = 1) = + = si x ∈ [1, 2[
8 8 2
7
F (x) = si x ∈ [2, 3[
8
F (x) = 1 si x ∈ [3, +∞[
Nous avons donc la représentation graphique suivante :

F (x) 6
1 r
7 r
8
1 r
2
1 r
8
-
-1 0 1 2 3 x
Exemple 4.3.3. Soit X ne nombre de fois qu’il faut lancer une pièce de monnaie pour obtenir pile. Nous avons :
F (x) = 0 si x<1
1
F (x) = si x ∈ [1, 2[
2
1 1
F (x) = + si x ∈ [2, 3[
2 4
..
.
n
X 1 1
F (x) = n
= 1 − n si x ∈ [n, n + 1[
i=1
2 2
..
.
et la représentation graphique donne :

F (x) 6
r
7 r
8
3 r
4
1 r
2
-
-1 0 1 2 3 x
Exemple 4.3.4. Considérons la loi uniforme sur [−1, +1], c’est-à-dire la loi définie par la fonction de densité f
suivante :
f :R −→ R
u 7−→ f (u) = 1/2 si u ∈ [−1, +1]
u 7−→ f (u) = 0 sinon
Nous avons alors :
Z x Z x
Si x ≤ −1 alors F (x) = f (u)du = 0dx = 0
−∞ −∞
Z x Z x
1 1
Si − 1 ≤ x ≤ 1 alors F (x) = f (u)du = dx = (x + 1)
−∞ −1 2 2
Zx Z1
1
Si x ≥ 1 alors F (x) = f (u)du = dx = 1
−∞ −1 2
Nous avons donc la visualisation suivante :

F (x) 6
1
2
-
-1 0 1 2 3 x
Remarque 4.3.5. Lorsque l’on parle de variable aléatoire réelle continue c’est la fonction de répartition qui est
continue et non pas la fonction de densité.
Théorème 4.3.6. La loi de probabilité d’une variable aléatoire réelle est parfaitement connue à partir de sa
fonction de répartition F . C’est-à-dire que si l’on connaı̂t la fonction de répartition d’une variable aléatoire réelle
X alors on peut calculer P (a < X < b) pour tout (a, b) dans R. Nous dirons alors que la loi de X est F .
Démonstration
Admise 2
Remarque 4.3.7. Nous emploierons indifféremment, par abus de langage, pour caractériser une loi les expres-
sions :
(i) X est de loi F où F est la fonction de répartition associée à X.
(ii) X est de loi f si X est continue et f est la fonction de densité associée à X.
(iii) X est de loi P (X = k) si X est discrète.
Théorème 4.3.8. Soit X une variable aléatoire réelle continue de fonction de densité f alors :
(i) Si f est continue en a et b alors :
Z b
P (a ≤ X ≤ b) = f (x)dx = P (a ≤ X < b)
a
= P (a < X ≤ b)
= P (a < X < b)
= F (b) − F (a)
(ii) Si f est continue en a alors :
dF
(a) = F 0 (a) = f (a)
dx
Démonstration
Cela provient des propriétés de l’intégrale 2
Corollaire 4.3.9. Soit X une variable aléatoire réelle continue définie par une fonction de densité f continue.
Alors si F est la fonction de répartition associée à X on a :
Z x
F (x) = f (u)du et F 0 (x) = f (x)
−∞
et
P (a < X < b) = F (b) − F (a)
P (a < X ≤ b) = F (b) − F (a)
P (a ≤ X < b) = F (b) − F (a)
P (a ≤ X ≤ b) = F (b) − F (a)
Remarque 4.3.10. Le corollaire précédent est important dans la pratique car c’est la fonction de répartition F
qui est donnée dans les tables statistiques.
4.4 Fonction d’une variable aléatoire réelle continue

Il arrive souvent dans la pratique que l’on connaisse la distribution d’une variable aléatoire X mais que l’on
s’intéresse plutôt à celle d’une fonction de cette variable aléatoire. En d’autres termes on connaı̂t X mais on désire
connaı̂tre g(X).
Exemple 4.4.1. Soit X une variable uniformément distribuée sur [0, 1]. On obtiendra la distribution de Y = X 2
de la manière suivante :
FY (y) = P (Y ≤ y) y ≥ 0
= P (X 2 ≤ y)
√
= P (X ≤ y)
√ √
= FX ( y) = y si y ∈ [0, 1]
Donc
1
fY (y) = FY0 (y) = √ si y ∈ [0, 1]
2 y
fY (y) = 0 sinon
Théorème 4.4.2. Soit X une variable aléatoire réelle continue de densité fX et soit g une fonction strictement
monotone (croissante ou décroissante) et dérivable de R dans R. La densité de probabilité de la variable aléatoire
Y = g(X) est alors :
d −1
fX (g −1 (y)) dy

g (y) si il existe un x pour lequel y = g(x)
fY (y) =
0 si g(x) 6= y pour tout x
Démonstration
Cela provient du théorème de changement de variable dans une intégrale. 2
Application 4.4.3. Soit X une variable aléatoire réelle de loi normale de paramètre µ et σ, c’est-à-dire que X a
pour fonction de densité
1 2 2
f (u) = √ e−(x−µ) /(2σ )
2πσ
et soit
x−µ
g(x) = et Y = g(X)
σ
alors
x−µ
g(x) = y ⇐⇒ y=
σ
⇐⇒ x = σy + µ = g −1 (y)
Par suite
1 2
fY (y) = fX (σy + µ)σ = √ e−y /2
2π
et donc Y suit une lois normale réduite (i.e. de paramètres 0 et 1). Par conséquent nous avons :
Z a
FX (a) = fX (x)dx = P (X ≤ a)
−∞
a−µ
a−µ
Z σ
= fY (y)dy = P (Y ≤ )
−∞ σ
= P (σY + µ ≤ a)
a−µ
= FY ( )
σ
En conclusion si on connaı̂t la fonction de répartition de loi normale réduite on peut calculer la fonction de
répartition de toutes les lois normales.
4.5 Variables aléatoires vectorielles

Dans les applications pratiques on rencontre souvent des problèmes dans lesquels les résultats des expériences
se trouvent décrits non pas par une variable aléatoire mais par deux ou plusieurs variables aléatoires. Par exemple
lorsque l’on jette 3 dés le résultat est donné par 3 nombres, ou lorsque l’on désire étudier simultanément le rendement
d’une variété de blé et les précipitations de mars à juin.
Comme pour les variables aléatoires réelles nous allons tout d’abord étudier les variables aléatoires discrètes,
puis les variables aléatoires réelles continues. Nous étudierons tout d’abord le cas de deux variables aléatoires, puis
nous généraliserons.
Définition 4.5.1 (Vecteur aléatoire). On appelle vecteur aléatoire de dimension n tout n-uplet
(X1 , . . . , Xn ) de n variables aléatoires définies sur le même espace (Ω, E).
Notation 4.5.2. Lorsque n = 2 on parle de couple de variables aléatoires et on note (X, Y ).
Définition 4.5.3 (Fonction de probabilité jointe). Soient X et Y 2 variables aléatoires discrètes à valeur respec-
tivement dans E et F . On appelle fonction de probabilité jointe de X et de Y la fonction p définissant la loi de
probabilité du couple de variables aléatoires (X, Y ) suivante.
p : E × F −→ R
(x, y) 7−→ p(x, y) = P (X = x etY = y)
Remarque 4.5.4. Soit p la fonction de probabilité jointe de X et de Y alors :

(i) p(x, y) ≥ 0 ∀(x, y) ∈ E × F
(ii)
XX
p(x, y) = 1
x∈E y∈Y
Définition 4.5.5 (Loi marginale). Soient X et Y 2 variables aléatoires discrètes à valeurs dans E et F et p
la fonction de probabilité jointe de X et Y . On appelle loi de probabilité marginale de X (respectivement Y )
l’application
pX : E −→ R
X
x 7−→ pX (x) = p(x, y)
y∈F
respectivement
pY : F −→ R
X
y 7−→ pY (y) = p(x, y)
x∈E
Remarque 4.5.6. pX (respectivement pY ) est la loi de probabilité de la variable aléatoire X (respectivement Y )
Remarque 4.5.7. Lorsque E et F sont finis, E = {x1 , . . . , xn } et F = {y1 , . . . , ym } on représente p(x, y) de la

façon suivante :
y1 y2 ··· yj ··· ym pX
x1 p(x1 , y1 ) p(x1 , y2 ) · · · p(x1 , yj ) ··· p(x1 , ym ) pX (x1 )
x2 p(x2 , y1 ) p(x2 , y2 ) · · · p(x2 , yj ) ··· p(x2 , ym ) pX (x2 )
.. .. .. .. .. ..
. . . . . .
xi p(xi , y1 ) p(xi , y2 ) · · · p(xi , yj ) ··· p(xi , ym ) pX (xi )
.. .. .. .. .. ..
. . . . . .
xn p(xn , y1 ) p(xn , y2 ) · · · p(xn , yj ) ··· p(xn , ym ) pX (xn )
pY pY (y1 ) pY (y2 ) ··· pY (yi ) ··· pY (ym ) 1
Exemple 4.5.8. On lance deux dés à jouer et on s’intéresse à la somme des résultats obtenus (variable U ) et au
maximum des résultats des deux dés (variable V ). Nous avons alors :
U :V 1 2 3 4 5 6 pV
1 1
2 36 0 0 0 0 0 36
2 2
3 0 36 0 0 0 0 36
1 2 3
4 0 36 36 0 0 0 36
2 2 4
5 0 0 36 36 0 0 36
1 2 2 5
6 0 0 36 36 36 0 36
2 2 2 6
7 0 0 0 36 36 36 36
1 2 2 5
8 0 0 0 36 36 36 36
2 2 4
9 0 0 0 0 36 36 36
1 2 3
10 0 0 0 0 36 36 36
2 2
11 0 0 0 0 0 36 36
1 1
12 0 0 0 0 0 36 36
1 3 5 7 9 11
pU 36 36 36 36 36 36 1
Nous allons maintenant étudier le cas des variables aléatoires réelles continues.
Définition 4.5.9 (Fonction de densité d’un couple de v.a. continues).
On dit que le couple de variables aléatoires réelles continues a une densité de probabilité f , application de R2 dans
R positive et intégrable si et seulement si on peut écrire :
ZZ
P (A) = P ((X, Y ) ∈ A) = f (x, y)dxdy ∀A ∈ E
A
2
où E est la tribu de R qui contient les rectangles [a, b] × [c, d]
Remarque 4.5.10. Si A est un rectangle [a, b] × [c, d] alors on démontre que
Z b Z d
P (A) = ( f (x, y)dy)dx
a c
Illustration 4.5.11. Graphiquement z = f (x, y) représente dans R3 une surface et le volume totale délimité par
cette surface et le plan (O, x, y) est égale à 1 car
ZZ
P (Ω) = P (R2 ) = f (x, y)dxdy = 1
R2
Si A = [a, b] × [c, d] alors P (A) est le volume ombré ci-dessous :
Fig. 3.2 – Densité d’un couple de variables aléatoires réelles
Exemple 4.5.12. (Densité uniforme sur un disque C) Soit C le disque de centre O et de rayon a > 0, C =
{(x, y) ∈ R2 tel que x2 + y 2 ≤ a}
f (x, y) = πa1 2

si (x, y) ∈ C
f (x, y) = 0 sinon
Ici les variables aléatoires X et Y sont les applications composantes.

Exemple 4.5.13. (Loi normale réduite à 2 dimensions) La fonction de densité est ici :
1 − x2 +y 2 “ ”
f (x, y) =
e 2
2π
Définition 4.5.14 (Loi marginale). Soit X et Y un couple de variables aléatoires réelles continues de fonction de
densité f . On appelle loi de probabilité marginale de X (respectivement Y ) l’application :
fX : R −→ R
Z +∞
x 7−→ fX (x) = f (x, y)dy
y=−∞
respectivement
fY : R −→ R
Z +∞
y 7−→ fY (y) = f (x, y)dx
x=−∞
Remarque 4.5.15. (i) La loi marginale de X (respectivement de Y ) est en fait la loi de la variable aléatoire X
(respectivement Y )
(ii) La fonction de répartition de X (respectivement de Y ) est alors :
Z x Z x Z +∞
FX (x) = fX (u)du = f (u, v)dudv
−∞ u=−∞ v=−∞
Z y Z +∞ Z y
(respectivement FY (y) = fY (v)dv = f (u, v)dudv )
−∞ u=−∞ v=−∞
Remarque 4.5.16. (i) La généralisation au cas de n variables aléatoires (Y1 , . . . , Yn ) est immédiate. Lorsque
l’on traite des variables discrètes, on a :
p(y1 , y2 , . . . , yn ) = P (Y1 = y1 et Y2 = y2 . . . et Yn = yn )
Lorsque l’on traite des variables aléatoires réelles continues, on a :
Z Z Z
P (A) = · · · f (y1 , y2 , . . . , yn )dy1 dy2 . . . dyn
A
(ii) Rien ne nous empêche de définir aussi des lois jointes de deux variables aléatoires réelles X et Y lorsque X
est discrète et Y continue. Mais, comme nous ne les utiliserons pas ici, nous ne les étudierons pas.
4.6 Variables aléatoires indépendantes

Nous considérons dans cette section deux variables aléatoires X et Y définies sur le même espace Ω.
Définition 4.6.1 (Indépendance de 2 v.a.r.). Deux variables aléatoires réelles X et Y sont dites indépendantes si
et seulement si pour tout événement A ⊂ R et B ⊂ R, on a :
P (X ∈ A et Y ∈ B) = P (X ∈ A) × P (Y ∈ B)
Remarque 4.6.2. La définition précédente est équivalente à dire que les événements X −1 (A) et Y −1 (B) sont
indépendants pour tout ensemble A et B.
Théorème 4.6.3. Soient X et Y 2 variables aléatoires discrètes. X et Y sont indépendantes si et seulement si :
p(x, y) = pX (x) × pY (y) ∀(x, y) ∈ R2
Théorème 4.6.4. Soient X et Y deux variables aléatoires réelles continues. X et Y sont indépendantes si et
seulement si
f (x, y) = fX (x) × fY (y) ∀(x, y) ∈ R2
Démonstration
Démonstration admise. 2
Remarque 4.6.5. (i) Pour pouvoir parler d’indépendance ou de dépendance de 2 ou plus variables aléatoires il
faut que celles-ci soient définies sur le même espace fondamental.
(ii) La signification concrète de l’indépendance de 2 variables aléatoires est que la connaissance de la valeur
d’une des variables aléatoires sur un individu n’apporte aucune information sur la valeur de l’autre variable
aléatoire.
5 Espérance mathématique
5.1 Définitions
L’espérance mathématique d’une variable aléatoire est l’un des concepts les plus important en théorie des
probabilités.
Définition 5.1.1 (Espérance mathématique d’une v.a.r.d.). Soit X une variable aléatoire réelle discrète de loi P .
On appelle espérance mathématique la grandeur, si elle existe, suivante.
X
E(X) = xP (X = x)
x
Exemple 5.1.2. Soit X de loi de Bernoulli de paramètre p ; c’est-à-dire :
P (X = 0) = 1 − p = q et P (X = 1) = p
alors
E(X) = 0 × q + 1 × p = p
Définition 5.1.3 (Espérance mathématique d’une v.a.r. continue). Soit X une variable aléatoire réelle continue
de fonction de densité f . On appelle espérance mathématique de X la quantité si elle existe :
Z +∞
E(X) = xf (x)dx
−∞
Exemple 5.1.4. Soit X de loi uniforme sur [a, b] alors

Z +∞
1 1 a+b
E(X) = x dx = (b2 − a2 ) =
−∞ b−a 2(b − a) 2
Théorème 5.1.5. Soit X une variable aléatoire réelle et g une application de R dans R. Soit Y = g(X), alors
l’espérance mathématique de Y est si elle existe :
(i) Si X est discrète : X
E(Y ) = E(g(X)) = g(x)P (X = x)
x
(ii) Si X est continue de loi f

Z +∞
E(Y ) = E(g(X)) = g(x)f (x)dx
−∞
Remarque 5.1.6. On devrait en fait écrire Y = g ◦ X au lieu de Y = g(X). En effet il s’agit bien ici de la
composition de fonction :
X g
Y : Ω −→ R −→ R
ω 7−→ X(ω) 7−→ g ◦ (X(ω))
Théorème 5.1.7. Soit a et b deux constantes réelles et X une variable aléatoire réelle d’espérance mathématique
E(X), alors nous avons
E(aX + b) = aE(X) + b
Démonstration
Il suffit de poser Y = aX + b et d’appliquer le théorème précédent. Le résultat s’obtient alors immédiatement en
utilisant la propriété de linéarité de la somme ou de l’intégrale. 2
Définition 5.1.8 (Moments par rapport à l’origine). Soit X une variable aléatoire réelle. On appelle n-ième
moment de X par rapport à l’origine la quantité si elle existe E(X n )
(i) Si X est discrète X
E(X n ) = xn P (X = x)
x
(ii) Si X est continue de densité f

Z +∞
n
E(X ) = xn f (x)dx
−∞
5. ESPÉRANCE MATHÉMATIQUE 51
Remarque 5.1.9. Le n-ième moment de X par rapport à l’origine est l’espérance mathématique de la variable
aléatoire Y = X n .
Définition 5.1.10 (Moments centrés). Soit X une variable aléatoire réelle. On appelle n-ième moment centré de
X la quantité si elle existe E[(X − E(X))n ]
(i) Si X est discrète
X
E[(X − E(X))n ] = (x − E(X))n P (X = x)
x
(ii) Si X est continue de densité f

Z +∞
E[(X − E(X))n ] = (x − E(X))n f (x)dx
−∞
Remarque 5.1.11. Si l’on pose µ = E(X) alors le n-ième moment centré de X est l’espérance mathématique de
la variable aléatoire Y = g(X) avec
g : R −→ R
x 7−→ (x − µ)n
Remarque 5.1.12.P Très souvent pour passer

R d’une variable discrète à une variable continue il suffit de changer
une somme finie en une “somme infinie” .
5.2 Espérance d’une somme de variables aléatoires

Théorème 5.2.1. Soit (Y
P1n, Y2 , . . . , Yn ) un n-uplet de variables aléatoires réelles qui possèdent des espérances
mathématiques alors S = i=1 Yi possède une espérance mathématique et on a :
n
X
E(S) = E(Yi )
i=1
Exemple 5.2.2. Soit (Y1 , . . . , Yn ) un n-uplet de variables de loi de Bernoulli de paramètre p alors :
Xn n
X n
X
E( Yi ) = E(Yi ) = p = np
i=1 i=1 i=1
5.3 Variance–Covariance
Définition 5.3.1 (Variance d’une variable aléatoire réelle). Soit X une variable aléatoire réelle. On appelle variance
de X la quantité si elle existe :
V ar(X) = E[(X − E(X))2 ]
Remarque 5.3.2. La variance est en fait le moment centré d’ordre deux.
Remarque 5.3.3. La variance est une mesure de l’écart moyen entre la variable aléatoire X et son espérance
mathématique. Nous aurions pu prendre comme mesure
E(|X − E(X)|), mais cette quantité est plus difficile à manipuler.
La variance a la dimension du carré de la variable aléatoire aussi, pour avoir une grandeur de la dimension de
la variable, on définit la quantité suivante.
Définition 5.3.4 (Écart type). Soit X une variable aléatoire réelle. On appelle écart type de X la quantité si elle
existe : p
σ(X) = V ar(X)
Théorème 5.3.5. La variance d’une variable aléatoire réelle existe si et seulement si le moment d’ordre deux de
X existe et on a la relation suivante :
V ar(X) = E(X 2 ) − (E(X))2

Démonstration
Nous n’allons démontrer que la formule ci-dessus sans démontrer totalement le théorème. Posons µ = E(X)
V ar(X) = E[(X − µ)2 ] = E[X 2 − 2µX + µ2 ]

= E(X 2 ) − 2µE(X) + µ2
= E(X 2 ) − µ2
2
Exemple 5.3.6. Soit X et Y de lois
1
P (X = 1) =
2
1
P (X = −1) =
2
1
P (Y = 100) =
2
1
P (Y = −100) =
2
alors E(X) = E(Y ) = 0 et
1 1
V ar(X) = E(X 2 ) = 12 × + (−1)2 × = 1
2 2
1 1
V ar(Y ) = E(Y 2 ) = 100 × + (−100)2 × = 10000
2
2 2
Cet exemple illustre bien la remarque (5.3.3) ci-dessus : les variables X et Y ont la même espérance mathématique
mais la dispersion des valeurs par rapport à cette espérance mathématique est plus grande pour Y que pour X.
Théorème 5.3.7. Soit X une variable aléatoire réelle qui possède une variance alors Y = aX + b a une variance
pour tout (a, b) ∈ R2 et on a :
V ar(Y ) = a2 V ar(X)
Théorème 5.3.8. Soit (X, Y ) un couple de variables aléatoires réelles indépendantes alors
E(XY ) = E(X)E(Y )
Remarque 5.3.9. Il faut bien faire attention à la signification de l’égalité ci-dessus. (X, Y ) est un couple de
variables aléatoires réelles, c’est-à-dire que
(X, Y ) : Ω −→ R2
ω 7−→ (X(ω), Y (ω))
et XY est la variable aléatoire réelle Z = g ◦ (X, Y ) où
g : R2 −→ R
(x, y) 7−→ g(x, y) = xy
En d’autre terme Z est la variable aléatoire réelle suivante :
Z : Ω −→ R
ω 7−→ Z(ω) = X(ω)Y (ω)
E(XY ) n’est alors que E(Z).

Remarque 5.3.10. La réciproque du théorème précédent est fausse, on peut avoir
E(XY ) = E(X)E(Y ) sans avoir des variables indépendantes.
Définition 5.3.11 (Covariance). Soit (X, Y ) un couple de variables aléatoires réelles admettant des espérances
mathématiques. On appelle covariance de X et de Y la quantité, si elle existe définie par :
Cov(X, Y ) = E[(X − E(X))(Y − E(Y ))]
Remarque 5.3.12. On a V ar(X) = Cov(X, X).

5. ESPÉRANCE MATHÉMATIQUE 53
Théorème 5.3.13. Soit (X, Y ) un couple de variables aléatoires réelles admettant des espérances mathématiques.
La covariance de X et de Y existe si et seulement si E(XY ) existe et on a la relation suivante :
Cov(X, Y ) = E(XY ) − E(X)E(Y )
Corollaire 5.3.14. Soit (X, Y ) un couple de variables aléatoires réelles admettant des espérances mathématiques.
Si X et Y sont indépendantes alors :
Cov(X, Y ) = 0
Démonstration
Cela provient de l’application directe des théorèmes (5.3.8) et (5.3.13). 2
Théorème 5.3.15. Soit (X, Y ) un couple de variables aléatoires réelles admettant des espérances mathématiques
et des variances. Alors la variance de X + Y et la covariance de X et Y existent et on a la relation suivante :
V ar(X + Y ) = V ar(X) + V ar(Y ) + 2Cov(X, Y )
Démonstration
V ar(X + Y ) = E[(X + Y − E(X + Y ))2 ]

= E[((X − E(X)) + (Y − E(Y )))2 ]
= E[(X − E(X))2 ] + E[(Y − E(Y ))2 ] + E[2(X − E(X))(Y − E(Y ))]
= V ar(X) + V ar(Y ) + 2Cov(X, Y )
2
Corollaire 5.3.16. Sous les mêmes hypothèses que précédemment et si de plus les variables aléatoires sont
indépendantes alors :
V ar(X + Y ) = V ar(X) + V ar(Y )
Démonstration
Immédiate 2
Remarque 5.3.17. Les résultat précédents se généralisent sans difficultés au cas d’un n-uplet de variables aléatoires :
(i)
Xn Xn X
V ar( Yi ) = V ar(Yi ) + 2 Cov(Yi , Yj )
i=1 i=1 i<j
(ii) Si les variables sont indépendantes deux à deux

Xn n
X
V ar( Yi ) = V ar(Yi )
i=1 i=1
Exemple 5.3.18. Considérons le cas d’un n-uplet de variables aléatoires de loi de Bernoulli de paramètre p
indépendantes.
Xn n
X n
X
V ar( Yi ) = V ar(Yi ) = pq = npq
i=1 i=1 i=1
Théorème 5.3.19. Soit (X, Y ) un couple de variables aléatoires réelles ayant des variances. Nous avons alors :
|Cov(X, Y )| ≤ σ(X)σ(Y )
Définition 5.3.20 (Corrélation). Soit (X, Y ) un couple de variables aléatoires réelles ayant des variances non
nulles. On appelle corrélation de X et Y la quantité :
Cov(X, Y )
ρ(X, Y ) =
σ(X)σ(Y )
Remarque 5.3.21. On a toujours, lorsque la corrélation est définie :
−1 ≤ ρ(X, Y ) ≤ +1
Définition 5.3.22 (Variables non corrélées). Deux variables aléatoires réelles X et Y pour lesquelles la corrélation
existe sont dites non corrélées si et seulement si leur corrélation est nulle.
6 Théorèmes limites
6.1 Introduction
Les théorèmes limites constituent sans doute les résultats théoriques parmi les plus importants de la théorie
des probabilités. Ces théorèmes sont répartis en deux grandes classes : les lois des grands nombres d’une part,
les théorèmes centraux limites d’autre part. Les lois des grands nombres énoncent des conditions sous lesquelles
la moyenne d’une suite de variables aléatoires de même loi converge (dans un sens à définir) vers leur espérance
mathématique commune, ceci implique notamment la convergence de la fréquence d’apparition d’un événement vers
sa probabilité. Les théorèmes centraux limites par contre déterminent sous quelles hypothèses la somme de variables
aléatoires converge (ici encore dans un sens à définir) vers la distribution normale ; ceci permet d’approximer la
somme d’un grand nombre de variables aléatoires à une loi normale et c’est ce type de théorème qui justifie de
façon théorique l’utilisation (parfois abusive) de la loi normale en statistique.
Dans toute cette section nous considérerons des variables aléatoires réelles définies sur un même espace (Ω, E).
6.2 Lois des grands nombres

Théorème 6.2.1 (Loi faible des grands nombres). Soient Y1 , Y2 , . . . une suite de variables aléatoires indépendantes
et identiquement distribuées, d’espérance mathématique commune finie (E(Yi ) = µ) et de variance commune finie
(V ar(Yi ) = σ 2 ). Alors pour tout ε > 0 on a :

Y1 + Y2 + · · · + Yn
P − µ > ε
−→ 0
n
n −→ +∞
Démonstration
Nous ne démontrerons le résultat que lorsque la variance (commune) des Yi σ 2 est finie.
Comme
n n
X 1 1X
E( Yi ) = E(Yi ) = µ
i=1
n n i=1
et
n
X nσ 2 σ2
V ar( Yi ) = 2 =
i=1
n n
Il résulte de l’inégalité de Thebychev que
σ2

Y1 + Y2 + · · · + Yn
0≤P − µ > ε ≤ 2

n nε
On en déduit immédiatement le résultat. 2

Remarque 6.2.2. La loi faible des grands nombres fut établie pour la première fois par Jacques Bernoulli pour le
cas particulier où les variables sont de loi de Bernoulli. L’énoncé de ce théorème et la démonstration qu’il en donne
figurent dans son ouvrage :”Ars Conjectandi” publié en 1713 par son neveu Nicolas Bernoulli huit ans après sa
mort. Il faut savoir qu’à cette époque on ne connaissait pas l’inégalité de Tchebychev, et Bernoulli dut développer
une démonstration extrêmement ingénieuse pour établir ce résultat.
Théorème 6.2.3 (Loi forte des grands nombres). Soient Y1 , Y2 , . . . une suite de variables aléatoires indépendantes
et identiquement distribuées, d’espérance mathématique commune finie (E(Yi ) = µ) et de variance commune finie
(V ar(Yi ) = σ 2 ). Alors on a
Y1 + · · · + Yn
−→ µ
n
n −→ +∞

Y1 + · · · + Yn
(i.e. P lim =µ = 1)
n→+∞ n
Démonstration
Admise. 2
Remarque 6.2.4. On a souvent, au début, du mal à saisir la différence entre la loi faible et la loi forte des grands
nombres. La loi faible assure que pour toute valeur de n suffisamment grande (Y1 + · · · + Yn )/n est probablement
très voisines de µ. Elle n’assure pas cependant que (Y1 + · · · + Yn )/n devra rester dans un voisinage étroit de µ. Il
6. THÉORÈMES LIMITES 55
est donc possible qu’il y ait de larges écarts entre (Y1 + · · · + Yn )/n et µ pour une infinité d’événements, infinité
dont la probabilité collective est très faible cependant. La loi forte des grands nombres exclut cette situation. Elle
assure en particulier qu’avec une probabilité de 1 et pour toute valeur de ε > 0 la valeur de l’expression ci-dessous
ne sera supérieure à ε qu’un nombre fini de fois.
n
X Y
i
− µ

n

i=1
Exemple 6.2.5. Supposons que l’on réalise une série d’épreuves indépendantes. Soit A un événement donnée
relatif à l’expérience ainsi répétée et P (A) sa probabilité, constante au cours des épreuve. On pose :

Yi = 1 si A survient au cours de l’épreuve numéro i
Yi = 0 sinon
La loi forte des grands nombres établit qu’avec une probabilité 1 on a :

Y1 + · · · + Yn
−→ E(X) = P (A) quand n −→ +∞ (3.1)
n
Comme Y1 + · · · + Yn représente le nombre d’occurrences de l’événement A au cours des n premières épreuves (3.1)
peut donc recevoir l’interprétation suivante : La fréquence relative d’apparition de l’événement A converge, avec
une probabilité de 1, vers la probabilité d’apparition de l’événement A P (A).
Exemple 6.2.6. Soit X une variable aléatoire réelle continue de loi f . Soit y1 , y2 , . . . , yN N réalisations indépendantes
de X. On trace alors l’histogramme suivant :
0.5
0.45
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
−2.7 −2.1 −1.5 −0.9 −0.3 0.3 0.9 1.5 2.1 2.7
x
Fig. 3.3 – Histogramme et fonction de densité
La loi des grands nombres dit que :

R xi+1
A −→ xi
f (x)dx
n −→ +∞
En d’autres termes l’histogramme ”converge” vers la fonction de densité lorsque n tend vers l’infini
et l’intervalle de classe ”tend” vers 0.
Théorème 6.2.7 (Théorème de limite centrale). Soient Y1 , Y2 , . . . une suite de variables aléatoires réelles indépendantes
et identiquement distribuées, d’espérance mathématique µ et de variance σ finies. Alors la distribution de
Y1 + · · · + Yn − nµ
Zn = √
σ n
tend vers la distribution normale réduite quand n tend vers +∞, c’est-à-dire que :
Z a
1 x2
P (Zn ≤ a) −→ √ e− 2 dx = φ(a)
2π −∞
n −→ +∞
Démonstration
Admise. 2
0.25 0.25
0.2 0.2
0.15 0.15
0.1 0.1
0.05 0.05
0 0
0 5 10 0 5 10
0.25 0.25
0.2 0.2
0.15 0.15
0.1 0.1
0.05 0.05
0 0
0 5 10 0 5 10
Fig. 3.4 – 500 données d’une loi uniforme sur [0,12]
0.25 0.25
0.2 0.2
0.15 0.15
0.1 0.1
0.05 0.05
0 0
0 5 10 0 5 10
0.25 0.25
0.2 0.2
0.15 0.15
0.1 0.1
0.05 0.05
0 0
0 5 10 0 5 10
Fig. 3.5 – ”Convergence” de l’histogramme vers la fonction de densité (n=100,500,1000,5000)
Exemple 6.2.8. Lorsque les Yi sont des variables de Bernouilli de paramètre p, le théorème précédent nous donne :

Y1 + · · · + Yn − np
P √ ≤β −→ φ(β)
npq
n −→ +∞
Pour n “assez” grand ceci nous permet de calculer :

Y1 + · · · + Yn − np
P α≤ √ ≤ β ' φ(β) − φ(α)
npq
La valeur de n à partir de laquelle on peut confondre les deux quantités dépend de la valeur du paramètre p, mais
si p est compris entre 0,1 et 0,9 alors on peut pratiquement faire l’approximation à partir de n = 30.
Exemple 6.2.9. Soit X une variable aléatoire continue uniforme sur [0, 12]. On définit alors :
Ȳn : Ωn −→ R
n n
1X 1X
ω = (ω1 , . . . , ωn ) 7−→ Ȳn (ω) = Yi (ω) = X(ωi )
n i=1 n i=1
et
Ȳn − µ
Zn = √
σ/ n
avec µ = E(X) = 2.5 et σ 2 = V ar(X) = 12
alors
Zn −→ Z : N (0, 1)
n −→ +∞
6. THÉORÈMES LIMITES 57
0.1 0.1
0.05 0.05
0 0
90 100 110 90 100 110
0.1 0.1
0.05 0.05
0 0
90 100 110 90 100 110
Fig. 3.6 – 500 données d’une loi N (100, 25)
0.1 0.1
0.05 0.05
0 0
90 100 110 90 100 110
0.1 0.1
0.05 0.05
0 0
90 100 110 90 100 110
Fig. 3.7 – ”Convergence” de l’histogramme vers la fonction de densité (n = 100, 500, 1000, 5000)
σ2
Ȳn −→ Z̄ : N (µ, )
n
n −→ +∞
0.15 0.2
0.15
0.1
0.1
0.05
0.05
0 0
0 5 10 0 5 10
0.3 0.3
0.2 0.2
0.1 0.1
0 0
0 5 10 0 5 10
Fig. 3.8 – Théorème limite centrale dans le cas d’une loi uniforme sur [0, 12] (n = 1, 2, 3, 5).
Remarque 6.2.10. Ce théorème, comme nous l’avons déjà dit en introduction de cette section, est la justification
théorique de l’emploi fréquent de la loi normale.
Lorsque l’on étudie par exemple le rendement d’une céréale, ce rendement est en fait une moyenne et cette
moyenne suit approximativement une loi normale.
1 1
0.8 0.8
0.6 0.6
0.4 0.4
0.2 0.2
0 0
0 5 10 0 5 10
0.8
0.6
0.4
0.2
0
0 5 10
Fig. 3.9 – Théorème limite centrale dans le cas d’une loi uniforme sur [0, 12] (n = 10, 20, 50).
Chapitre 4
Théorie de l’échantillonnage
1 Modélisation des variables

1.1 Introduction
L’objet de cette section est la modélisation des données. Il faut ici entendre le terme modélisation dans le sens
de la modélisation mathématique ou de la formalisation mathématique1 . On s’intéresse donc à l’art de représenter
à l’aide d’objets mathématiques des situations concrètes. Nous n’aborderons ici la modélisation mathématique que
dans le cadre très restreint de l’estimation et de la théorie des tests statistiques2 . Le premier point à aborder
concerne donc le passage de la question de départ à son écriture mathématique ; par exemple comment écrivons
nous le problème de l’estimation d’un taux de germination et par quel objet mathématique représentons nous ce
taux de germination.
1.2 Variable aléatoire

Exemple 1.2.1. Taux le germination
Considérons l’exemple d’un taux de germination. Soit donc T une variété fixée de tournesol. Le taux de germination
est le pourcentage de graines qui germent quand on met à germer les graines de cette variété T . Il nous faut pour
définir rigoureusement ce taux de germination bien définir la population G sur laquelle nous travaillons. En effet
les conditions dans lesquelles on met à germer les graines comme la température, l’éclairage, ... peuvent influencer
ce taux de germination. Définir G, c’est donc non seulement définir rigoureusement la variété, mais aussi les
conditions expérimentales. Cette population est a priori infinie car on peut considérer les graines qui existent
aujourd’hui, mais aussi celle à venir dans un an, dans 2 ans, ... Une fois la population G définie, on peut écrire la
fonction de G à valeurs dans {0, 1} suivante :
X:G −→ {0, 1}
g 7−→ 0 si g ne germe pas
g 7−→ 1 si g germe.
Cette fonction est une variable aléatoire de loi de Bernoulli de paramètre p = P (X = 1) = E(X) où p exprimé en
pourcentage n’est autre que le taux de germination. On peut donc définir le taux de germination, exprimé comme
un nombre dans l’intervalle [0, 1], comme étant l’espérance mathématique, c’est-à-dire la valeur moyenne, de la
variable aléatoire X. Estimer un taux de germination, c’est donc trouver une ”valeur approchée” du paramètre p
de la loi de Bernoulli de la variable aléatoire X.
Exemple 1.2.2. Le 29 mai 2005 les électeurs français seront appelés à se prononcer pour ou contre le projet de
traité établissant une constitution pour l’Europe3 . Si notre objectif est de savoir si la constitution sera acceptée ou
non, il faut considérer comme population l’ensemble des bulletins exprimés, c’est-à-dire l’ensemble des bulletins oui
1 Le terme de modélisation mathématique est, à notre grand regret, souvent galvaudé. Il signifie souvent l’utilisation de modèles
déjà établis. Mais l’art de la modélisation, c’est-à-dire l’art de construire des modèles mathématiques, est difficile. Newton a dû, pour
trouver la loi de la gravitation universelle, construire la notion de dérivée !
2 La modélisation mathématique intervient aujourd’hui dans tous les domaines scientifiques : l’environnement, la science du climat, la
biologie, l’économie, ... Elle utilise des notions mathématiques très variées et parfois très complexes : équations différentielles ordinaires
et stochastiques, équations aux dérivées partielles, chaı̂nes de Markov, ... La modélisation étudiée ici est donc un cas très particulier.
3 Nous avons fini de rédiger ce chapitre une semaine avant le référendum
59
60 CHAPITRE 4. THÉORIE DE L’ÉCHANTILLONNAGE
ou non4 . Soit P cette population, nous pouvons alors définir la variable aléatoire X suivante :
X:P −→ {0, 1}
b 7−→ 0 si le bulletin b est non
b 7−→ 1 si le bulletin b est oui.
X est encore une variable aléatoire de loi de Bernoulli de paramètre p. Ce paramètre représente ici le pourcentage
des électeurs qui ont voté oui dans la population des électeurs qui ont voté oui ou non. Le problème est alors de
connaı̂tre la valeur de ce paramètre et plus précisemment de savoir si cette valeur est supérieure ou inférieure à
1/2.
Remarque 1.2.3. Dans l’exemple précédent, nous avons considéré le cas d’un référendum et non celui d’un
sondage d’opinion. Dans le cas du référendum, les estimations qui seront données le soir du 29 mai seront obtenues
à partir de bulletins dépouillés, donc de données exactes. Le cas des sondages est lui beaucoup plus délicat. En effet,
on n’est pas sûr dans un sondage que les personnes interrogées répondent vraiment ce qu’elles pensent et on ne
sait pas si les personnes qui refusent de répondre ont le même comportement que celles qui répondent ; bref, nous
n’avons pas les données exactes. La fiabilité des données est bien évidemment une question très importante en
pratique qu’il faut toujours garder à l’esprit. Nous n’aborderons pas cette question dans ce cours, question qui est
totalement dépendante du domaine d’application. La collecte des données pour un référendum ou celle pour l’étude
de la pollution d’une nappe phréatique sont bien évidemment très différentes. Elle doit donc être effectuée par un
spécialiste du domaine. Nous supposerons donc toujours ici que les données sont fiables.
Exemple 1.2.4. Considérons maintenant un cas d’école qui nous sera très utile pédagogiquement. La population
U étudiée est une urne remplie de boules blanches et noires. On définit alors la variable aléatoire suivante
X:U −→ {0, 1}
b 7−→ 0 si b est noire
b 7−→ 1 si b est blanche.
X est toujours une variable aléatoire de loi de Bernoulli de paramètre p. Ici ce paramètre est le pourcentage de
boules blanches dans l’urne.
On voit donc ici qu’estimer un taux de germination, un pourcentage de réponses par oui à un référendum ou
un pourcentage de boules blanches dans une urne contenant des boules blanches et noires, sont des problèmes
identiques.
Exemple 1.2.5. On s’interesse ici à un caractére qualitatif (la couleur des yeux) dans une population déterminée
P, par exemple la population française. On définit alors la variable aléatoire
X : P −→ {marron,noir, bleu,vert,autre}
1 individu −
7 → la couleur de ses yeux.
Ce qu’on désire connaı̂tre c’est la proportion des individus qui ont la couleur des yeux marron, noir, bleu, vert et
autre, c’est-à-dire la loi de la variable aléatoire X : P (X = marron), P (X = noir), P (X = bleu), P (X = vert), et
P (X = autre).
Exemple 1.2.6. On s’intéresse au rendement exprimé en quintaux à l’hectare d’une variété fixée de tournesol T .
Définissons la variable aléatoire suivante :
X:P −→ R
une culture 7−→ le rendement de cette culture.
Il faut là encore bien définir la population P. On doit en autre préciser :

– la variété T ;
– le type de terrain ;
4 En France les bulletins blancs sont considérés comme des bulletins nuls et ne sont donc pas des suffrages exprimés. Ceci n’est pas
le cas dans tous les pays.

1. MODÉLISATION DES VARIABLES 61
– la taille des parcelles, leurs expositions, ... ;

– les conditions de cultures ;
– ...
Le rendement est alors définie comme l’espérance mathématique de cette variable : µ = E(X). Estimer un ren-
dement, c’est donc encore trouver une ”valeur approchée” de l’espérance mathématique d’une variable aléatoire.
Nous supposerons en pratique pour cela que la loi de cette variable aléatoire (qui est une loi de probabilité sur R)
est normale de paramètre µ et σ. On écrira que X suit une loi N (µ, σ 2 ) (attention nous mettons la variance σ 2 et
non l’écart type dans N (µ, σ 2 )). Ceci n’est bien sûr qu’un modèle. En effet, un rendement est toujours positif et
donc on sait que P (X < 0) = 0. Or, si X suit une loi normale, cette quantité est ègale à
Z 0
1 2 2
√ e−(x−µ) /(2σ ) dx,
−∞ 2πσ
qui est strictement positif. Cependant, cette dernière quantité sera en pratique extrêment faible (voir l’exercice
6.1.2). Elle ne remettra donc pas en cause le modèle choisi.
Remarque 1.2.7. Le choix d’une loi de probabilité d’une variable aléatoire comme le rendement n’est pas toujours évident. Il se fait en
pratique à partir de la connaissance que l’on peut avoir a priori. La justification théorique de l’emploi de la loi normale vient du théorème
limite central. On peut en effet penser que le rendement obtenu est le résultat moyen d’un grand nombre de variable indépendantes (de
variances majorées). Le théorème limite central nous dit alors que la loi de probabilité qui en résulte est très proche d’une loi normale.
Nous mettons cependant en garde le lecteur sur l’utilisation parfois abusive de cette loi normale.
Exemple 1.2.8. On désire étudier simultanément sur la population P des étudiants français de l’année 2005 les
variables suivantes : le sexe, la taille, la couleur des yeux, et leurs ressources annuelles. On définit en fait ici le
vecteur aléatoire de dimension 5 suivant :
X : P −→ {M, F } × R × R × {marron,noir,bleu, vert,autre} × R
un étudiant 7−→ (son sexe,sa taille, son poids, la couleur de ses yeux, ses ressources annuelles).
Les applications composantes de X définissent cinq variables aléatoires X1 , X2 , X3 , X4 , X5 qui sont définies sur le
même espace de départ que X : P et qui représentent respectivement les variables sexe, taille, poids, couleur des
yeux et ressources. La variable couleur des yeux s’écrit par exemple
X4 : P −→ {marron,noir,bleu, vert,autre}
un étudiant 7−→ la couleur de ses yeux.
On peut donc parler ici de l’indépendance ou non de ces variables aléatoires (X1 , X2 , X3 , X4 , X5 ).
Ces exemples montrent clairement que l’on formalise toujours les variables étudiées par des variables aléatoires. Il
faudra toujours en pratique bien préciser ces variables aléatoires, c’est-à-dire la population de départ et l’application
elle même. En effet les données seront en pratique les valeurs obtenues des variables aléatoires sur un échantillon
de la population. Les statistiques ne pourront donner de réponses que sur la population à partir de laquelle on
a extrait l’échantillon et uniquement celle-ci. Précisons aussi que les termes de population et d’individu sont à
prendre dans leur sens statistique. Ainsi, dans l’exemple 1.2.6 un individu est en fait une culture sur une parcelle.
On parle aussi parfois d’unité expérimentale au lieu d’individu. On emploie aussi le terme de caractère au lieu de
variable.
En conclusion une variable sera en fait une variable aléatoire
X:P −→ C
ω 7−→ X(ω),
où
– la population P est en terme de probabilité un espace fondamental ;
– un individu ω est un élément de la population P ;
– C est l’ensemble des valeurs que peut prendre la variable aléaloire.
Ce que l’on souhaite connaı̂tre en pratique c’est la loi de cette variable aléatoire, ou la valeur de certain de ses
paramètres. Nous souhaitons ici souligner que la terminologie de variable aléatoire est très mauvaise. En effet, une variable aléatoire X de
P à valeurs dans C est en fait une fonction parfaitement déterninée qui permet de transposer une probabilité d’un espace probabilisé dans un
autre. Une variable aléatoire n’est donc pas une variable dans le sens mathématique du terme puisque c’est une fonction ; et cette fonction est
parfaitement connue. On peut donc dire, comme cela est mentionné dans [2] qu’une variable aléatoire, c’est comme le Saint Empire Romain
Germanique : il n’était pas saint, ce n’était pas un empire et il n’était pas romain ! ! !
2 Introduction à la théorie de l’échantillonnage

2.1 Modélisation des données
On considère les données de la tables 4.1, [5]. Ces données, notées (y1 , . . . , yn ) sont des longueurs de la rectrice
centrale de la gélinotte huppée mâle, juvénile. Ces 50 données sont 50 réalisations ou 50 observations de la variable
aléatoire
X:P −→ C
une gélinotte 7−→ la longueur de sa rectrice centrale.
où P est la population des gélinottes huppées mâles juveniles. Il s’agit d’un premier point de vue. C’est celui-ci qui
est pris en considération lorsque l’on représente graphiquement les données (voir la figure 4.1).
153 165 160 150 159 151 163

160 158 149 154 153 163 140
158 150 158 155 163 159 157
162 160 152 164 158 153 162
166 162 165 157 174 158 171
162 155 156 159 162 152 158
164 164 162 158 156 171 164
158
Tab. 4.1 – Longueurs de la rectrice centrale de la gélinotte huppée mâle, juvénile
Mais nous pouvons adopter un autre point de vue qui est beaucoup moins intuitif. C’est ce deuxième point de
vue qui est pris en considération lorsque l’on fait une estimation ou un test statistique et que nous allons présenter
maintenant. Pour cela, on considère le vecteur aléatoire suivant :
Y = (Y1 , . . . , Y50 ) : Ω −→ R50

g = (g1 , . . . , g50 ) 7−→ Y (g) = (X(g1 ), . . . , X(g50 ),
où l’ensemble Ω est l’ensemble de tous les échantillons de taille 50 extraits de la population P, c’est-à-dire que
Ω = {g = (g1 , . . . , g50 ) ∈ P 50 |gi 6= gj pour i 6= j}.
Y (g) est donc un vecteur contenant les 50 longeurs de la rectrice centrale des 50 gélinottes de l’échantillon g. Les
données de la table 4.1 sont alors une réalisation (ou une observation) de ce vecteur aléaloire Y .
En résumé les deux points de vues modélisant les données sont :
– l’échantillon (y1 , . . . , yn ) représente n observations de la variable aléatoire X ;
– l’échantillon (y1 , . . . , yn ) représente une onservation du vecteur aléatoire Y .
Nous allons maintenant voir ce que permet ce deuxième point de vue.
2.2 Exemple de l’urne

Nous commençons par l’étude du cas d’école d’une urne rempli de boules blanches et noires. L’intérêt de cet
exemple, outre sa simplicité, est de bien comprendre la différence entre ce que nous appellerons un échantillonnage
avec remise et un échantillonnage sans remise.
Tirage avec remise

Considérons l’expérience qui consiste à tirer avec remise n boules d’une urne contenant 5 boules blanches et 15
boules noires. Nous nous intéressons maintenant à la variable aléatoire suivante :
Ȳ : U n −→ {0, 1/n, 2/n, . . . , n/n}

b = (b1 , b2 , . . . , bn ) 7−→ (le nombre de boule blanches parmi {b1 , b2 , . . . , bn })/n.
2. INTRODUCTION À LA THÉORIE DE L’ÉCHANTILLONNAGE 63
1.5
1 1
0.5
0
140 150 160 170 180 140 150 160 170
longueur longueur
0.08
0.06
0.04
0.02
0
150 160 170
longueur
Fig. 4.1 – Données, boı̂te à moustaches et histogramme
Nous allons écrire Ȳ comme la moyenne de n variables aléatoires de loi de Bernoulli indépendantes. Nous en
déduirons alors la loi de Ȳ . Pour cela on considère la variable aléatoire X de loi de Bernoulli de paramètre
p = 5/20 = 1/4
X:U −→ {0, 1}
une boule 7−→ 0 si la boule est noire
une boule 7−→ 1 si la boule est blanche.
On construit alors le vecteur aléatoire Y de dimension n
Y = (Y1 , . . . , Yn ) : U n −→ {0, 1}n

b = (b1 , . . . , bn ) 7−→ Y (b) = (Y1 (b), . . . , Yn (b))
= (X(b1 ), . . . , X(bn )).
Ainsi Y est le vecteur aléatoire de dimension n qui associe à chaque tirage le n-upplet de 0 et de 1 suivant la
couleur des boules tirées. La i-ème composante de Y , Yi , représente quant à elle, l’application qui a un échantillon
associe 1 si la i-ème boule tirée est blanche et 0 si elle est noire. Cette variable aléatoire Yi s’écrit alors
Yi : U −→ {0, 1} (4.1)
b 7−→ Yi (b) = X(bi ). (4.2)
(4.3)
On considère maintenant la fonction M définie par
M : Rn −→ {0, 1/n, . . . , n/n}

n
1X
y = (y1 , . . . , yi ) 7−→ M (y) = ȳ = yi .
n i=1
On peut alors écrire la variable aléatoire Ȳ comme la composée des fonctions M et Y : Ȳ = M ◦ Y = M (Y ).

Ce qui donne ici :
n
1X
Ȳ = Yi
n i=1
Le tirage
Pnétant avec remise, les variables aléatoires (Yi ) ont la même loi que X et sont indépendantes. Par suite
nȲ = i=1 Yi suit une loi binômiale de paramètre n et p = 1/4 et la loi de Ȳ est donnée par P (Ȳ = k/n) =
P (nȲ = k) = Cnk (1/4)k (3/4)n−k .
Remarque 2.2.1. (i) Rappelons que dire que les variables aléatoires (Yi )i et X ont la même loi signifie que les
lois de probalilités définies par ces variables aléatoires sur leur espace d’arrivée, ici sur {0, 1} sont identiques.
Cela ne signifie en aucun cas que ces variables aléatoires sont égales (si tel était le cas elles ne pourraient
pas être indépendantes).
(ii) Les variables aléatoires Yi et Y sont toutes définies sur le même espace de départ. C’est l’espace d’échantillonnage,
Pn
l’ensemble de tous les tirages avec remise de n boules ici, c’est-à dire U n . L’écriture Ȳ = (1/n) i=1 Yi a
donc bien un sens ; il s’agit de l’égalité de deux fonctions.
Les théorèmes de la théorie des probabilités nous permet alors d’obtenir simplement l’espérance mathématique
et la variance de Ȳ .
n n
1X 1X
E(Ȳ ) = E(Yi ) = p=p
n i=1 n i=1
n
!
1 X
V ar(Ȳ ) = 2 V ar Yi
n i=1
n
1 X
= V ar(Yi ) car les (Yi )i sont indépendantes
n2 i=1
n
1 X pq
= 2
pq =
n i=1 n
Tirage sans remise

On considère maintenant le cas où le tirage est sans remise. Le nombre de boules n tirées est alors bien
évidemment inférireur au nombre N = 20 de boules totales dans l’urne. Dans ce cas, nous avons les mêmes expres-
sions pour les variables aléatoires Y , (Yi )i et Ȳ excepté que l’espace de départ, c’est-à-dire l’espace déchantillonnage,
n’est plus U n mais est
Ω = {b = (b1 , . . . , bn ) ∈ U |bi 6= bj pour tout i 6= j}.
Les (Yi )i ont toujours la même loi que X, mais elles ne sont plus indépendantes. En effet la probabilité d’avoir
une boule blanche à la deuxième boule diffère suivant le résultat de la première boule. La loi de nȲ est alors la loi
hypergéométrique de paramètre N = 20, n, p = 1/4. Par suite la loi de Ȳ est donnée par
C k C n−k

k
P Ȳ = = n−1 k n2 .
n CN
Nous avons toujours pour l’espérance mathématique E(Ȳ ) = p, mais la variance n’a plus la même valeur. On
démontre qu’elle est égale à :
N − n pq
V ar(Ȳ ) = .
N −1 n
La figure 4.2 représente les lois de Ȳ pour différentes valeurs de n et de p pour les échantillonnage avec remise
et sans remise.
2. INTRODUCTION À LA THÉORIE DE L’ÉCHANTILLONNAGE 65
0.5
avec remise
sans remise
0.4
0.3
0.2
0.1
0
−0.2 0 0.2 0.4 0.6 0.8 1 1.2
k/n
0.5
avec remise
sans remise
0.4
0.3
0.2
0.1
0
−0.2 0 0.2 0.4 0.6 0.8 1 1.2
k/n
Fig. 4.2 – Loi de Ȳ pour l’échantillonnage sans remise et avec remise (n = 5, p = 1/3, N = 15 et n = 4, p =
0.5, N = 16)
2.3 Exemple du référendum

Reprenons l’exemple 1.2.2. Notons N le nombre totale de suffrage exprimés et supposons que quelques instants
après la fermeture des bureaux de vote on ait connaissance du résultat sur n bulletins exprimés pris au hasard dans
la population P. On s’intéresse alors à la variable aléatoire suivante :
Ȳ : Ω −→ {0, 1/n, 2/n, . . . , n/n}

b = (b1 , b2 , . . . , bn ) 7−→ (le nombre de bulletin oui parmi les bulletins {b1 , b2 , . . . , bn })/n,
où
Ω = {b = (b1 , . . . , bn ) ∈ U |bi 6= bj pour tout i 6= j}.
Nous sommes donc exactement dans le cas d’un échantillonnage sans remises car on a en pratique jamais dans
un échantillon deux fois le même bulletin de vote. Nous avons donc comme précédemment pour nȲ une loi hy-
pergéométriques de paramètre N, n et p, et l’espérance mathématique et la variance de Ȳ ont pour valeurs
N − n pq
E(Ȳ ) = p et var(Ȳ ) = .
N −1 n
Un premier problème est qu’en pratique N est inconnu. Fort heureusement n est très inférieur à N . Ceci a pour
conséquence que l’on peut considérer le tirage sans remise comme un tirage avec remise (une règle empirique est
n < (N/10)). On peut donc considérer ici que nȲ suit une loi binômiale de paramètres (n, p). On peut de plus ici
faire une deuxième approximation. En effet, lorsque p n’est pas trop proche de 0 ou de 1, on peut approximer la loi
binômiale par une loi normale. La table 4.2 donne une règle pratique pour que cette approximation soit correcte.
Paramètre p Valeur minimale de n

pour une approximation
par la loi normale
0.5 30
0.4 50
0.3 80
0.2 200
0.1 600
0.05 1400
0.0 poisson
Tab. 4.2 – Approximation d’une loi binômiale par une loi normale
Dans le cas d’un référendum, nous sommes donc dans le cas favorable où l’on peut considérer que Ȳ suit une loi
N (p, pq/n). Or on sait (voir l’exercice 6.1.2) que dans le cas d’une loi normale on a
P (µ − 1, 96σ ≤ X ≤ µ + 1, 96σ) = 0.95 (4.4)
Supposons maintenant que la proportion dans la population de oui soit exactement de 50%, nous avons alors
p = 0.5,pet supposons que n = 100000. La formule 4.4 donne alors P (0.497 ≤ Ȳ ≤ 0.503) = 0.95 (µ = p
et σ = pq/n). Ceci signifie concrètement que l’on a 95 chance sur 100 d’avoir une proportion de oui dans
l’échantillon de taille n = 100000 compris entre 49.7% et 50.3%.
Remarque 2.3.1. (i) Le soir du référendum, les estimations sont données dès la fermeture des bureaux de vote des grandes villes.
Celles-ci sont obtenues à partir du dépouillement des résultats dans des communes tests qui ont fermées plus tôt. Nous ne sommes
donc pas en réalité dans le cas exposé ici où l’échantillon est supposé être pris totalement au hasard dans la population. Une
deuxième différence est qu’en pratique c’est le nombre total d’électeurs dans chaque commune test qui est fixé au départ, et non pas
le nombre totale de suffrages exprimés dans ces communes tests. Les choses sont donc en fait beaucoup plus compliqués. Le lecteur
intéressé pourra consulter les ouvrages suivants [1] et [6].
(ii) Si n = 1000 l’intervalle obtenu exprimé en pourcentage est [46.9%; 53.1%]. Les sondages effectués actuellement portent sur des
effectifs inférieurs à 1000 personnes. Bien que les méthodes utilisées (principalement la méthode des quotas), soient plus fines que
l’échantillonnage au hasard considéré ici, la précision obtenue, vue de plus les difficultés concernant la fiabilité des données et le
nombre d’indécis déjà mentionnées, est plus proche de ±5%, voir plus ! À notre avis, les journalistes et commentateurs politiques
feraient mieux d’utiliser les temps d’antenne radio ou de télévision à parler du fond du débat, plutôt que des sondages qui n’apportent
que peu d’informations.
Les résultats obtenus sur cet exemple peuvent être schématisés par le schéma 4.3.
X : P :−→ {0, 1} de loi B(p)

p = proportion de oui dans la population P
Échantilonnage
?
Y = (Y1 , . . . , Yn ) : P n −→ {0, 1}n
Statistique M
?
Ȳ = M (Y ) : P n −→ R
Ȳ : N (p, pq/n)
Fig. 4.3 – Échantillonnage de la moyenne pour un référundum
L’objet de la théorie de l’échantillonnage est d’étudier ce schéma et les propriétés des variables aléatoires M (Y )
lorsque M est la moyenne ou une autre fonction.
3. ÉCHANTILLONNAGE 67
Remarque 2.3.2. Le soir du référendum, les instituts de sondages ont les résultats sur un échantillon de taille n.
Leur objectif est alors d’en déduire de l’information sur le paramètre p. Ce problème d’estimation, qui sera traité
au chapitre sur l’estimation, est le processus ”inverse” de celui de l’échantillonnage vu ici. En effet la théorie de
l’échantillonnage part de la population pour étudier ce qui se passe sur l’ensemble de tous les échantillons de taille
n alors que la théorie de l’estimation part d’un échantillon pour obtenir des informations sur la population.
3 Échantillonnage
3.1 Échantillon
D’une façon générale, on considère une variable aléatoire X définie sur une population P à valeurs dans un
ensemble C qui modélise la variable que l’on désire étudier. On construit ensuite le vecteur aléatoire Y suivant :
Y = (Y1 , . . . , Yn ) : Ω −→ Cn
ω = (ω1 , . . . , ωn ) 7−→ Y (ω) = (Y1 (ω), . . . , Yn (ω)) (4.5)
= (X(ω1 ), . . . , X(ωn )),
où Ω est l’espace déchantillonnage. Ω = P n si l’échantillonnage est avec remise et
Ω = {ω = (ω1 , . . . , ωn ) ∈ P|ωi 6= ωj pour tout i 6= j}, (4.6)
si l’échantillonnage est sans remise.
Définition 3.1.1 (Échantillon aléatoire). On appelle échantillon aléatoire de taille n ou n-échantillon aléatoire de
la variable aléatoire X le vecteur aléatoire Y = (Y1 , . . . , Yn ).
Définition 3.1.2 (échantillon). On appelle échantillon de taile n ou n-échantillon, une réalisation ou une obser-
vation (y1 , . . . , yn ) du n-échantillon aléatoire.
Remarque 3.1.3. Un n-échantillon n’est pas autre chose que les données relatif à la variable étudiée.
Remarque 3.1.4. (i) Comme nous l’avons déjà mentionné, les variables aléatoire (Yi )i=1,n sont définies sur le
même espace Ω que le n-échantillon aléatoire Y . Nous pouvons donc parler de l’indépendance ou de la non
indépendance de ces variables aléatoires (Yi )i .
(ii) Les variables aléatoires (Yi )i sont à valeurs dans le même ensemble que la variable aléatoire X et leurs lois
sont identiques à celle de X.
(iii) Nous avons en fait la relation suivante
Yi (ω) = X(ωi ), (4.7)
où l’indice i est à gauche sur la vecteur aléatoire Y et à droite sur l’argument de la variable aléatoire X.
Définition 3.1.5 (Échantillon aléatoire simple–Échantillon Bernoullien). On appelle échantillon aléatoire simple
ou échantillon Bernoullien tout n-échantillon aléatoire d’une variable aléatoire X où les variables aléatoires (Yi )i
sont indépendantes.
Lorsque l’échantillonnage est avec remise, Y est donc un échantillon Bernoullien, ce qui n’est plus le cas si
l’échantillonnage est sans remise. Cependant si la taille déchantillon n est très petite devant la taille de la population
N (en pratique si (n/N ) < 0.1) alors on peut approximer l’échantillonnage sans remise par un échantillonnage avec
remise. Dans ce cas des théorèmes de la théorie des probabilités nous permet, connaissant la loi de X, de déterminer
la loi de Y .
Théorème 3.1.6. Soit P une population et X une variable aléatoire (X : P → C) sur cette population. Soit
(Y1 , . . . , Yn ) un n-échantillon Bernoullien, alors les n variables aléatoires Y1 , . . . , Yn ont pour loi la loi de X, sont
indépendantes et Y = (Y1 , . . . , Yn ) est une variable aléatoire à n dimensions :
Y : Ω −→ C n
de loi :
(i) Si X est discrète :
n
Y n
Y
PC n (Y = (y1 , . . . , yn )) = PC (Yi = yi ) = PC (X = yi ). (4.8)
i=1 i=1
(ii) Si X est continue de fonction de densité f (x), Y a pour densité :

n
Y
g(y) = f (yi ) ; où y = (y1 , . . . , yn ). (4.9)
i=1
3.2 Schéma général

Dans toute cette section la variable aléatoire sera réelle.
Définition 3.2.1 (Statistique). Soit X une variable aléatoire réelle définie sur une population P. Soit Y =
(Y1 , . . . , Yn ) un n-échantillon aléatoire. On appelle statistique toute variable aléatoire S de Rn à valeurs dans R,
la loi de probabilité sur Rn étant la loi du n-vecteur aléatoire Y .
Si S est une statistique alors S ◦ Y = S(Y ) est une variable aléatoire reélle définie sur l’espace d’échantillonnage
Ω.
Exemple 3.2.2. Si nous reprenons l’exemple des tirages d’une urne (voir la sous section 2.2) ou d’un référendum
(voir la sous section 2.3), la variable aléatoire M définie surPRn et à valeurs dans R est la fonction qui à n nombres
réels (y1 , . . . , yn ) associe leur moyenne M (y) = ȳ = (1/n) i yi est une statistique et M (Y ) = Ȳ .
D’une façon générale nous avons donc le schéma 4.4
X : P −→ R
Échantilonnage
?
Y = (Y1 , . . . , Yn ) : Ω −→ Rn
ω = (ω1 , . . . , ωn ) 7−→ Y (ω) = (Y1 (ω), . . . , Yn (ω))
(X(ω1 ), . . . , X(ωn ))
Statistique S
?
S ◦ Y = S(Y ) : Ω −→ R
ω 7−→ S(Y (ω))
Fig. 4.4 – Schéma général
Définition 3.2.3 (Distribution déchantillonnage). On appelle distribution d’échantillonnage d’une statistique S

la loi de probabilité de la variable aléatoire S.
Si on connaı̂t la loi de probabilité du n-échantillon aléatoire Y , on peut espérer en déduire des caractéristiques
comme l’espérance mathématique ou la variance, voire la loi, de la statistique S pour certaines fonction S. Ceci est
l’objet des sous-sections suivantes pour des fonctions qui interviennent souvent en statistique.
4 Distribution d’échantillonnage de certaines statistiques

4.1 Distribution déchantillonnage de la moyenne
On considère dans cette sous section la statistique
M : Rn −→ R
n
1X
y = (y1 , . . . , yn ) 7−→ M (y) = ȳ = yi .
n i=1
On a donc
n
1X
M (Y ) = Yi = Ȳ , (4.10)
n i=1
et la loi de M est celle de Ȳ .

4. DISTRIBUTION D’ÉCHANTILLONNAGE DE CERTAINES STATISTIQUES 69
Théorème 4.1.1. Supposons que le caractère X admettent une espérance mathématique µ et un écart-type σ fini
alors :
(i) E(Ȳ ) = µ.
(ii) Si l’échantillon est Bernoullien alors
σ2
V ar(Ȳ ) = .
n
(iii) Si l’échantillon est sans remise et que la taille de la population est N alors :
N − n σ2
V ar(Ȳ ) = .
N −1 n
Démonstration
(i) La linéarité de l’espérance mathématique implique immédiatement :
n
! n n
1X 1X 1X
E(Ȳ ) = E Yi = E(Yi ) = µ = µ.
n i=1 n i=1 n i=1
(ii) Les propriétés de la variance impliquent :
n
! n
1X 1 X
V ar(Ȳ ) = V ar Yi = V ar( Yi ).
n i=1 n2 i=1
De plus les (Yi )i sont indépendants. Par suite nous avons :

n
1 X σ2
V ar(Ȳ ) = V ar(Yi ) = .
n2 i=1 n
(iii) admise
2
Théorème 4.1.2. Si X suit une loi normale N (µ, σ 2 ) et si l’échantillon est Bernoullien alors Ȳ suit une loi
normale N (µ, σ 2 /n).
Démonstration
Cela provient du théorème précédent et du fait qu’une somme de variables aléatoires de lois normales indépendantes
est une variable aléatoire de loi normale. 2
Théorème 4.1.3. Soit X une variable aléatoire de moyenne µ et de variance σ 2 finie et soit (Y1 , . . . , Yn ) un
n-échantillon Bernoullien. Alors Ȳ suit asymptotiquement une loi normale.
Démonstration
D’après le théorème centrale limite la loi de la variable aléatoire
Y1 + · · · + Yn − nµ Ȳ − µ
Zn = √ = σ
σ n √
n
converge lorsque n tend vers +∞ vers la loi normale réduite. Par suite
σ
Ȳ = √ Zn + µ
n
2
a asymptotiquement le même comportement qu’une loi N (µ, σn ). 2
Remarque 4.1.4. Le théorème précédent signifie concrètement que pour n grand (n ≥ 30 en pratique) on peut
2
approximer la loi de Ȳ par la loi normale N (µ, σn ).
4.2 Distribution d’échantillonnage de la variance

On considère dans cette sous section la statistique que nous appellerons variance déchantillon et que nous
noterons S 2
S 2 : Rn −→ R
n
1X
y = (y1 , . . . , yn ) 7−→ S 2 (y) = (yi − ȳ)2 ,
n i=1
où ȳ est la moyenne arithmétique des y1 , . . . , yn . On peut alors voir que

1X 1X
S 2 (Y (ω)) = (Yi (ω) − Ȳ (ω))2 = (X(ωi ) − Ȳ (ω))2 . (4.11)
n i n i
Théorème 4.2.1. Supposons que X admette des moments centrés jusqu’à l’ordre 4 finis. Alors :
(i) Si l’échantillon est Bernoullien :
n−1 2
E(S 2 ) = σ ,
n
µ4 − σ 4 2(µ4 − 2σ 4 ) µ4 − 3σ 4
V ar(S 2 ) = − + ,
n n2 n3
n−1
Cov(M, S 2 ) = Cov(Ȳ , S 2 (Y )) = µ3 .
n2
(ii) Si l’échantillon est sans remise et que la taille de la population est N alors :
N n−1 2
E(S 2 ) = σ .
N −1 n
(iii) Si X suit une loi normale N (µ, σ 2 ) et si l’échantillon est Bernoullien alors :
Ȳ et S 2 (Y ) sont indépendantes.
2(n − 1) 4
V ar(S 2 ) = σ
n2
et nS 2 /σ 2 suit une loi du χ2 à n − 1 degrés de liberté.
Démonstration
(i)
E(S 2 (Y ))
` 1 Pn 2
´
= E n P i=1 (Yi − µ + µ − Ȳ )
n 2 Pn
= 1
n P i=1 E((Yi − µ) ) + 1
n i=1 E((Ȳ − µ)2 )
2 n
− n E( i=1 (Yi − µ)(Ȳ − µ))
σ2
= σ2 + n
2
− n E((Ȳ − µ)(nȲ − nµ))
n−1 2
= n σ
On admettra le resultat pour V ar(S 2 ).

Quant à la covariance il suffit d’écrire :
2 2 n−1 2
Cov(Ȳ , S (Y )) = E((Ȳ − µ)(S − σ ))
n
2 n − 1 2
= E((Ȳ − µ)S ) − σ E(Ȳ − µ)
n
n
!
1 X 2 2
= E((Ȳ − µ) (Yi − µ) − (Ȳ − µ)
n i=1
n n n
1 X X 2 1 X 3
= E( (Yi − µ) (Yi − µ) ) − 3 (E( (Yi − µ)) )
n2 i=1 i=1
n i=1
µ3 µ3 n−1
= − 2 = µ3 ,
n n n2
car les Yi sont indépendants et donc Cov(Yi , Yj ) = 0 si i 6= j.

(ii) admise.
(iii) On déduit de (i) que si X est normale alors Cov(Ȳ , S 2 (Y )) = 0 car le moment centré d’ordre 3 d’une loi normale est nul. Mais ceci ne
montre pas que les variables aléatoires Ȳ et S 2 (Y ) soient indépendantes. Nous admettrons ici ce résultat.
Pour démontrer la suite il suffit d’écrire :
n
nS 2 (Y ) 1 X 2
= ( (Yi − µ) − n(Ȳ − µ)2 )
σ2 2
σ i=1
!2
Yi − µ 2 Ȳ − µ
„ «
Pn
= i=1 − σ
σ √
n
= S1 − S2
4. DISTRIBUTION D’ÉCHANTILLONNAGE DE CERTAINES STATISTIQUES 71
i(Y −µ)
Or si X suit une loi normale de paramètres (µ, σ), σ suit une loi normale réduite et donc, puisque l’échantillon (Y1 , . . . , Yn ) est
Bernoullien, S1 suit une loi du χ2 à n degrés de liberté. De plus S2 suit aussi une loi du χ2 à 1 degré de liberté et S 2 et S2 sont
indépendantes. Une propriété des lois du χ2 permet alors de conclure. Une conséquence immédiate de ce résultat est alors que
nS 2
V ar( ) = 2(n − 1)
σ2
et donc que
!2
2 σ2
V ar(S ) = 2(n − 1).
n
2
Pour illustrer la loi de nS 2 /σ 2 lorsque l’échantillonnage est Bernoullien à l’aide de la simulation, nous générons
5000 échantillons de taille n = 6, yk1 , . . . , yk6 pour k = 1, . . . , 5000, provenant d’une loi normale N (6, 12). Pour
chacun de ces 5000 échantillons nous calculons la quantité
P6
nS 2 (yk1 , . . . , yk6 ) i=1 (yki − ȳk. )2
s2k = =
12 12
Les 5000 valeurs s2k sont alors 5000 observations de la variable aléatoire nS 2 (Y )/σ 2 . Nous effectuons une deuxième
simulation de façon identique sauf que la loi de départ est une loi uniforme sur [0, 12]. La figure 4.5 montrent les
histogrammes pour chaque simulation de toutes les données génerées ainsi que des 5000 valeurs (s21 , . . . , s25000 ).
Nous avons rajouté sur ces graphiques les lois de départ pour les données et la loi du χ2 à ν = n − 1 = 5 degrés de
liberté pour les valeurs simulées. Nous pouvons observer que lorsque la loi de départ est normale, l’histogramme
”colle” très bien à la fonction de densité de la loi du χ2 à 5 ddl, ce qui n’est plus le cas lorsque la loi de départ est
une loi uniforme.
Données: N(6,12) Données: U([0,12])

0.15 0.1
0.08
0.1
0.06
0.04
0.05
0.02
0 0
0 5 10 15 0 5 10
SCE/sigma²: Loi du Khi−2 à 5ddl SCE/sigma²: Non loi du Khi−2 à 5ddl

0.2 0.2
0.15 0.15
0.1 0.1
0.05 0.05
0 0
0 5 10 0 5 10
Fig. 4.5 – Simulation loi du χ2 à 5 ddl (5000 échantillons). Statistique : nS 2 /σ 2

4.3 Distribution d’échantillonnage de T

Dans les théorèmes précédents on a vu que si la variable aléatoire X suit une loi normale et si l’échantillon est
Bernoullien alors la variable aléatoire
Ȳ − µ
√σ
n
suit une loi normale centrée réduite. L’approximation étant encore valable si X adment une espérance mathématique
µ et une variance σ 2 finies et si n est grand (n ≥ 30 en pratique). Mais dans qla réalité nous ne connaissons pas σ
n
et il est donc logique de ce demander ce qui ce passe si on renplace σ par n−1 S 2 (Y ). C’est ce que nous allons
étudier maintenant.
Théorème 4.3.1. Si (Y1 , . . . , Yn ) est un échantillon Bernoullien et si X suit une loi normale de paramètre (µ, σ),
alors la statistique :
M −µ
T =r
S2
n−1
suit une loi de Student à (n − 1) degrés de liberté.
Démonstration
On a :
U
T = q ,
Z
ν
avec
M −µ
U = σ
de loi N (0, 1),
√
n
nS 2 2
Z = de loi χν=n−1 degrés de liberté,
σ2
et U et Z indépendantes. Par suite T suit une loi de Student à n − 1 degrés de liberté. 2
4.4 Distribution d’échantillonnage du rapport de variance

Nous allons maintenant nous intéresser à la distribution d’échantillonnage du rapport de variance.
Théorème 4.4.1. On considère deux caractères X1 et X2 de loi normale respectivement N (µ1 , σ12 ) et N (µ2 , σ22 ).
2 2
Soient deux échantillons Bernoullien
Pn1 indépendants (Y11 , . . . , Y1n1 ) et (Y
P21n,2 . . . , Y2n2 ). 2Si S1 (respectivement S2 ) est
2 1 2 2 1
la statistique S1 (y) = n1 i=1 (y1i − ȳ1 ) (respectivement S2 (y) = n2 i=1 (y2i − ȳ2 ) ) alors la statistique :
n1 S12
(n1 − 1)σ12
F =
n2 S22
(n2 − 1)σ22
suit une loi de Fischer-Snedecor à n1 − 1 degrés de liberté au numérateur et à n2 − 1 degrés de liberté au
dénominateur.
Démonstration
n1 S12 n2 S22
D’après le théorème (4.2.1) 2 (respectivement 2 ) suit une loi du χ2 à n1 −1 (respectivement n2 −1) degrés de liberté et les hypothèses du
σ1 σ2
théorème impliquent que ces variables aléatoires sont indépendantes. On en déduit alors immédiatement le résultat en considérant la définition
2
d’une loi de Fisher-Snedecor.
La figure 4.6 donne une illustration, via la simulation d’une loi de Fisher à ν1 = 5 ddl au nuérateur et ν2 = 3
ddl au dénominateur.
4.5 Distribution d’échantillonnage d’une fréquence

Nous allons terminer cette section en rappelant la distribution d’échantillonnage d’une proportion.
Théorème 4.5.1. Soit XPune variable aléatoire Pde Bernoulli de paramètre p et soit (Y1 , . . . , Yn ) un n-échantillon
n n
aléatoire. Posons S(y) = i=1 yi et M (y) = n1 i=1 yi , alors :
(i) si l’échantillon est avec remise ou si la population est infinie
S suit une loi binômiale de paramètre (n, p) et :
E(S) = np E(Ȳ ) = p
pq
V ar(S) = npq V ar(Ȳ ) = n
5. PRINCIPALES LOIS DE PROBABILITÉ 73
Données: N(2,9) Données: N(1,4)

0.15 0.2
0.15
0.1
0.1
0.05
0.05
0 0
−5 0 5 10 −5 0 5
F: Loi Fisher à (5,3) ddl
0.6
0.4
0.2
0
0 2 4 6 8
Fig. 4.6 – Simulation loi de Fisher à (5,3) ddl (5000 échantillons). Statistique F
(ii) si l’échantillon est sans remise et si la population est finie (de taille N )
S suit une loi hypergéométrique de paramètre (N, n, p). et
E(S) = np E(Ȳ ) = p
−n pq N −n
V ar(S) = npq N
N −1 V ar(Ȳ ) = n N −1
Démonstration
Cela provient tout simplement des définitions des lois binômiale et hypergéométrique. 2
5 Principales lois de probabilité

Nous donnons dans les tableaux ci-après les principales lois de probabilités utilisées dans la pratique. Les 5
premières lois sont des lois discrètes et les suivantes sont continues. Pour chacune d’entres elles nous donnerons
tout d’abord la définition ou un mécanisme permettant d’obtenir une variable aléatoire suivant cette loi. Ensuite
nous donnerons un exemple d’utilisation de cette loi, puis la forme analytique de cette loi, c’est-à-dire les quantités
P (X = k) pour les lois discrètes et la fonction de densité f (x) pour les lois continues. Nous donnerons enfin les
valeurs de leur principaux paramètres et nous visualiserons ces lois.
Nom et notation de la v.a. Définition ou mécanisme Exemples de v.a. suivant la Définition analytique de la Valeur des paramètres de Représentation graphique
de construction loi loi la distribution
74
P (X = k)
q 6
-
0 1 k
Loi de Bernoulli : B(p) C’est la loi d’une variable 1) Résultat du lancé d’une
aléatoire à valeur dans pièce P (X = 1) = p E(X) = p
{0, 1} 2) Réponse à une question P (X = 0) = q V ar(X) = pq
par oui ou non p+q =1
Loi binômiale : B(n, p) Somme de n v.a.r. de loi de Nombre d’individus

Bernoulli indépendantes. possédant un caractère P (X = k) = E(X) = np n=5
donné parmi n prélevés au Cnk pk q n−k V ar(X) = npq p = 0, 25
hasard, avec remise, dans
une population générale. P (X = k)
0.40 6
-
0 1 2 3 4 k
Loi Hypergéométirque : Nombre d’individus possé- nombre d’individus ayant

H(N, n, p) dant une propriété donnée répondus oui à une ques- P (X = k) = N = 20
k C n−k E(X) = np n=5
parmi n prélevés au ha- tion dans un échantillon Cn 1 N −n1 n1
sard (sans remise) dans une de taille n provenant d’une n
V ar(X) = n p = 0, 25
CN “ N”−1
population générale de N population de taille N dont n
avec (1 − p) 1 − P (X = k)
individus dont n1 = N p la proportion de réponses n1 = pN N
jouissent de la dite pro- “oui” est p dans toute la 0.44
6
priété. population.
-
0 1 2 3 4 k
CHAPITRE 4. THÉORIE DE L’ÉCHANTILLONNAGE
Loi multinômiale : C’est la loi jointe de Répartition d’un Nous ne pouvons pas
M(n, p1 , . . . , pl ) X(X1 , . . . , Xl ) où les Xi échantillon exhaustif représenter graphiquement
P (X1 = k1 , . . . , E(Xi ) = npi
sont des v.a. binômiales de de taille n provenant d’une cette loi car il faudrait
Xl = kl ) = E(X) = t (E(X1 ),
paramètres (n, pi ). population constituée de l n! faire un dessin dans Rl+1
k . . . , E(Xl ))
classes C1 , . . . , Cl pk1 . . . pl l
k 1 ! . . . kl ! 1 V ar(Xi ) = npi qi
Cov(Xi , Xj ) =
−npi pj i 6= j
Loi de poisson : P(λ) C’est la loi du nombre 1) Nombre de personnes

d’apparitions pendant arrivant pendant une unité E(X) = λ λ = 0, 5
λk −λ V ar(X) = λ
une unité de temps de temps à un guichet. P (X = k) = e
d’un événement dont la 2) nombre de sinistres k! P (X = k)
k = 0, 1, 2, . . .
réalisation ne dépend pas pendant une unité de 0.61 6
du nombre de réalisations temps dans une population
passées et n’influe pas sur donnée.
les futures ; les épreuves 0.30
se déroulant dans des
conditions stationnaires.
0.08
5. PRINCIPALES LOIS DE PROBABILITÉ
-
0 1 2 3 k
75
76
Loi normale ou de Gauss : Les valeurs de la v.a. 1) taille d’un individu
f(x)
N (µ, σ2) résulte de l’influence d’un 2) Rendement E(X) = µ 0.4
f (x) = V ar(X) = σ 2 0.35

grand nombre de facteurs 0.3
(x − µ)2
indépendants agissant sous 1 − 0.25
forme additive, de fa¸con √ e 2σ 2 0.2
2πσ 0.15
telle que chaque cause par- 0.1
tielle ait une variance faible 0.05
0
par rapport à la variance x
−3 −2 −1 0 1 2 3
résultante
Loi normale de dimension 1) (taille d’un individu,
n : N (µ, Γ) poids d’un individu). 1
„ «
E(X) = µ 0
2) Erreur de tir. f (x) = p n n = 2, µ =
(2π) 2
det(Γ) Γ = (γij )ij 0
t (x − µ)Γ−1 (x − µ) γij = Cov(Xi , Xj ) „ «
− 2 1
e 2 Γ=
1 5
où µ ∈ Rn et Γ est une
0.06
matrice carrée (n, n) réelle
0.05
symétrique définie positive. 0.04
0.03
0.02
0.01
4
5
2
0
−2 0
−4
−6 −5
Loi lognormale : LN (µ, σ) Une v.a. suit une loi lo- Salaire d’un employé
f(x)
gnormale si son logarithme prélevé dans une popula- 0.7
1 σ2 0.6
népérien suit une loi nor- tion générale f (x) = √
2πσx 0.5
male. E(X) = µe 2
(ln x − ln µ)2 0.4
− V ar(X) =
0.3
2σ 2 2 2
e µ2 eσ (eσ − 1) 0.2
0 < x < +∞ 0.1
0
x
0 1 2 3 4 5
CHAPITRE 4. THÉORIE DE L’ÉCHANTILLONNAGE
Loi du Khi-2 à ν degrés de Une variable aléatoire 1) Variance empirique ν=4
f(x)
liberté : χν réelle suit une loi de Khi-2 d’un échantillon de E(X) = ν 0.2
ν x
à ν degrés de liberté si elle taille ν + 1 dont on ne −1 − V ar(X) = 2ν
f (x) = cx 2 e 2 0.15
est la somme de ν carrés de connaı̂t pas la moyenne. 0 < x < +∞ 0.1

variables aléatoires réelles 2) Mesure de l’écart
de loi normale réduite (i.e. entre des lois théorique et 0.05
N (0, 1)) indépendantes. empirique

0
x
0 2 4 6 8 10 12 14 16
Loi de Student à ν degrés Soient Y une variable Mesure normalisée de ν=4

f(x)
de liberté : tν aléatoire de loi normale l’écart de deux moyen- 0.4
f (x) = E(X) = 0 0.35

réduite et Z une variable nes empiriques calculées ν 0.3
x2 (ν+1)/2 V ar(X) =
aléatoire de loi du Khi-2 sur deux échantillons c(1 + ) 0.25
ν ν−2
0.2
à ν degrés de liberté indépendants d’une popu- si ν > 2
0.15
indépendantes. Alors la lation normale. 0.1
variables X = √Y suit 0.05
Z/ν 0
x
une loi de Student à ν −5 −4 −3 −2 −1 0 1 2 3 4 5
degrés de liberté.
5. PRINCIPALES LOIS DE PROBABILITÉ
Loi de Fisher à (ν1 , ν2 ) Soient X1 et X2 deux va- Rapport de deux variances ν1 = 4 et ν2 = 6

f(x)
degrés de liberté : Fν1 ,ν2 riables réelles de loi du empiriques construites ν1 ν2 0.7
Khi-2 à respectivement ν1 sur deux échantillons −1 E(X) = 0.6
f (x) = x 2 ν2 − 2 0.5
et ν2 degrés de liberté indépendants extraits si ν2 > 2 0.4
(ν1 + ν2 )
indépendantes. Alors X = d’une population normale. − V ar(X) = 0.3
(X1 /ν1 ) (ν1 x + ν2 ) 2
suit une loi de 2ν22 (ν1 + ν2 − 2) 0.2
(X2 /ν2 )
0.1
Fisher à ν1 degrés de li- ν1 (ν2 − 2)2 (ν2 − 4)
0
x
berté au numérateur et 0 1 2 3 4 5
à ν2 degré de liberté au
dénominateur.
77
6 Exercices
6.1 Exercices avec corrigés
Exercice 6.1.1 (Loi normale centrée réduite). L’objectif de cet exercice est le calcul de probabilités dans le cas
d’une variable aléatoire U de loi normale centrée réduite N (0, 1) en utilisant la table de cette loi.
(i) Calculer P (1 ≤ U ≤ 2, 5).
Ru
(ii) On note φ(u) = P (U ≤ u) = f (x)dx la fonction de répartition de la loi normale centrée réduite.
−∞ √ 2
Démontrer que φ(−u) = 1 − φ(u). On utilisera le fait que la fonction de densité f (x) = (1/ 2π)e−x est
paire, c’est-à-dire que f (−x) = f (x) pour tout x.
(iii) Calculer P (U ≤ −1).
(iv) Calculer P (U ∈ [−1, 2[).
(v) Encadrer P (U ≥ 6).
(vi) On note up = φ−1 (p) le réel défini par
P (U ≤ up ) = p
Donner u0.999 . On cherchera cette valeur dans la table de la loi normale centrée réduite et dans la table de
Student.
correction.
(i)
Z 2.5
P (1 ≤ U ≤ 2.5) = f (x)dx = φ(2.5) − φ(1)
1
= 0.9938 − 0.8413
= 0.1525
=A
Voir la figure 4.7
0.4
0.3
f(x)
0.2
0.1
←A
0
−3 0 1 2.5 +3
x
Fig. 4.7 – Visualisation de la probabilité
(ii) Graphiquement (voir la figure 4.8) la parité de la fonction de densité f (x) donne
A1 = φ(−u) = P (U ≤ −u) = P (X > u) = A2

= 1 − P (X ≤ u)
= 1 − φ(u)
R −u
Montrons maintenant que A1 = −∞
f (x)dx = A2 . Pour cela on fait le changement de variable y = −x dans
l’intégrale. On obtient alors Z u Z +∞
A1 = − f (−y)dy = f (y)dy = A2
+∞ u
(iii) P (X ≤ −1) = φ(−1) = 1 − φ(1) = 1 − 0.8413 = 0.1587

(iv) P (X ∈ [−1, 2[) = φ(2) − φ(−1) = 0.97725 − 0.1587 = 0.81855
6. EXERCICES 79
0.4
0.3
f(x)
0.2
0.1
A1 → ← A2
0
−3 −u 0 u +3
x
Fig. 4.8 – Visualisation Φ(−u) = 1 − φ(u)
R +∞
(v) P (X ≥ 6) = 6 f (x)dx = 1 − φ(6). Or la fonction de répartition φ est strictement croissante de 0 vers 1.
Par suite on a
φ(3.99) < φ(6) < 1
On en déduit
1 − 1 < 1 − φ(6) < 1 − φ(3.99)
0 < 1 − φ(6) < 1 − 0.99997 = 0.00003
(vi) On a u0.999 = 3.09.
Remarque. La table de la loi normale centrée réduite donne la fonction de répartition φ(up ) = p alors que la
dernière ligne de la table de Student (degré de liberté égale à +∞) donne la fonction inverse de la fonction
de répartition φ−1 (p) = up .
2
Exercice 6.1.2 (Loi normale de paramètre µ et σ). L’objectif de cet exercice est le calcul de probabilités dans le
cas d’une variable aléatoire X de loi normale N (µ, σ 2 ). On utilisera le fait que U = (X − µ)/σ suit alors une loi
normale centrée réduite.
Soit X la variable aléatoire réelle X représentant le rendement d’une céréale C. On suppose que X suit une loi
normale de paramètres µ = 50q/ha et σ 2 = 5(q/ha)2 (voir 1.2.6).
(i) Formaliser cette variable aléatoire.
(ii) Calculer P (X < 0). Commentaires
(iii) Calculer P (48 ≤ X ≤ 50) et représenter graphiquement cette probabilité.
(iv) Quelle signification a la quantité ci-dessus ?
(v) Calculer P (µ − 1, 96σ ≤ X ≤ µ + 1, 96σ).
correction.
(i) voir l’exemple 1.2.6
(ii)
X − 50 0 − 50
P (X < 0) = P √ < √ = φ(−22.36) ∼ 0
5 5
La vraie valeur de cette probabilité est 0 car il est impossible d’avoir un rendement négatif. Le calcul ici
donne une valeur strictement positive, mais très faible. Le modèle considéré est donc rigoureusement faux.
Cependant, l’erreur faite est tout-à-fait négligeable.
(iii)

48 − 50 50 − 50
P (48 ≤ X ≤ 50) = P √ ≤U ≤ √
5 5

2 2
= φ(0) − φ − √ = φ(0) − 1 − φ √
5 5
= φ(0) − (1 − φ(0.89))
= 0.5 − 1 + 0.8133
= 0.3133
Voir la figure 4.9.
0.18
0.16
0.14
0.12
0.1
f(x)
←A
0.08
0.06
0.04
0.02
0
44 46 48 50 52 54 56
x
Fig. 4.9 – P (48 ≤ X ≤ 50) = A = 0.3133
(iv) On a environ 31 chances sur 100 lorsque l’on fait une culture dans les conditions expérimentales définies par
la population P d’avoir un rendement compris entre 48 et 50 q/ha.
(v)

(µ − 1.96σ) − µ (µ + 1.96σ) − µ
P (µ − 1, 96σ ≤ X ≤ µ + 1, 96σ) = P ≤U ≤
σ σ
= P (−1.96 ≤ U ≤ 1.96)
= φ(1.96) − φ(−1.96)
= 2φ(1.96) − 1
= 0.95
En résumé on a donc
P (µ − 1, 96σ ≤ X ≤ µ + 1, 96σ) = 0.95 (4.12)
Ceci est visualisé sur la figure 4.10
0.18
0.16
0.14
0.12
← A=0.95
0.1
f(x)
0.08
0.06
0.04
0.02
0
mu−1.96sigma mu mu+1.96sigma
x
Fig. 4.10 – Visualisation de l’équation 4.12
2
Exercice 6.1.3. On considère une urne U constituée de n1 ≥ 2 boules blanches et n2 ≥ 2 boules noires. On note
N = n1 + n2 le nombre totale de boules dans l’urne et p = n1 /N . Soit X la variable aléatoire
X:U −→ {0, 1}
b 7−→ 0 si b est noire
b 7−→ 1 si b est blanche.
On considère Y = (Y1 , Y2 ) le 2-échantillon aléatoire de X et Ȳ = (1/2)(Y1 + Y2 ).

(i) On suppose que l’échantillonnage est avec remise
(a) Quelles valeurs peut prendre Y .
6. EXERCICES 81
(b) Donner la loi de Y .

(c) Quelles sont les lois de Y1 et Y2 .
(d) Écrire la variable aléatoire Ȳ .
(e) Écrire Ȳ = M (Y ) (on précisera M ).
(f) Calculer, à partir de la loi de Y la loi de Ȳ .
(g) Calculer, à partir de la loi de Ȳ l’espérance mathématique et la variance de Ȳ .
(ii) On suppose l’échantillonnage sans remise
(a) Quelles valeurs peut prendre Y .
(b) Donner la loi de Y .
(c) Quelles sont les lois de Y1 et Y2 .
(d) Écrire Ȳ = M (Y ) (on précisera M ).
(e) Calculer, à partir de la loi de Y la loi de Ȳ .
(f) Calculer, à partir de la loi de Ȳ l’espérance mathématique et la variance de Ȳ .
correction.
(i) (a) Le 2-échantillon aléatoire est défini par
Y = (Y1 , Y2 ) : U 2 −→ {0, 1} × {0, 1}

b = (b1 , b2 ) 7−→ Y (b) = (Y1 (b), Y2 (b))
= (X(b1 ), X(b2 )).
Donc les valeurs possibles de Y sont (0, 0), (0, 1), (1, 0) et (1, 1).
(b)
P (Y = (0, 0)) = P (Y1 = 0 et Y2 = 0)

= P (Y1 = 0)P (Y2 = 0) = q 2 car Y1 et Y2 sont indépendantes
P (Y = (0, 1)) = pq
P (Y = (1, 0)) = qp
P (Y = (1, 1)) = p2
(c) Les lois de Y1 et de Y2 sont identiques à celle de X. Ce sont donc des lois de Bernoulli de paramètres p.
(d)
Ȳ : U 2 −→ {0, 1/2, 1}
b = (b1 , b2 ) 7−→ Ȳ (b) = (1/2)(Y1 (b) + Y2 (b))
On peut écrire Ȳ = (1/2)(Y1 + Y2 ) ou encore Ȳ = M (Y ) avec
M : R2 −→ R
y = (y1 , y2 ) 7−→ M (y) = (1/2)(y1 + y2 )
(e) Remarquons tout d’abord que :

– la loi de probabilité de Y est une probabilité sur son espace d’arrivé CY = {0, 1}2 ;
– la loi de probabilité de Ȳ est une probabilité sur son espace d’arrivé CȲ = {0, 1/2, 1}.
PCȲ (Ȳ = 0) = PCY (Y = (0, 0)) = PCY (Y1 = 0 et Y2 = 0) = q 2

PCȲ (Ȳ = 1/2) = PCY (Y = (0, 1) ou Y = (1, 0)) = 2pq
PCȲ (Ȳ = 1) = PCY (Y = (1, 1)) = q 2
(f)
E(Ȳ ) = 0q 2 + (1/2)2pq + 1p2 = p(p + q) = p

pq
V ar(Ȳ ) = E(Ȳ 2 ) − E(Ȳ )2 = 02 q 2 + (1/2)2 2pq + 12 p2 − p2 =
2
On retrouve bien pour 2Ȳ la loi binômiale et les valeurs de E(Ȳ ) et de V ar(Ȳ ) pour un tirage avec
remise.
(ii) (a) idem cas avec remise.
(b)
n2 n2 − 1
P (Y = (0, 0)) =
N N −1
n2 n1
P (Y = (0, 1)) =
N N −1
n1 n2
P (Y = (1, 0)) =
N N −1
n1 n1 − 1
P (Y = (1, 1)) =
N N −1
(c)
P (Y1 = 1) = P (Y = (1, 0) ou Y = (1, 1))

n1 n2 + n1 (n1 − 1) n1 (n1 + n2 − 1)
= =
N (N − 1) N (N − 1)
n1
= =p
N
P (Y1 = 0) = 1 − P (Y1 = 1) = 1 − p
Donc Y1 suit la même loi de Bernoulli que X

Idem pour Y2 .
(d)
Ȳ : Ω −→ {0, 1/2, 1}
b = (b1 , b2 ) 7−→ Ȳ (b) = (1/2)(Y1 (b) + Y2 (b))
avec Ω = {b = b1 , b2 ) ∈ U 2 |b1 6= b2 }. On peut écrire Ȳ = (1/2)(Y1 + Y2 ) ou encore Ȳ = M (Y ) avec
M : R2 −→ R
y = (y1 , y2 ) 7−→ M (y) = (1/2)(y1 + y2 )
(e)
n2 (n2 − 1)
P (Ȳ = 0) = P (Y = (0, 0)) =
N (N − 1)
2n1 n2
P (Ȳ = 1/2)
N (N − 1)
n1 (n1 − 1)
P (Ȳ = 1) =
N (N − 1)
(f)
1 2n1 n2 n1 (n1 − 1)
E(Ȳ ) = +1
2 N (N − 1) N (N − 1)
n1 (n1 + n2 − 1)
= =p
N (N − 1)
6. EXERCICES 83
2
1 2n1 n2 n1 (n1 − 1)
V ar(Ȳ ) = + 12 − p2
2 N (N − 1) N (N − 1)
n1 n2 + 2n1 (n1 − 1) − 2p2 N (N − 1)
=
2N (N − 1)
n1
(n 2 + 2n 1 − 2 − 2p(N − 1))
= N
2(N − 1)
p(n2 − 2 + 2p)
=
2(N − 1)
p(N − 2)q
=
2(N − 1)
(N − n) pq
=
N −1 n
où n = 2. On retrouve bien les résultats du théorème 4.1.1
2

Exercice 6.2.1 (Taux de germination). On s’intéresse dans cet exercice au taux de germination, donc au paramètre
p de la loi de Bernoulli de la variable aléatoire
X:G −→ {0, 1}
g 7−→ 0 si g ne germe pas
g 7−→ 1 si g germe.
(voir l’exemple 1.2.1)

On considère un n-échantillon aléatoire Y = (Y1 , . . . , Yn ) de X. L’échantillonnage est bien sûr sans remise (on
ne peut pas mettre à germer une graine deux fois !). On définit les statistiques
S : Rn −→ {0, 1, . . . , n}
X n
y = (y1 , . . . , yi ) 7−→ S(y) = yi
i=1
et M = (1/n)Y .
(i) Quelles sont les espaces de départ et d’arrivée de S(Y ) et de M (Y ).
(ii) Écrire S(Y ) et Ȳ = M (Y ) en fonction des variables aléatoires (Yi )i
(iii) On suppose que la taille de la population G est N , quelle est la loi de S
(iv) On suppose que N = +∞, quelle est la loi de S.
(v) On suppose que N = +∞ et qu’on peut approximer la loi de Ȳ par une loi normale N (µȲ , σȲ2 ).
(a) Donner µȲ et σȲ en fonction de n et p.
(b) Déterminer n en fonction de p pour avoir
P (µȲ − 0.025 < Ȳ < µȲ + 0.025) = 0.95
(c) On prend p = 0.5, calculer n. Que signifie ce résultat ?

Indications. Penser à l’urne et l’échantillonnage avec et sans remise. Pour (vb), utiliser l’équation 4.4 2
Exercice 6.2.2. Soit X : P −→ {0, 1} une variable aléatoire de loi de Bernoulli de paramètre p et Y = (Y1 , . . . , Yn )
un n-échantillon Bernoullien de X On considère la statistique S 2 suivante
S 2 : Rn −→ {0, 1, . . . , n}
n
1X
y = (y1 , . . . , yi ) 7−→ S 2 (y) = (yi − ȳ)2
n i=1
(i) On prend n = 2
(a) Quels sont les valeurs que peut prendre la variable aléatoire S 2 (Y ) ?
(b) Écrire S(Y ) en fonction de Y1 et de Y2 .
(c) Donner la loi de S 2 (Y ).
(d) Calculer l’espérance mathématique et la variance de S 2 (Y ).
(e) les variables aléatoires Ȳ et S 2 (Y ) sont-elles indépendantes ?
(ii) On prend n = 3
(a) Quels sont les valeurs que peut prendre la variable aléatoire S 2 (Y ) ?
(b) Donner la loi de S 2 (Y ).
(c) Calculer l’espérance mathématique et la variance de S 2 (Y ).
Indications. Pour les espérances mathématiques et variances on doit trouver les mêmes résultats que dans le
théorème 4.2.1 2
Exercice 6.2.3. Soit X : P −→ R une variable aléatoire de loi normale N (µ, σ 2 ) et Y = (Y1 , . . . , Yn ) un n-
échantillon Bernoullien de X On considère les statistiques suivantes
S : Rn −→ R
n
1 X
y = (y1 , . . . , yi ) 7−→ S(y) = 2 (yi − µ)2 ,
σ i=1
SCE : Rn −→ R
n
1 X
y = (y1 , . . . , yi ) 7−→ SCE(y) = (yi − ȳ)2 ,
σ 2 i=1
et K = SCE/σ 2 .
(i) Quelle est la loi de S(Y ) ?
(ii) Quelle est la loi de K(Y ) ?
(iii) On prend n = 10 et on note χp l’unique réel vérifiant P (K ≤ χp ) = p. En vous aidant de la table de la loi du
χ2 donner les valeurs de χ0.025 et de χ0.975 .
(iv) Vérifier que P (χ0.025 < K < χ0.0975 ) = 0.95.
(v) En déduire la valeur de
2 SCE(Y ) SCE(Y )
P σ ∈ ; . (4.13)
χ0.0975 χ0.0025
(vi) Que signifie 4.13
Indications. On écrira S(Y ) comme le carré de n variables aléatoires de loi normale centrée réduite indépendantes.
2

Exercice 6.3.1. Soit X la variable aléatoire définie sur P, à valeurs dans {0, 1, 4} et de loi
P (X = 0) = 1/4
P (X = 1) = 1/2
P (X = 4) = 1/4
On considère Y = (Y1 , Y2 ) un 2-échantillon Bernoullien de X et Ȳ = (1/2)(Y1 + Y2 ).

(i) Quelles sont les valeurs possibles de Ȳ ?
(ii) Calculer la loi de Y .
(iii) Calculer la loi de Ȳ .
Exercice 6.3.2. Soit X la variable aléatoire rendement de loi normale N (50, 5) définie à l’exercice 6.1.2. Soit
Y = (Y1 , . . . , Yn ) un n-échantillon Bernoullien de X (On suppose la population infinie et on peut donc considérer
que l’échantillonnage avec remise se confond avec l’échantillonnage sans remise).
6. EXERCICES 85
(i) On définit la statistique U suivante
U : Rn −→ R
ȳ − 50
y = (y1 , . . . , yn ) 7−→ U (y) = p ,
5/n
où ȳ désigne toujours la moyenne arithmétique des (yi ).

(a) Écrire U (Y ) (espace de départ, espace d’arrivé et fonction).
(b) Écrire U (Y ) en fonction de Ȳ . En déduire la loi de U .
(c) Calculer p p
P (Ȳ ∈ [50 − 1.96( 5/n); 50 + 1.96 5/n])
et donner son interprétation.
(ii) On suppose maintenant que la variance de X est inconnue. La loi de X est donc N (50, σ 2 ). On définit alors
les statistiques suivantes
SCE : Rn −→ R
n
X
y = (y1 , . . . , yn ) 7−→ SCE(y) = (yi − ȳ)2
i=1
et
T : Rn −→ R
ȳ − 50
y = (y1 , . . . , yn ) 7−→ T (y) = p .
SCE(y)/(n(n − 1))
(a) Écrire T (Y ) (espace de départ, espace d’arrivé et fonction).

(b) Écrire T (Y ) en fonction de Ȳ et de S 2 . En déduire la loi de T .
(c) On suppose que n = 10, donner l’unique réel t0.975 vérifiant P (T < t0.975 ) = 0.975 (voir les tables
statistiques). En déduire
p p
P (Ȳ ∈ [50 − t0.975 ( SCE(Y )/(n(n − 1))); 50 + t0.975 SCE(Y )/(n(n − 1))])
et donner son interprétation.

Chapitre 5
Tests statistiques : principes généraux
1 Introduction
Le but d’un test statistique est de répondre à une question ”simple”, par exemple savoir laquelle de deux variétés
de Tournesol A et B donne le meilleur taux d’une protéine fixée. Pour cela, nous collecterons des données pour
les deux variétés, puis nous ferons un calcul à partir de ces données et en fonction de la valeur du résultat nous
validerons soit A, soit B. Nous pouvons donc faire en pratique deux erreurs :
– choisir A quand c’est B qui est meilleure ;
– choisir B quand c’est A qui est meilleure.
Par suite un test de statistique ne donnera jamais de réponse complètement déterministe, et comme dans tout
processus de prise de décision, il y aura toujours des risques d’erreur.
L’un des gros apports des tests statistiques est la connaissance, en terme de probabilités, des risques pris.
L’objectif de ce chapitre est donc de bien comprendre la définition de ces risques et d’assimiler toute la démarche
logique d’un test statistique. Ceci est fondamental si l’on désire utiliser cet outil correctement.
2 Exemple
2.1 Problème
Un industriel vient de mettre au point un nouveau procédé de fabrication d’ampoules électriques. Il désire
savoir si ce nouveau procédé est meilleur que celui utilisé actuellement dans le sens où les ampoules fabriquées
avec ce nouveau procédé ont une durée de vie plus longue. Des études antérieures ont montré que la durée de vie
d’une ampoule fabriquée par le procédé classique suit une loi normale de paramètres µ = 1400 heures et σ = 120
heures. On suppose que le nouveau procédé ne modifie pas la loi, ni la variance. On note A (respectivement A0 )
la population, supposée de taille très grande, des ampoules fabriquées avec le nouveau procédé (respectivement
l’ancien procédé). Nous pouvons alors définir les deux variables aléatoires suivantes :
X:A −→ R
1 ampoule 7−→ sa durée de vie
X0 : A0 −→ R
Les informations données nous permettent alors de dire que la loi de la variable aléatoire X (respectivement X0 )
est une loi normale N (µ, 1202 ) (respectivement N (1400, 1202 )). La question est donc de savoir laquelle des deux
hypothèses ci-dessous est la bonne pour le nouveau procédé.
– µ ≤ 1400;
– µ > 1400.
Pour des raisons que nous verrons dans la suite de ce chapitre, nous formulerons les hypothèses de la façon suivante
– H0 : µ = 1400;
– H1 : µ > 1400.
Pour effectuer le choix entre ces 2 hypothèses on fait des mesures sur n =100 ampoules fabriquées avec le
nouveau procédé. On obtient les données de la table 5.1 dont les représentations graphiques sont données aux
figures 5.1 et 5.2.
87
88 CHAPITRE 5. TESTS STATISTIQUES : PRINCIPES GÉNÉRAUX
Tab. 5.1 – Donnés de l’exemple ampoules en milliers d’heures

1.7152 1.6602 1.7944 1.5417 1.5712 2.0019 1.7514 2.0755 1.7308 1.7808
.. .. .. .. .. .. .. .. .. ..
. . . . . . . . . .
1.6244 1.7249 1.6901 1.6524 1.7898 1.5812 1.7976 1.5170 1.8235 1.8012
−3
x 10
4
3.5
2.5
1.5
0.5
0
1000 1200 1400 1600 1800 2000 2200
durées de vie
Fig. 5.1 – Histogramme des données de l’exemple ampoule.
La question est maintenant de choisir, à partir de ces données, entre les deux hypothèses. Si nous appelons ȳ la
moyenne le l’échantillon, il semble logique ici de prendre la règle de décision suivante :
– Si ȳ > l alors on rejettera l’hypothèse nulle H0
– Si ȳ < l alors on acceptera l’hypothèse nulle H0
l sera la valeur critique du test.
Cette règle de décision induira deux types de risques : le risque de décider de rejeter l’hypothèse nulle H0 quand
elle est vraie et le risque de décider d’accepter l’hypothèse nulle H0 quand elle est fausse. Nous allons maintenant
dans un cas simple calculer ces risques.
2.2 Cas simplifié

On considère, dans une premier temps, le cas simplifié où les seules valeurs que peut prendre la moyenne µ
sont 1400 et 1450. Ce cas n’est pas, bien évidemment, réaliste. Nous le considérons uniquement pour des raisons
pédagogiques. Les hypothèses nulles H0 et alternatives H1 deviennent donc
– H0 : µ = 1400 ;
– H1 : µ = 1450.
La population A étant supposé très grande, on peut considérer que les données sont une observation du 100-
échantillon aléatoire Bernoullien.
(Y1 , . . . , Y100 ) : A100 −→ R100

100 ampoules 7−→ (durée de vie de l’ampoule 1, . . . , durée de vie de l’ampoule 100)
a = (a1 , . . . , a100 ) 7−→ Y (a) = (X(a1 , . . . , X(a100 ))
Nous pouvons alors définir la statistique
M : R100 −→ R
100
1 X
(y1 , . . . , y100 ) 7−→ ȳ = yi .
100 i=1
P
Nous avons donc défini la variable aléatoire Ȳ = M (Y ) = (1/n) i Yi . Le chapitre 4 sur la théorie de l’échantillonnage
nous dit alors que
– si l’hypothèse nulle H0 est vraie alors Ȳ suit une loi N (1400, 1202 /100) ;
2. EXEMPLE 89
2000
1900
durée de vie
1800
1700
1600
1500
1
échantillons
Fig. 5.2 – Boı̂te à moustaches des données de l’exemple ampoules.
– si l’hypothèse H1 est vraie alors Ȳ suit une loi N (1450, 1202 /100).
On suppose enfin que la valeur limite l est fixée à 1430. Ceci nous définit alors deux événements :
– accepter H0 = Ȳ ≤ 1430 ;
– accepter H1 = Ȳ > 1430.
Nous pouvons maintenant calculer les deux risques, que nous appellerons risques de première et de deuxième
espèce.
α = Probabilité de l’événement rejeter H0 quand H0 est vraie

= PH0 (rejeter H0 )
1202

= PH0 (Ȳ > 1430) avec Ȳ : N 1400,
100
= 1 − PH0 (Ȳ < 1430)

Ȳ − 1400 1430 − 1400
= 1 − PH0 <
12 12
= 1 − φ(2.5) = 0.00621
β = Probabilité de l’événement accepter H0 quand H0 est fausse

= Probabilité de l’événement accepter H0 quand H1 est vraie
= PH1 (accepter H0 )
1202

= PH1 (Ȳ ≤ 1430) avec Ȳ : N 1450,
100

Ȳ − 1450 1430 − 1450
= PH1 ≤
12 12
= φ(−1.67) = 1 − φ(1.67)
= 0.04746
Ces risques α et β sont visualisés sur la figure 5.3.
2.3 Cas général

En réalité lorsque l’hypothèse nulle H0 est fausse, on ne connaı̂t pas la vraie valeur de la moyenne µ. Aussi
l’hypothèse alternative H1 sera µ > 1400. Le risque de deuxième espèce sera alors fonction de la valeur de cette
moyenne. Une autre différence avec la démarche utilisée en pratique est que l’on se fixe la valeur du risque de
première espèce α. On calculera alors la valeur limite l que l’on appelera valeur critique et que l’on notera ici Ȳcrit .
0.04
0.035
0.03
0.025
← Loi de M ← Loi de M
si H0 est vraie si H1 est vraie
0.02
0.015
0.01
0.005
β→
←α
0
1380 1400 1420 1440 1460 1480
l
Fig. 5.3 – Risque α de première espèce et β de deuxième espèce pour l’exemple des ”ampoules”.
Fixons le risque de première espèce α = 0.05, cela donne
α = PH0 (rejeter H0 )
1202

0.05 = PH0 (Ȳ > Ȳcrit ) avec Ȳ : N 1400,
100
= 1 − PH0 (Ȳ ≤ Ȳcrit )

Ȳ − 1400 Ȳcrit − 1400
= 1 − PH0 ≤
12 12

Ȳcrit − 1400
= 1−φ .
12
Par suite, nous obtenons

Ȳcrit − 1400
φ = 0.95
12
Ȳcrit − 1400
⇒ = 1.645
12
⇒ Ȳcrit = 1419.74
Nous pouvons alors maintenant calculer le risque de deuxième espèce β.
β = PH1 (accepter H0 )
1202

= PH1 (Ȳ < Ȳcrit ) avec Ȳ : N µ,
100
Ȳ − µ Ȳcrit − µ
= PH1 ( < )
12 12
Ȳcrit − µ
= φ
12
On définit la puissance d’un test comme la probabilité de l’événement accepter H1 quand H1 est vraie. La
puissance est donc égale à 1 − β.
1−β = Probabilité de l’événement accepter H1 quand H1 est vraie

Remarque 2.3.1. La puissance est la probabilité de ”mettre en évidence une différence qui existe”.
La table 5.2 donne le risque β et la puissance (visualisée par la figure 5.4) pour différentes valeurs de la moyenne
µ.
3. PRINCIPES GÉNÉRAUX 91
µ 1380 1390 1394 1396 1398 1400 1410 1420 1430 1440 1450 1460
1419.74 − µ
3.31 2.48 2.14 1.98 1.81 1.64 0.81 -0.02 -0.855 -1.69 -2.52 -3.36
12
β 1.00 0.99 0.98 0.98 0.96 0.95 0.79 0.49 0.20 0.05 0.00 0.00
1−β 0.00 0.01 0.02 0.02 0.04 0.05 0.21 0.51 0.80 0.95 1.00 1.00
Tab. 5.2 – Risque β et puissance en fonction de la moyenne µ
0.9
0.8
0.7
0.6
Puissance
0.5
0.4
0.3
0.2
0.1
0
1380 1390 1400 1410 1420 1430 1440 1450 1460
µ
Fig. 5.4 – Fonction puissance pour l’exemple ”ampoules” : 1 − β(µ).
Remarque 2.3.2. Pour calculer la valeur critique d’un test, on doit parfaitement connaı̂tre la loi de la statistique
de décision quand l’hypothèse nulle H0 est vraie. Ceci justifie le fait que l’on ait écrit dans cet exemple cette
hypothèse nulle sous la forme d’une égalité : H0 : µ = 1400 et non pas sous la forme d’une inégalité. La question
de départ étant de savoir si le nouveau procédé était meilleur que l’ancien, on a comme hypothèse alternative
H1 : µ > 1400. La fonction puissance 5.4 nous montre que la probabilité de l’événement accepter H1 est proche
de 1 pour les valeurs de µ très supérieures à 1 et proche de 0 pour les faibles valeurs de µ ; ce qui est bien ce que
nous désirions.
Remarque 2.3.3. Il ne faut pas confondre les hypothèses nulle H0 et alternative H1 avec les événements accepter
H0 et accepter H1 . L’événement accepter H0 est en pratique l’ensemble des valeurs de la statistique de décision
qui conclura à accepter l’hypothèse nulle H0 . Cet événement s’écrit dans notre exemple Ȳ ≤ Ȳcrit et est égale à
l’intervalle ] − ∞, Ȳcrit ] sur l’axe des abscisses de la figure 5.3
3 Principes généraux
3.1 Logique générale d’un test statistique
Le tableau suivant donne le schéma général d’un test statistique

Situation concrète Formalisation mathématique Exemple ”ampoules”

Question de départ H0 : hypothèse nulle H0 : µ = 1400
H1 : hypothèse alternative H1 : µ > 1400
Variable étudiée variable aléatoire X : P −→ R
X :A −→ R
Connaissance de départ loi de X X : N (µ, 1202 )

Collecte de données n- échantillon aléatoire Bernoullien
(y1 , . . . , yn )
n n 100 100
(Y1 , . . . , Yn ) : P −→ R (Y1 , . . . , Y100 ) : A −→ R
ω = (ω1 , . . . , ωn ) 7−→ (Y1 (ω), . . . , Yn (ω)) 100 ampoules 7−→ (durée de vie de
ω = (ω1 , . . . , ωn ) 7−→ (X(ω1 ), . . . , X(ωn )) l’ampoule 1,
.
.
.,
durée de vie de
l’ampoule 100)
Calcul de Sobs = Statistique de décision

S(y1 , . . . , yn )
100
n (Y1 ,...,Yn ) n S Ȳ : A −→ R
P −→ R −→ R
100 ampoules 7−→ moyenne des
durées de vie
des 100 ampoules
1
(a1 , . . . , an ) 7−→ (X(a1 ) + · · · + X(an ))
n
100
M :R −→ R
100
1 X
(y1 , . . . , y100 ) 7−→ ȳ = yi
100 i=1
Règle de décision. On Si H0 est vraie alors S suit une loi connue. α étant fixé 1202
se donne α le risque de on en déduit la zone de rejet de l’hypothèse nulle. Si H0 est vraie alors Ȳ suit une loi N (1400, ) α
100
première espèce. On en étant fixé, on en déduit Ȳcrit telle que P (Ȳ > Ȳcrit ) =
déduit la zone de rejet de α. On en déduit alors la règle de décision
l’hypothèse nulle
Remarque 3.1.1. Le choix de la statistique S peut paraı̂tre parfois mystérieux. Il est, bien évidemment, en lien
direct avec le problème. Cette statistique est souvent une ”distance” entre les données et l’hypothèse nulle. Si
Sobs = S(y1 , . . . , yn ) est grand alors il y a peu de chance que les données viennent d’une population où l’hypothèse
nulle est vraie, si Sobs est faible on ne peut pas rejeter l’hypothèse nulle.
(i) C’est dans la démonstration du calcul de la loi de la statistique S qu’interviennent les hypothèses sur la loi
de X et le fait que (Y1 , . . . , Yn ) soit un échantillon Bernoullien. Le terme hypothèse étant déjà utilisé pour
les hypothèses nulle H0 et alternative H1 nous utiliserons ici le terme de postulats1 .
(ii) Lorsque (Y1 , . . . , Yn ) est un n-échantillon Bernoullien, les (Yi )i=1,··· ,n sont indépendantes et de même loi que
X. Ce sont ces dernières propriétés qui interviennent dans la démonstration de la loi de la statistique S et
nous écrirons souvent dans les postulats : (Yi )i=1,··· ,n i.i.d. pour indépendantes et identiquement distribuées.
(iii) Dans la construction d’un test c’est le risque de première espèce α qui joue un rôle particulier. La symétrie
entre les deux risques est de fait rompue.
(iv) Lorsque nous acceptons l’hypothèse nulle, le risque de faire une erreur est le risque de deuxième espèce. Nous
dirons cependant que l’on accepte l’hypothèse nulle au risque α. Ceci est dû au fait que c’est le risque de
première expèce qui permet de construire la règle de décision et qu’en pratique le risque de deuxième espèce
dépend de l’hypothèse alternative qui n’est jamais complètement définie.
Nous présenterons un test statistique de la façon suivante.
(i) Définition du problème :
(a) question de départ ;
(b) définition des populations, variables aléatoires ;
(c) hypothèses nulle et alternative ;
(d) description des données.
1 Il y a en anglais deux termes pour hypothèse : asumption et hypothesis.
(ii) Description du test :

(a) postulats ;
(b) statistique utilisée (variable de décision).
(iii) Mode opératoire.
3.2 Définitions
Définition 3.2.1 (Risques de première et de deuxième espèce, puissance). On appelle risque de première espèce
et on note α la probabilité de l’événement rejeter l’hypothèse nulle quand elle est vraie :
α = Probabilité de l’événement rejeter H0 quand H0 est vraie

= PH0 (rejeter H0 )
On appelle risque de deuxième espèce et on note β la probabilité de l’événement accepter l’hypothèse nulle
quand elle est fausse :
β = Probabilité de l’événement accepter H0 quand H0 est fausse

On appelle puissance la probabilité de l’événement accepter l’hypothèse alternative quand elle est vraie :
1−β = Probabilité de lévénement accepter H1 quand H1 est vraie

On peut résumer ces définitions par le tableau suivant :
Décision : réalité H0 H1
H0 1−α β
H1 α 1−β
Remarque 3.2.2. (i) Le risque de première espèce est aussi la probabilité de conclure à une différence qui
n’existe pas en réalité.
(ii) Le risque de deuxième espèce est aussi la probabilité de ne pas déceler une différence qui existe.
(iii) La puissance du test est la probabilité de déceler une différence qui existe. C’est un critère de précision, de
qualité d’un test.
Définition 3.2.3 (Test unilatéral, test bilatéral). Un test est dit unilatéral si sa zone de rejet, c’est-à-dire
lévénement accepter H1 , est continue. Il est dit bilatéral si elle est en deux morceaux.
Exemple 3.2.4. Dans l’exemple introductif il n’y avait qu’une seule zone de rejet et l’hypothèse alternative était
H1 : µ > 1400. Nous avions donc un test unilatéral. Si on désirait comparer 2 procédés de fabrication pour savoir
lequel des 2 était le meilleur nous aurions écrit l’hypothèse alternative de la façon suivante : H1 : µ < 1400 ou
µ > 1400. Nous aurions alors eu 2 zones de rejet. Le test aurait été bilatéral.
Définition 3.2.5 (test non paramétrique). On appelle test non paramétrique tout test où dans les postulats il
n’est pas fait mention de lois. Le test est dit paramétrique dans le cas contraire.
Remarque 3.2.6. Dans un test paramétrique les hypothèses nulles et alternative s’expriment par des relations sur
des valeurs de paramètres, d’où la terminologie. En anglais on parle de ”distribution free test” ce qui est à notre
avis plus clair.
Exemple 3.2.7. Dans l’exemple introductif le test est un test paramétrique.
Exemple 3.2.8. Si on désire tester l’hypothèse nulle H0 : le caractère suit une loi de poisson ; le test sera un test
non paramétrique.
Définition 3.2.9 (Robustesse). Un test est dit robuste s’il est ”peu” sensibles à la loi de distribution du caractère
étudié.
Remarque 3.2.10. Nous aurons parfois le choix entre plusieurs tests pour une question donnée. Nous choisirons
en pratique parmi ceux qui vérifient les postulats celui qui aura la puissance la plus forte.
4 Test bilatéral
4.1 Puissance d’un test bilatéral
Exemple 4.1.1. 2 Un acheteur souhaite acquérir un lot de dindes. Ces dindes doivent avoir un poids moyen de
6.5kg et l’acheteur désire que le poids moyen ne soit ni trop faible ni trop élevé. Un vendeur est candidat pour ce
marché qui doit porter sur 60 000 dindes. Afin de s’assurer que la spécification imposée est bien vérifiée, l’acheteur
va prélever un échantillon simple et aléatoire de 64 animaux qu’il pèse. Des résultats antérieurs permettent de
penser que le poids suit une loi normale et on admettra que l’écart-type est connu et est σ = 2 kg. Nous allons ici
donner la règle de décision puis la fonction de puissance de ce test. Formalisons tout d’abord cette expérience. Le
caractère de départ est ici :
X : P −→ R
1 dinde −
7 → son poids.
A chaque lot de 64 animaux l’acheteur obtiendra 64 poids y1 , y2 , . . . y64 . La taille des échantillons (n = 64) étant
faible par rapport à la taille de la population P (N = 60000), on peut approximer l’échantillonnage sans remise
par un échantillonnage avec remise. On peut donc définir le n-échantillons Bernoullien :
Y = (Y1 , . . . , Y64 ) : P 64 −→ R64

1 lot de 64 dindes 7−→ (y1 , y2 , . . . y64 )
L’énoncé nous dit que nous avons les postulats suivants :

– (Yi ) i.i.d.
– Yi de loi N (µ, σ 2 ) avec σ 2 = 4
Les hypothèses nulle et alternative sont :
– H0 : µ = 6.5 ;
– H1 : µ 6= 6.5 (µ < 6.5 ou µ > 6.5).
Il s’agit donc d’un test bilatéral. P64
1
La statistique utilisée sera : M (Y ) = Ȳ = 64 i=1 Yi .
Si l’hypothèse nulle est vraie alors Ȳ suit une loi normale N (6.5, 0.0625). Nous rejetterons l’hypothèse nulle
si la valeur de la variable aléatoire Ȳ sur l’échantillon Ȳobs = M (y1 , . . . , yn ) est très grande ou très petite. Nous
aurons ici deux zones de rejet.
Nous avons donc
PH0 (m1 ≤ Ȳ ≤ m2 ) = 1 − α.
Par suite si nous prenons le même risque à droite et à gauche nous aurons :
PH0 (m1 < Ȳ ) = 1 − α/2,

PH0 (Ȳ < m2 ) = 1 − α/2.
Soit si nous prenons α = 0.05

 
m1 − 6.5 Ȳ − µ
PH0  < q  = 0.975
0.25 σ2
n

m2 − 6.5
PH0 Ȳ < = 0.975
0.25
D’où

 m1 − 6.5 = −1.96

0.25 m1 = 6.01
m2 − 6.5 ⇒

 = 1.96 m 2 = 6.99
0.25
La règle de décision est donc :
– Si Ȳobs = M (y1 , . . . , y64 ) ∈ [6.01; 6.99] alors on accepte l’hypothèse nulle d’égalité de la moyenne à 6.5 kg au
risque α de 5%
2 Données provenant du cours de biométrie de l’INAPG de R. Tomassone, juillet 1986, chapitre 5 page 34.
4. TEST BILATÉRAL 95
µ 5.25 5.50 5.75 6.00 6.25 6.50 6.75 7.00 7.25 7.50 7.75
6.01 − µ
3.04 2.04 1.04 0.04 -0.96 -1.96 -2.96 -3.96 -4.96 -5.96 -6.96
0.25
6.99 − µ
6.96 5.96 4.96 3.96 2.96 1.96 0.96 -0.04 -1.04 -2.04 -3.04
0.25
6.01 − µ
φ 1.00 0.98 0.85 0.52 0.17 0.02 0.00 0.00 0.00 0.00 0.00
0.25
6.99 − µ
φ 1.00 1.00 1.00 1.00 1.00 0.98 0.83 0.48 0.15 0.02 0.00
0.25
β(µ) 0.00 0.02 0.15 0.48 0.83 0.95 0.83 0.48 0.15 0.02 0.00
P uis(µ) 1.00 0.98 0.85 0.52 0.17 0.05 0.17 0.52 0.85 0.98 1.00
Tab. 5.3 – Risque β et puissance en fonction de la moyenne µ
– Si Ȳobs = M (y1 , . . . , y64 ) ∈

/ [6.01; 6.99] alors on rejette l’hypothèse nulle d’égalité de la moyenne à 6.5 kg au
risque α de 5%
Calculons maintenant la puissance de ce test en fonction de µ.
Si H1 est vraie alors Ȳ suit une loi normale N (µ, 0.0625)
Nous avons donc :
P uis(µ) = 1 − β(µ) = 1 − PH1 (m1 ≤ Ȳ ≤ m2 )

 
m 1 − µ Ȳ − µ m 2 − µ
= 1 − PH1  ≤ q ≤ 
0.25 σ2 0.25
n
m2 − µ m1 − µ
= 1−φ +φ
0.25 0.25
Le tableau 5.3 et le graphique 5.5 donnent les résultats pour diférentes valeurs de µ
Exemple de puissance pour un test bilatéral

1
0.9
0.8
0.7
0.6
Puissance
0.5
0.4
0.3
0.2
0.1
0
5 5.5 6 6.5 7 7.5 8
mu
Fig. 5.5 – Puissance d’un test bilatéral : exemple ”dindes” α = 0.05, n = 64.
4.2 Puissance et paramètres α, σ 2 et n

Comme nous l’avons vu sur les deux exemples traités dans ce chapitre, la puissance dépend de la vraie valeur
du paramètre µ. Mais elle dépend aussi du risque de première espèce, de la variance et du nombre de mesures.
Nous allons maintenant voir sur le deuxième exemple des ”dindes comment évolue cette puissance en fonction de
chacun de ces trois paramètres (les 2 autres restant fixes).
Puissance et risque de première espèce
Comme le montre le graphique (5.3) plus le risque de première espèce augmente, plus la zone d’acceptation de
l’hypothèse nulle diminue et donc plus le risque de deuxième espèce diminu. Par suite la puissance augmente. Le
graphique (5.6) donne la puissance P uis(µ) pour différente valeur du risque de première espèce.
0.9
0.8
0.7
0.6
Puissance
0.5
0.4
0.3
0.2
0.1
0
4.5 5 5.5 6 6.5 7 7.5 8 8.5
mu
Fig. 5.6 – Puissance, exemple des ”dindes” pour α = 0.0001, 0.01, 05 et 0.1 (σ 2 = 4 et n = 64).
Puissance et variance
Plus la variance est faible, plus la puissance est grande. Ce résultat est logique. En effet plus nous aurons
une variabilité faible, plus facile sera la mise en évidence d’une différence qui existe. Le graphique (5.7) donne les
courbes de puissance pour différentes valeurs de la variance.
1
0.9
0.8
0.7
0.6
Puissance
0.5
0.4
0.3
0.2
0.1
0
4.5 5 5.5 6 6.5 7 7.5 8 8.5
mu
Fig. 5.7 – Puissance, exemple des ”dindes” pour σ 2 = 2, 4, 6 et 8 (α = 0.05 et n = 64).
Puissance et nombre de données

Le nombre de données n intervient, pour un risque α fixé, dans le calcul de la valeur critique et dans le calcul
σ2
de la puissance. En effet la variance de la statistique Ȳ est égale à . Par suite plus le nombre de données sera
n
grand plus la variance de Ȳ sera faible et plus la puissance sera forte. L’influence du nombre de données est inverse
de celle de la variance des données. Le graphique (5.8) donne les courbes de puissance pour différentes valeurs de
n.
1
0.9
0.8
0.7
0.6
Puissance
0.5
0.4
0.3
0.2
0.1
0
4.5 5 5.5 6 6.5 7 7.5 8 8.5
mu
Fig. 5.8 – Puissance, exemple des ”dindes” pour n = 50, 100, 150 et 200 (α = 0.05 et σ 2 = 4).
5. CONCLUSION 97
4.3 Tests multiples

Sur l’exemple précédent des ”dindes” on définit le test T suivant :
(i) On réalise le test unilatéral à droite Td avec un risque α suivant :
– H0 : µ = 6.5
– H1 : µ > 6.5
On réalise le test unilatéral à gauche Tg avec un risque α suivant :
– H0 : µ = 6.5
– H1 : µ < 6.5
(ii) On réalise alors le test global suivant :
– H0 : µ = 6.5
– H1 : µ 6= 6.5
où on rejette l’hypothèse nulle si et seulement si on a rejetté l’hypothèse nulle du test unilatéral à droite
Td ou du test unilatéral à gauche Tg .
Le test T est alors un test bilatéral mais attention avec un risque de première espèce de 2α. Le fait de réaliser
des tests multiples avec une même finalité sur un même ensemble de données augmente implicitement de risque de
première espèce.
5 Conclusion
5.1 Présentation et conclusion d’un test
Nous tenons ici à rappeler que la première chose à faire lorsque l’on a des données est de les visualiser à l’aide
des outils de la statistique descriptive. Ceci permet, en particulier de visualiser la variabilité de la variable étudiée.
La réalisation pratique d’un test comprendra donc :
(i) la définition de la question posée ;
(ii) la méthode de collecte des données ;
(iii) la visualisation des données ;
(iv) le choix du test statistique ;
(v) la réalisation des calculs ;
(vi) la conclusion.
5.2 Risque de troisième espèce

Nous reprenons ci-dessous le texte de l’introduction du livre ”Techniques statistiques moyens rationnels de choix
et de décision de Georges Parreins paru aux éditions Dunod en 1974 page v et vi de l’introduction
”Citons un exemple, paraı̂t-il authentique, mais même s’il n’ l’est pas nous pensons qu’il restera présent à l’esprit
des lecteurs et nous souhaitons dans tous les cas ne rapeller aucun mauvais souvenir aux lectrices de ce livre. Afin
de prouver la nécessité d’avoir un médecin au moment d’un accouchement, on questionna des mamans : pour 50
accouchements avec médecin on constata 4 complications, ce nombre était de 3 pour un groupe de même importance
qui avait accouché sans le secours d’un praticien.
Ce résultat déplut aux organisateurs de l’enquête, ils la soumirent à un statisticien, qui très rapidement déclara
que ces résultats n’étaient pas significatifs et que pour une conclusion sérieuse il faudrait opérer sur des effectifs
beaucoup plus importants. On recueillit donc des observations. Sur deux séries de 500 accouchements on trouva 47
complications dans le premier groupe – avec médecins – et 19 dans l’autre. Le même statisticien déclara que dans
ce cas les résultats étaient hautement significatifs : on pouvait affirmer avec un risque très faible de se tromper
– de l’ordre de 1 sur dix mille – qu’il y avait beaucoup moins de complications en l’absence de médecin. Devant
ce résultat quelque peu inquiétant, notre statisticien étudia les modalités de l’échantillonnage : l’enquête avait été
faite à la campagne, on appelait surtout le médecin quand la venue au monde du nouveau bébé se présentait mal. Il
est à peu près évident que si on avait obtenu les résultats inverses, personne ne se serait posé de questions et cela
aurait constitué une lourde faute. Les expérimentateurs doivent toujours concerver le même esprit critique, devant
les résultats quels qu’il soient et ne pas se demander comment les observations ont été faites uniquement quand on
arrive à un résultat déplaisant.
Relisons Claude Bernard ”l’expérimentateur doit toujours douter, fuir les idées fixes et garder toujours sa liberté
d’esprit”
Il faut bien comprendre, qu’il est en général possible de faire dire aux statistiques tout – et uniquement – ce
que l’on désire, sous réserve d’éviter de dire comment elles ont été établies. C’est par ce biais que s’explique les
critiques – très justifiées – souvent adressées à ces techniques. Les échantillons non significatifs, c’est-à-dire mal
prélévés, sont la cause d’un grand nombre de conclusion erronées.
L’erreur qui a été faite dans cet exemple concerne la définition des populations. Il s’agit au fond de la même
erreur lorsque l’on dit que le lit est plus dangereux que l’automobile car il est prouvé statistiquement que l’on
meurt plus souvent dans un lit que dans une automobile. Cette dernière assertion est tout-à-fait exacte, mais la
conclusion est bien évidemment fausse. Le ”lit” n’est pas la cause de déces, mais lorsque l’on est gravement malade,
on est souvent alité. Il s’agit là de ce que nous appellerons du risque de troisième espèce qui est de nature très
différente des risques de première et de deuxième espèce ; mais on aurait tord de penser qu’il est le moins grave.
Ce risque sera évité le plus souvent par le bon sens, encore faut-il se poser les bonnes questions.
6. EXERCICES 99
6 Exercices
Exercice 6.1.1. 3
On sait que les conditions habituelles d’élevage de bovins conduisent à un poids moyen à un âge donné de 300
kg avec un écart type de 24 kg. On suppose que le poids suit une loi normale. On envisage un nouveau régime et
on désire savoir si ce régime est meilleur que l’ancien. Pour cela on teste ce régime sur 64 animaux. On suppose
que ni la loi de la variable aléatoire, ni sa variance σ 2 ne sont modifiées par le nouveau régime.
(i) Définissez les variables aléatoires X0 ”poids ancien régime” et X ”poids nouveau régime”.
(ii) On suppose que les populations étudiées sont de très grandes tailles et on peut donc considérer le 64-échantillon
Bernoullien
Y = (Y1 , . . . , Yn ) : P 64 −→ R64
b = (b1 , . . . , b64 ) 7−→ Y (b) = (X(b1 ), . . . , X(b64 )).
On considère la statistique M
M : R64 −→ R
64
1 X
(y1 , . . . , y64 ) 7−→ ȳ = yi .
64 i=1
et on définit Ȳ = M (Y ). Quelle loi suit la variable aléatoire Ȳ .

(iii) Quel test peut-on effectuer ? On précisera :
– l’hypothèse nulle H0 .
– s’il s’agit d’un test unilatéral ou bilatéral, on précisera l’hypothèse alternative H1 .
(iv) On prend comme risque de première espèce α = 0, 05.
(a) Donner la règle de décision du test.
(b) Calculer la puissance de ce test en fonction de la vraie valeur de la moyenne µ pour
µ = 280; 290; 295; 297.5; 300; 302.5; 305; 307.5; 310; 320 et tracer cette fonction.
(c) Quelle information vous donne la puissance si la vraie valeur de µ est 307.5 ?
correction.
(i) On considère P (respectivement P0 ) la population des bovins nourris avec le nouveau régime (respectivement
avec l’ancien régime). Les variables aléatoires X et X0 sont alors
X : P −→ R
1 bovin −
7 → son poids
X0 : P0 −→ R
1 bovin 7−→ son poids
(ii) Ȳ suit une loi normale N (µ, 242 /64), où µ est l’espérance mathématique de X.
(iii) – H0 : µ = 300 ;
– H1 : µ > 300.
Le test est unilatéral à droite car on désire savoir si le nouveau régime est meilleur que l’ancien.
(iv) (a)
= PH0 (Ȳ > Ȳcrit )

Ȳ − 300 Ȳcrit − 300
= PH0 >
3 3

Ȳ − 300
⇒φ = 1 − α = 0.95
3
Ȳcrit − 300
⇒ = 1.645
3
⇒Ȳcrit = 304.935
3 Données provenant du cours de biométrie de l’INAPG de R. Tomassone, juillet 1986, chapitre 5 page 36.
(b) Le risque de deuxième espèce β est
= PH1 (Ȳ < Ȳcrit )

Ȳ − µ Ȳcrit − µ
= PH1 <
3 3

Ȳcrit − µ
=φ
3
et la puissance est PH1 (accepter H1 ) = 1 − β(µ). La table 5.4 donne les valeurs numériques du risque
de deuxième espèce et de la puissance pour les valeurs demandées et la figure 5.9 visualise la fonction
puissance.
µ 280.0 290.0 295.0 297.5 300.0

304.935−µ
3 8.311 4.978 3.311 2.478 1.645
β(µ) 1.000 1.000 0.999 0.993 0.950
1 − β(µ) 0.000 0.000 0.001 0.007 0.050
µ 302.5 305.0 307.5 310.0 320.0
304.935−µ
3 0.811 -0.022 -0.855 -1.689 -5.022
β(µ) 0.791 0.491 0.196 0.046 0.000
1 − β(µ) 0.209 0.509 0.804 0.954 1.000
Tab. 5.4 – Risque de deuxième espèce et puissance
0.9
0.8
0.7
0.6
Puissance
0.5
0.4
0.3
0.2
0.1
290 295 300 305 310 315 320

mu
Fig. 5.9 – Fonction puissance
(c) Pour µ = 307.5 l’expérience avec 64 bovins conclura que l’hypothèse alternative H1 est vraie, c’est-à-dire
que le nouveau régime est meilleur que l’ancien, avec une probabilité de 0.804.
2
Exercice 6.1.2. On désire savoir si un juge reconnaı̂t le différence entre 2 produits A et B. Pour cela on lui
présente 3 produits dont 2 sont identiques et on lui demander de désigner celui qui est différent. On considère donc
la variable aléatoire X suivante :
X:Ω −→ {0, 1}
1 triplet 7−→ 1 si le juge reconnaı̂t le produit différent
1 triplet 7−→ 0 si le juge ne reconnaı̂t pas le produit différent
où Ω est l’ensemble des triplets possibes des deux produits A et B, deux produits étant identiques. X est une
variable aléatoire de loi de Bernoulli de paramètre p. On désire savoir si le juge répond totalement au hasard ou s’il
reconnaı̂t le produit différent. Pour cela, on fait n fois l’expérience. On obtient alors un n-échantillon qui est une
6. EXERCICES 101
observation du n-échantillon Bernoullien Y = (Y1 , . . . , Yn ) de la variable aléatoire X. On Définit alors la variable

aléatoire suivante :
Z : Ωn −→ {0, 1, . . . , n}
ω = (ω1 , . . . , ωn ) 7−→ nombre de bonnes réponses
(i) On considère les hypothèses nulle et alternative suivantes :

– H0 : le juge répond totalement au hasard ;
– H1 : le juge ne répond pas totalement au hasard.
Écrire les hypothèses nulle et alternative du test à l’aide du paramètre p.
(ii) écrire Z = S(Y ) (on donnera S), et en déduire la loi de Z.
(iii) On prend n = 25 et α = 0.05 et on donne pour p = 1/3
k 10 11 12 13 14 15 16 17 ...
Cnk pk q n−k 0.126 0.086 0.050 0.025 0.011 0.004 0.001 0.000 ...
et pour p = 2/3
k 13 14 15 16 17 18 19
Cnk pk q n−k 0.05 0.086 0.126 0.158 0.167 0.149 0.110
k 20 21 22 23 24 25
Cnk pk q n−k 0.066 0.031 0.011 0.003 0.000 0.000
(a) Calculer la valeur critique du test.
(b) Calculer le risque de deuxième espèce et la puissance pour p = 2/3.
(c) Visualiser le risque de deuxième espèce et la puissance pour p = 2/3.
(d) Calculer le risque de deuxième espèce et la puissance pour p = 1/3.
(e) Donner la forme de la fonction puissance en fonction de p.
correction.
(i) Si le juge choisi au hasard p est égal à 1/3. Si le juge ne répond pas au hasard c’est que p > 1/3 (si p < 1/3,
c’est que le juge répond de façon pire que s’il répondait totalement au hasard !). Le test est donc un test
unilatéral à droite. Par suite les hypothèses nulle et alternative sont
– H0 : p = 1/3 ;
– H1 : p > 1/3.
(ii) S est
S : Rn −→ R
n
X
(y1 , . . . , yn ) 7−→ S(y) = yi
i=1
P
Donc Z = S(Y ) = i Yi . Par suite Z suit une loi binômiale de paramètre (n, p).
(iii) Attention, il faut ici lorsqu’on définit les événemants accepter H0 et accepter H1 , bien préciser si on
prend des inégalités large ou strict car la loi de la variable aléatoire de décision est discrète.
On a
= PH0 (Z ≥ Zcrit )
= PH0 (Z = Zcrit ) + PH0 (Z = Zcrit + 1) + · · · + P (Z = n)
Xn
= Cnk pk q n−k
k=Zcrit
La table ci-après donne pour différentes valeurs de Zcrit les valeurs de α obtenus.
Zcrit 12 13 14 15 16 17 ...
(a)
α 0.091 0.041 0.016 0.005 0.001 0.000 ...
On en déduit que pour avoir α le plus proche de 0.05 tout en étant inférieur il faut prendre Zcrit = 13.
(b) Pour p = 2/3

12
X
β= P (Z = k)
k=0
25
X
=1− P (Z = k)
k=13
= 1 − 0.05 + 0.086 + 0.126 + 0.158 + 0.167 + 0.149 + 0.110 + 0.066 + 0.031 + 0.011 + 0.003
= 1 − 0.957 = 0.043
0.18
β
puissance
0.16
0.14
0.12
0.1
Loi de Z
0.08
0.06
0.04
0.02
0
0 5 10 15 20 25
k
Fig. 5.10 – Risque de deuxième espèce et puissance
(c)
(d) Pour p = 1/3 on a
= 1 − 0.041 = 0.939
0.9
0.8
0.7
0.6
Puissance
0.5
0.4
0.3
0.2
0.1
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

p
Fig. 5.11 – Puissance en fonction de p
(e)
2
6. EXERCICES 103

Exercice 6.2.1. 4
La législation en vigueur impose aux aéroports certaines normes concernant les bruits émis par les avions au
décollage et à l’atterrissage. Ainsi pour les zones habitées proches d’un aéroport, la limite tolérée se situe à environ
80 décibels. Au delà de cette limite, l’aéroport doit indemniser les riverains.
Les habitants d’un village proche d’un aéroport assurent que le bruit au dessus du village atteint la valeur
limite de 80 décibels en moyenne, pour un certain type d’avions (les plus bruyants). L’aéroport affirme qu’il n’est
que de 78 décibels. Des experts sont convoqués pour trancher entre les deux parties en présence. Ils admettent que
l’intensité du bruit causé par un avion de ce type suit une loi normale d’espérance µ et de variance σ 2 = 49. Ils
enregistrent l’intensité du bruit provoqué par le passage de ces avions sur un échantillon de taille n = 100.
On définit la variable aléatoire suivantes :
Ȳ : P 100 = {échantillons de 100 avions} −→ R

E100 = (avion1 , . . . , avion100 ) 7−→ moyenne des bruits des 100 avions
On considère les 2 cas suivants :
Test 1 les hypothèses nulle et alternative sont les suivantes :
H0 : µ = 80
H1 : µ < 80
Test 2 les hypothèses nulle et alternative sont les suivantes :

H0 : µ = 78
H1 : µ > 78
(i) Quelle est la loi de Ȳ ?

(ii) On prend comme risque de première espèce α = 0.05. Donner la règle de décision du test 1.
(iii) On suppose que µ = 78, Calculer le risque de deuxième espèce β et la puissance du test 1.
(iv) On prend comme risque de première espèce α = 0.05. Donner la règle de décision du test 2.
(v) On suppose que µ = 80, Calculer le risque de deuxième espèce β et la puissance du test 2.
(vi) Dans le cas du test 1 on veut que le risque de première espèce soit égal au risque de deuxième espèce lorsque
µ = 78. Quelle est la règle de décision et la valeur des risques.
(vii) Trouver n pour que dans le cas précédent le risque de première espèce soit égal à 0.05.
(viii) Conclusion
Indications. Attention à la position de l’événement rejeter H0 .
(i)
(ii) Pour le Test 1 la valeur critique Ȳcrit est 78.8485.
(iii) β = 0.113.
(iv) Pour le Test 2 la valeur critique est Ȳcrit est 79.155
(v) β = 0.113.
(vi) Ȳcrit = 79.
(vii) n ∼ 133.
2
Exercice 6.2.2. 5
La quantité d’acide nitrique (en micro-grammes) dans un mélange chimique doit être égale à 10. Cependant,
des erreurs de manipulation font en sorte que cette quantité suit une loi normale de moyenne µ et de variance
σ 2 = 0.09. On décide de tester les hypothèses H0 : µ = 10 contre H1 : µ 6= 10 à l’aide de résultats d’observations
de 20 mélanges prélevés au hasard et de rejeter l’hypothèse nulle H0 si ȳ < 9.80 ou ȳ > 10.20 où ȳ est la quantité
moyenne d’acide nitrique dans les 20 mélanges. On pose
Ȳ : P 20 −→ R
20 observations 7−→ ȳ
4 Problème provenant du livre de R. Céhessat ”Exercices commentés de statistique et informatique appliquées”. Dunod 1976, page
176
5 Exemple issu de l’ouvrage ”Statistique concepts et méthodes” Sabin Lessard, Monga ; PUM Masson 1993. exercice 8.25 page 311.
(i) Quelle est la loi de Ȳ ;

(ii) Le test sera-t-il un test unilatéral ou bilatéral ?
(iii) Calculer et visualiser l’erreur de première espèce ;
(iv) Calculer et visualiser l’erreur de deuxième espèce et la puissance dans les cas où µ = 9.90 et µ = 10.10 ;
(v) Tracer la forme générale de la fonction de puissance en fonction de µ ;
(vi) Comment évolue cette fonction quand le nombre d’observations n augmente (le risque de première espèce
restant le même).
Indications.
(i)
(ii)
(iii) α = 0.00288.
(iv) β = 0.93 pour les deux valeurs de µ.
2

Exercice 6.3.1. 6
Le poids de paquets de poudre de lessive, à l’issue de l’empactage, est une variable aléatoire réelle X :
X : P −→ R
un paquet 7−→ son poids
On suppose que X suit une loi normale N (µ, σ 2 ) avec σ = 5g. Le poids marqué sur les paquets est 700g. On
désire savoir si la machine de remplissage est bien réglée. Nous allons donc réaliser un test statistique. En pratique
on prélève 10 paquets de lessive et on mesure le poids moyen de ces 10 paquets de lessive. On suppose la population
des paquets de lessive est très grande, on peut donc définir la variable aléatoire suivante :
Ȳ : P 10 −→ R
10 paquets de lessive 7−→ le poids moyen
Enfin on ne veut léser ni le client, ni l’entreprise. On suppose que la variance ne bouge pas.
(i) Donner les hypothèses nulles et alternatives du test. On précisera si le test est unilatéral ou bilatéral.
(ii) Quelle est la loi de Ȳ .
(iii) On prend un risque de première espèce de 0, 05. On a obtenu sur un échantillon une valeur du poids moyen
ȳ = 710, quelle sera la conclusion ?
(iv) Visualiser pour µ = 705 le risque de première espèce, de deuxième espèce et la puissance du test.
(v) Calculer la puissance de ce test quand µ = 690; 695; 700; 705; 710. Tracer la forme de la courbe de puissance
en fonction de µ.
(vi) On veut, pour µ = 705 une puissance de 0, 99. Donner l’équation que doit vérifier n : le nombre de paquets
de lessive qu’il faut prendre.
Exercice 6.3.2. Le cahier des charge entre un semencier et un agriculteur stipule que le taux de contamination
des semences ne doit pas dépasser 2%. Afin de s’assurer que cela est bien le cas le semencier décide de faire un test
statistique. Pour cela il prélève un lot de n semences provenant de l’agriculteur, effectue les tests biologiques sur
ce lot et définit la procédure suivante :
– Si dans le lot, il y a plus de 2% de semences contaminées alors on rejette la production ;
– Si dans le lot, il y a moins de 2% de semences contaminées alors on accepte la production.
6 Exercice construit à partir de l’exercice 10 du chapitre ”théorie des tests” de ”Statistique, exercices corrigés avec rappels de cours”,
J-P Lecoutre, S. Legait-Maille et P. Passi.

6. EXERCICES 105
Cette expérience se formalise de la façon suivante. On définit la population P des semences produites par l’agri-
culteur et la variable aléatoire X de loi de Bernoulli de paramètre p.
X:P −→ {0, 1}
1 semence 7−→ 1 si la semence est contaminée
1 semence 7−→ 0 si la semence n’est pas contaminée
On suppose que la population P est de très grande taille et on définit
Ȳ : P n −→ R
1 lot de semences de taille n 7−→ (le nombre de semences contaminées dans le lot)/n
(i) On suppose que l’on peut approximer la loi de Ȳ par une loi normale. Donner les paramètres de cette lois en
fonction de p et n.
(ii) On définit les deux test suivants :

Test 1
– H0 : p = 0.02 ;
– H1 : p > 0.02.
et
Test 2
– H0 : p = 0.02 ;
– H1 : p < 0.02.
(a) Donner pour ces deux tests le risque de première espèce et donner leur signification concrète.
(b) On suppose que n = 1000. Calculer pour ces deux tests le risque de deuxième espèce pour p = 0.01; 0.02
et 0.03.
(iii) En fait le semencier veut avoir une forte probabilité de rejeter la production si le taux de contamination est
effectivement de 2% et l’agriculteur veut lui avoir une forte probabilité que sa production soit acceptée si le
taux de contamination est de 1%. On étudie pour cela le test :
– H0 : p = 0.02 ;
– H1 : p = 0.01.
(a) Donner la règle de décision pour avoir α = β.
(b) Calculer n pour avoir α = β = 0.05.
Exercice 6.3.3. Un semencier a mis au point une variété OGM d’une plante résistante à un herbicide. Il désire
savoir si, dans des conditions de culture normales il peut y avoir transfert du gène de résistance aux plantes rudérales
à une distance donnée (1 km par exemple). Il met en place sur le terrain l’expérimentation suivante :
Parcelle
de
rudérales
1 km
?
Parcelle
émettrice
de pollen
On prélève dans la parcelle ”rudérales” n graines et on réalise un test biologique sur ces graines pour savoir s’il
y a eu transfert de gène. On définit la variable aléatoire suivante :
X:G −→ {0, 1}
1 graine 7−→ 0 si la graine n’est pas transformée
1 graine 7−→ 1 si la graine est transformée
On suppose que la population G est très grande et on note p la proportion dans G de graines transformées. On
définit Y = (Y1 , . . . , Yn ) le n-échantillon Bernoullien de X et on considère la statistique
S : Rn −→ R
n
X
y = (y1 , y2 , . . . , yn ) 7−→ S(y) = yi
i=1
S(Y ) est alors la variable aléatoire
S(Y ) : G n −→ R
g = (g1 , g2 , . . . , gn ) 7−→ le nombre de graines transformées parmi les n graines
(i) Quelle est la loi de la variable aléatoire X

(ii) Quelle est la loi de la variable aléatoire S(Y )
(iii) Écrire la variable S(Y ) comme somme de n variables aléatoires de loi de Bernoulli indépendantes.
(iv) On considère le test suivant :
– H0 : il n’y a aucun transfert de gène ;
– H1 : il y a transfert de gène.
avec la règle de décision suivante :
– Si S(y) = 0 alors on accepte l’hypothèse nulle ;
– Si S(y) > 0 alors on rejette l’hypothèse nulle ;
(a) Écrire les hypothèses nulle et alternative à l’aide du paramètre p du test.
(b) Quel est le risque de première espèce α ?
(c) Donner la puissance du test en fonction de n et p.
6. EXERCICES 107
(d) Application numérique : n = 1000 et p = 0.001; 0.002 et 0.01.

(e) Visualiser le risque de deuxième espèce et la puissance du test lorsque p = 0.002.
(f) On veut une puissance de 0.95 pour p = 0.001. Calculer n.
(v) En supposant que la loi de S(Y ) puisse être approximée par une loi normale donner les paramètres de cette
loi.
(vi) On supposera que l’on peut approximer la loi de S(Y ) par une loi normale et on prendra n = 1000. On désire
réaliser le test statistique suivant :
– H0 : p = 0.1
– H1 : p > 0.1
(a) Le test est-il un test unilatéral ou bilatéral ?
(b) On prend α = 0.05. Donner la règle de décision.
(c) Calculer la puissance du test pour p = 0.05; 0.1; 0.11.
(d) Visualiser sur un graphique les risques α, β, et la puissance pour p = 0.11.
(e) Donner l’allure de la fonction puissance en fonction de p pour n fixé.
Chapitre 6
Estimation
1 Introduction
1.1 Exemples
Exemple 1.1.1. 1 Le merle à plastron (Turdus torquatus) est un oiseau qui en automne erre dans les bois clairs
et les buissons des montagnes, entre 1500 mètres et 2000 mètres d’altitude. En 1968, à la station ornithologique
du Col de la Golèze située dans les Alpes à 1700 mètres d’altitude, 48 merles à plastron ont été capturés au filet
japonais durant 89 jours d’ouverture de la station. Les données de la table (6.1) ont ainsi été obtenues.
Jours 1 2 ... 88 89
Nombre de merles capturés 0 2 ... 0 1
Tab. 6.1 – Données initiales
La table (6.2) donne alors la distribution des fréquences absolues des captures obtenues.
Nombres de merles capturés 0 1 2 3 4 5 6

Nombres de jours 56 22 9 1 0 1 0
Tab. 6.2 – Tableau des fréquences absolues
La représentation graphique du tableau des fréquences relatives associées est donc fournie par le diagramme en
bâtons de la figure (6.1)
0.7
0.6
0.5
Fréquences relatives
0.4
0.3
0.2
0.1
0
0 1 2 3 4 5
k
Fig. 6.1 – Diagramme en bâtons
On suppose que la répartition dans le temps des captures de merles est aléatoires (i.e. qu’une capture n’influence
pas une autre capture). La population des merles est supposée très grande. On peut modéliser cette expérience par
la variable aléatoire suivante :
X : J −→ N
un jour 7−→ nombre de merles capturés
1 Exemple provenant de B. Scherrer [5] page 242
109
110 CHAPITRE 6. ESTIMATION
Nous pouvons supposer que cette variable aléatoire suit une loi de Poisson :
λ −λ
P (X = k) = e
k!
Question : Comment à partir des résultats obtenir une estimation de ce paramètre λ ?
Nous pouvons penser à différentes solutions :
(i) Nous avons P (X = 0) = e−λ , nous pouvons donc penser à la formule :
nombre de jours où il y a eu 0 captures 56

e−λ̂ = =
nombre total de jours 89

56
λ̂ = − ln = 0.463
89
(ii) Nous avons aussi E(X) = λ et nous pouvons donc penser à la formule :
22 + 2 × 9 + 3 + 5
λ̂ = ȳ = = 0.551
89
(iii) Mais nous avons encore V ar(X) = λ et nous pouvons donc penser à une troisième formule :
n
1X
λ̂ = s2 = (yi − ȳ)2
n 1
Exemple 1.1.2. 2 Imaginons une population dans laquelle nous savons que tous les éléments ont été numérotés de 1
à N , par exemple lors d’un concours, mais nous ne connaissons pas cette valeur. Nous extrayons de cette population
un échantillon de taille 5 et nous relevons les 5 numéros : y1 = 203; y2 = 504; y3 = 366; y4 = 326; y5 = 77. La
question est comment estimer la valeur de N à partir de ces 5 données. Là encore nous pouvons penser à plusieurs
formules :
(i) maxi=1,...,5 (yi ) ;
(ii) maxi=1,...,5 (yi ) + mini=1,...,5 (yi ) − 1 ;
(iii) 2 × yei (2 fois la médiane des données).
1.2 Position du problème

Les deux exemples ci-dessus posent le problème de savoir quelle est la ”meilleure” formule pour une
estimation. Il faut pour cela avoir un/des critères pour pouvoir choisir. Nous allons dans la section qui suit donner la
définition d’un problème d’estimation et définir les bonnes propriétés que doit avoir un estimateur. Nous donnerons
ensuite les estimateurs pour les paramètres les plus courants.
2 Principes généraux
2.1 Formalisme mathématique, définitions
Considérons le problème de l’estimation d’un taux de germination d’une variété fixée dans des conditions
expérimentales bien définies. Appelons P la population des graines supposée de taille infinie. Estimer le taux de
germination c’est estimer le paramètre p de la loi de Bernoulli de la variable aléatoire
X:P −→ {0, 1}
une graine 7−→ 1 si la graine germe et 0 sinon
Pour cela on réalise l’expérience qui consiste à prendre n graines et à les mettre à germer. On estimera alors le
paramètre p par la fréquence de graines qui auront germé dans l’échantillon. Si nous ”répétons cette expérience
une infinité de fois”, nous définissons ainsi la variable aléatoire suivante :
Ȳ : P n −→ R
le nombre de graines qui germent dans l’échantillon
un échantillon de n graines 7−→
n
2 Exemple provenant de Tommassone [7] page 10
C’est la théorie de l’échantillonnage (et la théorie des probabilités) qui nous permet d’avoir des résultats sur la
variable Ȳ et en particulier sa loi. Schématiquement nous avons :
G n =ensemble de tous les

G =ensemble de graines échantillonnage
- échantillons de taille n
p =taux de germination
Loi de probabilité de Ȳ
Information sur le Estimation Résultats sur

taux de germination un échantillon de taille n
D’une façon générale nous aurons le schéma suivant :
Y : P n → Rn
X:P→R échantillonnage
- T : Rn → R
loi de X : f (x, θ)
Loi de T (Y1 , . . . , Yn )
Résultats sur
Information Estimation
un échantillon de taille n
sur la valeur de θ
T (y1 , . . . , yn )
POSTULATS On supposera toujours dans la suite que l’on a un n-échantillon Bernoullien et donc que les
variables aléatoires (Yi )i=1,...,n sont indépendantes et de même loi. Nous écrirons alors (Yi )i=1,...,n i.i.d3
Définition 2.1.1 (Problème d’estimation). Soit X un caractère sur une population Ω de loi f (x; θ) si X est
continue et p(x; θ) si X est discrète. Estimer θ c’est déterminer à partir d’un échantillon (y1 , . . . , yn ) une valeur
approchée de θ. θ s’appelle un paramètre et on notera (Pe ) un problème d’estimation.
3 indépendantes et identiquement distribuées
Remarque 2.1.2. La définition ci-dessus est valable que θ soit un réel ou un vecteur. Si l’on désire par exemple
estimer les paramètres µ et σ pour une variable aléatoire de loi normale, on aura : θ = (θ1 , θ2 ) = (µ, σ) ∈ R2 .
Nous n’étudierons dans cette section que le cas où la variable aléatoire sera à valeurs dans R et où le paramètre
sera un réel.
Définition 2.1.3 (Estimateur – Estimation ponctuelle). Soit (Pe )un problème d’estimation. On appelle estimateur
toute variable aléatoire T (Y1 , . . . , Yn ), où (Y1 , . . . , Yn ) est un n-échantillon aléatoire, ayant pour but d’estimer le
paramètre θ. On appelle valeur estimée ou estimation ponctuelle ou estimation par point ou encore estimation la
quantité θ̂ = T (y1 , . . . , yn ) obtenue à partir d’un n-échantillon (y1 , . . . , yn ).
Définition 2.1.4 (Estimation par intervalle – Intervalle de confiance). Soit (Pe ) un problème d’estimation où θ
est réel. On appelle estimation par intervalle ou intervalle de confiance au niveau 1 − α tout intervalle [θ̂1 ; θ̂2 ] tel
que la probabilité que cette intervalle contienne la valeur du paramètre θ soit égale à 1 − α.
Remarque 2.1.5. (i) L’avantage d’avoir un intervalle de confiance est que l’on a ainsi une idée de la précision
de l’estimation.
(ii) Dire que l’intervalle recouvre la valeur du paramètre θ, c’est dire que θ est dans l’intervalle. Nous pouvons
donc prendre comme définition d’un intervalle de confiance tout intervalle tel que :
P (θ ∈ [θ̂1 ; θ̂2 ]) = 1 − α (6.1)
Par abus de langage nous dirons que θ appartient à l’intervalle [θ̂1 ; θ̂2 ] au niveau 1−α. Il faut bien comprendre
en effet que dans l’équation ci-dessus θ est une constante (c’est ce que l’on cherche à estimer). C’est l’intervalle
qui est ici aléatoire. Si l’on désire par exemple avoir un intervalle de confiance d’un taux de germination, nous
réaliserons concrètrement l’expérience consistant à mettre à germer n graines. A partir des résultats de cette
expérience, nous construirons l’intervalle de confiance du taux de germination (voir la sous section (3.3)) .
Si nous réalisons une nouvelle fois cette expérience nous obtiendrons un nouvel intervalle de confiance. C’est
donc bien cet intervalle qui varie et non pas le taux de germination qui est ce qu’il est. Par conséquent écrire
θ ∈ [θ̂1 ; θ̂2 ] au niveau 1−α n’est pas très rigoureux car θ, qui est une constante soit appartient à cet intervalle,
soit est hors de cet intervalle ; il ne peut y être avec une probabilité de 1 − α. La bonne formulation serait
de dire que l’intervalle [θ̂1 ; θ̂2 ] recouvre la vraie valeur du paramètre θ avec la probabilié de (1 − α). Mais
l’habitude veut que l’on emploie la première formulation.
Nous allons maintenant voir les propriétés que doit posséder tout ”bon” estimateur.
2.2 Propriétés des estimateurs

La première chose que l’on demande à un estimateur est de ne pas faire d’erreur systématique, c’est-à-dire que
l’estimateur donne ”en moyenne” la bonne valeur du paramètre recherché. C’est la notion d’estimateur sans biais.
Définition 2.2.1 (Estimation sans biais). Soit (Pe ) un problème d’estimation. Un estimateur T est dit sans biais
si et seulement si l’espérance mathématique de T est égale à la valeur du paramètre θ cherchée :
E(T ) = θ
Définition 2.2.2 (Estimation asymptotiquement sans biais). Soit (Pe ) un problème d’estimation. Un estimateur
Tn est dit asymptotiquement sans biais si et seulement si l’espérance mathématique de Tn tend vers la valeur du
paramètre θ cherchée quand n tend vers +∞ :
E(Tn ) −→ θ
n −→ +∞
Exemple 2.2.3. Considérons le problème de l’estimation d’une variance σ 2 dans le cas où la variable aléatoire
suit une loi normale. Soit donc (Y1 , . . . , Yn ) un n-échantillon aléatoire Bernoullien de la variable aléatoire X dont
on cherche à estimer la variance. Considérons l’estimateur
n
1X
T (Y1 , . . . , Yn ) = (Yi − Ȳ )2 = S 2 (Y )
n i=1
Nous avons alors vu au théorème (4.4.2.1) que l’on a

n−1 2
E(T ) = E(S 2 ) = σ
n
Par suite S 2 n’est pas un estimateur sans biais de σ 2 . Pour obtenir un estimateur sans biais il faut en fait prendre :
n
1 X n
T (Y1 , . . . , Yn ) = (Yi − Ȳ )2 = S 2 (Y )
n − 1 i=1 n−1
En effet la propriété de linéarité le l’espérance mathématique donne immédiatement :

n n
S2 = E S 2 = σ2

E
n−1 n−1
Illustrons ceci par la simulation. Construisons 5000 échantillons de taille 5 de données provenant d’une loi nor-
male N (100, 25). Pour chacun des 5000 échantillons nous calculons la quantité SCE/n. Nous obtenons ainsi
5000 réalisations de la variable aléatoire S 2 . Traçons alors l’histogramme de ces 5000 nombres. Nous obtenons le
deuxième graphique de la figure (6.2). Si maintenant pour les mêmes 5000 échantillons nous calculons les quantités
SCE/(n − 1), nous obtenons 5000 réalisations de la variable aléatoire n/(n − 1)S 2 . L’histogramme de ces 5000
valeurs nous donne alors le troisième graphique de la figure (6.2).
Données SCE/n
0.1 0.05
0.08 0.04
0.06 0.03
0.04 0.02
0.02 0.01
0 0
85 90 95 100 105 110 115 0 25 90
SCE/(n−1)
0.05
0.04
0.03
0.02
0.01
0
0 25 90
Fig. 6.2 – Echantillonnage de S 2 et de nS 2 /(n − 1)
Nous pouvons observer que la valeur moyenne obtenue pour le troisème graphique est bien la valeur de la
variance σ 2 recherchée alors que sur le deuxième elle est inférieure (la valeur est de 4/5σ 2 )
Remarque 2.2.4. Nous tenons a rapeller ici que l’illustration via la simulation informatique n’est qu’une illustra-
tion. Il faudrait en fait non pas prendre 5000 échantillons, mais une infinité. Ce sont les théorèmes mathématiques
qui nous permettent d’affirmer que le résultat est bien exact.
S 2 n’est pas un estimateur de la variance sans biais, mais il est asymptotiquement sans biais puisque E(S 2 ) =
n−1 2
n σ tend vers σ 2 quand n tend vers +∞.
Une deuxième propriété, qui est fondamentale, que doit avoir tout ”bon” estimateur est que si l’on a suffisamment
de données la valeur de la variable aléatoire soit très proche de la valeur du paramètre recherché. Ceci ce traduit par
le fait que l’estimateur soit asymptotiquement sans biais et qu’il fluctue peu autour de son espérance mathématique
lorsque n est grand, c’est-à-dire que sa variance soit petite pour n grand. Nous débouchons ainsi sur la notion
d’estimateur convergent.
Définition 2.2.5 (Estimateur convergent). Soit (Pe ) un problème d’estimation. Un estimateur Tn est dit convergent
si et seulement si il est asymptotiquement sans biais et si sa variance tend vers 0 quand n tend vers +∞ :
E(Tn ) −→ θ et V ar(Tn ) −→ 0
n −→ +∞ n −→ +∞
Exemple 2.2.6. Considérons le problème de l’estimation d’une moyenne µ. Soit donc (Y1 , . . . , Yn ) un n-échantillon
aléatoire Bernoullien de la variable aléatoire X dont on cherche à estimer la moyenne. Considérons l’estimateur
n
1X
Tn (Y1 , . . . , Yn ) = Ȳn = Yi
n i=1
Nous savons alors que : E(Ȳn ) = µ pour tout n. Par suite cet estimateur est sans biais et donc asympotiquement
sans biais. Quand à la variance de cet estimateur elle est :
σ2
V ar(Ȳn ) =
n
Par suite cet estimateur est un estimateur convergent.
Exemple 2.2.7. Supposons, pour simplifier, que X suive une loi normale. Nous avons déjà vu à l’exemple 2.2.3
2
que n/(n − 1)S 2 est un estimateur sans biais et le théorème (4.4.2.1) nous dit que V ar(n/(n − 1)Sn2 ) = σ4
n−1
qui donc tend vers 0 quand n tend vers +∞. Par suite n/(n − 1)S 2 est un estimateur convergent de la variance.
Illustrons le phénomène grâce à la simulation. Construisons 5000 échantillons de taille 5 de données provenant
d’une loi normale N (100, 25). Pour chacun des 5000 échantillons nous calculons la quantité SCE/(n − 1). Nous
obtenons ainsi 5000 réalisations de la variable aléatoire n/(n − 1)S 2 . Traçons alors l’histogramme de ces 5000
nombres. Nous obtenons le premier histogramme de la figure (6.3). Nous avons sur ce même graphique tracé la
fonction de densité de la variable aléatoire n/(n − 1)S 2 . Les deuxième et troisième graphiques de cette même figure
sont obtenus de façon similaire mais avec n = 20 et n = 50. Nous avons sur le dernier graphique mis les fonctions
de densité théoriques. Nous observons bien ici le phénomène de convergence : plus n est grand, plus les valeurs de
la variable aléatoire se concentrent autour de la vraie valeur de la variance recherchée.
n=5 n=20
0.1 0.1
0.08 0.08
0.06 0.06
0.04 0.04
0.02 0.02
0 0
0 25 100 0 25 100
n=50
0.1 0.1
0.08 0.08
0.06 0.06
0.04 0.04
0.02 0.02
0 0
0 25 100 0 25 100
Fig. 6.3 – Visualisation de la convergence de la statistique nS 2 /(n − 1)
Nous pouvons maintenant définir un critère pour choisir entre deux estimateurs sans biais : c’est celui qui aura
une dispersion minimale en terme de variance.
Définition 2.2.8 (Estimateur efficace). Soit (Pe ) un problème d’estimation. Un estimateur sans biais Tn est dit
efficace si quel que soit l’estimateur sans biais Tn0 , on a :
V ar(Tn ) ≤ V ar(Tn0 )
Exemple 2.2.9. Considérons une variable aléatoire X de loi uniforme sur [0; 12]. La simulation obtenue avec 1000
échantillons de taille n montre que la moyenne est plus efficace que la médiane (cf. la figure 6.4).
Données
0.1
0.08
0.06
0.04
0.02
0
0 2 4 6 8 10 12
Moyennes Médianes
0.4 0.4
0.3 0.3
0.2 0.2
0.1 0.1
0 0
0 5 10 0 5 10
Fig. 6.4 – Efficacité de la moyenne par rapport à la médiane

3. ESTIMATIONS DES PRINCIPAUX PARAMÈTRES 115
3 Estimations des principaux paramètres

3.1 Estimation d’une variance
Théorème 3.1.1. Soit (Pe ) le problème d’estimation de la variance θ = σ 2 où X est une variable aléatoire réelle
continue. Alors
n
S 2 (Y ) : P n −→ R
n−1
n
1 X
ω = (ω1 , . . . , ωn ) 7−→ (X(ωi ) − Ȳ (ω))2
n − 1 i=1
(i) est un estimateur sans biais de σ 2 . On notera σ̂ 2 l’estimation ponctuelle.

(ii) si X suit une loi normale, c’est un estimateur convergent et asymptotiquement efficace.
Démonstration
Le point (i) a été vu à la section précédente et le point (ii) sera admis. 2
Théorème 3.1.2. Soit (Pe ) le problème d’estimation de la variance θ = σ 2 où X est une variable aléatoire réelle
continue de loi normale alors l’intervalle de confiance au niveau (1 − α) est donné par :
" #
2 SCE SCE
σ ∈ ; au niveau (1 − α)
χ21−α/2 χ2α/2
Corollaire
√ 3.1.3. Sous les mêmes hypothèses que le théorème précédent l’estimation ponctuelle de l’écart type σ
est σ̂ = σ̂ 2 et, si la loi de la variable aléatoire de départ X est normale, l’estimation par intervalle est :
"s s #
SCE SCE
σ∈ ; au niveau (1 − α)
χ21−α/2 χ2α/2
Démonstration
Cela provient du théorème (4.4.2.1) qui dit entre autre que la variable aléatoire :
nS 2 (Y )
K(Y ) = : Pn −→ R
σ2
n
1 X
ω = (ω1 , . . . , ωn ) 7−→ (X(ωi ) − Ȳ (ω))2
σ 2 i=1
suit une loi du Khi-2 à ν = (n − 1) degré de liberté si l’échantillon aléatoire est Bernoullien et si la variable aléatoire
X suit une loi normale. Par suite, si nous définissons les valeurs de χ2α/2 et χ21−α/2 par :
P (K(Y ) < χα/2 ) = α/2 et P (K(Y ) < χ21−α/2 ) = 1 − α/2
nous avons (cf. figure (6.5))
nS 2 (Y )

2
P χα/2 < < χ1−α/2 =1−α
σ2
!
nS 2 (Y ) 2 nS 2 (Y )
⇔ P <σ < =1−α
χ1−α/2 χ2α/2
Or à partir des données nous avons une observation de la variable aléatoire nS 2 qui est donnée par la somme
des carrés des écarts SCE. D’où le résultat. 2
Exemple 3.1.4. Reprenons les données de la table 4.1 où l’on s’intéressait à la longueur de la rectrice centrale de
la gélinotte huppée mâle, juvénile. On désire ici avoir une estimation de la variance. La variable aléatoire étudiée
est :
X : Ω −→ R
une gélinotte 7−→ la longueur de sa rectrice
0.045
0.04
0.035
0.03
0.025
0.02
0.015
0.01
0.005
← α/2
α/2→
0
0 100
χ20.025 χ20.975
Fig. 6.5 – Loi du Khi-2 à ν ddl
L’estimation ponctuelle de la variance est alors

SCE 1263647 − 50 × 158.862 1822
σ̂ 2 = = = = 37.18mm2
n−1 49 49
On peut supposer ici que la loi de la variable aléatoire est une loi normale et on peut donc calculer l’intervalle de
confiance à 95% de la variance :
" #
SCE SCE 1822 1822
; = ; = [25.95; 57.74]
χ21−α/2 χ2α/2 70.222 31.555
L’intervalle de confiance de l’écart type est alors :

[5.1; 7.6] au niveau 0.95
Remarque 3.1.5. (i) Si la loi de départ n’est plus une loi normale, la formule n’est plus valable car la variable
2
aléatoire K = nS
σ 2 ne suit plus une loi du Khi − 2 (cf la figure 4.5).
(ii) L’intervalle de confiance n’est pas symétrique : σ̂ 2 n’est pas le milieu de l’intervalle.
(iii) On démontre que l’estimation de l’écart type est biaisée mais qu’elle elle est asymptotiquement sans biais.
3.2 Estimation d’une moyenne

Théorème 3.2.1. Soit Pe un problème d’estimation où X est une variable aléatoire continue et θ = E(X) = µ.
1 Pn
Alors Ȳ = Yi
n i=1
(i) est un estimateur sans biais et convergent de µ ;
(ii) est un estimateur efficace si X suit une loi normale.
Démonstration
Le (i) est immédiat et a déjà été démontré dans le chapitre de la théorie de l’échantillannage. Le (ii) est admis. 2
Théorème 3.2.2 (Intervalle de confiance de la moyenne). Soit Pe un problème d’estimation où X est une variable
aléatoire de loi normale et θ = E(X) = µ alors l’intervalle de confiance est :
(i) si la variance σ 2 est connue

σ σ
µ ∈ ȳ − u1−α/2 √ ; ȳ + u1−α/2 √ au niveau (1 − α)
n n
(ii) si la variance σ 2 n’est pas connue

σ̂ σ̂
µ ∈ ȳ − t1−α/2 √ ; ȳ + t1−α/2 √ au niveau (1 − α)
n n
Démonstration
(i) Si σ est connue alors la théorie de l’échantillonnage nous dit que la variable aléatoire Ȳ suit une loi normale
2
N (µ, σn ). Nous avons donc :

σ σ
P µ − u1−α/2 √ ≤ Ȳ ≤ µ + u1−α/2 √ =1−α
n n
où u1−α/2 est défini par P (U < u1−α/2 ) = 1 − α/2, U étant une variable aléatoire de loi normale centrée réduite.
On en déduit alors que :
σ σ
P Ȳ − u1−α/2 √ ≤ µ ≤ Ȳ + u1−α/2 √ =1−α
n n
d’où le résultat.
Ȳ − µ
(ii) Lorsque X suit une loi normale N (µ, σ 2 ), il est toujours vrai que U = suit une loi normale centrée
√σ
n
réduite. Le problème est ici que σ est inconnue. L’idée immédiate est de remplacer σ par son estimation σ̂. Ceci
nous conduit à construire le variable aléatoire suivante :
T (Y ) : P n −→ R
Ȳ (ω) − µ
ω = (ω1 , . . . , ωn ) 7−→ T (ω) = q Pn
i=1 (X(ωi )−Ȳ (ω))2
(n−1)n
Nous pouvons reécrire cette variable aléatoire de la façon suivante

Ȳ −µ
√
σ/ n U
T (Y ) = q =p
nS 2 (Y )
/(n − 1) Z/ν
σ2
où U est une variable aléatoire de loi normale centrée réduite, Z est une variable aléatoire de loi du Khi-2 à
ν = n − 1 degré de liberté, et ces deux variables aléatoires sont indépendantes. Par suite T suit une loi de Student
à ν = (n − 1) ddl.
Par conséquent, si nous définissons t1−α/2 par :
P (T (Y ) < t1−α/2 ) = 1 − α/2
nous avons (cf. figure (6.6)) :

P (−t1−α/2 < T (Y ) < t1−α/2 ) = 1 − α
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
← α/2
α/2→
0
−4 4
t t
0.025 0.975
Fig. 6.6 – Loi de Student à ν ddl
Nous en déduisons donc

 
Ȳ − µ
P −t1−α/2 < q 2 < t1−α/2  =1−α
S (Y )
n−1
r r !
S 2 (Y ) S 2 (Y )
⇔ P Ȳ − t1−α/2 < µ < Ȳ + =1−α
n−1 n−1
Nous avons à partir de nos données une observation de

s
S 2 (Y )
Ȳ − t1−α/2
n−1
qui est r
σ̂ 2
ȳ − t1−α/2
n
Nous avons le même type de résultat pour la deuxième borne de l’intervalle. D’où le résultat.
2
Exemple 3.2.3. Reprenons les données de la table 4.1 où l’on s’intéressait à la longueur de la rectrice centrale
de la gélinotte huppée mâle, juvénile. Calculons l’intervalle de confiance de la moyenne. Nous supposons toujours
ici que la loi de la vaviable aléatoire est normale. Nous avons obtenu à l’exemple 3.1.4 ȳ = 158.86 et σ̂ = 6.0979.
Le nombre de données est n = 50, et donc ν = 49. Par suite nous avons t0.975,ν=49 = 2.0096. Ce qui nous donne
comme intervalle de confiance à 95% :

6.0979 6.0979
µ ∈ 158.86 − 2.0096 × √ ; 158.86 − 2.0096 × √ = [157.13; 160.59] au niveau 0.95
50 50
Le théorème précédent nous donne les résultats théoriques lorsque la loi de la variable aléatoire X est normale,
mais on sait, grâce au théorème limite central que Ȳ suit asymptotiquement une loi normale, c’est-à-dire que pour
n grand, on peut approximer la loi de Ȳ par une loi normale. Il reste à savoir à partir de quand on est en droit
d’utiliser cette approximation pour ensuite obtenir des intervalles de confiance de la moyenne. Plus la loi de départ
sera disymétrique, plus n devra être grand. La proposition suivante donne une règle couramment utilisée.
Proposition 3.2.4. Soit Pe un problème d’estimation où X est une variable aléatoire continue et θ = E(X) = µ
alors l’intervalle de confiance est :
(i) si la variance σ 2 est connue et si n > 5

σ σ
n n
(ii) si la variance σ 2 n’est pas connue et si n > 30

σ̂ σ̂
n n
4
Définition 3.2.5 (Erreur standard). On appelle erreur standard l’estimation ponctuelle de l’écart type de la
moyenne, c’est-à-dire la quantité : √
σ̂/ n
Remarque 3.2.6. On trouvera aussi comme terminologie erreur standard de la moyenne au lieu d’erreur standard.
Nous pouvons utiliser maintenant les résultats précédents pour déterminer le nombre n de mesures nécessaires
afin d’obtenir une estimation avec une précision voulue. Considérons par exemple le cas où la variable aléatoire X
suit une loi normale, alors l’intervalle de confiance au niveau (1 − α) est donné par :

σ̂ σ̂
µ ∈ ȳ − t1−α/2 √ ; ȳ + t1−α/2 √ au niveau (1 − α)
n n
Par suite si nous posons

σ̂
d = t1−α/2 √
n
nous avons alors
µ ∈ [ȳ − d; ȳ + d] au niveau (1 − α)
Nous en déduisons l’équation suivante
2
t1−α/2 σ̂
n− =0 (6.2)
d
Par suite si nous connaissons la valeur du rapport σ̂/d, nous pouvons en déduire la valeur de n. Attention n apparaı̂t
deux fois dans l’équation (6.2), il est en effet présent de façon implicite dans t1−α/2 qui est en lien avec une loi
de Student à (n − 1) ddl. En pratique, pour avoir un ordre de grandeur de n on remplacera ce terme t1−α/2 par
u1−α/2 .
4 standard error en anglais
Exemple 3.2.7. On se propose de déterminer la quantité d’olives que l’on doit prendre pour pouvoir estimer à
une décimale près la teneur en huile (exprimée en pourcentage du poids frais). Comme nous n’avons au départ
aucune information, nous prenons, dans un premier temps 100 olives. On suppose que la variable aléatoire ”teneur
en huile” suit une loi normale. Après avoir analysé celles-ci, nous avons obtenu : ȳ = 28.5% et σ̂ = 5.7%. Nous
prenons α = 0.05. L’intervalle de confiance de µ au niveau 0.95 est alors de

5.7 5.7
28.5 − t1−α/2 √ ; 28.5 + t1−α/2 √ = [28.5 − 1.12; 28.5 + 1.12]
100 100
n = 100 est donc trop petit. Déterminons maintenant la taille de l’échantillon nécessaire. Nous conservons l’esti-
mation de σ obtenue lors de notre première expérience et nous remplaçons t1−α/2 par u1−α/2 dans l’équation (6.2).
Nous obtenons ainsi
1.96 × 5.7
d= = 0.1
n
soit
n ' 13000
On vérifie a posteriori que la valeur de n est grande et donc que l’approximation de t1−α/2 par u1−α/2 est correcte.
Si n est faible, il faut itérer pour trouver la solution de l’équation (6.2).
3.3 Estimation d’une proportion

Théorème 3.3.1. Soit Pe un problème d’estimation où X est une variable aléatoire de loi de Bernoulli B(p) alors
(i) Ȳ est un estimateur sans biais et convergent du paramètre p et l’estimation ponctuelle est donc donnée par
kobs
p̂ = ;
n
(ii) si l’échantillonnage est avec remise l’intervalle de confiance au niveau (1 − α) est donné par p ∈ [p1 ; p2 ] où
p1 et p2 sont déterminés par :
n
kobs X
P (Ȳ ≥ )= Cni pi2 (1 − p2 )n−i = α/2 (6.3)
n
i=kobs
et
k
obs
kobs X
P (Ȳ ≤ )= Cni pi1 (1 − p1 )n−i = α/2 (6.4)
n i=1
Démonstration
Cela provient tout simplement de la théorie de l’échantillonnage et pour (ii) du fait que nȲ suit une loi binômiale.
2
Les équations 6.3 et 6.4 sont difficiles à résoudre et on sait que l’on peut souvent en pratique approximer
une loi binômiale ou hypergéométrique par une loi normale d’où la proposition suivante. Nous notons dans cette
proposition σ̂p l’estimation de la variance de X̄ qui est données par :
p̂q̂
(i) σ̂p2 = si l’échantillonnage est avec remise ;
n−1
p̂q̂ N − n
(ii) σ̂p2 = si l’échantillonnage est sans remise.
n−1 N
Proposition 3.3.2. Soit Pe un problème d’estimation où X est une variable aléatoire de loi de Bernoulli B(p). Si
n est supérieur aux valeurs mentionnées dans la table 6.3 alors l’intervalle de confiance est données par

1 1
p ∈ p̂ − u1−α/2 σ̂p − ; p̂ + u1−α/2 σ̂p + au niveau (1 − α)
2n 2n
Démonstration
Puisque l’on peut faire l’approximation par une loi normale on obtient l’intervalle en prenant l’intervalle de confiance
1
d’une moyenne. Le terme 2n est un terme de correction de non continuité [3] 2
Remarque 3.3.3. (i) Pour les valeurs de n inférieures à 100 et pour n/N < 0.1 on a construit des tables
statistiques qu’il suffit d’aller consulter.
(ii) pour les valeurs de p très proche de 0 on peut aussi utiliser l’approximation de la loi binômiale par une loi de
poisson.
p n
0.5 30
0.4 50
0.3 80
0.2 200
0.1 600
0.05 1400
Tab. 6.3 – valeurs minimales de n en fonction de p pour pouvoir utiliser la loi normale dans le calcul de l’intervalle
de confiance d’une proportion
(iii) Quand l’échantillonnage est sans remise, ce qui est toujours le cas en pratique ! ! !, et quand n/N > 0.1, nous
devons travailler avec la loi hypergéométrique, ce qui complique les calculs. Il faut pour répondre à la question
alors se tourner vers les logiciels spécifiques.
Exemple 3.3.4. 5 A la fin de l’été et au cours de l’automne 1975, une épidémie virale provoqua la mort d’environ
1000 cerfs de Virginie (Odocoileus virginianus) dans le New Jersey ([4]). L’analyse d’un échantillon de 146 victimes,
dont le sexe a pu être identifié, révéla que seulement 41 mâles dont 10 faons composaient l’échantillon.
Quel est l’intervalle de confiance au niveau 0.95 du pourcentage de mâles morts de cette maladie lors de
l’épidémie de 1975 ?
41
L’échantillon se compose de 146 animaux et l’estimation ponctuelle de la proportion est p̂ = 146 = 0.28 Comme
cette valeur est proche de 0.3 et que l’effectif de l’échantillon n est supérieur à 80, nous pouvons utiliser l’approxi-
mation normale. L’effectif de la population est ici environ N = 1000, donc
r
0.28 × 0.72 1000 − 146
σ̂p = = 0.0344
145 1000
par suite l’intervalle de confiance est :

1 1
p ∈ 0.28 − 1.96 × 0.034 − ; 0.28 + 1.96 × 0.034 + = [0.21; 0.35] au niveau (1 − α)
292 292
4 Compléments
4.1 Lien entre intervalle de confiance et test
L’intervalle de confiance de la moyenne dans le cas où l’on connaı̂t la variance σ 2 et où la variable aléatoire X est normale est donnée par :
» –
σ σ
ȳ − u1−α/2 √ ; ȳ + u1−α/2 √ au niveau 1 − α
n n
Considérons maintenant, toujours sous les mêmes postulats, le test bilatéral suivant :
H0 : µ = µ0
H1 : µ 6= µ0
Nous aurons alors
» la règle de décision suivante : –
σ σ
– si ȳ ∈ µ0 − u1−α/2 √ ; µ0 + u1−α/2 √ alors on accepte l’hypothèse nulle H0 au risque α ;
» n n–
σ σ
– si ȳ 6∈ µ0 − u1−α/2 √ ; µ0 + u1−α/2 √ alors on accepte l’hypothèse alternative H1 au risque α.
n n
Ce qui est equivalent
» à : –
σ σ
– si µ0 ∈ ȳ − u1−α/2 √ ; ȳ + u1−α/2 √ alors on accepte l’hypothèse nulle H0 au risque α ;
» n n–
σ σ
– si µ0 6∈ ȳ − u1−α/2 √ ; ȳ + u1−α/2 √ alors on accepte l’hypothèse alternative H1 au risque α.
n n
En d’autres termes, on peut considérer l’intervalle de confiance comme l’ensemble des valeurs de la moyenne µ0 pour lesquelles on accepterait
l’hypothèse nulle dans le test bilatéral.
4.2 Illustration
Soit Pe un problème d’estimation où la loi de la variable aléatoire X est continue et où θ ∈ R. Soit T un estimateur de θ.
Fixons θ 0 dans R. Si nous connaissons la loi de T pour ce paramètre θ 0 , nous pouvons déterminer les valeurs h1 (θ 0 ) et h2 (θ 0 ) telles que :
0
P (T < h1 (θ )) = α/2
0
P (T < h2 (θ )) = 1 − α/2
5 Exemple provenant de B. Scherrer [5] page 351

4. COMPLÉMENTS 121
Nous avons ainsi défini deux fonctions h1 et h2 . Nous avons aussi

0 0
P (h1 (θ ) < T < h2 (θ )) = 1 − α
Si maintenant nous calculons à partir d’un n-échantillon l’estimation ponctuelle θ̂ = T (y1 , . . . , yn ) nous avons la relation suivante :
0 0 0 −1 −1
θ̂ ∈ [h1 (θ ), h2 (θ )] ⇐⇒ θ ∈ [θ̂1 ; θ̂2 ] = [h2 (θ̂); h1 (θ̂)]
Par conséquent nous avons bien :

P (θ ∈ [θ̂1 ; θ̂2 ]) = 1 − α
Nous retrouvons ici la vraie signification de l’intervalle de confiance : la probabilité que l’intervalle [θ̂1 ; θ̂2 ] recouvre la vraie valeur du
paramètre θ est 1 − α. C’est l’intervalle qui varie, non le paramètre θ.
La figure (6.7) visualise ceci
estimations
paramètres
Fig. 6.7 – Intervalle de confiance
4.3 Estimation robuste

nous avons vu que pour avoir un ”bon” estimateur : estimateur sans biais, convergent et si possible efficace, nous avions souvent besoin
du postulat de normalité. Or ceci n’est pas toujours le cas en pratique. On peut donc aussi rechercher des estimateurs peu sensibles à la loi de
probabilité. Un estimateur ayant cette propriété sera appelé un estimateur robuste. Par exemple, pour une loi symétrique, la médiane est un
estimateur plus robuste de E(X) que la moyenne arithmétique.
Il existe un deuxième type de robustesse. Elle concerne l’insensibilité à des valeurs ”aberrantes”. La encore la médiane sera plus robuste
que la moyenne arithmétique. Les qualités de robustesse et d’efficacité sont très souvent en opposition : on ne peut pas gagner sur tous les
tableaux. En pratique, pour estimer une moyenne, on essaiera, à l’aide des graphiques des boı̂tes à moustache par exemple, de détecter les
valeurs ”aberrantes”, puis on calculera l’estimation de E(X) par la moyenne arithmétique sur les données restantes.
L’étude de la robustesse est hors de propos ici, mais il s’agit d’une propriété en pratique importante.
4.4 Représentation graphique

La figure (6.8) montre comment nous pouvons visualiser l’intervalle de confiance de la moyenne pour l’exemple
(3.2.3). Attention, certains auteurs visualisent l’intervalle [ȳ − es; ȳ + es] où es = √σ̂n est l’erreur standard ! ! !
données Box plot

175
175
170 170
165 165
160 160
Values
155
155
150
150
145
145
140
140
0 0.5 1 1.5 2 1
Column Number
Fig. 6.8 – Intervalle de confiance longueur de la rectrice centrale
La figure (6.10) montre quant-à elle les différents intervalles de confiance de la moyenne à 95% pour les données
des longueurs d’ailes de mésanges noires selon leur âge et sexe.
Remarque 4.4.1. Nous pouvons voir sur les graphiques des boı̂tes à moustaches qu’il y a peut-être des données
aberrantes. Les intervalles de confiances ont ici été calculés sur toutes les données car nous n’avions aucune infor-
mation nous permettant d’exclure une de ces données.
68
67
66
65
64
63
62
61
60
59
58
1 2 3 4
Fig. 6.9 – Boı̂tes à moustaches longueurs d’ailes
68
67
66
65
64
63
62
61
60
59
58
0.5 1 1.5 2 2.5 3 3.5 4 4.5
Fig. 6.10 – Données et intervalle de confiance longueurs d’ailes
5 Exercices
Exercice 5.1.1. 6 Une biochimiste étudie un type de moisissure qui attaque les cultures de blé. La toxine contenue
dans cette moisissure est obtenue sous la forme d’une solution organique. On mesure la quantité de substance par
gramme de solution. Sur 9 extraits on a obtenu les mesures suivantes :
1.2 0.8 0.6 1.1 1.2 0.9 1.5 0.9 1.0
On suppose que cette quantité de substance suit une loi normale.

(i) Calculer les estimations ponctuelles de la moyenne et de la variance ;
(ii) Calculer l’intervalle de confiance à 90% de la variance ;
(iii) Calculer les intervalles de confiance à 90% et à 99% de la moyenne.
correction.
(i) L’estimation ponctuelle de la moyenne est
1
µ̂ = ȳ = (1.2 + 0.8 + · · · + 1.0) = 1.0222
n
.
(ii)
n
X n
X
SCE = (yi − ȳ)2 = yi2 − nȳ 2
i=1 i=1
= 9.96 − 9(1.0222)2
= 0.5556
6 Données provenant du livre de Stephan Morgenthaler, ”Introduction à la statistique”, exercice 3 page 146
5. EXERCICES 123
L’estimation ponctuelle de la variance est donc
SCE 0.5556
σ̂ 2 =
= = 0.0694
n−1 8
√
Et l’estimation ponctuelle de l’écart type est σ̂ = σ 2 = 0.2635.
Remarque. Suivant la précision avec lesquels on fait les calculs intermédiaires on obtiendra des résultats plus
ou moins différents de ceux données ici. Nous n’insisterons pas sur ce point dans la mesure ou aujourd’hui
les calculs sont fait sur l’ordinateur.
(iii) La loi étant supposée normale on a pour intervalle de confiance de la variance

2 SCE SCE
σ ∈ ; 2 à 90%
χ2 χ0.05
0.95
0.5556 0.5556
σ2 ∈ ; à 90%
15.507 2.733
σ 2 ∈ [0.0358; 0.2033] à 90%
(iv) La loi étant supposée normale on a comme intervalle de confiance pour la moyenne

σ̂ σ̂
µ ∈ ȳ − t1−α/2 √ ; ȳ + t1−α/2 √ au niveau 1 − α
n n
Ici α = 0.1 et ν = n − 1 = 8 donc t1−α = 1.86 et

0.2635 0.2635
µ ∈ 1.0222 − 1.86 ; 1.0222 + 1.86 à 90%.
9 9
µ ∈[0.8588; 1.1856] à 90%.
Pour α = 0.01, on a t1−α/2 = 3.355 et on obtient
µ ∈ [0.7275; 1.3169]
Remarque.
– On peut constater que plus le degré de confiance est grand, plus l’intervalle est grand ; ce qui est logique.
2
Exercice 5.1.2. 7 Le ministère de la construction désire connaı̂tre le nombre de garages qu’il est souhaitables de
construire avec une H.L.M., afin que les locataires puissent y ranger leur voiture.
(i) Sur 100 ménages on en a trouvé 40 qui possédaient une voiture. Donner l’intervalle de confiance à 95% de la
proportion des ménages qui possèdent une voiture. On supposera que l’approximation par la loi normale est
correcte.
(ii) On suppose connu la proportion p des ménages possédant une voiture. Exprimer n le nombre de ménages
en fonction de p et de d que l’on interroger pour être sûr à 97% que l’estimation ponctuelle soit dans un
intervalle [p − d; p + d]. Pour d fixé quelle est la valeur de p la plus défavorable, c’est-à-dire celle qui donne la
valeur de n la plus grande. Calculer n pour d = 0.01; 0.05 et p = 0.04
(iii) On interroge 3238 ménages. On trouve parmi eux 971 possesseurs de voitures.
(a) Donner l’estimation ponctuelle de la proportion p.
(b) Donner l’intervalle de confiance à 99% de la proportion p.
Remarque 5.1.1. Nous avons maintes fois fait l’approximation d’une loi binômiale par une loi normale. L’intérêt
de cette approximation est de permettre des calculs plus simple. Pour que cette approximation soit correcte il faut
que n soit suffisamment grand et que p ne soit pas trop proche de 0 ou de 1. Dans le cas où le paramètre p est
très proche de 0 la bonne approximation pour la loi binômiale est la loi de Poisson. Le tableau ci-dessous donne les
limites de l’approximation :
7 Exercice n◦ 81 du livre de C. Labrousse ”Statistique exercices corrigés avec rappels de cours”
Paramètre p Valeur minimale de n

pour une approximation
par la loi normale
0.5 30
0.4 50
0.3 80
0.2 200
0.1 600
0.05 1400
0.0 poisson
Il ne s’agit ici que de résultats empiriques que nous utiliserons très souvent.
correction.
(i) On a p̂ = 40/100 = 0.4 et
p̂q̂ 0.4 × 0.6
σ̂p2 = = = 2.4210−3
n−1 99
Par suite l’intervalle de confiance de p est
p ∈[p̂ − u1−α/2 σ̂p − 1/2n; p̂ + u1−α/2 σ̂p + 1/2n] au niveau 1 − α

√ √
p ∈[0.4 − 1.96 2.4210−3 − 1/200; 0.4 + 1.96 2.4210−3 + 1/200] à 95%
p ∈[0.298; 0.5015] à 95%
(ii) On est ici dans la théorie de l’ échantillonnage, en effet on suppose que l’on connaı̂t la valeur et p et on cherche
n pour que l’estimation p̂ soit suffisamment proche de p, c’est-à-dire dans un intervalle [p − d; p + d] avec une
probabilité de 0.97. L’estimateur est ici Ȳ et on sait que l’on peut supposer que cette variable aléatoire suit
une loi normale N (p, pq/n). Par suite on a
r r
pq pq
P Ȳ ∈ p − u1−α/2 ; p + u1−α/2 =1−α
n n
Par suite pour avoir P (Ȳ ∈ [p − d; p + d]) = 0.97, il suffit de prendre α = 0.03 et
r
pq
d = u1−α/2
n
u 2
1−α/2
⇔n = p(1 − p)
d
avec ici u1−α/2 = u0.985 = 2.17. La fonction n(p) est donc une parabole concave (n00 (p) < 0) et le maximum
sur [0; 1] est en 0.5 (unique point où n0 (p) = 0). (voir la figure 6.11)
12000
10000
8000
6000
n
4000
2000
0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
p
Fig. 6.11 – n en fonction de p
Pour p = 0.4 et d = 0.01 on trouve n ∼ 11301 et pour p = 0.4 et d = 0.05 on trouve n ∼ 452.
(iii) (a) p̂ = 971/3238 = 0.299.
5. EXERCICES 125
(b) u0.995 = 2.576 donc

" r r #
0.299 × 0.701 0.299 × 0.701
p ∈ 0.299 − 2.576 ; 0.299 + 2.576 à 99%
3237 3237
p ∈[0.28; 0.32] à 99%
2
Exercice 5.1.3. 8
Les sondages sont largement utilisés dans le marketing direct : il arrive souvent, en effet, que l’on estime par
sondage le rendement d’un fichier donné, que l’on souhaite comparer les rendements de plusieurs fichiers, ou encore
que, disposant de plusieurs fichiers, l’on souhaite estimer par sondage le rendement global de l’ensemble des fichiers.
Dans cet exercice, on suppose l’existence d’un fichier de N =200 000 adresses. On note p le rendement inconnu du
fichier à une offre d’abonnement à prix réduit avec calculette offerte en prime ; c’est donc la proportion d’individus
qui s’abonneraient si l’offre était faite à tous les individus du fichiers. On prélève au hasard, sans remise, n individus.
On note :
– P la population des 200 000 individus ;
n
– f= ;
N
– σ 2 = pq ;
– Ȳ la variable aléatoire
Ȳ : P n −→ R
nombre d’individus qui s’abonnent
n individus 7−→
n
σ2
Nous pouvons dans ce cas approximer la loi de la variable Ȳ par une loi normale N (p, (1−f ) ). (L’échantillonnage
n
est sans remise et nous ne pouvons ici l’approximer par un échantillonnage avec remise).
(i) On suppose que p = 0.02. Quelle taille d’échantillon doit-on prendre pour estimer p avec une précision absolue
de 0.5% et un degré de confiance de 95% ;
(ii) Même question pour des précisions de 0.3% et 0.1% ;
(iii) Le test a porté sur 10 000 adresses, et on a noté 230 abonnements. Donner l’intervalle de confiance à 95% de
p et du nombre total d’abonnements si l’offre était faite sur l’ensemble du fichier.
correction.
Remarque. Dans le cours, théorème 4.1.1, on dit que
N − n σ2
V ar(Ȳ ) =
N −1 n
alors qu’ici on a
σ2 n σ2 N − n σ2
(1 − f )
= 1− =
n N n N n
La bonne formule est bien sûr celle du cours, mais ici N est suffisamment grand pour confondre N et N − 1.
(i) La variable de départ est ici
X : P −→ {0, 1}
1 individu 7−→ 1 s’il s’abonne
1 individu 7−→ 0 s’il ne s’abonne pas
X suit une loi de Bernoulli de paramètre p et a donc pour variance pq. On cherche donc a estimer p et on
nous dit que Ȳ peut être approximée par une loi normale de paramètre N (p, (1 − f )pq/n). Nous pouvons
donc écrire r r
pq pq
P p − u1−α/2 (1 − f ) ≤ Ȳ ≤ p + u1−α/2 (1 − f ) =1−α
n n
Or ici on veut P (p − d ≤ Ȳ ≤ p + d) = 1 − α avec
– p = 0.02 ;
– d = 0.005 ;
8 Exercice 5 page 8 de l’ouvrage ”Exercices de sondages” A.N. Dussaix et J.M. Grosbras, Ed. Economica 1992
– α = 0.05.
Nous pouvons maintenant exprimer n en fonction de d, N, p et α. On veut
r
n pq
d = u1−α/2 1−
N n
2
d n pq pq pq
⇔ = 1− = −
u1−α/2 N n n N

pq d pq
⇔ = +
n u1−α/2 N
N pqu21−α/2
=⇒n =
N d2 + pqu21−α/2
(ii) Application numérique

d 0.005 0.003 0.001
n 2967 8030 54702
(iii) n = 10000 et p̂ = 230/10000 = 0.0230. L’intervalle de confiance est
" r r #
p̂q̂ 1 p̂q̂ 1
p ∈ p − u1−α/2 (1 − f ) − ; p + u1−α/2 (1 − f ) −
n − 1 2n n − 1 2n
au niveau 1 − α. Pour le calcul on peut ici négliger le terme en 1/2n

" r r #
p̂q̂ p̂q̂
p ∈ p − u1−α/2 (1 − f ) ; p + u1−α/2 (1 − f )
n n
et on obtient comme intervalle de confiance sur le nombre d’abonnés

[0.020N ; 0.026N ] = [4000; 5200] à 95%.
2

9
Exercice 5.2.1.
Intervalle de confiance du coefficient de corrélation linéaire

On rappelle que le coefficient de corrélation linéaire d’un couple de variable aléatoire (X, Y ) est donné par :
cov(X, Y )
ρ=
σ(X)σ(Y )
L’estimation ponctuelle est donnée par :
cov(x, y) SP E(x, y)
ρ̂ = =p
sx sy SCE(x)SCE(y)
Pour avoir un intervalle de confiance de ce coefficient de corrélation linéaire il faut que le couple de variable aléatoire
(X, Y ) soit de loi normale de dimension 2. La distribution d’échantillonnage est toutefois complexe. cependant Fisher
a montré que la variable auxiliaire :
1 1+R
Z = ln
2 1−R
obéissait à une loi très proche de d’une loi normale de paramètres :

1 1+ρ 1
E(Z) = ln ; V ar(Z) =
2 1−ρ n−3
Aussi pour avoir un intervalle de confiance de ce coefficient de corrélation linéaire il faut :
9 Exemple provenant du livre de Scherrer page 591 et suivantes
5. EXERCICES 127
(i) calculer
1 1 + ρ̂
ẑ = f (ρ̂) = ln ;
2 1 − ρ̂
(ii) Calculer l’intervalle r r
1 1
[ẑ − u1−α/2 ; ẑ + u1−α/2 ]
n−3 n−3
(iii) Calculer à l’aide de la transformation de Fisher inverse, c’est-à dire à f −1 , les limites de l’intervalle de
confiance de ρ.
Application
Dans une étude sur la dynamique des populations naturelles de la tenthrède du pin (Diprion frutetarum) de
Oliveira (1972) a observé la capacité de reproduction en fonction de différentes mesures du cocon et de l’insecte
adulte. La capacité de reproduction a été évaluée par le nombre y d’oocytes (œufs) matures par cocon. Parmi les
mesures prises sur le cocon figure la longueur x en millimètres de ce dernier. Les données relatives à ces observations
sont les suivantes :
x y x y x y
8.5 60 9.5 89 9.4 73
8.0 27 7.8 37 8.9 68
9.0 72 8.8 51 7.9 29
7.7 41 9.5 89 8.2 28
8.5 66 8.8 42 8.8 47
8.0 46 9.0 33 8.0 46
9.1 57 9.4 65 9.0 55
9.0 99 7.8 42 8.5 47
9.3 85 8.6 57 8.9 85
8.4 48 7.8 48 8.7 72
9.5 86 9.1 85 8.8 67
8.2 47 9.7 77 8.8 60
9.5 93 9.0 78 8.6 53
8.9 45 8.5 66 8.4 60
8.5 55 9.0 71 9.4 32
9.1 79 9.2 67 8.8 69
8.5 61 8.8 85 9.5 98
8.5 77 7.8 48 9.0 58
8.5 77 8.7 49 8.0 43
8.9 43 9.0 39 8.5 64
8.5 56 9.3 76 8.6 70
7.4 25 8.5 82 9.1 33
10.0 56 9.8 48 8.8 57
On donne : P P
x = 603.5mm y = 4139œufs
P i2 i 2
P i2 i 2 P
i i = 5299.11mm
x i i = 271681œufs
y i xi yi = 36576.4
(i) Donner l’intervalle de confiance à 99% du coefficient de corrélation linéaire.
Indications. On trouve ρ̂ = 0.54 et l’intervalle de confiance à 99% est [0.28; 0.73]. 2
Exercice 5.2.2. Les montants de timbres ont été relevés sur un échantillon pris au hasard de 400 paquets traités
par la poste d’une zone de distribution un jour donné. On suppose que la population des paquets est grande et que
la loi de la variable aléatoire modélisant le prix est normale. On donne ȳ = 4.70 euros et SCE = 3080
(i) Donner une estimation ponctuelle σ̂ de l’écart type de la variable aléatoire prix.
(ii) Pouvez-vous donner l’intervalle
√
de confiance à 90% de cet écart type. Pour ν > 100 on peut approximer une
2
loi du Khi-2 par (U + 22ν−1) où U suit une loi normale centrée réduite.
(iii) Donner l’intervalle de confiance à 90 % de la moyenne µ de la variable aléatoire prix.
(iv) Calculer l’intervalle [ȳ − √σ̂ ; ȳ + √σ̂ ]. Quel niveau de confiance est associé à cet intervalle ?
n n
(v) Si on tirait 100 échantillons de 400 paquets indépendamment les uns des autres, et si on calculait pour chacun
d’eux l’intervalle de confiance à 90%, quelle proportion de ces 100 intervalles contenant effectivement la valeur
inconnue de µ peut-on attendre ?
(vi) Sur quelle population cette expérience permet-elle de conclure ?
Indications.
(i) σ̂ 2 = 7.72.
(ii)
σ 2 ∈ [6.9; 8.71] à 90%
(iii)
µ ∈ [4.47; 4.93] à 90%
(iv) (1 − α) = 0.6826
2
Exercice 5.2.3. Un économiste souhaite connaı̂tre la variabilité des revenus des habitants d’une ville donnée. On
sait, par des études antérieures, que l’on peut considérer la loi de la variable aléatoire ”revenus” est une loi log
normale. Il collecte pour son étude 100 données et obtient les estimations suivantes à partir de ces données :
– µ̂ = 10000 ;
– σ̂ 2 = 4000000.
(i) Donner un intervalle de confiance à 99% de la moyenne.
(ii) On désire, toujours avec un degré de confiance de 99%, une précision absolue pour l’intervalle de confiance
d = 100. Combien faut-il de données ?
(iii) Pouvez-vous donner un intervalle de confiance à 90% de la variance ?
(iv) Après avoir discuté avec l’économiste, on s’aperçoit que ces données on été obtenues en interrogeant les
personnes dans la semaine et l’après-midi par téléphone. Quels problèmes cela pose-t-il ?
Indications.
(i) µ ∈ [99484.8; 100515.2] à 99%
(ii) n ∼ 2654
(iii) Pensez aux hypothèses.
2

Exercice 5.3.1. Geissler a observé dans 53680 familles ayant 8 enfants, 221023 garçons et 208417 filles.
(i) Donner l’intervalle de confiance à 95% de la proportion de garçons dans la population.
(ii) Commentaire.
Exercice 5.3.2. 10 On a mesuré la quantité d’alcool total (mesurée en g/l) contenue dans 10 cidres doux du
marché. On suppose que la quantité d’alcool des cidres suit une loi normale de moyenne µ et d’écart-type σ. On a
obtenu les valeurs suivantes :
5.42, 5.55, 5.61, 5.93, 6.15, 6.20, 6.79, 7.07, 7.37
.
(i) Déterminer l’intervalle de confiance à 95% de la moyenne :
(a) si l’on suppose que σ = 0.6g/l ;
(b) si σ est inconnu.
(ii) Déterminer un intervalle de confiance de σ 2 à 95%.
Exercice 5.3.3. On a pesé 15 poulpes mâles pêchés au large des côtes mauritaniennes. On suppose que pour cette
espèce de poulpe, le poids suit une loi normale. On a obtenu les valeurs suivantes (en grammes) :
1150, 1500, 1700, 1800, 1800, 1850, 2200, 2700, 2900, 3000, 3100, 3500, 3900, 4000, 5400
(i) Donner l’intervalle de confiance de la moyenne à 95%. Donner l’amplitude de cet intervalle.
10 www.cnam.fr/math/IMG/pdf/Fiche8.pdf
5. EXERCICES 129
(ii) Si n désigne la taille d’un échantillon, donner l’amplitude de l’intervalle de confiance en fonction de n.
(iii) On souhaite construire un intervalle de confiance de la moyenne à 95% d’une amplitude de 500g. Quelle taille
d’échantillon faut-il ?
Exercice 5.3.4. Cet exercice est difficile. 11
Un commissaire aux Comptes contrôle un stock composé de N = 2000 références d’une valeur totale V inconnue.
Les documents comptables fournissent une ”valeur totale d’inventaire” de 5447560 d’Euros. On définit les deux
variables aléatoires suivantes :
X : S −→ R
un article 7−→ sa valeur comptable d’inventaire
Y :S −→ R
un article 7−→ sa valeur réelle
2
On note µX et µY les espérances mathématique des variables X et Y ; et σX et σY2 les variances des variables
X et Y .
(i) Les variables aléatoires X et Y sont-elles a priori indépendantes ? (On justifiera la réponse).
(ii) Le commissaire fait tirer sans remise un échantillon de n = 160 références dans le stock afin d’estimer V
et V̄ (valeur comptable moyenne par référence). On obtient ȳ = 2705, 64 Euros et σ̂y = 1527, 31 Euros. On
2
n σY
suppose que l’on peut approximer la loi de Ȳ par une loi normale N (µ, (1 − N ) ).
n
(a) Donner un intervalle de confiance à 99% de µY .
(b) Donner l’estimation ponctuelle de V et un intervalle de confiance à 99% de V .
(c) Conclusion.
(d) On veut une précision absolue, c’est-à-dire une demi longueur de l’intervalle de confiance, de 100 pour
la moyenne µY . Donner le nombre d’articles qu’il faut prendre.
(e) Quelle est la valeur de µX ?
(iii) On pose D = Y − X, Yd = µX + D et Ȳd = µX + D̄
(a) Calculer E(Ȳd ) en fonction de µY .
(b) On démontre que :
n V ar(Yd )
V ar(Ȳd ) = 1 −
N n
On suppose que Ȳd suit une loi normale. Dans l’échantillon on a trouvé : d¯ = 10.67 Euros et σ̂D = 41.82
Euros. Donner l’intervalle de confiance à 99% de µY .
(c) Commentaires
11 Exercice 7 de ”Exercices de sondages” A-M. Dussaix et J-M Grosbras

Bibliographie
[1] Gildas Brossier and Anne-Marie Dussaix. Enquêtes et sondages. Méthodes, modèles, applications, nouvelles
technologies. Dunod, 1999. ISBN : 2 10 004023 5.
[2] Donald E. Catlin. Estimation, Control, and the Discrete Kaman Filter. Springer, 1989.
[3] W.G. Cochran. Sampling Techniques. Wiley, New York, 1977.
[4] P. McConnel, R. Lund, and N. Rose. The 1975 outbreak of hemorrhagic desease among white tail deer in north
western new jersey. Transaction of the Northeast Section of the Wildlife Soc. ; Hershey, Pennsylvania, 1976.
[5] Bruno Scherer. Biostatistique. Gaëtan Morin, 1984.
[6] Yves Tillé. Théorie des sondages, échantillonnage et estimation en population finies. Cours et exercices corrigés.
Dunod, 2001. ISBN : 2 10 005484 8.
[7] R. Tomassone, C. Dervin, and J.P. Masson. BIOMÉTRIE, Modélisation de phénomènes biologiques. Masson,
1993.
131

11extrait Statistiques

Transféré par

Droits d'auteur :

Formats disponibles

11extrait Statistiques

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

11extrait Statistiques

Transféré par

Droits d'auteur :

Formats disponibles

Département Biosciences Végétales

3.1 Probabilités conditionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

5 Tests statistiques : principes généraux 87

Outil statistique : l’estimation

Outil statistique : l’estimation

Outils statistiques : le test de Student, l’analyse de la variance.

2.2 Cas à deux variables

2.3 Cas d’un nombre fini de variables

Outil statistique : la régression linéaire multiple

Outil statistique : l’Analyse Factorielle Discriminante (AFD), méthodes de classification

Les statistiques La statistique

La statistique descriptive La statistique mathématique

4 Enseignement des mathématiques en tronc commun

5 Modules Statistique 1 et 2, première année

5.2 Statistique 1 : Outils et concepts

6 Difficulté de cet enseignement

6.2 Mon sentiment sur cet enseignement

– Savoir utiliser le formalisme mathématique

Exemple 2.1.4. La taille, l’âge d’un individu, le nombre de particules.

Exemple 2.1.6. La couleur des yeux, pile ou face.

2.2 Types de caractères qualitatifs

2.3 Types de variables statistiques

Exemple 2.3.2. – Nombre de points sur la face supérieur d’un dé.

Exemple 2.3.4. – Poids d’un individu.

3 Statistique descriptive à une dimension

Définition 3.1.1 (Série statistique). On appelle série statistique la suite y1 , y2 , . . . , yn .

Exemple 3.1.2. Notes sur 10 de 10 élèves à un devoir de français.

10; 05; 01; 09; 02; 05; 01; 09; 09; 01

3.2 Les distributions de fréquences

Notation 3.2.3. On note aussi n. = n

Définition 3.2.4 (Fréquence relative). On appelle fréquence relative associée à xi la quantité :

Fig. 2.1 – Diagramme en bâtons

Fig. 2.2 – Histogramme

Définition 3.2.14 (Histogramme). On appelle histogramme un diagramme du type précédent.

Fig. 2.3 – ”Densité”

Fig. 2.4 – Fonction de densité

21.86 21.90 21.98

Tab. 2.1 – hauteurs de 50 pièces usinées

Fig. 2.5 – Histogramme et densité estimée

Exemple 3.2.19. Reprenons encore l’exemple (3.1.2)

3.3 Réduction des données

Fréquences cumulées relatives

Fig. 2.6 – Fréquences cumulées relatives : données (3.1.2)

Fig. 2.7 – Fréquences cumulées relatives : données (3.2.9)

– Si les observations sont données par leurs fréquences absolues

Exemple 3.3.3. Pour les données de l’exemple (3.3.1), nous avons :

– si le nombre d’observations est impair la médiane est x

Exemple 3.3.7. Pour les données de l’exemple (3.3.1), nous avons :

Exemple 3.3.9. Considérons les 24 données suivantes :

Remarque 3.3.10. Le deuxième quartile est égale à la médiane.

Exemple 3.3.12. Pour les données de l’exemple (3.3.1), il y a 3 modes : 63,66,70.

Définition 3.3.14 (Variance d’un échantillon). On appelle variance de l’échantillon la quantité :

– Si les données sont sous la forme d’une distribution de fréquences absolues

0.08 densité densité

Fig. 2.8 – Différences entre le mode, la moyenne et la médiane

(ii) On peut aussi écrire :

Exemple 3.3.22. Pour les données de l’exemple (3.3.1), nous avons :

Fig. 2.9 – Boı̂te à moustaches

– Si les données sont sous la forme d’une distribution de fréquences