CM Seance 02
CM Seance 02
CM Seance 02
Méthodes Statistiques
4 Comportement asymptotique 7
1 Modèles statistiques
On considère dans cette séance un échantillon de taille n extrait d’une popula-
tion de taille N et on s’intéresse à un caractère X associé aux éléments de la
population (les “individus statistiques”).
L’échantillon d’individus résulte d’un tirage avec remise dans la population.
À cet échantillon correspond un échantillon de valeurs prises par la caractère
X.
Le caractère X est considéré comme une variable aléatoire et l’échantillon de
valeurs est consitué de n réalisations de cette variable. C’est sur cet échantillon
que se font les calculs.
On représente cette situation au moyen d’un modèle statistique qui comporte
en particulier une famille de lois de probabilité parmi lesquelles se trouve la loi
suivie par la variable X.
Ces lois de probabilité dépendent en général d’un ou plusieurs paramètres
notés θ. Dans ce cas, on dit qu’on a un modèle statistique paramétrique.
Par exemple :
• pour une loi normale, les paramètres sont la moyenne m et l’écart-type σ
;
• pour une loi de Bernoulli ou une loi binomiale, c’est la probablilité p.
1
Un des problèmes les plus courants en statistique consiste à trouver la valeur
du ou des paramètres pour la population. Mais comme on ne peut pas en
général avoir l’information nécessaire, on doit ce contenter des valeurs fournies
par l’échantillon.
À partir de l’échantillon de valeurs, on essaie de résoudre divers types de
problèmes :
1. les problèmes de test : choix entre deux éventualités dont une seule est
vraie.
2. les problèmes d’estimation ponctuelle : choisir une valeur du paramètre θ.
À partir des données de l’échantillon, il faut définir une fonction (appelée
aussi une statistique) dont la valeur estime θ.
3. les problèmes d’estimation ensembliste : déterminer un sous-ensemble de
l’ensemble des paramètres représentant un ensemble d’éventualités. Cela
conduit à la détermination d’intervalles de confiance.
L’expérience aléatoire consiste en n expériences élémentaires identiques et
indépendantes.
On considère que chaque Xi est une variable aléatoire et on suppose qu’elles
sont indépendantes entre elles. D’autre part, elles sont identiquement distribuées
(puisque distribuées comme X elle-même).
En abrégé, on dit que les Xi sont i.i.d. qui est l’abréviation de indépendantes
et identiquement distribuées.
On a donc :
E(Xi ) = m et Var(Xi ) = σ 2 ∀i = 1, . . . , n
2
• Exemple
Comment estimer la taille moyenne d’un étudiant de l’université Paris-Ouest
?
On peut procéder en prenant 10 étudiants au hasard et en mesurant la taille
moyenne parmi ces dix étudiants. Notre estimateur serait ici la moyenne de
l’échantillon.
Deux questions viennent à l’esprit :
1. la taille de l’échantillon est-elle importante ?
Intuitivement, on sent bien que plus l’échantillon sera grand et meilleure
sera l’estimation.
2. le nombre d’échantillons tirés est-il important ?
Intuitivement encore, on se dit que si on arrive à accumuler beaucoup
de valeurs de la statistique qui sert d’estimateur (en tirant beaucoup
d’échantillons), à la fin, en moyenne, on aura une “bonne” estimation de
la vraie valeur du paramètre qui nous intéresse.
On verra plus loin, à travers les propriétés asymptotiques, dans quelle mesure
la théorie vient confirmer ces intuitions.
Notion de biais
On peut construire beaucoup d’estimateurs différents pour estimer un paramètre
donné. Certains seront considérés comme meilleurs que d’autres selon différents
critères.
Une bonne manière de quantifier cette propriété est de calculer l’espérance
de l’estimateur (c’est-à-dire sa valeur moyenne compte-tenu de sa distribution
probabiliste) et de voir si elle fournit la vraie valeur.
Si on appelle T l’estimateur et θ le paramètre, on se demande si :
?
E(T ) = θ
Un estimateur est donc sans biais lorsque son espérance est égale à ce qu’il
estime.
3
2.2 La moyenne empirique
Définition 2.2. La moyenne empirique de l’échantillon est
n
1X
X̄n = Xi
n i=1
n
!
1X
E X̄n = E Xi
n i=1
n
1X
= E Xi
n i=1
n
1X
= m
n i=1
1
= × nm
n
=m
4
Si on prend la racine carrée, on voit que l’écart-type de la moyenne empirique
σ
est égal à √ : pour diviser l’écart-type par 2, il faut multiplier la taille de
n
l’échantillon par 4.
C’est la somme des carrés des écarts à la moyenne empirique (qu’on note ici
simplement X̄ au lieu de X̄n ).
La variance est une quantité au carré. Cela signifie que si les valeurs Xi
sont, par exemple, mesurées en mètres, alors la variance est en mètres carrés.
La racine Sn s’appelle l’écart-type empirique. Il est mesuré dans la même
unité que les Xi .
Lorsque la variance σ 2 de la population est inconnue, on peut utiliser Sn2
comme estimateur mais on va voir que c’est un estimateur biaisé.
Il existe une autre formule (dite formule développée) pour calculer la variance
d’un échantillon :
n
1X 2
Sn2 = X − X̄ 2
n i=1 i
5
On interprète cette formule en disant que
la variance est égale à la moyenne des carrés moins le carré de la moyenne.
L’espérance de la variance empirique n’est pas égale à la variance véritable
dans la population.
n−1 2
E Sn2 = σ
n
n−1
C’est une valeur un peu plus petite à cause du terme . C’est donc un
n
estimateur biaisé.
Pour cette raison, on définit la variance empirique modifiée comme ceci :
n
n 1 X
s2n = Sn2 = (Xi − X̄)2
n−1 n − 1 i=1
• Loi de s2n
La loi de la variance empirique est aussi connue dans le cas d’un échantillon
issu d’une variable normale. On a le résultat suivant :
6
Théorème 3.1 (de Fisher). Si (X1 , . . . , Xn ) est un √ échantillon de variables
n(X̄n − m) s2
gaussiennes i.i.d. de loi N (m, σ), alors les variables et (n − 1) n2
σ σ
suivent indépendamment une loi N (0, 1) et une loi du χ2 à n − 1 degrés de
liberté.
4 Comportement asymptotique
L’étude du comportement asymptotique est celui des propriétés probabilistes des
estimateurs lorsque la taille des échantillons n augmente et tend vers l’infini.
On cherche à savoir s’il existe une limite et comment sont distribuées les
valeurs empiriques calculées.
Il y a deux résultats importants qui précisent le comportement asymptotique
de la moyenne empirique lorsque n → +∞ :
• la loi des grands nombres justifie l’intuition selon laquelle plus l’échantillon
est grand, plus la moyenne empirique se rapproche de l’espérance ;
• le théorème central limite indique comment sont réparties les valeurs
obtenues à partir de différents échantillons.
Théorème 4.1. Si {Xi }i≥1 est une suite de variables aléatoires réelles in-
dépendantes et identiquement distribuées, alors la moyenne empirique X̄n tend
presque sûrement vers la moyenne m lorsque n → +∞.
Ce théorème stipule donc que plus l’échantillon est grand et plus (il est prob-
able que) la moyenne empirique se rapproche de la moyenne de la population.
• Remarques :
• Exemple
On cherche à connaître la répartition de la taille moyenne en centimètres des
étudiants de l’université Paris-Ouest. On a donc sélectionné 200 groupes de 10
étudiants et pour chacun d’eux on a calculé la moyenne des tailles.
Voici l’histogramme des 200 moyennes obtenues (centrées et réduites comme
dans le théorème) :
7
n=10
0.4
0.3
0.2
0.1
0.0
−3 −2 −1 0 1 2 3
n=10
0.4
0.3
0.2
0.1
0.0
−3 −2 −1 0 1 2 3
8
densité réelle de la loi N (0, 1).
n=100
0.4
0.3
0.2
0.1
0.0
−2 0 2 4
n=200
0.4
0.3
0.2
0.1
0.0
−3 −2 −1 0 1 2 3
9
n=500
0.4
0.3
0.2
0.1
0.0
−3 −2 −1 0 1 2 3
Théorème 4.2. Si {Xi }i≥1 est une suite de variables aléatoires réelles indépen-
2
dantes et identiquement distribuées avec E(X √ i ) = m et Var(Xi ) = σ pour tout
n X̄n − m
i, alors la loi de probabilité de la quantité se rapproche de la loi
σ
normale N (0, 1) lorsque n → +∞.
√
n X̄n − m
Ce théorème renseigne donc sur la distribution de . Une autre
σ
manière d’utiliser cet énoncé consiste à dire que “si n est assez grand” alors la
σ
moyenne empirique suit “approximativement” une loi normale N (m, √ ).
n
• Remarques :
σ
• On a vu précédemment que E Xn = m et σ Xn = √ . L’expression
√ n
n X̄n − m Xn − E Xn
représente donc , autrement dit c’est la vari-
σ σ Xn
able aléatoire X̄n qui est centrée et réduite.
10
• Le théorème central limite renseigne aussi sur√la vitesse de convergence :
on dit qu’on a une vitesse de convergence en n.
L
La notation “ −→” signifie “convergence en loi”.
Le point le plus remarquable dans ce théorème est qu’il est valable quelle
que soit la loi de probabilité suivie par les variables Xi , la seule condition étant
qu’elles aient la même loi avec une espérance et une variance finies.
Conclusion
Les deux théorèmes précédents (LGN et TCL) décrivent le comportement
asymtotique de la moyenne empirique X̄n en montrant que celle-ci tend presque
sûrement vers m et en précisant la manière dont elle est dispersée autour de m.
11