CM de Statistique 2015
CM de Statistique 2015
CM de Statistique 2015
L2 UFRMI
yafevrard@yahoo.fr
2
Table des matières
1 Introduction 5
1.1 Echantillonnage . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.1.1 Échantillon . . . . . . . . . . . . . . . . . . . . . . . . 5
1.1.2 Modèles statistiques . . . . . . . . . . . . . . . . . . . 6
1.2 Vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3 Moments empiriques . . . . . . . . . . . . . . . . . . . . . . . 8
2 Estimation ponctuelle 11
2.1 Estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2 Propriétés des estimateurs . . . . . . . . . . . . . . . . . . . . 11
2.2.1 Biais et risque quadratique . . . . . . . . . . . . . . . . 11
2.2.2 Propriétés asymptotiques . . . . . . . . . . . . . . . . . 12
2.3 Information de Fisher et borne de Cramer-Rao . . . . . . . . . 13
2.4 Methode du maximum de vraisemblance . . . . . . . . . . . . 14
2.5 Méthode des moments . . . . . . . . . . . . . . . . . . . . . . 17
2.6 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3 Estimation par intervalle de conance 19
3.1 Dénitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.2 Intervalles de conance d'une moyenne . . . . . . . . . . . . . 20
3.2.1 Intervalle de conance bilatéral de la moyenne lorsque
X est gaussienne . . . . . . . . . . . . . . . . . . . . . 20
3.2.1.1 Cas où σ 2 n'est pas connue . . . . . . . . . . 20
3.2.2 Intervalle de conance de la moyenne lorsque X n'est
pas gaussienne . . . . . . . . . . . . . . . . . . . . . . 21
3.3 Intervalle de conance d'une proportion . . . . . . . . . . . . . 21
3.4 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
4 Tests d'hypothèses 23
4.1 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
4.2 Principe des tests . . . . . . . . . . . . . . . . . . . . . . . . . 23
4.3 Mécanisme des tests . . . . . . . . . . . . . . . . . . . . . . . 24
4.4 La p-value . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3
4 TABLE DES MATIÈRES
1.1 Echantillonnage
1.1.1 Échantillon
Soit X une variable aléatoire réelle (discrète ou continue) dont la loi de
probabilité dépend d'un paramètre inconnu θ inconnu. L'objectif de la statis-
tique inférentielle est d'obtenir des informations sur le paramètre inconnu θ à
partir d'un échantillon de X .
Dénition 1. Un échantillon de X de taille n est un n-uplet (X1 , . . . , Xn )
de variables aléatoires indépendantes distribuées de même loi que X . Une
réalisation de cet échantillon est un n-uplet de réels (x1 , . . . , xn ) où Xi (ω) = xi .
La statistique inférentielle a pour objectif d'avoir des informations sur le para-
mètre inconnu θ en se basant sur (X1 , . . . , Xn ). On part de l'échantillon pour
avoir une meilleure connaissance du général.
On considère deux situations diérentes conduisant à un échantillon :
- la répétition d'une expérience aléatoire
Exemple 1. On lance n fois une pièce. On note
si le lancer i est pile
(
1
Xi =
0 si lancer i est face.
5
6 CHAPITRE 1. INTRODUCTION
Exemple 3.
n o
1. Modèle de Bernouilli : B(1, θ), θ ∈ Θ =]0, 1[⊂ R ; elle
modélise le comportement d'une quantité qui ne peut prendre que deux
valeurs. On a
f (x, θ) = θ(1 − θ)1I{0,1} (x).
n o
2. Modèle gaussien : N (µ, σ 2 ), θ = (µ, σ 2 ) ∈ Θ = R × R∗+ ⊂ R2 ; elle
est la loi d'observations quantitatives qui résultent de la combinaison
de nombreux eets. On
1 1
f (x, µ, σ 2 ) = √exp − 2 (x − µ)2 .
2πσ 2σ
n o
3. Modèle exponentiel : E(θ), θ ∈ Θ = R+ ⊂ R ; la loi exponentielle est
∗
beaucoup utilisée dans les études médicales ou dans les études de abi-
lité, pour modéliser les durées de survie (à une aection grave, comme
un cancer) ou celles avant la prochaine panne (prochain pneu crevé sur
une voiture, prochaine défaillance d'une machine sur une chaîne indus-
trielle). On a
f (x, θ) = θe−θx 1IR+ (x).
1.2. VRAISEMBLANCE 7
n o
4. Modèle de Poisson : P(θ), θ ∈ Θ = R∗+ ⊂ R , la loi de Poisson permet
de modéliser les événements rares. On a
θx
f (x, θ) = e−θ 1IN (x).
x!
Dénition 3. Le support de Pθ est l'ensemble
{x : f (x, θ) > 0} .
1.2 Vraisemblance
On considère un échantillon (X1 , . . . , Xn ) issu de la loi de probabilité Pθ
avec θ ∈ Θ.
riables Xi impliquent
h1 Xn i
E[X n ] = E Xi
n i=1
n
1X
= E[Xi ]
n i=1
= µ.
P
X n −→ µ.
avons √
n(X n − µ) L
−→ N (0, 1).
σ
En pratique, à partir de n > 30, on peut approximer la loi de la moyenne
σ2
empirique par la loi normale N (m, ). Ce résultat donne une explication du
n
rôle important que joue la loi normale en Statistique.
D'une façon beaucoup plus générale, le résultat suivant nous donne le com-
portement asymptotique de g(Yn ) lorsque Yn est asymptotiquement normal :
C'est la delta-méthode.
Théorème 3. Si la suite de variables aléatoires (Yn ) est asymptotiquement
√
n(Yn − y) −→ N (0, σy2 )
√ 0
n(g(Yn ) − g(y)) −→ N (0, σy2 (g (y))2 ).
σ2
2. X n ,→ N µ, .
n
(n − 1)Sn2
3. ,→ χ2 (n − 1)
σ2
√
n Xn − µ
4. ,→ T (n − 1).
Sn
Chapitre 2
Estimation ponctuelle
On considère un échantillon (X1 , . . . , Xn ) issu d'une loi de probabilité Pθ
où θ ∈ Θ ⊆ R est un paramètre inconnu. Le but de ce chapitre est d'esti-
mer g(θ) où g est une fonction dénie sur R à valeurs dans R en se basant
sur cet échantillon (X1 , . . . , Xn ). L'estimation consiste à donner des valeurs
approximatives à g(θ) à l'aide de l'échantillon.
2.1 Estimateurs
Dénition 12. Un estimateur de g(θ) est toute variable aléatoire Tn = T (X1 , . . . , Xn )
construite uniquement à partir de l'échantillon (X1 , . . . , Xn ). En particulier, il
ne doit pas dépendre de quantités inconnues.
Une estimation de g(θ) est la valeur de Tn que l'on peut calculer en remplaçant
(X1 , . . . , Xn ) par sa réalisation (x1 , . . . , xn ).
11
12 CHAPITRE 2. ESTIMATION PONCTUELLE
Dénition 17. Soient Tn∗ et Tn∗∗ deux estimateurs de g(θ). Tn∗ est préférable
à Tn∗∗ si
R(Tn∗ , θ) ≤ R(Tn∗∗ , θ) ∀θ ∈ Θ.
2
∂g(θ)
∂θ
varθ (Tn ) ≥ .
In (θ)
2
∂g(θ)
∂θ
La borne BRC(θ) = est appelée borne de Cramer-Rao. Si g(θ) = θ,
In (θ)
la borne de Cramer-Rao devient
1
BRC(θ) = .
In (θ)
Dénition 22. Un estimateur Tn est dit ecace si
- Tn est sans biais
2
∂g(θ)
∂θ
- varθ (Tn ) = .
In (θ)
Remarque 3. - Un estimateur ecace est de variance minimale.
- Un estimateur peut être sans biais, de variance minimale, mais ne pas
atteindre la borne de Cramer-Rao, donc ne pas être ecace.
Exemple 7. Soit l'échantillon (X1 , . . . , Xn ) issu d'une loi de Bernouilli B(1, θ)
avec θ ∈]0, 1[. Montrons que X n est un estimateur ecace de θ. En eet,
- X n est un estimateur sans biais
θ(1 − θ) 1
- varθ (X n ) = = .
n In (θ)
n
∂ ln L(x1 , . . . , xn , θ) n X 1
= − xi = 0 ⇐⇒ θ =
∂θ θ i=1
xn
∂ 2 ln L(x1 , . . . , xn , θ) 1
= −nx2n < 0.
∂θ2 xn
L'estimateur du maximum de vraisemblance de θ est donné par
1
θ̂n = .
Xn
lorsque n → +∞.
4. L'estimateur du maximum de vraisemblance θ̂n est asymptotiquement
normal.
q(θ) = Eθ (h(X)).
La méthode des moments consiste à remplacer les moments par leurs estima-
teurs empiriques.
18 CHAPITRE 2. ESTIMATION PONCTUELLE
Dénition 23. L'estimateur par la méthode des moments θn∗ (s'il existe) est
solution de l'équation :
n
1X
q(θ) = h(Xi ).
n i=1
Si q est bijective alors, l'estimateur par la méthode des moments est donné
par :
n
1 X
θn∗ =q −1
h(Xi ) .
n i=1
2.6 Exercices
Exercice 1. Soit une variable aléatoire X distribuée selon la loi gamma Γ(n, λ)
où n est un entier naturel supérieur ou égal à 3 et λ est un paramètre stric-
tement positif. On suppose que le paramètre n est connu et le paramètre λ
inconnu.
1. Déterminer l'estimateur du maximum de vraisemblance λ̂ de λ.
2. Montrer que
n
E(λ̂) = λ.
n−1
Conclure.
3. Calculer la borne de Cramer-Rao pour l'estimation sans biais de λ.
4. L'estimateur λ̂ est-il ecace ?
Exercice 2. Soit une variable aléatoire X distribuée selon la loi binomiale
B(n, p) avec n ∈ N∗ et p ∈]0, 1[. On suppose que le paramètre n est connu et
le paramètre p inconnu.
1. Déterminer l'estimateur du maximum de vraisemblance p̂ de p.
2. Calculer la borne de Cramer-Rao pour l'estimation sans biais de p.
3. Montrer que l'estimateur du maximum de vraisemblance calculé est
ecace.
Chapitre 3
Estimation par intervalle de
conance
En estimation ponctuelle, on ne propose qu'une seule valeur pour le pa-
ramètre d'intérêt. Il n'y a quasiment aucune chance que cette valeur soit la
vraie valeur. L'objectif de ce chapitre est de proposer une fourchette de valeurs
possibles, tout un intervalle, ni trop gros, pour qu'il soit assez informatif, ni
trop petit, pour qu'on soit raisonnablement sûr qu'il contienne la vraie valeur.
3.1 Dénitions
Dénition 24. Soit α ∈]0, 1[ ; on appelle intervalle de conance pour le
paramètre θ de niveau de conance égale à 1 − α, un intervalle aléatoire
I(X1 , . . . , Xn ) ⊂ Θ tel que
Pθ (I(X1 , . . . , Xn ) 3 θ) = 1 − α.
Dénition 25. On dira que un intervalle aléatoire I(X1 , . . . , Xn ) est un in-
tervalle de conance pour le paramètre θ de niveau de conance asymptotique
égale à 1 − α si
lim Pθ (I(X1 , . . . , Xn ) 3 θ) = 1 − α.
n→+∞
Lorsque
I(X1 , . . . , Xn ) = [Tn∗ (X1 , . . . , Xn ), Tn∗∗ (X1 , . . . , Xn )]
où Tn∗ (X1 , . . . , Xn ) et Tn∗∗ (X1 , . . . , Xn ) sont des statistiques à valeurs dans Θ,
on parle d'intervalle de conance bilatéral. Dans le cas où
I(X1 , . . . , Xn ) = [Tn∗ (X1 , . . . , Xn ), +∞[
ou
I(X1 , . . . , Xn ) =] − ∞, Tn∗ (X1 , . . . , Xn )],
19
20 CHAPITRE 3. ESTIMATION PAR INTERVALLE DE CONFIANCE
on parle d'intervalle de conance unilatéral.
Remarque 6. À α xé, l'intervalle de conance est d'autant meilleur que sa
3.4 Exercices
Exercice 1. On a pesé 10 palettes de briques de la même fabrication et on
a obtenu les résultats suivants (kilogrammes) : 759, 750, 755, 756, 761, 765,
770, 752, 760, 767. On admet que ces résultats sont issus d'une population
distribuée selon une loi normale d'espérance µ et de variance σ 2 inconnues.
1. Construire un intervalle de conance pour µ de niveau de conance
0.90.
2. Quel niveau de conance choisir pour avoir un intervalle de conance
deux fois plus étroit que celui obtenu avec une conance de 0.90 ?
Exercice 2. La force de compression d'un type de béton est modélisée par
une variable gaussienne d'espérance µ et de variance σ 2 . L'unité de mesure est
le psi (pound per square inch). On supposera la variance σ 2 connue et égale à
1000. Sur un échantillon de 12 mesures, on a observé une moyenne empirique
de 3250 psi.
1. Donner un intervalle de conance de niveau 0.95 pour µ. Donner un
intervalle de conance de niveau 0.99 pour µ. Comparer les longueurs
des intervalles puis interpréter.
22 CHAPITRE 3. ESTIMATION PAR INTERVALLE DE CONFIANCE
4.1 Exemples
- Contrôle de qualité : au vu du nombre d'objets défectueux produits par
une machine, on doit décider si ce nombre est conforme à une certaine
norme, décider si la machine est à remplacer ou pas.
- Essais thérapeutiques : décider si un nouveau traitement médical est
meilleur qu'un ancien au vu du résultat de son expérimentation sur des
malades.
23
24 CHAPITRE 4. TESTS D'HYPOTHÈSES
4.4 La p-value
En pratique, plutôt que de calculer la région critique en fonction de α, on
prefère donner un seuil critique de α∗ appelée p-value, qui est telle que
4.5. LEMME DE NEYMAN-PEARSON 25
- si α∗ < α, on rejette H0 ;
- si α < α∗ , on accepte H0 .
Les logiciels statistiques calculent et présentent les p-valeurs qui sont diciles
à obtenir sans moyen de calcul approprié. Si la p-value est faible, on rejette
H0 , sinon on accepte H0 .
H0 : θ = θ0
H1 : θ = θ1
Théorème 6. de Neyman-Pearson
Pour tout α ∈]0, 1[, il existe une constante K>0 telle que la région critique
L(X1 , . . . , Xn , θ1 )
W = ≥K
L(X1 , . . . , Xn , θ0 )
Pθ0 (W ) = α.
• Test de H0 : θ ≥ θ0 contre H1 : θ ≤ θ0 .
On rejette H0 si θ̂n est "trop petit" i.e. la région critique est
n o
W = θ̂n < lα .
• Test de H0 : θ = θ0 contre H1 : θ 6= θ0 .
On rejette H0 si θ̂n − θ0 est "trop grand" i.e. la région critique est
n o
W = θ̂n − θ0 > lα .
4.7 Exercices
Exercice 1. On veut comparer la proportion p des naissances masculines à
celle des naissances féminines grâce un échantillon de 900 naissances. On a
observé 477 garçons. Tester l'hypothèse H0 : p = 0.5 contre H1 : p > 0.5 au
seuil α = 0.05.
Exercice 2. On désire tester si la durée de vie moyenne d'un tube électro-
nique est égale à 1600 heures ou si elle est plutôt inférieure à cette valeur. Les
observations sur un échantillon de taille 16 suivent une loi normale N (µ, 900).
La moyenne estimée est X̄16 = 1590.
1. Donner les hypothèses nulle H0 et alternative et H1 .
2. Quelle est la région critique du test ?
3. Peut-on rejeter H0 au seuil de α = 1% ?
4. Calculer l'erreur de deuxième espèce et la puissance du test pour µ =
1570.
Exercice 3. Un fabricant de pneus prétend que la durée de vie moyenne d'un
nouveau type de pneus est supérieure à 25000 miles sous certaines conditions.
Un échantillon aléatoire de 15 pneus est étudié. La moyenne et l'écart-type ob-
tenus sont respectivement de 27000 et 5000 miles. En supposant que la durée de
vie d'un pneu est distribuée normalement, peut-on conclure que l'armation
du fabricant est valide ?
Exercice 4. La machine 1 a produit 96 pièces dont 12 défectueuses. La ma-
chine 2 a produit 55 pièces dont 10 défectueuses. Peut-on en conclure que la
machine 1 est signicativement plus performante que la machine 2 ?