MA101Stat Diapos

MA101
Statistique
Maxime Ossonce
ENSTA – 1A
2018/2019
maxime.ossonce@esme.fr (ENSTA) MA101 / Stat – 1A 2018/2019 1 / 80
Introduction
Outline
1. Introduction
1.1 Population
1.2 Estimateurs
1.3 Convergences de variables aléatoires
2. Estimation
3. Vecteurs gaussiens
4. Intervalles de confiance
5. Tests d’hypothèse
6. Suppléments

Introduction
Bibliographie
. J. Pagès. Statistique générales pour utilisateurs. Presses

Universitaires de Rennes, 2005.
. A. Monfort. Cours de statistique mathématique. Economica, 1997.
. S. Morgenthaler. Introduction à la statistique. PPUR, 2013.
Introduction
Inférence statistique
Le terme statistique a plusieurs acceptions :

. observation et description d’un échantillon (statistique descriptive) ;
. recueil et interprétation des données ;
. discipline mathématique (inférence statistique) ;
. objet mathématique servant à l’estimation.

Introduction
Inférence statistique
Les caractéristiques (variables) de la populations sont régies par un

modèle (cf. cours de probabilités) partiellement connu.
. Parmi les lois de probabilités possibles appartenant à P, laquelle
régit la population ?
. Exemple : sondage pour prédire le résultat d’une élection.
. Estimation paramétrique, pour Θ ⊂ Rp : P = (Pθ )θ∈Θ .
. Exemple : Θ = R × R+ et P est l’ensemble de lois à densité
gaussienne sur R.
Introduction 1.1 Population
Population
Une population est un ensemble d’individus sur lequel on observe les

variables.
. Si la population est finie de taille N , on effectue soit un
recensement, soit un sondage, avec ou sans remise.
. L’échantillonnage est le procédé d’extraction d’un sous-ensemble
de la population.
. Quand N 1, l’échantillonnage avec ou sans remise sont
équivalents.

Introduction 1.1 Population
Echantillon
Un n-échantillon est un vecteur X = (X1 , . . . , Xn ) de n variables

aléatoires (v.a.) indépendantes et identiquement distribuées (i.i.d.)
. La loi P de X1 est appelée loi parente de l’échantillon.
. (X1 , . . . , Xn ) ∼ P⊗n .
. Une série statistique est une réalisation de X :
(x1 , . . . , xn ) = (X1 (ω), . . . , Xn (ω)).

n
. Le modèle statistique paramétrique, noté R, R, (Pθ )θ∈Θ est

n n ⊗n
R , R , Pθ θ∈Θ .
Introduction 1.2 Estimateurs
Statistique
Etant donné un n-échantillon, une statistique Tn est une fonction

mesurable de (Rn , Rn ) dans (Rk , Rk ).
. Tn est une v.a. sur (Rn , Rn ).
. Tn (X1 , . . . , Xn ) est une v.a. sur (Ω, F).
. Exemple, la moyenne empirique de l’échantillon :
Tn : (Rn , Rn ) → (R, R)
n
1X
(x1 , . . . , xn ) → xn = xk .
n
k=1
. X n est une v.a.

Introduction 1.2 Estimateurs
Estimation
Un estimateur sera une statistique dont l’objet sera de se faire une idée
de la loi parente P élément de P.
. Si le modèle est paramétrique, l’estimation sera dite paramétrique.
. Si une valeur estimée de θ est souhaitée, on parlera d’estimation
ponctuelle (par exemple, par maximum de vraisemblance).
. Si un ensemble de valeurs est souhaitée, on aura affaire à une
estimation par intervalle de confiance.
. Les tests d’hypothèse permettent de répondre à la question : la vraie
valeur de θ est-elle dans l’ensemble Θ0 ⊂ Θ ou dans Θ\Θ0 ?
Introduction 1.3 Convergences de variables aléatoires
Convergenge presque sûre
On dit que la suite de variable aléatoire réelle (v.a.r.) (Xn ) converge

p.s.
presque sûrement vers une v.a.r. X, et on note Xn −−→ X, si il existe
N ∈ F négligeable tel que
Xn (ω) → X(ω) ; ∀ω ∈ N c .

Convergence en probabilité
On dit que la suite de v.a.r. (Xn ) converge en probabilité vers une v.a.r.
P
X, et on note Xn −
→ X, si on a
lim P(|Xn − X| > ) = 0 ; ∀ > 0.

n
. La convergence en probabilité est plus faible que la convergence

presque sûrement (p.s.) :
p.s. P
Xn −−→ X ⇒ Xn −
→ X.
. La réciproque est fausse.
Convergence dans L1
On dit que la suite de v.a.r. intégrables (Xn ) converge dans L1 vers

L1
une v.a.r. X intégrable, et on note Xn −→ X, si
E[|Xn − X|] → 0.
. La convergence en probabilité est plus faible que la convergence

dans L1 :
L1 P
Xn −→ X ⇒ Xn − → X.
p.s.
. Si on a Xn −−→ X et |Xn | ≤ g pour tout n avec g intégrable alors
L1
Xn est intégrable pour tout n et Xn −→ X.

Convergence en loi
On dit que la suite de v.a.r. (Xn ) converge en loi vers une v.a.r. X, et on
L
note Xn −→ X, si pour toute fonction continue bornée ϕ à valeurs
dans R on a :
lim E[ϕ(Xn )] = E[ϕ(X)].
. Pour une suite de v.a.r., la convergence en loi est équivalente à la
convergence ponctuelle des fonctions de répartition FXn vers FX
aux points de continuité de FX .
. La v.a. X peut ne pas être définie sur le même espace probabilisé
que (Xn ).
. La convergence en loi est plus faible que la convergence en
probabilité :
P L
Xn −→ X ⇒ Xn −→ X.
Loi faible des grands nombres
La loi des grands nombres (LGN) sera utilisée pour construire des
estimateurs.
Théorème 1.1
Si (Xn ) est une suite de v.a.r. i.i.d. d’espérance µ, alors la variable
aléatoire X n = X1 +···+X
n
n
converge en probabilité vers µ :

P X n − µ > −−−→ 0 ; ∀ > 0.
n→∞

TCL
Le théorème de la limite centrale (TCL) permet contrôler la rapidité de

convergence dans la loi faible des grands nombres.
Théorème 1.2 (TCL)
Si (Xn ) est une suite de v.a.r. i.i.d. d’espérance µ et de variance σ 2 alors
la variable aléatoire √
n
Zn = · (X n − µ)
σ
converge en loi vers Z ∼ N (0, 1).
. On a donc limn→∞ P(Zn ≤ z) = Φ(z).
Lemme de Slutsky
Xn et Yn sont des suites de v.a. à valeurs respectivement dans Rn et Rp .

Théorème 1.3 (Lemme de Slutsky)
L L
Si Xn −→ X et Yn −→ c alors
L
(Xn , Yn ) −→ (X, c).
. Remarque : il y a équivalence entre convergence en loi et en

probabilité quand la limite est une constante.

Estimation
Outline
1. Introduction
2. Estimation
2.1 Définition
2.2 Biais, risque et convergence
2.3 Comportement asymptotique
2.4 Construction d’un estimateur
6. Suppléments
Estimation 2.1 Définition
Estimateur
On se donne g fonction définie sur Θ à valeurs dans Rk .

. Un estimateur Tn du paramètre g(θ) est une statistique à valeurs
dans Rk .
. Exemple, θbn = X n est un estimateur non-biaisé de µ = E[X1 ].

Estimation 2.1 Définition
Premier exemple
On cherche à connaître µ l’espérance de la loi parente P. On a à

disposition un n-échantillon (X1 , . . . , Xn ).
P
. On peut prendre θbn = X n = 1 n Xk . n k=1
. On note que E[θbn ] = µ.
. On dira que l’estimateur est sans biais.
Estimation 2.2 Biais, risque et convergence
Biais
Soit νbn un estimateur de ν(θ), on notera bθ (b

νn ) le biais de l’estimateur :
νn ) := E[b
bθ (b νn ] − ν(θ).
νn ) est une fonction de θ.

. bθ (b
. Si bθ (b
νn ) = 0 alors l’estimateur est dit non biaisé.
. Si limn→+∞ bθ (b
νn ) = 0 alors l’estimateur est asymptotiquement
sans biais.

Risque quadratique
Le risque quadratique de l’estimateur νbn de ν(θ) est :

2

Rθ (b :
νn ) = E (b
νn − ν(θ)) .
. Le risque quadratique est associé à la fonction de perte quadratique.

. Décomposition biais-variance (exercice 1 du sujet 1) :
νn ) = b2θ (b
Rθ (b νn ) + Var(b
νn ).
Relation d’ordre
L’estimateur θbn sera dit meilleur que θen , et on notera θbn θe ssi :
Rθ (θbn ) ≤ Rθ (θen ) ; ∀θ ∈ Θ
. n’est pas une relation d’ordre total sur l’ensemble des estimateurs
de g(θ) (voir exercice 8 du sujet 1).
. Un estimateur θbn sera admissible si aucun autre estimateur n’est
strictement meilleur que lui i.e. il n’existe pas d’estimateur θen tel
que θen θbn et ∃θ R (θen ) < R (θbn ).
θ θ

Estimation 2.3 Comportement asymptotique
Convergence
On dit que Tn est consistant pour g(θ) si il converge en probabilité vers

g(θ) :
P
Tn −
→ g(θ).
. Si Tn est un estimateur (asymptotiquement) sans biais de g(θ) et si
Var(Tn ) → 0 quand n → ∞ alors Tn est un estimateur consistant
pour g(θ).
. Si la convergence de Tn vers g(θ) est p.s. alors l’estimateur sera
fortement consistant.
Application du TCL
La loi de la moyenne empirique d’un n-échantillon de loi parente de

variance finie peut être approximée par une loi normale :

σ2
X n ∼ N µ, .
appr n
Par exemple si X ∼ B(θ), σ 2 = θ (1 − θ)

θ (1 − θ)
X n ∼ N θ,
appr n
√ Xn − θ
np ∼ N (0, 1).
θ (1 − θ) appr

Vitesse de convergence
Un estimateur νbn de ν(θ) a un comportement asymptotiquement

normal à la vitesse vn si vn ↑ +∞ et
L
vn · (b
νn − ν) −→ N (0, Σ).
√
. L’estimateur de la moyenne empirique converge à la vitesse n
(TCL).
. On peut avoir des convergences vers d’autres lois à d’autres vitesses
(exercice 5 du sujet 2).
Estimation 2.4 Construction d’un estimateur
Construire un estimateur
Trois méthodes :
. Méthode empirique.
. Méthode des moments
n
1X p
bn (p) :=
µ Xk .
n
k=1
. Maximum de vraisemblance : le n-échantillon a une densité
fθ (x1 , . . . , xn ).

Moments
Le moment d’ordre p, E[X p ], est une fonction de θ.

. On suppose E[|X|p ] < ∞
. On suppose µθ (p) := E[X p ] = f (θ) avec f une fonction inversible
continue.
On pose θbn := f −1 (b
µn (p)).
P
. θbn −
→ θ.
. θbn est un estimateur convergent de θ.
Delta méthode
La delta méthode permet d’établir la vitesse de convergence de

l’estimateur θbn = f −1 (b
µn (p)).
. On suppose que E[|X|2p ] < +∞ et f ∈ C 1 (Θ, R)
p)

√ L Var(X
n (θbn − θ) −→ N 0, 0
|f (θ)|2
. On note σ
bn2 (p) l’estimateur empirique de Var(X p ).
√
n (θbn − θ) L 1
−→ N 0, .
bn (p)
σ |f 0 (θ)|2

En dimension supérieure
On suppose un estimateur θbn de θ asymptotiquement normal à la vitesse

vn :
L
vn · (θbn − θ) −→ N (0, Σ).
Alors, pour ν : Θ → Rd une fonction différentiable, νbn = ν(θbn ) est un
estimateur asymptotiquement normal de ν(θ) ;
L
νn − ν) −→ N (0, Dν ΣDν> ).
vn · (b
∂νi
. Dν est le jacobien de ν au point θ : Dνij = ∂θj (θ)
Généralisation de la méthode des moments
On suppose :
ν(θ) = φ(µθ (1), . . . , µθ (q)).
. L’estimateur des moments est
νbn = φ(b bn (q))

µn (1), . . . , µ
. Si E[|X|q ] < ∞, l’estimateur des moments est consistant.

P
bθ (p) = n1 nk=1 gp (Xk ).
. Extension : µθ (p) = E[gp (X)] et µ

Modèle dominé
On suppose que les lois (Pθ )θ∈Θ admettent une densité fθ par rapport à
une mesure commune, e.g. :
. la mesure de comptage µ,
. la mesure de Lebesgue λ.
La densité fθ est :
. la distribution de probabilité dans le cas d’une domination par µ,
fθ (x1 , . . . , xn ) = Pθ (X = x).
. la fonction de densité dans le cas où Pθ λ.
Définition 2.1 (Vraisemblance)

Dans un modèle paramétrique dominé, la vraisemblance est une
fonction de la variable θ définie pour toute réalisation du n-échantillon
x = (x1 , . . . , xn ) et qui à θ associe la valeur fθ (x1 , . . . , xn ) :
θ 7→ Ln (θ; x1 , . . . , xn ) = fθ (x1 , . . . , xn )
. La vrasemblance est une fonction du paramètre θ.

. La densité est, elle, une fonction de la variable x.
P
. Log-vraisemblance : `n (θ; x) = nk=1 log fθ (xi ).

Densité Vraisemblance
P ( nk=1 Xk = t)
L(θ; x)
P
0 5 10 15 20 0 θb 1
t θ
de loi parente B(θ∗ ) pour

Figure – Densité de probabilité d’un n-échantillon P
n
θ∗ = 0,18, n = 20 et vrasiemblance pour k=1 xk = 4.
Définition 2.2 (Estimateur du maximum de vraisemblance)

On considère un modèle paramétrique dominé. L’EMV est la v.a. θbn
maximisant la vraisemblance :
θbn ∈ arg max{Ln (θ; X)}.

θ∈Θ
. Exemple, Pθ = N (µ, σ 2 ), θ = (µ, σ 2 ) :

Pn (xk −µ)2
. `n (θ; x1, . . . xn ) = − n2 log(2πσ 2 ) − k=1 2σ 2
.
P
. θbn = X n , n1 nk=1 (Xk − X n )2 .

Vecteurs gaussiens
Outline
1. Introduction
2. Estimation
6. Suppléments
Vecteurs gaussiens
Moyenne empirique
La méthode des moments fait intervenir, X n , σ

bn2 .
. Loi de X n ?
. Loi de σ
bn2 ?
√ L
TCL : n X n −E[X]
σ
bn −
→ N (0, 1).
. Loi non asymptotique ?

Vecteurs gaussiens
Définition 3.1 (Vecteur gaussien)

Un vecteur aléatoire X à valeurs dans Rd est dit gaussien si toute
combinaison linéaire de ses coordonnées est une v.a.r. suivant une loi
normale.
. Les coordonnées d’un vecteur gaussien sont des v.a.r. gaussiennes.

. La réciproque est fausse.
Vecteurs gaussiens
Loi du vecteur gaussien
La loi d’un vecteur gaussien est déterminée par :

. son espérance µ = (µ1 , . . . , µd ) ;
. sa matrice de variance-covariance Σ.
On note X ∼ N (µ, Σ).
. Un n-échantillon gaussien centré réduit est un vecteur aléatoire
Z ∼ N (0, Id ).
. La matrice de variance-covariance d’un n-échantillon gaussien est de
la forme σ 2 Id .
Si Σ est inversible alors X est à densité et

1 1
f (x) = p exp − (x − µ)> Σ−1 (x − µ) .
(2π)n det Σ 2

Vecteurs gaussiens
Application linéaire
. Si X ∼ N (µ, Σ) alors Y := AX ∼ N (Aµ, AΣA> ).

. Si X ∼ N (0, σ 2 Id ,) et A est orthonormale alors
Y = AX ∼ N (0, σ 2 Id ).
. Si X est un n-échantillon gaussien (i.e. X1 ∼ N (0, σ 2 )) alors

σ2
X n ∼ N µ, .
n
Vecteurs gaussiens
Loi du khi-deux
Soit Z un n-échantillon gaussien centré réduit.
Définition 3.2
La loi du carré de la norme euclidienne du vecteur est appelée loi du
khi-deux (centré) à n degrés de liberté. On note
n
X
2
kZk = Zk2 ∼ χ2 (n).
k=1
Son espérance est n, sa variance 2n.
. Si Z ∼ N (µ, In ) alors kZk2 suit une loi du khi-deux décentré notée

χ2 (n, kµk2 ).
. Son espérance est n + kµk2 , sa variance 2(n + 2kµk2 ).

Vecteurs gaussiens
n-échantillon
Soit X un n-échantillon gaussien. X1 ∼ N (µ, σ 2 ). On a

n
X
Xk − µ 2
∼ χ2 (n).
σ
k=1
. Loi de l’estimateur empirique de la variance à espérance connue.
Vecteurs gaussiens
Variance empirique
Soit X un n-échantillon gaussien. X1 ∼ N (µ, σ 2 ). On a

n
X 2
Xk − X n
∼ χ2 (n − 1).
σ
k=1
. Loi de l’estimateur sans biais de la variance :

n
1 X σ2 2
bn2
σ = 2
(Xk − X n ) ∼ χ (n − 1).
n−1 n−1
k=1
. Les v.a.r. X n et σ
bn2 sont indépendantes.
. X n et X − X n sont des projections orthogonales sur deux
sous-espaces orthogonaux (Cochran).

Vecteurs gaussiens
Loi de Student
Z et K indépendantes avec Z ∼ N (0, 1) et K ∼ χ2 (p) alors

Z
T := √K/p suit une loi de Student à p degrés de liberté, notée T (p).
. Permet de calculer des intervalles de confiance sur X n :
√ Xn − µ
Tn := n .
bn
σ
. Tn ∼ T (n − 1) est appelée statistique de student de l’échantillon.
. Tn2 ∼ F(1, n).
K1 n2
. La loi de Fisher F(m, n) est la loi de K2 n1 quand Ki ∼ χ2 (ni ) et K1
et K2 indépendantes.
Intervalles de confiance
Outline
1. Introduction
2. Estimation
6. Suppléments

Comportements asymptotiques
Estimation ponctuelle de ν(θ)

. E[b
νn ] −−−−−→ ν;
n→+∞
P
→ν;
. νbn −
. Rθ (b
νn ) −−−−−→ 0;
n→+∞
L
. vn (b
νn − ν) −→ µν .
. vn est la vitesse de convergence ;
. si µ est indépendante de ν : loi pivotale.
Définition 4.1 (Intervalle de confiance)

Un intervalle de confiance (IC) de niveau de confiance 1 − α pour θ est
un intervalle dont les bornes sont des statistiques telles que :
h i
b− b+
P θn , θn 3 θ ≥ 1 − α.
h i
. P θn , θn 3 θ = P({θbn− ≤ θ} ∩ {θbn+ ≥ θ}).
b− b+
. α est un risque de première espèce.

Quantiles
Le quantile qα d’ordre α ∈ [0, 1] d’une loi réelle µ est le réel tel que, si
X ∼ µ,
P(X ≤ qα ) = α.
. qα est la fonction réciproque de la fonction de répartition F,
. obtenue par interpolation linéaire dans le cas discret.
. Lorsque la loi est symétrique :
P(|X| > q1−α/2 ) = α.
. On note qα∗ le quantile de N (0, 1).
Exemple gaussien I
X un n-échantillon gaussien, X1 ∼ N (µ, σ 2 ) à espérance et variance

inconnues.
√ X −µ
Tn = n ∼ T (n − 1).
bn
σ

Exemple gaussien II
On note tn le quantile de T (n − 1) d’ordre 1 − α2 .
1 − α = P(−tn ≤ Tn ≤ tn )

bn tn
σ bn tn
σ
= P − √ ≤ µ − Xn ≤ √
n n

bn tn
σ bn tn
σ
= P Xn − √ ≤ µ ≤ Xn + √ .
n n
. Pour α = 0,01, t20 = 2,83 , t40 = 2,70.

. Il s’agit de l’IC de Student.
Définition 4.2 (Intervalle de confiance asymptotique)

Un IC asymptotique de niveau de confiance 1 − α pour θ est une suite
d’intervalles dont les bornes sont des statistiques telles que :
h i
b− b+
P θn , θn 3 θ −−−−−→ 1 − α.
n→+∞
. Dans le cas non gaussien on construira l’IC asymptotique pour

l’espérance par le TCL.
. On considérera P(In 3 θ) ≈ 1 − α pour n ≥ 30.

Exemple
0 θ 1
Figure – Exemples d’IC obtenus pour α = 0,1 et un modèle statistique de

Bernoulli (θ = 0,4, n = 100).
Tests d’hypothèse
Outline
1. Introduction
2. Estimation
5.1 Tests paramétriques
5.2 Tests du χ-deux
6. Suppléments

Tests d’hypothèse 5.1 Tests paramétriques
Principe
Choix entre deux hypothèses sur le paramètre θ dans le cadre d’un

modèle statistique paramétrique :
. hypothèse nulle (H0 ) ;
. hypothèse alternative (H1 ).
. Exemple :
. (H0 ) : µ = µ0
. (H1 ) : µ 6= µ0 .
L’hypothèse (H0 ) est supposée vraie : α, le risque de première espèce
est la probabilité de rejeter à tort (H0 ).
Construction
Lors de la construction d’un test, on définit :

. le modèle ;
. les hypothèses ;
. une statistique T (X) ;
. α le risque de première espèce et la région critique :
P(H0 ) (Tn ∈ Rα ) = α.

Puissance
La puissance du test est sa capacité à détecter l’hypothèse alternative.

. Le risque de deuxième espèce est noté β :
P(H1 ) (Tn ∈ Rcα ) = β
. La puissance du test est π = 1 − β.
Exemple
X n-échantillon gaussien. Test d’hypothèse sur l’espérance.

. (H0 ) : µ = µ0 , (H1 ) : µ 6= µ0 .
. Tn ∼(H0 ) T (n − 1).
. Rcα = [−t∗n , t∗n ].
. P(H0 ) (Tn ∈ Rα ) = α.
(H0 ) est conservée si tn ∈ [−t∗n , t∗n ].
. La puissance π(µ) du test est une fonction de µ.
/ [−t∗n , t∗n ].)

π(µ) = P(H1 ) (Tn ∈

Hypothèses composites
Un hypothèse composite porte sur un sous-ensemble de Θ :

. test bilatère pour hypothèse nulle simple, hypothèse alternative
composite (H0 ) : θ = θ0 contre (H1 ) : θ 6= θ0
. test unilatère pour hypothèse nulle composite, hypothèse
alternative composite (H0 ) : θ < θ0 contre (H1 ) : θ ≥ θ0
Pour un test à hypothèse nulle composite, la taille du test est
supθ∈Θ0 α(θ).
. Le test est de niveau α si supθ∈Θ0 α(θ) ≤ α.
Biais et consistance
. Un test est dit sans biais si π ≥ α.

. Un test est dit consistant si π −−−−−→ 1.
n→+∞

Test UPP
Un test est dit uniformément plus puissant (UPP) si il est plus

puissant que tout autre test de même niveau pour toute valeur du
paramètre θ.
Rapport de vraisemblance
Théorème 5.1 (Neyman-Pearson)

Dans le cas de deux hypothèses simples θ = θ0 contre θ = θ1 un test UPP
est de la forme :

L(θ 1 ; x)
R α = x ∈ Rn : > kα .
L(θ0 ; x)
. Pour des tests composites unilatères (θ = θ0 contre θ > θ0 ) le test

UPP est test le du rapport de vraisemblance si Rα ne dépend pas
de θ1 dans le test à hypothèses simples.

p-value
. La p-value est calculée à partir de l’observation tn de la statistique

du test.
. C’est le plus petit α qui rejette (H0 ) étant donné tn observé.
. Si θ1 > θ0 , c’est P(H0 ) (Tn ≥ tn ).
Tests d’hypothèse 5.2 Tests du χ-deux
Tests d’adéquation
Les tests du khi-deux sont des tests asymptotiques non paramétriques.

Ils sont construits avec une statistique Kn ∼(H0 ) χ2 (p) :
. test d’ajustement ;
. test d’homogénéité ;
. test d’indépendance.

Loi multinomiale
On considère une loi catégorielle à K catégories caractérisée pas la

distribution de probabilités (d.d.p.) π = (π1 , . . . , πn ).
. On note O = (O1 , . . . , OK ) le vecteur du décompte de chacune des
catégories au sein d’un n-échantillon X de cette loi.
n
X
Ok = 1Xi =k .
i=1
. O ∼ M (n, π) .
QK πk
. P(O = o) = n! k=1 nk ! .
Ajustement
p
X (oi − ei )2
kn = .
ei
i=1
. oi effectif observé de la catégorie i

. ei effectif théorique de la catégorie i
L
. Sous (H0 ), Kn −→ χ2 (p − 1).
. Loi asymptotique admise si mini ei > 5.
. Si kn > q1−α alors l’hypthèse nulle (d’ajustement) est rejetée.

Homogénéité
p X
X m
(oij − eij )2
kn = .
eij
i=1 j=1
. On dispose de m échantillons (de nj individus).

. oij effectif observée de la catégorie i dans l’échantillon j.
. eij effectif théorique de la catégorie i dans l’échantillon j :
Pm Pp
j=1 o ij i=1 oij
eij =
N
. Kn ∼(H0 ) χ2 ((p − 1)(m − 1)).
. Si kn > q1−α alors l’hypothèse nulle est rejetée.
Indépendance
Deux variables à p et m modalités.

p X
X m
(oij − eij )2
kn = .
eij
i=1 j=1
. oij effectif observée de la catégorie i et j.

. eij effectif théorique de la catégorie i et j :
Pm Pp
o
j=1 ij i=1 oij
eij =
N
. Kn ∼(H0 ) χ2 ((p − 1)(m − 1)).
Si kn > q1−α alors l’hypthèse nulle est rejetée.

Suppléments
Outline
1. Introduction
2. Estimation
6. Suppléments
6.1 Statistique bayésienne
6.2 Estimation non paramétrique
Suppléments 6.1 Statistique bayésienne
Motivation
. En statistique fréquentiste, θ est une constante inconnue.

. En statistique bayésienne l’inconnu sur θ est formalisé par une v.a.r.
. La densité de θ résume l’information sur θ.

Lois à densité
π(θ)f (x|θ)
π(θ|x) = .
f (x)
. π(θ|x) est la probabilité a posteriori.
. π(θ) est l’a priori sur θ.
. f (x|θ) est la vraisemblance.
. f (x) n’intervient pas lors de l’estimation par maximum a posteriori
(MAP).
Estimation ponctuelle
. L(d, θ) est la fonction de coût – conséquences de considérer d

plutôt que θ.
. L’estimation ponctuelle minimise le coût moyen :
ˆ
δ(x) = min π(θ|x)L(d, θ) dθ.
d Θ
. Si la fonction de coût est quadratique :

ˆ
δ(x) = π(θ|x)θ dθ
Θ

Région de crédibilité
Rk (x) = {θ : π(θ|x) ≥ k}
. Permet de créer des régions de volume minimal.
Facteur de Bayes
Deux modèles concurrents, M1 et M2 .

. Un a priori différent par modèle.
. Une vraisemblance par modèle.
. On construit le facteur de Bayes :
P(M1 |x)P(M2 )
B12 =
P(M2 |x)P(M1 )

Suppléments 6.2 Estimation non paramétrique
On dispose d’un n-échantillon X.

. On souhaite connaître la densité f de X.

. Estimation paramétrique : f ∈ f (x, θ) : θ ∈ Θ ⊂ Rk .
. Estimation non paramétrique :f ∈ F.
Fonction de répartition
n
b 1X p.s.
Fn (y) = 1xi ≤y −−→ F (y) = P(X1 ≤ y)
n
i=1

Densité
La densité est
F (y + h) − F (y)
f (y) = F 0 (y) ≈ .
h
. Estimateur de Rosenblatt :
n
b 1 X
fn (y) = 1y≤xi <y+h .
nh
i=1
. Estimateur à noyau :
n
1 X y − xi
fbn (y) = K .
nh h
i=1

MA101Stat Diapos

Transféré par

Informations du documentcliquez pour développer les informations du document

Droits d'auteur :

Formats disponibles

MA101Stat Diapos

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

MA101Stat Diapos

Transféré par

Droits d'auteur :

Formats disponibles

MA101

maxime.ossonce@esme.fr (ENSTA) MA101 / Stat – 1A 2018/2019 1 / 80

maxime.ossonce@esme.fr (ENSTA) MA101 / Stat – 1A 2018/2019 2 / 80

. J. Pagès. Statistique générales pour utilisateurs. Presses

maxime.ossonce@esme.fr (ENSTA) MA101 / Stat – 1A 2018/2019 3 / 80

Le terme statistique a plusieurs acceptions :

maxime.ossonce@esme.fr (ENSTA) MA101 / Stat – 1A 2018/2019 4 / 80

Les caractéristiques (variables) de la populations sont régies par un

maxime.ossonce@esme.fr (ENSTA) MA101 / Stat – 1A 2018/2019 5 / 80

Introduction 1.1 Population

Une population est un ensemble d’individus sur lequel on observe les

maxime.ossonce@esme.fr (ENSTA) MA101 / Stat – 1A 2018/2019 6 / 80

Un n-échantillon est un vecteur X = (X1 , . . . , Xn ) de n variables

(x1 , . . . , xn ) = (X1 (ω), . . . , Xn (ω)).

maxime.ossonce@esme.fr (ENSTA) MA101 / Stat – 1A 2018/2019 7 / 80

Introduction 1.2 Estimateurs

Etant donné un n-échantillon, une statistique Tn est une fonction

. X n est une v.a.

maxime.ossonce@esme.fr (ENSTA) MA101 / Stat – 1A 2018/2019 8 / 80

maxime.ossonce@esme.fr (ENSTA) MA101 / Stat – 1A 2018/2019 9 / 80

Introduction 1.3 Convergences de variables aléatoires

Convergenge presque sûre

On dit que la suite de variable aléatoire réelle (v.a.r.) (Xn ) converge

maxime.ossonce@esme.fr (ENSTA) MA101 / Stat – 1A 2018/2019 10 / 80

lim P(|Xn − X| > ) = 0 ; ∀ > 0.

. La convergence en probabilité est plus faible que la convergence

. La réciproque est fausse.

maxime.ossonce@esme.fr (ENSTA) MA101 / Stat – 1A 2018/2019 11 / 80

Introduction 1.3 Convergences de variables aléatoires

On dit que la suite de v.a.r. intégrables (Xn ) converge dans L1 vers

. La convergence en probabilité est plus faible que la convergence

maxime.ossonce@esme.fr (ENSTA) MA101 / Stat – 1A 2018/2019 12 / 80

maxime.ossonce@esme.fr (ENSTA) MA101 / Stat – 1A 2018/2019 13 / 80

Introduction 1.3 Convergences de variables aléatoires

Loi faible des grands nombres

maxime.ossonce@esme.fr (ENSTA) MA101 / Stat – 1A 2018/2019 14 / 80

Le théorème de la limite centrale (TCL) permet contrôler la rapidité de

. On a donc limn→∞ P(Zn ≤ z) = Φ(z).

maxime.ossonce@esme.fr (ENSTA) MA101 / Stat – 1A 2018/2019 15 / 80

Introduction 1.3 Convergences de variables aléatoires

Xn et Yn sont des suites de v.a. à valeurs respectivement dans Rn et Rp .

. Remarque : il y a équivalence entre convergence en loi et en

maxime.ossonce@esme.fr (ENSTA) MA101 / Stat – 1A 2018/2019 16 / 80

maxime.ossonce@esme.fr (ENSTA) MA101 / Stat – 1A 2018/2019 17 / 80

Estimation 2.1 Définition

On se donne g fonction définie sur Θ à valeurs dans Rk .

maxime.ossonce@esme.fr (ENSTA) MA101 / Stat – 1A 2018/2019 18 / 80

On cherche à connaître µ l’espérance de la loi parente P. On a à

maxime.ossonce@esme.fr (ENSTA) MA101 / Stat – 1A 2018/2019 19 / 80

Estimation 2.2 Biais, risque et convergence

Soit νbn un estimateur de ν(θ), on notera bθ (b

νn ) est une fonction de θ.

maxime.ossonce@esme.fr (ENSTA) MA101 / Stat – 1A 2018/2019 20 / 80

Le risque quadratique de l’estimateur νbn de ν(θ) est :

. Le risque quadratique est associé à la fonction de perte quadratique.

maxime.ossonce@esme.fr (ENSTA) MA101 / Stat – 1A 2018/2019 21 / 80

Estimation 2.2 Biais, risque et convergence

maxime.ossonce@esme.fr (ENSTA) MA101 / Stat – 1A 2018/2019 22 / 80

lim P(|Xn − X| > ) = 0 ; ∀ > 0.