Chap Stat 1

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 63

Introduction à la statistique

Skander HACHICHA

skander.hachicha@ipeit.rnu.tn

Université de Tunis El Manar


Ecole nationale d’ingénieurs de Tunis

Introduction à la statistique 1 / 63
Skander HACHICHA 1 / 63
Introduction

On observe un certain nombre de données (x1 , · · · , xn ) soit par la


simple observation des phénomènes auxquels on s’intéresse, soit par
expérimentation (on provoque volontairement l’apparition de certains
phénomènes controlés).
Comme les résultats de ces expériences ne sont pas reproductibles, on
suppose que ces données observées sont les réalisations d’une variable
aléatoire X dont la loi est complètement ou partiellement inconnue.
L’objectif des statistiques inférentielle est d’obtenir le plus possible
d’informations sur ces lois à partir des observations permettant
d’extraire ce qui est reproductible à l’aide des outils de la théorie des
probabilité comme la loi des grands nombres ou le théorème central
limite, et qui pourrait donc fonder une decision ou une prédiction.
La première étape de cette étude est l’identification du modéle
probabiliste engendré par l’observation.

Introduction à la statistique 2 / 63
Skander HACHICHA 2 / 63
Introduction

La loi de la variable aléatoire X est complétement inconnue,


on est améné à determiner dans une famille de loi de probabilité
celle qui coincide le mieux avec les données observées.
La loi est connue à priori à un ou plusieurs paramètres réels
et donc appartenant à une famille de loi de probabilité
paramétrés, on est améné à determiner quelle valeur du
paramètre est la mieux adapté aux données.

Introduction à la statistique 3 / 63
Skander HACHICHA 3 / 63
Introduction

Exemple
On suppose qu’on fabrique des pièces sur une machine. Chaque pièce
fabriqué a une probabilité θ inconnue, mais la même pour toutes les
pièces, d’être défectueuse. Ce nombre θ dépend du réglage de la
machine, le réglage est d’autant meilleur que θ est proche de 0, mais
comme le réglage ne peut pas être parfais on n’a jamais θ = 0. Avant
de lancer le cycle de fabrication, on veut vérifier si la machine est
bien réglée, à savoir si θ est suffisamment petit. Pour cela on fabrique
un certain nombre n de pièces qui servent à tester le réglage.
L’observation consiste à compter le nombre Xn de pièces
défectueuses parmi ces n pièces. On peut alors se poser les problèmes
suivants :

Introduction à la statistique 4 / 63
Skander HACHICHA 4 / 63
Introduction

Exemple
1 Trouver la valeur de θ : cela s’appelle estimer le paramètre θ.
Dans notre exemple, il est naturel de prendre pour estimateur de
θ la proportion θbn = Xnn de pièces défectueuses.
2 Trouver un intervalle dépendant de l’observation qui contient θ
avec une probabilité élevé : estimation par intervalle de
confiance.
3 S’assurer que la vraie valeur de θ ne dépasse pas un seuil
critique θ0 fixé d’avance (sinon il faut refaire le régalage de la
machine): cela s’appelle tester le fait que θ ≤ θ0 .

Introduction à la statistique 5 / 63
Skander HACHICHA 5 / 63
Modèle statistique

Remarque
Il s’agit donc de préciser un phénomène sur une population globale, à
partir de son observation sur un échantillon.

Définition
On appelle modèle statistique le triplet (X , A, P) où:
1 (X , A) est un espace probabilisable où X est l’ensemble de tous
les résultats possibles de l’expérience réalisée et où A est la
tribu sur X .
2 P est une famille de probabilités sur (X , A).

Introduction à la statistique 6 / 63
Skander HACHICHA 6 / 63
Modèle statistique

Parmi les modèles statistiques, on distingue les modèles


paramétriques des modèles non paramétriques. Dans l’approche
paramétrique, la forme de la famille P est spécifié à l’avance, et elle
est paramétrisé par une quantité de dimension finie qui est la seule
quantité inconnue. Dans l’approche non paramétrique, on ne connait
pas la forme de la famille P à l’avance. Il existe aussi des modèles
semi paramétriques, où on a une connaisance mais très limitée, sur la
famille P.
Définition
On appelle modèle statistique paramétrique le modèle
(X , A, Pθ : θ ∈ Θ) où Θ ⊂ Rd . La quantité θ est appelée le
paramètre.

Introduction à la statistique 7 / 63
Skander HACHICHA 7 / 63
Modèle statistique

Remarque
Soit X une variable aléatoire de loi Pθ . Par abus de notation, on
appelle dans tous les cas f (., θ) la densité de la loi Pθ en possant :
1 f (x, θ) = fθ (x) dans le cas où Pθ est absolument continue et de
densité fθ par rapport à la mesure de Lebesgue.
2 f (x, θ) = Pθ (X = x) dans le cas où Pθ est discrète par rapport
à la mesure de comptage.

Introduction à la statistique 8 / 63
Skander HACHICHA 8 / 63
Modèle d’échantillonage

Définition
On appelle modèle d’échantillonage un modèle statistique du type

(X n , A⊗n , P⊗n
θ : θ ∈ Θ)

Définition
On appelle n−échantillon de loi Pθ sur (X , A) une suite
(X1 , · · · , Xn ) de n variables aléatoires à valeurs dans l’espace X
indépendantes et de même loi Pθ .

Introduction à la statistique 9 / 63
Skander HACHICHA 9 / 63
Modèle d’échantillonage

Soit (Pθ )θ∈Θ une famille de loi de probabilité sur (X , A) où Θ ⊂ Rk .


A chaque n−échantillon (X1 , · · · , Xn ) de loi Pθ , on lui associe le
modèle d’échantillonage (X n , A⊗n , P⊗n
θ )

∀A1 × · · · × An ∈ A⊗n ,

Pθ(X1 ,··· ,Xn ) (A1 × · · · × An ) = Pθ (A1 ) · · · Pθ (An )


Soit f (., θ) la densite de X1 . Alors
n
Y
f (x1 , · · · , xn , θ) = f (xi , θ), ∀(x1 , · · · , xn ) ∈ X n
i=1

est la densité de l’échantillon (X1 , · · · , Xn )

Introduction à la statistique 10 / 63
Skander HACHICHA 10 / 63
Modèle d’échantillonage

Exemple
L’observation (x1 , · · · , xn ) est une réalisation d’un n−échantillon
(X1 , · · · , Xn ) de loi de Bernoulli B(θ) où θ ∈]0, 1[, alors
X = {0, 1}, A = P(X ).
(X1 , · · · , Xn ) admet pour densité

f (x1 , · · · , xn , θ) = Pθ (X1 = x1 , · · · , Xn = xn ) =
Pn Pn
xi
θ i=1 (1 − θ)n− i=1
xi
.

Introduction à la statistique 11 / 63
Skander HACHICHA 11 / 63
Modèle d’échantillonage

Exemple
L’observation (x1 , · · · , xn ) est une réalisation d’un n−échantillon
(X1 , · · · , Xn ) de loi de Poisson P(θ) où θ ∈ R∗+ alors X = N,
A = P(N).
(X1 , · · · , Xn ) admet pour densité

f (x1 , · · · , xn , θ) = Pθ (X1 = x1 , · · · , Xn = xn ) =
Pn
θ i=1 xi −nθ
e .
x1 ! · · · xn !

Introduction à la statistique 12 / 63
Skander HACHICHA 12 / 63
Modèle d’échantillonage

Exemple
L’observation (x1 , · · · , xn ) est une réalisation d’un n−échantillon
(X1 , · · · , Xn ) de loi normale N (m, σ) où θ = (m, σ 2 ) ∈ R × R∗+
alors X = R, A = BR .
(X1 , · · · , Xn ) admet pour densité
n
!
1 1 X
f (x1 , · · · , xn , θ) = exp − (xi − m)2 .
(2πσ 2 )n/2 2σ 2 i=1

Introduction à la statistique 13 / 63
Skander HACHICHA 13 / 63
Vraisemblance

Définition
Soit (X1 , · · · , Xn ) un n−échantillon de loi Pθ . On appelle
vraisemblance associé à la réalisation (x1 , · · · , xn ) de l’échantillon
(X1 , · · · , Xn ), l’application

L(x1 , · · · , xn , .) : Θ ⊂ Rd 7−→ R∗+


7−→ L(x1 , · · · , xn , θ) = ni=1 f (xi , θ)
Q
θ

Conséquence
( Q
n
fθ (xi ) si Pθ est absolument continue d
L(x1 , · · · , xn , θ) = Qi=1
n
i=1 Pθ (Xi = xi ) si Pθ est discrète

Introduction à la statistique 14 / 63
Skander HACHICHA 14 / 63
Statistiques et estimateurs
Statistiques

Définition
Soit (X , A, Pθ : θ ∈ Θ) un modèle statistique. On appelle statistique
toute variable aléatoire T de (X , A) dans (Θ, T ) où T est une tribu
sur Θ.

Introduction à la statistique 15 / 63
Skander HACHICHA 15 / 63
Statistiques et estimateurs
Estimateurs

Soit (X1 , · · · , Xn ) un n−échantillon de loi Pθ où θ ∈ Θ ⊂ Rd . C’est


de l’échantillon et de lui seul que l’on peut tirer des informations sur
le paramètre inconnu θ. On cherche à estimer le paramètre θ ou
encore g(θ) (dans le cas où il est plus simple d’estimer g(θ) au lieu de
θ) où g : Θ ⊂ Rd 7−→ Rk mesurable (continue). Pour cela, on
commence par choisir une statistique T (X1 , · · · , Xn ) dépendant de
l’observation déstinée à fournir une estimation du paramètre inconnu
θ (ou g(θ)) et qui devrait être proche de θ (ou g(θ)) , ce qui veut dire
qu’au vu de l’observation (x1 , · · · , xn ) on décide que la valeur de θ
(ou g(θ)) vaut un certain nombre T (x1 , · · · , xn ) que l’on espère la
plus proche possible de θ (ou g(θ)).

Introduction à la statistique 16 / 63
Skander HACHICHA 16 / 63
Statistiques et estimateurs

Définition
Soit (X1 , · · · , Xn ) un n−échantillon de loi Pθ . On appelle
estimateur de θ (resp de g(θ)) toute variable aléatoire
Tn = T (X1 , · · · , Xn ) fonction de l’échantillon à valeurs dans (Θ, T )
où T est tribu sur Θ (resp g(Θ)) . Pour toute réalisation
(observation) (x1 , · · · , xn ) ∈ X n la valeur θbn = T (x1 , · · · , xn ) est
dite l’estimation de θ (resp de g(θ)) ( θbn = T (x1 , · · · , xn ) est une
réalisation de l’estimateur T (X1 , · · · , Xn )).

Introduction à la statistique 17 / 63
Skander HACHICHA 17 / 63
Statistiques et estimateurs

Cette définition est un peu vague et cache l’espoir que les valeurs
prises par l’estimateur soient proches de la vraie valeur de θ qui est et
restera inconnue puisque n’importe quelle fonction des observations à
valeurs dans l’ensemble des valeurs possibles de θ est un estimateur.
Mais, un estimateur T (X1 , · · · , Xn ) ne sera satisfaisant que si pour
n’importe quelle observation (x1 , · · · , xn ), l’estimation
T (x1 , · · · , xn ) est proche en un certain sens de θ.
Remarque
L’application T ne doit pas dépendre du paramètre inconnu θ.

Introduction à la statistique 18 / 63
Skander HACHICHA 18 / 63
Statistiques et estimateurs

Remarque
Il importe de bien distinguer les variables aléatoires liées à la
modélisation, de leurs réalisations identifiées aux données. Ainsi un
estimateur de θ est une variable aléatoire Tn = T (X1 , · · · , Xn ) et
pour un n−uplet de données (x1 , · · · , xn ) considéré comme
réalisation des variables aléatoires (X1 , · · · , Xn ), la valeur (réelle)
prise par Tn qui est en faite une réalisation de T (X1 , · · · , Xn ):

θbn = T (x1 , · · · , xn )

est l’estimation du paramètre qui puisse être utilisée à la place du


paramètre θ. On peut dire que θbn est une approximation
expérimentale de θ dépendant de l’échantillon (x1 , · · · , xn ).

Introduction à la statistique 19 / 63
Skander HACHICHA 19 / 63
Statistiques et estimateurs

Exemple
Soit une pièce dont on ignore si elle est ou non truquée. La probabilité
de tomber sur pile est le paramètre inconnu θ. On se propose de
réaliser 10 lancers de la pièce, que l’on modélisera par un
échantillon de taille 10 de la loi de Bernoulli de paramètre θ. Le
nombre de pile obtenu sur les 10 lancers est une variable aléatoire
qui suit la loi Binoniale B(10, θ). Le quotient de cette variable
aléatoire par 10 (la fréquence) est un estimateur de θ. Effectuons
maintenant les dix lancers en notant chaque fois 1 si pile sort, et 0 si
c’est face. Une réalisation de l’échantillon est par exemple :

1, 0, 0, 1, 0, 0, 0, 1, 1, 0

Introduction à la statistique 20 / 63
Skander HACHICHA 20 / 63
Statistiques et estimateurs

Exemple
Pour cette réalisation, la fréquence empirique prend la valeur 0,4,
que l’on proposera comme estimation de θ. Bien évidemment, 10
nouveaux lancers de la même pièce pourront conduire à une
réalisation différente de l’échantillon et à une estimation différente de
θ.

Introduction à la statistique 21 / 63
Skander HACHICHA 21 / 63
Statistiques et estimateurs

Remarque
L’estimation à partir d’un échantillon unique ne conduit
généralement pas à la vraie valeur du paramètre. Cette estimation va
varier d’un échantillon à l’autre. La réalisation d’un très grand
nombre d’échantillons de même taille permet de construire la
distribution de l’estimateur.

Remarque
Soit Tn un estimateur du paramètre θ et ϕ une fonction continue de R
dans R. Alors ϕ(Tn ) est un estimateur de ϕ(θ).

Introduction à la statistique 22 / 63
Skander HACHICHA 22 / 63
Exhaustivité

Définition
Soit (X1 , · · · , Xn ) un n-échantillon de loi Pθ . Une statistique
T (X1 , · · · , Xn ) est exhaustive si la loi conditionnelle de
(X1 , · · · , Xn ) sachant T (X1 , · · · , Xn ) = t ne dépend pas du
paramètre θ :

£θ ((X1 , · · · , Xn )/T (X1 , · · · , Xn ) = t)

ne depend pas de θ
(i.e ∀ A1 , · · · , An ∈ A,
Pθ ((X1 , · · · , Xn ) ∈ A1 × · · · × An /T (X1 , · · · , Xn ) = t) ne dépend
pas de θ).
En d’autre termes Eθ (h(X1 , · · · , Xn )/T (X1 , · · · , Xn )) ne dépend
pas de θ pour tout fonction mesurable h.

Introduction à la statistique 23 / 63
Skander HACHICHA 23 / 63
Exhaustivité
Exemple
Soit (X1 , · · · , Xn ) un n−échantillon de loi de Bernoulli B(θ) de
paramètre θ ∈]0, 1[. Alors la statistique

T (X1 , · · · , Xn ) = X1 + · · · + Xn

de loi Binomiale B(n, θ) de paramètres (n, θ) est exhaustive. En effet,


soit x = (x1 , · · · , xn ) une réalisation de X = (X1 , · · · , Xn ), on a :

Pθ ((X1 , · · · , Xn ) = (x1 , · · · , xn ))
Pθ (X = x/T (X) = t) =
Pθ (T (X1 , · · · , Xn ) = t)
θt (1 − θ)n−t
1{x1 +···+xn =t} = t t
Cn θ (1 − θ)n−t
1
1{x1 +···+xn =t} = t 1{x1 +···+xn =t}
Cn

qui est indépendante de θ.


Introduction à la statistique 24 / 63
Skander HACHICHA 24 / 63
Exhaustivité

Exemple
Soit (X1 , · · · , Xn ) un n-échantillon de loi de Cauchy C(θ, 1) de
densité fθ (x) = π1 1+(x−θ)1
2 . La moyenne empirique X

1
T (X1 , · · · , Xn ) = (X1 + · · · + Xn )
n
n’est pas exhaustive : elle contient la même information qu’une seule
observation Xi .

Introduction à la statistique 25 / 63
Skander HACHICHA 25 / 63
Factorisation

Théorème
Une statistique T (X1 , · · · , Xn ) est exhaustive si et seulement si il
existe des fonctions gθ et h mesurables positives telles que la densité
f (x1 , · · · , xn , θ) de l’échantillon (X1 , · · · , Xn ) se factorise de la
façon suivante :

f (x1 , · · · , xn , θ) = gθ (T (x1 , · · · , xn ))h(x1 , · · · , xn ).

Introduction à la statistique 26 / 63
Skander HACHICHA 26 / 63
Factorisation

Exemple
Soit (X1 , · · · , Xn ) un n-échantillon de loi normale N (θ, 1). Alors la
statistique

T (X1 , · · · , Xn ) = X1 + · · · + Xn = nX n

est exhaustive. En effet, on a


n
1X
f (x1 , · · · , xn , θ) = (2π)−n/2 exp(− (xk − θ)2 )
2 k=1
n
1 X
= (2π)−n/2 exp(− (n(x − θ)2 + (xk − x)2 )
2 k=1
n
1 1X
= (2π)−n/2 exp(− (n(x − θ)2 ) exp(− (xk − x)2 )
2 2 k=1

Introduction à la statistique 27 / 63
Skander HACHICHA 27 / 63
Factorisation

Exemple

1 T (x1 , · · · , xn )
gθ (T (x1 , · · · , xn )) = exp(− (n( − θ)2 )
2 n
et
n
−n/2 1X
h(x1 , · · · , xn ) = (2π) exp(− (xk − x)2 )
2 k=1

Introduction à la statistique 28 / 63
Skander HACHICHA 28 / 63
Factorisation
Exemple
Soit (X1 , · · · , Xn ) un n-échantillon de loi uniforme U([−θ, θ]). Alors
la statistique

T (X1 , · · · Xn ) = (min Xi , max Xi )

est exhaustive. En effet , on a


n
−n
Y
f (x1 , · · · , xn , θ) = (2θ) 1[−θ,θ] (xi )
i=1
= (2θ)−n 1{−θ≤min xi } 1{max xi ≤θ}


gθ (T (x1 , · · · , xn )) = (2θ)−n 1{−θ≤min xi } 1{max xi ≤θ}
et
h(x1 , · · · , xn ) = 1.
Introduction à la statistique 29 / 63
Skander HACHICHA 29 / 63
Factorisation

Exemple
En particulier si la loi est uniforme sur [0, θ] alors la statistique

T (X1 , · · · Xn ) = max Xi

est exhaustive. En effet, on a


n
−n
Y
f (x1 , · · · , xn , θ) = (θ) 1[0,θ] (xi )
i=1
= (θ)−n 1{0≤max xi ≤θ}


gθ (T (x1 , · · · , xn )) = (θ)−n 1{0≤T (x1 ,··· ,xn )≤θ}
et
h(x1 , · · · , xn ) = 1
Introduction à la statistique 30 / 63
Skander HACHICHA 30 / 63
Factorisation

Exemple
Soit (X1 , · · · , Xn ) un n-échantillon de loi Poisson P(θ) de
vraisemblance

f (x1 , · · · , xn , θ) = Pθ (X1 = x1 , · · · , Xn = xn )
Pn
xi −nθ
θ i=1 e
= Qn
i=1 (xi )!
Pn
d’où T (X1 , · · · , Xn ) = i=1 Xi est une statistique exhaustive avec

gθ (T (X1 , · · · , Xn ), θ) = θT (X1 ,··· ,Xn ) e−nθ

et
n
(xi )!)−1
Y
h(x1 , · · · , xn ) = (
i=1

Introduction à la statistique 31 / 63
Skander HACHICHA 31 / 63
Factorisation
Factorisation

Exemple
Soit (X1 , · · · , Xn ) un n-échantillon de loi normale N (m, σ),
θ = (m, σ). Alors la statistique
n
X n
X
T (X1 , · · · , Xn ) = ( Xi , Xi2 )
i=1 i=1

est exhaustive. En effet, on a


n
!
2 −n/2 1 X
f (x1 , · · · , xn , θ) = (2πσ ) exp − 2 (xi − m)2
2σ i=1
= (2πσ 2 )−n/2
n n
!
1 X mX nm2
exp − 2 x2i + 2 xi −
2σ i=1 σ i=1 2σ 2
Introduction à la statistique 32 / 63
Skander HACHICHA 32 / 63
Factorisation
Factorisation

Exemple
Pn Pn 2
où gθ ( i=1 Xi , i=1 Xi ) =
n n
!
2 −n/2 1 X mX nm2
(2πσ ) exp − 2 Xi2 + 2 Xi −
2σ i=1 σ i=1 2σ 2

et
h(x1 , · · · , xn ) = 1
Cela implique que dans le cas où m est inconnu, la statistique
1 Pn
(X n , Sn2 ) ( où Sn2 = n−1 2
i=1 (Xi − X n ) ) est exhaustive, de même,
1 Pn
2
si m est connu la statistique Vn = n i=1 (Xi − m)2 , est aussi
exhaustive pour le paramètre σ 2 .

Introduction à la statistique 33 / 63
Skander HACHICHA 33 / 63
Factorisation

Proposition
Soient p : Rk −→ Rk et q : Rk −→ Rk deux applications bijectives et
mesurables. Si T (X) ∈ Rk est une statistique exhaustive pour
θ ∈ Θ ⊂ Rk , alors S(X) = p(T (X)) est aussi une statistique
exhaustive pour θ et S(X) est exhaustive pour λ = q(θ).

Introduction à la statistique 34 / 63
Skander HACHICHA 34 / 63
Factorisation

Remarque
Soit g : Rk −→ Rk application bijective et mesurable. Si T est
exhuastive pour θ ∈ Θ ⊂ Rk alors g(T ) est exhaustive pour g(θ).

Exemple
Si X n est exhaustive, alors g(X n ) est exhaustive si g est bijective et
mesurable.

Introduction à la statistique 35 / 63
Skander HACHICHA 35 / 63
Statistiques exhaustive minimales

Définition
Une statistique T est dite statistique exhuastive minimale pour un
paramètre θ si T est exhaustive et si pour toute autre statistique
exhaustive S pour le paramètre θ, il existe une application g
mesurable telle que S = g(T ).

Proposition
Deux statistiques exhaustives minimales pour le paramètre θ sont en
liaison bijective.

Théorème
Soit T une statistique. Si l’on a l’équivalence
T (x1 , · · · xn ) = T (y1 , · · · yn ) ⇐⇒ θ −→ ff(x1 ,···xn ,θ)
(y1 ,···yn ,θ) est
indépendant de θ
alors T est une statisique exhaustive minimale.
Introduction à la statistique 36 / 63
Skander HACHICHA 36 / 63
Statistiques exhaustive minimales

Exemple
Soit (X1 , · · · , Xn ) un n−échantillon de loi N (m, σ), θ = (m, σ) où
m et σ sont inconnus. La statistique T (X1 , · · · , Xn ) = X n est une
statistique minimale pour m. En effet, on a
!
1 n(xn − m)2 + ns2x
f (x1 , · · · , xn , θ) = n exp −
(2πσ 2 )− 2 2σ 2
Pn 2 1 Pn
où xn = i=1 xi , sx = n i=1 (xi − xn )2 Il s’en suit que

n(xn − m)2 − n(y n − m)2 + ns2x − ns2y


!
f (x1 , · · · , xn , θ)
= exp −
f (y1 , · · · , yn , θ) 2σ 2

Le rapport ne dépend pas de m ssi

xn = y n
Introduction à la statistique 37 / 63
Skander HACHICHA 37 / 63
Statistiques libres

Définition
Soit (X , A, Pθ : θ ∈ Θ) un modèle statistique. Une statistique T
associé au modèle est dite libre si sa loi ne depend pas de θ.

Exemple
Pour un n-échantillon (X1 , · · · , Xn ) de loi uniforme U([−θ, θ]) la
statistique
min Xi
T (X1 , · · · , Xn ) =
max Xi
est libre, puisque
min Xi min(Xi /θ)
=
max Xi max(Xi /θ)
Xi
et θ est de loi uniforme U([−1, 1]) qui ne depend pas de θ.

Introduction à la statistique 38 / 63
Skander HACHICHA 38 / 63
Statistiques libres

Exemple
Soit (X1 , · · · , Xn ) un n-échantillon de loi normale N (θ, 1). Alors la
statistique

S(X1 , · · · , Xn ) = (X1 − X n , · · · , Xn − X n )

est libre car les différences

Xi − X n = (Xi − θ) − (X n − θ)

ne dependent pas de θ.

Introduction à la statistique 39 / 63
Skander HACHICHA 39 / 63
Statistiques exhaustive, libres et complète

Définition
Une statistique exhuastive T à valeurs dans Rd du modèle statistique
paramétrique est dite complèlte si pour toute fonction mesurable
h : Rd −→ R telle que h(T ) soit intégrable, alors :

∀θ ∈ Θ, Eθ (h(T )) = 0 =⇒ h(T ) = 0

Introduction à la statistique 40 / 63
Skander HACHICHA 40 / 63
Statistiques exhaustive, libres et complète

Proposition
Soit un modèle statistique paramétrique. Si T est une statistique
exhaustive compléte alors pour toute application mesurable h
bijective h(T ) est une statistique exhaustive complète.

Proposition
Soit un modèle statistique paramétrique. Toute statistique exhaustive
compléte est une statistique exhaustive minimale.

Introduction à la statistique 41 / 63
Skander HACHICHA 41 / 63
Statistiques exhaustive, libres et complète

Proposition
Soit un modèle statistique paramétrique. Si T est une statistique
exhaustive compléte alors T est indépendante de toute statistique
libre S sur le modèle.

Exemple
Dans le modèle binomial, X n est complète pour le paramètre
θ ∈]0, 1[. En effet soit h une application telle que Eθ (h(X n )) = 0,
pour tout p ∈]0, 1[ ou encore
n
k
X  
Eθ (h(X n )) = h Cnk θk (1 − θ)n−k
k=1
n
n
k
 
Cnk θk (1 − θ)−k
X
n
= (1 − θ) h
k=1
n
= 0
Introduction à la statistique 42 / 63
Skander HACHICHA 42 / 63
Statistiques exhaustive, libres et complète
Exemple
ce qui est équivalent à
n
k
 
Cnk θk (1 − θ)−k = 0
X
h
k=1
n

θ
on note qu’il s’agit d’un polynôme en (1−θ) et rappelons qu’un
polynôme est égal à 0 si et seulement si tous ses coefficients sont
égaux à 0, ce qui implique que
k
 
h Cnk = 0, ∀k
n

et comme tous les coefficients binomiaux Cnk sont strictements


positifs, alors
k
 
h = 0, ∀k
n
Introduction à la statistique 43 / 63
Skander HACHICHA 43 / 63
Statistiques exhaustive, libres et complète

Exemple
n
k
  X  
Pθ h(X n ) = 0 = Pθ h(X n ) = 0, X n = =
k=0
n
n
k
X  
Pθ X n = =1
k=0
n

ou autrement dit : h(X n ) = 0, Pθ − ps pour tout θ ∈]0, 1[ et donc


X n est une statistique complète.

Introduction à la statistique 44 / 63
Skander HACHICHA 44 / 63
Statistiques exhaustive, libres et complète

Exemple
Dans le modèle Bernouilli, la statistique S(X) = (X1 , X n ) n’est pas
complète pour le paramètre θ ∈]0, 1[(c-à-d, on a trop d’information
dont on n’a pas besoin). En effet, S(X) est une statistique exhaustive
(X n est une statistique exhaustive et on a seulement ajouté de
l’information). On considère la fonction mesurable h(x, y) = x − y,
alors on a
 
Eθ h(X1 , X n ) = Eθ (X1 ) − Eθ (X n ) = θ − θ = 0

mais

Introduction à la statistique 45 / 63
Skander HACHICHA 45 / 63
Statistiques exhaustive, libres et complète

Exemple

   
Pθ X1 − X n = 0 = Pθ X1 = X n
n
!
X
= Pθ Xk = (n − 1)X1
k=2
1 n
!
X X
= Pθ Xk = (n − 1)X1 , X1 = i
i=0 k=2
1 n
!
X X
= Pθ Xk = (n − 1)i Pθ (X1 = i)
i=0 k=2

Introduction à la statistique 46 / 63
Skander HACHICHA 46 / 63
Statistiques exhaustive, libres et complète

Exemple

n
!
X
= Pθ Xk = 0 Pθ (X1 = 0)
k=2
n
!
X
+ Pθ Xk = n − 1 Pθ (X1 = 1)
k=2
= (Pθ (X1 = 0))n + (Pθ (X1 = 1))n
= θn + (1 − θ)n

qui est toujours < 1 car θ ∈]0, 1[.

Introduction à la statistique 47 / 63
Skander HACHICHA 47 / 63
Familles exponentielles

On s’intéresse ici à une famille paramétrique de probabilités


particulièrement importante et dont la notion d’exhaustivité est facile
à manipuler.
Définition
On dit qu’un modèle statistique (X , A, Pθ : θ ∈ Θ) est exponentiel
s’il existe des fonctions réelles mesurables h(x) et Tj (x), 1 ≤ j ≤ r
(dépendant seulement de x) et des fonctions réelles C(θ) et αj (θ),
1 ≤ j ≤ r (dépendant seulement de θ) telles que Pθ admette rapport
à la mesure de Lebesgue la densié f (x, θ) qui se factorise sous la
forme  
r
X
f (x, θ) = C(θ)h(x) exp  αj (θ)Tj (x)
j=1

Introduction à la statistique 48 / 63
Skander HACHICHA 48 / 63
Familles exponentielles
La famille {Pθ : θ ∈ Θ} est appelée famille exponentielle de
dimension r. La quantité T = (T1 , · · · Tr ) est appelée statistique
privilégiée du modèle.
Remarque
Dans la littérature, souvent on trouve aussi la forme suivante de la
densité
 
r
X
f (x, θ) = exp  αj (θ)Tj (x) ± (B(θ) + D(x))
j=1

c’est-à-dire, C(θ)h(x) = exp(±(B(θ) + D(x)).

Remarque
Comme f (x, θ) ≥ 0 pour tout (x, θ), on a donc C(θ)h(x) ≥ 0 et
donc C(θ) et h(x) sont du même signe constant pour tout (x, θ).
Introduction à la statistique 49 / 63
Skander HACHICHA 49 / 63
Familles exponentielles

Remarque
(Modèle d’échantillonage) Soit x = (x1 , · · · , xn ) une réalisation
d’un n− échantillon X = (X1 , · · · , Xn ) suivant le modèle statistique
(X , A, Pθ : θ ∈ Θ).
Si {Pθ : θ ∈ Θ} est une famille exponentiel alors {P⊗n θ : θ ∈ Θ} est
aussi une famille exponentiel avec densité
 
n
Y r
X n
X
f (x1 , · · · , xn , θ) = (C(θ))n h(xi ) exp  αj (θ) Tj (xi )
i=1 j=1 i=1

où les αj restent les mêmes et une statistique privilégiée est


( ni=1 T1 (xi ), · · · , ni=1 Tr (xi ))
P P

Introduction à la statistique 50 / 63
Skander HACHICHA 50 / 63
Familles exponentielles

Remarque
(Reparamétrisation) Soit λj = αj (θ), λ = (λ1 , · · · , λr ) et
K(λ) = C(θ), le modèle précédent est transformé en :
 
r
X
f (x, λ) = K(λ)h(x) exp  λj Tj (x)
j=1

appelé forme canonique du modèle statistique exponentiel et les


paramètres λj s’appellent les paramètres naturels de la famille
exponentielle et Λ = (α1 (Θ), · · · , αr (Θ)). Cette forme canonique
n’est pas unique, parce que l’on peut toujours introduire les deux
T
transformtions λj −→ cλj et Tj −→ cj avec c > 0 une constante.

Introduction à la statistique 51 / 63
Skander HACHICHA 51 / 63
Familles exponentielles

Exemple
La famille de loi Binomiale B(m, θ) est exponentiel. L’espace des
paramètres Θ =]0, 1[ et l’espace des résultats est X = {0, · · · m}.
Dans ce modèle la loi de probabilité est
θ
  
x x
fθ (x) = Cm θ (1 − θ)m−x = Cm
x
(1 − θ)m exp x log
1−θ
ce qui est clairement de la forme d’un modèle exponentiel, en prenant
θ
C(θ) = (1 − θ)m , h(x) = Cm
x
, T (x) = x, α(θ) = log( )
1−θ
La statistique privilégiée est donc T (X) = X (Dans le cas d’un
modèle d’échantillonnage, ce serait la statistique
T (X1 , · · · Xn ) = ni=1 Xi ).
P

Introduction à la statistique 52 / 63
Skander HACHICHA 52 / 63
Familles exponentielles

Exemple
La famille de loi Poisson P(θ) est exponentiel. L’espace des
paramètres Θ = R+ et l’espace des résultats est X = N. Dans ce
modèle la loi de probabilité est
θx 1
fθ (x) = e−θ = e−θ exp(x log(θ))
x! x!
ce qui est clairement de la forme d’un modèle exponentiel, en prenant
1
C(θ) = e−θ , h(x) = , T (x) = x, α(θ) = log(θ)
x!
La statistique privilégiée est donc T (X) = X (Dans le cas d’un
modèle d’échantillonnage, ce serait la statistique
T (X1 , · · · Xn ) = ni=1 Xi ).
P

Introduction à la statistique 53 / 63
Skander HACHICHA 53 / 63
Familles exponentielles

Exemple
La famille de loi Gamma G(a, λ), θ = (a, λ) est exponentiel.
L’espace des paramètres
Θ = R∗+ × R∗+ et l’espace des résultats est X = R+ .
Dans ce modèle la loi de probabilité est de densité
λa −λx a−1
fθ (x) = e x 1R∗+ (x)
Γ(a)

λa
= exp(−λx + (a − 1) log x)1R∗+ (x)
Γ(a)

Introduction à la statistique 54 / 63
Skander HACHICHA 54 / 63
Familles exponentielles

Exemple
ce qui est clairement de la forme d’un modèle exponentiel, en prenant
λa
C(θ) = , h(x) = 1, T1 (x) = x, α1 (θ) = −λ,
Γ(a)

T2 (x) = log(x), α2 (θ) = a − 1


La statistique privilégiée est donc

T (X) = (T1 (X), T2 (X)) = (X, log X)

(Dans le cas d’un modèle d’échantillonnage, ce serait la statistique


T (X1 , · · · Xn ) = ( ni=1 Xi , ni=1 log Xi )).
P P

Introduction à la statistique 55 / 63
Skander HACHICHA 55 / 63
Familles exponentielles
Exemple
La famille de loi normale N (m, σ), θ = (m, σ) est exponentiel.
L’espace des paramètres Θ = R × R∗+ et l’espace des résultats est
X = R. Dans ce modèle la loi de probabilité est de densité
1
 
2 −1/2
f (x, θ) = (2πσ ) exp − 2 (x − m)2

! !
m 2 m x 2
= (2πσ 2 )−1/2 exp − 2 exp x− 2
2σ σ2 2σ

ce qui est clairement de la forme d’un modèle exponentiel, en prenant


!
2 −1/2 m2
C(θ) = (2πσ ) exp − 2 , h(x) = 1

m 1
T1 (x) = x, α1 (θ) = 2
, T2 (x) = x2 , α2 (θ) = − 2
σ 2σ
Introduction à la statistique 56 / 63
Skander HACHICHA 56 / 63
Familles exponentielles

Exemple
La statistique privilégiée est donc

T (X) = (T1 (X), T2 (X)) = (X, X 2 )


 
m
et les paramètres naturels sont donc σ2
, − 2σ1 2 et la
reparamétrisation est donc λ1 (θ) = σm2 et λ2 (θ) = − 2σ1 2 (Dans le cas
d’un modèle d’échantillonnage, la statistique ( ni=1 Xi , ni=1 Xi2 )
P P

est privilégée)).

Introduction à la statistique 57 / 63
Skander HACHICHA 57 / 63
Factorisation caractéristique pour l’exhaustivité

Théorème
Soit (X1 , · · · , Xn ) un n-échantillon de loi appartenant à une famille
de densité
 
r
X
f (x, λ) = K(λ)h(x) exp  λj Tj (x)
j=1

Alors la statistique privilégiée


n n
!
X X
T (X1 , · · · , Xn ) = T1 (Xi ), · · · , Tr (Xi )
i=1 i=1

est exhaustive minimale et complète.

Introduction à la statistique 58 / 63
Skander HACHICHA 58 / 63
Factorisation caractéristique pour l’exhaustivité

Exemple
1 L’échantillon de loi normale N (θ, 1) alors la statistique
T (X1 , · · · , Xn ) = X est exhaustive.
2 L’échantillon de loi normale N (θ1 , θ2 ) alors la statistique
bn2 ) est exhaustive.
T (X1 , · · · , Xn ) = (X, σ
3 L’échantillon de loi de Poisson P(θ) alors la statistique
T (X1 , · · · , Xn ) = X est exhaustive.
4 L’échantillon de loi Binomiale B(m, θ) alors la statistique
T (X1 , · · · , Xn ) = X est exhaustive.
L’échantillon de loi Gamma √ G(θ1 , θ2 ) alors la statistique
5

T (X1 , · · · , Xn ) = (X,n X1 · · · Xn ) est exhaustive.

Introduction à la statistique 59 / 63
Skander HACHICHA 59 / 63
Factorisation caractéristique pour l’exhaustivité

Exemple
Soit (X1 , · · · , Xn ) un n-échantillon de loi uniforme U([−θ, θ]). La
statistique

S(X1 , · · · , Xn ) = ( min Xi , max Xi )


1≤i≤n 1≤i≤n

est exhaustive bien que la loi uniforme U([−θ, θ]) n’appartienne pas
à une famille exponentielle.

Introduction à la statistique 60 / 63
Skander HACHICHA 60 / 63
Factorisation caractéristique pour l’exhaustivité
Exemple
Soit (X1 , · · · , Xn ) un n-échantillon de loi de Pareto Pa(α, θ) de
densité
θθ1 −1
f (x, θ1 , θ2 ) = (θ1 − 1) 2 θ1 1x≥θ2
x
n’est pas dans une famille exponentielle. Mais comme la
vraisemblance de l’échantillon (X1 , · · · , Xn ) est
n
n(θ1 −1)
xi )−θ1 1max xi ≥θ2
Y
L(x1 , · · · , xn , θ1 , θ2 ) = (θ1 − 1)n θ2 (
i=1

alors la statistique
n
Y
T (X1 , · · · , Xn ) = ( max Xi , Xi )
1≤i≤n
i=1

est exhaustive
Introduction à la statistique 61 / 63
Skander HACHICHA 61 / 63
Factorisation caractéristique pour l’exhaustivité

Exemple
Pour un n-échantillon (X1 , · · · , Xn ) de loi de Cauchy C(θ, 1), il
n’existe pas de statistique exhaustive de dimension inférieur à n.

Introduction à la statistique 62 / 63
Skander HACHICHA 62 / 63
Merci

Introduction à la statistique 63 / 63
Skander HACHICHA 63 / 63

Vous aimerez peut-être aussi