ENSIA 2 - Statistique Inferentielle2
ENSIA 2 - Statistique Inferentielle2
ENSIA 2 - Statistique Inferentielle2
2023-2024
1 Echantillonnage
2 Estimation
a. Ponctuelle
b. Par intervalle de con…ance
3 Tests d’hypothèses
a. Paramètriques
b. Non paramètriques
De…nition
Soit X une v.a. sur un espace Ω. Un échantillon de X de taille n est un
n uplet (X1 , , Xn ) de v.a. indépendantes de même loi que X qui sera
appelée loi mère. Une réalisation de cet échantillon est un n uplet
(x1 , , xn ) ou Xi (ω ) = xi .
De…nition
On appelle statistique sur un n échantillon une fonction de (X1 , , Xn ) .
De…nition
La moyenne de l’échantillon ou moyenne empirique est la statistique notée
X dé…nie par
1 n
X = ∑ Xi .
n i =1
Remarque
Pour une réalisation (X1 , , Xn ) , la statistique X prendra la valeur
1 n
x = n ∑i 1 xi (c’est la moyenne arithmétique telle que nous connaissons).
Pour une autre réalisation, dans les mêmes conditions, un deuxième
échantillon donnera pour réalisation (x10 , , xn0 ) et X prendra la valeur
x 0 = n1 ∑ni 1 xi0 .
σ2
E X = µ, Var X = .
n
Remarque
La variance de X est calculée pour le cas d’un échantillon de v.a. i.i.d.
(échantillon tiré avec remise d’une population …nie ou échantillon tiré avec
ou sans remise d’une population in…nie).
Si l’échantillon est tiré sans remise d’une population …nie (tirage
exhaustif), les v.a. ne sont plus indépendantes. Dans ce cas on aura
2
Var X = σn N n N n
N 1 , et N 1 s’appelle facteur d’exhaustivité.
De…nition
e 2 dé…nie par
On appelle Variance empirique, la statistique notée S
n
e 2 = 1 ∑ Xi
S X
2
.
n i =1
Proposition
Soit X une v.a. d’écart-type σ et de moment centré d’ordre 4, µ4 . On a
h i
e2 = n
E S
1 e2 = n
σ2 , Var S
1
(n 1) µ4 (n 3) σ 4 .
n n3
Proposition
Si le tirage est e¤ectué sans remise on aura
pq N n
Var (F ) = .
n N 1
1. Méthode élémentaire
Dans une population de taille N ou chaque individu a un probabilité
1
N d’être choisi, on procède au tirage au hasard de n individu. Les
tirages sont e¤ectués en générant n nombre au hasard.
2. Tirage systématique
Il consiste à tirer un individu tous les k = Nn individus rencontrés.
Seul le premier individu est selectionné en générant un nombre entre 1
et N au hasard
3. Echantillon strati…é
On tire les individus dans des groupes homogènes de la population
que nous appelons strates.
De…nition
On appelle biais de T pour θ la valeur
bθ (T ) = E [ T ] θ.
De…nition
Un estimateur T est dit convergent si E [T ] tend vers θ lorsque n tend
vers l’in…ni. Il sera dit consistant si T converge en probabilité vers θ
lorsque n tend vers l’in…ni.
Theorem
Si T est convergent et de variance tendant vers 0 lorsque n tend vers
l’in…ni alors T est consistant.
REMITA (National School of Arti…cial Intelligence.) 2ème année ENSIA 04/02/2024 19 / 56
Estimation ponctuelle
Qualité d’un estimateur
Theorem
Soit T un estimateur du paramètre θ à étudier. On a :
h i
E (T θ )2 = Var (T ) + [T θ ]2 .
Remarque
Entre deux estimateurs sans biais, le meilleur sera celui dont la variance est
minimale. On dira que celui qui a la variance minimale est plus e¢ cace.
d [ln L (x1 , , xn ; θ )]
= 0.
dθ
Example
Dans une population, on considère une v.a. X P (λ) . on veut estimer
λ.
Pour cela on tire un échantillon de taille n. Supposons n = 6 et la
réalisation est (0, 2, 2, 3, 1, 2) , trouver l’estimation de λ par cette
méthode.
Solution
On a P (X = x ) = e λ λx ; x 2 N. La fonction de vraisemblance s’écrit
x!
n x1 xn
θθ θθ
L (x1 , , xn ; θ ) = ∏ f ( xi ; θ ) = e x1 !
e
xn !
i =1
x 1 + +x n
nθ θ
= e .
x1 ! xn !
Solution
Comme
! !
n n
ln L (x1 , , xn ; θ ) = nθ + ∑ xi ln θ ln ∏ xi !
i =1 i =1
on a
d ∑ni=1 xi
ln L (x1 , , xn ; θ ) = n+ =0
dθ θ
1 n
=) eθ = ∑ xi .
n i =1
Solution
On peut véri…er que e θ représente bien le maximum. Alors, pour la
réalisation (0, 2, 2, 3, 1, 2) on a
1 n 10
θ = ∑ xi =
e = 1, 67.
n i =1 6
Example
On souhaite estimer les paramètres et d’une loi normale à partir d’un
n-échantillon.
Solution
(x µ )2
On a f (x, µ, σ) = p1 e 2σ2 . La fonction de vraisemblance s’écrit
σ 2π
( )
n 2
n
1 ∑ni=1 (xi µ)
L (x1 , , xn ; θ ) = ∏ f (xi ; µ, σ) = p
σ 2π
exp
2σ2
.
i =1
d’où r r
p (1 p)
p (1 p )
fn u 2α p fn + u 2α
n n
nous remarquons que les bornes contiennent p qui est à estimer, il su¢ t
pour cela de remplacer p par fn et donc l’intervalle de con…ance s’écrit
alors r r
fn ( 1 fn ) fn ( 1 fn )
fn u 2α p fn + u 2α .
n n
σ connu
Si la distribution de la v.a. X est normale ou si X suit une distribution
quelconque avec n grand (n 30), on peut a¢ rmer que X suit une
N µ, pσn . L’intervalle de con…ance est donné par
!
X µ
P u 2α u 2α = Φ u 2α Φ u 2α = 2Φ u 2α 1,
pσ
n
1 +(1 α)
c’est à dire Φ u 2α = 2 , où Φ est la fonction de répartition de la
loi N (0, 1) . h i
Alors l’intervalle de con…ance est X u 2α pσn ; X + u 2α pσn .
1 +(1 0,005 )
Si on prend α = 0, 05 on a Φ u 2α = 2 = 0, 975. La table
donne u 2α = 1, 96. On obtient alors
σ σ
P X 1, 96 p µ X + 1, 96 p = 0, 95
n n
Dans la majorité des cas, lorsque dans une population µ est inconnu, σ
l’est aussi. Pour estimer le paramètre θ = µ la relation précédente n’est
X µ
plus valable. On utilise la v.a. T = pS
Tn 1 (Student à n 1
n 1
degrés de liberté). On obtient alors
!
X µ
P t 2α t 2α =1 α,
pS
n 1
Example
La taille moyenne d’un échantillon aléatoire de 40 personnes extrait d’une
population de 780 individus est de 1, 70m. L’écart-type pour toute la
population vaut 24cm. Trouver l’intervalle de con…ance pour la taille
moyenne de la population à 95%.
Example
500 étudiants se présentent à un examen. Un échantillon aléatoire de 38
notes donne une moyenne égale à 8, 65 et un écart-type égal à 2, 82.
Trouver l’intervalle de con…ance pour la moyenne des notes de la
population à 90%, 95% et 99%.
nS 2 nS 2 α
P σ2 s12 = P σ2 =P b =
b σ2 2
et
nS 2 nS 2 α
P σ2 s12 = P σ2 =P a = ,
a σ2 2
les valeurs a et b seront déterminées par la lecture de la table du χ2 .
P W H0 = 1 α et P ( W / H1 ) = 1 β.
(nij Cij )2
∑ Cij
= χ2c χ2 (ν) où ν = (l 1) (k 1) .
i ,j
Example
On désire comparer l’e¢ cacité de deux médicaments ayant des prix
di¤érents, pour cela la sécurité sociale a e¤ectué une enquête sur les
guérisons obtenues. Les résultats sont résumés dans le tableau suivant :
Médicament Générique
Guéris 48 158
Non guéris 6 44
au risque α.
Sous H0 la v.a. p
R n 2
T = p T (ν = n 2) .
1 R2
On calculera p
r n 2
tc = p
1 r2
puis on déterminera tα ou t 2α de la table de la loi de students à ν = n 2
degrés de liberté et on adoptera la règle de décision suivante :
- Si H1i: ρ 6= 0 h(cas bilatéral) : rejet de H0 au risque α si
tc 2
/ t 2α ; t 2α ;
- Si H1 : ρ > 0 (cas unilatéral 1) : rejet de H0 au risque α si
tc > tα ;
- Si H1 : ρ < 0 (cas unilatéral 2) : rejet de H0 au risque α si
tc < tα .
On utilise le test pour des variables X et Y continues, dont les lois sont
quelconques.
Procédure:
- On range par ordre croissant, séparément, les valeurs
fx1 , , xn g et fy1 , , yn g .
- On remplace chaque valeur xi par son rang xi0 et chaque
valeur yi par son rang yi0 . S’il y’a des valeurs ex-aequo on
attribue à chacun un rang égal à la moyenne des rangs qu’ils
occupent.
2
6 ∑(xi0 yi0 )
- On calcule le nombre rS = 1 n (n 2 1 )
à partir des
couples des rangs.
Décision:
1 Si n 13.
Pour un risque α on détermine la valeur de rα telle P (jRS j > rα ) = α
lue dans la table de Spearman.
- Si jrS j > rα on rejette H0 avec un risque α de se
tromper.
2 Si n > 13. p
Dans ce cas si H0 est vraie, la statistique T = RpS n 2
suit
1 R s2
approximativement la loi de Student à n 2 ddl. La décision se fera à
l’aide la table du coe¢ cient de corrélation linéaire qui donne la valeur
de rα telle que P (jRS j > rα ) = α.
Example
Un traitement prolongé par un médicament (durée X en jours) peut
provoquer une diminution Y du nombre de plaquettes sanguines (dans
10 4 ml). On dispose des observations suivantes :
X 2 4 10 10 10 14 14 18 18 20
Y 25 20 10 25 25 10 15 5 15 5
H0 : L = L0 contre H1 : L 6= L0 .
Ci = n P (X 2 classei /X L0 ) .
Classe 1 2 i k
E¤ectif observé O1 O2 Oi Ok
E¤ectif théorique C1 C2 Ci Ck
Dn = sup jFn (x ) F (x )j ,
x 2R
Faces 1 2 3 4 5 6
E¤ectifs 15 7 4 11 6 17
Le dé est-il truqué ?
Example
On réalise des essais de gre¤age sur 3000 échantillon comportant chacun 6
arbustes identiques sur lesquels on implante un gre¤on. On note X la v.a.
qui prend pour valeurs le nombre x de réussite dans chaque échantillon.
Nombre de réussites 0 1 2 3 4 5 6
Nombre d’échantillons 702 977 710 402 153 48 8
Est-ce que l’hypothèse que la v.a. X suit une loi de Poisson de paramètre
λ inconnu est acceptable au risque α = 0, 05?
REMITA (National School of Arti…cial Intelligence.) 2ème année ENSIA 04/02/2024 54 / 56
Test de conformité à une loi théorique
Test de normalité
C’est une méthode pour visualiser les chances qu’a une distribution d’être
gaussienne. Elle permet la lecture rapide de sa moyenne et de écart-type.
où yi = xi σ x .
Pour chaque valeur de xi de la v.a. X , on peut calculer P (X xi ) puis en
déduire yi tel que Φ (yi ) = P (X xi ) .
Si la variable est gaussienne, les points de coordonnées (xi , yi ) sont alignés
sur la droite d’équation y = x σ x .
Example
On relève la taille de 300 individus et on obtient le tableau suivant :