SI Cours 0809
SI Cours 0809
SI Cours 0809
D ÉPARTEMENT G.I.S.
2008-2009
Statistiques inférentielles
Julien JACQUES
http ://math.univ-lille1.fr/∼jacques/
2
Table des matières
1 Statistique descriptive 7
1.1 Un exemple de données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2 Variables uni-dimensionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2.1 Les différents types de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2.2 Résumés numériques de variables quantitatives . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2.3 Représentation graphique pour variable quantitatives . . . . . . . . . . . . . . . . . . . . . 9
1.2.4 Représentation graphique pour variables qualitatives . . . . . . . . . . . . . . . . . . . . . 12
1.3 Variables multi-dimensionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.3.1 Liaison entre deux variables quantitatives . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.3.2 Liaison entre une variable quantitative et une variable qualitative . . . . . . . . . . . . . . . 14
1.3.3 Liaisons entre deux variables qualitatives . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2 Echantillonnage 17
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2 Fonction de répartition empirique, statistiques d’ordre . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2.1 Fonction de répartition empirique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2.2 Statistique d’ordre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.3 Moments empiriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.3.1 Définition des moments empiriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.3.2 Etude de la statistique X̄ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.3.3 Etude de la statistique V 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.3.4 Cas des échantillons gaussiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.3.5 Application : carte de contrôle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3 Estimation 23
3.1 Qualité d’un estimateur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.2 Estimateur exhausif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.3 Estimation sans biais de variance minimale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.4 Méthode du maximum de vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.5 Estimation par intervalles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.5.1 Rappel sur les lois du χ2 , de Student et de Fisher-Snedecor . . . . . . . . . . . . . . . . . . 27
3.5.2 Intervalle de confiance sur l’espérance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.5.3 Intervalle de confiance sur la variance d’une loi normale . . . . . . . . . . . . . . . . . . . 29
3.5.4 Intervalle de confiance sur une proportion . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.5.5 Récapitulatif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.6 Un peu de culture sur l’estimation statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.6.1 Estimation bayésienne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.6.2 Estimation robuste : cas de la valeur centrale d’une distribution symétrique . . . . . . . . . 32
3.6.3 Estimation fonctionnelle : estimation de la densité . . . . . . . . . . . . . . . . . . . . . . 32
3
4 Tests statistiques 35
4.1 Introduction : test sur l’espérance d’une loi normale de variance connue . . . . . . . . . . . . . . . 35
4.2 Théorie des tests paramétriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.2.1 Vocabulaire des tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.2.2 Probabilité d’erreur et risque . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.2.3 Choix optimal de la statistique de test et de la région de rejet . . . . . . . . . . . . . . . . . 37
4.2.4 Résumé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4.2.5 p-value . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4.3 Tests sur un paramètre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4.3.1 Test sur la moyenne d’une population . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4.3.2 Test sur la variance d’une population . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.3.3 Test sur une proportion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.4 Tests de comparaison d’échantillons indépendants . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.4.1 Cas de deux échantillons gaussiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.4.2 Echantillons non gaussiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.4.3 Tests de comparaison de deux proportions, pour de grands échantillons . . . . . . . . . . . 42
4.5 Analyse de variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.5.1 Analyse de variance à un facteur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.5.2 Analyse de variance à deux facteurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.6 Tests d’ajustement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.6.1 Quelques méthodes empiriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.6.2 Ajustement graphiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.6.3 Test d’ajustement du χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.6.4 Test du χ2 de comparaison de k échantillons de données qualitatives . . . . . . . . . . . . . 47
Ce support de cours de statistique inférentielle est destiné aux étudiants de 3ème année du département Génie
Informatique et Statistique de Polytech’Lille.
Ce manuel n’est pas un cours en lui même, car il ne contient que les définitions et théorèmes vu en cours. Les
démonstrations, exercices et applications vus en cours, indispensables à la compréhension de ce cours, ne figurent
pas dans ce manuel.
5
6 TABLE DES MATIÈRES
Chapitre 1
Statistique descriptive
Définition 1.2.1. – une variable est quantitative si ses valeurs sont mesurables. Elle peut être continue (R) ou
discrète (N).
– une variable est qualitative si ses valeurs ne sont pas des valeurs numériques, mais des caractéristiques,
appelées modalités.
– une variable qualitative est dite ordinale si ses valeurs sont naturellement ordonnées (mention au bac, ap-
préciation, classe d’âge...). Dans le cas contraire elle est dite nominale (sexe, couleur des cheveux...).
7
8 CHAPITRE 1. STATISTIQUE DESCRIPTIVE
Caractéristiques de dispersion
L’étendue, ou intervalle de variation est la différence entre les deux valeurs extrêmes : xmax − xmin .
Les 1er et 3ème quartiles q1 et q3 sont définis par F (q1 ) = 0.25 et F (q3 ) = 0.75. L’intervalle inter-quartile
[q1 , q3 ] contient donc 50% des données.
Bien que l’intervalle inter-quartile soit moins sensible aux valeurs extrêmes que l’étendue, il n’est pas très souvent
utilisé. On utilise plus souvent la variance s2 et sa racine carré s l’écart-type :
n n
1X 1X 2
s2 = (xi − x̄)2 = x − x̄2
n i=1 n i=1 i
Caractéristiques de forme
Elles permettent de situer la distribution observée par rapport à une distribution gaussienne.
Le coefficient d’asymétrie γ1 (skewness) est nul pour une distribution symétrique :
1
Pn
n i=1 (xi − x̄)3
γ1 = .
s3
Un γ1 positif indique une distribution décalée vers la gauche avec une queue de distribution étendue vers la droite.
Le coefficient d’applatissement γ2 (kurtosis) vaut 3 pour une distribution gaussienne :
1
Pn
n i=1 (xi − x̄)4
γ2 =
s4
Si la distribution est plus applatie qu’une gaussienne, le coefficient d’applatissement sera supérieur à 3.
Attention : certains logiciels et/ou auteurs soustraient 3 à γ2 pour le comparer directement à 0.
Une boîte à moustaches (figure 1.1) rèsume la série de données à l’aide des caractéristiques suivantes :
– la mediane est le trait centré au milieu de la boîte,
– la boîte est formée par les 1er quartile q1 et 3ème quartile q3 ,
– les moustaches sont les limites de l’intervalle défini par [q1 − 1.5(q3 − q1 ), q3 + 1.5(q3 − q1 )],
– les ◦ représentent les valeurs extrêmes non contenues dans l’intervalle précédent.
Cette représentation permet également de comparer facilement la distribution de différentes variables, ou encore
de la même variable pour différentes modalités d’une autre variable (figure 1.2). On remarque ainsi que parmi les
clients de la banque allemande les femmes divorcées, spéarées ou mariées ainsi que les hommes mariés ou veufs
sont généralement moins agés que les hommes célibataires, divorcés ou séparés.
Histogramme
Un histogramme est un graphique en barres verticales accolées obtenu après découpage en classes des données.
La surface de chaque barre est proportionnelle à la fréquence de la classe. Pour des classes de même largeur, c’est
la hauteur de la barre qui est proportionnelle à la fréquence de la classe. La surface de l’ensemble des barres vaut 1.
L’histogramme d’une série de données peut s’apparenter à la courbe de densité d’une variable aléatoire. Ainsi, sa
visualisation permet d’avoir un avis sur la nature de la distribution des données. Par exemple (figure 1.3), la variable
âge ne semble pas suivre une loi normale.
Attention : sur un histogramme figurent en ordonnées des fréquences et non pas des effectifs !
10 CHAPITRE 1. STATISTIQUE DESCRIPTIVE
70
60
50
40
30
20
F IG . 1.2 – Boîte à moustaches illustrant la distribution des âges des clients suivant les différents statut maritaux.
0.04
0.03
Density
0.02
0.01
0.00
20 30 40 50 60 70
data[, 13]
ecdf(x)
1.0
0.8
0.6
Fn(x)
0.4
0.2
0.0
20 30 40 50 60 70 80
A92
A91
A94
A93
5000
0
10 20 30 40 50 60 70
data[, 2]
Lorsque le nombre p de données quantitatives est supérieur à 2 on travaille avec des matrices de variance
de taille p × p, composées des variances sur la diagonale et des covariances en dehors de la diagonale. On parle
14 CHAPITRE 1. STATISTIQUE DESCRIPTIVE
Il arrive fréquement que l’on constate une corrélation étonnante entre deux variables. Ce phénomène arrive
lorsque la corrélation est en fait due à une troisième variable. On cite souvent l’exemple du nombre de maladies
mentales (x) corrélé positivement avec le nombre de posted de radio (y), corrélation pûrement fictive étant en fait
due à une troisième variable non aléatoire, le temps (t). Pour remédier à ce phénomène on utilise le coefficient de
corrélation partielle (ou conditionnel) :
R R
1X 1X
s2 = nj (ȳj − ȳ)2 + nj s2j
n j=1 n j=1
| {z } | {z }
s2E :variance inter (between) ou expliquée s2R :variance intra (within) ou résiduelle
Les nr· et n·c sont les marges, ou effectifs marginaux, en lignes et en colonnes.
On appelle r-ème profil-ligne l’ensemble des fréquences de la variables y conditionnelles à la modalités xr de x :
nr1 nrc nrC
{ ,··· , ,··· , }.
nr· nr· nr·
1.3. VARIABLES MULTI-DIMENSIONNELLES 15
Le χ2 est toujours positif ou nul, et il est d’autant plus grand que la liaison est forte. Malheureusement cet indice
dépend des dimensions R et C ainsi que de l’effectif total n. D’autres indicateurs sont alors utilisés comme :
2
– le Φ2 = χn qui dépend encore de C et de R,
– le C de Cramer s
Φ2
C=
inf (R, C) − 1
qui est compris entre 0 et 1,
– le T de Tschuprow s
Φ2
T =
(R − 1)(C − 1)
qui est compris entre 0 et 1 et est inférieur au C de Cramer.
Echantillonnage
La problématique de l’inférence statistique consiste, à partir d’un échantillon de données provenant d’une
population de loi de probabilité inconnue, à déduire des propriétés sur la population : quelle est sa loi (problème
d’estimation, chapitre 3), comment prendre une décision en contrôlant au mieux le risque de se tromper (problème
de test, chapitre 4).
2.1 Introduction
Un échantillonnage correspond à des tirages indépendants et équiprobables d’individus au sein de la population.
On associe alors à chaque individu i une variable aléatoire Xi , dont on observe une seule réalisation xi .
Définition 2.1.1. Un échantillon x1 , . . . , xn est la réalisation d’un n-uplet (X1 , . . . , Xn ) où les Xi sont des va-
riables aléatoires indépendantes et identiquement distribuées (même loi).
Par simplicité nous employons régulièrement le terme échantillon pour signifier à la fois l’échantillon d’obser-
vations x1 , . . . , xn et le n-uplet aléatoire (X1 , . . . , Xn ).
Il est fréquent de caractériser un échantillon par des quantités telle que la moyenne, variance, etc. Ces quantités sont
elles-mêmes des variables aléatoires fonction de X1 , . . . , Xn .
Définition 2.1.2. Une statistique T est une variable aléatoire fonction (mesurable) de X1 , . . . , Xn .
17
18 CHAPITRE 2. ECHANTILLONNAGE
H1 (y) = 1 − (1 − F (y))n
h1 (y) = n(1 − F (y))n−1 f (y)
Hn (y) = (F (y))n
h1 (y) = n(F (y))n−1 f (y)
Ces propriétés nous permettent de détecter des valeurs aberrantes (trop petite ou trop grande) dans un échan-
tillon.
Exercice. (i) Quelle est la probabilité qu’une observation d’une variable aléatoire de loi N (µ, σ 2 ) dépasse µ +
3σ ?
(ii) Et parmi un échantillon de taille 100, quelle est la probabilité d’avoir une telle observation ?
(iii) Parmi un échantillon de taille 100 de loi N (0, 1), quelle valeur ne doit pas être dépassée avec une probabilité
de 99.9% ?
Définition 2.3.2. On appelle variance empirique de l’échantillon (X1 , . . . , Xn ) la statistique V 2 définie par :
n
1X
2
V = (Xi − X̄)2 .
n i=1
De façon plus général, on appelle moment centré empirique d’ordre k la statistique Mk définie par
n
1X
Mk = (Xi − X̄)k .
n i=1
σ2
E[X̄] = µ et V (X̄) = .
n
Nous verrons plus tard que la première propriété fait de X̄ un estimateur sans biais de l’espérance µ de la population.
On peut montrer également que les coefficients d’asymétrie (skewness) et d’aplatissement (kurtosis) de X̄ sont
respectivement
γ1 γ2 − 3
γ1 (X̄) = √ et γ2 (X̄) = 3 +
n n
2.3. MOMENTS EMPIRIQUES 19
X̄ − µ L
√ −→ N (0, 1)
σ/ n
Exercice. On suppose avoir sondé 1000 personnes, et que 300 ont déclaré voter pour C.
Sachant que la probabilité pour qu’une variable aléatoire de loi normale centrée réduite appartienne à [−1.96, 1.96]
est de 0.95, donner un intervalle (de confiance) auquel la variable aléatoire X̄ a 95% de chance d’appartenir.
Enfin, un théorème limite nous assure que la statistique V 2 converge en loi vers une loi normale :
V 2 − n−1 σ2 L
p n −→ N (0, 1)
V (V 2 )
µ4 −σ4
A noter que lorsque n → ∞, on a l’équivalence V (V 2 ) ∼ n , d’où l’approximation suivante :
V 2 − σ2 L
p −→ N (0, 1)
µ4 − σ 4
En appliquant le théorème de Cochran sur les formes quadratiques à cette décomposition, on en déduit les deux
théorèmes suivants.
n 2
Théorème 2.3.1. (X1 , . . . , Xn ) est un échantillon gaussien =⇒ σ2 V ∼ χ2n−1 .
Théorème 2.3.2. X̄ et V 2 sont indépendants ⇐⇒ (X1 , . . . , Xn ) est un échantillon gaussien.
X̄−µ
Application : nous verrons dans le chapitre 4 que la statistique √σ est utilisée pour tester la moyenne µ d’une
n
population.
X̄−µ
X̄ − µ √σ
n X̄ − µ √
T = =q = n−1
√V nV 2 V
n−1 (n−1)σ2
généralement par une loi normale), erreur de mesure, dérive du processus (déréglage de la machine)...
Dans un cas normal de fonctionnement, le poids X d’une pièce est donc supposé suivre une loi N (µ0 , σ02 ), où µ0
et σ0 sont deux valeurs nominales négociées entre le client et le producteur.
On prélève à différents temps de production un échantillon de n pièces, et on reporte sur la carte 2.1 la valeur de X̄
ainsi obtenue.
µ0
times
La ligne centrale correspond à une production parfaitement réglée. Les deux limites de contrôles sont fixées à
µ0 ± 3 σn0 . Si un point sort des limites, il faudra intervenir sur la production pour chercher d’où vient le problème.
Une telle carte de contrôle est généralement associée à une carte sur S, fonctionnant de la même façon. Et il en
existe encore beaucoup d’autres.
22 CHAPITRE 2. ECHANTILLONNAGE
Chapitre 3
Estimation
Nous avons étudié au paragraphe précedent les deux statistiques X̄ et S 2 . Les lois des grands nombres nous
assure que les valeurs x̄ et s2 de ces statistiques pour un échantillon donné sont de bonnes estimations de la moyenne
µ et la variance σ 2 de la population :
p.s. p.s.
X̄ −→ µ et S 2 −→ σ 2
De même la fréquence empirique f d’un évenement est une bonne estimation de sa probabilité p.
Les variables aléatoires X̄, S 2 et F sont des estimateurs de µ, σ 2 et p.
Définition 3.0.3. On appelle estimateur d’un paramètre θ d’une population, toute fonction
Tn = f (X1 , . . . , Xn )
Un estimateur est une variable aléatoire (c’est une fonction de variable aléatoire).
Il est cependant possible d’utiliser plusieurs estimateurs pour une même quantité (pour une distribution sym-
métrique, la médiane est également un estimateur de µ). Nous allons donc présenter dans le paragraphe suivant les
qualités d’un estimateur.
Définition 3.1.1. Un estimateur Tn est faiblement consistant s’il converge en probabilité vers θ quand n tend vers
l’infini
n→∞
∀ǫ > 0 P (|Tn − θ| ≥ ǫ) −→ 0
Un estimateur Tn est fortement consistant s’il converge presque-sûrment vers θ quand n tend vers l’infini
P lim Tn = θ = 1
n→∞
23
24 CHAPITRE 3. ESTIMATION
On mesure également la précision d’un estimateur Tn par l’erreur quadratique moyenne E[(Tn − θ)2 ], qui se
décompose sous la forme
Ainsi, de deux estimateurs sans biais, le plus performant sera celui de variance minimale. Nous chercherons donc
généralement à utiliser des estimateurs sans biais de variance minimale.
Exemple. On peut montrer que lorsque µ est connue, l’estimateur V 2 est meilleur que S 2 .
Exercice. Proposer 2 estimateurs pour le paramètre d’une loi de Poisson et determiner le meilleur.
Soit Tn une statistique fonction de X1 , . . . , Xn de loi g(t, θ) (densité dans le cas continu, P (T = t) dans le cas
discret).
En d’autre terme, elle est exhaustive si la loi de l’échantillon sachant T = t ne dépend pas de θ
Cela veut dire que si T est connue, l’échantillon n’apportera plus aucune autre information supplémentaire sur
θ.
Pn
Exemple. Pour la loi normale de moyenne connue µ, la statistique T = i=1 (Xi − µ)2 est exhaustive pour σ 2 .
Théorème 3.2.1 (de Darmois). Soit X1 , . . . , Xn un échantillon dont le domaine de définition de la loi ne dépend
pas de θ. Une condition nécessaire et suffisante pour que l’échantillon admette une statistique exhaustive est que la
densité soit de la forme :
La notion d’exhaustivité renseigne sur le pouvoir d’une statistique à véhiculer l’information contenue dans
un échantillon vis-à-vis d’un paramètre inconnu θ que l’on cherche à estimer. La quantité d’information sur le
paramètre apportée par l’échantillon s’exprime elle par l’information de Fisher.
Définition 3.2.2. On appelle quantité d’information de Fisher In (θ) apportée par un n-échantillon sur le paramètre
θ la quantité suivante (si elle existe) :
" 2 #
∂lnL
In (θ) = E
∂θ
Définition 3.3.2. Un estimateur qui atteint la borne de Cramer-Rao est dit efficace. Autrement dit, un estimateur
est efficace s’il n’est pas possible de trouver un estimateur sans biais de variance plus faible.
Théorème 3.3.6 (efficacité). – la borne de Cramer-Rao ne peut être atteinte que si la loi de l’échantillon est
de la famille exponentielle :
f (x, θ) = exp[a(x)α(θ) + b(x) + β(θ)]
– dans ce cas il n’existe qu’une seule fonction du paramètre θ (à une transformation linéaire près) qui puisse
être estimée efficacement, c’est
β ′ (θ)
h(θ) = − ′
α (θ)
La recherche d’estimateur sans biais de variance minimale passe donc par la recherche d’estimateur exhaustif.
Or cette recherche peut ne pas aboutir. La méthode du maximum de vraisemblance permet néanmoins d’obtenir de
bons estimateurs.
∂
lnL(X1 , . . . , Xn ; θ) = 0
∂θ
Propriété 3.4.1. (i) S’il existe une statistique exhaustive U , alors l’EMV en dépend.
(ii) Si θ̂ est l’EMV, f (θ̂) est l’EMV de f (θ)
(iii) Il existe une suite θ̂n de racines de l’équation de vraisemblance qui converge presque sûrement vers θ. de
plus, il existe un rang à partir duquel le maximum est atteint.
L 1
(iv) θ̂n −→ N (θ, In (θ) ).
La dernière propriété nous assure que l’EMV est asymptotiquement efficace. Il est donc important d’avoir un
échantillon important pour utiliser cette estimateur.
Lorsque le modèle comporte plusieurs paramèteres θ1 , . . . , θp , il sera nécessaire de résoudre le système d’équation
simultanées
∂
lnL = 0 ∀1 ≤ i ≤ p
∂θi
Remarque 3.4.1. – L’équation de vraisemblance n’a pas nécessairement une unique racine.
– La solution de l’équation de vraisemblance n’est pas toujours calculable analytiquement. Dans ce cas, des
algorithmes de recherche de maximum (de type Newton) peuvent être utilisés.
3.5. ESTIMATION PAR INTERVALLES 27
Considérons un estimateur T de θ dont on connait la loi de probabilité. On prendra bien entendu le meilleur
estimateur possible, dès lors que sa loi est connue. Connaissant la loi de T qui dépend de θ, pour une valeur estimée
t de θ il est possible de déterminer un intervalle tel que :
Ainsi, la vraie valeur (inconnue) du paramètre θ sera dans l’intervalle [t1 (t, α), t2 (t, α)] avec une probabilité 1 − α.
On dit que [t1 (t, α), t2 (t, α)] est un intervalle de confiance de niveau 1 − α, que l’on note IC1−α (θ).
A contrario, le risque α est la probabilité pour que l’intervalle de confiance ne comprenne pas θ.
Soit a et b les bornes d’un intervalle de confiance IC1−α (θ) de niveau de confiance 1 − α pour le paramètre θ.
On a :
p(a ≤ θ ≤ b) = 1 − α et donc p(θ < a) + p(θ > b) = α
En posant α = α1 + α2 , il existe une infinité de choix possibles pour α1 et α2 , et donc de choix pour a et b. Nous ne
considérerons que le cas d’un intervalle bilatéral à risques symétriques, pour lesquels le risque est partagé en deux
parts égales α1 = α2 = α2 . Néanmoins, il arrive en pratique que l’on s’intéresse à des risque unilatéraux, mais nous
en parlerons plus en détail dans le chapitre 4 sur les tests statistiques.
Après quelques rappels sur les principales lois de probabilités dont nous aurons besoin, nous décrivons les
intervalles de confiance les plus classiques. Mais faut garder à l’esprit que ce ne sont pas les seuls, et que dès lors
que l’on connait la loi de l’estimateur, il est possible de donner un intervalle de confiance.
E[χ2n ] = n et V (χ2n ) = 2n
Définition 3.5.2. Soient X et Y deux variables aléatoires indépendantes de lois du χ2n et χ2p . On appelle loi de
Fisher de paramètres n et p, notée Fn,p , la loi de la variable
X
n
F = Y
.
p
28 CHAPITRE 3. ESTIMATION
Définition 3.5.3. Soient U une variable aléatoire normale centrée réduite et X une variable aléatoire de loi du
χ2n , indépendante de U . On appelle loi de Student à n degrés de liberté, notée tn , la loi de la variable aléatoire
Tn = √UX
n
X̄ − µ
T = ∼ N (0, 1).
√σ
n
En prenant des risques symétriques, on peut lire dans les tables les quantiles u α2 et u1− α2 de la loi normale centrée
réduite d’ordres respectifs α2 et 1 − α2 , tels que :
p(u α2 ≤ T ≤ u1− α2 ) = 1 − α
ou encore
α
p(T ≤ u α2 ) = p(T ≥ u1− α2 ) = .
2
La notion de quantile est définie de la façon suivante :
Définition 3.5.4. pour une variable aléatoire continue X, le nombre qα tel que
p(X < qα ) = α,
0.5
0.45
0.4
0.35
0.3
0.25
0.2
0.15
0.1 α α
2 2
0.05
0
−4 −3 u−2α −1 0 1 u21−α 3 4
2 2
α α
F IG . 3.1 – quantiles d’ordre 2 et 1 − 2 de la loi normale centrée réduite
u1− α2 = −u α2 . (3.1)
3.5. ESTIMATION PAR INTERVALLES 29
Ces quantiles sont donnés par les tables statistiques. Par exemple, pour α = 0.05, pour lequel on obtient u α2 =
−1.96.
D’après (3.1),
p(u α2 ≤ T ≤ u1− α2 ) = 1 − α,
peut s’écrire
p(u α2 ≤ T ≤ −u α2 ) = 1 − α,
d’où on tire
σ σ
p(X̄ + u α2 √ ≤ µ ≤ X̄ − u α2 √ ) = 1 − α,
n n
d’où l’intervalle de confiance :
σ σ
IC1−α (µ) = [X̄ + u α2 √ , X̄ − u α2 √ ].
n n
Pour une réalisation numérique x1 , ..., xn du n-échantillon X1 , ..., Xn , on obtient l’intervalle de confiance sur m au
niveau de confiance 1 − α :
σ σ
IC1−α (µ) = [x̄ + u α2 √ , x̄ − u α2 √ ]. (3.2)
n n
Intervalle de confiance sur l’espérance d’une loi normale avec variance inconnue
Si la variance σ 2 est inconnue, on utilise a sa place son meilleur estimateur S 2 .
Comme on sait que σn2 V 2 suit une loi du χ2 à n − 1 degrés de liberté, n−1 2 n 2
σ2 S σ2 V aussi.
La statistique que l’on utilise est donc
X̄ − µ
Tn−1 = S .
√
n−1
on trouve qu’elle suit une loi de Student à n − 1 degrés de liberté, comme rapport d’une loi normale centrée réduite
sur la racine d’un χ2 divisé par son degré de liberté.
Comme précédemment, on obtient l’intervalle de confiance :
S S
IC1−α (µ) = [x̄ + tn−1, α2 √ , x̄ − tn−1, α2 √ ],
n n
α
où tn−1 est le quantile d’ordre 2 de la loi de Student à n − 1 degrés de liberté.
On obtient une estimation numérique de cet intervalle en remplaçant Vµ2 par sa valeur sur le n-échantillon de X
obtenu par expérience.
Intervalle de confiance sur la variance d’une loi normale lorsque µ est inconnue
Si µ est inconnue, on utilise l’estimateur de σ 2 :
Pn
(Xi − X̄)2
S 2 = i=1 .
n−1
n−1 2
La propriété qui nous assure que σ2 S suit un loi du χ2n−1 nous permet de construire l’intervalle de confiance :
(n − 1)S 2 (n − 1)S 2
IC1−α (σ 2 ) = [ , ],
χ2n−1,1− α χ2n−1, α
2 2
(n − 1)s2 (n − 1)s2
IC1−α (σ 2 ) = [ , ].
χ2n−1,1− α χ2n−1, α
2 2
Remarque 3.5.2. Ces intervalles de confiance ne sont valable que pour une loi normale. Il n’est pas possible
d’étendre ces résultats au cas d’autre loi comme pour les intervalles de confiance sur la moyenne.
n
suit une loi N (0, 1).
On obtient alors, en fonction des quantiles p(u α2 ≤ T ≤ −u α2 ) = 1 − α, l’intervalle de confiance sur p :
r r
p(1 − p) p(1 − p)
IC1−α (p) = [F + u α2 , F − u α2 ].
n n
3.6. UN PEU DE CULTURE SUR L’ESTIMATION STATISTIQUE 31
Cet intervalle recouvre p avec la probabilité 1 − α, mais il est toutefois inopérant puisque ses bornes dépendent de
p. En pratique, il existe trois façons d’obtenir l’intervalle de confiance. Nous retiendrons celle qui remplace p par
son estimateur F .
Ainsi, on obtient l’intervalle de confiance sur la proportion p en fonction de la valeur f de F sur notre échantillon :
r r
f (1 − f ) f (1 − f )
IC1−α (p) = [f + u α2 , f − u α2 ].
n n
3.5.5 Récapitulatif
Intervalle de confiance d’une moyenne
IC1−α (µ)
loi normale ou n ≥ 20
σ 2 connue σ 2 inconnue
[x̄ + u α2 √σn , x̄ − u α2 √σn ] [x̄ + tn−1, α2 √Sn , x̄ − tn−1, α2 √Sn ]
IC1−α (σ 2 )
loi normale
µ connue µ inconnue
nVµ2 nVµ2 2 2
[ χ2n,1− α
, α ] [ χ(n−1)s
2 , (n−1)s
χ2
]
χ2n , 2 n−1,− α
2
α
n−1,
2
2
IC1−α (p)
np > 5 et n(1 − p) > 5
q q
[f + u α2 f (1−f
n
)
, f − u α
2
f (1−f )
n ]
L(x1 , . . . , xn ; θ)g(θ)
g(θ|X1 = x1 , . . . , Xn = xn ) = R .
R
L(x1 , . . . , xn ; θ)g(θ)dθ
32 CHAPITRE 3. ESTIMATION
Application : estimation bayésienne de la moyenne d’une loi normale de variance connue On suppose que la
loi de l’échantillon conditionnellement à µ est N (µ, σ 2 ), et que la loi a priori de µ est également une loi normale
N (µ0 , σ02 ).
Le calcul de la loi a posteriori donne une loi normale d’espérance et de variance :
σ2 2 σ2 σ02
n µ0 + σ0 X̄ n
E[θ|X1 , . . . , Xn ] = σ 2 2
et V (θ|X1 , . . . , Xn ) = σ2
n + σ0 n + σ02
L’estimateur bayesien de µ, qui est l’espérance a posteriori est donc une moyenne pondérée de l’espérance a priori
et de la moyenne empirique des observations.
Introduisons le concept de précision, comme l’inverse de la variance. La précision a priori sur µ est η1 = σ12 et sur la
0
+η2 X̄
moyenne empirique elle est η2 = σn2 . On voit alors que E[θ|X1 , . . . , Xn ] = η1 ηµ10+η2
et V (θ|X11,...,Xn ) = η1 + η2 .
L’estimateur bayesien de µ est donc la moyenne pondérée des deux estimations (a priori et empirique) pondérées
par leur précision. Si l’information a priori est très précise, les observations n’auront peu d’influence dans l’estima-
teur bayésien. Au contraire si la précision a priori tend vers 0 ou si n tend vers l’infini, l’estimateur bayésien est
l’estimateur classique X̄
Cette application fonctionne très bien car la loi a posteriori se calcule facilement. Mais pour des lois quel-
conques, les calculs sont généralement beaucoup plus compliqué, et la loi a posteriori doit être estimé par des
algorithmes spécifiques.
La statistique bayésienne peut être vu comme un raffinement de la statistique classique, mais le choix de la loi a
priori peut être très problématique et reste toujours subjectif. Néanmoins, pour les problèmes statistique dans les-
quels on dispose de peu de données (fiabilité de systèmes très rarements défaillant par exemple), l’incorporation
d’une information a priori (« jugement d’epxert ») peut s’avérer très intéressante.
La première approximation « rustique »de la densité est l’histogramme. L’histogramme est un graphique en baton,
n
dont la hauteur pour une classe j est proportionnelle à la proportion de point observé dans cette classe nj (où nj
est le nombre de points dans la classe et n est le nombre de points total). Si la longueur de l’intervalle vaut h, la
3.6. UN PEU DE CULTURE SUR L’ESTIMATION STATISTIQUE 33
n
hauteur est alors nj h1 , de sorte à ce que l’air totale des « batons »soit égale à 1.
Cet estimateur discontinue s’améliore lorsque l’on fait tendre vers 0 la largeur h de chaque intervalle, et que l’on
fait tendre vers l’infini le nombre de points par classe. Mais en pratique le nombre de points est fini, et cet estimateur
discontinue n’est pas le meilleur estimateur pour une fonction continue.
Une première amélioration est la méthode de la fenêtre mobile : on construit autour de chaque x une fenêtre
[x − h2 , x + h2 ], et on estime comme pour l’histogramme la fonction de densité en x par fˆn (x) = nnh xh
où nxh est le
nombre de points tombant dans la fenêtre de largeur h autour de x. Néanmoins cet estimateur reste discontinu.
La méthode du noyau de Parzen généralise la méthode précédente en estimant la fonction de répartiton en x par :
n
1 X x − xi
fˆn (x) = K
nh i=1 h
Tests statistiques
4.1 Introduction : test sur l’espérance d’une loi normale de variance connue
Soit un échantillon (X1 , ..., Xn ) de loi N (µ, σ 2 ), avec µ inconnue et σ 2 connue. On cherche à tester si l’espé-
rance µ est égale ou non à une valeur de référence µ0 :
H0 : µ = µ0 contre H1 : µ 6= µ0
X̄ − µ0
T = .
√σ
n
Ainsi, si H0 est vraie, la valeur de cette statistique pour l’échantillon observé devrait appartenir à l’intervalle
[u α2 , u1− α2 ] avec la probabilité 1 − α. Ce qui revient à dire que la réalisation de X̄ appartient à l’intervalle
σ σ
[µ0 + u α2 √ , µ0 + u1− α2 √ ]
n n
avec une probabilité de 1 − α.
Ainsi, si l’observation x̄ de X̄ n’est pas dans cet intervalle on décide de rejeter l’hypothèse H0 . Le risque de se
tromper en rejetant H0 est α.
35
36 CHAPITRE 4. TESTS STATISTIQUES
En pratique il est d’usage de fixer le risque α : 5%, 1%, 10%. Ainsi, on contrôle le risque associé à l’erreur de
première espèce, qui nous l’avons vu est l’erreur la plus grave. Choisir un risque α trop petit va conduire à ne rejeter
que très rarement H0 (si on ne la rejette pas on ne risque pas de la rejeter à tort). Au contraire, choisir un risque trop
grand va conduire à n’accepter que très rarement α.
Le risque β se déduit alors par le calcul, si la loi sous H1 est connue. Il varie en sens contraire de α. Ainsi, en
diminuant le risque α, on augmente le risque β. On définit alors la puissance du test par 1 − β, qui correspond à la
probabilité de rejeter H0 à raison.
Le choix d’un test sera donc le résultat d’un compromis entre risque de premier espèce et puissance du test.
Une fois que l’on a fixé raisonnablement α, il faut choisir une variable de décision, qui doit apporté le maximum
d’information sur le problème posé, et dont la loi sera différente selon que H0 ou H1 est vraie. La loi sous H0 doit
être connue. On définit alors la région critique W qui est l’ensemble des valeurs de la variable de décision qui
conduisent à rejeter H0 au profit de H1 . Sa forme est déterminée par la nature de H1 , et sa détermination exacte est
donnée par p(W |H0 ) = α. La région d’acceptation est son complémentaire W̄ .
4.2. THÉORIE DES TESTS PARAMÉTRIQUES 37
H0 : θ = θ0 contre H1 : θ = θ1
Neyman et Pearson (1933) ont montré que le test du rapport de vraisemblance est le test le plus puissant au
niveau de confiance α.
Théorème 4.2.1 (Neyman et Pearson). La région critique optimale est définie par les points x = (x1 , . . . , xn )
vérifiant
L(x, θ1 )
W = {x : > cα }
L(x, θ0 )
La constante cα , qui dépend de α, est determinée par α = Pθ0 (x ∈ W ).
0.25
0.2
0.15
0.1
0.05
β α
0 m
−10 −5 0 k0 m15 10
Exemple. Reprenons le test d’introduction, où (X1 , ..., Xn ) est de loi normale de variance σ 2 connue et d’espérance
µ inconnue, avec cette fois une hypothèse alternative simple :
H0 : µ = µ0 contre H1 : µ = µ1 .
(σ 2π)n
d’où le rapport de vraisemblance
n
!
L(x, θ1 ) 1 X 2 2
= exp 2(µ1 − µ0 )xi − n(µ1 − µ0 )
L(x, θ0 ) 2σ 2 i=1
L(x,θ1 ) 2
Ainsi, L(x,θ 0)
> cα est équivalent à x̄ > log(cα ) n(µ1σ−µ0 ) + µ1 +µ
2
0
= C, où la constante C est determinée
Pµ0 (x ∈ W ) = Pµ0 (x̄ > C) = α. La région critique optimale du test de Neyman-Pearson est donc
σ
W = {x : x̄ > µ0 + u1−α √ }
n
et on retombe bien sur le test « intuitif »de l’introduction.
Dans le cas où l’hypothèse alternative est composite (θ ∈ Θ1 ), la puissance du test est fonction de θ : 1 − β(θ)
est appelée la fonction puissance du test.
Un test est dit uniformément le plus puissant (UPP) si quelque soit la valeur de θ appartenant à l’hypothèse
alternative, sa puissance est supérieure à celle de tout autre test.
38 CHAPITRE 4. TESTS STATISTIQUES
4.2.4 Résumé
La démarche de construction d’un test est la suivante :
– choix de H0 et H1 ,
– détermination de la variable de décision,
– allure de la région critique en fonction de H1 ,
– calcul de la région critique en fonction de α,
– calcul de la valeur expérimentale de la variable de décision,
– conclusion : rejet ou acceptation de H0 .
4.2.5 p-value
En pratique, plutôt que de calculer la région critique en fonction de α, on préfère donner un seuil critique α∗ ,
appelée p-value, qui est la plus grande valeur de α conduisant à ne pas rejeter H0 . Cette information permet au
lecteur de conclure à l’acceptation de H0 pour tout risque de première espèce α ≤ α∗ , et à son rejet pour tout
α > α∗ .
Sous H0 , cette statistique suit une loi normale centrée réduite d’après les conditions précédentes (via le théorème
centrale limite si seule la seconde condition est satisfaite).
La région critique, définie par |U | > k, se traduit par |X̄ − µ0 | > −u α2 √σn , où u α2 est le quantile de la loi normale
centrée réduite d’ordre α2 .
Ainsi,
Remarque 4.3.1 (Calcul de la p-value). Pour ce test, on rejette H0 dès que |x̄−µ
√σ
0|
> −u α2 . La p-value est la valeur
n
critique α∗ de α telle que |x̄−µ
√σ
0|
= −u α∗ , d’où α∗ = 2Φ − |x̄−µ
√σ
0|
avec Φ la fonction de répartition de la loi
n 2 n
normale centrée réduite. Ainsi, dès que l’on choisi un risque α plus grand que α∗ , on a −u α∗ > −u α2 et donc on
2
|x̄−µ0 |
rejette H0 . Au contraire, si le risque est plus petit, on aura cette fois √σ = −u α∗ < −u α2 et on conserve H0 .
n 2
4.3. TESTS SUR UN PARAMÈTRE 39
Remarque 4.3.2 (Test unilatéraux). Si le test est unilatéral, H0 : µ = µ0 contre H1 : µ < µ0 , on rejette H0 si la
vraie valeur de µ est trop éloignée inférieurement de µ0 , ce qui se traduit par x̄ < µ0 + u α2 √σn .
Si le test est H0 : µ = µ0 contre H1 : µ > µ0 , on rejette H0 si x̄ > µ0 − u α2 √σn .
Dans ce cas la variance σ 2 est estimée par son estimateur V 2 . La statistique de test est
X̄ − µ0
T =
√V
n−1
X̄−µ0
qui suit une loi de Student à n − 1 degré de liberté. En effet puisque √σ suit une loi normale centrée réduite, et
n
2
nV
comme σ2 suit une loi du χ2 à n − 1 degré de liberté, le rapport
X̄−µ0
√σ
n
q =T
nV 2
√ σ2
n−1
X̄ − µ0
T = .
√S
n
Pn 2
α i=1 (xi −x̄)
où tn−1, α2 est le quantile d’ordre 2 de la loi de Student à n − 1 degrés de liberté, et s2 = n−1 .
Lorsque la moyenne est connue, la statistique Σ2 est la meilleure estimation de la variance (cf. exercice en TD) :
n
1X
Σ2 = (Xi − µ)2 .
n i=1
n 2
Sous l’hypothèse H0 , comme l’échantillon est gaussien, σ02
Σ suit une loi du χ2n (en tant que somme de carrés de
N (0, 1)). Ainsi,
1 Pn σ02 2 σ02 2
on rejette H0 si Σ2 = n i=1 (xi − µ)2 < n χn, α où si Σ2 > n χn,1− α ,
2 2
où χ2n, α et χ2n,1− α sont les quantiles d’ordre α2 et 1− α2 de la loi de χ2 à n degrés de liberté. Attention, contrairement
2 2
à la loi de Student et à la loi normale, la loi du χ2 n’est pas symétrique.
40 CHAPITRE 4. TESTS STATISTIQUES
Lorsque la moyenne est inconnue, on la remplace par son estimateur X̄. La variance est alors estimée par
n−1
1 X
S2 = (Xi − X̄)2 et la statistique du test
n − 1 i=1
n−1 2
S
σ02
1
Pn σ02 σ02
on rejette H0 si S 2 = n−1 i=1 (xi − x̄)2 < 2
n−1 χn−1, α ou si S 2 > 2
n−1 χn−1,1− α .
2 2
Test H0 : p = p0 contre H1 : p 6= p0
La statistique du test est donc la fréquence empirique F qui suit sous H0 une loi N (p0 , p0 (1−p
n
0)
).
q
p0 (1−p0 )
on rejette H0 si |f − p0 | > u1− α2 n .
Exemple. Sur un échantillon de 200 individus d’une commune, 45% sont favorables à l’implantation d’un centre
commercial. Ceci contredit-il l’hypothèse qu’un habitant sur deux y est favorable ?
On test H0 : p = 0.5 contre H1 : p 6= 0.5 avec un risque α = 0.05, d’où u1− α2 = 1.96. On rejette H0 si
q
2
|f − 0.5| > 1.96 0.5 200 ≃ 0.07, or ici |f − 0.5| = 0.05 donc on ne rejette pas H0 , un habitant sur deux est bien
favorable à l’implantation du centre commercial.
n1 V12 n2 V22
∼ χ2n1 −1 et ∼ χ2n2 −1 .
σ12 σ22
Ainsi, sous l’hypothèse H0 que σ12 = σ22 , la statistique du test F suivante suit une loi de Fisher Fn1 −1,n2 −1 :
n1 V12
n1 −1 S12
F = = (4.1)
n2 V22 S22
n2 −1
Cette variable de décision s’interprétre comme le rapport des estimateurs de σ12 et σ22 . Elle doit donc ne pas être trop
différentes de 1 si H0 est vérfiée. En pratique on mets toujours au numérateur la plus grande des deux quantités, ou
autrement dit on suppose que S12 > S22 (sinon on permute les indices).
La région de rejet sera donc de la forme T > k avec k plus grand que 1 :
42 CHAPITRE 4. TESTS STATISTIQUES
n1 V12
n1 −1
on rejette H0 si n2 V 2
> fn1 −1,n2 −1,1−α ,
2
n2 −1
où fn1 −1,n2 −1,1−α est le quantile de la loi de Fisher-Snedecor Fn1 −1,n2 −1 d’ordre 1 − α.
Test de comparaison des moyennes avec variances différentes Lorsque les échantillons sont de grandes tailles
(> 20), le test de Student reste encore approximativement valable.
Pour de petits échantillons, l’approximation d’Aspin-Welch consiste à utiliser le test de Student avec un degré de
liberté non plus égal à n1 + n2 − 2 mais égal à l’entier le plus proche de :
v12
1 n1 −1
n= (1−c)2
où c = v12 v22
c2
n1 −1 + n2 −1 n1 −1 + n2 −1
Ainsi les lois des fréquences empirique F1 et F2 peuvent être approximées par des lois normales, d’où la statistique
du test
F1 − F2
U= q ,
p(1 − p)( n11 + n12 )
n1 f 1 + n2 f 2
p̂ = .
n1 + n2
H0 : µ1 = . . . = µK = µ contre H1 : ∃1 ≤ i, j ≤ J t.q. µi 6= µj .
Pour cela on appelle X̄k la moyenne empirique de l’échantillon k et X̄ la moyenne empirique globale :
nk K K nk
1 X 1 X 1 XX
X̄k = Xi et X̄ = X̄k = Xki ,
nk i=1 k K n i=1
k=1 k=1
PK
où n = k=1 nk .
En remarquant que Xki − X̄ = Xki − X̄k + X̄k − X̄, on montre facilement la formule d’analyse de variance :
K nk K nk K
1 XX 1 XX 1X
(Xki − X̄)2 = (Xki − X̄k )2 + nk (X̄k − X̄)2
n n n
k=1 i=1 k=1 i=1 k=1
| {z } | {z } | {z }
2
ST 2
SR 2
SA
L’équation de l’analyse de variance revient alors à χ2n−1 = χ2K−1 + χ2n−K , ce qui permet en outre de conclure via
2 2
le théorème de Cochran que SA et SR sont indépendantes.
La statistique du test est donc
2
SA
K−1
F = 2
SR
n−K
qui suit sous H0 une loi de Fisher-Snedecor FK−1,n−K , et on rejette l’hypothèse H0 si la statistique T est supérieur
au quantile de la loi FK−1,n−K d’ordre 1 − α.
où SST est la somme des carrés totale, SSA est la somme des carrés relatifs au facteur A, SSB est la somme des
carrés relatifs au facteur B, SSAB est la somme des carrés relatifs à l’interaction entre les facteurs A et B et SSR
est la somme des carrés résiduels.
J X K Xnjk
X
2 2
En remarquant que que l’on peut écrire SST = Xijk − nX̄... , on obtient l’équation d’analyse de la
j=1 k=1 i=1
variance à deux facteurs :
SST = SSA + SSB + SSAB + SST
Comme en analyse de variance à un facteur, sous l’hypothèse H0 : αj = 0, les quantités SSA et SSR suivent à σ 2
près des lois du χ2 indépendantes à J − 1 et n − JK degrés de liberté. La statistique suivante est donc de loi de
Fisher de paramètres J − 1 et K − 1 :
SSA/(J − 1)
FA = .
SSR/(n − JK)
P P P P
Estimation des effets Sous les hypothèses de contraintes k αk = j βj = k γjk = j γjk = 0, les
paramètres αj , βk et γjk de la décomposition (4.2) de µjk peuvent être estimés par les relations suivantes :
La nature du phénomène Suivant le phénomène étudié, il sera possible d’orienter son choix. Si on s’intéresse
à une variable de comptage, on pourra penser à une loi de Poisson, pour une durée de vie on pensera à une loi
exponentielle ou à une loi de Weibull... .
Utilisation des moments On sait que pour une loi de Poisson, la moyenne est égale à la variance. Pour une loi
exponentielle la moyenne est égale à l’écart-type. Pour une loi normale le coefficient d’applatissement (kurtosis)
est égal à 3 et le coefficient d’asymétrie (skewness) est nul.
Loi exponentielle Pour X ∼ E(λ), on a p(X > x) = exp(−λx) d’où ln(1 − F (x)) = −λx. En rangeant
dans l’ordre croissant les données xi de l’échantillon, l’estimation de la fonction de répartition qu’est la fonction
effectif <xi = i−1 pour x < x ≤ x . Ainsi, les points de coordon-
de répartition empirique
i−1
s’écrit Fe (xi ) = n n i i+1
nées xi ; log(1 − n ) sont approximativement alignés le long d’une droite dont la pente fournit une estimation
graphique de λ.
et qui est asymptotiquement distribué, lorsque n → ∞, comme une loi du χ2 à K − 1 degrés de liberté.
La variable D2 pouvant être interprétée comme une mesure de l’écart aléatoire entre les effectifs empirique et
théorique, le test du χ2 consite à rejetter H0 si la valeur d2 de D2 sur l’échantillon est trop grande :
Test de Kolmogorov-Smirnov
Le test du χ2 convient très bien aux variables discrètes, qui ne nécessitent aucune discrétisation. Par contre, lorsque
les variables sont continues, on préfère généralement utiliser le test de Kolmogorov-Smirnov.
Ce test utilise la fonction de répartition empirique, définie par Fn (x) = n(x) x où n(x) est le nombre de d’obser-
vations du n−échantillon inférieures ou égales à x. Le test se base alors sur l’écart maximum entre la fonction de
répartition empirique Fn et la fonction de répartition de la loi que l’on veut tester. Bien que cet écart ne suive pas
une loi classique, il en existe des tables statistiques qui permette d’effectuer le test.
où
– nij estP le nombre d’individus de l’échantillon i possédant la modalité j de la variable qualitative,
r
– ni. = j=1 nij est l’effectif de l’échantillon i,
Pk
– n.j = i=1 nij est le nombre total d’individus ayant la modalité j,
Pk Pr
– n = i=1 j=1 nij est le nombre d’individus total.
Le test consiste à tester H0 : « tous les échantillons proviennent de la même population ».
Si H0 est vrai, cela a un sens de considérer les probabilités p1 , . . . , pr d’avoir les modalités 1, . . . , r de la variable
qualitative. Le test consiste donc, comme pour le test d’ajustement, à comparer les effectifs empiriques nij aux
n
effectifs théoriques ni. pj . Les pj étant inconnues et on les estime par p̂j = n.j .
On construit alors la mesure d’écart suivante :
k X r ni. n.j 2 k X r 2
X (n ij − ) X n ij
d2 = n
ni. n.j = n − 1
i=1 j=1 n i=1 j=1
n i. n .j
La régression linéaire simple permet de mettre en relation une variable continue Y à expliquer avec une variable
explicative continue X. Nous supposons que les variables X et Y sont aléatoires, non indépendantes.
En supposant que la connaissance de X peut servir à prédire Y , nous cherchons pour une valeur x de X à prévoir
la valeur de Y correspondante. Bien entendu, connaître X ne permet rarement de connaître exactement Y , et nous
supposons que cela permet de connaître la valeur moyenne que devrait prendre Y : E[Y |X = x].
Le postulat de base de la régression linéaire est que E[Y |X = x] est une fonction linéaire de x :
E[Y |X = x] = αx + β
E[(Y − f (X))2 ].
Cov(X, Y )
ρXY = p .
V ar(X)V ar(Y )
La statistique suivante
√ RXY
T = n − 2p 2
1 − RXY
qui suit une loi de Student tn−2 permet de tester la nullité du coefficient de corrélation linéaire, en rejettant l’hypo-
thèse nulle ρXY = 0 si la valeur t de cette statistique est trop grande, autrement dit si elle vérifie :
t > tn−2,1− α2 .
49
50 CHAPITRE 5. LA RÉGRESSION LINÉAIRE SIMPLE
Y = αX + β + ǫ
d’où
Y − E[Y ] = α(X − E[X]) + ǫ.
En multipliant par X − E[X] de chaque coté et en prenant l’espérance on obtient
yi = αxi + β + ǫi i = 1, . . . , n
Le vecteur des résidus ǫ = (ǫ1 , . . . , ǫn )′ est supposé indépendant de X, et distribué suivant une loi normale d’espé-
rance nulle et de matrice de variance diagonale égale à σ 2 In . L’hypothèse gaussienne nous permettera de faire des
tests sur la qualité de la régression.
L’estimation des paramètres α, β, σ 2 est obtenue en minimisant la somme des écarts entre observations et mo-
dèle (moindres carrés) :
Xn
min (yi − αxi − β)2
α,β
i=1
En plus des notations usuelles pour les estimations de la moyenne et de la variance de X et Y : x̄, s2x , ȳ, s2y , on note
sxy l’estimation de la covariance de X et Y :
n
1 X
sxy = (xi − x̄)(yi − ȳ),
n − 1 i=1
et
sxy
rxy = ,
sx sy
5.4. TESTS SUR LE MODÈLE LINÉAIRE 51
Remarquons que dans le cas où le modèle est exact on retrouve bien les paramètres du modèle théorique.
On montre que ces estimateurs sont :
– des estimateurs sans biais, et de variance minimale parmi les estimateurs fontions linéaires des yi (resp. parmi
tous les estimateurs dans le cas gaussien),
– ces estimateurs sont également les estimateurs du maximum de vraisemblance (lorsque les erreurs sont sup-
posées gaussiennes).
A chaque valeur xi de X correspond donc une valeur prédite ŷi de Y :
Remarque. L’utilisation du modèle linéaire dépasse le cadre simple d’une relation linéaire entre X et Y . En effet,
de nombreux modèles non linéaires se ramènent facilement au modèle linéaire par des transformations simples :
– le modèle Y = αX β très utilisé en économétrie (élasticité constante de Y par rapport à X) devient un
modèle linéaire en étudiant le logarithme des variables
– le modèle à croissance exponentielle Y = αeβX devient un modèle linéaire en travaillant avec ln(Y )
Ceci permet donc de construire des intervalles de confiance et de tester la nullité de chacun des deux paramètres. A
noter que le test portant sur A est équivalent au test sur le coéfficient de corrélation linéaire.
Néanmoins, les deux estimateurs n’étant pas indépendants, nous pouvons tester la nullité de l’un ou l’autre des deux
paramètres, mais nous ne pouvons rien en conclure quant à la nullité des deux paramètres. Pour ce faire, un test
basé sur la statistique de Fisher est possible (cf. régression multiple).
52 CHAPITRE 5. LA RÉGRESSION LINÉAIRE SIMPLE
R2 SSR
F = (n − 2) = (n − 2)
1 − R2 SSE
suit une loi de Fisher F1,n−2 .
qui doit être proche de 2 si les résidus sont non corrélées. Cette statistique ne suit pas de loi particulière, mais ses
valeurs critiques ont été tabulées.
Il est également intéressant de vérifier l’hypothèse de normalité des résidus par un test classique de normalité.
5.4.4 Prédiction
Pour une valeur donnée x0 de X, on définit deux intervalles de confiance de prédiction à partir de la valeur
prédite ŷ0 = α̂x0 + β̂ :
" s s #
1 (x0 − x̄)2 1 (x0 − x̄)2
IC1−α (E[Y |X = x0 ]) = ŷ0 + tn−2, α2 + ; ŷ0 − tn−2, α2 +
n (n − 1)s2x n (n − 1)s2x
" s s #
1 (x0 − x̄)2 1 (x0 − x̄)2
IC1−α (ŷ0 ) = ŷ0 + tn−2, 2 1 + +
α ; ŷ0 − tn−2, 2 1 + +
α
n (n − 1)s2x n (n − 1)s2x
E[|Xn − X|p ] → 0
Définition 4. La suite (Xn ) converge en loi vers la variable aléatoire X de fonction de répartition F si en tout
point de continuité de F , la suite Fn des fonctions de répartition de Xn converge vers F
Propriété 1.
p.s.
(Xn ) −→ X ց
P L
(Xn ) −→ X → (Xn ) −→ X
moyenne ordre p
(Xn ) −→ X ր
53
54 CHAPITRE 5. LA RÉGRESSION LINÉAIRE SIMPLE
Bibliographie
55