Root
Root
Root
Mme A. BENAZZA
1 Introduction 2
1.1 Statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.1 Collecte des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.2 L’exploration statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.3 L’inférence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1.4 La modélisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Position du problème . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3 Modèles de prise de décision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.4 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4.1 Lot de pièces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4.2 Fiabilité d’équipements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.5 Performances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.5.1 Biais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.5.2 Matrice de covariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.5.3 Matrice d’erreur quadratique moyenne . . . . . . . . . . . . . . . . . . . . . . . 7
1.5.4 Propriétés asymptotiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.5.5 Comparaison des estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.5.6 En conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2 Moindres carrés 9
2.1 Position du problème . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2 Critère des moindres carrés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.3 Choix de la matrice de pondération . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.4 Un exemple simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.5 Référence linéaire par rapport aux paramètres . . . . . . . . . . . . . . . . . . . . . . . 10
2.5.1 Dérivation de fonctions multivariables . . . . . . . . . . . . . . . . . . . . . . . 10
2.5.2 Modèle d’observation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.5.3 Estimateur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.5.4 Interprétation géométrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.5.5 Performances de l’estimateur . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.5.6 Liens avec les autres estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.6 Moindres carrés récursifs pour un modèle d’observation linéaire par rapport aux pa-
ramètres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.6.1 Position du problème . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.6.2 Résolution dans le cas non pondéré . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.6.3 Remarques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.7 Référence non linéaire par rapport aux paramètres . . . . . . . . . . . . . . . . . . . . 16
2.7.1 Transformation de paramètres . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
i
2.7.2 Linéarisation de la référence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.7.3 Séparabilité des paramètres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.8 Conclusion générale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
ii
4.5.2 Preuve du théorème . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
4.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
5 Statistique exhaustive 35
5.1 Avant-propos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
5.2 Un premier exemple introductif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
5.3 Un second exemple introductif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
5.4 Définition de l’exhaustivité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
5.5 Théorème de factorisation de Neyman-Fisher . . . . . . . . . . . . . . . . . . . . . . . 36
5.5.1 Enoncé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
5.5.2 Preuve . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
5.5.3 Utilité du théorème . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
5.6 Famille de lois exponentielles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
5.7 Théorème de Pitman-Koopman-Darmois . . . . . . . . . . . . . . . . . . . . . . . . . . 38
5.8 Exhaustivité et information . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
5.8.1 Diminution de l’information . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
5.8.2 Conservation de l’information . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
5.9 Statistique complète . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
5.9.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
5.9.2 Justification de la dénomination . . . . . . . . . . . . . . . . . . . . . . . . . . 39
5.9.3 Vérification de la propriété . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
5.9.4 Cas des lois de la famille exponentielle . . . . . . . . . . . . . . . . . . . . . . . 39
5.10 Théorème de Rao-Blackwell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
5.10.1 Corollaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
5.10.2 Théorème de Lehman-Scheffé . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
5.11 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
7 Estimateur bayésien 46
7.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
7.2 Exemple historique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
7.3 Modèle de décision bayésienne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
7.4 Risque bayésien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
7.5 Coût quadratique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
7.5.1 Estimateur optimal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
7.5.2 Performances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
7.5.3 Transformation affine du paramètre . . . . . . . . . . . . . . . . . . . . . . . . 49
7.5.4 Modèle bayésien linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
iii
7.6 Estimateur du maximum a posteriori . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
7.7 Estimateur linéaire en moyenne quadratique . . . . . . . . . . . . . . . . . . . . . . . . 51
7.7.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
7.7.2 Position du problème . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
7.7.3 Optimisation analytique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
7.7.4 Principe d’orthogonalité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
7.7.5 Performances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
7.7.6 Propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
7.7.7 Théorème bayésien de Gauss-Markov . . . . . . . . . . . . . . . . . . . . . . . . 53
7.8 Exemples d’applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
7.8.1 Présentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
7.8.2 Le filtrage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
7.8.3 Le lissage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
7.8.4 La prédiction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
8 Détection statistique 56
8.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
8.1.1 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
8.1.2 Définition de la détection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
8.1.3 Modèle de travail . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
8.2 Risque bayésien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
8.3 Détection optimale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
8.4 Cas de 2 hypothèses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
8.4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
8.4.2 Probabilités d’erreur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
8.4.3 Détecteur optimal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
8.4.4 Coût tout ou rien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
8.5 Stratégie du minimax . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
8.6 Stratégie de Neyman-Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
iv
Avant-propos
1
Chapitre 1
Introduction
1.1 Statistique
La statistique recouvre un domaine tellement vaste qu’il s’avère difficile d’en donner une définition
générale et précise. Toutefois, on peut retenir la définition suivante tirée de l’Encyclopedia Universalis :
“la statistique désigne à la fois un ensemble de données d’observations et l’activité qui consiste dans
leur recueil, leur traitement et leur interprétation”.
Il s’agit d’étudier la variabilité des individus ou objets (on parle aussi d’unités statistiques) issus
d’une population 1 pour lesquels on dispose de mesures (appelées variables). Un recensement est défini
comme l’étude de tous les individus de la population (si bien sûr elle est de taille finie). Si en revanche,
seule une fraction de la population est étudiée, l’observation est un sondage et la fraction concernée
constitue un échantillon.
Chaque individu est caractérisé par des variables qui peuvent être :
– quantitatives (continues et/ou discrètes),
– et/ou qualitatives (nominales et/ou ordinales).
Généralement, une procédure statistique s’organise autour des 3 étapes : la collecte des données,
l’exploration l’inférence et la modélisation.
2
1.1.3 L’inférence
Il s’agit d’étudier la généralisation à l’ensemble de la population des propriétés mises en évidence
sur l’échantillon. L’inférence statistique se décline en deux volets. Le premier concerne l’estimation
d’une variable inconnue à partir de réalisations indépendantes de cette variable, le second est dédié
aux tests d’hypothèses.
1.1.4 La modélisation
L’objectif est de trouver une relation entre une variable “à expliquer” et les variables explicatives
afin par exemple, de faire des prévisions. La régression linéaire correspond au cas particulier où la
relation est linéaire entre toutes les variables numériques. Le cas où on veut prévoir une variable
qualitative (discrimination) est aussi un autre cas particulier couramment rencontré.
θp
La loi de probabilité de X sera alors notée P̃X;θ . Le but est de connaı̂tre les valeurs que peut
prendre le vecteur inconnu θ à partir des observations disponibles x1 , . . . , xN . On dit que l’ensemble
des ces N observations constitue un échantillon de taille N .
Tout se passe comme si le phénomène aléatoire considéré est décrit par N va X1 , . . . , XN , indépendantes
et identiquement distribuées (iid), ayant la même loi que X. L’échantillon correspond alors à la
réalisation de N expériences aléatoires indépendantes ω1 , . . . , ωN des N va :
4
x1 = X1 (ω1 )
.. .. .. (1.2)
. . .
4
xN = XN (ωN ).
Pour rappeler que les valeurs x1 , . . . , xN sont prises aléatoirement, on notera l’échantillon
X = (X1 , . . . , XN )T . (1.3)
La nouvelle expérience composite est modélisée par l’espace probabilisé (RN , B(RN ), PX ;θ ), dénommé
structure statistique.
3
De façon générale, le but de la théorie de l’estimation paramétrique est de développer des
méthodes permettant de choisir les valeurs du paramètre θ à partir d’un ensemble d’observations et
ce, d’une manière optimale selon un critère donné. La théorie de l’estimation est un cas particulier d’un
problème de prise de décision. Il est important de saisir que même s’il y a une part d’arbitraire dans la
construction de ces méthodes, ces dernières dépendent de la quantité d’information disponible a priori.
Le terme estimation (resp. détection) est utilisé lorsque les paramètres sont à valeurs continues
(resp. discrètes).
La théorie de l’estimation est multidisciplinaire dans la mesure où elle possède un vaste champ
d’applications. Le plus important relève du traitement du signal. Toutefois, il serait utile de noter
que les outils de la théorie de l’estimation sont couramment utilisés en économie. Les exemples sui-
vants donnent une idée de la diversité des problèmes d’estimation rencontrés dans un vaste panorama
d’applications :
– l’analyse d’images (estimer les positions des objets dans une séquence vidéo, . . . ),
– les applications biomédicales (estimer les pulsations cardiaques d’un patient, . . . ),
– les télécommunications (estimer la fréquence d’une porteuse pour démoduler le signal reçu, . . . ),
– en contrôle (assurer le suivi d’engins mobiles, . . . ),
– en géologie (estimer la profondeur d’un gisement, . . . ).
Les modèles de prise de décision peuvent être regroupés en 2 familles principales selon que l’espace Θ
du paramètre inconnu est probabilisé ou pas c.à.d. selon que θ est déterministe ou pas. Si θ est aléatoire,
on parle d’approche bayésienne. Ce qualificatif est dû à Thomas Bayes (1702-1761) dont le théorème
a donné naissance véritablement à une école statistique. La loi a priori sur θ résume l’information sur
le paramètre inconnu autre que celle fournie par l’expérience aléatoire. Cette information peut être
subjective mais elle peut aussi émaner d’autres expériences. On aboutit à la typologie suivante.
4
Structure décisionnelle
RN , ∆, Θ
1.4 Exemples
1.4.1 Lot de pièces
L’état d’une pièce de monnaie est modélisable par une va X de Bernouilli. Soit p la probabilité
pour que la pièce soit défectueuse :
P [X = 1] = p. (1.4)
Pour estimer le paramètre inconnu p, on se choisit un échantillon de taille N et on compte le taux
SN de pièces défectueuses :
N
41 X
SN = Xn . (1.5)
N
n=1
Comme E[X] = p, un estimateur naturel serait p̂ = SN . Bien entendu, on peut construire d’autres
estimateurs de p.
λe−λx x ≥ 0
fX,λ (x) = (1.6)
0 sinon.
On cherche à estimer λ en faisant des essais indépendants sur N composants supposés identiques.
Remarquons qu’il ne s’agit pas ici de tester si la loi de fiabilité est bien une loi exponentielle mais
plutôt de choisir parmi toutes les lois exponentielles celle correspondant à une vraie valeur de λ. Pour
ce faire, on considère la loi conjointe de l’échantillon qui s’écrit :
N
P
−λ xn
fX1 ,...,XN ;λ (x1 , . . . , xN ) = λN e n=1 ∀xn ≥ 0 (1.7)
0 sinon.
5
1.5 Performances
Les différentes méthodes d’estimation peuvent a priori aboutir à différents estimateurs θ̂ de θ.
Pour comparer les performances de ces estimateurs, il est d’usage de calculer (quand elles existent)
les quantités suivantes.
1.5.1 Biais
Le biais b ˆ est un paramètre de position ou de localisation défini par :
θ
4
∀ θ ∈ Θ b ˆ = E[θ − θ̂] (1.8)
θ
où Θ désigne l’ensemble des valeurs prises par θ (sous-ensemble de Rp . Il s’agit d’un vecteur de même
dimension p que le paramètre θ. Si ce dernier est déterministe, on aura simplement :
∀ θ ∈ Θ b ˆ = θ − E[θ̂]. (1.9)
θ
Bien entendu, la qualité (ou précision) de l’estimateur est d’autant meilleure que le biais est faible.
On veillera donc à construire des estimateurs non-biaisés (à biais nul). On souhaite que l’estimation
ne soit pas systématiquement décalée par rapport à la vraie valeur (cas non bayésien) ou à la valeur
moyenne du paramètre inconnu (cas bayésien).
Enfin, notons qu’il est important de souligner que pour qu’un estimateur soit non biaisé, son biais
doit être nul pour toutes les valeurs admissibles de θ. Pour s’en convaincre, prenons le cas d’un
signal constant inconnu A noyé dans un bruit additif centré Wn :
∀n = 1, . . . , N, X n = A + Wn . (1.10)
6
1.5.3 Matrice d’erreur quadratique moyenne
Cas non bayésien
La Matrice d’Erreur Quadratique Moyenne (EQM) EQM ˆ est définie par :
θ
4
EQM ˆ = E[(θ − θ̂)(θ − θ̂)T ]. (1.16)
θ
Les élements diagonaux de cette matrice p × p correspondent à des écarts énergétiques, ayant une
signification physique.
Dans le cas d’un paramètre multidimensionnel (p > 1), il existe différentes définitions d’un estima-
teur à variance minimale. Une première définition consiste à raisonner composante par composante :
chaque paramètre scalaire θi avec i = 1, . . . , p a une variance minimale. Une seconde définition consiste
à minimiser globalement la trace de la matrice de covariance.
Il est important de souligner que les 3 quantités définies (biais, matrice de covariance et EQM)
correspondent à des propriétés globales, issues d’une opération de moyennage. Il se peut que pour une
réalisation particulière, un estimateur moins bon qu’un autre au sens de l’EQM, donne une estimation
plus proche de θ que celle donnée par le meilleur estimateur.
Cas bayésien
On procède en considérant une moyenne par rapport aux observations conditionnellement à la
valeur de θ puis on moyenne par rapport à θ.
Si cette dernière équation est satisfaite, on parle d’estimateur asymptotiquement sans biais.
7
b(m̂1 ) = 0
(1.19)
b(m̂2 ) = m − 4.
De même, on établit rapidement que :
2
= σN
Cm̂1
(1.20)
Cm̂2 = 16 − 8m + m2 .
Seulement pour une certaine plage de valeurs de m, l’estimateur m̂2 est mieux - au sens de
l’EQM - que m̂1 .
De même, en théorie bayésienne, le risque introduit un pré-ordre sur l’ensemble des décisions qui
est en général partiel.
Devant l’impossibilité de classer totalement les estimateurs, leur comparaison se fait en introdui-
sant des contraintes supplémentaires, se restreignant ainsi à une classe d’estimateurs. Par exemple, on
classera les estimateurs sans biais selon leur EQM décroissante.
1.5.6 En conclusion . . .
Ainsi, pour récapituler, les principaux critères de comparaison sont :
– le biais,
– la précision,
– la convergence,
– la complexité opératoire,
– la robustesse de l’estimateur par rapport au modèle d’observation retenu [1]. Si les données sont
bruitées, il est préférable que l’estimateur soit peu sensible aux valeurs aberrantes. Dans ce cas,
la robustesse est définie par le plus petit nombre de données aberrantes qui modifient la valeur
de g(x) = θ̂ rapporté à la taille de l’échantillon.
De même, il est recommandé d’étudier le comportement de l’estimateur par rapport à une
modification du modèle d’observation. Pour ce faire, il est d’usage dans le cas non bayésien,
d’exprimer l’estimateur de θ comme une fonctionnelle T de PX ;θ et de définir la fonction
d’influence IF de l’estimateur par :
8
Chapitre 2
Moindres carrés
XN X N
θ̂ MC (x1 , . . . , xN ) = arg min{ mn1 ,n2 (xn1 − sn1 ;θ )(xn2 − sn2 ;θ )}, (2.1)
θ ∈Θ n1 =1 n2 =1
où mn1 ,n2 désigne l’élément générique d’une matrice M symétrique (N × N ) définie, strictement
positive, fixée au préalable.
xN
s1;θ
et S(θ) = ...
4
. (2.4)
s N ;θ
9
Il s’agit d’un critère bâti sur la distance entre le vecteur d’observation X et le vecteur du signal de
référence S(θ). En aucune manière, il n’exige la connaissance de la loi de probabilité du vecteur x.
C’est un avantage indéniable qui explique le grand succès de la méthode des moindres carrés.
La dénomination “moindres carrés” se justifie par le caractère quadratique de la distance considérée.
Deux principaux arguments œuvrent en faveur d’un critère quadratique :
– il facilite les calculs car l’estimateur cherché apparaı̂t souvent comme la solution d’un système
d’équations linéaires,
– l’écart quadratique a une signification physique (énergie ou variance de l’erreur d’estimation).
10
De même, la forme quadratique θ T M θ s’exprime :
p
X X
T
θ Mθ = mkk θk2 + 2 mij θi θj . (2.10)
k=1 i<j
D2 = 2M θ. (2.12)
où h(·) représente une fonction déterministe connue. Dans le cas général, on suppose que l’observation
X est le signal de référence S perturbé par un bruit additif B. On obtient alors le modèle d’observation
suivant :
X = h(θ) + B. (2.14)
Dans le cadre de notre étude, on se restreint au cas où la référence est linéaire par rapport au pa-
ramètre :
S(θ) = Hθ, (2.15)
où H est une matrice rectangulaire N × p. En définitive, le modèle d’observation considéré est :
X = Hθ + B. (2.16)
2.5.3 Estimateur
Le critère des moindres carrés s’obtient facilement :
∂Hθ T
M (X − Hθ) = 0. (2.18)
∂θ
H T M (X − Hθ) = 0 (2.19)
11
– Si H T M H n’est pas inversible c.à.d. si H n’est pas de rang colonnes plein c’est-à-dire s’il existe
θ0 tel que Hθ0 = 0 (une combinaison linéaire des colonnes est nulle) alors pour tout θ :
Hθ = H(θ + θ0 ). (2.20)
Par conséquent, pour tout estimateur θ̂, l’estimateur θ̂+θ0 explique aussi bien les données. Ainsi,
l’unicité de l’estimateur n’est plus garantie à moins d’ajouter d’autres hypothèses. Un manière
équivalente de le voir est de remarquer qu’au moins une des composantes est une combinaison
linéaire des autres, et s’avère donc inutile.
Ce problème se rencontre notamment quand le nombre N d’observations est strictement inférieur
au nombre p de paramètres à estimer (dimension de θ). En effet, la matrice H T M H est
dégénérée car N < p implique que le rang de H soit strictement inférieur à p.
– Si H T M H est inversible (c.à.d. si le rang de H est p < N ) alors l’extremum est atteint pour :
θ̂ MC = (H T M H)−1 H T M X. (2.21)
Il s’agit bien d’un unique minimiseur du critère puisque la matrice hessienne est H T M H qui
est définie strictement positive. La valeur minimale du critère vaut :
Enoncé
Nous pouvons montrer les points suivants.
– La matrice K1 est symétrique, idempotente et de rang p ;
– K1 est le projecteur dans RN sur le sous-espace H.
12
Preuve
– Symétrie Il est évident que :
T
KT1 = H(H T H)−1 H T = H(H T H)−T H T (2.26)
Comme (H T H) est symétrique ainsi que son inverse et on en déduit aisément la symétrie de
K1 .
– Idempotence
√
(K1 )2 = H(H T H)−1 H T MH(H T H)−1 H T = H(H T H)−1 H T . (2.27)
Covariance Après de simples calculs, la matrice de covariance de l’estimateur des moindres carrés
Cˆ s’exprime comme :
θ MC
Cˆ = (H T M H)−1 H T M C B M H(H T M H)−1 . (2.32)
θ MC
Si on choisit M = C −1 , on obtient :
B
Cˆ = (H T C −1 H)−1 . (2.33)
θ MC B
La covariance de l’estimateur fait partie de l’estimateur lui-même.
13
2.5.6 Liens avec les autres estimateurs
Dans les chapitres suivants, on établira l’équivalence de l’estimateur des moindres carrés avec
l’estimateur du maximum de vraisemblance et de variance minimale. Mais, il est important de noter
que cette équivalence résulte de la conjonction de 3 facteurs :
– modèle linéaire,
– lois de probabilité normale,
– critère quadratique.
Cette équivalence n’a aucune raison d’exister systématiquement si on sort de ce cadre.
θ̂ N = (H TN M N H N )−1 H TN M N X N , (2.34)
où on a indexé par N les matrices et les vecteurs pour rappeler qu’ils dépendent de la taille de
l’échantillon. Cette première alternative est fort coûteuse en terme de complexité puisqu’il faut inverser
à chaque fois, la matrice H TN M N H N de taille p × p.
Une seconde solution consiste à chercher une formulation récursive permettant la mise à jour de
l’estimateur à chaque nouvelle observation, en vue d’un traitement en temps réel.
Pour faciliter la lecture, on choisit comme matrice de pondération M N = I N ×N . L’expression de
l’estimateur des moindres carrés ordinaires est :
θ̂ N = (H TN H N )−1 H TN X N . (2.35)
On en déduit :
θ̂ N = P N QN . (2.37)
Le principe de la méthode est d’établir une relation de récurrence entre (P N , QN ) et (P N +1 , QN +1 ).
X N +1 = H N +1 θ + B N +1 . (2.38)
14
où la matrice H N est de taille N × p et la matrice hN +1 de taille 1 × p.
De même, il est possible d’écrire :
XN
X N +1 = . . . , (2.40)
XN +1
BN
B N +1 = . . . , (2.41)
BN +1
La matrice QN +1 a pour expression :
QN +1 = H TN +1 X N +1
XN
h
.
i (2.42)
= H TN .. hTN +1 . . . .
XN +1
soit encore :
QN +1 = H TN X N + hTN +1 XN +1 , (2.43)
d’où finalement :
QN +1 = QN + hTN +1 XN +1 . (2.44)
Pour la matrice P N +1 , la récurrence porte sur la matrice inverse.
P −1 T
N +1 = H N +1 H N +1
HN
h
.
i (2.45)
= H TN .. hTN +1 . . . .
hN +1
Après développement, on obtient :
P −1 −1 T
N +1 = P N + hN +1 hN +1 . (2.46)
Posons :
4 P N hTN +1
kN +1 = . (2.49)
1 + hN +1 P N hTN +1
En revenant à l’expression de l’estimateur d’ordre N + 1, on trouve :
θ̂ N +1 = θ̂ N + kN +1 (XN +1 − hN +1 θ̂ N ). (2.51)
15
2.6.3 Remarques
La récurrence est une vraie récurrence sur le temps car toutes les données nécessaires au calcul du
gain à l’instant (N + 1) sont réellement disponibles. Cette caractéristique permet une implémentation
en temps réel.
Cette méthode récursive évite d’inverser une matrice de dimension p×p. Néanmoins, il est nécessaire de
calculer cette matrice à chaque instant et la stocker. Il existe des algorithmes rapides pour y parvenir.
Les relations précédentes n’ont de sens que si les matrices H TN H N sont inversibles. Il faut donc
démarrer la récurrence à l’instant N ≥ p pour que la matrice H TN H N soit de rang plein. Pour éviter
une initialisation avec une inversion de matrice, une méthode approximative consiste à débuter la
récurrence dès que N = 1 et à prendre :
θ̂ N = (H TN H N + µI)−1 H TN X N . (2.52)
Le scalaire µ est choisi petit pour prendre en compte les mesures ultérieures. L’influence de µI sur la
solution décroı̂t très vite quand N augmente.
Dans ce cas, on calcule facilement α̂mc puis par transformation inverse, on obtient directement θ̂ mc :
θ̂ MC = g −1 (α̂MC ). (2.55)
Dans la pratique, la recherche d’une telle transformation est ardue et n’est fructueuse que pour peu
de cas.
16
Le critère des moindres carrés a alors pour expression approchée :
JMC (θ) ≈ [x − S(θ 0 ) + H(θ 0 )θ 0 − H(θ 0 )θ]T [x − S(θ 0 ) + H(θ 0 )θ 0 − H(θ 0 )θ] , (2.57)
4 ∂si;θ
∀i = 1, . . . , N, ∀j = 1, . . . , p [H(θ)]ij = (2.58)
∂θj
Puisque x − S(θ 0 ) + H(θ 0 )θ 0 est connu, l’estimateur au sens des moindres carrés s’écrit :
après une initialisation pour k = 0. Cette méthode est connue sous le nom de méthode de Gauss-
Newton.
17
Chapitre 3
Estimateur du maximum de
vraisemblance
N! n
θn1 θn2 . . . , θp p . (3.1)
n1 !n2 ! . . . np ! 1 2
n
Ce résultat dépend de la composition de l’urne par le terme θ1n1 θ2n2 . . . , θp p . Fisher a appelé ce terme la
“vraisemblance” du résultat expérimental. Il est donc logique de rechercher la composition de l’urne qui
maximise la probabilité du résultat expérimental, ou encore, les valeurs des paramètres qui maximisent
cette probabilité.
3.2 Principe
3.2.1 Fonction vraisemblance
La loi de probabilité PX ;θ vue comme une fonction de θ et paramétrée par l’échantillon X = x
est appelée la vraisemblance (likelihood) et on la note LX =x (θ).
3.2.3 Interprétation
Cette méthode repose sur un concept simple et intuitif : θ̂ mv (x) est la valeur qui maximise les
chances de réalisation du résultat expérimental. En effet, on part du principe que si l’échantillon
18
considéré a été observé, c’est qu’il correspond à l’événement le plus probable. Ceci n’est qu’une conjec-
ture qui en toute rigueur peut ne pas être vérifiée.
3.3 Conséquences
De manière équivalente, l’estimateur θ̂ mv (x) est obtenu par maximisation de toute fonction crois-
sante de la vraisemblance. Ainsi, dans la pratique, il arrive que la maximisation de la fonction log-
vraisemblance ln[LX =x (θ)] soit plus facile à mener, notamment dans le cas de lois de type exponentiel.
Si la vraisemblance est différentiable par rapport à θ, une condition nécessaire d’extrémalité doit être
vérifiée par θ̂ mv . Il s’agit de l’équation dite de vraisemblance qui s’écrit comme suit :
∂LX =x (θ)
θ̂ mv = argθ ∈Θ =0 . (3.3)
∂θ
Dans la pratique, s’il existe plus d’une solution pour l’équation de vraisemblance, on sélectionne celle
qui est associée à la valeur la plus haute de la fonction de log-vraisemblance. Si, sauf sur une ensemble
de mesure négligeable indépendant de θ, LX =x (θ) est une fonction strictement positive différentiable
par rapport à θ, on a alors :
∂ log[LX =x (θ)]
grad(log[LX =x (θ)]) = = 0. (3.4)
∂θ
Il est d’usage d’appeler ce gradient le score du modèle paramétrique.
19
où g(·) est une fonction mesurable définie sur un ouvert de Rp à valeurs dans Rd . On a alors l’équivalence
suivante :
θ̂ mv existe ⇐⇒ g(θ̂ mv ) est l’estimateur selon le maximum de vraisemblance de α = g(θ).
Autrement dit, il est possible d’écrire :
3.4.3 Preuve
Supposons dans un premier temps que la fonction g(·) soit bijective. Comme L(θ) = L(g −1 (g(θ)))
est maximisé par θ̂ mv alors :
−1 d
θ̂ mv = g g(θ)mv ; (3.7)
et donc
g(θ̂ mv ) = g(θ)
d mv = α̂mv . (3.8)
Si la fonction g(·) n’est pas bijective alors l’équation θ = g −1 (α) peut avoir plusieurs solutions. Pour
contourner ce problème, on regroupe les solutions ayant le même antécédent et prendre le maximum
sur ces solutions. Pour cela, on définit l’ensemble des antécedents de α
Notons L(α) la valeur maximale atteinte par la fonction vraisemblance sur l’ensemble G−1 (α) :
3.4.4 Commentaires
En règle générale, l’invariance est une propriété enviable car elle garantit que les changements
dans la façon de retranscrire ou paramétrer le modèle n’influenceront pas les estimations que nous
obtiendrons. Toutefois, cette propriété ne garantit pas que les estimateurs soient sans biais. En effet,
supposons qu’il existe une paramétrisation dans laquelle l’estimateur θ̂ mv soit sans biais et effectuons
le changement de paramètre non-linéaire α = g(θ) alors :
On en déduit que
E[α̂mv ] 6= α. (3.14)
Ceci suggère que, bien que la paramétrisation peut avoir un impact sur les propriétés des estimateurs
avec des échantillons finis. En choisissant la paramétrisation appropriée, dans certains cas, il est
possible de garantir que les estimations soient sans biais (ou proches d’être sans biais), et que leurs
distributions sont proches de leurs distributions asymptotiques. A l’opposé, si nous choisissons une
paramétrisation inappropriée, nous pourrions par inadvertance rendre nos estimations sévèrement
biaisées et dont les distributions sont éloignées de leurs distributions asymptotiques.
20
3.5 Propriétés asymptotiques
Un des intérêts du critère du maximum de vraisemblance concerne les propriétés asymptotiques
de l’estimateur θ̂ mv . A cet égard, on considère la suite des estimateurs θ̂ mv (N ) indexée par la taille N
de l’échantillon.
On montre que la suite converge en probabilité vers θ. On dit que l’estimateur du maximum de
vraisemblance est convergent (consistent). Ceci se traduit par la relation suivante :
∀i = 1, . . . , p ∀θi ∈ R lim Pr[|θ̂mv,i (N ) − θi | > ] = 0, (3.15)
N →+∞
21
3.8 Modèle d’observation linéaire
3.8.1 Résolution
On se place dans le cas d’un modèle d’observation linéaire :
X = Hθ + B, (3.21)
où H est une matrice connue de taille N × p et B est une vecteur aléatoire gaussien de moyenne
E[B] et de matrice de covariance C B . Le vecteur B représente le bruit d’observation inhérent à tout
système de mesure.
La fonction de vraisemblance est égale à :
1 (X − Hθ − E[B])T C −1 (X − Hθ − E[B])
q exp[− B ]. (3.22)
(2π)N |C B | 2
∂Hθ T −1
θ̂ mv = argθ {[ ] C (X − Hθ − E[B]) = 0}. (3.24)
∂θ B
On obtient l’équation suivante :
E[θ̂ mv ] = θ. (3.27)
L’estimateur du maximum de vraisemblance dans le cas linéaire et gaussien est sans biais.
θ̂ mv = C ˆ H T C −1 (X − E[B]). (3.29)
θ mv B
Par la suite, on peut montrer à titre d’exercice, que l’estimateur θ̂ mv obtenu est efficace (l’efficacité
est une notion qui sera étudiée ultérieurement).
22
3.8.2 Lien avec l’estimateur des moindres carrés
La méthode des moindres carrés est souvent appelée la “méthode du pauvre” car elle nécessite
très peu d’information sur la loi des observations PX ;θ . Si cette information augmente, on a intérêt
à l’exploiter en changeant de critère de décision. Si la loi PX ;θ est connue, on peut choisir le critère
du maximum de vraisemblance.
Dans le cas d’un modèle linéaire d’observation, la minimisation de AX (θ) revient à résoudre un
problème de moindres carrés pour lequel la matrice de pondération M est :
M = C −1 . (3.30)
B
Ainsi, dans le cas linéaire et gaussien, il y a équivalence entre l’estimateur selon les moindres carrés
et l’estimateur selon le maximum de vraisemblance.
23
Chapitre 4
4.1 Introduction
4.1.1 Objectif
On cherche un estimateur sans biais à variance minimale pour toute valeur de θ (Unbiased Mi-
nimum Variance) θ̂ mvu . On rappelle que dans le cas d’un paramètre multidimensionnel (p > 1), on
entend par variance minimale quand chaque composante i de l’estimateur a une variance minimale
sur toutes les variances des composante i des estimateurs sans biais.
Tout d’abord, il est important de voir que l’estimateur MVU n’existe pas toujours.
24
A titre d’exercice, on peut montrer que pour θ ≥ 0, la variance du meilleur estimateur non-biaisé est
1 2
2 tandis que pour θ < 0, cette variance minimale est 3 . Pour ce faire, on utilisera un résultat qui
sera établi plus loin (borne de Cramer-Rao). Il n’existe pas d’estimateur dont la variance est minimale
pour toutes les valeurs de θ.
4 θ̂1 + θ̂2
θ̂3 = . (4.4)
2
Cet estimateur est sans biais puisque :
1
Cθ̂3 = (Cθ̂1 + Cθ̂2 + 2Cθ̂1 ,θ̂2 ), (4.6)
4
où Cθ̂1 ,θ̂2 désigne l’inter-covariance des 2 estimateurs θ̂1 et θ̂2 . Par ailleurs, l’inégalité de Cauchy-
Schwarz s’écrit : q q
Cθ̂1 ,θ̂2 ≤ Cθ̂1 Cθ̂2 . (4.7)
Cθ̂3 ≤ V. (4.8)
Si l’inégalité précédente est stricte, l’estimateur θ̂3 aurait une variance plus petite que celle des esti-
mateurs θ̂1 et θ̂2 ce qui contredit le fait que V soit minimale. L’inégalité est en fait une égalité. Ceci
implique que :
θ̂1 − θ = K(θ̂2 − θ). (4.9)
Le coefficient de proportionnalité est tel que K 2 = 1 car Cθ̂3 = V . Si K = −1, on aurait θ̂3 = θ ce qui
contredit le fait que θ̂3 soit un estimateur de θ. Par conséquent, on a forcément K = 1 et cela exprime
l’égalité de θ̂1 et de θ̂2 .
25
2. La seconde approche est une réponse à la limitation de la première méthode. Elle est préconisée
dans le cas où la borne de Cramer-Rao ne peut être atteinte c.à.d. où il n’existe pas d’esti-
mateur efficace. Elle consiste à construire l’estimateur MVU à partir d’une statistique 1 parti-
culière (statistique exhaustive). Cette méthode s’appuie sur les théorèmes de Rao-Blackwell et
de Lehmann-Scheffe. Cette seconde approche plus complexe à mettre en œuvre que la première,
sera décrite dans le chapitre suivant.
3. La troisième technique est une alternative et pallie les défauts des 2 premières méthodes. En effet,
pour faciliter la recherche de l’estimateur MVU, celle-ci est restreinte à la classe des estimateurs
linéaires : on parle d’estimateur BLUE (Best Linear Unbiased Estimator). Elle sera développée
dans le chapitre 6.
26
Première partie
27
4.2 Information de Fisher
4.2.1 Vecteur score
Quand il existe, on définit le vecteur score (de Fisher) comme étant le vecteur aléatoire de
dimension p égal au gradient de la log-vraisemblance :
4
S(x; θ) = ∇θ log[LX =x (θ)]. (4.10)
Preuve : Pour établir ce résultat, supposons que X possède une densité de probabilité fX ;θ (·).
Z
fX ;θ (u)du = 1. (4.12)
χ
4 ∂ ln[L(θ)] ∂ ln[L(θ)]
I(θ)i,j = E[ ]. (4.16)
∂θi ∂θj
Bien entendu, le calcul de I(θ) n’est possible que sous certaines “bonnes” conditions sur PX ;θ (exis-
tence de la différentielle, différentielle de carré intégrable).
Par construction, la matrice de Fisher est symétriquen définie non-négative.
28
4.3.2 Une autre expression de la matrice d’information de Fisher
Si le domaine de définition χ de l’échantillon est indépendant de θ, une seconde expression de
l’élément générique de la matrice de Fisher est :
∂ 2 ln[L(θ)]
I(θ)i,j = −EX ;θ [ ]. (4.17)
∂θi ∂θj
où I (1) (θ)i,j est l’élément courant de la matrice de Fisher associé à la variable aléatoire scalaire X .
29
4.3.4 Influence de la reparamétrisation
L’expression de la matrice de Fisher change par tout changement de paramètre. En effet, supposons
que cle paramètre θ soit changé en un autre paramètre α = (α1 , . . . , αp )T = (g1 (θ), . . . , gp (θ))T où les
fonctions g1 , . . . , gp sont bijectives. On peut alors établir :
∂gi−1 (α)
∀i, j = 1, . . . , p, J (α)i,j = . (4.25)
∂αj
30
4.4.2 Cas d’un paramètre scalaire
Soit θ̂ un estimateur de θ. On suppose que les conditions d’obtention de la seconde expression de
l’information de Fisher sont vérifiées.
On montre alors que :
2
∂E[θ̂]
( )
Cθ̂ ≥ ∂θ . (4.26)
I(θ)
Notons que si l’estimateur est sans biais, cette inégalité devient :
1
Cθ̂ ≥ . (4.27)
I(θ)
L’inverse de l’information de Fisher correspond à la borne de Cramer-Rao. Intuitivement, on comprend
que plus il y a d’“information” apportée par l’échantillon, plus petite est la plage de variation de la
variance de l’estimateur.
Le calcul ainsi que sa valeur de cette borne est indépendants de la forme de l’estimateur et dépendent
uniquement du modèle probabiliste adopté. Cette borne dérive de la définition retenue de l’information
(au sens de Fisher). Il existe d’autres bornes issues d’autres définitions de l’information.
Preuve : On ne traitera que le cas d’une va X absolument continue de densité de probabilité fX ;θ (·).
La généralisation au cas discret ne comporte aucune difficulté.
1. Comme E[θ̂] est indépendant de X, il s’agit d’une constante déterministe qui peut être multipliée
aux deux membres de (4.14) :
∂ ln fX ;θ
E[E[θ̂] ]=0 (4.28)
∂θ
2. Par ailleurs, il est possible de dériver E[θ̂] par rapport à θ :
∂E[θ̂]
Z ∂ ln fX ;θ (u)
= θ̂(u) fX ;θ (u)du. (4.29)
∂θ χ ∂θ
Il en résulte que :
∂E[θ̂] ∂ ln fX ;θ
= E[θ̂ ]. (4.30)
∂θ ∂θ
En combinant les équations (4.28) et (4.29), on a :
∂ ln fX ;θ ∂E[θ̂]
E[(θ̂ − E[θ̂]) ]= . (4.31)
∂θ ∂θ
∂ ln fX ;θ
3. Enfin, en appliquant l’inégalité de Cauchy-Schwarz aux fonctions θ̂ −E[θ̂] et , on trouve
∂θ
le résultat annoncé dans l’équation (4.26).
31
où l’inégalité ≥ 0 signifie que la matrice différence est semi-définie positive.
En particulier, la variance de la i-ème composante de tout estimateur non-biaisé est bornée par
l’élément diagonal correspondant de l’inverse de la matrice d’information de Fisher :
var[θ̂i ] ≤ [I(θ)]−1
i,i . (4.33)
La démonstration de ce résultat est similaire au cas scalaire. Pour une étude plus approfondie et plus
détaillée, on pourra consulter l’ouvrage de Kay.
Une fois cette borne déterminée, on cherche à savoir si un estimateur sans biais peut l’atteindre pour
toutes les valeurs de θ.
Dans les paragraphes suivants, on montre que l’existence d’un estimateur efficace est liée à la forme
exponentielle de la structure considérée.
∂ 2 ln L(θ) ∂α(θ)
2
= −α(θ) + (θ̂eff − θ). (4.37)
∂θ ∂θ
Prenons le moment d’ordre 1 de chacun des membres de cette dernière équation :
∂ 2 ln L( θ) ∂α(θ)
E[ 2
] = −α(θ) + E[θ̂eff − θ]. (4.38)
∂θ ∂θ
Comme l’estimateur efficace est sans biais, on trouve que :
∂ 2 ln L(θ)
E[ ] = −α(θ). (4.39)
∂θ2
32
On reconnaı̂t la seconde expression de l’information de Fisher, soit encore :
∂ ln L(θ)
= I(θ)(θ̂eff − θ) . (4.41)
∂θ
Dans le cas vectoriel, une démonstration du même type peut être faite. Pour plus de détails, on se
reportera également à l’ouvrage de Kay.
4.6 Conclusion
Ainsi, la borne de Cramer-Rao est un outil puissant qui pour certaines distributions, peut aboutir
au calcul du MVU. Toutefois, il faut souligner que la borne de Cramer-Rao peut ne pas être atteinte.
La recherche de l’estimateur MVU se fait grâce à des statistiques particulières. Ceci est développé
dans le chapitre suivant.
33
Deuxième partie
34
Chapitre 5
Statistique exhaustive
5.1 Avant-propos
On a vu qu’il est parfois ardu de trouver - quand il existe - l’estimateur sans biais à variance
minimale (que l’on a noté MVU en raison de la dénomination anglaise Minimun Variance Unbiased).
En effet, quand la borne de Cramer Rao n’est pas atteinte, il est possible que l’estimateur MVU
existe. Ce chapitre se propose de décrire une méthode de recherche de l’estimateur MVU qui exploite
la notion de statistique exhaustive.
Pour cela, on définit d’abord clairement la notion d’exhaustivité. Ensuite, le théorème de factorisation
de Neyman-Fisher permet de déterminer une statistique exhaustive. Enfin, les théorèmes de Rao-
Blackwell et de Lehmann-Scheffe permettent de calculer l’estimateur MVU.
35
5.3 Un second exemple introductif
Prenons le cas d’un industriel qui réceptionne un lot de pièces détachées. Il désire estimer la portion
θ de pièces défectueuses. Un contrôle systématique est jugé trop coûteux et trop long. Un statisticien
lui propose de procéder à un tirage au sort uniforme avec remise de N pièces et d’examiner à chaque
fois leur qualité.
La formalisation du problème consiste alors à considérer la qualité d’une pièce comme une variable
aléatoire qui suit une loi de Bernouilli valant 1 avec une probabilité θ si la pièce présente un défaut.
A l’issue de l’examen de l’échantillon, le statisticien considère S = X1 +. . .+XN . Celui-ci en disposant
de l’observation (X1 , . . . , XN ) n’est pas plus avantagé qu’un statisticien disposant uniquement de
S.
S(X) = X. (5.5)
A priori, pour déterminer si une statistique est exhaustive, il faut déterminer la loi conditionnelle
PX /S (X ) puis vérifier s’il n’y a pas de dépendance par rapport à θ. Dans la pratique, cela peut
constituer une tâche énorme. En outre, une difficulté apparaı̂t car il n’est pas facile d’identifier les
statistiques potentiellement exhaustives. L’approche consistant à deviner la forme d’une statistique
et d’en vérifier directement l’exhaustivité doit être donc abandonnée. Le théorème de factorisation de
Neyman-Fisher constitue une attrayante alternative à ce problème.
36
5.5.2 Preuve
On se place dans le cas discret. On suppose que la loi se factorise selon l’équation (5.6). On a donc :
P(X ,S );θ (x, s) 0 si S(X) 6= s
PX /S =s;θ (x) = = g(s, θ)h(x)
PS ;θ (s) si S(X) = s . (5.7)
PS ;θ (s)
En combinant les équations (5.7) et (5.8), la loi de X conditionnellement à S(X) est indépendante
de θ. On en conclut que S(X) est exhaustive.
Réciproquement, si S(X) est exhaustive, il suffit de poser :
L’examen de cette loi conditionnelle permet d’établir que S est bien exhaustive.
Une alternative à cette méthode directe est d’écrire :
N
X N
X
2
(xn − A) = x2n − 2AS(x) + N A2 . (5.12)
n=1 n=1
37
5.6 Famille de lois exponentielles
On considère une variable aléatoire X possédant une densité de probabilité f˜X;θ (·). On dit que sa
loi appartient à la famille exponentielle s’il existe un entier r des fonctions
– θ 7→ αj (θ) pour j = 1, . . . , r ;
– θ 7→ Sj (θ) pour j = 1, . . . , r ;
– θ 7→ c(θ) ;
– x 7→ h(x) > 0
telles que
Xr
f˜X;θ (x) = c(θ)h(x) exp αj (θ)Sj (x) . (5.15)
j=1
La plupart des lois usuelles font partie de la famille exponentielle. Un contre-exemple est la loi de
Pareto dont les paramètres constituent le vecteur θ.
telle que p ≤ r, les fonctions S1 (·), . . . , Sr (·) définies sur χ sont affinement indépendantes ainsi que les
fonctions α1 , . . . , αr définies sur dom[Θ].
La statistique suivante S(x) de dimension r est exhaustive pour θ :
N
P
n=1 S1 (xn )
..
.
P N
S(x) = .
S2 (xn ) (5.17)
n=1
..
.
P N
Sr (xn )
n=1
38
Une fois connue une statistique exhaustive, se pose la question de construire l’estimateur du MVU
(s’il existe). Pour cela, on a besoin de la notion de statistique complète.
Autrement dit, il n’existe aucune autre fonction de S(X) de moyenne nulle pour tout θ que la fonction
nulle.
Cette définition implique qu’il n’existe qu’une seule fonction de S(X) qui soit non-biaisée. En effet,
supposons qu’il existe deux fonctions h1 (·) et h2 (·) qui annulent le biais :
39
5.10 Théorème de Rao-Blackwell
Il s’agit d’une méthode d’amélioration d’un estimateur sans biais quelconque θ̂ lorqu’il existe une
statistique S(X) exhaustive pour θ. L’estimateur θ̌ défini par :
4
θ̌ = E[θ̂(X)/S(X) = s] (5.23)
est :
– un estimateur
– sans biais
– au moins aussi bon que θ̂. Chaque composante i de θ̌ a une variance inférieure à celle de la
composante i de θ̂.
D’abord, il faut bien comprendre la nécessité de placer l’opérateur E[·] dans la définition de θ̌. D’abord,
θ̂(X)/S(X) = s est une variable aléatoire qui dépend de la valeur prise s par S(X).
Ainsi, θ̌ est bien un estimateur de θ car il dépend seulement de l’échantillon à travers la
statistique S(X). En effet, S(X) est une statistique exhaustive, PX /S (X );θ est indépendante de
θ. En vertu du théorème de la moyenne (et en supposant avoir affaire à des densités de probabilité),
on a : Z
θ̌ = θ̂(x)fX /S (X );θ (x)dx, (5.24)
L’estimateur θ̌ est sans biais du fait du théorème de l’espérance totale. En effet, dans le cas de va
absolument continues, on peut écrire que :
Z Z
E[θ̌] = θ̂(x)fX /S (X );θ (x)dxfS (X );θ (s)ds. (5.25)
La relation de Bayes montre que le produit des deux densités sous la double intégrale est la densité
du couple (X, S(X)) soit encore celle de X. On en déduit donc que :
Z
E[θ̌] = θ̂(x)fX ;θ (x)dx = θ. (5.26)
On rappelle que le théorème de la variance totale consiste à écrire pour deux variables aléatoires A et
B:
var(B) = E[var(B/A)] + var(E[B/A]). (5.27)
En vertu de ce théorème, on obtient :
La matrice E[C ˆ ] est définie non-négative. L’opérateur espérance conserve cette propriété. Il en
θ /S
résulte que la matrice C ˆ − C ˆ est définie non-négative. On a bien E[θ̂/S(X)] au moins
θ E[θ /S (X )]
aussi bon que θ̂.
A ce niveau, il est utile de remarquer que si on prend θ̂ = θ̂ MVU , on peut plus améliorer l’estimateur et
donc E[C ˆ ] = 0, il existe une relation fonctionnelle entre θ̂ MVU et la statistique exhaustive
θ MVU /S (X )
S(X).
40
5.10.1 Corollaire
S’il existe une statistique S(X) exhaustive pour θ alors l’estimateur MVU ne dépend que de
S(X). En effet, on ne peut améliorer l’estimateur MVU par la méthode de Rao-Blackwell. On a
donc :
E[C ˆ ] = 0. (5.29)
θ /S (X )
On conclut donc à l’existence d’une relation fonctionnelle entre l’estimateur MVU et la statis-
tique exhaustive S(X).
Remarquons qu’il peut exister plusieurs estimateurs sans biais fonctions de S(X) et on n’est pas sûr
que la méthode de Rao-Blakwell fournisse l’estimateur MVU. A ce niveau, il est utile d’utiliser la
notion de statistique complète.
D’autre part, par hypothèse, θ̌ est un estimateur sans biais tel que :
θ̌ = h(S(X)). (5.31)
On en déduit que :
E[(g − h)(S(X))] = 0. (5.33)
La statistique S(X) étant complète, on a forcément (g − h)(·) = 0. On aboutit donc à :
θ̌ = θ̂ mvu . (5.34)
L’intérêt de ce théorème est de montrer que les estimateurs MVU s’expriment comme des fonctions de
statistiques exhaustives. S’il existe une statistique exhaustive complète S(X) de dimension s = p,
on peut alors chercher une transformation T (S) non-biaisée c.à.d. telle que :
5.11 Conclusion
Ainsi, la méthode de construction de l’estimateur MVU se résume comme suit.
– Il faut utiliser le théorème de factorisation pour conclure quant à l’existence de statistique
exhaustive S(X). On pourra également se servir du théorème de Darmois pour construire une
statistique exhaustive S(X).
– Il faut vérifier si S(X) est complète. Si ce n’est le cas, chercher une autre statistique ou aban-
donner cette approche.
– On peut choisir n’importe quel estimateur sans biais θ̂ et l’améliorer par moyennage condition-
nellement à S(X) ou trouver une fonction qui annule le biais S(X).
41
Troisième partie
Méthode sous-optimale
42
Chapitre 6
6.1 Introduction
Il arrive souvent que l’estimateur MVU ne puisse être manipulé ou même calculé. C’est notamment
le cas si la loi de X est difficile à modéliser ou même à manipuler.
De telles considérations justifient le recours à une méthode d’estimation sous-optimale. En effet, on
cherche un estimateur sans biais de variance minimale dont l’expression est linéaire par rapport
aux données X :
θ̂ = AX + C, (6.1)
où A est une matrice rectangulaire p × N et C un vecteur p × 1. En anglais, on parle d’estimateur
BLUE pour Best Linear Unbiased Estimator.
On désire trouver A et C tels que θ̂ soit sans biais ayant la trace de sa matrice de covariance minimale.
La résolution de ce problème est donnée dans le cas d’un modèle d’observation linéaire par
rapport au paramètre :
X = Hθ + B, (6.2)
où H est une matrice connue de taille N × p et B est un vecteur aléatoire de moyenne E[B] et de
matrice de covariance C B . Le vecteur B représente le bruit d’observation.
43
6.3 Un résultat préliminaire
Il s’agit de trouver la matrice A qui minimise la quantité :
tr[AC B AT ], (6.6)
∀F tr[F C B F T ] ≥ 0. (6.8)
∀u (F T u)T C B (F T u) ≥ 0. (6.9)
G = H T C −1 , (6.12)
B
on obtient :
AC B GT = AH = I p×p . (6.13)
L’inégalité de Cauchy-Schwarz devient :
Aopt = αH T C −1 . (6.15)
B
La matrice de proportionnalité α est calculé en utilisant la relation :
On aboutit alors à :
Aopt = (H T C −1 H)−1 H T C −1 . (6.17)
B B
44
6.4 Résolution
D’après ce qui précède, on montre que la matrice A qui minimise la trace de cette matrice est la
matrice Alvm donnée par :
4
Alvm = (H T C −1 H)−1 H T C −1 . (6.18)
B B
La matrice Alvm est l’inverse généralisée pondérée de H. En effet, la première condition sur le biais
est vérifiée puisque :
Alvm H = I p×p . (6.19)
Le vecteur C s’en déduit aisément :
C = −Alvm E[B]. (6.20)
Finalement, l’estimateur linéaire par rapport à l’observation et dans le cas d’un modèle d’obser-
vation linéaire par rapport au paramètre est :
M = C −1 . (6.22)
B
Cela s’énonce sous la forme du théorème de Gauss-Markov. Pour les observations, parmi tous
les estimateurs linéaires (θ̂(X) fonction linéaire de X) et sans biais, la précision maximale (variance
minimale) est obtenue par l’estimateur selon les moindres carrés pondérés où la matrice de pondération
est l’inverse de la matrice de covariance du bruit d’observation.
45
Chapitre 7
Estimateur bayésien
7.1 Principe
Contrairement à l’approche classique, l’approche bayésienne considère le paramètre inconnu θ
comme aléatoire. Le but est d’estimer une réalisation particulière de θ. La méthode a été baptisée
méthode bayésienne car sa mise en œuvre repose sur l’application du théorème de Bayes.
Plusieurs arguments sont en faveur de cette approche :
– Si on dispose d’une information a priori sur θ, il est possible de la prendre en compte par cette
technique d’estimation. Bien entendu, cette prise en compte ne peut qu’améliorer la qualité de
l’estimation.
– La méthode bayésienne peut s’avérer intéressante dans le cas où il n’existe pas d’estimateur
efficace global (variance minimale pour toutes les valeurs de θ). Il est possible de construire un
estimateur optimal en “moyenne” (par rapport à la plupart des valeurs pouvant être prises par
θ).
Il est important de noter que considérer le paramètre inconnu comme aléatoire fut assez révolutionnaire.
C’est ce qui distingue l’estimation classique de l’estimation moderne dite bayésienne.
Pour s’en convaincre, considérons le cas concret de l’estimation de la vitesse c de la lumière. La vraie
valeur n’est jamais connue. En fait, les valeurs de c sont uniformément réparties sur [c0 − , c0 + ].
La quantité correspond à la précision maximale de la mesure. Il est donc préférable d’estimer c en
supposant une loi a priori uniforme.
46
Ainsi, la loi marginale de X s’exprime :
Z 1
n
P [X = x] = P x (1 − P )n−x dP. (7.3)
0 x
47
La fonction risque peut s’exprimer comme suit :
Z
C(θ, θ̂)PX /θ dX échantillon à valeurs continues
RN
R(θ, θ̂) = X . (7.9)
C(θ, θ̂)PX /θ échantillon à valeurs discrètes
RN
En prenant en compte toutes les valeurs possibles de θ, on définit le risque moyen ou risque de
Bayes : Z
4
R ˆ = Eθ [R(θ, θ̂)] = R(θ, θ̂)Pθ dθ (7.10)
θ Θ
En utilisant l’expression de la fonction risque de l’équation (7.9) et en appliquant le théorème de
Bayes :
PX /θ Pθ = Pθ /X PX , (7.11)
on montre que :
Z Z
C(θ, θ̂)Pθ /X dθ PX dX échantillon à valeurs continues
RN
Rˆ = . (7.12)
θ X Z
C(θ, θ̂)Pθ /X dθ PX échantillon à valeurs discrètes
RN
où Z
4
G(X) = C(θ, θ̂)Pθ /X dθ. (7.14)
Θ
La stratégie optimale consiste à minimiser le risque moyen R ˆ . Comme PX ≥ 0, l’estimateur
θ
bayésien optimal est celui qui minimise la fonction G(X). A ce niveau, il est utile de noter que la
fonction G(·) dépend de la loi a posteriori de θ conditionnellement à X.
L’expression de l’estimateur optimal dépend de la fonction coût choisie. Nous nous intéressons au cas
d’un coût quadratique.
48
La fonction G(·) apparaı̂t comme une forme quadratique en θ̂ :
Z
T T
G(X) = θ̂ θ̂ − 2E[θ/X] θ̂ + θ T θPθ /X dθ. (7.16)
Θ
∂2G
2 = 2I. (7.19)
∂ θ̂
L’extremum obtenu est bien un minimum.
Pour un coût quadratique, l’estimateur bayésien optimal est l’espérance de la grandeur à esti-
mer conditionnellement à l’observation. Cet estimateur joue un rôle fondamental dans de nombreux
problèmes.
7.5.2 Performances
Cet estimateur est non-biaisé :
eqm
EX [θ̂ bay ] = EX [Eθ /X [θ/X]] = Eθ [θ]. (7.20)
X = Hθ + B, (7.24)
où
49
– le paramètre θ suit une loi a priori normale N (µθ , C θ ).
– Le bruit B suit une loi normale N (0, C B ).
– Les va θ et B sont indépendantes.
Pour trouver l’estimateur bayésien qui minimise l’erreur quadratique moyenne, on doit d’abord déterminer
la loi a posteriori de θ conditionnée par X. Pour cela, on s’appuie sur le résultat suivant de calcul de
probabilités.
Si U et V sont deux vecteurs respectivement de Ru et Rv . On suppose que la loi conjointe de (U , V )
est une loi normale de matrice de covariance C :
..
CU U . CU V
C= , (7.25)
.
T .
CU V . CV V
où les matrices ont des tailles : u × u pour C U U , u × v pour C U V et v × v pour C V V . La variable
aléatoire conditionnelle U /V suit également une loi normale
– de moyenne :
E[U /V ] = E[U ] + C U V C −1 (V − E[V ]), (7.26)
VV
– de matrice de covariance :
C U /V = C U U − C U V C −1 C TU V . (7.27)
VV
Appliquons ce résultat à U = θ et à V = Hθ + B. D’abord, il est facile de voir que :
C V V = HC θ H T + C B . (7.28)
CU V = CθHT . (7.29)
On en déduit que :
eqm
θ̂ bay = E[θ/X] = µθ + HH T (HC θ H T + C B )−1 HC θ . (7.30)
A la différence de l’approche classique, la matrice H n’a pas besoin d’être de plein rang pour garantir
l’inversibilité de la matrice HC θ H T + C B .
50
7.7 Estimateur linéaire en moyenne quadratique
7.7.1 Introduction
Mis à part le cas gaussien, il est difficile en pratique, d’exprimer littéralement la loi a posteriori.
Il arrive aussi que la charge calculatoire des 2 méthodes précédentes soient importantes (intégrales
multiples ou maximisation multidimensionnelle).
Une autre voie est alors envisagée. On retient toujours le coût quadratique mais on contraint l’esti-
mateur à être linéaire. Cette démarche est analogue à celle adoptée pour le calcul de l’estimateur
linéaire à variance minimale (BLUE). La classe des estimateurs ainsi construits constitue les filtres
dits de Wiener. Bien que sous-optimale, cette méthode a l’avantage de n’utiliser que les 2 premiers
moments de la loi conjointe.
51
Une écriture matricielle fournit une expression plus compacte :
leqm
θ̂ = C θX C −1 (X − E[X]) + E[θ]. (7.41)
XX
Si les variables X et θ sont centrées, on a alors :
leqm
θ̂ = C θX C −1 X. (7.42)
XX
Bien que sous-optimale, l’estimation linéaire a l’avantage de n’utiliser que les moments d’ordre 1 et 2
du couple (X, θ).
Cet espace hilbertien L2 (Ω) est complet et on peut y appliquer le théorème de projection orthogonale.
Ainsi, si A est un sous-espace vectoriel de L2 (Ω), à tout vecteur U de L2 (Ω), correspond un et un seul
vecteur U orth de A tel que :
4
U orth = arg min E[(U − a)T (U − a)]. (7.44)
a∈A
Une interprétation géométrique est possible : le vecteur U orth est la projection orthogonale de U sur
le sous-espace A. Le principe d’orthogonalité s’en déduit naturellement :
ou encore :
∀a ∈ A E[(U − U orth )T a] = 0. (7.46)
Une fois rappelés ces résultats, revenons au problème de l’estimation linéaire de θi :
où on a supposé θ et X centrés. Si ce n’est pas le cas, il suffit de considérer les va centrées associées.
Minimiser la distorsion EQMi revient à résoudre un problème de projection orthogonale. En effet, on
considère l’ensemble A engendré par les variables aléatoires scalaires X1 , . . . , XN :
4
A = vect{X1 , . . . , XN }. (7.48)
L’optimisation consiste à trouver le vecteur ai = (ai,1 , . . . , ai,N )T qui minimise la norme de l’erreur
θi − θ̂i (norme prise au sens du produit scalaire défini précédemment) :
Cette norme est minimale quand le vecteur erreur est orthogonal à A. Le principe d’orthogonalité se
traduit par les N équations suivantes :
52
soit encore :
N
X
ai,m E[Xm Xn ] = E[θi Xn ]. (7.51)
m=1
Finalement, sous forme matricielle, on obtient les équations dites équations normales :
E[X12 ]
E[X1 X2 ] . . . E[X1 XN ] ai,1 E[θi X1 ]
E[X1 X2 ] E[X 2 ] . . . E[X X ]
2 N ai,2
E[θi X2 ]
1
= .. . (7.52)
.. .. . .
. . .. ..
. . . .
2]
E[XN X1 ] E[XN X2 ] . . . E[XN ai,N E[θi XN ]
Finalement, on obtient :
C XX ai = C X θi . (7.53)
On retrouve la solution de la méthode analytique. Le calcul de la distorsion minimale peut se faire
rapidement par simple application du théorème de Pythagore.
Ainsi, le problème d’estimation linéaire optimale peut être rapidement résolu grâce au principe d’or-
thogonalité. De nombreux exercices peuvent l’illustrer.
7.7.5 Performances
L’estimateur linéaire est non-biaisé puisque :
leqm
E[θ̂] = C θX C −1 (E[X] − E[X]) + E[θ] = E[θ]. (7.54)
XX
Il est facile de donner l’expression de la matrice d’erreur quadratique :
EQM ˆ leqm = C θθ − C θX C −1 C TθX . (7.55)
θ XX
Le i-ème élément diagonal de cette matrice donne la valeur minimale de EQMi .
7.7.6 Propriétés
Deux propriétés de l’estimateur linéaire optimal sont à noter :
– L’estimateur commute avec toute transformation affine. Ainsi, l’estimateur linéaire du nouveau
paramètre :
4
α = P θ + Q. (7.56)
est donné par :
leqm
α̂leqm = P θ̂ + Q. (7.57)
– L’estimateur de la somme de 2 paramètre θ 1 et θ 2 est la somme des estimateurs individuels. Il
s’agit de la propriété de superposition.
53
La matrice d’erreur quadratique est donnée par :
7.8.2 Le filtrage
On suppose que le modèle d’observation est décrit par l’équation suivante :
où s(n) est le signal inconnu et w(n) est un “bruit” additif, supposé décorrélé de s(n). Il s’agit à
chaque instant n de reconstruire le signal inconnu à partir de n + 1 observations (n pour le passé et
une pour le présent) X (n) = (x(0), . . . , x(n))T . C’est un problème de débruitage au moyen d’un filtre
linéaire causal. Le problème est répété pour chaque instant n = 0, . . . , N − 1. Sous les hypothèses
considérées et en respectant le notations habituelles, on peut montrer facilement que :
C XX = C SS + C W W , (7.62)
où les matrices C SS et C W W sont des matrices d’auto-corrélation de taille ((n + 1) × (n + 1). De
plus, on a :
C s(n)X = E[s(n)(x(0), . . . , x(n))] = (css (n), css (n − 1), . . . , css (0)) = c0 Tss . (7.63)
Il vient que :
∀ n = 0, . . . , N − 1 ŝ(n) = c0 Tss (C SS + C W W )−1 X. (7.64)
(n) (n) (n)
Notons a(n) = (a0 , a1 , . . . , an )T le vecteur (n + 1) × 1 des poids :
4
a(n) = (C SS + C W W )−1 c0 ss . (7.65)
On a alors :
ŝ(n) = (a(n) )T X (n) . (7.66)
Quand n varie, il est possible d’interpréter le processus d’estimation comme une opération de filtrage
à réponse impulsionnelle h(n) (k) variant avec le temps (filtre adaptatif) :
4 (n)
∀ k = 0, . . . , n h(n) (k) = an−k . (7.67)
54
Le problème est de trouver la réponse impulsionnelle de ce filtre en exploitant le caractère symétrique
et de Tœplitz de C SS + C W W . En effet, en définissant le vecteur h par :
4
h(n) = (h(n) (0), h(n) (1), . . . , h(n) (n))T , (7.69)
(C SS + C W W )a(n) = c0 ss , (7.71)
il vient que :
(C SS + C W W )h(n) = J c0 ss = (rss (0), rss (1), . . . , rss (n))T . (7.72)
Ceci se traduit par le système d’équations linéaires appelées équations de filtrage de Wiener-Hopf :
(n)
rxx (0) rxx (1) ... rxx (n) h (0) rss (0)
rxx (1) rxx (0) ... rxx (n − 1) (n)
h (1) rss (1)
= . (7.73)
.. .. .. .. .. ..
. . . . . .
rxx (n) rxx (n − 1) . . . rxx (0) h(n) (n) rss (n)
Un algorithme de type Levinson permet de résoudre ce système. Quand la valeur de n devient élevée, la
réponse impulsionnelle est constante et à titre d’exercice, on peut montrer qu’une solution analytique
peut être obtenue (on parle alors de filtre de Wiener “infini”).
7.8.3 Le lissage
Il s’agit du même modèle d’observation. La différence est l’estimation de s(0), . . . , s(N − 1) utilise
le passé, le présent et le futur des observations. Autrement dit, le lissage est réalisé une fois toutes les
observations recueillies tandis que l’opération de filtrage peut être menée au fur et à mesure du recueil
des observations (quasiment en temps réel). Par exemple, pour estimer s(1) en lissage, il est possible
d’utiliser les mesures x(0), x(1), . . . , x(N − 1) alors qu’en filtrage on ne peut utiliser seulement x(0)
et x(1). On retrouve le même type d’expression pour ŝ(n) que dans l’équation (7.64) ce qui change ce
sont les définitions des vecteurs mis en jeu.
7.8.4 La prédiction
La prédiction linéaire de pas l d’horizon N consiste à estimer x(N − 1 + l) (avec l entier po-
sitif) à partir des N observations x(0), x(1), . . . , x(N − 1). Un cas particulier correspond au cas de
l’interpolation où il s’agit d’estimer la donnée “manquante” x(n) à partir des autres observations
x(0), . . . , x(n − 1), x(n + 1), . . . , x(N − 1).
55
Chapitre 8
Détection statistique
8.1 Introduction
8.1.1 Exemples
En télécommunications, il est courant d’avoir à prendre des décisions selon les signaux reçus.
Par exemple, en détection par radar, selon les observations faites, le récepteur doit savoir si dans
ces observations, il y a seulement du bruit ou si un signal attendu (une cible notamment) est présent.
De même, en communication binaire, un train binaire est souvent transmis via un canal bruité.
A partir de l’observation reçue, on cherche si un ‘1’ ou un ‘0’ a été émis par la source. Le récepteur
doit donc choisir entre 2 hypothèses. Mais du fait du bruit de transmission, le récepteur risque de se
tromper dans certains cas de figure. Le but de la détection est de minimiser cette probabilité d’erreur.
On a évidemment :
M
X −1
Pm = 1. (8.3)
m=0
56
– L’ensemble des observations X inclus dans RN est connu. On cherche à le partitionner en M
domaines ∆0 , . . . , ∆M −1 . Ces domaines doivent être disjoints pour qu’il n’ y ait aucun domaine
d’indécision. La réunion de ces M régions de décision doit correspondre à X pour qu’il n’y ait
pas d’observation où aucune décision ne peut être prise. On détectera θ i si X est dans ∆i :
X ∈ ∆i ⇒ θ̂ = θ i . (8.4)
– une fonction de perte (ou de coût) Cij est choisie pour mesurer le coût de la détection de θ i
quand la vraie valeur est θ j .
En général, il est logique de supposer que le coût d’une mauvaise décision est plus élevé que
celui d’une détection correcte :
où P(i,j) est la probabilité conjointe de décider θ i et d’émettre la valeur θ j . On la note aussi P (∆i , Hj ).
En utilisant le théorème de Bayes, on a :
M
X −1 M
X −1
R= Pj Cij Pi/j , (8.8)
i=0 j=0
où Pi/j est la probabilité de décider θ i alors que la vraie valeur émise est θ j :
R
P dX échantillon à valeurs continues
∆i X /Hj
Pi/j = P . (8.9)
P X /Hj échantillon à valeurs discrètes
∆i
MP−1 R MP−1 MP−1 R
( P C P d(X) + ( P C ∆j PX /Hj d(X) échantillon à valeurs continues
j ij X /Hj j jj
∆i
i=0 j=0,j6=i j=0
R= .
MP−1 P MP−1 MP−1 P
( Pj Cij PX /Hj ) + ( Pj Cjj PX /Hj ) échantillon à valeursdiscrètes
i=0 ∆i j=0,j6=i j=0 ∆j
(8.10)
Comme les régions de décision forment une partition de l’espace d’observation X , on a :
−1
∆i = X − ∪M
j=0,j6=i ∆j , (8.11)
57
et : R
P dX = 1 échantillon à valeurs continues
X X /Hj
P , (8.12)
PX /Hj = 1 échantillon à valeurs discrètes
X
soit encore :
R MP−1 R
PX /Hj dX = 1 − ∆i PX /Hj dX échantillon à valeurs continues
∆ j
i=0,i6=j
. (8.13)
P MP−1 P
PX /Hj = 1 − PX /Hj échantillon à valeurs discrètes
∆j i=0,i6=j ∆i
Le risque devient :
MP−1 R MP−1 MP−1 MP−1 R MP−1
( P C P d(X) + ( P C ) − ( Pj Cjj PX /Hj d(X) cas continu
j ij j jj
∆i X /Hj ∆i
i=0
j=0,j6=i j=0 j=0 i=0,i6=j
R= .
MP−1 P MP−1 MP−1 MP−1 P MP−1
Pj Cjj ) − (
( Pj Cij PX /Hj ) + ( Pj Cjj PX /Hj ) cas discret
∆i
i=0 j=0,j6=i j=0 j=0 ∆i i=0,i6=j
(8.14)
Il en résulte comme expression :
MP−1 MP−1 R MP−1
Pj Cjj + Pj (Cij − Cjj )PX /Hj dX échantillon à valeurs continues
∆ i
j=0
i=0 j=0,j6=i
R= .
MP−1 MP−1 P M P−1
Pj (Cij − Cjj )PX /Hj
Pj Cjj + échantillon à valeurs discrètes
j=0 i=0 ∆i j=0,j6=i
(8.15)
où :
R MP−1
Pj (Cij − Cjj )PX /Hj dX échantillon à valeurs continues
∆ i
j=0,j6=i
4
ri = . (8.17)
P MP−1
Pj (Cij − Cjj )PX /Hj
échantillon à valeurs discrètes
∆i j=0,j6=i
58
difficile. Pour le résoudre, il faut rappeler que le problème posé consiste à décider d’une hypothèse
à partir de la donnée d’un échantillon xech . Dans ce cas, la stratégie optimale consiste à assigner
l’échantillon xech à la région ∆i si le coût individuel de cette décision est minimal. Or, la contribution
ponctuelle au coût ri de l’échantillon est :
M
X −1
Pj (Cij − Cjj )PX /Hj (xech ). (8.18)
j=0,j6=i
Finalement, la contribution minimale de l’échantillon sera obtenu pour la région i telle que :
M −1
4 X
i = arg min Pj (Cij − Cjj )PX /Hj (xech ). (8.19)
i=0,...,M −1
j=0,j6=i
Cette dernière équation traduit la règle de décision optimale permettant de construire “point par
point” les régions de décision.
La solution directe serait d’évaluer les M valeurs possibles des sommes précédentes et de sélectionner
celle qui est minimale.
Cette méthode risque d’être coûteuse. Une autre approche est préconisée. Pour ce faire, on définit les
M − 1 rapports de vraisemblance (likelihood ratio) Li (xech ), définis par :
4 PX /Hj (xech )
∀ j = 1, . . . , M − 1 Lj (xech ) = . (8.20)
PX /H0 (xech )
Notons que ces rapports de vraisemblance sont des variables aléatoires car ils dépendent de l’observa-
tion.
La règle de décision optimale consiste à déterminer l’indice i qui minimise la somme :
M −1
4 X
Si (xech ) = Pj (Cij − Cjj )Lj (xech ). (8.21)
j=1
Cette seconde méthode est la meilleure. En effet, l’organe de décision a une structure simple. Il suffit
de calculer M − 1 sommes et de les comparer entre elles. En sortie, l’indice de la plus petite somme est
délivré. Notons que le récepteur peut remplacer le calcul des Si (·) par toute fonction monotone. Par
exemple, le logarithme a souvent, en pratique, une expression analytique plus simple à manipuler.
59
8.4.2 Probabilités d’erreur
Aux 4 cas de figures précédents, on fait correspondre les probabilités suivantes.
– Probabilité de non-détection erronée PM :
R
P dX échantillon à valeurs continues
∆0 X /H1
4
PM = P (∆0 /H1 ) = P . (8.22)
PX /H1 échantillon à valeurs discrètes
∆0
– probabilité de fausse-alarme PF :
R
P dX échantillon à valeurs continues
∆1 X /H0
4
PF = P (∆1 /H0 ) = P . (8.23)
PX /H0 1 échantillon à valeurs discrètes
∆1
PM + PD = 1 (8.25)
soit finalement :
PC = P0 (1 − PF ) + P1 PD . (8.27)
La probabilité PE d’avoir une décision erronée s’en déduit directement :
PE = P0 PF + P1 PM . (8.28)
60
La règle de décision optimale s’obtient aisément :
R = PE . (8.37)
Dans le cas d’un coût tout ou rien, la stratégie bayésienne optimale revient à minimiser la probabilité
d’erreur.
R = (1 − PF )C00 + PF C10 + P1 [(C11 − C00 ) + (C01 − C11 )PM − (C10 − C00 )PF ]. (8.38)
Le risque apparaı̂t comme une fonction linéaire de P1 . Pour une valeur fixée de P1 , il est possible
d’effectuer un test bayésien. Les régions de décision sont déterminées ainsi que les probabilités PF et
PM . Le test consiste à comparer :
(1 − P1 )(C10 − C00 )
L(X) > alors décider H1 . (8.39)
P1 (C01 − C11 )
61
De manière duale, si P1 = 1, le seuil est nul, on décide toujours pour H1 . Dans ce cas, PF = 1 et
PM = 0 et le risque vaut C11 .
Il s’agit de trouver la valeur P1∗ qui maximise le risque R. La condition d’extrémalité correspond à
l’équation du minimax :
soit encore :
R
λ(1 − α) + ∆0 [PX /H1 − λPX /H0 ]dX échantillon à valeurs continues
J= P . (8.43)
λ(1 − α) + [PX /H1 − λPX /H0 ]dX échantillon à valeurs discrètes
∆0
Le critère J est minimisé quand les observations vérifiant PX /H1 − λPX /H0 > 0, sont assignées à la
région ∆1 . La règle de décision consiste à calculer le rapport de vraisemblance L(X) et de voir s’il est
inférieur à λ :
4 PX /H1
L(X) = >H1 λ. (8.44)
PX /H0
Le multiplicateur de Lagrange est déterminé par la condition PF = α :
R
L>α PL/H0 dL échantillon à valeurs continues
PF = α = P , (8.45)
PL/H0 échantillon à valeurs discrètes
L>α
où PL/H0 est la probabilité conditionnelle du rapport de vraisemblance L(X) (qui est bien une va).
Ainsi, la structure du récepteur optimal de Neyman-Pearson est semblable à celle du récepteur
bayésien. La différence réside dans le calcul du seuil.
Dans la pratique, une façon d’évaleur les performances du test est de représenter la courbe PD en fonc-
tion de α. Cette courbe porte le nom de courbe Caractéristique Opérationnelle du Récepteur (COR)
ou (ROC pour Receiver Operating Characteristic).
62
Bibliographie
63