Root

ESTIMATION-DETECTION
Mme A. BENAZZA
Version mise à jour en mai 2015

Table des matières
1 Introduction 2
1.1 Statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.1 Collecte des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.2 L’exploration statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.3 L’inférence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1.4 La modélisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Position du problème . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3 Modèles de prise de décision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.4 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4.1 Lot de pièces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4.2 Fiabilité d’équipements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.5 Performances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.5.1 Biais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.5.2 Matrice de covariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.5.3 Matrice d’erreur quadratique moyenne . . . . . . . . . . . . . . . . . . . . . . . 7
1.5.4 Propriétés asymptotiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.5.5 Comparaison des estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.5.6 En conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2 Moindres carrés 9
2.1 Position du problème . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2 Critère des moindres carrés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.3 Choix de la matrice de pondération . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.4 Un exemple simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.5 Référence linéaire par rapport aux paramètres . . . . . . . . . . . . . . . . . . . . . . . 10
2.5.1 Dérivation de fonctions multivariables . . . . . . . . . . . . . . . . . . . . . . . 10
2.5.2 Modèle d’observation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.5.3 Estimateur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.5.4 Interprétation géométrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.5.5 Performances de l’estimateur . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.5.6 Liens avec les autres estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.6 Moindres carrés récursifs pour un modèle d’observation linéaire par rapport aux pa-
ramètres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.6.1 Position du problème . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.6.2 Résolution dans le cas non pondéré . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.6.3 Remarques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.7 Référence non linéaire par rapport aux paramètres . . . . . . . . . . . . . . . . . . . . 16
2.7.1 Transformation de paramètres . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
i
2.7.2 Linéarisation de la référence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.7.3 Séparabilité des paramètres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.8 Conclusion générale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3 Estimateur du maximum de vraisemblance 18

3.1 Une exemple introductif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.2 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.2.1 Fonction vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.2.2 Critère du maximum de vraisemblance . . . . . . . . . . . . . . . . . . . . . . . 18
3.2.3 Interprétation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.2.4 Existence et unicité non assurées ! . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.3 Conséquences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.4 Invariance à la reparamétrisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.4.1 Reparamétrisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.4.2 Définition de la propriéte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.4.3 Preuve . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.4.4 Commentaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.5 Propriétés asymptotiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.6 Lien avec l’estimateur efficace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.7 Lien avec l’exhaustivité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.8 Modèle d’observation linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.8.1 Résolution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.8.2 Lien avec l’estimateur des moindres carrés . . . . . . . . . . . . . . . . . . . . . 23
4 Estimateur sans biais à variance minimale 24

4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
4.1.1 Objectif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
4.1.2 Existence de l’estimateur MVU . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
4.1.3 Unicité de l’estimateur MVU . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
4.1.4 Recherche de l’estimateur MVU . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
I Estimateur MVU efficace 27

4.2 Information de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
4.2.1 Vecteur score . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
4.2.2 Condition de régularité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
4.3 Matrice d’information de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
4.3.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
4.3.2 Une autre expression de la matrice d’information de Fisher . . . . . . . . . . . 29
4.3.3 Propriété d’additivité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
4.3.4 Influence de la reparamétrisation . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4.3.5 Interprétation de la matrice de Fisher . . . . . . . . . . . . . . . . . . . . . . . 30
4.3.6 A propos de la notion d’“information” . . . . . . . . . . . . . . . . . . . . . . . 30
4.4 Borner les variances l’estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4.4.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4.4.2 Cas d’un paramètre scalaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.4.3 Cas d’un paramètre vectoriel . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.5 Estimateur efficace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
4.5.1 Théorème . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
ii
4.5.2 Preuve du théorème . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
4.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
II Recherche de l’estimateur MVU via une statistique exhaustive 34
5 Statistique exhaustive 35
5.1 Avant-propos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
5.2 Un premier exemple introductif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
5.3 Un second exemple introductif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
5.4 Définition de l’exhaustivité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
5.5 Théorème de factorisation de Neyman-Fisher . . . . . . . . . . . . . . . . . . . . . . . 36
5.5.1 Enoncé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
5.5.2 Preuve . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
5.5.3 Utilité du théorème . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
5.6 Famille de lois exponentielles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
5.7 Théorème de Pitman-Koopman-Darmois . . . . . . . . . . . . . . . . . . . . . . . . . . 38
5.8 Exhaustivité et information . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
5.8.1 Diminution de l’information . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
5.8.2 Conservation de l’information . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
5.9 Statistique complète . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
5.9.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
5.9.2 Justification de la dénomination . . . . . . . . . . . . . . . . . . . . . . . . . . 39
5.9.3 Vérification de la propriété . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
5.9.4 Cas des lois de la famille exponentielle . . . . . . . . . . . . . . . . . . . . . . . 39
5.10 Théorème de Rao-Blackwell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
5.10.1 Corollaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
5.10.2 Théorème de Lehman-Scheffé . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
5.11 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
III Méthode sous-optimale 42
6 Estimateur linéaire sans biais de variance minimale 43

6.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
6.2 Conditions sur le biais et la variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
6.3 Un résultat préliminaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
6.4 Résolution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
6.5 Lien avec l’estimateur des moindres carrés . . . . . . . . . . . . . . . . . . . . . . . . . 45
7 Estimateur bayésien 46
7.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
7.2 Exemple historique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
7.3 Modèle de décision bayésienne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
7.4 Risque bayésien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
7.5 Coût quadratique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
7.5.1 Estimateur optimal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
7.5.2 Performances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
7.5.3 Transformation affine du paramètre . . . . . . . . . . . . . . . . . . . . . . . . 49
7.5.4 Modèle bayésien linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
iii
7.6 Estimateur du maximum a posteriori . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
7.7 Estimateur linéaire en moyenne quadratique . . . . . . . . . . . . . . . . . . . . . . . . 51
7.7.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
7.7.2 Position du problème . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
7.7.3 Optimisation analytique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
7.7.4 Principe d’orthogonalité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
7.7.5 Performances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
7.7.6 Propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
7.7.7 Théorème bayésien de Gauss-Markov . . . . . . . . . . . . . . . . . . . . . . . . 53
7.8 Exemples d’applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
7.8.1 Présentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
7.8.2 Le filtrage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
7.8.3 Le lissage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
7.8.4 La prédiction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
8 Détection statistique 56
8.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
8.1.1 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
8.1.2 Définition de la détection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
8.1.3 Modèle de travail . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
8.2 Risque bayésien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
8.3 Détection optimale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
8.4 Cas de 2 hypothèses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
8.4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
8.4.2 Probabilités d’erreur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
8.4.3 Détecteur optimal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
8.4.4 Coût tout ou rien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
8.5 Stratégie du minimax . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
8.6 Stratégie de Neyman-Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
iv
Avant-propos
Ces notes de cours du module “estimation/détection” sont destinées aux élèves-ingénieurs de

deuxième année de l’Ecole Supérieure des Communications de Tunis (SUP’COM) et ceux de l’Ecole
Polytechnique de Tunis (EPT). Pour les étudiants de SUP’COM, le volume horaire imparti est de
22.5 heures. De même, à l’EPT, seuls les étudiants inscrits dans l’option “signaux et systèmes” (SISY)
suivent ce cours sur 32 heures.
L’idée de ce cours est de sensibiliser les étudiants à l’importance des problèmes d’estimation qui font
partie intégrante de la vie d’ingénieur. Les principales méthodes seront donc présentées. En toute ri-
gueur, ce cours s’appuie sur des notions de statistiques. Or, le cursus des étudiants auxquels il s’adresse
ne comporte ps de cours à proprement parler de statistiques. J’ai donc choisi de présenter certains
résultats de manière synthétique (notamment la notion d’exhaustivité) en fournissant des références
bibliographiques. Enfin, ce cours est assorti de travaux dirigés voire de miniprojets.
1
Chapitre 1
Introduction
1.1 Statistique
La statistique recouvre un domaine tellement vaste qu’il s’avère difficile d’en donner une définition
générale et précise. Toutefois, on peut retenir la définition suivante tirée de l’Encyclopedia Universalis :
“la statistique désigne à la fois un ensemble de données d’observations et l’activité qui consiste dans
leur recueil, leur traitement et leur interprétation”.
Il s’agit d’étudier la variabilité des individus ou objets (on parle aussi d’unités statistiques) issus
d’une population 1 pour lesquels on dispose de mesures (appelées variables). Un recensement est défini
comme l’étude de tous les individus de la population (si bien sûr elle est de taille finie). Si en revanche,
seule une fraction de la population est étudiée, l’observation est un sondage et la fraction concernée
constitue un échantillon.
Chaque individu est caractérisé par des variables qui peuvent être :
– quantitatives (continues et/ou discrètes),
– et/ou qualitatives (nominales et/ou ordinales).
Généralement, une procédure statistique s’organise autour des 3 étapes : la collecte des données,
l’exploration l’inférence et la modélisation.
1.1.1 Collecte des données

La collecte des données peut se faire par des sondages consistant à choisir les unités statistiques ou
des plans d’expériences qui ont pour but de produire des données selon des conditions expérimentales
clairement spécifiées au préalable.
1.1.2 L’exploration statistique

Elle vise à synthétiser l’information véhiculée par les données en veillant à les représenter par des
tableaux, graphiques facilement interprétables. La motivation essentielle est de faire apparaı̂tre cer-
taines propriétés des données. Pour ce faire, deux grandes étapes sont alors préconisées. La première
concerne la statistique descriptive pour choisir le type de représentation des données (tableaux, gra-
phiques) variable par variable ou conjointement. Par la suite, la phase d’analyse des données vise
la production de graphiques et indicateurs capables de résumer les structures les plus importantes
caractérisant ces tableaux. Ces méthodes se distinguent en 2 grandes familles selon leurs objectifs
respectifs : réduction de dimension ou la classification. Elles donnent lieu à différentes approches selon
le type de données à analyser (quantitatives et/ou qualitatives).
1. La terminologie adoptée résulte de l’héritage des premiers travaux en statistique appliqués à la démographie.
2
1.1.3 L’inférence
Il s’agit d’étudier la généralisation à l’ensemble de la population des propriétés mises en évidence
sur l’échantillon. L’inférence statistique se décline en deux volets. Le premier concerne l’estimation
d’une variable inconnue à partir de réalisations indépendantes de cette variable, le second est dédié
aux tests d’hypothèses.
1.1.4 La modélisation
L’objectif est de trouver une relation entre une variable “à expliquer” et les variables explicatives
afin par exemple, de faire des prévisions. La régression linéaire correspond au cas particulier où la
relation est linéaire entre toutes les variables numériques. Le cas où on veut prévoir une variable
qualitative (discrimination) est aussi un autre cas particulier couramment rencontré.
1.2 Position du problème

Soit un phénomène physique décrit par une grandeur observable X. Les observations faites sur X
montrent que cette variable ne peut être prévue avec exactitude car :
– les mesures réalisées sont entachées d’un bruit de mesure,
– les variables observées sont insuffisantes pour déterminer l’état du système considéré.
On associe au phénomène physique un modèle aléatoire pour lequel X est considérée comme une
variable aléatoire (va) réelle. L’espace probabilisé associé est (R, B(R), P̃X;θ1 ,...,θp ) :
– R est l’espace des résultats,
– B(R) est la tribu des parties de R,
– P̃X;θ1 ,...,θp est la loi de probabilité de X paramétrée par les paramètres scalaires θ1 , . . . , θp .
On parle de modèle statistique paramétrique. On suppose que ces p paramètres scalaires constituent
les composantes du vecteur θ :  
θ1
θ =  ...  .
4 
(1.1)

θp
La loi de probabilité de X sera alors notée P̃X;θ . Le but est de connaı̂tre les valeurs que peut
prendre le vecteur inconnu θ à partir des observations disponibles x1 , . . . , xN . On dit que l’ensemble
des ces N observations constitue un échantillon de taille N .
Tout se passe comme si le phénomène aléatoire considéré est décrit par N va X1 , . . . , XN , indépendantes
et identiquement distribuées (iid), ayant la même loi que X. L’échantillon correspond alors à la
réalisation de N expériences aléatoires indépendantes ω1 , . . . , ωN des N va :

4
 x1 = X1 (ω1 )


.. .. .. (1.2)
 . . .
 4
xN = XN (ωN ).

Pour rappeler que les valeurs x1 , . . . , xN sont prises aléatoirement, on notera l’échantillon
X = (X1 , . . . , XN )T . (1.3)
La nouvelle expérience composite est modélisée par l’espace probabilisé (RN , B(RN ), PX ;θ ), dénommé
structure statistique.
3
De façon générale, le but de la théorie de l’estimation paramétrique est de développer des
méthodes permettant de choisir les valeurs du paramètre θ à partir d’un ensemble d’observations et
ce, d’une manière optimale selon un critère donné. La théorie de l’estimation est un cas particulier d’un
problème de prise de décision. Il est important de saisir que même s’il y a une part d’arbitraire dans la
construction de ces méthodes, ces dernières dépendent de la quantité d’information disponible a priori.
Le terme estimation (resp. détection) est utilisé lorsque les paramètres sont à valeurs continues
(resp. discrètes).
La théorie de l’estimation est multidisciplinaire dans la mesure où elle possède un vaste champ
d’applications. Le plus important relève du traitement du signal. Toutefois, il serait utile de noter
que les outils de la théorie de l’estimation sont couramment utilisés en économie. Les exemples sui-
vants donnent une idée de la diversité des problèmes d’estimation rencontrés dans un vaste panorama
d’applications :
– l’analyse d’images (estimer les positions des objets dans une séquence vidéo, . . . ),
– les applications biomédicales (estimer les pulsations cardiaques d’un patient, . . . ),
– les télécommunications (estimer la fréquence d’une porteuse pour démoduler le signal reçu, . . . ),
– en contrôle (assurer le suivi d’engins mobiles, . . . ),
– en géologie (estimer la profondeur d’un gisement, . . . ).
1.3 Modèles de prise de décision

L’objectif est de faire correspondre :
– à tout échantillon X prenant des valeurs dans RN , dont la loi de probabilité PX ;θ dépend d’un
paramètre θ,
– un choix (ou décision) ∆ quant à une propriété (valeur) de ce paramètre θ
– et cela de manière optimale (au sens d’un critère choisi arbitrairement par l’observateur).
Cette prise de décision se fait sur la base d’un échantillon de taille N et aboutit à un estimateur
θ̂(x1 , . . . , xN ). Par la suite, pour alléger les notations, on écrira simplement θ̂. De manière générale,
on appelle estimateur d’une fonction g(θ) une certaine va fonction seulement de l’échantillon utilisé.
Notons que l’estimateur correspond à une va en raison du caractère aléatoire de l’échantillon et ce,
indépendemment de la nature du paramètre θ ou de la méthode d’estimation choisie. A ce niveau,
signalons que l’on note θ̂ la va (fonction des X1 , . . . , XN ) et la valeur prise par la va (fonction des
x1 , . . . , xN ). Il s’agit bien d’un abus de notation : seul le contexte nous permettra de distinguer entre
les deux cas.
Les modèles de prise de décision peuvent être regroupés en 2 familles principales selon que l’espace Θ
du paramètre inconnu est probabilisé ou pas c.à.d. selon que θ est déterministe ou pas. Si θ est aléatoire,
on parle d’approche bayésienne. Ce qualificatif est dû à Thomas Bayes (1702-1761) dont le théorème
a donné naissance véritablement à une école statistique. La loi a priori sur θ résume l’information sur
le paramètre inconnu autre que celle fournie par l’expérience aléatoire. Cette information peut être
subjective mais elle peut aussi émaner d’autres expériences. On aboutit à la typologie suivante.
4
Structure décisionnelle
RN , ∆, Θ
Décision bayésienne Décision non bayésienne

Θ espace probabilisé Θ espace non probabilisé
Information sur (X, θ)
Fonction de perte C(·) Inventaire de l’information sur X
Critère du risque : Critères d’optimisation construit sur :
• risque bayésien • soit l’erreur : décision à mesure d’erreur minimale,
• critère du minimax décision à distance d’observation minimale (moindres carrés)
• maximum a posteriori • soit les caractéristiques de l’observation :
décision à maximum de vraisemblance, exhaustivité
1.4 Exemples
1.4.1 Lot de pièces
L’état d’une pièce de monnaie est modélisable par une va X de Bernouilli. Soit p la probabilité
pour que la pièce soit défectueuse :
P [X = 1] = p. (1.4)
Pour estimer le paramètre inconnu p, on se choisit un échantillon de taille N et on compte le taux
SN de pièces défectueuses :
N
41 X
SN = Xn . (1.5)
N
n=1
Comme E[X] = p, un estimateur naturel serait p̂ = SN . Bien entendu, on peut construire d’autres
estimateurs de p.
1.4.2 Fiabilité d’équipements

La fiabilité est l’étude de la durée de vie de composants ou équipements pouvant être de nature très
variée. Les observations concrètes permettent de modéliser la durée de vie de composants électroniques
par une va X suivant une loi exponentielle de paramètre λ, appelé taux de défaillance. Dans ce cas,
la densité de probabilité fX,λ (·) de X s’écrit :
λe−λx x ≥ 0

fX,λ (x) = (1.6)
0 sinon.
On cherche à estimer λ en faisant des essais indépendants sur N composants supposés identiques.
Remarquons qu’il ne s’agit pas ici de tester si la loi de fiabilité est bien une loi exponentielle mais
plutôt de choisir parmi toutes les lois exponentielles celle correspondant à une vraie valeur de λ. Pour
ce faire, on considère la loi conjointe de l’échantillon qui s’écrit :
 N
P
 −λ xn
fX1 ,...,XN ;λ (x1 , . . . , xN ) = λN e n=1 ∀xn ≥ 0 (1.7)
0 sinon.

Plusieurs méthodes sont envisageables selon le critère d’optimisation choisi.
5
1.5 Performances
Les différentes méthodes d’estimation peuvent a priori aboutir à différents estimateurs θ̂ de θ.
Pour comparer les performances de ces estimateurs, il est d’usage de calculer (quand elles existent)
les quantités suivantes.
1.5.1 Biais
Le biais b ˆ est un paramètre de position ou de localisation défini par :
θ
4
∀ θ ∈ Θ b ˆ = E[θ − θ̂] (1.8)
θ
où Θ désigne l’ensemble des valeurs prises par θ (sous-ensemble de Rp . Il s’agit d’un vecteur de même
dimension p que le paramètre θ. Si ce dernier est déterministe, on aura simplement :
∀ θ ∈ Θ b ˆ = θ − E[θ̂]. (1.9)
θ
Bien entendu, la qualité (ou précision) de l’estimateur est d’autant meilleure que le biais est faible.
On veillera donc à construire des estimateurs non-biaisés (à biais nul). On souhaite que l’estimation
ne soit pas systématiquement décalée par rapport à la vraie valeur (cas non bayésien) ou à la valeur
moyenne du paramètre inconnu (cas bayésien).
Enfin, notons qu’il est important de souligner que pour qu’un estimateur soit non biaisé, son biais
doit être nul pour toutes les valeurs admissibles de θ. Pour s’en convaincre, prenons le cas d’un
signal constant inconnu A noyé dans un bruit additif centré Wn :
∀n = 1, . . . , N, X n = A + Wn . (1.10)
Considérons l’estimateur Â suivant :

N
4 1 X
Â = Xn . (1.11)
2N
n=1
Il est facile de voir que :

A
E[Â] = . (1.12)
2
Seulement si la valeur A = 0, E[Â] = A, pour les valeurs non-nulles de A, l’estimateur considéré est
biaisé car E[Â] 6= A .
1.5.2 Matrice de covariance

Dans le cas non bayésien, la matrice de covariance C ˆ est définie par :
θ
4
C ˆ = E[(θ̂ − E[θ̂])(θ̂ − E[θ̂])T ]. (1.13)
θ
La matrice C ˆ de taille p × p possède les propriétés classiques d’une matrice de covariance. Dans le
θ
cas bayésien, on aura :
4
C ˆ = E[(θ̂ − E[θ̂])(θ̂ − E[θ̂])T |θ]. (1.14)
θ |θ
Il faudra alors moyenner par rapport à θ :
4
C ˆ = Eθ [C ˆ ]. (1.15)
θ θ |θ
6
1.5.3 Matrice d’erreur quadratique moyenne
Cas non bayésien
La Matrice d’Erreur Quadratique Moyenne (EQM) EQM ˆ est définie par :
θ
4
EQM ˆ = E[(θ − θ̂)(θ − θ̂)T ]. (1.16)
θ
Les élements diagonaux de cette matrice p × p correspondent à des écarts énergétiques, ayant une
signification physique.
Dans le cas d’un paramètre multidimensionnel (p > 1), il existe différentes définitions d’un estima-
teur à variance minimale. Une première définition consiste à raisonner composante par composante :
chaque paramètre scalaire θi avec i = 1, . . . , p a une variance minimale. Une seconde définition consiste
à minimiser globalement la trace de la matrice de covariance.
Dans le cas où b ˆ = 0, C ˆ = EQM ˆ représente la distance quadratique entre l’estimateur et le

θ θ θ
paramètre à estimer. Il s’agit donc d’un paramètre de précision.
Il est important de souligner que les 3 quantités définies (biais, matrice de covariance et EQM)
correspondent à des propriétés globales, issues d’une opération de moyennage. Il se peut que pour une
réalisation particulière, un estimateur moins bon qu’un autre au sens de l’EQM, donne une estimation
plus proche de θ que celle donnée par le meilleur estimateur.
Cas bayésien
On procède en considérant une moyenne par rapport aux observations conditionnellement à la
valeur de θ puis on moyenne par rapport à θ.
1.5.4 Propriétés asymptotiques

Comme on l’a noté précédemment, les estimateurs considérés dépendent de la taille de l’échantillon
N qui a servi à les construire. Il en résulte que le biais, les matrices de covariance et d’EQM dépendent
aussi de N . Il s’avère intéressant de connaı̂tre -si elles existent- leurs valeurs limites quand N tend
vers +∞. En effet, il est possible d’avoir une estimateur θ̂(N ) avec biais mais tel que :
∀θ ∈ Θ lim b[θ̂(N )] = 0. (1.17)

N →+∞
Si cette dernière équation est satisfaite, on parle d’estimateur asymptotiquement sans biais.
1.5.5 Comparaison des estimateurs

Notons qu’il est souvent impossible de classer totalement les estimateurs obtenus. Par exemple,
en estimation classique (non-bayésienne) il est vain de déterminer un estimateur donnant une EQM
4
minimale pour toutes les valeurs de θ. Pour l’illustrer, considérons l’estimation de la moyenne θ = m
d’une suite de va iid de variance σ 2 connue, par les estimateurs m̂1 et m̂2 , définis par :

4 N

 m̂ = 1 P
1 N Xn
n=1 (1.18)

 m̂ = 4
2 4.
Il est aisé de voir que :
7

b(m̂1 ) = 0
(1.19)
b(m̂2 ) = m − 4.
De même, on établit rapidement que :
2
= σN

Cm̂1
(1.20)
Cm̂2 = 16 − 8m + m2 .
Seulement pour une certaine plage de valeurs de m, l’estimateur m̂2 est mieux - au sens de
l’EQM - que m̂1 .
De même, en théorie bayésienne, le risque introduit un pré-ordre sur l’ensemble des décisions qui
est en général partiel.
Devant l’impossibilité de classer totalement les estimateurs, leur comparaison se fait en introdui-
sant des contraintes supplémentaires, se restreignant ainsi à une classe d’estimateurs. Par exemple, on
classera les estimateurs sans biais selon leur EQM décroissante.
1.5.6 En conclusion . . .
Ainsi, pour récapituler, les principaux critères de comparaison sont :
– le biais,
– la précision,
– la convergence,
– la complexité opératoire,
– la robustesse de l’estimateur par rapport au modèle d’observation retenu [1]. Si les données sont
bruitées, il est préférable que l’estimateur soit peu sensible aux valeurs aberrantes. Dans ce cas,
la robustesse est définie par le plus petit nombre de données aberrantes qui modifient la valeur
de g(x) = θ̂ rapporté à la taille de l’échantillon.
De même, il est recommandé d’étudier le comportement de l’estimateur par rapport à une
modification du modèle d’observation. Pour ce faire, il est d’usage dans le cas non bayésien,
d’exprimer l’estimateur de θ comme une fonctionnelle T de PX ;θ et de définir la fonction
d’influence IF de l’estimateur par :
T ((1 − ε)PX ;θ + εδx ) − T (PX )

IF (x, PX ;θ , T ) = lim , (1.21)
ε−→0 ε
où δx est une impulsion centrée en x. La fonction IF mesure la distorsion introduite au niveau
de l’estimateur par une légère perturbation de la densité de probabilité PX des données. Un
estimateur sera qualifié de robuste si IF est bornée pour chaque échantillon x [2].
8
Chapitre 2
Moindres carrés
2.1 Position du problème

La méthode des moindres carrés (least squares) est une ancienne méthode remontant aux travaux
de Gauss sur le mouvement des planètes et des comètes, à la fin du 18ème siècle. En 1809, K.F. Gauss
publie le livre “Theoria Motus Corpurum Cœlestum” dans lequel il pose le problème entre autres, du
nombre minimal d’observations nécessaires. La méthode des moindres carrés constitue une méthode
très attractive car elle n’exige d’aucune hypothèse probabiliste. C’est pour cette raison qu’on la qualifie
de “méthode du pauvre”. Voyons de plus près le principe de cette technique.
On suppose que le phénomène étudié est décrit par un signal de référence sn;θ paramétré par un vecteur
inconnu déterministe θ de dimension p. On suppose que la forme de sn;θ est donnée. Autrement dit,
la relation donnant le signal de référence en fonction de θ est connue d’avance. A cause du bruit de
mesure ou des imperfections du modèle, on n’observe qu’une version perturbée de sn;θ que l’on note
xn . A partir de l’échantillon, la méthode des moindres carrés consiste à estimer la valeur inconnue de
θ par θ̂ MC (x1 , . . . , xN ) défini par :
XN X N
θ̂ MC (x1 , . . . , xN ) = arg min{ mn1 ,n2 (xn1 − sn1 ;θ )(xn2 − sn2 ;θ )}, (2.1)
θ ∈Θ n1 =1 n2 =1
où mn1 ,n2 désigne l’élément générique d’une matrice M symétrique (N × N ) définie, strictement
positive, fixée au préalable.
2.2 Critère des moindres carrés

Le critère des moindres carrés JMC (·) peut s’écrire de manière plus compacte :
JMC (X) = arg min{(x − S(θ))T M (x − S(θ))}, (2.2)

θ ∈Θ
 
x1
où x =  ...  ,
4 
(2.3)

xN
 
s1;θ
et S(θ) =  ...
4 
. (2.4)

s N ;θ
9
Il s’agit d’un critère bâti sur la distance entre le vecteur d’observation X et le vecteur du signal de
référence S(θ). En aucune manière, il n’exige la connaissance de la loi de probabilité du vecteur x.
C’est un avantage indéniable qui explique le grand succès de la méthode des moindres carrés.
La dénomination “moindres carrés” se justifie par le caractère quadratique de la distance considérée.
Deux principaux arguments œuvrent en faveur d’un critère quadratique :
– il facilite les calculs car l’estimateur cherché apparaı̂t souvent comme la solution d’un système
d’équations linéaires,
– l’écart quadratique a une signification physique (énergie ou variance de l’erreur d’estimation).
2.3 Choix de la matrice de pondération

La matrice M est choisie a priori pour accorder un poids variable aux différentes observations
qui constituent le vecteur X. On parle alors de moindres carrés pondérés. Si la matrice M est la
matrice identité, on parle de moindres carrés ordinaires. Enfin, notons qu’en raison du caractère
symétrique défini positif de M , tout problème de moindres carrés pondérés peut se ramener à un
problème de moindres carrés ordinaires, via une transformation linéaire des données.
2.4 Un exemple simple

Prenons comme signal de référence la composante continue DC (Direct Current) :
4
∀ n = 1, . . . , N sn;A = A. (2.5)
Pour les moindres carrés ordinaires, le critère JMC (A) s’écrit :
N
X N
X
2
JMC (A) = (xn − sn;A ) = (xn − A)2 . (2.6)
n=1 n=1
Il est minimal pour :

N
1 X
ÂMC = xn . (2.7)
N
n=1
2.5 Référence linéaire par rapport aux paramètres

2.5.1 Dérivation de fonctions multivariables
Dans ce qui suit, il est nécessaire de connaı̂tre les expressions des dérivées suivantes :
T

4 ∂b θ
 D
 1
 =
∂θ

, (2.8)
T
4 ∂θ M θ


 D2 =

∂θ
où b et θ sont des vecteurs de même dimension p et M = (mij ) une matrice symétrique p × p. Comme
bT θ = b1 θ1 + . . . + bp θp , il vient que :
 ∂b θ + . . . + b θ 
1 1 p p
 ∂θ1 
 .. 
D1 = 
 .  = b.
 (2.9)
 ∂b1 θ1 + . . . + bp θp 
∂θp
10
De même, la forme quadratique θ T M θ s’exprime :
p
X X
T
θ Mθ = mkk θk2 + 2 mij θi θj . (2.10)
k=1 i<j
De manière évidente, la dérivée de θ T M θ par rapport à θ1 s’écrit :

p p
∂θ T M θ X X
= 2m11 θ1 + 2 m1j θj = 2 m1j θj . (2.11)
∂θ1
j=2 j=1
En étendant le raisonnement aux autres composantes, on en déduit que :
D2 = 2M θ. (2.12)
2.5.2 Modèle d’observation

L’objectif est de déterminer la forme de l’estimateur. Pour cela, on a besoin de connaı̂tre la relation
liant θ au signal de référence. De manière générale, on peut supposer que :
S(θ) = h(θ), (2.13)
où h(·) représente une fonction déterministe connue. Dans le cas général, on suppose que l’observation
X est le signal de référence S perturbé par un bruit additif B. On obtient alors le modèle d’observation
suivant :
X = h(θ) + B. (2.14)
Dans le cadre de notre étude, on se restreint au cas où la référence est linéaire par rapport au pa-
ramètre :
S(θ) = Hθ, (2.15)
où H est une matrice rectangulaire N × p. En définitive, le modèle d’observation considéré est :
X = Hθ + B. (2.16)
2.5.3 Estimateur
Le critère des moindres carrés s’obtient facilement :
JMC (θ) = (X − Hθ)T M (X − Hθ). (2.17)
Le minimum de ce critère correspond à l’annulation de son gradient par rapport à θ :
∂Hθ T

M (X − Hθ) = 0. (2.18)
∂θ
En s’appuyant sur les résultats précédents concernant la dérivation de fonctions multivariables, on

trouve que les conditions nécessaires d’extrémalité sont les suivantes :
H T M (X − Hθ) = 0 (2.19)
Deux cas se présentent :
11
– Si H T M H n’est pas inversible c.à.d. si H n’est pas de rang colonnes plein c’est-à-dire s’il existe
θ0 tel que Hθ0 = 0 (une combinaison linéaire des colonnes est nulle) alors pour tout θ :
Hθ = H(θ + θ0 ). (2.20)
Par conséquent, pour tout estimateur θ̂, l’estimateur θ̂+θ0 explique aussi bien les données. Ainsi,
l’unicité de l’estimateur n’est plus garantie à moins d’ajouter d’autres hypothèses. Un manière
équivalente de le voir est de remarquer qu’au moins une des composantes est une combinaison
linéaire des autres, et s’avère donc inutile.
Ce problème se rencontre notamment quand le nombre N d’observations est strictement inférieur
au nombre p de paramètres à estimer (dimension de θ). En effet, la matrice H T M H est
dégénérée car N < p implique que le rang de H soit strictement inférieur à p.
– Si H T M H est inversible (c.à.d. si le rang de H est p < N ) alors l’extremum est atteint pour :
θ̂ MC = (H T M H)−1 H T M X. (2.21)
Il s’agit bien d’un unique minimiseur du critère puisque la matrice hessienne est H T M H qui
est définie strictement positive. La valeur minimale du critère vaut :
JMC (θ̂ MC ) = X T (M − M H(H T M H)−1 H T M )X. (2.22)
A ce stade, plusieurs remarques peuvent être faites :

– Le calcul de l’estimateur peut se faire judicieusement. On calculera et on mémorisera d’abord
la matrice H T M . Il suffira de la multiplier à droite par H pour obtenir la matrice H T M H.
Enfin, l’inversion de cette dernière matrice doit exploiter son caractère symétrique.
– L’estimateur obtenu a une forme simple fort remarquable : il est linéaire par rapport à
l’échantillon.
Dans toute la suite, on supposera que H T M H est inversible c.à.d. que l’estimateur existe et est
unique.
2.5.4 Interprétation géométrique

Quelques définitions
Supposons que M = I et que le rang de H soit p < N et définissons :
H = {u ∈ RN /∃α ∈ Rp , u = Hα}, (2.23)

T −1 T
K1 = H(H H) H , (2.24)
K2 = I − K1 . (2.25)
H désigne le sous-espace linéaire de RN engendré par les colonnes de H.
Enoncé
Nous pouvons montrer les points suivants.
– La matrice K1 est symétrique, idempotente et de rang p ;
– K1 est le projecteur dans RN sur le sous-espace H.
12
Preuve
– Symétrie Il est évident que :
T
KT1 = H(H T H)−1 H T = H(H T H)−T H T (2.26)
Comme (H T H) est symétrique ainsi que son inverse et on en déduit aisément la symétrie de
K1 .
– Idempotence
√
(K1 )2 = H(H T H)−1 H T MH(H T H)−1 H T = H(H T H)−1 H T . (2.27)
On voit donc que (K1 )2 = K1 .

– La matrice (K1 )2 est un projecteur.
– De plus, pour tout X de RN , on a :
K1 X = Hθ̂ ∈ H. (2.28)
K1 projette RN sur H .
– Mais ce sous-ensemble coı̈ncide avec H car pour tout u de H, il existe α de Rp tel que u = Hα
et par conséquent,
K1 u = H(H T H)−1 H T u
= H(H T H)−1 H T Hα
(2.29)
= Hα
= u.
Cela signifie que K1 est le projecteur sur H. Comme H est un sous-espace de RN de dimension
p, le rang de K1 est égal à p .
– X̂ = Hθ̂MC est la projection orthogonale de X sur le sous-espace vectoriel engendré par les
colonnes de H.
2.5.5 Performances de l’estimateur

Les performances de l’estimateur ne peuvent être connues que si l’on adopte des hypothèses statis-
tiques sur le modèle. On supposera que le bruit B est centré du second ordre de matrice de covariance
CB .
Biais On calcule la moyenne de l’estimateur :

EX ;θ [θ̂ MC ] = E[(H T M H)−1 H T M (Hθ + B)]. (2.30)
On aboutit rapidement à :
EX ;θ [θ̂ MC ] = θ. (2.31)
Dans ce cas, l’estimateur des moindres carrés θ̂ mc est non biaisé.
Covariance Après de simples calculs, la matrice de covariance de l’estimateur des moindres carrés
Cˆ s’exprime comme :
θ MC
Cˆ = (H T M H)−1 H T M C B M H(H T M H)−1 . (2.32)
θ MC
Si on choisit M = C −1 , on obtient :
B
Cˆ = (H T C −1 H)−1 . (2.33)
θ MC B
La covariance de l’estimateur fait partie de l’estimateur lui-même.
13
2.5.6 Liens avec les autres estimateurs
Dans les chapitres suivants, on établira l’équivalence de l’estimateur des moindres carrés avec
l’estimateur du maximum de vraisemblance et de variance minimale. Mais, il est important de noter
que cette équivalence résulte de la conjonction de 3 facteurs :
– modèle linéaire,
– lois de probabilité normale,
– critère quadratique.
Cette équivalence n’a aucune raison d’exister systématiquement si on sort de ce cadre.
2.6 Moindres carrés récursifs pour un modèle d’observation linéaire

par rapport aux paramètres
2.6.1 Position du problème
L’estimateur est calculé lorsque N observations ont été effectuées. Que se passe-t-il lorsqu’on
enregistre une (N + 1)-ème mesure ?
Une première solution consiste a priori à recommencer de nouveau le calcul, en utilisant la formule :
θ̂ N = (H TN M N H N )−1 H TN M N X N , (2.34)
où on a indexé par N les matrices et les vecteurs pour rappeler qu’ils dépendent de la taille de
l’échantillon. Cette première alternative est fort coûteuse en terme de complexité puisqu’il faut inverser
à chaque fois, la matrice H TN M N H N de taille p × p.
Une seconde solution consiste à chercher une formulation récursive permettant la mise à jour de
l’estimateur à chaque nouvelle observation, en vue d’un traitement en temps réel.
Pour faciliter la lecture, on choisit comme matrice de pondération M N = I N ×N . L’expression de
l’estimateur des moindres carrés ordinaires est :
θ̂ N = (H TN H N )−1 H TN X N . (2.35)
On définit la matrice P N de taille p × p et le vecteur QN de taille p × 1 :

4
(
P N = (H TN H N )−1
4 . (2.36)
QN = H TN X N
On en déduit :
θ̂ N = P N QN . (2.37)
Le principe de la méthode est d’établir une relation de récurrence entre (P N , QN ) et (P N +1 , QN +1 ).
2.6.2 Résolution dans le cas non pondéré

On se place dans le cadre d’un modèle d’observation linéaire par rapport aux paramètres :
X N +1 = H N +1 θ + B N +1 . (2.38)
Il est possible de partitionner la matrice H N +1 de taille (N + 1) × p de la façon suivante :

 
HN
H N +1 =  . . . , (2.39)
hN +1
14
où la matrice H N est de taille N × p et la matrice hN +1 de taille 1 × p.
De même, il est possible d’écrire :  
XN
X N +1 =  . . . , (2.40)
XN +1
 
BN
B N +1 =  . . . , (2.41)
BN +1
La matrice QN +1 a pour expression :
QN +1 = H TN +1 X N +1  
XN
h
.
i (2.42)
= H TN .. hTN +1  . . .  .
XN +1
soit encore :
QN +1 = H TN X N + hTN +1 XN +1 , (2.43)
d’où finalement :
QN +1 = QN + hTN +1 XN +1 . (2.44)
Pour la matrice P N +1 , la récurrence porte sur la matrice inverse.
P −1 T
N +1 = H N +1 H N +1  
HN
h
.
i (2.45)
= H TN .. hTN +1  . . .  .
hN +1
Après développement, on obtient :
P −1 −1 T
N +1 = P N + hN +1 hN +1 . (2.46)
Il suffit alors d’utiliser le lemme d’inversion matricielle :
(A + BCD)−1 = A−1 − A−1 B(C −1 + DA−1 B)−1 DA−1 , (2.47)
pour obtenir la seconde relation de récurrence :
P N +1 = P N − P N hTN +1 (1 + hN +1 P N hTN +1 )−1 hN +1 P N . (2.48)
Posons :
4 P N hTN +1
kN +1 = . (2.49)
1 + hN +1 P N hTN +1
En revenant à l’expression de l’estimateur d’ordre N + 1, on trouve :
θ̂ N +1 = (P N − kN +1 hN +1 P N )(QN + hTN +1 XN +1 ). (2.50)
En développant et après de simples manipulations, il vient alors :
θ̂ N +1 = θ̂ N + kN +1 (XN +1 − hN +1 θ̂ N ). (2.51)
La quantité entre parenthèses est l’erreur de prédiction de la donnée XN +1 à l’aide du modèle θ̂ N

calculé à l’instant précédent. Le vecteur kN +1 est le gain de correction qui sert à propager l’erreur sur
le paramètre estimé à l’instant N pour obtenir le paramètre estimé à l’instant (N + 1). On retombe
sur le schéma habituel des méthodes itératives de résolution d’équations.
15
2.6.3 Remarques
La récurrence est une vraie récurrence sur le temps car toutes les données nécessaires au calcul du
gain à l’instant (N + 1) sont réellement disponibles. Cette caractéristique permet une implémentation
en temps réel.
Cette méthode récursive évite d’inverser une matrice de dimension p×p. Néanmoins, il est nécessaire de
calculer cette matrice à chaque instant et la stocker. Il existe des algorithmes rapides pour y parvenir.
Les relations précédentes n’ont de sens que si les matrices H TN H N sont inversibles. Il faut donc
démarrer la récurrence à l’instant N ≥ p pour que la matrice H TN H N soit de rang plein. Pour éviter
une initialisation avec une inversion de matrice, une méthode approximative consiste à débuter la
récurrence dès que N = 1 et à prendre :
θ̂ N = (H TN H N + µI)−1 H TN X N . (2.52)
Le scalaire µ est choisi petit pour prendre en compte les mesures ultérieures. L’influence de µI sur la
solution décroı̂t très vite quand N augmente.
2.7 Référence non linéaire par rapport aux paramètres

On s’intéresse à un modèle d’observation général pour lequel la référence sn;θ est non linéaire par
rapport à θ. La minimisation d’un tel critère peut s’avérer difficile voire impossible. Dans la pratique,
on a recours à des méthodes itératives qui ont l’inconvénient de converger vers des minima locaux
(techniques de descente du gradient, de Newton-Raphson). Toutefois, dans certains cas, on peut éviter
le recours à de tels algorithmes itératifs grâce à trois techniques :
– la transformation de paramètres,
– la linéarisation de la référence,
– la séparabilité des paramètres.
2.7.1 Transformation de paramètres

Dans certains modèles d’observation, il est possible de trouver une transformation g(·) bijective
de θ :
4
α = g(θ), (2.53)
telle que le signal de référence soit linéaire par rapport à α :
S(θ(α)) = Hα. (2.54)
Dans ce cas, on calcule facilement α̂mc puis par transformation inverse, on obtient directement θ̂ mc :
θ̂ MC = g −1 (α̂MC ). (2.55)
Dans la pratique, la recherche d’une telle transformation est ardue et n’est fructueuse que pour peu
de cas.
2.7.2 Linéarisation de la référence

L’idée est de linéariser le signal de référence autour d’une valeur nominale θ 0 de θ :
T
∂sn;θ

sn;θ ≈ sn;θ 0 + |θ =θ 0 (θ − θ 0 ). (2.56)
∂θ
16
Le critère des moindres carrés a alors pour expression approchée :
JMC (θ) ≈ [x − S(θ 0 ) + H(θ 0 )θ 0 − H(θ 0 )θ]T [x − S(θ 0 ) + H(θ 0 )θ 0 − H(θ 0 )θ] , (2.57)
où on a défini la matrice H(θ) de taille N × p par son élément générique :
4 ∂si;θ
∀i = 1, . . . , N, ∀j = 1, . . . , p [H(θ)]ij = (2.58)
∂θj
Puisque x − S(θ 0 ) + H(θ 0 )θ 0 est connu, l’estimateur au sens des moindres carrés s’écrit :
θ̂ = (H(θ 0 )T H(θ 0 ))−1 H T (θ 0 )(x − S(θ 0 ) + H(θ 0 )θ 0 )

. (2.59)
= θ 0 + (H(θ 0 )T H(θ 0 ))−1 H T (θ 0 )(x − S(θ 0 ))
Il est donc possible d’itérer la solution et de développer une méthode récursive pour résoudre ce
problème d’estimation :
∀k ∈ N θ̂ k+1 = θ̂ k + (H(θ̂ k )T H(θ̂ k ))−1 H T (θ̂ k )(x − S(θ̂ k )), (2.60)
après une initialisation pour k = 0. Cette méthode est connue sous le nom de méthode de Gauss-
Newton.
2.7.3 Séparabilité des paramètres

On se place dans le cas où la référence peut s’écrire :
S(θ) = H(α)β, (2.61)
où α, β sont des sous-vecteurs extraits de θ de tailles respectives p − q et q :

 
α
4
θ=  ... , (2.62)
β
et où H(α) est une matrice N × q qui dépend de α.

Ainsi, le modèle est linéaire par rapport à β et non linéaire par rapport à α.
L’optimisation au sens des moindres carrés consiste d’abord à calculer l’estimateur β̂ pour α fixé :
β̂ = (H T (α)H(α))−1 H T (α)X. (2.63)
Le critère devient une seule fonction de α puisque :
JMC (α) = X T [I − H(α)(H T (α)H(α))−1 H T (α)]X. (2.64)
Le problème revient à trouver α qui maximise X T H(α)(H T (α)H(α))−1 H T (α)X.
2.8 Conclusion générale

La méthode des moindres carrés présente l’avantage de ne requérir aucune hypothèse sur la loi
de l’échantillon. En ce sens, elle apparaı̂t comme une méthode d’estimation ayant un vaste champ
d’applications. De plus, l’existence d’un algorithme récursif permet une certaine adaptativité en temps
réel, aux données enregistrées.
En revanche, on ne peut donner systématiquement une expression générale de l’estimateur que pour le
modèle d’observation linéaire par rapport aux paramètres. En outre, les performances de l’estimateur
exigent des hypothèses probabilistes.
17
Chapitre 3
Estimateur du maximum de
vraisemblance
3.1 Une exemple introductif

La méthode du maximum de vraisemblance est essentiellement due à Fisher qui en conçut l’idée
en 1921.
On considère une urne à p catégories de composition inconnue θ1 , . . . , θp . On effectue N tirages. La
probabilité d’avoir le résultat n1 , n2 , . . . , np avec n1 + n2 + . . . + np = N est donc :
N! n
θn1 θn2 . . . , θp p . (3.1)
n1 !n2 ! . . . np ! 1 2
n
Ce résultat dépend de la composition de l’urne par le terme θ1n1 θ2n2 . . . , θp p . Fisher a appelé ce terme la
“vraisemblance” du résultat expérimental. Il est donc logique de rechercher la composition de l’urne qui
maximise la probabilité du résultat expérimental, ou encore, les valeurs des paramètres qui maximisent
cette probabilité.
3.2 Principe
3.2.1 Fonction vraisemblance
La loi de probabilité PX ;θ vue comme une fonction de θ et paramétrée par l’échantillon X = x
est appelée la vraisemblance (likelihood) et on la note LX =x (θ).
3.2.2 Critère du maximum de vraisemblance

La méthode du maximum de vraisemblance consiste à prendre pour estimateur la valeur θ̂ mv (x)
du paramètre qui maximise la vraisemblance pour l’échantillon considéré x. Il en résulte que :
4
θ̂ mv = arg max LX =x (θ). (3.2)
θ ∈Θ
Il s’agit d’un critère construit sur une distance entre probabilités.
3.2.3 Interprétation
Cette méthode repose sur un concept simple et intuitif : θ̂ mv (x) est la valeur qui maximise les
chances de réalisation du résultat expérimental. En effet, on part du principe que si l’échantillon
18
considéré a été observé, c’est qu’il correspond à l’événement le plus probable. Ceci n’est qu’une conjec-
ture qui en toute rigueur peut ne pas être vérifiée.
3.2.4 Existence et unicité non assurées !

Par ailleurs, il est important de souligner que θ̂ mv n’existe pas toujours et qu’il n’est pas
forcément unique.
Une situation pour laquelle l’existence et l’unicité sont assurées correspond au cas d’une fonction
vraisemblance continue et d’un ensemble de variation de θ compact (fermé borné).
3.3 Conséquences
De manière équivalente, l’estimateur θ̂ mv (x) est obtenu par maximisation de toute fonction crois-
sante de la vraisemblance. Ainsi, dans la pratique, il arrive que la maximisation de la fonction log-
vraisemblance ln[LX =x (θ)] soit plus facile à mener, notamment dans le cas de lois de type exponentiel.
Si la vraisemblance est différentiable par rapport à θ, une condition nécessaire d’extrémalité doit être
vérifiée par θ̂ mv . Il s’agit de l’équation dite de vraisemblance qui s’écrit comme suit :

∂LX =x (θ)
θ̂ mv = argθ ∈Θ =0 . (3.3)
∂θ
Dans la pratique, s’il existe plus d’une solution pour l’équation de vraisemblance, on sélectionne celle
qui est associée à la valeur la plus haute de la fonction de log-vraisemblance. Si, sauf sur une ensemble
de mesure négligeable indépendant de θ, LX =x (θ) est une fonction strictement positive différentiable
par rapport à θ, on a alors :
∂ log[LX =x (θ)]
grad(log[LX =x (θ)]) = = 0. (3.4)
∂θ
Il est d’usage d’appeler ce gradient le score du modèle paramétrique.
3.4 Invariance à la reparamétrisation

3.4.1 Reparamétrisation
Une paramétrisation du modèle est une application dont l’espace de départ est un espace pa-
ramétrique Rp et qui va vers le modèle. Il existera en général une infinité de paramétrisations pour
tout modèle donné. Ainsi, est-il possible de construire une application (pas forcément bijective) pas
et dérivable partant d’un sous-ensemble de Rp vers pratiquement n’importe quel autre sous-ensemble
de Rp ou de par des opérations comme la translation, la rotation, la dilatation. N’importe lequel de
ces autres sous-ensembles peut donc être considéré à nouveau comme un espace paramétrique pour le
modèle considéré.
3.4.2 Définition de la propriéte

C’est justement à cause de ces possibilités, que l’on désire que les estimateurs possèdent la propriété
d’invariance. Le terme d’“invariance” est compris dans ce contexte comme l’invariance au type de chan-
gement d’espace paramétrique et que nous appelons formellement reparamétrisation. Une propriété
souhaitable des estimateurs du maximum de vraisemblance est l’invariance à la reparamétrisation du
modèle. En effet, si on considère le nouveau paramètre α :
4
α = g(θ), (3.5)
19
où g(·) est une fonction mesurable définie sur un ouvert de Rp à valeurs dans Rd . On a alors l’équivalence
suivante :
θ̂ mv existe ⇐⇒ g(θ̂ mv ) est l’estimateur selon le maximum de vraisemblance de α = g(θ).
Autrement dit, il est possible d’écrire :
α̂mv = g(θ̂ mv ). (3.6)
3.4.3 Preuve
Supposons dans un premier temps que la fonction g(·) soit bijective. Comme L(θ) = L(g −1 (g(θ)))
est maximisé par θ̂ mv alors :
−1 d
θ̂ mv = g g(θ)mv ; (3.7)
et donc
g(θ̂ mv ) = g(θ)
d mv = α̂mv . (3.8)
Si la fonction g(·) n’est pas bijective alors l’équation θ = g −1 (α) peut avoir plusieurs solutions. Pour
contourner ce problème, on regroupe les solutions ayant le même antécédent et prendre le maximum
sur ces solutions. Pour cela, on définit l’ensemble des antécedents de α
G−1 (α) = {θ/α = g(θ)}. (3.9)
Notons L(α) la valeur maximale atteinte par la fonction vraisemblance sur l’ensemble G−1 (α) :
L(α) = max L(θ). (3.10)

θ ∈G−1 (α)
Par conséquent, le maximum de L(α) est atteint pour α̂ qui correspond à :
L(α̂) = max max L(θ) = max L(θ). (3.11)

α θ ∈G−1 (α) θ
3.4.4 Commentaires
En règle générale, l’invariance est une propriété enviable car elle garantit que les changements
dans la façon de retranscrire ou paramétrer le modèle n’influenceront pas les estimations que nous
obtiendrons. Toutefois, cette propriété ne garantit pas que les estimateurs soient sans biais. En effet,
supposons qu’il existe une paramétrisation dans laquelle l’estimateur θ̂ mv soit sans biais et effectuons
le changement de paramètre non-linéaire α = g(θ) alors :
E[α̂mv ] = E[g(θ̂ mv ] et g(E[θ̂ mv ]) = g(θ̂) = α (3.12)
La non-linéarité de g(·) implique que :
E[g(θ̂ mv ] 6= g(E[θ̂ mv ]). (3.13)
On en déduit que
E[α̂mv ] 6= α. (3.14)
Ceci suggère que, bien que la paramétrisation peut avoir un impact sur les propriétés des estimateurs
avec des échantillons finis. En choisissant la paramétrisation appropriée, dans certains cas, il est
possible de garantir que les estimations soient sans biais (ou proches d’être sans biais), et que leurs
distributions sont proches de leurs distributions asymptotiques. A l’opposé, si nous choisissons une
paramétrisation inappropriée, nous pourrions par inadvertance rendre nos estimations sévèrement
biaisées et dont les distributions sont éloignées de leurs distributions asymptotiques.
20
3.5 Propriétés asymptotiques
Un des intérêts du critère du maximum de vraisemblance concerne les propriétés asymptotiques
de l’estimateur θ̂ mv . A cet égard, on considère la suite des estimateurs θ̂ mv (N ) indexée par la taille N
de l’échantillon.
On montre que la suite converge en probabilité vers θ. On dit que l’estimateur du maximum de
vraisemblance est convergent (consistent). Ceci se traduit par la relation suivante :
∀i = 1, . . . , p ∀θi ∈ R lim Pr[|θ̂mv,i (N ) − θi | > ] = 0, (3.15)
N →+∞
où θ̂mv,i (N ) et θi sont les composantes i de θ et θ̂ mv .

Si de plus, on suppose que les conditions suivantes de régularité sont satisfaites.
– Les dérivées partielles du 1er et 2nd ordre de la log-vraisemblance existent.
– L’espérance suivante est nulle :
∂ ln PX ;θ
E[ ] = 0. (3.16)
∂θ
Sous ces conditions, on admettra que la suite des estimateurs du maximum de vraisemblance converge
en loi vers la loi normale N (θ, I −1N (θ)) où I N (θ) est la matrice d’information de Fisher. Il s’agit de
la propriété de normalité asymptotique qui s’avère très utile dans la pratique. En effet, quand N est
suffisamment grand, on confond sa loi avec la loi limite. Des simulations par voie informatique de
type Monte-Carlo permettent de déterminer à partir de quelle taille N , l’histogramme de l’estimateur
se rapproche d’une gaussienne. De plus, il en ressort que la suite des estimateurs du maximum de
vraisemblance est asymptotiquement efficace.
3.6 Lien avec l’estimateur efficace

S’il existe un estimateur efficace θ̂ ef f 1 , il est forcément un estimateur au sens du maximum de
vraisemblance.
En effet, l’existence d’un estimateur efficace n’est assurée que si :
∂ ln[PX ;θ (x)]
∀θ ∈ Θ = α(θ)(θ̂ ef f − θ). (3.17)
∂θ
Quand on cherche l’estimateur au sens du maximum de vraisemblance, on annule la dérivée de la
Log-vraisemblance et on aboutit à :
θ̂ mv = θ̂ ef f . (3.18)
Dans la pratique, ce résultat est peu utile car il ne dit pas comment trouver l’estimateur efficace.
3.7 Lien avec l’exhaustivité

Si une statistique S exhaustive pour θ existe alors l’estimateur θ̂ mv en dépend.
En effet, d’après le lemme de factorisation de Neyman-Fisher, il existe deux fonctions g(·, ·) et h(·)
telles que la vraisemblance peut s’écrire sous la forme :
LX =x (θ) = g(S, x)h(x). (3.19)
On en déduit que :
∂ log[LX =x (θ)] ∂ log[g(S, x)]
= 0 ⇐⇒ = 0. (3.20)
∂θ ∂θ
Il existe donc une relation fonctionnelle entre θ̂ mv et S .
1. Quand il existe, l’estimateur efficace est l’estimateur sans biais ayant la variance minimale.
21
3.8 Modèle d’observation linéaire
3.8.1 Résolution
On se place dans le cas d’un modèle d’observation linéaire :
X = Hθ + B, (3.21)
où H est une matrice connue de taille N × p et B est une vecteur aléatoire gaussien de moyenne
E[B] et de matrice de covariance C B . Le vecteur B représente le bruit d’observation inhérent à tout
système de mesure.
La fonction de vraisemblance est égale à :
1 (X − Hθ − E[B])T C −1 (X − Hθ − E[B])
q exp[− B ]. (3.22)
(2π)N |C B | 2
Sa maximisation revient à la minimisation de la quantité AX (θ) définie par :

4
AX (θ) = (X − Hθ − E[B])T C −1 (X − Hθ − E[B]). (3.23)
B
Les conditions d’extrémalité consistent à annuler les p composantes du vecteur gradient de AX (θ) :
∂Hθ T −1
θ̂ mv = argθ {[ ] C (X − Hθ − E[B]) = 0}. (3.24)
∂θ B
On obtient l’équation suivante :
(H T C −1 H)θ̂ mv = H T C −1 (X − E[B]). (3.25)

B B
Deux cas se présentent :
– la matrice H T C −1 H est singulière. Cela se produit notamment quand le nombre d’observations
B
N est inférieur au nombre p de paramètres scalaires à déterminer. Dans ce cas, l’unicité de la
solution n’est pas garantie.
– La matrice H T C −1 H est inversible. L’estimateur est donné par la relation suivante :
B
θ̂ mv = (H T C −1 H)−1 H T C −1 (X − E[B]). (3.26)
B B
Dans ce cas de figure, il est intéressant de calculer les performances d’un tel estimateur.
La moyenne de l’estimateur s’obtient directement à partir de la relation précédente en exploitant

la linéarité de l’espérance mathématique :
E[θ̂ mv ] = θ. (3.27)
L’estimateur du maximum de vraisemblance dans le cas linéaire et gaussien est sans biais.
Le calcul de la matrice de covariance de l’estimateur C ˆ ne pose pas de problème :

θ mv
C ˆ = (H T C −1 H)−1 . (3.28)
θ mv B
On remarque que la covariance de l’estimateur fait partie de l’estimateur lui même puisque l’on a :
θ̂ mv = C ˆ H T C −1 (X − E[B]). (3.29)
θ mv B
Par la suite, on peut montrer à titre d’exercice, que l’estimateur θ̂ mv obtenu est efficace (l’efficacité
est une notion qui sera étudiée ultérieurement).
22
3.8.2 Lien avec l’estimateur des moindres carrés
La méthode des moindres carrés est souvent appelée la “méthode du pauvre” car elle nécessite
très peu d’information sur la loi des observations PX ;θ . Si cette information augmente, on a intérêt
à l’exploiter en changeant de critère de décision. Si la loi PX ;θ est connue, on peut choisir le critère
du maximum de vraisemblance.
Dans le cas d’un modèle linéaire d’observation, la minimisation de AX (θ) revient à résoudre un
problème de moindres carrés pour lequel la matrice de pondération M est :
M = C −1 . (3.30)
B
Ainsi, dans le cas linéaire et gaussien, il y a équivalence entre l’estimateur selon les moindres carrés
et l’estimateur selon le maximum de vraisemblance.
23
Chapitre 4
Estimateur sans biais à variance

minimale
4.1 Introduction
4.1.1 Objectif
On cherche un estimateur sans biais à variance minimale pour toute valeur de θ (Unbiased Mi-
nimum Variance) θ̂ mvu . On rappelle que dans le cas d’un paramètre multidimensionnel (p > 1), on
entend par variance minimale quand chaque composante i de l’estimateur a une variance minimale
sur toutes les variances des composante i des estimateurs sans biais.
Tout d’abord, il est important de voir que l’estimateur MVU n’existe pas toujours.
4.1.2 Existence de l’estimateur MVU

L’estimateur MVU n’existe pas dans tous les cas. Pour s’en convaincre, considérons l’exemple
suivant d’un échantillon de taille N = 2 tel que :
– la va X1 suit une loi normale N (θ, 1) ;
– la va X2 suit une loi normale N (θ, 1) si θ ≥ 0 et une une loi normale N (θ, 2) si θ < 0.
On définit 2 estimateurs non biaisés de θ :
4 1

 θ̂1 = 2 (X1 + X2 )


. (4.1)


 θ̂ = 4 2 1
2 X1 + X2
3 3
Un calcul simple donne les variances de ces estimateurs :
 1

 2
 si θ ≥ 0
Cθ̂1 = . (4.2)
 27 si θ < 0


36
 5
 9 si θ ≥ 0


Cθ̂2 = . (4.3)
 2


si θ < 0
3
24
A titre d’exercice, on peut montrer que pour θ ≥ 0, la variance du meilleur estimateur non-biaisé est
1 2
2 tandis que pour θ < 0, cette variance minimale est 3 . Pour ce faire, on utilisera un résultat qui
sera établi plus loin (borne de Cramer-Rao). Il n’existe pas d’estimateur dont la variance est minimale
pour toutes les valeurs de θ.
4.1.3 Unicité de l’estimateur MVU

S’il existe, l’estimateur MVU est unique. Comme on raisonne composante par composante, la
démonstration sera développée dans le cas d’un paramètre scalaire (p = 1).
On suppose qu’il existe 2 estimateurs MVU θ̂1 , θ̂2 . On désigne par V la valeur de la variance minimale :
c’est la variance commune à ces 2 estimateurs. On construit l’estimateur suivant :
4 θ̂1 + θ̂2
θ̂3 = . (4.4)
2
Cet estimateur est sans biais puisque :
E[θ̂1 ] + E[θ̂2 ] θ+θ

E[θ̂3 ] = = = θ. (4.5)
2 2
La variance Cθ̂3 se calcule directement :
1
Cθ̂3 = (Cθ̂1 + Cθ̂2 + 2Cθ̂1 ,θ̂2 ), (4.6)
4
où Cθ̂1 ,θ̂2 désigne l’inter-covariance des 2 estimateurs θ̂1 et θ̂2 . Par ailleurs, l’inégalité de Cauchy-
Schwarz s’écrit : q q
Cθ̂1 ,θ̂2 ≤ Cθ̂1 Cθ̂2 . (4.7)
Le second membre de l’inégalité est V et on en déduit que :
Cθ̂3 ≤ V. (4.8)
Si l’inégalité précédente est stricte, l’estimateur θ̂3 aurait une variance plus petite que celle des esti-
mateurs θ̂1 et θ̂2 ce qui contredit le fait que V soit minimale. L’inégalité est en fait une égalité. Ceci
implique que :
θ̂1 − θ = K(θ̂2 − θ). (4.9)
Le coefficient de proportionnalité est tel que K 2 = 1 car Cθ̂3 = V . Si K = −1, on aurait θ̂3 = θ ce qui
contredit le fait que θ̂3 soit un estimateur de θ. Par conséquent, on a forcément K = 1 et cela exprime
l’égalité de θ̂1 et de θ̂2 .
4.1.4 Recherche de l’estimateur MVU

Même si l’estimateur MVU θ̂ mvu existe, il n’y a pas de procédure ad hoc de calcul de θ̂ mvu et qui
fonctionne universellement. Dans ce qui suit, nous nous intéresserons à 3 techniques de recherche de
θ̂ mvu :
1. Une première approche fournit la borne inférieure de la variance (borne de Cramer-Rao) et
détermine s’il existe un estimateur qui peut l’atteindre. Si c’est le cas, il s’agit de l’estimateur
MVU et il sera qualifié d’efficace. L’étude de cette méthode fera l’objet de la suite de ce chapitre.
25
2. La seconde approche est une réponse à la limitation de la première méthode. Elle est préconisée
dans le cas où la borne de Cramer-Rao ne peut être atteinte c.à.d. où il n’existe pas d’esti-
mateur efficace. Elle consiste à construire l’estimateur MVU à partir d’une statistique 1 parti-
culière (statistique exhaustive). Cette méthode s’appuie sur les théorèmes de Rao-Blackwell et
de Lehmann-Scheffe. Cette seconde approche plus complexe à mettre en œuvre que la première,
sera décrite dans le chapitre suivant.
3. La troisième technique est une alternative et pallie les défauts des 2 premières méthodes. En effet,
pour faciliter la recherche de l’estimateur MVU, celle-ci est restreinte à la classe des estimateurs
linéaires : on parle d’estimateur BLUE (Best Linear Unbiased Estimator). Elle sera développée
dans le chapitre 6.
1. On appelle statistique toute fonction aléatoire de l’échantillon X.
26
Première partie
Estimateur MVU efficace
27
4.2 Information de Fisher
4.2.1 Vecteur score
Quand il existe, on définit le vecteur score (de Fisher) comme étant le vecteur aléatoire de
dimension p égal au gradient de la log-vraisemblance :
4
S(x; θ) = ∇θ log[LX =x (θ)]. (4.10)
Ce vecteur renseigne sur l’évolution de la log-vraisemblance.
4.2.2 Condition de régularité

Si le domaine de définition χ de l’échantillon est indépendant de θ, le vecteur score est centré :
4
EX ;θ [S(X; θ)] = 0p . (4.11)
Cette équation traduit la condition dite de régularité.
Preuve : Pour établir ce résultat, supposons que X possède une densité de probabilité fX ;θ (·).
Z
fX ;θ (u)du = 1. (4.12)
χ
on peut dériver chaque membre de l’égalité précédente par rapport à θ :

Z ∂ ln[f
X ;θ (u)]
fX ;θ (u)du = 0. (4.13)
χ ∂θ
En utilisant le théorème de la moyenne, on en déduit que :

" #
∂ ln[fX ;θ ]
EX ;θ = 0. (4.14)
∂θ
Ceci traduit bien que S(x; θ) est centré .
4.3 Matrice d’information de Fisher

4.3.1 Définition
Sous la condition de régularité, on appelle matrice de Fisher I(θ) la matrice d’autocorrélation du
score :
4
I(θ) = EX ;θ [S(x; θ)S(x; θ)T ] = EX ;θ [∇θ ln[L(θ)]∇θ ln[L(θ)]T ]. (4.15)
Si on omet l’espérance mathématique, on parle de matrice de Fisher observée.
Il s’agit d’une matrice carrée p × p dont l’élément générique I(θ)i,j à la ligne i et la colonne j est :
4 ∂ ln[L(θ)] ∂ ln[L(θ)]
I(θ)i,j = E[ ]. (4.16)
∂θi ∂θj
Bien entendu, le calcul de I(θ) n’est possible que sous certaines “bonnes” conditions sur PX ;θ (exis-
tence de la différentielle, différentielle de carré intégrable).
Par construction, la matrice de Fisher est symétriquen définie non-négative.
28
4.3.2 Une autre expression de la matrice d’information de Fisher
Si le domaine de définition χ de l’échantillon est indépendant de θ, une seconde expression de
l’élément générique de la matrice de Fisher est :
∂ 2 ln[L(θ)]
I(θ)i,j = −EX ;θ [ ]. (4.17)
∂θi ∂θj
Preuve : Si le domaine de définition χ de l’échantillon est indépendant de θ et si X possède une

densité de probabilité, nous savons que :
Z ∂ ln[f
X ;θ (u)]
fX ;θ (u)du = 0. (4.18)
χ ∂θi
Si on dérive cette égalité par rapport à θj , on trouve :

Z ∂ 2 ln[f
X ;θ (u)] ∂ ln[fX ;θ (u)] ∂fX ;θ (u)
fX ;θ (u)du + du = 0. (4.19)
χ ∂θi ∂θj ∂θi ∂θj
En utilisant le fait que :

∂fX ;θ (u) ∂ ln[fX ;θ (u)]
= fX ;θ (u (4.20)
∂θj ∂θj
on a : Z ∂ 2 ln[f
X ;θ (u)]
Z ∂ ln[f
X ;θ (u)]
fX ;θ (u)du = − fX ;θ (u)u (4.21)
χ ∂θi ∂θj χ ∂θj
En utilisant le théorème de la moyenne, on en déduit le résultat annoncé .
4.3.3 Propriété d’additivité

Si le domaine de définition χ de l’échantillon est indépendant de θ, la matrice de Fisher possède
la propriété d’additivité : la matrice de Fisher est additive dans la mesure où les contributions in-
dividuelles de chaque mesure s’ajoutent en raison de la linéarité des opérateurs espérance et dérivée
seconde.
Preuve : En effet, puisque l’échantillon est i.i.d., on a :

N
X
ln[LX =x (θ)] = ln[LX=xn (θ)]. (4.22)
n=1
En revenant à la seconde expression de l’élément (i, j) de la matrice, on trouve :

N
X
I(θ)i,j = I (1) (θ)i,j , (4.23)
n=1
où I (1) (θ)i,j est l’élément courant de la matrice de Fisher associé à la variable aléatoire scalaire X .
29
4.3.4 Influence de la reparamétrisation
L’expression de la matrice de Fisher change par tout changement de paramètre. En effet, supposons
que cle paramètre θ soit changé en un autre paramètre α = (α1 , . . . , αp )T = (g1 (θ), . . . , gp (θ))T où les
fonctions g1 , . . . , gp sont bijectives. On peut alors établir :
I(α) = J (α)T I (g(α)) J (α) (4.24)
où J (α) est la matrice jacobienne du changement de paramètres :
∂gi−1 (α)
∀i, j = 1, . . . , p, J (α)i,j = . (4.25)
∂αj
4.3.5 Interprétation de la matrice de Fisher

Une interprétation intuitive de la notion d’information sur le paramètre θ apportée en moyenne
par le modèle d’observation (reflété par la log-vraisemblance) est que la dérivée seconde apparaissant
dans la seconde expression de I(θ) renseigne sur les variations en “pics” ou constante de la log-
vraisemblance.
4.3.6 A propos de la notion d’“information”

A ce sujet, il est important de rappeler qu’au début du siècle, un long débat a eu lieu pour définir
mathématiquement la notion intuitive d’“information” transportée par un message ou l’“information”
apportée par un ensemble de mesures sur un paramètre inconnu. Par exemple, Kolmogorov a défini
l’information comme la longueur du plus petit programme capable de décrire cette information. Benett
a introduit la notion de profondeur logique. En effet, Benett distingue les séquences complexes calcu-
lables des séquences complexes mais aléatoires au moyen du nombre de pas élémentaires accordés par
le programme pour retrouver l’information. Toutefois, la définition qui s’est imposée au fil des ans est
due à Fisher vers les années 1920. En effet, Fisher attribue à un symbole i de probabilité d’apparition
pi émis par une source stationnaire la quantité d’information − log2 (pi ) (en bits/symbole). Ainsi, à une
configuration ou à un symbole improbable, correspond un grand contenu d’information. Par la suite,
Shannon a défini la notion d’entropie par analogie avec la physique thermodynamique de Clausius ou
la physique statistique de Boltzman. Cela a donné naissance à une nouvelle discipline : la théorie de
l’information.
4.4 Borner les variances l’estimateurs

4.4.1 Principe
On cherche à déterminer une borne inférieure de la variance de l’estimateur. Lorsque cette borne
est atteinte pour toute les valeurs de θ, l’estimateur sans biais est qualifié d’efficace dans la mesure
où il utilise efficacement les données.
Plusieurs bornes existent. La plus couramment utilisée est la borne de Cramer-Rao. Trois raisons
peuvent expliquer son succès. D’abord, son expression peut être facilement obtenue dans beaucoup de
cas pratiques. De plus, son interprétation est aisée. Enfin, elle présente des liens avec les performances
asymptotiques.
Le calcul de la borne de Cramer-Rao repose sur celui de la matrice d’information de Fisher.
30
4.4.2 Cas d’un paramètre scalaire
Soit θ̂ un estimateur de θ. On suppose que les conditions d’obtention de la seconde expression de
l’information de Fisher sont vérifiées.
On montre alors que :
2
∂E[θ̂]
( )
Cθ̂ ≥ ∂θ . (4.26)
I(θ)
Notons que si l’estimateur est sans biais, cette inégalité devient :
1
Cθ̂ ≥ . (4.27)
I(θ)
L’inverse de l’information de Fisher correspond à la borne de Cramer-Rao. Intuitivement, on comprend
que plus il y a d’“information” apportée par l’échantillon, plus petite est la plage de variation de la
variance de l’estimateur.
Le calcul ainsi que sa valeur de cette borne est indépendants de la forme de l’estimateur et dépendent
uniquement du modèle probabiliste adopté. Cette borne dérive de la définition retenue de l’information
(au sens de Fisher). Il existe d’autres bornes issues d’autres définitions de l’information.
Preuve : On ne traitera que le cas d’une va X absolument continue de densité de probabilité fX ;θ (·).
La généralisation au cas discret ne comporte aucune difficulté.
1. Comme E[θ̂] est indépendant de X, il s’agit d’une constante déterministe qui peut être multipliée
aux deux membres de (4.14) :
∂ ln fX ;θ
E[E[θ̂] ]=0 (4.28)
∂θ
2. Par ailleurs, il est possible de dériver E[θ̂] par rapport à θ :
∂E[θ̂]
Z ∂ ln fX ;θ (u)
= θ̂(u) fX ;θ (u)du. (4.29)
∂θ χ ∂θ
Il en résulte que :
∂E[θ̂] ∂ ln fX ;θ
= E[θ̂ ]. (4.30)
∂θ ∂θ
En combinant les équations (4.28) et (4.29), on a :
∂ ln fX ;θ ∂E[θ̂]
E[(θ̂ − E[θ̂]) ]= . (4.31)
∂θ ∂θ
∂ ln fX ;θ
3. Enfin, en appliquant l’inégalité de Cauchy-Schwarz aux fonctions θ̂ −E[θ̂] et , on trouve
∂θ
le résultat annoncé dans l’équation (4.26).
4.4.3 Cas d’un paramètre vectoriel

On suppose que la loi PX ;θ satisfait la condition de régularité. On peut alors étendre le résultat
précédent au cas d’un paramètre vectoriel. En effet, la matrice de covariance de tout estimateur non-
biaisé C ˆ vérifie :
θ
C ˆ − [I(θ)]−1 ≥ 0, (4.32)
θ
31
où l’inégalité ≥ 0 signifie que la matrice différence est semi-définie positive.
En particulier, la variance de la i-ème composante de tout estimateur non-biaisé est bornée par
l’élément diagonal correspondant de l’inverse de la matrice d’information de Fisher :
var[θ̂i ] ≤ [I(θ)]−1
i,i . (4.33)
La démonstration de ce résultat est similaire au cas scalaire. Pour une étude plus approfondie et plus
détaillée, on pourra consulter l’ouvrage de Kay.
Une fois cette borne déterminée, on cherche à savoir si un estimateur sans biais peut l’atteindre pour
toutes les valeurs de θ.
Dans les paragraphes suivants, on montre que l’existence d’un estimateur efficace est liée à la forme
exponentielle de la structure considérée.
4.5 Estimateur efficace

4.5.1 Théorème
On suppose que les conditions de régularité sont vérifiées. L’estimateur efficace existe si et seule-
ment si la loi de l’échantillon est de la forme :
∂ ln LX =x (θ)
= I(θ)(g(x) − θ), (4.34)
∂θ
où g(·) désigne une fonction de RN dans Rp . Dans ce cas, l’estimateur efficace est l’estimateur MVU
et est donné par :
θ̂ eff = θ̂ mvu = g(x). (4.35)
Sa covariance est l’inverse de la matrice de Fisher I −1 (θ).
4.5.2 Preuve du théorème

La démonstration de ce théorème est la suite de celle faite pour le calcul de la borne, dans le cas
scalaire.
Pour l’estimateur efficace (qui est sans biais, E[θ̂] = θ), l’inégalité de Cauchy-Schwarz devient une
égalité si et seulement si :
∂ ln L(θ)
= α(θ)(θ̂eff − θ). (4.36)
∂θ
La constante de proportionnalité α(θ) dépend de θ mais pas de X. Il reste à la déterminer. Pour cela,
dérivons par rapport à θ les membres de l’égalité précédente :
∂ 2 ln L(θ) ∂α(θ)
2
= −α(θ) + (θ̂eff − θ). (4.37)
∂θ ∂θ
Prenons le moment d’ordre 1 de chacun des membres de cette dernière équation :
∂ 2 ln L( θ) ∂α(θ)
E[ 2
] = −α(θ) + E[θ̂eff − θ]. (4.38)
∂θ ∂θ
Comme l’estimateur efficace est sans biais, on trouve que :
∂ 2 ln L(θ)
E[ ] = −α(θ). (4.39)
∂θ2
32
On reconnaı̂t la seconde expression de l’information de Fisher, soit encore :
α(θ) = I(θ). (4.40)
En définitive, l’estimateur efficace θ̂eff existe si et seulement si :
∂ ln L(θ)
= I(θ)(θ̂eff − θ) . (4.41)
∂θ
Dans le cas vectoriel, une démonstration du même type peut être faite. Pour plus de détails, on se
reportera également à l’ouvrage de Kay.
4.6 Conclusion
Ainsi, la borne de Cramer-Rao est un outil puissant qui pour certaines distributions, peut aboutir
au calcul du MVU. Toutefois, il faut souligner que la borne de Cramer-Rao peut ne pas être atteinte.
La recherche de l’estimateur MVU se fait grâce à des statistiques particulières. Ceci est développé
dans le chapitre suivant.
33
Deuxième partie
Recherche de l’estimateur MVU via

une statistique exhaustive
34
Chapitre 5
Statistique exhaustive
5.1 Avant-propos
On a vu qu’il est parfois ardu de trouver - quand il existe - l’estimateur sans biais à variance
minimale (que l’on a noté MVU en raison de la dénomination anglaise Minimun Variance Unbiased).
En effet, quand la borne de Cramer Rao n’est pas atteinte, il est possible que l’estimateur MVU
existe. Ce chapitre se propose de décrire une méthode de recherche de l’estimateur MVU qui exploite
la notion de statistique exhaustive.
Pour cela, on définit d’abord clairement la notion d’exhaustivité. Ensuite, le théorème de factorisation
de Neyman-Fisher permet de déterminer une statistique exhaustive. Enfin, les théorèmes de Rao-
Blackwell et de Lehmann-Scheffe permettent de calculer l’estimateur MVU.
5.2 Un premier exemple introductif

On considère le modèle d’observation d’un signal constant noyé dans un bruit blanc gaussien additif
centré, de variance connue σ 2 :
x n = A + wn . (5.1)
N
La borne de Cramer Rao vaut I(A) = σ2
. Par ailleurs, on définit les deux estimateurs non-biaisés
suivants :
N
4 1 X 4
Â = xn et Ǎ = x1 . (5.2)
N
n=1
On trouve facilement que :

σ2
var(Â) = et var(Ǎ) = σ 2 . (5.3)
N
L’estimateur Â est efficace et correspond à l’estimateur non-biaisé à minimum de variance. Intuitive-
ment, la pauvre performance de Ǎ est à attribuer au fait que l’on a écarté les mesures x2 , . . . , xN . Il
est donc légitime de se poser les questions suivantes.
– Quelles sont les données les plus pertinentes dans un problème d’estimation ?
– Existe-t-il un sous-ensemble des données x1 , . . . , xN suffisant pour estimer A ? Dans ce cas, on
n’aura pas besoin de valeurs supplémentaires de mesure pour avoir une “information” sur A.
Cette question a parfois des réponses puisque Â permet de tirer le maximum d’“information” sur A.
Autrement dit, connaissant Â, on ne peut rien dire de plus quant à l’inconnue A.
35
5.3 Un second exemple introductif
Prenons le cas d’un industriel qui réceptionne un lot de pièces détachées. Il désire estimer la portion
θ de pièces défectueuses. Un contrôle systématique est jugé trop coûteux et trop long. Un statisticien
lui propose de procéder à un tirage au sort uniforme avec remise de N pièces et d’examiner à chaque
fois leur qualité.
La formalisation du problème consiste alors à considérer la qualité d’une pièce comme une variable
aléatoire qui suit une loi de Bernouilli valant 1 avec une probabilité θ si la pièce présente un défaut.
A l’issue de l’examen de l’échantillon, le statisticien considère S = X1 +. . .+XN . Celui-ci en disposant
de l’observation (X1 , . . . , XN ) n’est pas plus avantagé qu’un statisticien disposant uniquement de
S.
5.4 Définition de l’exhaustivité

Rappelons la définition d’une statistique. Il s’agit d’une application mesurable des observations
allant de χ vers un autre espace de valeurs χS . On se demande alors s’il est possible de résumer les
observations (X1 , . . . , XN ) par une statistique (vectorielle ou pas) S(X) de dimension s sans rien
perdre de l’information sur θ apportée par l’échantillon. Pour cela, Fisher a été amené à définir la
notion d’exhaustivité (sufficiency).
On dit que S(X) est exhaustive ou suffisante pour θ si la loi de X conditionnée par S(X) ne
dépend pas de θ :
PX /S (X );θ = PX /S (X ) . (5.4)
On peut dire qu’une fois donnée une statistique exhaustive pour θ, l’échantillon ne fournit plus aucun
renseignement supplémentaire sur θ. On peut donc le remplacer par S(X) qui est, en général, plus fa-
cile à manipuler que X. Une conséquence de cette définition est que si l’on dispose de deux échantillons
X et Y tels que S(X) = S(Y ), alors ces deux échantillons contiennent la même information sur θ.
En général, on est toujours assuré de l’existence d’une statistique exhaustive car il suffit de prendre :
S(X) = X. (5.5)
A priori, pour déterminer si une statistique est exhaustive, il faut déterminer la loi conditionnelle
PX /S (X ) puis vérifier s’il n’y a pas de dépendance par rapport à θ. Dans la pratique, cela peut
constituer une tâche énorme. En outre, une difficulté apparaı̂t car il n’est pas facile d’identifier les
statistiques potentiellement exhaustives. L’approche consistant à deviner la forme d’une statistique
et d’en vérifier directement l’exhaustivité doit être donc abandonnée. Le théorème de factorisation de
Neyman-Fisher constitue une attrayante alternative à ce problème.
5.5 Théorème de factorisation de Neyman-Fisher

5.5.1 Enoncé
Une statistique S(X) est exhaustive si et seulement si il existe 2 fonctions g(·) et h(·) mesurables
et positives telles que :
PX ;θ = g(S(X), θ)h(X). (5.6)
Ce théorème sera admis.
Notons que cette factorisation n’est pas unique.
Bien entendu, on remarquera que S(X) = X est exhaustive car g(S(X), θ) = PX ;θ et h(X) = 1.
36
5.5.2 Preuve
On se place dans le cas discret. On suppose que la loi se factorise selon l’équation (5.6). On a donc :

P(X ,S );θ (x, s)  0 si S(X) 6= s
PX /S =s;θ (x) = = g(s, θ)h(x)
PS ;θ (s) si S(X) = s . (5.7)
PS ;θ (s)

Par ailleurs, la loi marginale de S s’obtient à partir de la loi conjointe :

X X
PS ;θ (s) = P(X ,S );θ (x, s) = g(s, θ) h(x). (5.8)
x tels que S (x)=s x tels que S (x)=s
En combinant les équations (5.7) et (5.8), la loi de X conditionnellement à S(X) est indépendante
de θ. On en conclut que S(X) est exhaustive.
Réciproquement, si S(X) est exhaustive, il suffit de poser :
g(s, θ) = PS ;θ (s) et h(x) = PX /S =s (x) . (5.9)
5.5.3 Utilité du théorème

Pour illustrer l’utilité du théorème précédent, reprenons l’exemple introductif et prenons comme
statistique :
N
4 X
S(x) = xn . (5.10)
n=1
Le calcul de la densité de probabilité fX /S(X )=S0 ;A est long et fastidieux et aboutit à :

√ PN 2
N n=1 xn s20
fX /S=s0 ;A (x) = exp[− ] exp[ ]. (5.11)
(2πσ 2 )(N −1)/2 2σ 2 2N σ 2
L’examen de cette loi conditionnelle permet d’établir que S est bien exhaustive.
Une alternative à cette méthode directe est d’écrire :
N
X N
X
2
(xn − A) = x2n − 2AS(x) + N A2 . (5.12)
n=1 n=1
On en déduit facilement que :

fX ;A (x) = g(S(x), A)h(x), (5.13)
avec
N A2 − 2AS(x)

4 1
g(S(x), A) = exp[− ]


(2πσ 2 )N/2 2σ 2



. (5.14)
 PN 2
n=1 xn

 4
 h(x)

= exp[− ]
2σ 2
Le théorème de factorisation permet de reconnaı̂tre si une statistique est exhaustive ou pas mais pas
de la construire. Le théorème suivant apporte une solution à ce problème.
37
5.6 Famille de lois exponentielles
On considère une variable aléatoire X possédant une densité de probabilité f˜X;θ (·). On dit que sa
loi appartient à la famille exponentielle s’il existe un entier r des fonctions
– θ 7→ αj (θ) pour j = 1, . . . , r ;
– θ 7→ Sj (θ) pour j = 1, . . . , r ;
– θ 7→ c(θ) ;
– x 7→ h(x) > 0
telles que  
Xr
f˜X;θ (x) = c(θ)h(x) exp  αj (θ)Sj (x) . (5.15)
j=1
La plupart des lois usuelles font partie de la famille exponentielle. Un contre-exemple est la loi de
Pareto dont les paramètres constituent le vecteur θ.
5.7 Théorème de Pitman-Koopman-Darmois

Ce théorème a été prouvé indépendamment avec des variations par Koopman (1936), Pitman
(1936) et Darmois (1935).
On suppose que le domaine de définition χ de X ne dépend pas de θ qui est à densité.
Il existe une statistique exhaustive si et seulement si la densité de probabilité fX ;θ (·) est de la famille
exponentielle :  
YN Xr
fX ;θ (x) = c(θ)h(xn ) exp  αj (θ)Sj (xn ) . (5.16)
n=1 j=1
telle que p ≤ r, les fonctions S1 (·), . . . , Sr (·) définies sur χ sont affinement indépendantes ainsi que les
fonctions α1 , . . . , αr définies sur dom[Θ].
La statistique suivante S(x) de dimension r est exhaustive pour θ :
 N 
P
 n=1 S1 (xn ) 
..
 
 

 . 

 P N 
S(x) =   .
S2 (xn )  (5.17)
 n=1 
 .. 

 . 

 P N 
Sr (xn )
n=1
5.8 Exhaustivité et information

Deux théorèmes importants établissent la relation étroite entre les notions d’exhaustivité et d’in-
formation de Fisher. On suppose que χ ne dépend pas de θ.
5.8.1 Diminution de l’information

L’information ne peut que diminuer lorsqu’on passe dans le modèle image par une statistique
quelconque. La degradation de l’information se traduit par une différence des matrices de Fisher
respectives définie positive :
I X (θ) − I S (θ) ≥ 0. (5.18)
38
Une fois connue une statistique exhaustive, se pose la question de construire l’estimateur du MVU
(s’il existe). Pour cela, on a besoin de la notion de statistique complète.
5.8.2 Conservation de l’information
I X (θ) = I S (θ) ⇐⇒ S est exhaustive. (5.19)
5.9 Statistique complète

5.9.1 Définition
On dit qu’une statistique S(X) est complète pour une famille de lois de probabilité si :
∀ θ ∈ Θ E[h(S(X))] = 0 ⇒ h(·) = 0. (5.20)
Autrement dit, il n’existe aucune autre fonction de S(X) de moyenne nulle pour tout θ que la fonction
nulle.
Cette définition implique qu’il n’existe qu’une seule fonction de S(X) qui soit non-biaisée. En effet,
supposons qu’il existe deux fonctions h1 (·) et h2 (·) qui annulent le biais :
E[h1 (S(X))] = θ = E[h2 (S(X))]. (5.21)
Il vient donc que :

E[(h1 − h2 )(S(X))] = 0. (5.22)
Si la statistique est complète, forcément (h1 − h2 )(·) est la fonction nulle. Il y a bien une seule fonction
de S(X) qui soit non-biaisée.
5.9.2 Justification de la dénomination

La dénomination est empruntée à l’analyse de fonction ou à l’algèbre linéaire. En effet, la complétude
signifie que la famille (PS ;θ )θ est une famille génératrice de toutes les fonctions de S quand on
se place dans l’espace vectoriel des vecteurs aléatoires du second ordre muni du produit scalaire
< PS ;θ , h(S) >= ES [h(S)]. Ainsi, toute fonction orthogonale à tous les PS ;θ est forcément la fonc-
tion nulle.
5.9.3 Vérification de la propriété

Une statistique est complète selon la forme de la loi de S(X) et donc de X. Dans la pratique,
il n’est pas toujours évident de vérifier cette propriété. Toutefois, pour la plupart des distributions
courantes, on parvient à établir un résultat.
5.9.4 Cas des lois de la famille exponentielle

On sait qu’elles seules admettent une statistique exhaustive et on peut montrer que leur statistique
est complète.
39
5.10 Théorème de Rao-Blackwell
Il s’agit d’une méthode d’amélioration d’un estimateur sans biais quelconque θ̂ lorqu’il existe une
statistique S(X) exhaustive pour θ. L’estimateur θ̌ défini par :
4
θ̌ = E[θ̂(X)/S(X) = s] (5.23)
est :
– un estimateur
– sans biais
– au moins aussi bon que θ̂. Chaque composante i de θ̌ a une variance inférieure à celle de la
composante i de θ̂.
D’abord, il faut bien comprendre la nécessité de placer l’opérateur E[·] dans la définition de θ̌. D’abord,
θ̂(X)/S(X) = s est une variable aléatoire qui dépend de la valeur prise s par S(X).
Ainsi, θ̌ est bien un estimateur de θ car il dépend seulement de l’échantillon à travers la
statistique S(X). En effet, S(X) est une statistique exhaustive, PX /S (X );θ est indépendante de
θ. En vertu du théorème de la moyenne (et en supposant avoir affaire à des densités de probabilité),
on a : Z
θ̌ = θ̂(x)fX /S (X );θ (x)dx, (5.24)
il apparaı̂t que θ̌ ne fait donc pas intervenir θ.
L’estimateur θ̌ est sans biais du fait du théorème de l’espérance totale. En effet, dans le cas de va
absolument continues, on peut écrire que :
Z Z
E[θ̌] = θ̂(x)fX /S (X );θ (x)dxfS (X );θ (s)ds. (5.25)
La relation de Bayes montre que le produit des deux densités sous la double intégrale est la densité
du couple (X, S(X)) soit encore celle de X. On en déduit donc que :
Z
E[θ̌] = θ̂(x)fX ;θ (x)dx = θ. (5.26)
On rappelle que le théorème de la variance totale consiste à écrire pour deux variables aléatoires A et
B:
var(B) = E[var(B/A)] + var(E[B/A]). (5.27)
En vertu de ce théorème, on obtient :
C ˆ = E[C ˆ + E[C ˆ ]. (5.28)

θ E[θ /S (X )] θ /S (X )
La matrice E[C ˆ ] est définie non-négative. L’opérateur espérance conserve cette propriété. Il en
θ /S
résulte que la matrice C ˆ − C ˆ est définie non-négative. On a bien E[θ̂/S(X)] au moins
θ E[θ /S (X )]
aussi bon que θ̂.
A ce niveau, il est utile de remarquer que si on prend θ̂ = θ̂ MVU , on peut plus améliorer l’estimateur et
donc E[C ˆ ] = 0, il existe une relation fonctionnelle entre θ̂ MVU et la statistique exhaustive
θ MVU /S (X )
S(X).
40
5.10.1 Corollaire
S’il existe une statistique S(X) exhaustive pour θ alors l’estimateur MVU ne dépend que de
S(X). En effet, on ne peut améliorer l’estimateur MVU par la méthode de Rao-Blackwell. On a
donc :
E[C ˆ ] = 0. (5.29)
θ /S (X )
On conclut donc à l’existence d’une relation fonctionnelle entre l’estimateur MVU et la statis-
tique exhaustive S(X).
Remarquons qu’il peut exister plusieurs estimateurs sans biais fonctions de S(X) et on n’est pas sûr
que la méthode de Rao-Blakwell fournisse l’estimateur MVU. A ce niveau, il est utile d’utiliser la
notion de statistique complète.
5.10.2 Théorème de Lehman-Scheffé

Si θ̌ est un estimateur sans biais, dépendant d’une statistique exhaustive complète S(X), θ̌ est
l’unique estimateur MVU de θ.
En effet, on sait que l’estimateur MVU θ̂ mvu dépend de S(X) :
θ̂ mvu = g(S(X)). (5.30)
D’autre part, par hypothèse, θ̌ est un estimateur sans biais tel que :
θ̌ = h(S(X)). (5.31)
Les 2 estimateurs étant sans biais, on a :
E[θ̂ mvu ] = E[θ̌] = θ. (5.32)
E[(g − h)(S(X))] = 0. (5.33)
La statistique S(X) étant complète, on a forcément (g − h)(·) = 0. On aboutit donc à :
θ̌ = θ̂ mvu . (5.34)
L’intérêt de ce théorème est de montrer que les estimateurs MVU s’expriment comme des fonctions de
statistiques exhaustives. S’il existe une statistique exhaustive complète S(X) de dimension s = p,
on peut alors chercher une transformation T (S) non-biaisée c.à.d. telle que :
E[T (S)] = θ. (5.35)
Cela permet d’éviter le calcul direct de θ̌.
5.11 Conclusion
Ainsi, la méthode de construction de l’estimateur MVU se résume comme suit.
– Il faut utiliser le théorème de factorisation pour conclure quant à l’existence de statistique
exhaustive S(X). On pourra également se servir du théorème de Darmois pour construire une
statistique exhaustive S(X).
– Il faut vérifier si S(X) est complète. Si ce n’est le cas, chercher une autre statistique ou aban-
donner cette approche.
– On peut choisir n’importe quel estimateur sans biais θ̂ et l’améliorer par moyennage condition-
nellement à S(X) ou trouver une fonction qui annule le biais S(X).
41
Troisième partie
Méthode sous-optimale
42
Chapitre 6
Estimateur linéaire sans biais de

variance minimale
6.1 Introduction
Il arrive souvent que l’estimateur MVU ne puisse être manipulé ou même calculé. C’est notamment
le cas si la loi de X est difficile à modéliser ou même à manipuler.
De telles considérations justifient le recours à une méthode d’estimation sous-optimale. En effet, on
cherche un estimateur sans biais de variance minimale dont l’expression est linéaire par rapport
aux données X :
θ̂ = AX + C, (6.1)
où A est une matrice rectangulaire p × N et C un vecteur p × 1. En anglais, on parle d’estimateur
BLUE pour Best Linear Unbiased Estimator.
On désire trouver A et C tels que θ̂ soit sans biais ayant la trace de sa matrice de covariance minimale.
La résolution de ce problème est donnée dans le cas d’un modèle d’observation linéaire par
rapport au paramètre :
X = Hθ + B, (6.2)
où H est une matrice connue de taille N × p et B est un vecteur aléatoire de moyenne E[B] et de
matrice de covariance C B . Le vecteur B représente le bruit d’observation.
6.2 Conditions sur le biais et la variance

On exprime la moyenne de l’estimateur θ̂ :
∀θ E[θ̂] = AHθ + AE[B] + C = θ. (6.3)
Pour qu’il soit non-biaisé, il faut que :

AH = I p×p
. (6.4)
C = −AE[B]
Par ailleurs, on exprime la matrice C ˆ de covariance de θ. Après développement, on trouve :

θ
C ˆ = AC B AT . (6.5)
θ
43
6.3 Un résultat préliminaire
Il s’agit de trouver la matrice A qui minimise la quantité :
tr[AC B AT ], (6.6)
où C B est une matrice symétrique définie positive.

Pour cela, on définit sur l’ensemble des matrices de taille p × N la forme bilinéaire :
4
< F , G > = tr[F C B GT ]. (6.7)
Il est facile de montrer qu’il s’agit d’un produit scalaire. Ainsi,
∀F tr[F C B F T ] ≥ 0. (6.8)
En effet, la matrice C B étant définie positive, il vient :
∀u (F T u)T C B (F T u) ≥ 0. (6.9)
Cela s’écrit aussi :

∀u uT (F C B F T )u ≥ 0, (6.10)
ce qui traduit le caractère défini positif de la matrice F C B F T .
Pour un tel produit scalaire, l’inégalité de Cauchy-Schwarz s’écrit :
|tr[AC B GT ]|2 ≤ tr[AC B AT ]tr[GC B GT ]. (6.11)
En particulier, en revenant aux notations du cours et en choisissant :
G = H T C −1 , (6.12)
B
on obtient :
AC B GT = AH = I p×p . (6.13)
L’inégalité de Cauchy-Schwarz devient :
p2 ≤ tr[AC B AT ]tr[H T C −1 H]. (6.14)

B
La quantité tr[AC B AT ] est minimale lorsque l’inégalité se transforme en égalité c.à.d. lorsque la
matrice A est proportionnelle à la matrice G :
Aopt = αH T C −1 . (6.15)
B
La matrice de proportionnalité α est calculé en utilisant la relation :
Aopt H = I p×p . (6.16)
On aboutit alors à :
Aopt = (H T C −1 H)−1 H T C −1 . (6.17)
B B
44
6.4 Résolution
D’après ce qui précède, on montre que la matrice A qui minimise la trace de cette matrice est la
matrice Alvm donnée par :
4
Alvm = (H T C −1 H)−1 H T C −1 . (6.18)
B B
La matrice Alvm est l’inverse généralisée pondérée de H. En effet, la première condition sur le biais
est vérifiée puisque :
Alvm H = I p×p . (6.19)
Le vecteur C s’en déduit aisément :
C = −Alvm E[B]. (6.20)
Finalement, l’estimateur linéaire par rapport à l’observation et dans le cas d’un modèle d’obser-
vation linéaire par rapport au paramètre est :
θ̂ lvm = (H T C −1 H)−1 H T C −1 (X − E[B]). (6.21)

B B
Il est important de noter que l’expression de l’estimateur BLUE nécessite la seule connaissance des
moments d’ordre 1 et 2 de l’échantillon mais aucunement sa loi de probabilité.
6.5 Lien avec l’estimateur des moindres carrés

Il est facile de remarquer que l’estimateur linéaire sans biais à variance minimale est égal à l’esti-
mateur des moindres carrés avec la matrice de pondération :
M = C −1 . (6.22)
B
Cela s’énonce sous la forme du théorème de Gauss-Markov. Pour les observations, parmi tous
les estimateurs linéaires (θ̂(X) fonction linéaire de X) et sans biais, la précision maximale (variance
minimale) est obtenue par l’estimateur selon les moindres carrés pondérés où la matrice de pondération
est l’inverse de la matrice de covariance du bruit d’observation.
45
Chapitre 7
Estimateur bayésien
7.1 Principe
Contrairement à l’approche classique, l’approche bayésienne considère le paramètre inconnu θ
comme aléatoire. Le but est d’estimer une réalisation particulière de θ. La méthode a été baptisée
méthode bayésienne car sa mise en œuvre repose sur l’application du théorème de Bayes.
Plusieurs arguments sont en faveur de cette approche :
– Si on dispose d’une information a priori sur θ, il est possible de la prendre en compte par cette
technique d’estimation. Bien entendu, cette prise en compte ne peut qu’améliorer la qualité de
l’estimation.
– La méthode bayésienne peut s’avérer intéressante dans le cas où il n’existe pas d’estimateur
efficace global (variance minimale pour toutes les valeurs de θ). Il est possible de construire un
estimateur optimal en “moyenne” (par rapport à la plupart des valeurs pouvant être prises par
θ).
Il est important de noter que considérer le paramètre inconnu comme aléatoire fut assez révolutionnaire.
C’est ce qui distingue l’estimation classique de l’estimation moderne dite bayésienne.
Pour s’en convaincre, considérons le cas concret de l’estimation de la vitesse c de la lumière. La vraie
valeur n’est jamais connue. En fait, les valeurs de c sont uniformément réparties sur [c0 − , c0 + ].
La quantité correspond à la précision maximale de la mesure. Il est donc préférable d’estimer c en
supposant une loi a priori uniforme.
7.2 Exemple historique

Cet exemple historique est dû à Laplace et Bayes (1763). Une boule de billard W roule sur une ligne
de longueur 1 avec une probabilité uniforme de s’arrêter. Le problème est de déterminer la position du
point d’arrêt P . Une seconde boule O roule n fois sous les mêmes hypothèses que pour W. On désigne
par X le nombre de fois où O s’arrête à gauche de W. La seconde question est de savoir quelle inférence
peut-on avoir sur P étant donné X. Autrement dit, le problème est de connaı̂tre la probabilité de P
sachant X.
La loi a priori de P est la loi U([0, 1]) uniforme sur [0, 1]. La loi de X est la loi binomiale B(n, P ).
Ainsi, peut-on écrire :
n
P [X = x/P ] = P x (1 − P )n−x . (7.1)
x
Par ailleurs, la loi conjointe de (X, P ) est telle que :
Z b
n
P [a < P < b, X = x] = P x (1 − P )n−x dP. (7.2)
a x
46
Ainsi, la loi marginale de X s’exprime :
Z 1
n
P [X = x] = P x (1 − P )n−x dP. (7.3)
0 x
Il en vient que la loi de P sachant X est :

Rb n
P x (1 − P )n−x dP

P [a < P < b/X = x] = Ra1 xn . (7.4)
x n−x dP
0 x P (1 − P )
Il s’agit d’une loi bêta de paramètres (x + 1, n − x + 1).
7.3 Modèle de décision bayésienne

Les hypothèses sont les suivantes :
– l’ensemble Θ est connu.
– La loi conditionnelle de l’échantillon PX /θ existe et est connue.
– La loi a priori Pθ existe et est connue. Le choix de la loi a priori du paramètre est délicat.
Une loi Pθ inadéquate produit un estimateur pauvre. Ce problème est similaire à celui de
la modélisation des données dans l’approche classique. Notons qu’une des réserves émises à
l’encontre de l’approche bayésienne est la justification d’une loi a priori pour un paramètre
inconnu. En fait, dans le cadre bayésien, la loi a priori résume l’information disponible ou encore
la lacune d’information sur ce paramètre qui tient compte d’une incertitude sur ce paramètre.
Le principe de l’estimation bayésienne est justement d’incorporer cette information dans le
processus de décision. Dans la pratique, le choix de cette loi se fait lorsqu’on a une connaissance
assez poussée de l’événement aléatoire étudié.
– une fonction de perte (ou de coût) C(·, ·) est choisie pour mesurer la perte causée par le rempla-
cement de la vraie valeur θ par la valeur estimée θ̂. Différentes fonctions coût peuvent convenir.
On peut citer :
1. la fonction coût quadratique :
4
C(θ, θ̂) = kθ − θ̂k2 , (7.5)
2. la fonction coût valeur absolue (city-block) :

p
4 X
C(θ, θ̂) = |θi − θ̂i |, (7.6)
i=1
3. la fonction coût tout ou rien (hit-or-miss) :

4 0 si kθ − θ̂k ≤ s
C(θ, θ̂) = . (7.7)
1 si kθ − θ̂k > s
7.4 Risque bayésien

Comme l’estimateur θ̂ dépend de l’observation X, la fonction coût dépend également de l’ob-
servation. Pour s’affranchir d’une telle dépendance, on définit une fonction risque R(θ, θ̂) comme la
moyenne sur toutes les observations possibles de la fonction coût. Il vient alors :
4
R(θ, θ̂) = EX /θ [C(θ, θ̂)] (7.8)
47
La fonction risque peut s’exprimer comme suit :
 Z


 C(θ, θ̂)PX /θ dX échantillon à valeurs continues
 RN

R(θ, θ̂) = X . (7.9)



 C(θ, θ̂)PX /θ échantillon à valeurs discrètes

RN
En prenant en compte toutes les valeurs possibles de θ, on définit le risque moyen ou risque de
Bayes : Z
4
R ˆ = Eθ [R(θ, θ̂)] = R(θ, θ̂)Pθ dθ (7.10)
θ Θ
En utilisant l’expression de la fonction risque de l’équation (7.9) et en appliquant le théorème de
Bayes :
PX /θ Pθ = Pθ /X PX , (7.11)
on montre que :
 Z Z
C(θ, θ̂)Pθ /X dθ PX dX échantillon à valeurs continues




 RN

Rˆ = . (7.12)
θ  X Z
C(θ, θ̂)Pθ /X dθ PX échantillon à valeurs discrètes





RN
Le risque moyen s’écrit alors :

 Z


 G(X)PX dX échantillon à valeurs continues
 RN

Rˆ = , (7.13)
θ  X


 G(X)PX échantillon à valeurs discrètes

RN
où Z
4
G(X) = C(θ, θ̂)Pθ /X dθ. (7.14)
Θ
La stratégie optimale consiste à minimiser le risque moyen R ˆ . Comme PX ≥ 0, l’estimateur
θ
bayésien optimal est celui qui minimise la fonction G(X). A ce niveau, il est utile de noter que la
fonction G(·) dépend de la loi a posteriori de θ conditionnellement à X.
L’expression de l’estimateur optimal dépend de la fonction coût choisie. Nous nous intéressons au cas
d’un coût quadratique.
7.5 Coût quadratique

7.5.1 Estimateur optimal
Avec un coût quadratique, l’estimateur bayésien optimal minimise l’erreur moyenne quadratique
(Minimum Mean Square Error). Dans ce cas, la fonction G(·) à minimiser s’écrit :
Z
G(X) = kθ − θ̂k2 Pθ /X dθ. (7.15)
Θ
48
La fonction G(·) apparaı̂t comme une forme quadratique en θ̂ :
Z
T T
G(X) = θ̂ θ̂ − 2E[θ/X] θ̂ + θ T θPθ /X dθ. (7.16)
Θ
Au minimum, le vecteur gradient s’annule nécessairement :

∂G
= 2θ̂ − 2E[θ/X] = 0, (7.17)
∂ θ̂
soit pour :
eqm
θ̂ bay = Eθ /X [θ/X]. (7.18)
Par ailleurs, la hessienne est une matrice constante définie positive :
∂2G
2 = 2I. (7.19)
∂ θ̂
L’extremum obtenu est bien un minimum.
Pour un coût quadratique, l’estimateur bayésien optimal est l’espérance de la grandeur à esti-
mer conditionnellement à l’observation. Cet estimateur joue un rôle fondamental dans de nombreux
problèmes.
7.5.2 Performances
Cet estimateur est non-biaisé :
eqm
EX [θ̂ bay ] = EX [Eθ /X [θ/X]] = Eθ [θ]. (7.20)
De même, il est facile de voir que le risque bayésien minimal est :

 R
 RN tr[C θ /X ]PX dX
 échantillon à valeurs continues
R ˆ eqm = . (7.21)
θ bay  P N tr[C
θ /X ]PX dX échantillon à valeurs discrètes

R
7.5.3 Transformation affine du paramètre

On considère le nouveau paramètre α de dimension r, obtenu par transformation affine :
4
α = Aθ + B, (7.22)
oùoù A est une matrice r × p et B un vecteur r × 1.

On montre facilement (grâce à la linéarité de l’espérance mathématique) que :
eqm
α̂eqm
bay = Aθ̂ bay + B. (7.23)
7.5.4 Modèle bayésien linéaire

On se place dans le cas du modèle d’observation suivant :
X = Hθ + B, (7.24)
où
49
– le paramètre θ suit une loi a priori normale N (µθ , C θ ).
– Le bruit B suit une loi normale N (0, C B ).
– Les va θ et B sont indépendantes.
Pour trouver l’estimateur bayésien qui minimise l’erreur quadratique moyenne, on doit d’abord déterminer
la loi a posteriori de θ conditionnée par X. Pour cela, on s’appuie sur le résultat suivant de calcul de
probabilités.
Si U et V sont deux vecteurs respectivement de Ru et Rv . On suppose que la loi conjointe de (U , V )
est une loi normale de matrice de covariance C :
..
 
 CU U . CU V 
C= , (7.25)
.
 
T .
CU V . CV V
où les matrices ont des tailles : u × u pour C U U , u × v pour C U V et v × v pour C V V . La variable
aléatoire conditionnelle U /V suit également une loi normale
– de moyenne :
E[U /V ] = E[U ] + C U V C −1 (V − E[V ]), (7.26)
VV
– de matrice de covariance :
C U /V = C U U − C U V C −1 C TU V . (7.27)
VV
Appliquons ce résultat à U = θ et à V = Hθ + B. D’abord, il est facile de voir que :
C V V = HC θ H T + C B . (7.28)
CU V = CθHT . (7.29)
eqm
θ̂ bay = E[θ/X] = µθ + HH T (HC θ H T + C B )−1 HC θ . (7.30)
A la différence de l’approche classique, la matrice H n’a pas besoin d’être de plein rang pour garantir
l’inversibilité de la matrice HC θ H T + C B .
7.6 Estimateur du maximum a posteriori

eqm
Le calcul de θ̂ bay présente une complexité opératoire assez importante (calcul de l’espérance condi-
tionnelle). Pour éviter la charge calculatoire, une autre stratégie d’estimation est envisagée.
Il s’agit de trouver l’estimateur qui maximise la loi a posteriori de θ conditionnée par la connaissance
de l’échantillon :
map
θ̂ bay = arg max Pθ /X . (7.31)
Θ
map
Si Pθ est uniforme, l’estimateur θ̂ bay
maximise également PX /θ et correspond à l’estimateur bayésien
du maximum de vraisemblance. Dans le cas général, cette propriété n’est pas toujours vérifiée.
Il est important de noter que si Θ est fini et que l’on choisit une loi a priori uniforme pour θ,
l’estimateur du maximum de vraisemblance et l’estimateur du maximum a priori se confondent.
50
7.7 Estimateur linéaire en moyenne quadratique
7.7.1 Introduction
Mis à part le cas gaussien, il est difficile en pratique, d’exprimer littéralement la loi a posteriori.
Il arrive aussi que la charge calculatoire des 2 méthodes précédentes soient importantes (intégrales
multiples ou maximisation multidimensionnelle).
Une autre voie est alors envisagée. On retient toujours le coût quadratique mais on contraint l’esti-
mateur à être linéaire. Cette démarche est analogue à celle adoptée pour le calcul de l’estimateur
linéaire à variance minimale (BLUE). La classe des estimateurs ainsi construits constitue les filtres
dits de Wiener. Bien que sous-optimale, cette méthode a l’avantage de n’utiliser que les 2 premiers
moments de la loi conjointe.
7.7.2 Position du problème

On suppose que le couple (X, θ) est du second ordre. On contraint les estimateurs cherchés à être
de la forme suivante :
θ̂ = AX + B. (7.32)
En procédant composante par composante, la contrainte linéaire se traduit par les relations suivantes :
∀ i = 1, . . . p θ̂i = aTi X + Bi , (7.33)
où ai désigne la i-ème ligne de la matrice A et Bi la i-ème composante de B.

L’optimisation consiste à trouver A et B qui minimisent chacune des p erreurs quadratiques moyennes :
4
∀ i = 1, . . . p EQMi = E[(θi − θ̂i )2 ]. (7.34)
7.7.3 Optimisation analytique

Une première condition d’extrémalité de EQMi est :
∂EQMi
= 0. (7.35)
∂Bi
Ceci se traduit par :
Bi = E[θi ] − aTi E[X]. (7.36)
Le rôle du vecteur B se justifie seulement dans le cas où les vecteurs θ et X ne sont pas centrés.
En remplaçant Bi par son expression dans EQMi , on trouve facilement :
EQMi = aTi C XX ai − 2aTi C X θi + Cθi θi . (7.37)
La seconde condition d’extrémalité de EQMi est :

∂EQMi
= 2C XX ai − 2C X θi = 0. (7.38)
∂ai
Il en résulte donc :
aleqm
i = C −1 C X θi . (7.39)
XX
L’estimateur linéaire en moyenne quadratique optimal a une composante i donnée par :
θ̂ileqm = C θi X C −1 (X − E[X]) + E[θi ]. (7.40)

XX
51
Une écriture matricielle fournit une expression plus compacte :
leqm
θ̂ = C θX C −1 (X − E[X]) + E[θ]. (7.41)
XX
Si les variables X et θ sont centrées, on a alors :
leqm
θ̂ = C θX C −1 X. (7.42)
XX
Bien que sous-optimale, l’estimation linéaire a l’avantage de n’utiliser que les moments d’ordre 1 et 2
du couple (X, θ).
7.7.4 Principe d’orthogonalité

Une autre méthode d’optimisation (plus élégante) réside dans l’application du principe dit d’or-
thogonalité.
On considère l’ensemble des vecteurs aléatoires du second ordre centrés. Pour cela, on considère
l’espace de Hilbert L2 (Ω) muni du produit scalaire :
4
< U , V > = E[U T V ]. (7.43)
Cet espace hilbertien L2 (Ω) est complet et on peut y appliquer le théorème de projection orthogonale.
Ainsi, si A est un sous-espace vectoriel de L2 (Ω), à tout vecteur U de L2 (Ω), correspond un et un seul
vecteur U orth de A tel que :
4
U orth = arg min E[(U − a)T (U − a)]. (7.44)
a∈A
Une interprétation géométrique est possible : le vecteur U orth est la projection orthogonale de U sur
le sous-espace A. Le principe d’orthogonalité s’en déduit naturellement :
∀a ∈ A < U − U orth , a >= 0, (7.45)
ou encore :
∀a ∈ A E[(U − U orth )T a] = 0. (7.46)
Une fois rappelés ces résultats, revenons au problème de l’estimation linéaire de θi :
θ̂i = aTi X, (7.47)
où on a supposé θ et X centrés. Si ce n’est pas le cas, il suffit de considérer les va centrées associées.
Minimiser la distorsion EQMi revient à résoudre un problème de projection orthogonale. En effet, on
considère l’ensemble A engendré par les variables aléatoires scalaires X1 , . . . , XN :
4
A = vect{X1 , . . . , XN }. (7.48)
L’optimisation consiste à trouver le vecteur ai = (ai,1 , . . . , ai,N )T qui minimise la norme de l’erreur
θi − θ̂i (norme prise au sens du produit scalaire défini précédemment) :
kθi − aTi Xk2 = E[(θi − aTi X)2 ]. (7.49)
Cette norme est minimale quand le vecteur erreur est orthogonal à A. Le principe d’orthogonalité se
traduit par les N équations suivantes :
∀ n = 1, . . . N E[(θi − θ̂ileqm )Xn ] = 0, (7.50)
52
soit encore :
N
X
ai,m E[Xm Xn ] = E[θi Xn ]. (7.51)
m=1
Finalement, sous forme matricielle, on obtient les équations dites équations normales :
E[X12 ]
    
E[X1 X2 ] . . . E[X1 XN ] ai,1 E[θi X1 ]
 E[X1 X2 ] E[X 2 ] . . . E[X X ]
2 N   ai,2
    E[θi X2 ] 
1
 =  .. . (7.52)
   
 .. .. . .
. . ..   ..
 . .  .   . 
2]
E[XN X1 ] E[XN X2 ] . . . E[XN ai,N E[θi XN ]
Finalement, on obtient :
C XX ai = C X θi . (7.53)
On retrouve la solution de la méthode analytique. Le calcul de la distorsion minimale peut se faire
rapidement par simple application du théorème de Pythagore.
Ainsi, le problème d’estimation linéaire optimale peut être rapidement résolu grâce au principe d’or-
thogonalité. De nombreux exercices peuvent l’illustrer.
7.7.5 Performances
L’estimateur linéaire est non-biaisé puisque :
leqm
E[θ̂] = C θX C −1 (E[X] − E[X]) + E[θ] = E[θ]. (7.54)
XX
Il est facile de donner l’expression de la matrice d’erreur quadratique :
EQM ˆ leqm = C θθ − C θX C −1 C TθX . (7.55)
θ XX
Le i-ème élément diagonal de cette matrice donne la valeur minimale de EQMi .
7.7.6 Propriétés
Deux propriétés de l’estimateur linéaire optimal sont à noter :
– L’estimateur commute avec toute transformation affine. Ainsi, l’estimateur linéaire du nouveau
paramètre :
4
α = P θ + Q. (7.56)
est donné par :
leqm
α̂leqm = P θ̂ + Q. (7.57)
– L’estimateur de la somme de 2 paramètre θ 1 et θ 2 est la somme des estimateurs individuels. Il
s’agit de la propriété de superposition.
7.7.7 Théorème bayésien de Gauss-Markov

On suppose que le modèle d’observation est donné par :
X = Hθ + W , (7.58)
où W est un bruit centré de covariance C W . De plus, les vecteurs θ et W sont décorrélés et
l’hypothèse gaussienne peut être levée.
Il est facile de montrer que l’estimateur linéaire optimal s’obtient par la relation suivante :
leqm
θ̂ = E[θ] + (C −1 + H T C −1 H)−1 H T C −1 (X − HE[θ]). (7.59)
θθ W W
53
La matrice d’erreur quadratique est donnée par :
EQM ˆ leqm = (C −1 + H T C −1 H)−1 . (7.60)

θ θθ W
Les résultats sont les mêmes que dans le cas général bayésien à la seule exception que les vecteurs θ
et W ne sont pas forcément gaussiens.
7.8 Exemples d’applications

7.8.1 Présentation
En traitement du signal, l’estimation linéaire en moyenne quadratique donne lieu à trois types
d’applications majeures qu’il convient d’étudier : le filtrage, le lissage et la prédiction. Dans ce qui
suit, nous décrivons les grandes lignes de ces méthodes.
7.8.2 Le filtrage
On suppose que le modèle d’observation est décrit par l’équation suivante :
x(n) = s(n) + w(n), (7.61)
où s(n) est le signal inconnu et w(n) est un “bruit” additif, supposé décorrélé de s(n). Il s’agit à
chaque instant n de reconstruire le signal inconnu à partir de n + 1 observations (n pour le passé et
une pour le présent) X (n) = (x(0), . . . , x(n))T . C’est un problème de débruitage au moyen d’un filtre
linéaire causal. Le problème est répété pour chaque instant n = 0, . . . , N − 1. Sous les hypothèses
considérées et en respectant le notations habituelles, on peut montrer facilement que :
C XX = C SS + C W W , (7.62)
où les matrices C SS et C W W sont des matrices d’auto-corrélation de taille ((n + 1) × (n + 1). De
plus, on a :
C s(n)X = E[s(n)(x(0), . . . , x(n))] = (css (n), css (n − 1), . . . , css (0)) = c0 Tss . (7.63)
Il vient que :
∀ n = 0, . . . , N − 1 ŝ(n) = c0 Tss (C SS + C W W )−1 X. (7.64)
(n) (n) (n)
Notons a(n) = (a0 , a1 , . . . , an )T le vecteur (n + 1) × 1 des poids :
4
a(n) = (C SS + C W W )−1 c0 ss . (7.65)
On a alors :
ŝ(n) = (a(n) )T X (n) . (7.66)
Quand n varie, il est possible d’interpréter le processus d’estimation comme une opération de filtrage
à réponse impulsionnelle h(n) (k) variant avec le temps (filtre adaptatif) :
4 (n)
∀ k = 0, . . . , n h(n) (k) = an−k . (7.67)
Ainsi, est-il possible d’écrire :

n n
(n)
X X
ŝ(n) = ak x(k) = h(n) (n − k)x(k). (7.68)
k=0 k=0
54
Le problème est de trouver la réponse impulsionnelle de ce filtre en exploitant le caractère symétrique
et de Tœplitz de C SS + C W W . En effet, en définissant le vecteur h par :
4
h(n) = (h(n) (0), h(n) (1), . . . , h(n) (n))T , (7.69)
on peut remarquer que h(n) est obtenu en appliquant l’opérateur antidiagonal J :

 
0 ... 0 1
J=  0 ... 1 0 , (7.70)
1 0 0 0
pour lequel la dernière composante devient la première. Par ailleurs, comme :
(C SS + C W W )a(n) = c0 ss , (7.71)
il vient que :
(C SS + C W W )h(n) = J c0 ss = (rss (0), rss (1), . . . , rss (n))T . (7.72)
Ceci se traduit par le système d’équations linéaires appelées équations de filtrage de Wiener-Hopf :
   (n)   
rxx (0) rxx (1) ... rxx (n) h (0) rss (0)
 rxx (1) rxx (0) ... rxx (n − 1)   (n)
  h (1)   rss (1) 
  
= . (7.73)

 .. .. .. ..   ..   ..
 . . . .  .   . 
rxx (n) rxx (n − 1) . . . rxx (0) h(n) (n) rss (n)
Un algorithme de type Levinson permet de résoudre ce système. Quand la valeur de n devient élevée, la
réponse impulsionnelle est constante et à titre d’exercice, on peut montrer qu’une solution analytique
peut être obtenue (on parle alors de filtre de Wiener “infini”).
7.8.3 Le lissage
Il s’agit du même modèle d’observation. La différence est l’estimation de s(0), . . . , s(N − 1) utilise
le passé, le présent et le futur des observations. Autrement dit, le lissage est réalisé une fois toutes les
observations recueillies tandis que l’opération de filtrage peut être menée au fur et à mesure du recueil
des observations (quasiment en temps réel). Par exemple, pour estimer s(1) en lissage, il est possible
d’utiliser les mesures x(0), x(1), . . . , x(N − 1) alors qu’en filtrage on ne peut utiliser seulement x(0)
et x(1). On retrouve le même type d’expression pour ŝ(n) que dans l’équation (7.64) ce qui change ce
sont les définitions des vecteurs mis en jeu.
7.8.4 La prédiction
La prédiction linéaire de pas l d’horizon N consiste à estimer x(N − 1 + l) (avec l entier po-
sitif) à partir des N observations x(0), x(1), . . . , x(N − 1). Un cas particulier correspond au cas de
l’interpolation où il s’agit d’estimer la donnée “manquante” x(n) à partir des autres observations
x(0), . . . , x(n − 1), x(n + 1), . . . , x(N − 1).
55
Chapitre 8
Détection statistique
8.1 Introduction
8.1.1 Exemples
En télécommunications, il est courant d’avoir à prendre des décisions selon les signaux reçus.
Par exemple, en détection par radar, selon les observations faites, le récepteur doit savoir si dans
ces observations, il y a seulement du bruit ou si un signal attendu (une cible notamment) est présent.
De même, en communication binaire, un train binaire est souvent transmis via un canal bruité.
A partir de l’observation reçue, on cherche si un ‘1’ ou un ‘0’ a été émis par la source. Le récepteur
doit donc choisir entre 2 hypothèses. Mais du fait du bruit de transmission, le récepteur risque de se
tromper dans certains cas de figure. Le but de la détection est de minimiser cette probabilité d’erreur.
8.1.2 Définition de la détection

Les exemples précédents correspondent à un problème de détection car les valeurs du paramètre θ
sont discrètes. De plus, on suppose que le paramètre inconnu est aléatoire. A partir des observations
X, il s’agit de construire des estimateurs qui “approchent” le paramètre inconnu. Ces estimateurs
prendront également des valeurs discrètes.
Plus généralement, on veut savoir si le paramètre inconnu vérifie ou pas une ou plusieurs hypothèses.
On dit que l’on teste des hypothèses. L’hypothèse est dite simple quand elle est associée à la
valeur du paramètre et composée dans le cas contraire.
8.1.3 Modèle de travail

Les hypothèses sont les suivantes.
– L’ensemble Θ est connu et est fini :
4
Θ = {θ 0 , . . . , θ M −1 }, (8.1)
où M est le nombre d’hypothèses Hm à tester.

– Les probabilités a priori de chacune des hypothèses sont connues :
4
∀ m = 0, . . . , M − 1 Pm = P r[θ m ]. (8.2)
On a évidemment :
M
X −1
Pm = 1. (8.3)
m=0
56
– L’ensemble des observations X inclus dans RN est connu. On cherche à le partitionner en M
domaines ∆0 , . . . , ∆M −1 . Ces domaines doivent être disjoints pour qu’il n’ y ait aucun domaine
d’indécision. La réunion de ces M régions de décision doit correspondre à X pour qu’il n’y ait
pas d’observation où aucune décision ne peut être prise. On détectera θ i si X est dans ∆i :
X ∈ ∆i ⇒ θ̂ = θ i . (8.4)
– une fonction de perte (ou de coût) Cij est choisie pour mesurer le coût de la détection de θ i
quand la vraie valeur est θ j .
En général, il est logique de supposer que le coût d’une mauvaise décision est plus élevé que
celui d’une détection correcte :
∀ i, j = 0, . . . , M − 1 et i 6= j Cij > Cjj . (8.5)
– On suppose connue la loi de X conditionnellement au paramètre. Comme celui-ci est discret,

tout revient à supposer connues les probabilités PX /Hm de X sous les hypothèses Hm . On a
alors :
4
PX /Hm = PX /θ =θ m . (8.6)
8.2 Risque bayésien

Le même raisonnement que dans le cas continu peut être mené pour le calcul du risque moyen
ou risque de Bayes :
M −1 M −1
4 X X
R = E[C] = Cij P(i,j) , (8.7)
i=0 j=0
où P(i,j) est la probabilité conjointe de décider θ i et d’émettre la valeur θ j . On la note aussi P (∆i , Hj ).
En utilisant le théorème de Bayes, on a :
M
X −1 M
X −1
R= Pj Cij Pi/j , (8.8)
i=0 j=0
où Pi/j est la probabilité de décider θ i alors que la vraie valeur émise est θ j :
 R
P dX échantillon à valeurs continues
 ∆i X /Hj


Pi/j = P . (8.9)


 P X /Hj échantillon à valeurs discrètes
∆i
Il est possible de faire apparaı̂tre R comme la somme de 2 termes :

MP−1 R MP−1 MP−1 R
( P C P d(X) + ( P C ∆j PX /Hj d(X) échantillon à valeurs continues

j ij X /Hj j jj


 ∆i


 i=0 j=0,j6=i j=0

R= .




 MP−1 P MP−1 MP−1 P
 ( Pj Cij PX /Hj ) + ( Pj Cjj PX /Hj ) échantillon à valeursdiscrètes


i=0 ∆i j=0,j6=i j=0 ∆j
(8.10)
Comme les régions de décision forment une partition de l’espace d’observation X , on a :
−1
∆i = X − ∪M
j=0,j6=i ∆j , (8.11)
57
et :  R
P dX = 1 échantillon à valeurs continues
 X X /Hj

P , (8.12)

 PX /Hj = 1 échantillon à valeurs discrètes
X
soit encore :

R MP−1 R
PX /Hj dX = 1 − ∆i PX /Hj dX échantillon à valeurs continues



 ∆ j

 i=0,i6=j
. (8.13)

 P MP−1 P
PX /Hj = 1 − PX /Hj échantillon à valeurs discrètes




∆j i=0,i6=j ∆i
Le risque devient :

MP−1 R MP−1 MP−1 MP−1 R MP−1
( P C P d(X) + ( P C ) − ( Pj Cjj PX /Hj d(X) cas continu

j ij j jj


 ∆i X /Hj ∆i
 i=0
 j=0,j6=i j=0 j=0 i=0,i6=j
R= .

 MP−1 P MP−1 MP−1 MP−1 P MP−1
Pj Cjj ) − (

 ( Pj Cij PX /Hj ) + ( Pj Cjj PX /Hj ) cas discret

∆i

i=0 j=0,j6=i j=0 j=0 ∆i i=0,i6=j
(8.14)
Il en résulte comme expression :

MP−1 MP−1 R MP−1
Pj Cjj + Pj (Cij − Cjj )PX /Hj dX échantillon à valeurs continues



 ∆ i
 j=0
 i=0 j=0,j6=i
R= .

 MP−1 MP−1 P M P−1
Pj (Cij − Cjj )PX /Hj



 Pj Cjj + échantillon à valeurs discrètes
j=0 i=0 ∆i j=0,j6=i
(8.15)
8.3 Détection optimale

Le premier terme de R est fixé (constante K) tandis que le second évalue le coût des régions de
décision :
M
X −1
R=K+ ri , (8.16)
i=0
où :

R MP−1
Pj (Cij − Cjj )PX /Hj dX échantillon à valeurs continues



 ∆ i

 j=0,j6=i
4
ri = . (8.17)

 P MP−1
Pj (Cij − Cjj )PX /Hj



 échantillon à valeurs discrètes
∆i j=0,j6=i
La quantité ri représente la contribution au risque total R de la région de décision ∆i .

Par ailleurs, la stratégie optimale consiste à configurer les régions de décision de façon à minimiser
le risque total. A priori, ce problème d’optimisation globale de R en fonction de ∆0 , . . . , ∆M −1 s’avère
58
difficile. Pour le résoudre, il faut rappeler que le problème posé consiste à décider d’une hypothèse
à partir de la donnée d’un échantillon xech . Dans ce cas, la stratégie optimale consiste à assigner
l’échantillon xech à la région ∆i si le coût individuel de cette décision est minimal. Or, la contribution
ponctuelle au coût ri de l’échantillon est :
M
X −1
Pj (Cij − Cjj )PX /Hj (xech ). (8.18)
j=0,j6=i
Finalement, la contribution minimale de l’échantillon sera obtenu pour la région i telle que :
M −1
4 X
i = arg min Pj (Cij − Cjj )PX /Hj (xech ). (8.19)
i=0,...,M −1
j=0,j6=i
Cette dernière équation traduit la règle de décision optimale permettant de construire “point par
point” les régions de décision.
La solution directe serait d’évaluer les M valeurs possibles des sommes précédentes et de sélectionner
celle qui est minimale.
Cette méthode risque d’être coûteuse. Une autre approche est préconisée. Pour ce faire, on définit les
M − 1 rapports de vraisemblance (likelihood ratio) Li (xech ), définis par :
4 PX /Hj (xech )
∀ j = 1, . . . , M − 1 Lj (xech ) = . (8.20)
PX /H0 (xech )
Notons que ces rapports de vraisemblance sont des variables aléatoires car ils dépendent de l’observa-
tion.
La règle de décision optimale consiste à déterminer l’indice i qui minimise la somme :
M −1
4 X
Si (xech ) = Pj (Cij − Cjj )Lj (xech ). (8.21)
j=1
Cette seconde méthode est la meilleure. En effet, l’organe de décision a une structure simple. Il suffit
de calculer M − 1 sommes et de les comparer entre elles. En sortie, l’indice de la plus petite somme est
délivré. Notons que le récepteur peut remplacer le calcul des Si (·) par toute fonction monotone. Par
exemple, le logarithme a souvent, en pratique, une expression analytique plus simple à manipuler.
8.4 Cas de 2 hypothèses

8.4.1 Introduction
En télécommunications, le cas de M = 2 hypothèses est le plus fréquemment rencontré. Par
analogie avec le problème de détection en radar, l’hypothèse H0 est appelée l’hypothèse nulle (null
hypothesis) et correspond au cas où l’observation contient uniquement du bruit. L’hypothèse H1 est
l’hypothèse alternative. Elle est associée au cas où du signal utile est présent.
Il y a 4 cas de figures :
1. Décider H0 quand H0 est vraie. On parle de non-détection correcte.
2. Décider H0 quand H1 est vraie. On parle de non-détection erronée (miss). C’est le cas (grave)
où une cible présente n’est pas détectée.
3. Décider H1 quand H0 est vraie. On parle de fausse alarme (false alarm). On croit qu’une cible
est présente alors qu’il n’en est rien.
4. Décider H1 quand H1 est vraie. On parle de détection correcte.
59
8.4.2 Probabilités d’erreur
Aux 4 cas de figures précédents, on fait correspondre les probabilités suivantes.
– Probabilité de non-détection erronée PM :
 R
 ∆0 X /H1

4
PM = P (∆0 /H1 ) = P . (8.22)

 PX /H1 échantillon à valeurs discrètes
∆0
– probabilité de fausse-alarme PF :
 R
 ∆1 X /H0

4
PF = P (∆1 /H0 ) = P . (8.23)

 PX /H0 1 échantillon à valeurs discrètes
∆1
– probabilité de détection correcte PD :

 R
 ∆1 X /H1

4
PD = P (∆1 /H1 ) = P . (8.24)

 PX /H1 échantillon à valeurs discrètes
∆1
Bien entendu, la relation suivante est toujours vérifiée :
PM + PD = 1 (8.25)
Il est facile d’exprimer la probabilité PC d’avoir une décision correcte :

4
PC = P (∆0 , H0 ) + P (∆1 , H1 ) = P0 P (∆0 /H0 ) + P1 P (∆1 /H1 ), (8.26)
soit finalement :
PC = P0 (1 − PF ) + P1 PD . (8.27)
La probabilité PE d’avoir une décision erronée s’en déduit directement :
PE = P0 PF + P1 PM . (8.28)
Le risque bayésien s’écrit en fonction de ces probabilités :
R = P0 (1 − PF )C00 + P1 (1 − PD )C01 + P0 PF C10 + P1 PD C11 . (8.29)
8.4.3 Détecteur optimal

Le détecteur optimal se déduit facilement du cas général. Il suffit de remplacer M par 2. Il faut
calculer :
– le rapport de vraisemblance
4 PX /H1
L1 (X) = , (8.30)
PX /H0
– le seuil η :
4 P0 (C10 − C00 )
η= . (8.31)
P1 (C01 − C11 )
60
La règle de décision optimale s’obtient aisément :
Si L1 (X) > η alors décider H1 . (8.32)
Si L1 (X) < η alors décider H0 . (8.33)

La structure de l’organe de décision est très simple. Dans la pratique, lorsque les probabilités a priori et
les coûts changent, seule la valeur du seuil η doit être mise à jour, la valeur du rapport de vraisemblance
ne varie pas.
8.4.4 Coût tout ou rien

Dans le cas particulier d’un coût tout ou rien :
C01 = C10 = 1 et C11 = C00 = 0, (8.34)
le seuil η a une expression simplifiée :

P0
η= . (8.35)
P1
En reportant dans l’équation (8.29), le risque bayésien devient :
R = P0 (1 − PF )C00 + P1 (1 − PD )C01 + P0 PF C10 + P1 PD C11 = P0 PF + P1 PM . (8.36)
En comparant avec l’équation (8.28), on voit que :
R = PE . (8.37)
Dans le cas d’un coût tout ou rien, la stratégie bayésienne optimale revient à minimiser la probabilité
d’erreur.
8.5 Stratégie du minimax

Bien que de structure simple, le récepteur optimal bayésien a l’inconvénient de supposer connues
les probabilités a priori des hypothèses à tester. Or, si on songe par exemple, au cas de la détection
radar, il est difficile de connaı̂tre a priori la probabilité de présence d’un avion ennemi. On est donc
obligé de reformuler le problème de la détection sans utiliser ces quantités.
Une première alternative consiste à sélectionner une valeur de P1 pour laquelle le risque R est maximum
puis à minimiser le risque (minimiser le maximum du risque).
Pour ce faire, écrivons R en fonction de P1 :
R = (1 − PF )C00 + PF C10 + P1 [(C11 − C00 ) + (C01 − C11 )PM − (C10 − C00 )PF ]. (8.38)
Le risque apparaı̂t comme une fonction linéaire de P1 . Pour une valeur fixée de P1 , il est possible
d’effectuer un test bayésien. Les régions de décision sont déterminées ainsi que les probabilités PF et
PM . Le test consiste à comparer :
(1 − P1 )(C10 − C00 )
L(X) > alors décider H1 . (8.39)
P1 (C01 − C11 )
Les régions de décision varient avec P1 . Les 2 valeurs extrêmes (0 et 1) de P1 correspondent à 2

situations particulières.
Si P1 = 0, le seuil est infini et on décide toujours pour l’hypothèse H0 . De plus, on a PF = 0 et
PM = 1. Le risque R = C00 .
61
De manière duale, si P1 = 1, le seuil est nul, on décide toujours pour H1 . Dans ce cas, PF = 1 et
PM = 0 et le risque vaut C11 .
Il s’agit de trouver la valeur P1∗ qui maximise le risque R. La condition d’extrémalité correspond à
l’équation du minimax :
(C11 − C00 ) + (C01 − C11 )PM − (C10 − C00 )PF = 0 (8.40)
8.6 Stratégie de Neyman-Pearson

Une seconde approche est préconisée pour éviter la connaissance des probabilités a priori. Il s’agit
de la stratégie de Neyman-Pearson. On se place dans le cas de M = 2 hypothèses à tester. Il s’agit de
maximiser la probabilité de détection PD pour un niveau donné α de la probabilité de fausse alarme
PF . Comme PM = 1 − PD , maximiser PD revient à minimiser PM . On doit résoudre un problème
d’optimisation sous contrainte : minimiser PM sous la contrainte PF = α. Pour cela, il faut minimiser
le critère J suivant :
4
J = PM + λ(PF − α), (8.41)
où λ ≥ 0 est le multiplicateur de Lagrange.
Plusieurs régions ∆1 vérifient PF = α. Le problème d’optimisation consiste à trouver celle(s) qui
minimise(nt) PM . Par conséquent, il est intéressant d’exprimer le critère J en fonction des régions de
décision :
 R R
 ∆ 0
PX /H1 dX + λ( ∆1 PX /H0 dX − α) échantillon à valeurs continues

J= P P , (8.42)

 PX /H1 + λ( PX /H0 − α) échantillon à valeurs discrètes
∆0 ∆1
soit encore :
R
λ(1 − α) + ∆0 [PX /H1 − λPX /H0 ]dX échantillon à valeurs continues



J= P . (8.43)
 λ(1 − α) + [PX /H1 − λPX /H0 ]dX échantillon à valeurs discrètes

∆0
Le critère J est minimisé quand les observations vérifiant PX /H1 − λPX /H0 > 0, sont assignées à la
région ∆1 . La règle de décision consiste à calculer le rapport de vraisemblance L(X) et de voir s’il est
inférieur à λ :
4 PX /H1
L(X) = >H1 λ. (8.44)
PX /H0
Le multiplicateur de Lagrange est déterminé par la condition PF = α :
 R
 L>α PL/H0 dL échantillon à valeurs continues

PF = α = P , (8.45)

 PL/H0 échantillon à valeurs discrètes
L>α
où PL/H0 est la probabilité conditionnelle du rapport de vraisemblance L(X) (qui est bien une va).
Ainsi, la structure du récepteur optimal de Neyman-Pearson est semblable à celle du récepteur
bayésien. La différence réside dans le calcul du seuil.
Dans la pratique, une façon d’évaleur les performances du test est de représenter la courbe PD en fonc-
tion de α. Cette courbe porte le nom de courbe Caractéristique Opérationnelle du Récepteur (COR)
ou (ROC pour Receiver Operating Characteristic).
62
Bibliographie
[1] P.J. Huber, Robust statistics, John Wiley, 1981.

[2] F. Hampel, E. Ronchetti, P. Rousseeuw, W. Stahel, Robust statistics : The approach based on
influence functions, Wiley, New-York, 1986.
[3] S. Taylor, Modeling financial time series, J. Wiley, New-York, 1986.
[4] Sir M. Kendall, A. Stuart, The advanced theory of statistics, Vol. 2, MacMillan, New-York, 1979.
[5] C.R. Rao, Linear statistical Inference and its applications, Wiley, 2nd Ed., New-York, 1973.
[6] E.L. Lehman, Non parametrics, Holden Day, San-Francisco, 1975.
[7] H. Scheffé, The analysis of variance, Wiley, New-York, 1959.
[8] J. Ziv, M. Zakai, “Some lower bounds on signal parameter estimation”, IEEE Trans. Inform.
Theory, Vol. 15, pp. 386-391, 1969.
[9] H Cramer, Mathematical methods of statistics, Princeton University Press, 1974.
[10] S.M. Kay, Fundamentals of statistical signal processing : estimation theory, Prentice Hall, New-
Jersey, 1993.
[11] R.A. Fisher, “Theory of statistical”, Proc. Camb. Phil. Soc., Vol. 22, p 700, 1925.
[12] J. Neyman, E. Pearson, “The testing of statistical hypotheses in relation to probability a priori”,
Proc. of the Cambridge Philosophical Society, Vol. 29, No. 4, pp. 492-510, 1933.
[13] J. Neyman, E. Pearson, “On the problem of the most efficient tests of statistical hypotheses”,
Philosophical Trans. of the Royal Society of London, Vol. A231, No. 9, pp. 289-337, 1933.
63

Root

Transféré par

Droits d'auteur :

Formats disponibles

Root

Transféré par

Informations du document

Description originale:

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Root

Transféré par

Droits d'auteur :

Formats disponibles

ESTIMATION-DETECTION

Version mise à jour en mai 2015

3 Estimateur du maximum de vraisemblance 18

4 Estimateur sans biais à variance minimale 24

I Estimateur MVU efficace 27

II Recherche de l’estimateur MVU via une statistique exhaustive 34

III Méthode sous-optimale 42

6 Estimateur linéaire sans biais de variance minimale 43

Ces notes de cours du module “estimation/détection” sont destinées aux élèves-ingénieurs de

1.1.1 Collecte des données

1.1.2 L’exploration statistique

1.2 Position du problème

1.3 Modèles de prise de décision

Décision bayésienne Décision non bayésienne

1.4.2 Fiabilité d’équipements

Plusieurs méthodes sont envisageables selon le critère d’optimisation choisi.

Considérons l’estimateur Â suivant :

Il est facile de voir que :

1.5.2 Matrice de covariance

Dans le cas où b ˆ = 0, C ˆ = EQM ˆ représente la distance quadratique entre l’estimateur et le

1.5.4 Propriétés asymptotiques

∀θ ∈ Θ lim b[θ̂(N )] = 0. (1.17)

1.5.5 Comparaison des estimateurs

T ((1 − ε)PX ;θ + εδx ) − T (PX )

2.1 Position du problème

2.2 Critère des moindres carrés

JMC (X) = arg min{(x − S(θ))T M (x − S(θ))}, (2.2)

2.3 Choix de la matrice de pondération

2.4 Un exemple simple

Il est minimal pour :

2.5 Référence linéaire par rapport aux paramètres

De manière évidente, la dérivée de θ T M θ par rapport à θ1 s’écrit :

En étendant le raisonnement aux autres composantes, on en déduit que :

2.5.2 Modèle d’observation

S(θ) = h(θ), (2.13)

JMC (θ) = (X − Hθ)T M (X − Hθ). (2.17)

Le minimum de ce critère correspond à l’annulation de son gradient par rapport à θ :

En s’appuyant sur les résultats précédents concernant la dérivation de fonctions multivariables, on

Deux cas se présentent :

JMC (θ̂ MC ) = X T (M − M H(H T M H)−1 H T M )X. (2.22)

A ce stade, plusieurs remarques peuvent être faites :

2.5.4 Interprétation géométrique

H = {u ∈ RN /∃α ∈ Rp , u = Hα}, (2.23)

H désigne le sous-espace linéaire de RN engendré par les colonnes de H.

On voit donc que (K1 )2 = K1 .

2.5.5 Performances de l’estimateur

Biais On calcule la moyenne de l’estimateur :

2.6 Moindres carrés récursifs pour un modèle d’observation linéaire

On définit la matrice P N de taille p × p et le vecteur QN de taille p × 1 :

2.6.2 Résolution dans le cas non pondéré

Il est possible de partitionner la matrice H N +1 de taille (N + 1) × p de la façon suivante :

Il suffit alors d’utiliser le lemme d’inversion matricielle :

(A + BCD)−1 = A−1 − A−1 B(C −1 + DA−1 B)−1 DA−1 , (2.47)

pour obtenir la seconde relation de récurrence :

P N +1 = P N − P N hTN +1 (1 + hN +1 P N hTN +1 )−1 hN +1 P N . (2.48)

θ̂ N +1 = (P N − kN +1 hN +1 P N )(QN + hTN +1 XN +1 ). (2.50)

En développant et après de simples manipulations, il vient alors :

La quantité entre parenthèses est l’erreur de prédiction de la donnée XN +1 à l’aide du modèle θ̂ N

2.7 Référence non linéaire par rapport aux paramètres