Root

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 68

ESTIMATION-DETECTION

Mme A. BENAZZA

Version mise à jour en mai 2015


Table des matières

1 Introduction 2
1.1 Statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.1 Collecte des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.2 L’exploration statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.3 L’inférence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1.4 La modélisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Position du problème . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3 Modèles de prise de décision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.4 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4.1 Lot de pièces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4.2 Fiabilité d’équipements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.5 Performances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.5.1 Biais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.5.2 Matrice de covariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.5.3 Matrice d’erreur quadratique moyenne . . . . . . . . . . . . . . . . . . . . . . . 7
1.5.4 Propriétés asymptotiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.5.5 Comparaison des estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.5.6 En conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2 Moindres carrés 9
2.1 Position du problème . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2 Critère des moindres carrés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.3 Choix de la matrice de pondération . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.4 Un exemple simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.5 Référence linéaire par rapport aux paramètres . . . . . . . . . . . . . . . . . . . . . . . 10
2.5.1 Dérivation de fonctions multivariables . . . . . . . . . . . . . . . . . . . . . . . 10
2.5.2 Modèle d’observation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.5.3 Estimateur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.5.4 Interprétation géométrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.5.5 Performances de l’estimateur . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.5.6 Liens avec les autres estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.6 Moindres carrés récursifs pour un modèle d’observation linéaire par rapport aux pa-
ramètres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.6.1 Position du problème . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.6.2 Résolution dans le cas non pondéré . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.6.3 Remarques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.7 Référence non linéaire par rapport aux paramètres . . . . . . . . . . . . . . . . . . . . 16
2.7.1 Transformation de paramètres . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

i
2.7.2 Linéarisation de la référence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.7.3 Séparabilité des paramètres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.8 Conclusion générale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

3 Estimateur du maximum de vraisemblance 18


3.1 Une exemple introductif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.2 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.2.1 Fonction vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.2.2 Critère du maximum de vraisemblance . . . . . . . . . . . . . . . . . . . . . . . 18
3.2.3 Interprétation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.2.4 Existence et unicité non assurées ! . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.3 Conséquences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.4 Invariance à la reparamétrisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.4.1 Reparamétrisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.4.2 Définition de la propriéte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.4.3 Preuve . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.4.4 Commentaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.5 Propriétés asymptotiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.6 Lien avec l’estimateur efficace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.7 Lien avec l’exhaustivité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.8 Modèle d’observation linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.8.1 Résolution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.8.2 Lien avec l’estimateur des moindres carrés . . . . . . . . . . . . . . . . . . . . . 23

4 Estimateur sans biais à variance minimale 24


4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
4.1.1 Objectif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
4.1.2 Existence de l’estimateur MVU . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
4.1.3 Unicité de l’estimateur MVU . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
4.1.4 Recherche de l’estimateur MVU . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

I Estimateur MVU efficace 27


4.2 Information de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
4.2.1 Vecteur score . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
4.2.2 Condition de régularité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
4.3 Matrice d’information de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
4.3.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
4.3.2 Une autre expression de la matrice d’information de Fisher . . . . . . . . . . . 29
4.3.3 Propriété d’additivité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
4.3.4 Influence de la reparamétrisation . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4.3.5 Interprétation de la matrice de Fisher . . . . . . . . . . . . . . . . . . . . . . . 30
4.3.6 A propos de la notion d’“information” . . . . . . . . . . . . . . . . . . . . . . . 30
4.4 Borner les variances l’estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4.4.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4.4.2 Cas d’un paramètre scalaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.4.3 Cas d’un paramètre vectoriel . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.5 Estimateur efficace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
4.5.1 Théorème . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

ii
4.5.2 Preuve du théorème . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
4.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

II Recherche de l’estimateur MVU via une statistique exhaustive 34

5 Statistique exhaustive 35
5.1 Avant-propos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
5.2 Un premier exemple introductif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
5.3 Un second exemple introductif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
5.4 Définition de l’exhaustivité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
5.5 Théorème de factorisation de Neyman-Fisher . . . . . . . . . . . . . . . . . . . . . . . 36
5.5.1 Enoncé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
5.5.2 Preuve . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
5.5.3 Utilité du théorème . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
5.6 Famille de lois exponentielles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
5.7 Théorème de Pitman-Koopman-Darmois . . . . . . . . . . . . . . . . . . . . . . . . . . 38
5.8 Exhaustivité et information . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
5.8.1 Diminution de l’information . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
5.8.2 Conservation de l’information . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
5.9 Statistique complète . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
5.9.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
5.9.2 Justification de la dénomination . . . . . . . . . . . . . . . . . . . . . . . . . . 39
5.9.3 Vérification de la propriété . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
5.9.4 Cas des lois de la famille exponentielle . . . . . . . . . . . . . . . . . . . . . . . 39
5.10 Théorème de Rao-Blackwell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
5.10.1 Corollaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
5.10.2 Théorème de Lehman-Scheffé . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
5.11 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

III Méthode sous-optimale 42

6 Estimateur linéaire sans biais de variance minimale 43


6.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
6.2 Conditions sur le biais et la variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
6.3 Un résultat préliminaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
6.4 Résolution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
6.5 Lien avec l’estimateur des moindres carrés . . . . . . . . . . . . . . . . . . . . . . . . . 45

7 Estimateur bayésien 46
7.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
7.2 Exemple historique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
7.3 Modèle de décision bayésienne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
7.4 Risque bayésien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
7.5 Coût quadratique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
7.5.1 Estimateur optimal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
7.5.2 Performances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
7.5.3 Transformation affine du paramètre . . . . . . . . . . . . . . . . . . . . . . . . 49
7.5.4 Modèle bayésien linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

iii
7.6 Estimateur du maximum a posteriori . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
7.7 Estimateur linéaire en moyenne quadratique . . . . . . . . . . . . . . . . . . . . . . . . 51
7.7.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
7.7.2 Position du problème . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
7.7.3 Optimisation analytique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
7.7.4 Principe d’orthogonalité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
7.7.5 Performances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
7.7.6 Propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
7.7.7 Théorème bayésien de Gauss-Markov . . . . . . . . . . . . . . . . . . . . . . . . 53
7.8 Exemples d’applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
7.8.1 Présentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
7.8.2 Le filtrage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
7.8.3 Le lissage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
7.8.4 La prédiction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

8 Détection statistique 56
8.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
8.1.1 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
8.1.2 Définition de la détection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
8.1.3 Modèle de travail . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
8.2 Risque bayésien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
8.3 Détection optimale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
8.4 Cas de 2 hypothèses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
8.4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
8.4.2 Probabilités d’erreur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
8.4.3 Détecteur optimal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
8.4.4 Coût tout ou rien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
8.5 Stratégie du minimax . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
8.6 Stratégie de Neyman-Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

iv
Avant-propos

Ces notes de cours du module “estimation/détection” sont destinées aux élèves-ingénieurs de


deuxième année de l’Ecole Supérieure des Communications de Tunis (SUP’COM) et ceux de l’Ecole
Polytechnique de Tunis (EPT). Pour les étudiants de SUP’COM, le volume horaire imparti est de
22.5 heures. De même, à l’EPT, seuls les étudiants inscrits dans l’option “signaux et systèmes” (SISY)
suivent ce cours sur 32 heures.
L’idée de ce cours est de sensibiliser les étudiants à l’importance des problèmes d’estimation qui font
partie intégrante de la vie d’ingénieur. Les principales méthodes seront donc présentées. En toute ri-
gueur, ce cours s’appuie sur des notions de statistiques. Or, le cursus des étudiants auxquels il s’adresse
ne comporte ps de cours à proprement parler de statistiques. J’ai donc choisi de présenter certains
résultats de manière synthétique (notamment la notion d’exhaustivité) en fournissant des références
bibliographiques. Enfin, ce cours est assorti de travaux dirigés voire de miniprojets.

1
Chapitre 1

Introduction

1.1 Statistique
La statistique recouvre un domaine tellement vaste qu’il s’avère difficile d’en donner une définition
générale et précise. Toutefois, on peut retenir la définition suivante tirée de l’Encyclopedia Universalis :
“la statistique désigne à la fois un ensemble de données d’observations et l’activité qui consiste dans
leur recueil, leur traitement et leur interprétation”.
Il s’agit d’étudier la variabilité des individus ou objets (on parle aussi d’unités statistiques) issus
d’une population 1 pour lesquels on dispose de mesures (appelées variables). Un recensement est défini
comme l’étude de tous les individus de la population (si bien sûr elle est de taille finie). Si en revanche,
seule une fraction de la population est étudiée, l’observation est un sondage et la fraction concernée
constitue un échantillon.
Chaque individu est caractérisé par des variables qui peuvent être :
– quantitatives (continues et/ou discrètes),
– et/ou qualitatives (nominales et/ou ordinales).
Généralement, une procédure statistique s’organise autour des 3 étapes : la collecte des données,
l’exploration l’inférence et la modélisation.

1.1.1 Collecte des données


La collecte des données peut se faire par des sondages consistant à choisir les unités statistiques ou
des plans d’expériences qui ont pour but de produire des données selon des conditions expérimentales
clairement spécifiées au préalable.

1.1.2 L’exploration statistique


Elle vise à synthétiser l’information véhiculée par les données en veillant à les représenter par des
tableaux, graphiques facilement interprétables. La motivation essentielle est de faire apparaı̂tre cer-
taines propriétés des données. Pour ce faire, deux grandes étapes sont alors préconisées. La première
concerne la statistique descriptive pour choisir le type de représentation des données (tableaux, gra-
phiques) variable par variable ou conjointement. Par la suite, la phase d’analyse des données vise
la production de graphiques et indicateurs capables de résumer les structures les plus importantes
caractérisant ces tableaux. Ces méthodes se distinguent en 2 grandes familles selon leurs objectifs
respectifs : réduction de dimension ou la classification. Elles donnent lieu à différentes approches selon
le type de données à analyser (quantitatives et/ou qualitatives).
1. La terminologie adoptée résulte de l’héritage des premiers travaux en statistique appliqués à la démographie.

2
1.1.3 L’inférence
Il s’agit d’étudier la généralisation à l’ensemble de la population des propriétés mises en évidence
sur l’échantillon. L’inférence statistique se décline en deux volets. Le premier concerne l’estimation
d’une variable inconnue à partir de réalisations indépendantes de cette variable, le second est dédié
aux tests d’hypothèses.

1.1.4 La modélisation
L’objectif est de trouver une relation entre une variable “à expliquer” et les variables explicatives
afin par exemple, de faire des prévisions. La régression linéaire correspond au cas particulier où la
relation est linéaire entre toutes les variables numériques. Le cas où on veut prévoir une variable
qualitative (discrimination) est aussi un autre cas particulier couramment rencontré.

1.2 Position du problème


Soit un phénomène physique décrit par une grandeur observable X. Les observations faites sur X
montrent que cette variable ne peut être prévue avec exactitude car :
– les mesures réalisées sont entachées d’un bruit de mesure,
– les variables observées sont insuffisantes pour déterminer l’état du système considéré.
On associe au phénomène physique un modèle aléatoire pour lequel X est considérée comme une
variable aléatoire (va) réelle. L’espace probabilisé associé est (R, B(R), P̃X;θ1 ,...,θp ) :
– R est l’espace des résultats,
– B(R) est la tribu des parties de R,
– P̃X;θ1 ,...,θp est la loi de probabilité de X paramétrée par les paramètres scalaires θ1 , . . . , θp .
On parle de modèle statistique paramétrique. On suppose que ces p paramètres scalaires constituent
les composantes du vecteur θ :  
θ1
θ =  ...  .
4 
(1.1)

θp
La loi de probabilité de X sera alors notée P̃X;θ . Le but est de connaı̂tre les valeurs que peut
prendre le vecteur inconnu θ à partir des observations disponibles x1 , . . . , xN . On dit que l’ensemble
des ces N observations constitue un échantillon de taille N .

Tout se passe comme si le phénomène aléatoire considéré est décrit par N va X1 , . . . , XN , indépendantes
et identiquement distribuées (iid), ayant la même loi que X. L’échantillon correspond alors à la
réalisation de N expériences aléatoires indépendantes ω1 , . . . , ωN des N va :

4
 x1 = X1 (ω1 )


.. .. .. (1.2)
 . . .
 4
xN = XN (ωN ).

Pour rappeler que les valeurs x1 , . . . , xN sont prises aléatoirement, on notera l’échantillon

X = (X1 , . . . , XN )T . (1.3)

La nouvelle expérience composite est modélisée par l’espace probabilisé (RN , B(RN ), PX ;θ ), dénommé
structure statistique.

3
De façon générale, le but de la théorie de l’estimation paramétrique est de développer des
méthodes permettant de choisir les valeurs du paramètre θ à partir d’un ensemble d’observations et
ce, d’une manière optimale selon un critère donné. La théorie de l’estimation est un cas particulier d’un
problème de prise de décision. Il est important de saisir que même s’il y a une part d’arbitraire dans la
construction de ces méthodes, ces dernières dépendent de la quantité d’information disponible a priori.

Le terme estimation (resp. détection) est utilisé lorsque les paramètres sont à valeurs continues
(resp. discrètes).

La théorie de l’estimation est multidisciplinaire dans la mesure où elle possède un vaste champ
d’applications. Le plus important relève du traitement du signal. Toutefois, il serait utile de noter
que les outils de la théorie de l’estimation sont couramment utilisés en économie. Les exemples sui-
vants donnent une idée de la diversité des problèmes d’estimation rencontrés dans un vaste panorama
d’applications :
– l’analyse d’images (estimer les positions des objets dans une séquence vidéo, . . . ),
– les applications biomédicales (estimer les pulsations cardiaques d’un patient, . . . ),
– les télécommunications (estimer la fréquence d’une porteuse pour démoduler le signal reçu, . . . ),
– en contrôle (assurer le suivi d’engins mobiles, . . . ),
– en géologie (estimer la profondeur d’un gisement, . . . ).

1.3 Modèles de prise de décision


L’objectif est de faire correspondre :
– à tout échantillon X prenant des valeurs dans RN , dont la loi de probabilité PX ;θ dépend d’un
paramètre θ,
– un choix (ou décision) ∆ quant à une propriété (valeur) de ce paramètre θ
– et cela de manière optimale (au sens d’un critère choisi arbitrairement par l’observateur).
Cette prise de décision se fait sur la base d’un échantillon de taille N et aboutit à un estimateur
θ̂(x1 , . . . , xN ). Par la suite, pour alléger les notations, on écrira simplement θ̂. De manière générale,
on appelle estimateur d’une fonction g(θ) une certaine va fonction seulement de l’échantillon utilisé.
Notons que l’estimateur correspond à une va en raison du caractère aléatoire de l’échantillon et ce,
indépendemment de la nature du paramètre θ ou de la méthode d’estimation choisie. A ce niveau,
signalons que l’on note θ̂ la va (fonction des X1 , . . . , XN ) et la valeur prise par la va (fonction des
x1 , . . . , xN ). Il s’agit bien d’un abus de notation : seul le contexte nous permettra de distinguer entre
les deux cas.

Les modèles de prise de décision peuvent être regroupés en 2 familles principales selon que l’espace Θ
du paramètre inconnu est probabilisé ou pas c.à.d. selon que θ est déterministe ou pas. Si θ est aléatoire,
on parle d’approche bayésienne. Ce qualificatif est dû à Thomas Bayes (1702-1761) dont le théorème
a donné naissance véritablement à une école statistique. La loi a priori sur θ résume l’information sur
le paramètre inconnu autre que celle fournie par l’expérience aléatoire. Cette information peut être
subjective mais elle peut aussi émaner d’autres expériences. On aboutit à la typologie suivante.

4
Structure décisionnelle
RN , ∆, Θ

Décision bayésienne Décision non bayésienne


Θ espace probabilisé Θ espace non probabilisé
Information sur (X, θ)
Fonction de perte C(·) Inventaire de l’information sur X
Critère du risque : Critères d’optimisation construit sur :
• risque bayésien • soit l’erreur : décision à mesure d’erreur minimale,
• critère du minimax décision à distance d’observation minimale (moindres carrés)
• maximum a posteriori • soit les caractéristiques de l’observation :
décision à maximum de vraisemblance, exhaustivité

1.4 Exemples
1.4.1 Lot de pièces
L’état d’une pièce de monnaie est modélisable par une va X de Bernouilli. Soit p la probabilité
pour que la pièce soit défectueuse :

P [X = 1] = p. (1.4)
Pour estimer le paramètre inconnu p, on se choisit un échantillon de taille N et on compte le taux
SN de pièces défectueuses :
N
41 X
SN = Xn . (1.5)
N
n=1

Comme E[X] = p, un estimateur naturel serait p̂ = SN . Bien entendu, on peut construire d’autres
estimateurs de p.

1.4.2 Fiabilité d’équipements


La fiabilité est l’étude de la durée de vie de composants ou équipements pouvant être de nature très
variée. Les observations concrètes permettent de modéliser la durée de vie de composants électroniques
par une va X suivant une loi exponentielle de paramètre λ, appelé taux de défaillance. Dans ce cas,
la densité de probabilité fX,λ (·) de X s’écrit :

λe−λx x ≥ 0

fX,λ (x) = (1.6)
0 sinon.
On cherche à estimer λ en faisant des essais indépendants sur N composants supposés identiques.
Remarquons qu’il ne s’agit pas ici de tester si la loi de fiabilité est bien une loi exponentielle mais
plutôt de choisir parmi toutes les lois exponentielles celle correspondant à une vraie valeur de λ. Pour
ce faire, on considère la loi conjointe de l’échantillon qui s’écrit :
 N
P
 −λ xn
fX1 ,...,XN ;λ (x1 , . . . , xN ) = λN e n=1 ∀xn ≥ 0 (1.7)
0 sinon.

Plusieurs méthodes sont envisageables selon le critère d’optimisation choisi.

5
1.5 Performances
Les différentes méthodes d’estimation peuvent a priori aboutir à différents estimateurs θ̂ de θ.
Pour comparer les performances de ces estimateurs, il est d’usage de calculer (quand elles existent)
les quantités suivantes.

1.5.1 Biais
Le biais b ˆ est un paramètre de position ou de localisation défini par :
θ
4
∀ θ ∈ Θ b ˆ = E[θ − θ̂] (1.8)
θ
où Θ désigne l’ensemble des valeurs prises par θ (sous-ensemble de Rp . Il s’agit d’un vecteur de même
dimension p que le paramètre θ. Si ce dernier est déterministe, on aura simplement :

∀ θ ∈ Θ b ˆ = θ − E[θ̂]. (1.9)
θ
Bien entendu, la qualité (ou précision) de l’estimateur est d’autant meilleure que le biais est faible.
On veillera donc à construire des estimateurs non-biaisés (à biais nul). On souhaite que l’estimation
ne soit pas systématiquement décalée par rapport à la vraie valeur (cas non bayésien) ou à la valeur
moyenne du paramètre inconnu (cas bayésien).

Enfin, notons qu’il est important de souligner que pour qu’un estimateur soit non biaisé, son biais
doit être nul pour toutes les valeurs admissibles de θ. Pour s’en convaincre, prenons le cas d’un
signal constant inconnu A noyé dans un bruit additif centré Wn :

∀n = 1, . . . , N, X n = A + Wn . (1.10)

Considérons l’estimateur  suivant :


N
4 1 X
 = Xn . (1.11)
2N
n=1

Il est facile de voir que :


A
E[Â] = . (1.12)
2
Seulement si la valeur A = 0, E[Â] = A, pour les valeurs non-nulles de A, l’estimateur considéré est
biaisé car E[Â] 6= A .

1.5.2 Matrice de covariance


Dans le cas non bayésien, la matrice de covariance C ˆ est définie par :
θ
4
C ˆ = E[(θ̂ − E[θ̂])(θ̂ − E[θ̂])T ]. (1.13)
θ
La matrice C ˆ de taille p × p possède les propriétés classiques d’une matrice de covariance. Dans le
θ
cas bayésien, on aura :
4
C ˆ = E[(θ̂ − E[θ̂])(θ̂ − E[θ̂])T |θ]. (1.14)
θ |θ
Il faudra alors moyenner par rapport à θ :
4
C ˆ = Eθ [C ˆ ]. (1.15)
θ θ |θ

6
1.5.3 Matrice d’erreur quadratique moyenne
Cas non bayésien
La Matrice d’Erreur Quadratique Moyenne (EQM) EQM ˆ est définie par :
θ
4
EQM ˆ = E[(θ − θ̂)(θ − θ̂)T ]. (1.16)
θ
Les élements diagonaux de cette matrice p × p correspondent à des écarts énergétiques, ayant une
signification physique.

Dans le cas d’un paramètre multidimensionnel (p > 1), il existe différentes définitions d’un estima-
teur à variance minimale. Une première définition consiste à raisonner composante par composante :
chaque paramètre scalaire θi avec i = 1, . . . , p a une variance minimale. Une seconde définition consiste
à minimiser globalement la trace de la matrice de covariance.

Dans le cas où b ˆ = 0, C ˆ = EQM ˆ représente la distance quadratique entre l’estimateur et le


θ θ θ
paramètre à estimer. Il s’agit donc d’un paramètre de précision.

Il est important de souligner que les 3 quantités définies (biais, matrice de covariance et EQM)
correspondent à des propriétés globales, issues d’une opération de moyennage. Il se peut que pour une
réalisation particulière, un estimateur moins bon qu’un autre au sens de l’EQM, donne une estimation
plus proche de θ que celle donnée par le meilleur estimateur.

Cas bayésien
On procède en considérant une moyenne par rapport aux observations conditionnellement à la
valeur de θ puis on moyenne par rapport à θ.

1.5.4 Propriétés asymptotiques


Comme on l’a noté précédemment, les estimateurs considérés dépendent de la taille de l’échantillon
N qui a servi à les construire. Il en résulte que le biais, les matrices de covariance et d’EQM dépendent
aussi de N . Il s’avère intéressant de connaı̂tre -si elles existent- leurs valeurs limites quand N tend
vers +∞. En effet, il est possible d’avoir une estimateur θ̂(N ) avec biais mais tel que :

∀θ ∈ Θ lim b[θ̂(N )] = 0. (1.17)


N →+∞

Si cette dernière équation est satisfaite, on parle d’estimateur asymptotiquement sans biais.

1.5.5 Comparaison des estimateurs


Notons qu’il est souvent impossible de classer totalement les estimateurs obtenus. Par exemple,
en estimation classique (non-bayésienne) il est vain de déterminer un estimateur donnant une EQM
4
minimale pour toutes les valeurs de θ. Pour l’illustrer, considérons l’estimation de la moyenne θ = m
d’une suite de va iid de variance σ 2 connue, par les estimateurs m̂1 et m̂2 , définis par :

4 N

 m̂ = 1 P
1 N Xn
n=1 (1.18)

 m̂ = 4
2 4.
Il est aisé de voir que :

7

b(m̂1 ) = 0
(1.19)
b(m̂2 ) = m − 4.
De même, on établit rapidement que :
2
= σN

Cm̂1
(1.20)
Cm̂2 = 16 − 8m + m2 .
Seulement pour une certaine plage de valeurs de m, l’estimateur m̂2 est mieux - au sens de
l’EQM - que m̂1 .

De même, en théorie bayésienne, le risque introduit un pré-ordre sur l’ensemble des décisions qui
est en général partiel.

Devant l’impossibilité de classer totalement les estimateurs, leur comparaison se fait en introdui-
sant des contraintes supplémentaires, se restreignant ainsi à une classe d’estimateurs. Par exemple, on
classera les estimateurs sans biais selon leur EQM décroissante.

1.5.6 En conclusion . . .
Ainsi, pour récapituler, les principaux critères de comparaison sont :
– le biais,
– la précision,
– la convergence,
– la complexité opératoire,
– la robustesse de l’estimateur par rapport au modèle d’observation retenu [1]. Si les données sont
bruitées, il est préférable que l’estimateur soit peu sensible aux valeurs aberrantes. Dans ce cas,
la robustesse est définie par le plus petit nombre de données aberrantes qui modifient la valeur
de g(x) = θ̂ rapporté à la taille de l’échantillon.
De même, il est recommandé d’étudier le comportement de l’estimateur par rapport à une
modification du modèle d’observation. Pour ce faire, il est d’usage dans le cas non bayésien,
d’exprimer l’estimateur de θ comme une fonctionnelle T de PX ;θ et de définir la fonction
d’influence IF de l’estimateur par :

T ((1 − ε)PX ;θ + εδx ) − T (PX )


IF (x, PX ;θ , T ) = lim , (1.21)
ε−→0 ε
où δx est une impulsion centrée en x. La fonction IF mesure la distorsion introduite au niveau
de l’estimateur par une légère perturbation de la densité de probabilité PX des données. Un
estimateur sera qualifié de robuste si IF est bornée pour chaque échantillon x [2].

8
Chapitre 2

Moindres carrés

2.1 Position du problème


La méthode des moindres carrés (least squares) est une ancienne méthode remontant aux travaux
de Gauss sur le mouvement des planètes et des comètes, à la fin du 18ème siècle. En 1809, K.F. Gauss
publie le livre “Theoria Motus Corpurum Cœlestum” dans lequel il pose le problème entre autres, du
nombre minimal d’observations nécessaires. La méthode des moindres carrés constitue une méthode
très attractive car elle n’exige d’aucune hypothèse probabiliste. C’est pour cette raison qu’on la qualifie
de “méthode du pauvre”. Voyons de plus près le principe de cette technique.
On suppose que le phénomène étudié est décrit par un signal de référence sn;θ paramétré par un vecteur
inconnu déterministe θ de dimension p. On suppose que la forme de sn;θ est donnée. Autrement dit,
la relation donnant le signal de référence en fonction de θ est connue d’avance. A cause du bruit de
mesure ou des imperfections du modèle, on n’observe qu’une version perturbée de sn;θ que l’on note
xn . A partir de l’échantillon, la méthode des moindres carrés consiste à estimer la valeur inconnue de
θ par θ̂ MC (x1 , . . . , xN ) défini par :

XN X N
θ̂ MC (x1 , . . . , xN ) = arg min{ mn1 ,n2 (xn1 − sn1 ;θ )(xn2 − sn2 ;θ )}, (2.1)
θ ∈Θ n1 =1 n2 =1

où mn1 ,n2 désigne l’élément générique d’une matrice M symétrique (N × N ) définie, strictement
positive, fixée au préalable.

2.2 Critère des moindres carrés


Le critère des moindres carrés JMC (·) peut s’écrire de manière plus compacte :

JMC (X) = arg min{(x − S(θ))T M (x − S(θ))}, (2.2)


θ ∈Θ
 
x1
où x =  ...  ,
4 
(2.3)

xN
 
s1;θ
et S(θ) =  ...
4 
. (2.4)

s N ;θ

9
Il s’agit d’un critère bâti sur la distance entre le vecteur d’observation X et le vecteur du signal de
référence S(θ). En aucune manière, il n’exige la connaissance de la loi de probabilité du vecteur x.
C’est un avantage indéniable qui explique le grand succès de la méthode des moindres carrés.
La dénomination “moindres carrés” se justifie par le caractère quadratique de la distance considérée.
Deux principaux arguments œuvrent en faveur d’un critère quadratique :
– il facilite les calculs car l’estimateur cherché apparaı̂t souvent comme la solution d’un système
d’équations linéaires,
– l’écart quadratique a une signification physique (énergie ou variance de l’erreur d’estimation).

2.3 Choix de la matrice de pondération


La matrice M est choisie a priori pour accorder un poids variable aux différentes observations
qui constituent le vecteur X. On parle alors de moindres carrés pondérés. Si la matrice M est la
matrice identité, on parle de moindres carrés ordinaires. Enfin, notons qu’en raison du caractère
symétrique défini positif de M , tout problème de moindres carrés pondérés peut se ramener à un
problème de moindres carrés ordinaires, via une transformation linéaire des données.

2.4 Un exemple simple


Prenons comme signal de référence la composante continue DC (Direct Current) :
4
∀ n = 1, . . . , N sn;A = A. (2.5)
Pour les moindres carrés ordinaires, le critère JMC (A) s’écrit :
N
X N
X
2
JMC (A) = (xn − sn;A ) = (xn − A)2 . (2.6)
n=1 n=1

Il est minimal pour :


N
1 X
ÂMC = xn . (2.7)
N
n=1

2.5 Référence linéaire par rapport aux paramètres


2.5.1 Dérivation de fonctions multivariables
Dans ce qui suit, il est nécessaire de connaı̂tre les expressions des dérivées suivantes :
T

4 ∂b θ
 D
 1
 =
∂θ

, (2.8)
T
4 ∂θ M θ


 D2 =

∂θ
où b et θ sont des vecteurs de même dimension p et M = (mij ) une matrice symétrique p × p. Comme
bT θ = b1 θ1 + . . . + bp θp , il vient que :
 ∂b θ + . . . + b θ 
1 1 p p
 ∂θ1 
 .. 
D1 = 
 .  = b.
 (2.9)
 ∂b1 θ1 + . . . + bp θp 
∂θp

10
De même, la forme quadratique θ T M θ s’exprime :
p
X X
T
θ Mθ = mkk θk2 + 2 mij θi θj . (2.10)
k=1 i<j

De manière évidente, la dérivée de θ T M θ par rapport à θ1 s’écrit :


p p
∂θ T M θ X X
= 2m11 θ1 + 2 m1j θj = 2 m1j θj . (2.11)
∂θ1
j=2 j=1

En étendant le raisonnement aux autres composantes, on en déduit que :

D2 = 2M θ. (2.12)

2.5.2 Modèle d’observation


L’objectif est de déterminer la forme de l’estimateur. Pour cela, on a besoin de connaı̂tre la relation
liant θ au signal de référence. De manière générale, on peut supposer que :

S(θ) = h(θ), (2.13)

où h(·) représente une fonction déterministe connue. Dans le cas général, on suppose que l’observation
X est le signal de référence S perturbé par un bruit additif B. On obtient alors le modèle d’observation
suivant :
X = h(θ) + B. (2.14)
Dans le cadre de notre étude, on se restreint au cas où la référence est linéaire par rapport au pa-
ramètre :
S(θ) = Hθ, (2.15)
où H est une matrice rectangulaire N × p. En définitive, le modèle d’observation considéré est :

X = Hθ + B. (2.16)

2.5.3 Estimateur
Le critère des moindres carrés s’obtient facilement :

JMC (θ) = (X − Hθ)T M (X − Hθ). (2.17)

Le minimum de ce critère correspond à l’annulation de son gradient par rapport à θ :

∂Hθ T
 
M (X − Hθ) = 0. (2.18)
∂θ

En s’appuyant sur les résultats précédents concernant la dérivation de fonctions multivariables, on


trouve que les conditions nécessaires d’extrémalité sont les suivantes :

H T M (X − Hθ) = 0 (2.19)

Deux cas se présentent :

11
– Si H T M H n’est pas inversible c.à.d. si H n’est pas de rang colonnes plein c’est-à-dire s’il existe
θ0 tel que Hθ0 = 0 (une combinaison linéaire des colonnes est nulle) alors pour tout θ :

Hθ = H(θ + θ0 ). (2.20)

Par conséquent, pour tout estimateur θ̂, l’estimateur θ̂+θ0 explique aussi bien les données. Ainsi,
l’unicité de l’estimateur n’est plus garantie à moins d’ajouter d’autres hypothèses. Un manière
équivalente de le voir est de remarquer qu’au moins une des composantes est une combinaison
linéaire des autres, et s’avère donc inutile.
Ce problème se rencontre notamment quand le nombre N d’observations est strictement inférieur
au nombre p de paramètres à estimer (dimension de θ). En effet, la matrice H T M H est
dégénérée car N < p implique que le rang de H soit strictement inférieur à p.
– Si H T M H est inversible (c.à.d. si le rang de H est p < N ) alors l’extremum est atteint pour :

θ̂ MC = (H T M H)−1 H T M X. (2.21)

Il s’agit bien d’un unique minimiseur du critère puisque la matrice hessienne est H T M H qui
est définie strictement positive. La valeur minimale du critère vaut :

JMC (θ̂ MC ) = X T (M − M H(H T M H)−1 H T M )X. (2.22)

A ce stade, plusieurs remarques peuvent être faites :


– Le calcul de l’estimateur peut se faire judicieusement. On calculera et on mémorisera d’abord
la matrice H T M . Il suffira de la multiplier à droite par H pour obtenir la matrice H T M H.
Enfin, l’inversion de cette dernière matrice doit exploiter son caractère symétrique.
– L’estimateur obtenu a une forme simple fort remarquable : il est linéaire par rapport à
l’échantillon.
Dans toute la suite, on supposera que H T M H est inversible c.à.d. que l’estimateur existe et est
unique.

2.5.4 Interprétation géométrique


Quelques définitions
Supposons que M = I et que le rang de H soit p < N et définissons :

H = {u ∈ RN /∃α ∈ Rp , u = Hα}, (2.23)


T −1 T
K1 = H(H H) H , (2.24)
K2 = I − K1 . (2.25)

H désigne le sous-espace linéaire de RN engendré par les colonnes de H.

Enoncé
Nous pouvons montrer les points suivants.
– La matrice K1 est symétrique, idempotente et de rang p ;
– K1 est le projecteur dans RN sur le sous-espace H.

12
Preuve
– Symétrie Il est évident que :
T
KT1 = H(H T H)−1 H T = H(H T H)−T H T (2.26)
Comme (H T H) est symétrique ainsi que son inverse et on en déduit aisément la symétrie de
K1 .
– Idempotence
 √ 
(K1 )2 = H(H T H)−1 H T MH(H T H)−1 H T = H(H T H)−1 H T . (2.27)

On voit donc que (K1 )2 = K1 .


– La matrice (K1 )2 est un projecteur.
– De plus, pour tout X de RN , on a :
K1 X = Hθ̂ ∈ H. (2.28)
K1 projette RN sur H .
– Mais ce sous-ensemble coı̈ncide avec H car pour tout u de H, il existe α de Rp tel que u = Hα
et par conséquent,
K1 u = H(H T H)−1 H T u
= H(H T H)−1 H T Hα
(2.29)
= Hα
= u.
Cela signifie que K1 est le projecteur sur H. Comme H est un sous-espace de RN de dimension
p, le rang de K1 est égal à p .
– X̂ = Hθ̂MC est la projection orthogonale de X sur le sous-espace vectoriel engendré par les
colonnes de H.

2.5.5 Performances de l’estimateur


Les performances de l’estimateur ne peuvent être connues que si l’on adopte des hypothèses statis-
tiques sur le modèle. On supposera que le bruit B est centré du second ordre de matrice de covariance
CB .

Biais On calcule la moyenne de l’estimateur :


EX ;θ [θ̂ MC ] = E[(H T M H)−1 H T M (Hθ + B)]. (2.30)
On aboutit rapidement à :
EX ;θ [θ̂ MC ] = θ. (2.31)
Dans ce cas, l’estimateur des moindres carrés θ̂ mc est non biaisé.

Covariance Après de simples calculs, la matrice de covariance de l’estimateur des moindres carrés
Cˆ s’exprime comme :
θ MC
Cˆ = (H T M H)−1 H T M C B M H(H T M H)−1 . (2.32)
θ MC
Si on choisit M = C −1 , on obtient :
B
Cˆ = (H T C −1 H)−1 . (2.33)
θ MC B
La covariance de l’estimateur fait partie de l’estimateur lui-même.

13
2.5.6 Liens avec les autres estimateurs
Dans les chapitres suivants, on établira l’équivalence de l’estimateur des moindres carrés avec
l’estimateur du maximum de vraisemblance et de variance minimale. Mais, il est important de noter
que cette équivalence résulte de la conjonction de 3 facteurs :
– modèle linéaire,
– lois de probabilité normale,
– critère quadratique.
Cette équivalence n’a aucune raison d’exister systématiquement si on sort de ce cadre.

2.6 Moindres carrés récursifs pour un modèle d’observation linéaire


par rapport aux paramètres
2.6.1 Position du problème
L’estimateur est calculé lorsque N observations ont été effectuées. Que se passe-t-il lorsqu’on
enregistre une (N + 1)-ème mesure ?
Une première solution consiste a priori à recommencer de nouveau le calcul, en utilisant la formule :

θ̂ N = (H TN M N H N )−1 H TN M N X N , (2.34)

où on a indexé par N les matrices et les vecteurs pour rappeler qu’ils dépendent de la taille de
l’échantillon. Cette première alternative est fort coûteuse en terme de complexité puisqu’il faut inverser
à chaque fois, la matrice H TN M N H N de taille p × p.
Une seconde solution consiste à chercher une formulation récursive permettant la mise à jour de
l’estimateur à chaque nouvelle observation, en vue d’un traitement en temps réel.
Pour faciliter la lecture, on choisit comme matrice de pondération M N = I N ×N . L’expression de
l’estimateur des moindres carrés ordinaires est :

θ̂ N = (H TN H N )−1 H TN X N . (2.35)

On définit la matrice P N de taille p × p et le vecteur QN de taille p × 1 :


4
(
P N = (H TN H N )−1
4 . (2.36)
QN = H TN X N

On en déduit :
θ̂ N = P N QN . (2.37)
Le principe de la méthode est d’établir une relation de récurrence entre (P N , QN ) et (P N +1 , QN +1 ).

2.6.2 Résolution dans le cas non pondéré


On se place dans le cadre d’un modèle d’observation linéaire par rapport aux paramètres :

X N +1 = H N +1 θ + B N +1 . (2.38)

Il est possible de partitionner la matrice H N +1 de taille (N + 1) × p de la façon suivante :


 
HN
H N +1 =  . . . , (2.39)
hN +1

14
où la matrice H N est de taille N × p et la matrice hN +1 de taille 1 × p.
De même, il est possible d’écrire :  
XN
X N +1 =  . . . , (2.40)
XN +1
 
BN
B N +1 =  . . . , (2.41)
BN +1
La matrice QN +1 a pour expression :

QN +1 = H TN +1 X N +1  
XN
h
.
i (2.42)
= H TN .. hTN +1  . . .  .
XN +1
soit encore :
QN +1 = H TN X N + hTN +1 XN +1 , (2.43)
d’où finalement :
QN +1 = QN + hTN +1 XN +1 . (2.44)
Pour la matrice P N +1 , la récurrence porte sur la matrice inverse.

P −1 T
N +1 = H N +1 H N +1  
HN
h
.
i (2.45)
= H TN .. hTN +1  . . .  .
hN +1
Après développement, on obtient :

P −1 −1 T
N +1 = P N + hN +1 hN +1 . (2.46)

Il suffit alors d’utiliser le lemme d’inversion matricielle :

(A + BCD)−1 = A−1 − A−1 B(C −1 + DA−1 B)−1 DA−1 , (2.47)

pour obtenir la seconde relation de récurrence :

P N +1 = P N − P N hTN +1 (1 + hN +1 P N hTN +1 )−1 hN +1 P N . (2.48)

Posons :
4 P N hTN +1
kN +1 = . (2.49)
1 + hN +1 P N hTN +1
En revenant à l’expression de l’estimateur d’ordre N + 1, on trouve :

θ̂ N +1 = (P N − kN +1 hN +1 P N )(QN + hTN +1 XN +1 ). (2.50)

En développant et après de simples manipulations, il vient alors :

θ̂ N +1 = θ̂ N + kN +1 (XN +1 − hN +1 θ̂ N ). (2.51)

La quantité entre parenthèses est l’erreur de prédiction de la donnée XN +1 à l’aide du modèle θ̂ N


calculé à l’instant précédent. Le vecteur kN +1 est le gain de correction qui sert à propager l’erreur sur
le paramètre estimé à l’instant N pour obtenir le paramètre estimé à l’instant (N + 1). On retombe
sur le schéma habituel des méthodes itératives de résolution d’équations.

15
2.6.3 Remarques
La récurrence est une vraie récurrence sur le temps car toutes les données nécessaires au calcul du
gain à l’instant (N + 1) sont réellement disponibles. Cette caractéristique permet une implémentation
en temps réel.
Cette méthode récursive évite d’inverser une matrice de dimension p×p. Néanmoins, il est nécessaire de
calculer cette matrice à chaque instant et la stocker. Il existe des algorithmes rapides pour y parvenir.
Les relations précédentes n’ont de sens que si les matrices H TN H N sont inversibles. Il faut donc
démarrer la récurrence à l’instant N ≥ p pour que la matrice H TN H N soit de rang plein. Pour éviter
une initialisation avec une inversion de matrice, une méthode approximative consiste à débuter la
récurrence dès que N = 1 et à prendre :

θ̂ N = (H TN H N + µI)−1 H TN X N . (2.52)

Le scalaire µ est choisi petit pour prendre en compte les mesures ultérieures. L’influence de µI sur la
solution décroı̂t très vite quand N augmente.

2.7 Référence non linéaire par rapport aux paramètres


On s’intéresse à un modèle d’observation général pour lequel la référence sn;θ est non linéaire par
rapport à θ. La minimisation d’un tel critère peut s’avérer difficile voire impossible. Dans la pratique,
on a recours à des méthodes itératives qui ont l’inconvénient de converger vers des minima locaux
(techniques de descente du gradient, de Newton-Raphson). Toutefois, dans certains cas, on peut éviter
le recours à de tels algorithmes itératifs grâce à trois techniques :
– la transformation de paramètres,
– la linéarisation de la référence,
– la séparabilité des paramètres.

2.7.1 Transformation de paramètres


Dans certains modèles d’observation, il est possible de trouver une transformation g(·) bijective
de θ :
4
α = g(θ), (2.53)
telle que le signal de référence soit linéaire par rapport à α :

S(θ(α)) = Hα. (2.54)

Dans ce cas, on calcule facilement α̂mc puis par transformation inverse, on obtient directement θ̂ mc :

θ̂ MC = g −1 (α̂MC ). (2.55)

Dans la pratique, la recherche d’une telle transformation est ardue et n’est fructueuse que pour peu
de cas.

2.7.2 Linéarisation de la référence


L’idée est de linéariser le signal de référence autour d’une valeur nominale θ 0 de θ :
T
∂sn;θ

sn;θ ≈ sn;θ 0 + |θ =θ 0 (θ − θ 0 ). (2.56)
∂θ

16
Le critère des moindres carrés a alors pour expression approchée :

JMC (θ) ≈ [x − S(θ 0 ) + H(θ 0 )θ 0 − H(θ 0 )θ]T [x − S(θ 0 ) + H(θ 0 )θ 0 − H(θ 0 )θ] , (2.57)

où on a défini la matrice H(θ) de taille N × p par son élément générique :

4 ∂si;θ
∀i = 1, . . . , N, ∀j = 1, . . . , p [H(θ)]ij = (2.58)
∂θj
Puisque x − S(θ 0 ) + H(θ 0 )θ 0 est connu, l’estimateur au sens des moindres carrés s’écrit :

θ̂ = (H(θ 0 )T H(θ 0 ))−1 H T (θ 0 )(x − S(θ 0 ) + H(θ 0 )θ 0 )


. (2.59)
= θ 0 + (H(θ 0 )T H(θ 0 ))−1 H T (θ 0 )(x − S(θ 0 ))
Il est donc possible d’itérer la solution et de développer une méthode récursive pour résoudre ce
problème d’estimation :

∀k ∈ N θ̂ k+1 = θ̂ k + (H(θ̂ k )T H(θ̂ k ))−1 H T (θ̂ k )(x − S(θ̂ k )), (2.60)

après une initialisation pour k = 0. Cette méthode est connue sous le nom de méthode de Gauss-
Newton.

2.7.3 Séparabilité des paramètres


On se place dans le cas où la référence peut s’écrire :

S(θ) = H(α)β, (2.61)

où α, β sont des sous-vecteurs extraits de θ de tailles respectives p − q et q :


 
α
4
θ=  ... , (2.62)
β

et où H(α) est une matrice N × q qui dépend de α.


Ainsi, le modèle est linéaire par rapport à β et non linéaire par rapport à α.
L’optimisation au sens des moindres carrés consiste d’abord à calculer l’estimateur β̂ pour α fixé :

β̂ = (H T (α)H(α))−1 H T (α)X. (2.63)

Le critère devient une seule fonction de α puisque :

JMC (α) = X T [I − H(α)(H T (α)H(α))−1 H T (α)]X. (2.64)

Le problème revient à trouver α qui maximise X T H(α)(H T (α)H(α))−1 H T (α)X.

2.8 Conclusion générale


La méthode des moindres carrés présente l’avantage de ne requérir aucune hypothèse sur la loi
de l’échantillon. En ce sens, elle apparaı̂t comme une méthode d’estimation ayant un vaste champ
d’applications. De plus, l’existence d’un algorithme récursif permet une certaine adaptativité en temps
réel, aux données enregistrées.
En revanche, on ne peut donner systématiquement une expression générale de l’estimateur que pour le
modèle d’observation linéaire par rapport aux paramètres. En outre, les performances de l’estimateur
exigent des hypothèses probabilistes.

17
Chapitre 3

Estimateur du maximum de
vraisemblance

3.1 Une exemple introductif


La méthode du maximum de vraisemblance est essentiellement due à Fisher qui en conçut l’idée
en 1921.
On considère une urne à p catégories de composition inconnue θ1 , . . . , θp . On effectue N tirages. La
probabilité d’avoir le résultat n1 , n2 , . . . , np avec n1 + n2 + . . . + np = N est donc :

N! n
θn1 θn2 . . . , θp p . (3.1)
n1 !n2 ! . . . np ! 1 2
n
Ce résultat dépend de la composition de l’urne par le terme θ1n1 θ2n2 . . . , θp p . Fisher a appelé ce terme la
“vraisemblance” du résultat expérimental. Il est donc logique de rechercher la composition de l’urne qui
maximise la probabilité du résultat expérimental, ou encore, les valeurs des paramètres qui maximisent
cette probabilité.

3.2 Principe
3.2.1 Fonction vraisemblance
La loi de probabilité PX ;θ vue comme une fonction de θ et paramétrée par l’échantillon X = x
est appelée la vraisemblance (likelihood) et on la note LX =x (θ).

3.2.2 Critère du maximum de vraisemblance


La méthode du maximum de vraisemblance consiste à prendre pour estimateur la valeur θ̂ mv (x)
du paramètre qui maximise la vraisemblance pour l’échantillon considéré x. Il en résulte que :
4
θ̂ mv = arg max LX =x (θ). (3.2)
θ ∈Θ
Il s’agit d’un critère construit sur une distance entre probabilités.

3.2.3 Interprétation
Cette méthode repose sur un concept simple et intuitif : θ̂ mv (x) est la valeur qui maximise les
chances de réalisation du résultat expérimental. En effet, on part du principe que si l’échantillon

18
considéré a été observé, c’est qu’il correspond à l’événement le plus probable. Ceci n’est qu’une conjec-
ture qui en toute rigueur peut ne pas être vérifiée.

3.2.4 Existence et unicité non assurées !


Par ailleurs, il est important de souligner que θ̂ mv n’existe pas toujours et qu’il n’est pas
forcément unique.
Une situation pour laquelle l’existence et l’unicité sont assurées correspond au cas d’une fonction
vraisemblance continue et d’un ensemble de variation de θ compact (fermé borné).

3.3 Conséquences
De manière équivalente, l’estimateur θ̂ mv (x) est obtenu par maximisation de toute fonction crois-
sante de la vraisemblance. Ainsi, dans la pratique, il arrive que la maximisation de la fonction log-
vraisemblance ln[LX =x (θ)] soit plus facile à mener, notamment dans le cas de lois de type exponentiel.
Si la vraisemblance est différentiable par rapport à θ, une condition nécessaire d’extrémalité doit être
vérifiée par θ̂ mv . Il s’agit de l’équation dite de vraisemblance qui s’écrit comme suit :
 
∂LX =x (θ)
θ̂ mv = argθ ∈Θ =0 . (3.3)
∂θ
Dans la pratique, s’il existe plus d’une solution pour l’équation de vraisemblance, on sélectionne celle
qui est associée à la valeur la plus haute de la fonction de log-vraisemblance. Si, sauf sur une ensemble
de mesure négligeable indépendant de θ, LX =x (θ) est une fonction strictement positive différentiable
par rapport à θ, on a alors :
∂ log[LX =x (θ)]
grad(log[LX =x (θ)]) = = 0. (3.4)
∂θ
Il est d’usage d’appeler ce gradient le score du modèle paramétrique.

3.4 Invariance à la reparamétrisation


3.4.1 Reparamétrisation
Une paramétrisation du modèle est une application dont l’espace de départ est un espace pa-
ramétrique Rp et qui va vers le modèle. Il existera en général une infinité de paramétrisations pour
tout modèle donné. Ainsi, est-il possible de construire une application (pas forcément bijective) pas
et dérivable partant d’un sous-ensemble de Rp vers pratiquement n’importe quel autre sous-ensemble
de Rp ou de par des opérations comme la translation, la rotation, la dilatation. N’importe lequel de
ces autres sous-ensembles peut donc être considéré à nouveau comme un espace paramétrique pour le
modèle considéré.

3.4.2 Définition de la propriéte


C’est justement à cause de ces possibilités, que l’on désire que les estimateurs possèdent la propriété
d’invariance. Le terme d’“invariance” est compris dans ce contexte comme l’invariance au type de chan-
gement d’espace paramétrique et que nous appelons formellement reparamétrisation. Une propriété
souhaitable des estimateurs du maximum de vraisemblance est l’invariance à la reparamétrisation du
modèle. En effet, si on considère le nouveau paramètre α :
4
α = g(θ), (3.5)

19
où g(·) est une fonction mesurable définie sur un ouvert de Rp à valeurs dans Rd . On a alors l’équivalence
suivante :
θ̂ mv existe ⇐⇒ g(θ̂ mv ) est l’estimateur selon le maximum de vraisemblance de α = g(θ).
Autrement dit, il est possible d’écrire :

α̂mv = g(θ̂ mv ). (3.6)

3.4.3 Preuve
Supposons dans un premier temps que la fonction g(·) soit bijective. Comme L(θ) = L(g −1 (g(θ)))
est maximisé par θ̂ mv alors :  
−1 d
θ̂ mv = g g(θ)mv ; (3.7)
et donc
g(θ̂ mv ) = g(θ)
d mv = α̂mv . (3.8)
Si la fonction g(·) n’est pas bijective alors l’équation θ = g −1 (α) peut avoir plusieurs solutions. Pour
contourner ce problème, on regroupe les solutions ayant le même antécédent et prendre le maximum
sur ces solutions. Pour cela, on définit l’ensemble des antécedents de α

G−1 (α) = {θ/α = g(θ)}. (3.9)

Notons L(α) la valeur maximale atteinte par la fonction vraisemblance sur l’ensemble G−1 (α) :

L(α) = max L(θ). (3.10)


θ ∈G−1 (α)
Par conséquent, le maximum de L(α) est atteint pour α̂ qui correspond à :

L(α̂) = max max L(θ) = max L(θ). (3.11)


α θ ∈G−1 (α) θ

3.4.4 Commentaires
En règle générale, l’invariance est une propriété enviable car elle garantit que les changements
dans la façon de retranscrire ou paramétrer le modèle n’influenceront pas les estimations que nous
obtiendrons. Toutefois, cette propriété ne garantit pas que les estimateurs soient sans biais. En effet,
supposons qu’il existe une paramétrisation dans laquelle l’estimateur θ̂ mv soit sans biais et effectuons
le changement de paramètre non-linéaire α = g(θ) alors :

E[α̂mv ] = E[g(θ̂ mv ] et g(E[θ̂ mv ]) = g(θ̂) = α (3.12)

La non-linéarité de g(·) implique que :

E[g(θ̂ mv ] 6= g(E[θ̂ mv ]). (3.13)

On en déduit que
E[α̂mv ] 6= α. (3.14)
Ceci suggère que, bien que la paramétrisation peut avoir un impact sur les propriétés des estimateurs
avec des échantillons finis. En choisissant la paramétrisation appropriée, dans certains cas, il est
possible de garantir que les estimations soient sans biais (ou proches d’être sans biais), et que leurs
distributions sont proches de leurs distributions asymptotiques. A l’opposé, si nous choisissons une
paramétrisation inappropriée, nous pourrions par inadvertance rendre nos estimations sévèrement
biaisées et dont les distributions sont éloignées de leurs distributions asymptotiques.

20
3.5 Propriétés asymptotiques
Un des intérêts du critère du maximum de vraisemblance concerne les propriétés asymptotiques
de l’estimateur θ̂ mv . A cet égard, on considère la suite des estimateurs θ̂ mv (N ) indexée par la taille N
de l’échantillon.
On montre que la suite converge en probabilité vers θ. On dit que l’estimateur du maximum de
vraisemblance est convergent (consistent). Ceci se traduit par la relation suivante :
∀i = 1, . . . , p ∀θi ∈ R lim Pr[|θ̂mv,i (N ) − θi | > ] = 0, (3.15)
N →+∞

où θ̂mv,i (N ) et θi sont les composantes i de θ et θ̂ mv .


Si de plus, on suppose que les conditions suivantes de régularité sont satisfaites.
– Les dérivées partielles du 1er et 2nd ordre de la log-vraisemblance existent.
– L’espérance suivante est nulle :
∂ ln PX ;θ
E[ ] = 0. (3.16)
∂θ
Sous ces conditions, on admettra que la suite des estimateurs du maximum de vraisemblance converge
en loi vers la loi normale N (θ, I −1N (θ)) où I N (θ) est la matrice d’information de Fisher. Il s’agit de
la propriété de normalité asymptotique qui s’avère très utile dans la pratique. En effet, quand N est
suffisamment grand, on confond sa loi avec la loi limite. Des simulations par voie informatique de
type Monte-Carlo permettent de déterminer à partir de quelle taille N , l’histogramme de l’estimateur
se rapproche d’une gaussienne. De plus, il en ressort que la suite des estimateurs du maximum de
vraisemblance est asymptotiquement efficace.

3.6 Lien avec l’estimateur efficace


S’il existe un estimateur efficace θ̂ ef f 1 , il est forcément un estimateur au sens du maximum de
vraisemblance.
En effet, l’existence d’un estimateur efficace n’est assurée que si :
∂ ln[PX ;θ (x)]
∀θ ∈ Θ = α(θ)(θ̂ ef f − θ). (3.17)
∂θ
Quand on cherche l’estimateur au sens du maximum de vraisemblance, on annule la dérivée de la
Log-vraisemblance et on aboutit à :
θ̂ mv = θ̂ ef f . (3.18)
Dans la pratique, ce résultat est peu utile car il ne dit pas comment trouver l’estimateur efficace.

3.7 Lien avec l’exhaustivité


Si une statistique S exhaustive pour θ existe alors l’estimateur θ̂ mv en dépend.
En effet, d’après le lemme de factorisation de Neyman-Fisher, il existe deux fonctions g(·, ·) et h(·)
telles que la vraisemblance peut s’écrire sous la forme :
LX =x (θ) = g(S, x)h(x). (3.19)
On en déduit que :
∂ log[LX =x (θ)] ∂ log[g(S, x)]
= 0 ⇐⇒ = 0. (3.20)
∂θ ∂θ
Il existe donc une relation fonctionnelle entre θ̂ mv et S .
1. Quand il existe, l’estimateur efficace est l’estimateur sans biais ayant la variance minimale.

21
3.8 Modèle d’observation linéaire
3.8.1 Résolution
On se place dans le cas d’un modèle d’observation linéaire :
X = Hθ + B, (3.21)
où H est une matrice connue de taille N × p et B est une vecteur aléatoire gaussien de moyenne
E[B] et de matrice de covariance C B . Le vecteur B représente le bruit d’observation inhérent à tout
système de mesure.
La fonction de vraisemblance est égale à :

1 (X − Hθ − E[B])T C −1 (X − Hθ − E[B])
q exp[− B ]. (3.22)
(2π)N |C B | 2

Sa maximisation revient à la minimisation de la quantité AX (θ) définie par :


4
AX (θ) = (X − Hθ − E[B])T C −1 (X − Hθ − E[B]). (3.23)
B
Les conditions d’extrémalité consistent à annuler les p composantes du vecteur gradient de AX (θ) :

∂Hθ T −1
θ̂ mv = argθ {[ ] C (X − Hθ − E[B]) = 0}. (3.24)
∂θ B
On obtient l’équation suivante :

(H T C −1 H)θ̂ mv = H T C −1 (X − E[B]). (3.25)


B B
Deux cas se présentent :
– la matrice H T C −1 H est singulière. Cela se produit notamment quand le nombre d’observations
B
N est inférieur au nombre p de paramètres scalaires à déterminer. Dans ce cas, l’unicité de la
solution n’est pas garantie.
– La matrice H T C −1 H est inversible. L’estimateur est donné par la relation suivante :
B
θ̂ mv = (H T C −1 H)−1 H T C −1 (X − E[B]). (3.26)
B B
Dans ce cas de figure, il est intéressant de calculer les performances d’un tel estimateur.

La moyenne de l’estimateur s’obtient directement à partir de la relation précédente en exploitant


la linéarité de l’espérance mathématique :

E[θ̂ mv ] = θ. (3.27)
L’estimateur du maximum de vraisemblance dans le cas linéaire et gaussien est sans biais.

Le calcul de la matrice de covariance de l’estimateur C ˆ ne pose pas de problème :


θ mv
C ˆ = (H T C −1 H)−1 . (3.28)
θ mv B
On remarque que la covariance de l’estimateur fait partie de l’estimateur lui même puisque l’on a :

θ̂ mv = C ˆ H T C −1 (X − E[B]). (3.29)
θ mv B
Par la suite, on peut montrer à titre d’exercice, que l’estimateur θ̂ mv obtenu est efficace (l’efficacité
est une notion qui sera étudiée ultérieurement).

22
3.8.2 Lien avec l’estimateur des moindres carrés
La méthode des moindres carrés est souvent appelée la “méthode du pauvre” car elle nécessite
très peu d’information sur la loi des observations PX ;θ . Si cette information augmente, on a intérêt
à l’exploiter en changeant de critère de décision. Si la loi PX ;θ est connue, on peut choisir le critère
du maximum de vraisemblance.

Dans le cas d’un modèle linéaire d’observation, la minimisation de AX (θ) revient à résoudre un
problème de moindres carrés pour lequel la matrice de pondération M est :

M = C −1 . (3.30)
B
Ainsi, dans le cas linéaire et gaussien, il y a équivalence entre l’estimateur selon les moindres carrés
et l’estimateur selon le maximum de vraisemblance.

23
Chapitre 4

Estimateur sans biais à variance


minimale

4.1 Introduction
4.1.1 Objectif
On cherche un estimateur sans biais à variance minimale pour toute valeur de θ (Unbiased Mi-
nimum Variance) θ̂ mvu . On rappelle que dans le cas d’un paramètre multidimensionnel (p > 1), on
entend par variance minimale quand chaque composante i de l’estimateur a une variance minimale
sur toutes les variances des composante i des estimateurs sans biais.
Tout d’abord, il est important de voir que l’estimateur MVU n’existe pas toujours.

4.1.2 Existence de l’estimateur MVU


L’estimateur MVU n’existe pas dans tous les cas. Pour s’en convaincre, considérons l’exemple
suivant d’un échantillon de taille N = 2 tel que :
– la va X1 suit une loi normale N (θ, 1) ;
– la va X2 suit une loi normale N (θ, 1) si θ ≥ 0 et une une loi normale N (θ, 2) si θ < 0.
On définit 2 estimateurs non biaisés de θ :
4 1

 θ̂1 = 2 (X1 + X2 )


. (4.1)


 θ̂ = 4 2 1
2 X1 + X2
3 3
Un calcul simple donne les variances de ces estimateurs :
 1

 2
 si θ ≥ 0
Cθ̂1 = . (4.2)
 27 si θ < 0


36
 5
 9 si θ ≥ 0


Cθ̂2 = . (4.3)
 2


si θ < 0
3

24
A titre d’exercice, on peut montrer que pour θ ≥ 0, la variance du meilleur estimateur non-biaisé est
1 2
2 tandis que pour θ < 0, cette variance minimale est 3 . Pour ce faire, on utilisera un résultat qui
sera établi plus loin (borne de Cramer-Rao). Il n’existe pas d’estimateur dont la variance est minimale
pour toutes les valeurs de θ.

4.1.3 Unicité de l’estimateur MVU


S’il existe, l’estimateur MVU est unique. Comme on raisonne composante par composante, la
démonstration sera développée dans le cas d’un paramètre scalaire (p = 1).
On suppose qu’il existe 2 estimateurs MVU θ̂1 , θ̂2 . On désigne par V la valeur de la variance minimale :
c’est la variance commune à ces 2 estimateurs. On construit l’estimateur suivant :

4 θ̂1 + θ̂2
θ̂3 = . (4.4)
2
Cet estimateur est sans biais puisque :

E[θ̂1 ] + E[θ̂2 ] θ+θ


E[θ̂3 ] = = = θ. (4.5)
2 2
La variance Cθ̂3 se calcule directement :

1
Cθ̂3 = (Cθ̂1 + Cθ̂2 + 2Cθ̂1 ,θ̂2 ), (4.6)
4

où Cθ̂1 ,θ̂2 désigne l’inter-covariance des 2 estimateurs θ̂1 et θ̂2 . Par ailleurs, l’inégalité de Cauchy-
Schwarz s’écrit : q q
Cθ̂1 ,θ̂2 ≤ Cθ̂1 Cθ̂2 . (4.7)

Le second membre de l’inégalité est V et on en déduit que :

Cθ̂3 ≤ V. (4.8)

Si l’inégalité précédente est stricte, l’estimateur θ̂3 aurait une variance plus petite que celle des esti-
mateurs θ̂1 et θ̂2 ce qui contredit le fait que V soit minimale. L’inégalité est en fait une égalité. Ceci
implique que :
θ̂1 − θ = K(θ̂2 − θ). (4.9)
Le coefficient de proportionnalité est tel que K 2 = 1 car Cθ̂3 = V . Si K = −1, on aurait θ̂3 = θ ce qui
contredit le fait que θ̂3 soit un estimateur de θ. Par conséquent, on a forcément K = 1 et cela exprime
l’égalité de θ̂1 et de θ̂2 .

4.1.4 Recherche de l’estimateur MVU


Même si l’estimateur MVU θ̂ mvu existe, il n’y a pas de procédure ad hoc de calcul de θ̂ mvu et qui
fonctionne universellement. Dans ce qui suit, nous nous intéresserons à 3 techniques de recherche de
θ̂ mvu :
1. Une première approche fournit la borne inférieure de la variance (borne de Cramer-Rao) et
détermine s’il existe un estimateur qui peut l’atteindre. Si c’est le cas, il s’agit de l’estimateur
MVU et il sera qualifié d’efficace. L’étude de cette méthode fera l’objet de la suite de ce chapitre.

25
2. La seconde approche est une réponse à la limitation de la première méthode. Elle est préconisée
dans le cas où la borne de Cramer-Rao ne peut être atteinte c.à.d. où il n’existe pas d’esti-
mateur efficace. Elle consiste à construire l’estimateur MVU à partir d’une statistique 1 parti-
culière (statistique exhaustive). Cette méthode s’appuie sur les théorèmes de Rao-Blackwell et
de Lehmann-Scheffe. Cette seconde approche plus complexe à mettre en œuvre que la première,
sera décrite dans le chapitre suivant.
3. La troisième technique est une alternative et pallie les défauts des 2 premières méthodes. En effet,
pour faciliter la recherche de l’estimateur MVU, celle-ci est restreinte à la classe des estimateurs
linéaires : on parle d’estimateur BLUE (Best Linear Unbiased Estimator). Elle sera développée
dans le chapitre 6.

1. On appelle statistique toute fonction aléatoire de l’échantillon X.

26
Première partie

Estimateur MVU efficace

27
4.2 Information de Fisher
4.2.1 Vecteur score
Quand il existe, on définit le vecteur score (de Fisher) comme étant le vecteur aléatoire de
dimension p égal au gradient de la log-vraisemblance :
4
S(x; θ) = ∇θ log[LX =x (θ)]. (4.10)

Ce vecteur renseigne sur l’évolution de la log-vraisemblance.

4.2.2 Condition de régularité


Si le domaine de définition χ de l’échantillon est indépendant de θ, le vecteur score est centré :
4
EX ;θ [S(X; θ)] = 0p . (4.11)

Cette équation traduit la condition dite de régularité.

Preuve : Pour établir ce résultat, supposons que X possède une densité de probabilité fX ;θ (·).
Z
fX ;θ (u)du = 1. (4.12)
χ

on peut dériver chaque membre de l’égalité précédente par rapport à θ :


Z ∂ ln[f
X ;θ (u)]
fX ;θ (u)du = 0. (4.13)
χ ∂θ

En utilisant le théorème de la moyenne, on en déduit que :


" #
∂ ln[fX ;θ ]
EX ;θ = 0. (4.14)
∂θ

Ceci traduit bien que S(x; θ) est centré .

4.3 Matrice d’information de Fisher


4.3.1 Définition
Sous la condition de régularité, on appelle matrice de Fisher I(θ) la matrice d’autocorrélation du
score :
4
I(θ) = EX ;θ [S(x; θ)S(x; θ)T ] = EX ;θ [∇θ ln[L(θ)]∇θ ln[L(θ)]T ]. (4.15)
Si on omet l’espérance mathématique, on parle de matrice de Fisher observée.
Il s’agit d’une matrice carrée p × p dont l’élément générique I(θ)i,j à la ligne i et la colonne j est :

4 ∂ ln[L(θ)] ∂ ln[L(θ)]
I(θ)i,j = E[ ]. (4.16)
∂θi ∂θj

Bien entendu, le calcul de I(θ) n’est possible que sous certaines “bonnes” conditions sur PX ;θ (exis-
tence de la différentielle, différentielle de carré intégrable).
Par construction, la matrice de Fisher est symétriquen définie non-négative.

28
4.3.2 Une autre expression de la matrice d’information de Fisher
Si le domaine de définition χ de l’échantillon est indépendant de θ, une seconde expression de
l’élément générique de la matrice de Fisher est :

∂ 2 ln[L(θ)]
I(θ)i,j = −EX ;θ [ ]. (4.17)
∂θi ∂θj

Preuve : Si le domaine de définition χ de l’échantillon est indépendant de θ et si X possède une


densité de probabilité, nous savons que :
Z ∂ ln[f
X ;θ (u)]
fX ;θ (u)du = 0. (4.18)
χ ∂θi

Si on dérive cette égalité par rapport à θj , on trouve :


Z ∂ 2 ln[f
X ;θ (u)] ∂ ln[fX ;θ (u)] ∂fX ;θ (u)
fX ;θ (u)du + du = 0. (4.19)
χ ∂θi ∂θj ∂θi ∂θj

En utilisant le fait que :


∂fX ;θ (u) ∂ ln[fX ;θ (u)]
= fX ;θ (u (4.20)
∂θj ∂θj
on a : Z ∂ 2 ln[f
X ;θ (u)]
Z ∂ ln[f
X ;θ (u)]
fX ;θ (u)du = − fX ;θ (u)u (4.21)
χ ∂θi ∂θj χ ∂θj
En utilisant le théorème de la moyenne, on en déduit le résultat annoncé .

4.3.3 Propriété d’additivité


Si le domaine de définition χ de l’échantillon est indépendant de θ, la matrice de Fisher possède
la propriété d’additivité : la matrice de Fisher est additive dans la mesure où les contributions in-
dividuelles de chaque mesure s’ajoutent en raison de la linéarité des opérateurs espérance et dérivée
seconde.

Preuve : En effet, puisque l’échantillon est i.i.d., on a :


N
X
ln[LX =x (θ)] = ln[LX=xn (θ)]. (4.22)
n=1

En revenant à la seconde expression de l’élément (i, j) de la matrice, on trouve :


N
X
I(θ)i,j = I (1) (θ)i,j , (4.23)
n=1

où I (1) (θ)i,j est l’élément courant de la matrice de Fisher associé à la variable aléatoire scalaire X .

29
4.3.4 Influence de la reparamétrisation
L’expression de la matrice de Fisher change par tout changement de paramètre. En effet, supposons
que cle paramètre θ soit changé en un autre paramètre α = (α1 , . . . , αp )T = (g1 (θ), . . . , gp (θ))T où les
fonctions g1 , . . . , gp sont bijectives. On peut alors établir :

I(α) = J (α)T I (g(α)) J (α) (4.24)

où J (α) est la matrice jacobienne du changement de paramètres :

∂gi−1 (α)
∀i, j = 1, . . . , p, J (α)i,j = . (4.25)
∂αj

4.3.5 Interprétation de la matrice de Fisher


Une interprétation intuitive de la notion d’information sur le paramètre θ apportée en moyenne
par le modèle d’observation (reflété par la log-vraisemblance) est que la dérivée seconde apparaissant
dans la seconde expression de I(θ) renseigne sur les variations en “pics” ou constante de la log-
vraisemblance.

4.3.6 A propos de la notion d’“information”


A ce sujet, il est important de rappeler qu’au début du siècle, un long débat a eu lieu pour définir
mathématiquement la notion intuitive d’“information” transportée par un message ou l’“information”
apportée par un ensemble de mesures sur un paramètre inconnu. Par exemple, Kolmogorov a défini
l’information comme la longueur du plus petit programme capable de décrire cette information. Benett
a introduit la notion de profondeur logique. En effet, Benett distingue les séquences complexes calcu-
lables des séquences complexes mais aléatoires au moyen du nombre de pas élémentaires accordés par
le programme pour retrouver l’information. Toutefois, la définition qui s’est imposée au fil des ans est
due à Fisher vers les années 1920. En effet, Fisher attribue à un symbole i de probabilité d’apparition
pi émis par une source stationnaire la quantité d’information − log2 (pi ) (en bits/symbole). Ainsi, à une
configuration ou à un symbole improbable, correspond un grand contenu d’information. Par la suite,
Shannon a défini la notion d’entropie par analogie avec la physique thermodynamique de Clausius ou
la physique statistique de Boltzman. Cela a donné naissance à une nouvelle discipline : la théorie de
l’information.

4.4 Borner les variances l’estimateurs


4.4.1 Principe
On cherche à déterminer une borne inférieure de la variance de l’estimateur. Lorsque cette borne
est atteinte pour toute les valeurs de θ, l’estimateur sans biais est qualifié d’efficace dans la mesure
où il utilise efficacement les données.
Plusieurs bornes existent. La plus couramment utilisée est la borne de Cramer-Rao. Trois raisons
peuvent expliquer son succès. D’abord, son expression peut être facilement obtenue dans beaucoup de
cas pratiques. De plus, son interprétation est aisée. Enfin, elle présente des liens avec les performances
asymptotiques.
Le calcul de la borne de Cramer-Rao repose sur celui de la matrice d’information de Fisher.

30
4.4.2 Cas d’un paramètre scalaire
Soit θ̂ un estimateur de θ. On suppose que les conditions d’obtention de la seconde expression de
l’information de Fisher sont vérifiées.
On montre alors que :
2
∂E[θ̂]
( )
Cθ̂ ≥ ∂θ . (4.26)
I(θ)
Notons que si l’estimateur est sans biais, cette inégalité devient :
1
Cθ̂ ≥ . (4.27)
I(θ)
L’inverse de l’information de Fisher correspond à la borne de Cramer-Rao. Intuitivement, on comprend
que plus il y a d’“information” apportée par l’échantillon, plus petite est la plage de variation de la
variance de l’estimateur.
Le calcul ainsi que sa valeur de cette borne est indépendants de la forme de l’estimateur et dépendent
uniquement du modèle probabiliste adopté. Cette borne dérive de la définition retenue de l’information
(au sens de Fisher). Il existe d’autres bornes issues d’autres définitions de l’information.

Preuve : On ne traitera que le cas d’une va X absolument continue de densité de probabilité fX ;θ (·).
La généralisation au cas discret ne comporte aucune difficulté.
1. Comme E[θ̂] est indépendant de X, il s’agit d’une constante déterministe qui peut être multipliée
aux deux membres de (4.14) :
∂ ln fX ;θ
E[E[θ̂] ]=0 (4.28)
∂θ
2. Par ailleurs, il est possible de dériver E[θ̂] par rapport à θ :

∂E[θ̂]
Z ∂ ln fX ;θ (u)
= θ̂(u) fX ;θ (u)du. (4.29)
∂θ χ ∂θ
Il en résulte que :
∂E[θ̂] ∂ ln fX ;θ
= E[θ̂ ]. (4.30)
∂θ ∂θ
En combinant les équations (4.28) et (4.29), on a :
∂ ln fX ;θ ∂E[θ̂]
E[(θ̂ − E[θ̂]) ]= . (4.31)
∂θ ∂θ
∂ ln fX ;θ
3. Enfin, en appliquant l’inégalité de Cauchy-Schwarz aux fonctions θ̂ −E[θ̂] et , on trouve
∂θ
le résultat annoncé dans l’équation (4.26).

4.4.3 Cas d’un paramètre vectoriel


On suppose que la loi PX ;θ satisfait la condition de régularité. On peut alors étendre le résultat
précédent au cas d’un paramètre vectoriel. En effet, la matrice de covariance de tout estimateur non-
biaisé C ˆ vérifie :
θ
C ˆ − [I(θ)]−1 ≥ 0, (4.32)
θ

31
où l’inégalité ≥ 0 signifie que la matrice différence est semi-définie positive.
En particulier, la variance de la i-ème composante de tout estimateur non-biaisé est bornée par
l’élément diagonal correspondant de l’inverse de la matrice d’information de Fisher :

var[θ̂i ] ≤ [I(θ)]−1
i,i . (4.33)

La démonstration de ce résultat est similaire au cas scalaire. Pour une étude plus approfondie et plus
détaillée, on pourra consulter l’ouvrage de Kay.
Une fois cette borne déterminée, on cherche à savoir si un estimateur sans biais peut l’atteindre pour
toutes les valeurs de θ.
Dans les paragraphes suivants, on montre que l’existence d’un estimateur efficace est liée à la forme
exponentielle de la structure considérée.

4.5 Estimateur efficace


4.5.1 Théorème
On suppose que les conditions de régularité sont vérifiées. L’estimateur efficace existe si et seule-
ment si la loi de l’échantillon est de la forme :
∂ ln LX =x (θ)
= I(θ)(g(x) − θ), (4.34)
∂θ
où g(·) désigne une fonction de RN dans Rp . Dans ce cas, l’estimateur efficace est l’estimateur MVU
et est donné par :
θ̂ eff = θ̂ mvu = g(x). (4.35)
Sa covariance est l’inverse de la matrice de Fisher I −1 (θ).

4.5.2 Preuve du théorème


La démonstration de ce théorème est la suite de celle faite pour le calcul de la borne, dans le cas
scalaire.
Pour l’estimateur efficace (qui est sans biais, E[θ̂] = θ), l’inégalité de Cauchy-Schwarz devient une
égalité si et seulement si :
∂ ln L(θ)
= α(θ)(θ̂eff − θ). (4.36)
∂θ
La constante de proportionnalité α(θ) dépend de θ mais pas de X. Il reste à la déterminer. Pour cela,
dérivons par rapport à θ les membres de l’égalité précédente :

∂ 2 ln L(θ) ∂α(θ)
2
= −α(θ) + (θ̂eff − θ). (4.37)
∂θ ∂θ
Prenons le moment d’ordre 1 de chacun des membres de cette dernière équation :

∂ 2 ln L( θ) ∂α(θ)
E[ 2
] = −α(θ) + E[θ̂eff − θ]. (4.38)
∂θ ∂θ
Comme l’estimateur efficace est sans biais, on trouve que :

∂ 2 ln L(θ)
E[ ] = −α(θ). (4.39)
∂θ2

32
On reconnaı̂t la seconde expression de l’information de Fisher, soit encore :

α(θ) = I(θ). (4.40)

En définitive, l’estimateur efficace θ̂eff existe si et seulement si :

∂ ln L(θ)
= I(θ)(θ̂eff − θ) . (4.41)
∂θ
Dans le cas vectoriel, une démonstration du même type peut être faite. Pour plus de détails, on se
reportera également à l’ouvrage de Kay.

4.6 Conclusion
Ainsi, la borne de Cramer-Rao est un outil puissant qui pour certaines distributions, peut aboutir
au calcul du MVU. Toutefois, il faut souligner que la borne de Cramer-Rao peut ne pas être atteinte.
La recherche de l’estimateur MVU se fait grâce à des statistiques particulières. Ceci est développé
dans le chapitre suivant.

33
Deuxième partie

Recherche de l’estimateur MVU via


une statistique exhaustive

34
Chapitre 5

Statistique exhaustive

5.1 Avant-propos
On a vu qu’il est parfois ardu de trouver - quand il existe - l’estimateur sans biais à variance
minimale (que l’on a noté MVU en raison de la dénomination anglaise Minimun Variance Unbiased).
En effet, quand la borne de Cramer Rao n’est pas atteinte, il est possible que l’estimateur MVU
existe. Ce chapitre se propose de décrire une méthode de recherche de l’estimateur MVU qui exploite
la notion de statistique exhaustive.
Pour cela, on définit d’abord clairement la notion d’exhaustivité. Ensuite, le théorème de factorisation
de Neyman-Fisher permet de déterminer une statistique exhaustive. Enfin, les théorèmes de Rao-
Blackwell et de Lehmann-Scheffe permettent de calculer l’estimateur MVU.

5.2 Un premier exemple introductif


On considère le modèle d’observation d’un signal constant noyé dans un bruit blanc gaussien additif
centré, de variance connue σ 2 :
x n = A + wn . (5.1)
N
La borne de Cramer Rao vaut I(A) = σ2
. Par ailleurs, on définit les deux estimateurs non-biaisés
suivants :
N
4 1 X 4
 = xn et Ǎ = x1 . (5.2)
N
n=1

On trouve facilement que :


σ2
var(Â) = et var(Ǎ) = σ 2 . (5.3)
N
L’estimateur  est efficace et correspond à l’estimateur non-biaisé à minimum de variance. Intuitive-
ment, la pauvre performance de Ǎ est à attribuer au fait que l’on a écarté les mesures x2 , . . . , xN . Il
est donc légitime de se poser les questions suivantes.
– Quelles sont les données les plus pertinentes dans un problème d’estimation ?
– Existe-t-il un sous-ensemble des données x1 , . . . , xN suffisant pour estimer A ? Dans ce cas, on
n’aura pas besoin de valeurs supplémentaires de mesure pour avoir une “information” sur A.
Cette question a parfois des réponses puisque  permet de tirer le maximum d’“information” sur A.
Autrement dit, connaissant Â, on ne peut rien dire de plus quant à l’inconnue A.

35
5.3 Un second exemple introductif
Prenons le cas d’un industriel qui réceptionne un lot de pièces détachées. Il désire estimer la portion
θ de pièces défectueuses. Un contrôle systématique est jugé trop coûteux et trop long. Un statisticien
lui propose de procéder à un tirage au sort uniforme avec remise de N pièces et d’examiner à chaque
fois leur qualité.
La formalisation du problème consiste alors à considérer la qualité d’une pièce comme une variable
aléatoire qui suit une loi de Bernouilli valant 1 avec une probabilité θ si la pièce présente un défaut.
A l’issue de l’examen de l’échantillon, le statisticien considère S = X1 +. . .+XN . Celui-ci en disposant
de l’observation (X1 , . . . , XN ) n’est pas plus avantagé qu’un statisticien disposant uniquement de
S.

5.4 Définition de l’exhaustivité


Rappelons la définition d’une statistique. Il s’agit d’une application mesurable des observations
allant de χ vers un autre espace de valeurs χS . On se demande alors s’il est possible de résumer les
observations (X1 , . . . , XN ) par une statistique (vectorielle ou pas) S(X) de dimension s sans rien
perdre de l’information sur θ apportée par l’échantillon. Pour cela, Fisher a été amené à définir la
notion d’exhaustivité (sufficiency).
On dit que S(X) est exhaustive ou suffisante pour θ si la loi de X conditionnée par S(X) ne
dépend pas de θ :
PX /S (X );θ = PX /S (X ) . (5.4)
On peut dire qu’une fois donnée une statistique exhaustive pour θ, l’échantillon ne fournit plus aucun
renseignement supplémentaire sur θ. On peut donc le remplacer par S(X) qui est, en général, plus fa-
cile à manipuler que X. Une conséquence de cette définition est que si l’on dispose de deux échantillons
X et Y tels que S(X) = S(Y ), alors ces deux échantillons contiennent la même information sur θ.
En général, on est toujours assuré de l’existence d’une statistique exhaustive car il suffit de prendre :

S(X) = X. (5.5)

A priori, pour déterminer si une statistique est exhaustive, il faut déterminer la loi conditionnelle
PX /S (X ) puis vérifier s’il n’y a pas de dépendance par rapport à θ. Dans la pratique, cela peut
constituer une tâche énorme. En outre, une difficulté apparaı̂t car il n’est pas facile d’identifier les
statistiques potentiellement exhaustives. L’approche consistant à deviner la forme d’une statistique
et d’en vérifier directement l’exhaustivité doit être donc abandonnée. Le théorème de factorisation de
Neyman-Fisher constitue une attrayante alternative à ce problème.

5.5 Théorème de factorisation de Neyman-Fisher


5.5.1 Enoncé
Une statistique S(X) est exhaustive si et seulement si il existe 2 fonctions g(·) et h(·) mesurables
et positives telles que :
PX ;θ = g(S(X), θ)h(X). (5.6)
Ce théorème sera admis.
Notons que cette factorisation n’est pas unique.
Bien entendu, on remarquera que S(X) = X est exhaustive car g(S(X), θ) = PX ;θ et h(X) = 1.

36
5.5.2 Preuve
On se place dans le cas discret. On suppose que la loi se factorise selon l’équation (5.6). On a donc :

P(X ,S );θ (x, s)  0 si S(X) 6= s
PX /S =s;θ (x) = = g(s, θ)h(x)
PS ;θ (s) si S(X) = s . (5.7)
PS ;θ (s)

Par ailleurs, la loi marginale de S s’obtient à partir de la loi conjointe :


X X
PS ;θ (s) = P(X ,S );θ (x, s) = g(s, θ) h(x). (5.8)
x tels que S (x)=s x tels que S (x)=s

En combinant les équations (5.7) et (5.8), la loi de X conditionnellement à S(X) est indépendante
de θ. On en conclut que S(X) est exhaustive.
Réciproquement, si S(X) est exhaustive, il suffit de poser :

g(s, θ) = PS ;θ (s) et h(x) = PX /S =s (x) . (5.9)

5.5.3 Utilité du théorème


Pour illustrer l’utilité du théorème précédent, reprenons l’exemple introductif et prenons comme
statistique :
N
4 X
S(x) = xn . (5.10)
n=1

Le calcul de la densité de probabilité fX /S(X )=S0 ;A est long et fastidieux et aboutit à :


√ PN 2
N n=1 xn s20
fX /S=s0 ;A (x) = exp[− ] exp[ ]. (5.11)
(2πσ 2 )(N −1)/2 2σ 2 2N σ 2

L’examen de cette loi conditionnelle permet d’établir que S est bien exhaustive.
Une alternative à cette méthode directe est d’écrire :
N
X N
X
2
(xn − A) = x2n − 2AS(x) + N A2 . (5.12)
n=1 n=1

On en déduit facilement que :


fX ;A (x) = g(S(x), A)h(x), (5.13)
avec
N A2 − 2AS(x)

4 1
g(S(x), A) = exp[− ]


(2πσ 2 )N/2 2σ 2



. (5.14)
 PN 2
n=1 xn

 4
 h(x)

= exp[− ]
2σ 2
Le théorème de factorisation permet de reconnaı̂tre si une statistique est exhaustive ou pas mais pas
de la construire. Le théorème suivant apporte une solution à ce problème.

37
5.6 Famille de lois exponentielles
On considère une variable aléatoire X possédant une densité de probabilité f˜X;θ (·). On dit que sa
loi appartient à la famille exponentielle s’il existe un entier r des fonctions
– θ 7→ αj (θ) pour j = 1, . . . , r ;
– θ 7→ Sj (θ) pour j = 1, . . . , r ;
– θ 7→ c(θ) ;
– x 7→ h(x) > 0
telles que  
Xr
f˜X;θ (x) = c(θ)h(x) exp  αj (θ)Sj (x) . (5.15)
j=1

La plupart des lois usuelles font partie de la famille exponentielle. Un contre-exemple est la loi de
Pareto dont les paramètres constituent le vecteur θ.

5.7 Théorème de Pitman-Koopman-Darmois


Ce théorème a été prouvé indépendamment avec des variations par Koopman (1936), Pitman
(1936) et Darmois (1935).
On suppose que le domaine de définition χ de X ne dépend pas de θ qui est à densité.
Il existe une statistique exhaustive si et seulement si la densité de probabilité fX ;θ (·) est de la famille
exponentielle :  
YN Xr
fX ;θ (x) = c(θ)h(xn ) exp  αj (θ)Sj (xn ) . (5.16)
n=1 j=1

telle que p ≤ r, les fonctions S1 (·), . . . , Sr (·) définies sur χ sont affinement indépendantes ainsi que les
fonctions α1 , . . . , αr définies sur dom[Θ].
La statistique suivante S(x) de dimension r est exhaustive pour θ :
 N 
P
 n=1 S1 (xn ) 
..
 
 

 . 

 P N 
S(x) =   .
S2 (xn )  (5.17)
 n=1 
 .. 

 . 

 P N 
Sr (xn )
n=1

5.8 Exhaustivité et information


Deux théorèmes importants établissent la relation étroite entre les notions d’exhaustivité et d’in-
formation de Fisher. On suppose que χ ne dépend pas de θ.

5.8.1 Diminution de l’information


L’information ne peut que diminuer lorsqu’on passe dans le modèle image par une statistique
quelconque. La degradation de l’information se traduit par une différence des matrices de Fisher
respectives définie positive :
I X (θ) − I S (θ) ≥ 0. (5.18)

38
Une fois connue une statistique exhaustive, se pose la question de construire l’estimateur du MVU
(s’il existe). Pour cela, on a besoin de la notion de statistique complète.

5.8.2 Conservation de l’information

I X (θ) = I S (θ) ⇐⇒ S est exhaustive. (5.19)

5.9 Statistique complète


5.9.1 Définition
On dit qu’une statistique S(X) est complète pour une famille de lois de probabilité si :

∀ θ ∈ Θ E[h(S(X))] = 0 ⇒ h(·) = 0. (5.20)

Autrement dit, il n’existe aucune autre fonction de S(X) de moyenne nulle pour tout θ que la fonction
nulle.
Cette définition implique qu’il n’existe qu’une seule fonction de S(X) qui soit non-biaisée. En effet,
supposons qu’il existe deux fonctions h1 (·) et h2 (·) qui annulent le biais :

E[h1 (S(X))] = θ = E[h2 (S(X))]. (5.21)

Il vient donc que :


E[(h1 − h2 )(S(X))] = 0. (5.22)
Si la statistique est complète, forcément (h1 − h2 )(·) est la fonction nulle. Il y a bien une seule fonction
de S(X) qui soit non-biaisée.

5.9.2 Justification de la dénomination


La dénomination est empruntée à l’analyse de fonction ou à l’algèbre linéaire. En effet, la complétude
signifie que la famille (PS ;θ )θ est une famille génératrice de toutes les fonctions de S quand on
se place dans l’espace vectoriel des vecteurs aléatoires du second ordre muni du produit scalaire
< PS ;θ , h(S) >= ES [h(S)]. Ainsi, toute fonction orthogonale à tous les PS ;θ est forcément la fonc-
tion nulle.

5.9.3 Vérification de la propriété


Une statistique est complète selon la forme de la loi de S(X) et donc de X. Dans la pratique,
il n’est pas toujours évident de vérifier cette propriété. Toutefois, pour la plupart des distributions
courantes, on parvient à établir un résultat.

5.9.4 Cas des lois de la famille exponentielle


On sait qu’elles seules admettent une statistique exhaustive et on peut montrer que leur statistique
est complète.

39
5.10 Théorème de Rao-Blackwell
Il s’agit d’une méthode d’amélioration d’un estimateur sans biais quelconque θ̂ lorqu’il existe une
statistique S(X) exhaustive pour θ. L’estimateur θ̌ défini par :
4
θ̌ = E[θ̂(X)/S(X) = s] (5.23)

est :
– un estimateur
– sans biais
– au moins aussi bon que θ̂. Chaque composante i de θ̌ a une variance inférieure à celle de la
composante i de θ̂.

D’abord, il faut bien comprendre la nécessité de placer l’opérateur E[·] dans la définition de θ̌. D’abord,
θ̂(X)/S(X) = s est une variable aléatoire qui dépend de la valeur prise s par S(X).
Ainsi, θ̌ est bien un estimateur de θ car il dépend seulement de l’échantillon à travers la
statistique S(X). En effet, S(X) est une statistique exhaustive, PX /S (X );θ est indépendante de
θ. En vertu du théorème de la moyenne (et en supposant avoir affaire à des densités de probabilité),
on a : Z
θ̌ = θ̂(x)fX /S (X );θ (x)dx, (5.24)

il apparaı̂t que θ̌ ne fait donc pas intervenir θ.

L’estimateur θ̌ est sans biais du fait du théorème de l’espérance totale. En effet, dans le cas de va
absolument continues, on peut écrire que :
Z Z
E[θ̌] = θ̂(x)fX /S (X );θ (x)dxfS (X );θ (s)ds. (5.25)

La relation de Bayes montre que le produit des deux densités sous la double intégrale est la densité
du couple (X, S(X)) soit encore celle de X. On en déduit donc que :
Z
E[θ̌] = θ̂(x)fX ;θ (x)dx = θ. (5.26)

On rappelle que le théorème de la variance totale consiste à écrire pour deux variables aléatoires A et
B:
var(B) = E[var(B/A)] + var(E[B/A]). (5.27)
En vertu de ce théorème, on obtient :

C ˆ = E[C ˆ + E[C ˆ ]. (5.28)


θ E[θ /S (X )] θ /S (X )

La matrice E[C ˆ ] est définie non-négative. L’opérateur espérance conserve cette propriété. Il en
θ /S
résulte que la matrice C ˆ − C ˆ est définie non-négative. On a bien E[θ̂/S(X)] au moins
θ E[θ /S (X )]
aussi bon que θ̂.
A ce niveau, il est utile de remarquer que si on prend θ̂ = θ̂ MVU , on peut plus améliorer l’estimateur et
donc E[C ˆ ] = 0, il existe une relation fonctionnelle entre θ̂ MVU et la statistique exhaustive
θ MVU /S (X )
S(X).

40
5.10.1 Corollaire
S’il existe une statistique S(X) exhaustive pour θ alors l’estimateur MVU ne dépend que de
S(X). En effet, on ne peut améliorer l’estimateur MVU par la méthode de Rao-Blackwell. On a
donc :
E[C ˆ ] = 0. (5.29)
θ /S (X )
On conclut donc à l’existence d’une relation fonctionnelle entre l’estimateur MVU et la statis-
tique exhaustive S(X).
Remarquons qu’il peut exister plusieurs estimateurs sans biais fonctions de S(X) et on n’est pas sûr
que la méthode de Rao-Blakwell fournisse l’estimateur MVU. A ce niveau, il est utile d’utiliser la
notion de statistique complète.

5.10.2 Théorème de Lehman-Scheffé


Si θ̌ est un estimateur sans biais, dépendant d’une statistique exhaustive complète S(X), θ̌ est
l’unique estimateur MVU de θ.
En effet, on sait que l’estimateur MVU θ̂ mvu dépend de S(X) :

θ̂ mvu = g(S(X)). (5.30)

D’autre part, par hypothèse, θ̌ est un estimateur sans biais tel que :

θ̌ = h(S(X)). (5.31)

Les 2 estimateurs étant sans biais, on a :

E[θ̂ mvu ] = E[θ̌] = θ. (5.32)

On en déduit que :
E[(g − h)(S(X))] = 0. (5.33)
La statistique S(X) étant complète, on a forcément (g − h)(·) = 0. On aboutit donc à :

θ̌ = θ̂ mvu . (5.34)

L’intérêt de ce théorème est de montrer que les estimateurs MVU s’expriment comme des fonctions de
statistiques exhaustives. S’il existe une statistique exhaustive complète S(X) de dimension s = p,
on peut alors chercher une transformation T (S) non-biaisée c.à.d. telle que :

E[T (S)] = θ. (5.35)

Cela permet d’éviter le calcul direct de θ̌.

5.11 Conclusion
Ainsi, la méthode de construction de l’estimateur MVU se résume comme suit.
– Il faut utiliser le théorème de factorisation pour conclure quant à l’existence de statistique
exhaustive S(X). On pourra également se servir du théorème de Darmois pour construire une
statistique exhaustive S(X).
– Il faut vérifier si S(X) est complète. Si ce n’est le cas, chercher une autre statistique ou aban-
donner cette approche.
– On peut choisir n’importe quel estimateur sans biais θ̂ et l’améliorer par moyennage condition-
nellement à S(X) ou trouver une fonction qui annule le biais S(X).

41
Troisième partie

Méthode sous-optimale

42
Chapitre 6

Estimateur linéaire sans biais de


variance minimale

6.1 Introduction
Il arrive souvent que l’estimateur MVU ne puisse être manipulé ou même calculé. C’est notamment
le cas si la loi de X est difficile à modéliser ou même à manipuler.
De telles considérations justifient le recours à une méthode d’estimation sous-optimale. En effet, on
cherche un estimateur sans biais de variance minimale dont l’expression est linéaire par rapport
aux données X :
θ̂ = AX + C, (6.1)
où A est une matrice rectangulaire p × N et C un vecteur p × 1. En anglais, on parle d’estimateur
BLUE pour Best Linear Unbiased Estimator.
On désire trouver A et C tels que θ̂ soit sans biais ayant la trace de sa matrice de covariance minimale.
La résolution de ce problème est donnée dans le cas d’un modèle d’observation linéaire par
rapport au paramètre :
X = Hθ + B, (6.2)
où H est une matrice connue de taille N × p et B est un vecteur aléatoire de moyenne E[B] et de
matrice de covariance C B . Le vecteur B représente le bruit d’observation.

6.2 Conditions sur le biais et la variance


On exprime la moyenne de l’estimateur θ̂ :

∀θ E[θ̂] = AHθ + AE[B] + C = θ. (6.3)

Pour qu’il soit non-biaisé, il faut que :



AH = I p×p
. (6.4)
C = −AE[B]

Par ailleurs, on exprime la matrice C ˆ de covariance de θ. Après développement, on trouve :


θ
C ˆ = AC B AT . (6.5)
θ

43
6.3 Un résultat préliminaire
Il s’agit de trouver la matrice A qui minimise la quantité :

tr[AC B AT ], (6.6)

où C B est une matrice symétrique définie positive.


Pour cela, on définit sur l’ensemble des matrices de taille p × N la forme bilinéaire :
4
< F , G > = tr[F C B GT ]. (6.7)

Il est facile de montrer qu’il s’agit d’un produit scalaire. Ainsi,

∀F tr[F C B F T ] ≥ 0. (6.8)

En effet, la matrice C B étant définie positive, il vient :

∀u (F T u)T C B (F T u) ≥ 0. (6.9)

Cela s’écrit aussi :


∀u uT (F C B F T )u ≥ 0, (6.10)
ce qui traduit le caractère défini positif de la matrice F C B F T .
Pour un tel produit scalaire, l’inégalité de Cauchy-Schwarz s’écrit :

|tr[AC B GT ]|2 ≤ tr[AC B AT ]tr[GC B GT ]. (6.11)

En particulier, en revenant aux notations du cours et en choisissant :

G = H T C −1 , (6.12)
B
on obtient :
AC B GT = AH = I p×p . (6.13)
L’inégalité de Cauchy-Schwarz devient :

p2 ≤ tr[AC B AT ]tr[H T C −1 H]. (6.14)


B
La quantité tr[AC B AT ] est minimale lorsque l’inégalité se transforme en égalité c.à.d. lorsque la
matrice A est proportionnelle à la matrice G :

Aopt = αH T C −1 . (6.15)
B
La matrice de proportionnalité α est calculé en utilisant la relation :

Aopt H = I p×p . (6.16)

On aboutit alors à :
Aopt = (H T C −1 H)−1 H T C −1 . (6.17)
B B

44
6.4 Résolution
D’après ce qui précède, on montre que la matrice A qui minimise la trace de cette matrice est la
matrice Alvm donnée par :
4
Alvm = (H T C −1 H)−1 H T C −1 . (6.18)
B B
La matrice Alvm est l’inverse généralisée pondérée de H. En effet, la première condition sur le biais
est vérifiée puisque :
Alvm H = I p×p . (6.19)
Le vecteur C s’en déduit aisément :
C = −Alvm E[B]. (6.20)
Finalement, l’estimateur linéaire par rapport à l’observation et dans le cas d’un modèle d’obser-
vation linéaire par rapport au paramètre est :

θ̂ lvm = (H T C −1 H)−1 H T C −1 (X − E[B]). (6.21)


B B
Il est important de noter que l’expression de l’estimateur BLUE nécessite la seule connaissance des
moments d’ordre 1 et 2 de l’échantillon mais aucunement sa loi de probabilité.

6.5 Lien avec l’estimateur des moindres carrés


Il est facile de remarquer que l’estimateur linéaire sans biais à variance minimale est égal à l’esti-
mateur des moindres carrés avec la matrice de pondération :

M = C −1 . (6.22)
B
Cela s’énonce sous la forme du théorème de Gauss-Markov. Pour les observations, parmi tous
les estimateurs linéaires (θ̂(X) fonction linéaire de X) et sans biais, la précision maximale (variance
minimale) est obtenue par l’estimateur selon les moindres carrés pondérés où la matrice de pondération
est l’inverse de la matrice de covariance du bruit d’observation.

45
Chapitre 7

Estimateur bayésien

7.1 Principe
Contrairement à l’approche classique, l’approche bayésienne considère le paramètre inconnu θ
comme aléatoire. Le but est d’estimer une réalisation particulière de θ. La méthode a été baptisée
méthode bayésienne car sa mise en œuvre repose sur l’application du théorème de Bayes.
Plusieurs arguments sont en faveur de cette approche :
– Si on dispose d’une information a priori sur θ, il est possible de la prendre en compte par cette
technique d’estimation. Bien entendu, cette prise en compte ne peut qu’améliorer la qualité de
l’estimation.
– La méthode bayésienne peut s’avérer intéressante dans le cas où il n’existe pas d’estimateur
efficace global (variance minimale pour toutes les valeurs de θ). Il est possible de construire un
estimateur optimal en “moyenne” (par rapport à la plupart des valeurs pouvant être prises par
θ).
Il est important de noter que considérer le paramètre inconnu comme aléatoire fut assez révolutionnaire.
C’est ce qui distingue l’estimation classique de l’estimation moderne dite bayésienne.
Pour s’en convaincre, considérons le cas concret de l’estimation de la vitesse c de la lumière. La vraie
valeur n’est jamais connue. En fait, les valeurs de c sont uniformément réparties sur [c0 − , c0 + ].
La quantité  correspond à la précision maximale de la mesure. Il est donc préférable d’estimer c en
supposant une loi a priori uniforme.

7.2 Exemple historique


Cet exemple historique est dû à Laplace et Bayes (1763). Une boule de billard W roule sur une ligne
de longueur 1 avec une probabilité uniforme de s’arrêter. Le problème est de déterminer la position du
point d’arrêt P . Une seconde boule O roule n fois sous les mêmes hypothèses que pour W. On désigne
par X le nombre de fois où O s’arrête à gauche de W. La seconde question est de savoir quelle inférence
peut-on avoir sur P étant donné X. Autrement dit, le problème est de connaı̂tre la probabilité de P
sachant X.
La loi a priori de P est la loi U([0, 1]) uniforme sur [0, 1]. La loi de X est la loi binomiale B(n, P ).
Ainsi, peut-on écrire :  
n
P [X = x/P ] = P x (1 − P )n−x . (7.1)
x
Par ailleurs, la loi conjointe de (X, P ) est telle que :
Z b 
n
P [a < P < b, X = x] = P x (1 − P )n−x dP. (7.2)
a x

46
Ainsi, la loi marginale de X s’exprime :
Z 1 
n
P [X = x] = P x (1 − P )n−x dP. (7.3)
0 x

Il en vient que la loi de P sachant X est :


Rb n
P x (1 − P )n−x dP

P [a < P < b/X = x] = Ra1 xn . (7.4)
x n−x dP
0 x P (1 − P )

Il s’agit d’une loi bêta de paramètres (x + 1, n − x + 1).

7.3 Modèle de décision bayésienne


Les hypothèses sont les suivantes :
– l’ensemble Θ est connu.
– La loi conditionnelle de l’échantillon PX /θ existe et est connue.
– La loi a priori Pθ existe et est connue. Le choix de la loi a priori du paramètre est délicat.
Une loi Pθ inadéquate produit un estimateur pauvre. Ce problème est similaire à celui de
la modélisation des données dans l’approche classique. Notons qu’une des réserves émises à
l’encontre de l’approche bayésienne est la justification d’une loi a priori pour un paramètre
inconnu. En fait, dans le cadre bayésien, la loi a priori résume l’information disponible ou encore
la lacune d’information sur ce paramètre qui tient compte d’une incertitude sur ce paramètre.
Le principe de l’estimation bayésienne est justement d’incorporer cette information dans le
processus de décision. Dans la pratique, le choix de cette loi se fait lorsqu’on a une connaissance
assez poussée de l’événement aléatoire étudié.
– une fonction de perte (ou de coût) C(·, ·) est choisie pour mesurer la perte causée par le rempla-
cement de la vraie valeur θ par la valeur estimée θ̂. Différentes fonctions coût peuvent convenir.
On peut citer :
1. la fonction coût quadratique :
4
C(θ, θ̂) = kθ − θ̂k2 , (7.5)

2. la fonction coût valeur absolue (city-block) :


p
4 X
C(θ, θ̂) = |θi − θ̂i |, (7.6)
i=1

3. la fonction coût tout ou rien (hit-or-miss) :



4 0 si kθ − θ̂k ≤ s
C(θ, θ̂) = . (7.7)
1 si kθ − θ̂k > s

7.4 Risque bayésien


Comme l’estimateur θ̂ dépend de l’observation X, la fonction coût dépend également de l’ob-
servation. Pour s’affranchir d’une telle dépendance, on définit une fonction risque R(θ, θ̂) comme la
moyenne sur toutes les observations possibles de la fonction coût. Il vient alors :
4
R(θ, θ̂) = EX /θ [C(θ, θ̂)] (7.8)

47
La fonction risque peut s’exprimer comme suit :
 Z


 C(θ, θ̂)PX /θ dX échantillon à valeurs continues
 RN

R(θ, θ̂) = X . (7.9)



 C(θ, θ̂)PX /θ échantillon à valeurs discrètes

RN

En prenant en compte toutes les valeurs possibles de θ, on définit le risque moyen ou risque de
Bayes : Z
4
R ˆ = Eθ [R(θ, θ̂)] = R(θ, θ̂)Pθ dθ (7.10)
θ Θ
En utilisant l’expression de la fonction risque de l’équation (7.9) et en appliquant le théorème de
Bayes :
PX /θ Pθ = Pθ /X PX , (7.11)
on montre que :
 Z Z 
C(θ, θ̂)Pθ /X dθ PX dX échantillon à valeurs continues




 RN

Rˆ = . (7.12)
θ  X Z 
C(θ, θ̂)Pθ /X dθ PX échantillon à valeurs discrètes





RN

Le risque moyen s’écrit alors :


 Z


 G(X)PX dX échantillon à valeurs continues
 RN

Rˆ = , (7.13)
θ  X


 G(X)PX échantillon à valeurs discrètes

RN

où Z
4
G(X) = C(θ, θ̂)Pθ /X dθ. (7.14)
Θ
La stratégie optimale consiste à minimiser le risque moyen R ˆ . Comme PX ≥ 0, l’estimateur
θ
bayésien optimal est celui qui minimise la fonction G(X). A ce niveau, il est utile de noter que la
fonction G(·) dépend de la loi a posteriori de θ conditionnellement à X.
L’expression de l’estimateur optimal dépend de la fonction coût choisie. Nous nous intéressons au cas
d’un coût quadratique.

7.5 Coût quadratique


7.5.1 Estimateur optimal
Avec un coût quadratique, l’estimateur bayésien optimal minimise l’erreur moyenne quadratique
(Minimum Mean Square Error). Dans ce cas, la fonction G(·) à minimiser s’écrit :
Z
G(X) = kθ − θ̂k2 Pθ /X dθ. (7.15)
Θ

48
La fonction G(·) apparaı̂t comme une forme quadratique en θ̂ :
Z
T T
G(X) = θ̂ θ̂ − 2E[θ/X] θ̂ + θ T θPθ /X dθ. (7.16)
Θ

Au minimum, le vecteur gradient s’annule nécessairement :


∂G
= 2θ̂ − 2E[θ/X] = 0, (7.17)
∂ θ̂
soit pour :
eqm
θ̂ bay = Eθ /X [θ/X]. (7.18)
Par ailleurs, la hessienne est une matrice constante définie positive :

∂2G
2 = 2I. (7.19)
∂ θ̂
L’extremum obtenu est bien un minimum.

Pour un coût quadratique, l’estimateur bayésien optimal est l’espérance de la grandeur à esti-
mer conditionnellement à l’observation. Cet estimateur joue un rôle fondamental dans de nombreux
problèmes.

7.5.2 Performances
Cet estimateur est non-biaisé :
eqm
EX [θ̂ bay ] = EX [Eθ /X [θ/X]] = Eθ [θ]. (7.20)

De même, il est facile de voir que le risque bayésien minimal est :


 R
 RN tr[C θ /X ]PX dX
 échantillon à valeurs continues
R ˆ eqm = . (7.21)
θ bay  P N tr[C
θ /X ]PX dX échantillon à valeurs discrètes

R

7.5.3 Transformation affine du paramètre


On considère le nouveau paramètre α de dimension r, obtenu par transformation affine :
4
α = Aθ + B, (7.22)

oùoù A est une matrice r × p et B un vecteur r × 1.


On montre facilement (grâce à la linéarité de l’espérance mathématique) que :
eqm
α̂eqm
bay = Aθ̂ bay + B. (7.23)

7.5.4 Modèle bayésien linéaire


On se place dans le cas du modèle d’observation suivant :

X = Hθ + B, (7.24)

où

49
– le paramètre θ suit une loi a priori normale N (µθ , C θ ).
– Le bruit B suit une loi normale N (0, C B ).
– Les va θ et B sont indépendantes.
Pour trouver l’estimateur bayésien qui minimise l’erreur quadratique moyenne, on doit d’abord déterminer
la loi a posteriori de θ conditionnée par X. Pour cela, on s’appuie sur le résultat suivant de calcul de
probabilités.
Si U et V sont deux vecteurs respectivement de Ru et Rv . On suppose que la loi conjointe de (U , V )
est une loi normale de matrice de covariance C :
..
 
 CU U . CU V 
C= , (7.25)
.
 
T .
CU V . CV V

où les matrices ont des tailles : u × u pour C U U , u × v pour C U V et v × v pour C V V . La variable
aléatoire conditionnelle U /V suit également une loi normale
– de moyenne :
E[U /V ] = E[U ] + C U V C −1 (V − E[V ]), (7.26)
VV
– de matrice de covariance :

C U /V = C U U − C U V C −1 C TU V . (7.27)
VV
Appliquons ce résultat à U = θ et à V = Hθ + B. D’abord, il est facile de voir que :

C V V = HC θ H T + C B . (7.28)

CU V = CθHT . (7.29)
On en déduit que :
eqm
θ̂ bay = E[θ/X] = µθ + HH T (HC θ H T + C B )−1 HC θ . (7.30)

A la différence de l’approche classique, la matrice H n’a pas besoin d’être de plein rang pour garantir
l’inversibilité de la matrice HC θ H T + C B .

7.6 Estimateur du maximum a posteriori


eqm
Le calcul de θ̂ bay présente une complexité opératoire assez importante (calcul de l’espérance condi-
tionnelle). Pour éviter la charge calculatoire, une autre stratégie d’estimation est envisagée.
Il s’agit de trouver l’estimateur qui maximise la loi a posteriori de θ conditionnée par la connaissance
de l’échantillon :
map
θ̂ bay = arg max Pθ /X . (7.31)
Θ
map
Si Pθ est uniforme, l’estimateur θ̂ bay
maximise également PX /θ et correspond à l’estimateur bayésien
du maximum de vraisemblance. Dans le cas général, cette propriété n’est pas toujours vérifiée.
Il est important de noter que si Θ est fini et que l’on choisit une loi a priori uniforme pour θ,
l’estimateur du maximum de vraisemblance et l’estimateur du maximum a priori se confondent.

50
7.7 Estimateur linéaire en moyenne quadratique
7.7.1 Introduction
Mis à part le cas gaussien, il est difficile en pratique, d’exprimer littéralement la loi a posteriori.
Il arrive aussi que la charge calculatoire des 2 méthodes précédentes soient importantes (intégrales
multiples ou maximisation multidimensionnelle).
Une autre voie est alors envisagée. On retient toujours le coût quadratique mais on contraint l’esti-
mateur à être linéaire. Cette démarche est analogue à celle adoptée pour le calcul de l’estimateur
linéaire à variance minimale (BLUE). La classe des estimateurs ainsi construits constitue les filtres
dits de Wiener. Bien que sous-optimale, cette méthode a l’avantage de n’utiliser que les 2 premiers
moments de la loi conjointe.

7.7.2 Position du problème


On suppose que le couple (X, θ) est du second ordre. On contraint les estimateurs cherchés à être
de la forme suivante :
θ̂ = AX + B. (7.32)
En procédant composante par composante, la contrainte linéaire se traduit par les relations suivantes :

∀ i = 1, . . . p θ̂i = aTi X + Bi , (7.33)

où ai désigne la i-ème ligne de la matrice A et Bi la i-ème composante de B.


L’optimisation consiste à trouver A et B qui minimisent chacune des p erreurs quadratiques moyennes :
4
∀ i = 1, . . . p EQMi = E[(θi − θ̂i )2 ]. (7.34)

7.7.3 Optimisation analytique


Une première condition d’extrémalité de EQMi est :
∂EQMi
= 0. (7.35)
∂Bi
Ceci se traduit par :
Bi = E[θi ] − aTi E[X]. (7.36)
Le rôle du vecteur B se justifie seulement dans le cas où les vecteurs θ et X ne sont pas centrés.
En remplaçant Bi par son expression dans EQMi , on trouve facilement :

EQMi = aTi C XX ai − 2aTi C X θi + Cθi θi . (7.37)

La seconde condition d’extrémalité de EQMi est :


∂EQMi
= 2C XX ai − 2C X θi = 0. (7.38)
∂ai
Il en résulte donc :
aleqm
i = C −1 C X θi . (7.39)
XX
L’estimateur linéaire en moyenne quadratique optimal a une composante i donnée par :

θ̂ileqm = C θi X C −1 (X − E[X]) + E[θi ]. (7.40)


XX

51
Une écriture matricielle fournit une expression plus compacte :
leqm
θ̂ = C θX C −1 (X − E[X]) + E[θ]. (7.41)
XX
Si les variables X et θ sont centrées, on a alors :
leqm
θ̂ = C θX C −1 X. (7.42)
XX
Bien que sous-optimale, l’estimation linéaire a l’avantage de n’utiliser que les moments d’ordre 1 et 2
du couple (X, θ).

7.7.4 Principe d’orthogonalité


Une autre méthode d’optimisation (plus élégante) réside dans l’application du principe dit d’or-
thogonalité.
On considère l’ensemble des vecteurs aléatoires du second ordre centrés. Pour cela, on considère
l’espace de Hilbert L2 (Ω) muni du produit scalaire :
4
< U , V > = E[U T V ]. (7.43)

Cet espace hilbertien L2 (Ω) est complet et on peut y appliquer le théorème de projection orthogonale.
Ainsi, si A est un sous-espace vectoriel de L2 (Ω), à tout vecteur U de L2 (Ω), correspond un et un seul
vecteur U orth de A tel que :
4
U orth = arg min E[(U − a)T (U − a)]. (7.44)
a∈A
Une interprétation géométrique est possible : le vecteur U orth est la projection orthogonale de U sur
le sous-espace A. Le principe d’orthogonalité s’en déduit naturellement :

∀a ∈ A < U − U orth , a >= 0, (7.45)

ou encore :
∀a ∈ A E[(U − U orth )T a] = 0. (7.46)
Une fois rappelés ces résultats, revenons au problème de l’estimation linéaire de θi :

θ̂i = aTi X, (7.47)

où on a supposé θ et X centrés. Si ce n’est pas le cas, il suffit de considérer les va centrées associées.
Minimiser la distorsion EQMi revient à résoudre un problème de projection orthogonale. En effet, on
considère l’ensemble A engendré par les variables aléatoires scalaires X1 , . . . , XN :
4
A = vect{X1 , . . . , XN }. (7.48)

L’optimisation consiste à trouver le vecteur ai = (ai,1 , . . . , ai,N )T qui minimise la norme de l’erreur
θi − θ̂i (norme prise au sens du produit scalaire défini précédemment) :

kθi − aTi Xk2 = E[(θi − aTi X)2 ]. (7.49)

Cette norme est minimale quand le vecteur erreur est orthogonal à A. Le principe d’orthogonalité se
traduit par les N équations suivantes :

∀ n = 1, . . . N E[(θi − θ̂ileqm )Xn ] = 0, (7.50)

52
soit encore :
N
X
ai,m E[Xm Xn ] = E[θi Xn ]. (7.51)
m=1
Finalement, sous forme matricielle, on obtient les équations dites équations normales :
E[X12 ]
    
E[X1 X2 ] . . . E[X1 XN ] ai,1 E[θi X1 ]
 E[X1 X2 ] E[X 2 ] . . . E[X X ]
2 N   ai,2
    E[θi X2 ] 
1
 =  .. . (7.52)
   
 .. .. . .
. . ..   ..
 . .  .   . 
2]
E[XN X1 ] E[XN X2 ] . . . E[XN ai,N E[θi XN ]
Finalement, on obtient :
C XX ai = C X θi . (7.53)
On retrouve la solution de la méthode analytique. Le calcul de la distorsion minimale peut se faire
rapidement par simple application du théorème de Pythagore.
Ainsi, le problème d’estimation linéaire optimale peut être rapidement résolu grâce au principe d’or-
thogonalité. De nombreux exercices peuvent l’illustrer.

7.7.5 Performances
L’estimateur linéaire est non-biaisé puisque :
leqm
E[θ̂] = C θX C −1 (E[X] − E[X]) + E[θ] = E[θ]. (7.54)
XX
Il est facile de donner l’expression de la matrice d’erreur quadratique :
EQM ˆ leqm = C θθ − C θX C −1 C TθX . (7.55)
θ XX
Le i-ème élément diagonal de cette matrice donne la valeur minimale de EQMi .

7.7.6 Propriétés
Deux propriétés de l’estimateur linéaire optimal sont à noter :
– L’estimateur commute avec toute transformation affine. Ainsi, l’estimateur linéaire du nouveau
paramètre :
4
α = P θ + Q. (7.56)
est donné par :
leqm
α̂leqm = P θ̂ + Q. (7.57)
– L’estimateur de la somme de 2 paramètre θ 1 et θ 2 est la somme des estimateurs individuels. Il
s’agit de la propriété de superposition.

7.7.7 Théorème bayésien de Gauss-Markov


On suppose que le modèle d’observation est donné par :
X = Hθ + W , (7.58)
où W est un bruit centré de covariance C W . De plus, les vecteurs θ et W sont décorrélés et
l’hypothèse gaussienne peut être levée.
Il est facile de montrer que l’estimateur linéaire optimal s’obtient par la relation suivante :
leqm
θ̂ = E[θ] + (C −1 + H T C −1 H)−1 H T C −1 (X − HE[θ]). (7.59)
θθ W W

53
La matrice d’erreur quadratique est donnée par :

EQM ˆ leqm = (C −1 + H T C −1 H)−1 . (7.60)


θ θθ W
Les résultats sont les mêmes que dans le cas général bayésien à la seule exception que les vecteurs θ
et W ne sont pas forcément gaussiens.

7.8 Exemples d’applications


7.8.1 Présentation
En traitement du signal, l’estimation linéaire en moyenne quadratique donne lieu à trois types
d’applications majeures qu’il convient d’étudier : le filtrage, le lissage et la prédiction. Dans ce qui
suit, nous décrivons les grandes lignes de ces méthodes.

7.8.2 Le filtrage
On suppose que le modèle d’observation est décrit par l’équation suivante :

x(n) = s(n) + w(n), (7.61)

où s(n) est le signal inconnu et w(n) est un “bruit” additif, supposé décorrélé de s(n). Il s’agit à
chaque instant n de reconstruire le signal inconnu à partir de n + 1 observations (n pour le passé et
une pour le présent) X (n) = (x(0), . . . , x(n))T . C’est un problème de débruitage au moyen d’un filtre
linéaire causal. Le problème est répété pour chaque instant n = 0, . . . , N − 1. Sous les hypothèses
considérées et en respectant le notations habituelles, on peut montrer facilement que :

C XX = C SS + C W W , (7.62)

où les matrices C SS et C W W sont des matrices d’auto-corrélation de taille ((n + 1) × (n + 1). De
plus, on a :

C s(n)X = E[s(n)(x(0), . . . , x(n))] = (css (n), css (n − 1), . . . , css (0)) = c0 Tss . (7.63)

Il vient que :
∀ n = 0, . . . , N − 1 ŝ(n) = c0 Tss (C SS + C W W )−1 X. (7.64)
(n) (n) (n)
Notons a(n) = (a0 , a1 , . . . , an )T le vecteur (n + 1) × 1 des poids :
4
a(n) = (C SS + C W W )−1 c0 ss . (7.65)

On a alors :
ŝ(n) = (a(n) )T X (n) . (7.66)
Quand n varie, il est possible d’interpréter le processus d’estimation comme une opération de filtrage
à réponse impulsionnelle h(n) (k) variant avec le temps (filtre adaptatif) :
4 (n)
∀ k = 0, . . . , n h(n) (k) = an−k . (7.67)

Ainsi, est-il possible d’écrire :


n n
(n)
X X
ŝ(n) = ak x(k) = h(n) (n − k)x(k). (7.68)
k=0 k=0

54
Le problème est de trouver la réponse impulsionnelle de ce filtre en exploitant le caractère symétrique
et de Tœplitz de C SS + C W W . En effet, en définissant le vecteur h par :

4
h(n) = (h(n) (0), h(n) (1), . . . , h(n) (n))T , (7.69)

on peut remarquer que h(n) est obtenu en appliquant l’opérateur antidiagonal J :


 
0 ... 0 1
J=  0 ... 1 0 , (7.70)
1 0 0 0

pour lequel la dernière composante devient la première. Par ailleurs, comme :

(C SS + C W W )a(n) = c0 ss , (7.71)

il vient que :
(C SS + C W W )h(n) = J c0 ss = (rss (0), rss (1), . . . , rss (n))T . (7.72)
Ceci se traduit par le système d’équations linéaires appelées équations de filtrage de Wiener-Hopf :
   (n)   
rxx (0) rxx (1) ... rxx (n) h (0) rss (0)
 rxx (1) rxx (0) ... rxx (n − 1)   (n)
  h (1)   rss (1) 
  
= . (7.73)

 .. .. .. ..   ..   ..
 . . . .  .   . 
rxx (n) rxx (n − 1) . . . rxx (0) h(n) (n) rss (n)

Un algorithme de type Levinson permet de résoudre ce système. Quand la valeur de n devient élevée, la
réponse impulsionnelle est constante et à titre d’exercice, on peut montrer qu’une solution analytique
peut être obtenue (on parle alors de filtre de Wiener “infini”).

7.8.3 Le lissage
Il s’agit du même modèle d’observation. La différence est l’estimation de s(0), . . . , s(N − 1) utilise
le passé, le présent et le futur des observations. Autrement dit, le lissage est réalisé une fois toutes les
observations recueillies tandis que l’opération de filtrage peut être menée au fur et à mesure du recueil
des observations (quasiment en temps réel). Par exemple, pour estimer s(1) en lissage, il est possible
d’utiliser les mesures x(0), x(1), . . . , x(N − 1) alors qu’en filtrage on ne peut utiliser seulement x(0)
et x(1). On retrouve le même type d’expression pour ŝ(n) que dans l’équation (7.64) ce qui change ce
sont les définitions des vecteurs mis en jeu.

7.8.4 La prédiction
La prédiction linéaire de pas l d’horizon N consiste à estimer x(N − 1 + l) (avec l entier po-
sitif) à partir des N observations x(0), x(1), . . . , x(N − 1). Un cas particulier correspond au cas de
l’interpolation où il s’agit d’estimer la donnée “manquante” x(n) à partir des autres observations
x(0), . . . , x(n − 1), x(n + 1), . . . , x(N − 1).

55
Chapitre 8

Détection statistique

8.1 Introduction
8.1.1 Exemples
En télécommunications, il est courant d’avoir à prendre des décisions selon les signaux reçus.
Par exemple, en détection par radar, selon les observations faites, le récepteur doit savoir si dans
ces observations, il y a seulement du bruit ou si un signal attendu (une cible notamment) est présent.
De même, en communication binaire, un train binaire est souvent transmis via un canal bruité.
A partir de l’observation reçue, on cherche si un ‘1’ ou un ‘0’ a été émis par la source. Le récepteur
doit donc choisir entre 2 hypothèses. Mais du fait du bruit de transmission, le récepteur risque de se
tromper dans certains cas de figure. Le but de la détection est de minimiser cette probabilité d’erreur.

8.1.2 Définition de la détection


Les exemples précédents correspondent à un problème de détection car les valeurs du paramètre θ
sont discrètes. De plus, on suppose que le paramètre inconnu est aléatoire. A partir des observations
X, il s’agit de construire des estimateurs qui “approchent” le paramètre inconnu. Ces estimateurs
prendront également des valeurs discrètes.
Plus généralement, on veut savoir si le paramètre inconnu vérifie ou pas une ou plusieurs hypothèses.
On dit que l’on teste des hypothèses. L’hypothèse est dite simple quand elle est associée à la
valeur du paramètre et composée dans le cas contraire.

8.1.3 Modèle de travail


Les hypothèses sont les suivantes.
– L’ensemble Θ est connu et est fini :
4
Θ = {θ 0 , . . . , θ M −1 }, (8.1)

où M est le nombre d’hypothèses Hm à tester.


– Les probabilités a priori de chacune des hypothèses sont connues :
4
∀ m = 0, . . . , M − 1 Pm = P r[θ m ]. (8.2)

On a évidemment :
M
X −1
Pm = 1. (8.3)
m=0

56
– L’ensemble des observations X inclus dans RN est connu. On cherche à le partitionner en M
domaines ∆0 , . . . , ∆M −1 . Ces domaines doivent être disjoints pour qu’il n’ y ait aucun domaine
d’indécision. La réunion de ces M régions de décision doit correspondre à X pour qu’il n’y ait
pas d’observation où aucune décision ne peut être prise. On détectera θ i si X est dans ∆i :

X ∈ ∆i ⇒ θ̂ = θ i . (8.4)

– une fonction de perte (ou de coût) Cij est choisie pour mesurer le coût de la détection de θ i
quand la vraie valeur est θ j .
En général, il est logique de supposer que le coût d’une mauvaise décision est plus élevé que
celui d’une détection correcte :

∀ i, j = 0, . . . , M − 1 et i 6= j Cij > Cjj . (8.5)

– On suppose connue la loi de X conditionnellement au paramètre. Comme celui-ci est discret,


tout revient à supposer connues les probabilités PX /Hm de X sous les hypothèses Hm . On a
alors :
4
PX /Hm = PX /θ =θ m . (8.6)

8.2 Risque bayésien


Le même raisonnement que dans le cas continu peut être mené pour le calcul du risque moyen
ou risque de Bayes :
M −1 M −1
4 X X
R = E[C] = Cij P(i,j) , (8.7)
i=0 j=0

où P(i,j) est la probabilité conjointe de décider θ i et d’émettre la valeur θ j . On la note aussi P (∆i , Hj ).
En utilisant le théorème de Bayes, on a :
M
X −1 M
X −1
R= Pj Cij Pi/j , (8.8)
i=0 j=0

où Pi/j est la probabilité de décider θ i alors que la vraie valeur émise est θ j :
 R
P dX échantillon à valeurs continues
 ∆i X /Hj


Pi/j = P . (8.9)


 P X /Hj échantillon à valeurs discrètes
∆i

Il est possible de faire apparaı̂tre R comme la somme de 2 termes :


MP−1 R MP−1 MP−1 R
( P C P d(X) + ( P C ∆j PX /Hj d(X) échantillon à valeurs continues

j ij X /Hj j jj


 ∆i


 i=0 j=0,j6=i j=0

R= .




 MP−1 P MP−1 MP−1 P
 ( Pj Cij PX /Hj ) + ( Pj Cjj PX /Hj ) échantillon à valeursdiscrètes


i=0 ∆i j=0,j6=i j=0 ∆j
(8.10)
Comme les régions de décision forment une partition de l’espace d’observation X , on a :
−1
∆i = X − ∪M
j=0,j6=i ∆j , (8.11)

57
et :  R
P dX = 1 échantillon à valeurs continues
 X X /Hj

P , (8.12)

 PX /Hj = 1 échantillon à valeurs discrètes
X
soit encore :

R MP−1 R
PX /Hj dX = 1 − ∆i PX /Hj dX échantillon à valeurs continues



 ∆ j

 i=0,i6=j
. (8.13)

 P MP−1 P
PX /Hj = 1 − PX /Hj échantillon à valeurs discrètes




∆j i=0,i6=j ∆i

Le risque devient :


MP−1 R MP−1 MP−1 MP−1 R MP−1
( P C P d(X) + ( P C ) − ( Pj Cjj PX /Hj d(X) cas continu

j ij j jj


 ∆i X /Hj ∆i
 i=0
 j=0,j6=i j=0 j=0 i=0,i6=j
R= .

 MP−1 P MP−1 MP−1 MP−1 P MP−1
Pj Cjj ) − (

 ( Pj Cij PX /Hj ) + ( Pj Cjj PX /Hj ) cas discret

∆i

i=0 j=0,j6=i j=0 j=0 ∆i i=0,i6=j
(8.14)
Il en résulte comme expression :

MP−1 MP−1 R MP−1
Pj Cjj + Pj (Cij − Cjj )PX /Hj dX échantillon à valeurs continues



 ∆ i
 j=0
 i=0 j=0,j6=i
R= .

 MP−1 MP−1 P M P−1
Pj (Cij − Cjj )PX /Hj



 Pj Cjj + échantillon à valeurs discrètes
j=0 i=0 ∆i j=0,j6=i
(8.15)

8.3 Détection optimale


Le premier terme de R est fixé (constante K) tandis que le second évalue le coût des régions de
décision :
M
X −1
R=K+ ri , (8.16)
i=0

où :

R MP−1
Pj (Cij − Cjj )PX /Hj dX échantillon à valeurs continues



 ∆ i

 j=0,j6=i
4
ri = . (8.17)

 P MP−1
Pj (Cij − Cjj )PX /Hj



 échantillon à valeurs discrètes
∆i j=0,j6=i

La quantité ri représente la contribution au risque total R de la région de décision ∆i .


Par ailleurs, la stratégie optimale consiste à configurer les régions de décision de façon à minimiser
le risque total. A priori, ce problème d’optimisation globale de R en fonction de ∆0 , . . . , ∆M −1 s’avère

58
difficile. Pour le résoudre, il faut rappeler que le problème posé consiste à décider d’une hypothèse
à partir de la donnée d’un échantillon xech . Dans ce cas, la stratégie optimale consiste à assigner
l’échantillon xech à la région ∆i si le coût individuel de cette décision est minimal. Or, la contribution
ponctuelle au coût ri de l’échantillon est :
M
X −1
Pj (Cij − Cjj )PX /Hj (xech ). (8.18)
j=0,j6=i
Finalement, la contribution minimale de l’échantillon sera obtenu pour la région i telle que :
M −1
4 X
i = arg min Pj (Cij − Cjj )PX /Hj (xech ). (8.19)
i=0,...,M −1
j=0,j6=i
Cette dernière équation traduit la règle de décision optimale permettant de construire “point par
point” les régions de décision.

La solution directe serait d’évaluer les M valeurs possibles des sommes précédentes et de sélectionner
celle qui est minimale.
Cette méthode risque d’être coûteuse. Une autre approche est préconisée. Pour ce faire, on définit les
M − 1 rapports de vraisemblance (likelihood ratio) Li (xech ), définis par :
4 PX /Hj (xech )
∀ j = 1, . . . , M − 1 Lj (xech ) = . (8.20)
PX /H0 (xech )
Notons que ces rapports de vraisemblance sont des variables aléatoires car ils dépendent de l’observa-
tion.
La règle de décision optimale consiste à déterminer l’indice i qui minimise la somme :
M −1
4 X
Si (xech ) = Pj (Cij − Cjj )Lj (xech ). (8.21)
j=1

Cette seconde méthode est la meilleure. En effet, l’organe de décision a une structure simple. Il suffit
de calculer M − 1 sommes et de les comparer entre elles. En sortie, l’indice de la plus petite somme est
délivré. Notons que le récepteur peut remplacer le calcul des Si (·) par toute fonction monotone. Par
exemple, le logarithme a souvent, en pratique, une expression analytique plus simple à manipuler.

8.4 Cas de 2 hypothèses


8.4.1 Introduction
En télécommunications, le cas de M = 2 hypothèses est le plus fréquemment rencontré. Par
analogie avec le problème de détection en radar, l’hypothèse H0 est appelée l’hypothèse nulle (null
hypothesis) et correspond au cas où l’observation contient uniquement du bruit. L’hypothèse H1 est
l’hypothèse alternative. Elle est associée au cas où du signal utile est présent.
Il y a 4 cas de figures :
1. Décider H0 quand H0 est vraie. On parle de non-détection correcte.
2. Décider H0 quand H1 est vraie. On parle de non-détection erronée (miss). C’est le cas (grave)
où une cible présente n’est pas détectée.
3. Décider H1 quand H0 est vraie. On parle de fausse alarme (false alarm). On croit qu’une cible
est présente alors qu’il n’en est rien.
4. Décider H1 quand H1 est vraie. On parle de détection correcte.

59
8.4.2 Probabilités d’erreur
Aux 4 cas de figures précédents, on fait correspondre les probabilités suivantes.
– Probabilité de non-détection erronée PM :
 R
P dX échantillon à valeurs continues
 ∆0 X /H1

4
PM = P (∆0 /H1 ) = P . (8.22)

 PX /H1 échantillon à valeurs discrètes
∆0

– probabilité de fausse-alarme PF :
 R
P dX échantillon à valeurs continues
 ∆1 X /H0

4
PF = P (∆1 /H0 ) = P . (8.23)

 PX /H0 1 échantillon à valeurs discrètes
∆1

– probabilité de détection correcte PD :


 R
P dX échantillon à valeurs continues
 ∆1 X /H1

4
PD = P (∆1 /H1 ) = P . (8.24)

 PX /H1 échantillon à valeurs discrètes
∆1

Bien entendu, la relation suivante est toujours vérifiée :

PM + PD = 1 (8.25)

Il est facile d’exprimer la probabilité PC d’avoir une décision correcte :


4
PC = P (∆0 , H0 ) + P (∆1 , H1 ) = P0 P (∆0 /H0 ) + P1 P (∆1 /H1 ), (8.26)

soit finalement :
PC = P0 (1 − PF ) + P1 PD . (8.27)
La probabilité PE d’avoir une décision erronée s’en déduit directement :

PE = P0 PF + P1 PM . (8.28)

Le risque bayésien s’écrit en fonction de ces probabilités :

R = P0 (1 − PF )C00 + P1 (1 − PD )C01 + P0 PF C10 + P1 PD C11 . (8.29)

8.4.3 Détecteur optimal


Le détecteur optimal se déduit facilement du cas général. Il suffit de remplacer M par 2. Il faut
calculer :
– le rapport de vraisemblance
4 PX /H1
L1 (X) = , (8.30)
PX /H0
– le seuil η :
4 P0 (C10 − C00 )
η= . (8.31)
P1 (C01 − C11 )

60
La règle de décision optimale s’obtient aisément :

Si L1 (X) > η alors décider H1 . (8.32)

Si L1 (X) < η alors décider H0 . (8.33)


La structure de l’organe de décision est très simple. Dans la pratique, lorsque les probabilités a priori et
les coûts changent, seule la valeur du seuil η doit être mise à jour, la valeur du rapport de vraisemblance
ne varie pas.

8.4.4 Coût tout ou rien


Dans le cas particulier d’un coût tout ou rien :

C01 = C10 = 1 et C11 = C00 = 0, (8.34)

le seuil η a une expression simplifiée :


P0
η= . (8.35)
P1
En reportant dans l’équation (8.29), le risque bayésien devient :

R = P0 (1 − PF )C00 + P1 (1 − PD )C01 + P0 PF C10 + P1 PD C11 = P0 PF + P1 PM . (8.36)

En comparant avec l’équation (8.28), on voit que :

R = PE . (8.37)

Dans le cas d’un coût tout ou rien, la stratégie bayésienne optimale revient à minimiser la probabilité
d’erreur.

8.5 Stratégie du minimax


Bien que de structure simple, le récepteur optimal bayésien a l’inconvénient de supposer connues
les probabilités a priori des hypothèses à tester. Or, si on songe par exemple, au cas de la détection
radar, il est difficile de connaı̂tre a priori la probabilité de présence d’un avion ennemi. On est donc
obligé de reformuler le problème de la détection sans utiliser ces quantités.
Une première alternative consiste à sélectionner une valeur de P1 pour laquelle le risque R est maximum
puis à minimiser le risque (minimiser le maximum du risque).
Pour ce faire, écrivons R en fonction de P1 :

R = (1 − PF )C00 + PF C10 + P1 [(C11 − C00 ) + (C01 − C11 )PM − (C10 − C00 )PF ]. (8.38)

Le risque apparaı̂t comme une fonction linéaire de P1 . Pour une valeur fixée de P1 , il est possible
d’effectuer un test bayésien. Les régions de décision sont déterminées ainsi que les probabilités PF et
PM . Le test consiste à comparer :
(1 − P1 )(C10 − C00 )
L(X) > alors décider H1 . (8.39)
P1 (C01 − C11 )

Les régions de décision varient avec P1 . Les 2 valeurs extrêmes (0 et 1) de P1 correspondent à 2


situations particulières.
Si P1 = 0, le seuil est infini et on décide toujours pour l’hypothèse H0 . De plus, on a PF = 0 et
PM = 1. Le risque R = C00 .

61
De manière duale, si P1 = 1, le seuil est nul, on décide toujours pour H1 . Dans ce cas, PF = 1 et
PM = 0 et le risque vaut C11 .
Il s’agit de trouver la valeur P1∗ qui maximise le risque R. La condition d’extrémalité correspond à
l’équation du minimax :

(C11 − C00 ) + (C01 − C11 )PM − (C10 − C00 )PF = 0 (8.40)

8.6 Stratégie de Neyman-Pearson


Une seconde approche est préconisée pour éviter la connaissance des probabilités a priori. Il s’agit
de la stratégie de Neyman-Pearson. On se place dans le cas de M = 2 hypothèses à tester. Il s’agit de
maximiser la probabilité de détection PD pour un niveau donné α de la probabilité de fausse alarme
PF . Comme PM = 1 − PD , maximiser PD revient à minimiser PM . On doit résoudre un problème
d’optimisation sous contrainte : minimiser PM sous la contrainte PF = α. Pour cela, il faut minimiser
le critère J suivant :
4
J = PM + λ(PF − α), (8.41)
où λ ≥ 0 est le multiplicateur de Lagrange.
Plusieurs régions ∆1 vérifient PF = α. Le problème d’optimisation consiste à trouver celle(s) qui
minimise(nt) PM . Par conséquent, il est intéressant d’exprimer le critère J en fonction des régions de
décision :
 R R
 ∆ 0
PX /H1 dX + λ( ∆1 PX /H0 dX − α) échantillon à valeurs continues

J= P P , (8.42)

 PX /H1 + λ( PX /H0 − α) échantillon à valeurs discrètes
∆0 ∆1

soit encore :
R
λ(1 − α) + ∆0 [PX /H1 − λPX /H0 ]dX échantillon à valeurs continues



J= P . (8.43)
 λ(1 − α) + [PX /H1 − λPX /H0 ]dX échantillon à valeurs discrètes

∆0

Le critère J est minimisé quand les observations vérifiant PX /H1 − λPX /H0 > 0, sont assignées à la
région ∆1 . La règle de décision consiste à calculer le rapport de vraisemblance L(X) et de voir s’il est
inférieur à λ :
4 PX /H1
L(X) = >H1 λ. (8.44)
PX /H0
Le multiplicateur de Lagrange est déterminé par la condition PF = α :
 R
 L>α PL/H0 dL échantillon à valeurs continues

PF = α = P , (8.45)

 PL/H0 échantillon à valeurs discrètes
L>α

où PL/H0 est la probabilité conditionnelle du rapport de vraisemblance L(X) (qui est bien une va).
Ainsi, la structure du récepteur optimal de Neyman-Pearson est semblable à celle du récepteur
bayésien. La différence réside dans le calcul du seuil.
Dans la pratique, une façon d’évaleur les performances du test est de représenter la courbe PD en fonc-
tion de α. Cette courbe porte le nom de courbe Caractéristique Opérationnelle du Récepteur (COR)
ou (ROC pour Receiver Operating Characteristic).

62
Bibliographie

[1] P.J. Huber, Robust statistics, John Wiley, 1981.


[2] F. Hampel, E. Ronchetti, P. Rousseeuw, W. Stahel, Robust statistics : The approach based on
influence functions, Wiley, New-York, 1986.
[3] S. Taylor, Modeling financial time series, J. Wiley, New-York, 1986.
[4] Sir M. Kendall, A. Stuart, The advanced theory of statistics, Vol. 2, MacMillan, New-York, 1979.
[5] C.R. Rao, Linear statistical Inference and its applications, Wiley, 2nd Ed., New-York, 1973.
[6] E.L. Lehman, Non parametrics, Holden Day, San-Francisco, 1975.
[7] H. Scheffé, The analysis of variance, Wiley, New-York, 1959.
[8] J. Ziv, M. Zakai, “Some lower bounds on signal parameter estimation”, IEEE Trans. Inform.
Theory, Vol. 15, pp. 386-391, 1969.
[9] H Cramer, Mathematical methods of statistics, Princeton University Press, 1974.
[10] S.M. Kay, Fundamentals of statistical signal processing : estimation theory, Prentice Hall, New-
Jersey, 1993.
[11] R.A. Fisher, “Theory of statistical”, Proc. Camb. Phil. Soc., Vol. 22, p 700, 1925.
[12] J. Neyman, E. Pearson, “The testing of statistical hypotheses in relation to probability a priori”,
Proc. of the Cambridge Philosophical Society, Vol. 29, No. 4, pp. 492-510, 1933.
[13] J. Neyman, E. Pearson, “On the problem of the most efficient tests of statistical hypotheses”,
Philosophical Trans. of the Royal Society of London, Vol. A231, No. 9, pp. 289-337, 1933.

63

Vous aimerez peut-être aussi