HDR Comon

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 133

Quelques développements récents en traitement du

signal
Pierre Comon

To cite this version:


Pierre Comon. Quelques développements récents en traitement du signal. Traitement du signal et de
l’image [eess.SP]. Université Nice Sophia Antipolis, 1995. �tel-00473197�

HAL Id: tel-00473197


https://theses.hal.science/tel-00473197
Submitted on 14 Apr 2010

HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est


archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents
entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non,
lished or not. The documents may come from émanant des établissements d’enseignement et de
teaching and research institutions in France or recherche français ou étrangers, des laboratoires
abroad, or from public or private research centers. publics ou privés.
HABILITATION
A DIRIGER DES RECHERCHES

UNIVERSITE DE NICE SOPHIA-ANTIPOLIS


U.F.R. SCIENCES

QUELQUES DEVELOPPEMENTS RECENTS


EN TRAITEMENT DU SIGNAL

Pierre COMON

Présentée le 18 septembre 1995 devant le jury:

Mme Odile Macchi Présidente et Rapporteur

Mr Gérard Favier Examinateur


Mr Michel Granger Rapporteur
Mr Laurent Kopp Examinateur
Mr Jean-Louis Lacoume Rapporteur
Mr Joel Le Roux Examinateur
Quelques développements récents
en traitement du signal

HABITITATION A DIRIGER DES RECHERCHES

Pierre Comon

Imprimé le 16 août 1995


1

Bien évidemment, je remercie les membres du jury pour le temps qu’ils


ont accepté de sacrifier à l’analyse de mon travail. J’espère que cette analyse
n’aura pas été stérile.
Cependant, ce n’est pas l’essentiel de mon message. En effet un
dénominateur commun a réuni les membres du jury: la confiance qu’ils ont
bien voulu accorder à certains de mes travaux. Cette confiance est essen-
tielle dans la vie d’un chercheur car sa carence compromet l’efficacité de son
travail. Je tiens à remercier chacun d’entre eux pour ce concours implicite.

Je n’oublie pas ma petite famille, qui a souvent dû faire le sacrifice de


ses loisirs pour une cause discutable, ainsi que bien d’autres contributeurs
indirects sans qui mon travail aurait été entravé. Je pense notamment à G.
Bienvenu, défenseur de la recherche amont en milieu industriel.
2

A mes amis
Ceux que les diplômes indiffèrent
Ceux qui s’éloignent sans s’en rendre compte

Imprimé le 24 juillet 1995


Table des matières

1 Introduction 7
1.1 Organisation du document . . . . . . . . . . . . . . . . . . . . 7
1.2 Présentation succincte . . . . . . . . . . . . . . . . . . . . . . 8

2 Présentation des travaux 11


2.1 Traitement d’antenne . . . . . . . . . . . . . . . . . . . . . . . 11
2.2 Statistiques d’Ordre Elevé (SOE) . . . . . . . . . . . . . . . . 13
2.3 Algorithmes numériques . . . . . . . . . . . . . . . . . . . . . 15
2.4 Apprentissage supervisé . . . . . . . . . . . . . . . . . . . . . 16
2.5 Autres travaux . . . . . . . . . . . . . . . . . . . . . . . . . . 18

3 Introduction aux SOE 21


3.1 Variables aléatoires réelles scalaires . . . . . . . . . . . . . . . 21
3.2 Cas vectoriel, multicorrélations . . . . . . . . . . . . . . . . . 24
3.3 Cas complexe, multispectres . . . . . . . . . . . . . . . . . . . 27
3.3.1 Définition et circularité . . . . . . . . . . . . . . . . . 27
3.3.2 Densités multispectrales . . . . . . . . . . . . . . . . . 30
3.3.3 Circularité des variables spectrales . . . . . . . . . . . 31
3.4 Propriétés des moments et cumulants . . . . . . . . . . . . . . 33
3.4.1 Liens entre SOE et densité de probabilité . . . . . . . 37
a) Problème des moments . . . . . . . . . . . . . . . 37
b) Queues de distribution . . . . . . . . . . . . . . . 38
3.5 Estimation des moments et cumulants . . . . . . . . . . . . . 39
3.5.1 Les κ-statistiques . . . . . . . . . . . . . . . . . . . . . 39
3.5.2 Premiers cumulants des κ-statistiques . . . . . . . . . 40
3.5.3 Statistiques dans le cas gaussien . . . . . . . . . . . . 42
3.5.4 Cas multivariable . . . . . . . . . . . . . . . . . . . . . 44
3.5.5 Fonctions de multicorrélation . . . . . . . . . . . . . . 44

3
4 TABLE DES MATIERES

4 Intervention des SOE dans quelques problèmes 47


4.1 Tests de gaussianité . . . . . . . . . . . . . . . . . . . . . . . 47
4.1.1 Les tests existants . . . . . . . . . . . . . . . . . . . . 49
a) Tests scalaires . . . . . . . . . . . . . . . . . . . . 49
b) Tests vectoriels . . . . . . . . . . . . . . . . . . . 52
4.1.2 Statistiques du kurtosis multivariable . . . . . . . . . 55
a) Cas i.i.d. . . . . . . . . . . . . . . . . . . . . . . . 55
b) Cas coloré . . . . . . . . . . . . . . . . . . . . . . 56
4.1.3 Résultats sur signaux . . . . . . . . . . . . . . . . . . 60
4.2 Mélanges linéaires . . . . . . . . . . . . . . . . . . . . . . . . 62
4.2.1 Taxinomie . . . . . . . . . . . . . . . . . . . . . . . . . 62
4.2.2 Tour d’horizon bibliographique . . . . . . . . . . . . . 65
a) Déconvolution scalaire . . . . . . . . . . . . . . . 65
b) Séparation de signaux . . . . . . . . . . . . . . . . 66
c) Séparation de sources (ACI) . . . . . . . . . . . . 67
d) Déconvolution vectorielle à l’ordre 2 . . . . . . . . 69
e) Déconvolution vectorielle avec les SOE . . . . . . 70
4.2.3 Séparation de signaux . . . . . . . . . . . . . . . . . . 72
a) Mélanges instantanés inversibles de signaux . . . 72
b) Mélanges instantanés singuliers . . . . . . . . . . 74
4.2.4 Indépendance statistique . . . . . . . . . . . . . . . . . 76
a) Information mutuelle . . . . . . . . . . . . . . . . 76
b) Néguentropie . . . . . . . . . . . . . . . . . . . . 78
c) Développement en série d’Edgeworth . . . . . . . 81
d) Approximation de la néguentropie . . . . . . . . . 83
4.2.5 Contrastes statistiques . . . . . . . . . . . . . . . . . . 83
a) Généralités . . . . . . . . . . . . . . . . . . . . . . 83
b) Déconvolution scalaire . . . . . . . . . . . . . . . 85
c) Mélange instantané vectoriel . . . . . . . . . . . . 86
d) Mélanges convolutifs vectoriels . . . . . . . . . . . 92
4.2.6 Un algorithme pour l’ACI . . . . . . . . . . . . . . . . 94
a) Approche en deux étapes . . . . . . . . . . . . . . 94
b) Algorithme Contraste–Maximisation (CM) . . . . 94
c) Obtention de la rotation plane dans l’algorithme
CM . . . . . . . . . . . . . . . . . . . . . . . . . . 96
d) Maximisation de Υ3 . . . . . . . . . . . . . . . . . 97
e) Maximisation de Υ4 . . . . . . . . . . . . . . . . . 98
4.3 Décompositions tensorielles . . . . . . . . . . . . . . . . . . . 98
4.3.1 Diagonalisation tensorielle . . . . . . . . . . . . . . . . 99
TABLE DES MATIERES 5

4.3.2 Polynômes homogènes . . . . . . . . . . . . . . . . . . 100


4.3.3 Rang générique et nombre de solutions . . . . . . . . . 100

5 Orientations et perspectives 103

6 Bibliographie 111
6.1 Publications personnelles . . . . . . . . . . . . . . . . . . . . 111
6.1.1 Articles parus dans des revues internationales ou dans
des ouvrages édités en langue anglaise . . . . . . . . . 111
6.1.2 Articles parus dans des revues en langue française . . 113
6.1.3 Articles soumis à des revues avec comité de lecture . . 113
6.1.4 Conférences avec actes . . . . . . . . . . . . . . . . . . 113
6.1.5 Livres . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
6.1.6 Autres: Brevets, Conférences sans actes, notes de cours 117
6.2 Autres références bibliographiques . . . . . . . . . . . . . . . 118
6.3 Annexes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
6 TABLE DES MATIERES
Chapitre 1

Introduction

1.1 Organisation du document


L’habilitation à diriger des recherches est régie par l’arrêté du 23 novembre
1988, modifié par un arrêté du 13 février 1992. Pour plus de clarté, le
ministère de l’éducation nationale a publié une circulaire le 27 octobre 1992
afin de prévenir les mauvaises interprétations éventuelles des arrêtés. Il y
est notamment précisé que:
L’habilitation n’est pas une thèse. Il s’agit d’une procédure qui [...] doit
rester légère. [...] On ne saurait en particulier exiger du candidat [...] la
rédaction d’un véritable mémoire ni d’une seconde thèse, après celle du doc-
torat.
Bien que les textes officiels engagent les candidats à se contenter d’une
synthèse rapide suivie de publications, j’ai été encouragé par mon entourage
à aller plus loin. Cependant, ne voulant pas non plus m’engager sur la
rédaction d’une seconde thèse, j’ai délibérément choisi de ne détailler qu’une
partie de mes travaux. Ainsi, le contexte technique et l’état de l’art exposés
dans le chapitre 4 ne portent que sur un des quatre volets de ma recherche.
Le chapitre 2 présente de façon synthétique l’ensemble des travaux
que j’ai accomplis depuis 1983, et mentionne brièvement mes activités
périphériques à la recherche proprement dite, telles que l’organisation
d’évènements, l’obtention de contrats, ou les expertises scientifiques. La
vocation de ce chapitre n’est pas d’entrer dans des détails techniques, con-
trairement aux chapitres suivants; elle doit être acceptée comme étant très
partiale, puisque limitée à mes propres travaux.
Les chapitres 3 et 4 détaillent un des quatre volets de l’activité présentée

7
8 CHAPITRE 1

dans le chapitre 2, qui porte essentiellement sur l’usage des statistiques


d’ordre supérieur à deux. Pour plus de clarté et dans un souci de complétude,
le premier de ces deux chapitres rassemble un certain nombre de résultats en
principe connus, mais pour la plupart disséminés dans des ouvrages ou des
revues spécialisés. Le second chapitre présente en détail quelques contribu-
tions, en prenant cette fois en compte l’état de l’art de façon objective. Les
sections 4.1, 4.2, et 4.3 peuvent être vues comme trois projets de recherche,
du plus finalisé au plus ambitieux.
Enfin, et puisque ceci est requis d’après les arrêtés ministériels, le chapitre
5 est dédié à la présentation de projets de recherche futurs.

1.2 Présentation succincte


Les activités que j’ai menées depuis une dizaine d’années relèvent essen-
tiellement du domaine du traitement du signal, mais aussi de l’analyse de
données, et de l’analyse numérique. Ces activités peuvent être regroupées
dans quatre volets qui sont exposés ci-après de façon succincte.
Le premier volet, intitulé “Traitement d’antenne”, concerne les trans-
formations effectuées sur les signaux issus d’antennes à capteurs discrets,
utilisées en acoustique Sonar et en Radar notamment. Une des tâches à
réaliser est l’élimination de bruit de fond, en faisant appel à des opérateurs
linéaires, principalement des projecteurs. Ces opérateurs doivent être
adaptés à la tâche à effectuer mais aussi aux statistiques des signaux mesurés
afin de réduire les erreurs. La versatilité des espaces vectoriels que l’on peut
construire autour des signaux observés entraı̂ne autant de projecteurs de na-
ture différente. Une autre tâche majeure (qui rejoint la précédente à bien des
égards) est celle de la focalisation électronique de l’antenne dans une direc-
tion donnée, afin de réduire l’influence des sources rayonnantes avoisinantes,
et notamment des brouilleurs.
Pour ces deux tâches, il est très utile de pouvoir accéder aux perfor-
mances des traitements, même de façon approchée, en termes de gain en
rapport signal à bruit ou de résolution angulaire, par exemple. Par ailleurs,
grâce à l’essor des calculateurs, le recours aux statistiques d’ordre élevé est
maintenant possible et autorise l’utilisation d’opérateurs non linéaires.
Le deuxième volet concerne les Statistiques d’Ordre Elevé (SOE),
et en particulier l’étude du nouveau concept d’Analyse en Composantes
Indépendantes (ACI) que j’ai développé en 1990. L’ACI peut être considérée
comme une alternative à l’Analyse en Composantes Principales (ACP) en
INTRODUCTION 9

analyse de données; ce concept a de nombreux avantages sur l’ACP dans un


certain nombre de cas de figure, que l’on rencontre en particulier en traite-
ment d’antenne. Toutefois, de sérieux problèmes d’une part théoriques et
d’autre part algorithmiques restent encore incomplètement résolus.
J’ai montré notamment que l’ACI ne peut être définie que relativement
à la maximisation d’un critère de contraste, et que tous les contrastes ne
sont pas équivalents. Certains contrastes jouent cependant un rôle privilégié.
L’analyse des contrastes relève de la théorie de l’information. L’ACI est aussi
utile dans les problèmes de déconvolution ou d’identification multivariables.
En outre l’ACI soulève des problèmes plus généraux sur les décompositions
tensorielles (factorisation, diagonalisation).

Le troisième volet comprend l’étude d’algorithmes numériques. Ces al-


gorithmes peuvent être de type “en ligne”, c’est à dire traiter les données en
temps réel et mettre à jour une solution récursivement (le terme “adaptatif”
semble ambigu dans ce contexte), soit de type “hors ligne” et traiter les
données en temps différé. Considérons l’espace des matrices dont les dimen-
sions sont de l’ordre de N . On sait qu’un certain nombre de décompositions
de matrices nécessitent de l’ordre de N 3 opérations; c’est le cas notamment
de la factorisation QR et du calcul des éléments propres. Toutefois, cette
évaluation de complexité n’est valable qu’en régime hors ligne. En régime
en ligne, la complexité peut être diminuée d’un ordre de grandeur.
De même, si la matrice considérée possède une structure exploitable,
telle que Töplitz, Hankel, ou produit de Töplitz, qui sont des structures
rencontrées couramment en traitement du signal, la complexité hors ligne
peut être également considérablement réduite, au prix parfois d’une perte
de stabilité de l’algorithme. De plus, les algorithmes rapides existants tels
que celui communément appelé algorithme de Schur, ne permettent pas
résoudre au sens des moindres carrés les systèmes linéaires structurés sin-
guliers. Une qualité importante des algorithmes numériques est aussi leur
stabilité numérique apparente, fonction à la fois du conditionnement des
problèmes, et de l’arithmétique (nécessairement finie) des machines.
D’autre part j’ai évoqué au paragraphe précédent les problèmes algo-
rithmiques rencontrés avec la mise au point de l’ACI. Cette décomposition
demande en effet de l’ordre de N 4 à N 6 opérations, suivant la façon dont
on procède, cette complexité étant évidemment à mettre en parallèle avec
les O(N 3 ) opérations requises pour le calcul de l’ACP. Le coût élevé de
cette décomposition rend encore plus attrayantes les solutions rapides et
parallélisables.
10 CHAPITRE 1

Le quatrième et dernier volet est intitulé “Apprentissage supervisé”. En


traitement du signal, les problèmes de détection ou d’estimation sont traités
habituellement avec l’aide d’un modèle probabiliste. Le cas le plus simple
est celui de l’estimation d’un signal noyé dans un bruit, où l’on suppose
que le bruit est gaussien. Dans la pratique, l’hypothèse du bruit gaussien
additif est parfois beaucoup trop simpliste. On ne peut pourtant recourir
à des modèles plus performants que si les connaissances a priori que l’on a
du phénomène physique le permettent. Or cela ne représente peut être que
la moitié des situations rencontrées. C’est une des raisons pour lesquelles
les réseaux de neurones ont fait l’objet de tant d’engouement ces dernières
années.
Mon enthousiasme sera plus réservé, pour la simple raison que ces nou-
velles techniques ne semblent pas toujours apporter de solutions meilleures
que celles que fournissent les approches plus classiques qui, contrairement
à ce qui est souvent clamé, peuvent fort bien traiter ce genre de problème.
Le contexte des réseaux de neurones est celui de l’apprentissage d’un traite-
ment de façon “supervisée”, c’est à dire à l’aide d’un ensemble d’exemples
contenant des couples (entrée, sortie désirée). J’ai montré qu’il est aussi
possible d’élaborer des solutions classiques dans un tel contexte, et que ces
dernières peuvent être moins coûteuses. En outre, les performances sont
plus facilement prédictibles, et on peut s’attendre à ce qu’elles soient plutôt
meilleures.
Ces quatre volets vont être maintenant développés et commentés dans le
chapitre qui suit. Ceci sera notamment l’occasion d’introduire les publica-
tions parues dans la littérature ouverte.
Chapitre 2

Présentation des travaux

Dans ce chapitre, on propose un exposé des principales publications, étayé


de courts commentaires techniques de quelques lignes. Les publications
sont regroupées par type (articles en langue anglaise, française, actes de
conférences...), comme il de coutume de le faire, et classées par ordre
chronologique au sein de chaque type (cf chapitre 6). Je reprends succes-
sivement dans ce chapitre les quatre volets annoncés en introduction.

2.1 Traitement d’antenne


Une façon d’éliminer le bruit dans une mesure est de placer des capteurs
supplémentaires ne mesurant que des bruits. Les signaux ainsi mesurés sont
souvent appelés “références de bruit seul”. Imaginons par exemple que nous
voulions enregistrer une conversation dans une voiture. En plus du micro-
phone situé dans l’habitacle, nous pouvons placer des microphones ou des
accéléromètres en différents points stratégiques du moteur ou du châssis.
Par régression, il est possible d’estimer le bruit perturbant l’enregistrement
et de le soustraire à ce dernier. Pour cette raison, ce procédé exploitant
des références de bruit seul est souvent désigné par “soustraction de bruit”.
Evidemment, un tel procédé est d’autant plus performant que les références
de bruit sont corrélées avec le bruit perturbant le signal utile.
J’ai montré dans [11] [15] [59] que le rapport signal à bruit peut se
dégrader si la régression n’est pas calculée avec suffisamment de précision.
Dans ces travaux, j’ai proposé un critère de performance quantitatif pouvant
assurer un gain positif. Grâce à ce critère, un filtre “robuste” toujours per-
formant peut être construit. Sans entrer dans les détails, le résultat peut se

11
12 CHAPITRE 2

résumer ainsi: plus la cohérence entre le bruit perturbateur et les références


est faible, plus les observations devront être longues. Dans [10], nous avons
montré que la même technique peut être utilisée pour identifier l’ordre de
filtres à réponse impulsionnelle finie. Dans [19], j’ai repris de façon plus
didactique et plus succincte la technique d’évaluation des résidus dans les
problèmes de régression linéaire.
En l’absence de références de bruit, un autre recours est de multiplier
les mesures du signal pollué. Par focalisation électronique, on peut en-
suite construire un récepteur plus directionnel et réduire ainsi la présence
du bruit dans la mesure. Parmi les méthodes de focalisation connues, citons
la méthode de Capon maximisant le rapport signal à bruit, et les méthodes
Haute-Résolution (HR). Dans [57], nous révisons la présentation usuelle du
filtre spatial de Capon, alors que dans [55] je me penche sur les performances
de la méthode HR la plus répandue, basée sur l’Analyse en Composantes
Principales (ACP).
Avant de terminer cette section, on peut mentionner quelques travaux
un peu plus généraux pouvant aussi être utilisés en traitement d’antenne. Le
premier [23] souligne de façon didactique les différences élémentaires souvent
ignorées entre la théorie de l’estimation de paramètres réels, et complexes.
Quelques exemples sont donnés, notamment lorsque le bruit suit une loi
complexe circulaire. De nouvelles définitions de la notion de circularité sont
introduites dans [17].
Dans [61], on avait présenté différentes techniques d’extrapolation de
signaux lorsque les mesures sont interrompues (pannes d’enregistrement par
exemple). Dans [5], un nouvel algorithme d’identification de filtres à Réponse
Impulsionnelle Finie (RIF) à phase non minimale est proposé, basé sur des
statistiques d’ordre supérieur à deux. Pour des données de courte durée,
cet algorithme améliore considérablement les autres approches récemment
proposées dans la littérature.
J’ai proposé récemment un sujet de recherche spécifiquement axé sur
l’estimation de temps de retard, problème qui apparait fréquemment dans
le domaine du sonar, sous des formes plus ou moins complexes. L’idée de
départ était de recourir aux SOE [66] [21]. Deux pistes avaient été proposées
dans [21]. La première, basée sur une approche bande étroite, n’avait pas été
recommandée en raison de la difficulté que représente la fusion des bandes
en présence de bruit. La seconde consistait en l’identification d’un modèle
MA ou ARMA monique suivie d’une ACI. Grâce à l’obtention d’une bourse
CNRS cofinancée par Thomson, nous avons pu concrétiser cette idée. Une
première approche de type spectral [32] a été nantie d’une procédure de
PRÉSENTATION DES TRAVAUX 13

retour dans le domaine temps permettant une vraie intégration large bande
[31]. Une présentation plus élégante est donnée dans [26]. Nous avons aussi
développé l’autre approche consistant à identifier dans un premier temps un
modèle linéaire multivariable, puis à remonter dans un second temps aux
retards par interpolation [27].
Je participe (modestement) à la rédaction d’un ouvrage de synthèse sur
le traitement d’antenne [62], sous l’impulsion de Laurent Kopp.

2.2 Statistiques d’Ordre Elevé (SOE)


Le concept d’ACI a été initialement suggéré par C.Jutten vers 1987, et je l’ai
défini de façon précise en 1989. L’algorithme proposé à l’origine par C.Jutten
était présenté de façon heuristique, et utilisait des cellules de calcul neuro-
mimétiques. J’ai dans un premier temps analysé le fonctionnement de cette
technique [51] [6], ce qui a révélé sa sous-optimalité. Un autre algorithme a
été proposé par ailleurs dans [48] [50], et breveté [73]. Dans [50], une version
adaptative (en ligne) peu coûteuse était décrite. A ce stade, il s’agissait de
séparer des signaux inconnus linéairement mélangés par une transformation
instantanée.
Ces travaux ont démontré la généralité du problème et motivé la
définition du concept d’ACI, que j’ai d’abord proposé dans [21] et [43]. Cette
définition permet de s’affranchir du modèle d’observation linéaire avec bruit
gaussien, sous-jacent dans toutes les autres approches connues abordant le
problème de la séparation aveugle de signaux. Ceci a été rendu possible
grâce à l’introduction d’une fonctionnelle de “contraste”. Les résultats ex-
posés dans [43] sont développés plus en détail et de façon plus complète dans
[2]. La complexité du calcul de l’ACI, comparée pour diverses approches, a
été abordée dans [45] et [47].
L’ACI est directement applicable aux méthodes HR en traitement
d’antenne, ainsi que dans bien d’autres domaines: c’est une décomposition
pouvant prendre la place de l’ACP. J’ai esquissé quelques applications dans
[21] et [46], notamment la détection et la localisation de sources rayon-
nantes, la compression de données, et la classification. On peut notamment
définir le concept d’Analyse en Sous-espaces Indépendants (ASI) [29], qui
sera repris en section 2.4. Ce dernier permet de réduire le nombre minimal
d’échantillons en dimension d > 1, nécessaire pour estimer une densité de
probabilité avec une précision donnée.
L’ACI peut aussi être mise à profit dans les problèmes de déconvolution
14 CHAPITRE 2

[2] [43] et d’identification aveugles multivariables [49] [5]. Ces utilisations


de l’ACI conjointement à d’autres techniques d’identification permettent de
mettre en œuvre la séparation aveugle de signaux large-bande linéairement
mélangés par une transformation convolutive à phase non minimale (cf. sec-
tion précédente). Une application prometteuse est celle de l’amélioration du
contrôle aérien dans les aéroports civils, notamment celui d’Orly [3].
En essayant d’utiliser les SOE pour mettre en œuvre des algorithmes de
localisation haute-résolution, nous avons été confrontés a l’observation suiv-
ante: les variables aléatoires spectrales traitées ne possédaient pas toujours
la propriété dite de circularité. Cette constatation a été présentée assez
formellement dans [17]. Mais d’autres travaux ont exploré récemment ce
domaine plus en profondeur [176]. En coopération avec J.L.Lacoume, on
tentera dans l’ouvrage en préparation [63] de donner un aperçu synthétique
de l’ensemble de ces propriétés.
Un autre sujet a attiré mon attention ces dernières années, à force de
pratiquer l’usage des SOE. En effet, il est clair qu’il est des domaines plus
fertiles pour les SOE (comme les télécommunications) que d’autres (comme
le sonar). La question qu’on aimerait se poser avant de lancer une étude de
performances d’un algorithme sur une base de données réelle est de savoir
si les données s’écartent suffisamment du caractère gaussien pour qu’il y ait
un espoir de faire mieux que les techniques classiques d’ordre deux. Or, la
quasi-totalité des tests de gaussianité supposent que les signaux à tester sont
blancs. En outre, peu nombreuses, les techniques restantes demeurent très
gourmandes en calculs, et exigent des durées d’intégration importantes, ce
qui peut être incompatible avec la durée de stationnarité des phénomènes
observés. C’est pourquoi j’ai développé un test original, qui reste valable
quand on s’écarte de l’hypothèse de blancheur (dans la pratique, les spectres
des signaux doivent être continus et à large support). Les résultats semblent
pour l’instant encourageants [30].
Enfin, les cumulants (ou les moments) de variables aléatoires vectorielles
peuvent être vus comme des tenseurs symétriques. Avec cette vision sub-
jective, un problème tel que l’ACI devient un problème de diagonalisation
tensorielle [35]. Or, s’il y a apparemment très peu d’ouvrages connus sur
les décompositions en algèbre multilinéaire, de nombreux travaux ont vu le
jour depuis le début du siècle sur les polynômes homogènes (Gauss, Cayley,
Noether, Dieudonné...). C’est alors en remarquant qu’on peut associer bi-
jectivement tout tenseur symétrique à un polynôme homogène, qu’on peut
transposer de nouveau le problème [34]. Avec cette approche, au lieu de
chercher à diagonaliser approximativement un tenseur symétrique [36], on
PRÉSENTATION DES TRAVAUX 15

s’aperçoit que l’on peut le diagonaliser exactement, mais en général de


plusieurs manières [24].

2.3 Algorithmes numériques


J’ai expliqué dans l’introduction de ce document, ainsi que dans la première
section de ce chapitre, le rôle que joue l’ACP en traitement d’antenne,
et plus généralement en traitement du signal. Le calcul des éléments
propres a été longtemps considéré comme prohibitif en raison de son
coût élevé, i.e, de l’ordre de N 3 opérations pour une matrice symétrique
N × N . Toutefois, cette complexité peut être considérablement décrue
lorsque cette décomposition doit être calculée en ligne, ou lorsqu’un pe-
tit nombre d’espaces propres dominants sont requis [55] [54] [53] [52]. De
plus, ces solutions n’interdisent pas d’implantation parallèle pour autant
[12]. L’article [7] récapitule les résultats que j’ai obtenus et présente une
étude comparative de divers algorithmes adaptatifs existants.
Dans le contexte de l’ACI, nous avons suggéré la même famille
d’algorithmes dans [45] pour calculer les matrices propres de l’opérateur
quadricovariance, afin de réduire la complexité.
En régime non stationnaire (localement stationnaire), le calcul de la
régression linéaire dans le domaine spectral (pour la soustraction de bruit
par exemple) nécessite la résolution d’une suite de systèmes linéaires voisins
les uns des autres. Lorsque ces systèmes sont pleins, nous avons proposé
un certain nombre de solutions [13] [9]. En revanche, en régime hors ligne,
on peut également utiliser une des architectures parallèles maintenant bien
connues [8] [14] [22].
En régime stationnaire (ou presque stationnaire au sens des rangs de
déplacements), le calcul de la régression linéaire requiert la résolution de
systèmes structurés (Töplitz par exemple). Les algorithmes à notre dispo-
sition sont principalement issus de ceux qui sont maintenant connus sous le
nom de Levinson et de Schur. Malheureusement, ces derniers ne fonction-
nent efficacement que sur des classes de systèmes fortement réguliers. Pour
cette raison, il est important de savoir évaluer la stabilité de ces algorithmes
en fonction du conditionnement des systèmes. Dans [4] [41], nous avons
montré que même les systèmes structurés singuliers devraient pouvoir être
résolus rapidement au sens des moindres carrés, car une forme de structure
est préservée dans le calcul de la pseudo-inverse. D’autres travaux sont en
cours sur ce sujet [1].
16 CHAPITRE 2

Mais la rapidité n’est pas le seul critère à prendre en compte dans la


mise au point d’un algorithme. La robustesse numérique est au moins aussi
importante. Il se trouve précisément qu’en général plus les algorithmes sont
rapides, plus ils sont numériquement instables. Nous examinons dans [16] la
stabilité numérique de l’algorithme de Levinson, un des algorithmes les plus
utilisés pour la résolution des systèmes Töplitz. Ces travaux mériteraient
d’être poursuivis également pour l’algorithme de Schur, et les algorithmes
correspondants adaptés aux systèmes Töplitz par blocs.

2.4 Apprentissage supervisé


Comme je l’ai précisé en introduction, l’apprentissage supervisé consiste à
identifier une relation entre deux ensembles de variables, E et F, à partir
d’exemples {x(n) ∈ E, y(n) ∈ F, 1 ≤ n ≤ N } en nombre fini. Considérons
le cas d’une application de E dans F. Il est souvent clamé par une partie
de la communauté que les réseaux de neurones sont parfaitement adaptés à
ce genre de problème, puisque c’est également de cette façon qu’un enfant
apprend, supervisé par ses parents. Sans réfuter cette affirmation, je ne
pense pas que les techniques classiques soient incapables d’aborder ce genre
de problème. J’ai montré dans [20] comment les problèmes de classification
(où le cardinal de F est fini) pouvaient fort bien être résolus par l’approche
bayesienne.
J’ai suggéré également une méthode permettant d’identifier des applica-
tions plus générales [72]. Cette méthode peut aussi être utilisée pour identi-
fier des relations multivoques entre ensembles. Pour devancer les critiques,
l’implantation de l’apprentissage sur un réseau de cellules est également pos-
sible dans l’approche proposée [18]. Il convient donc de comparer cette ap-
proche “classique” et l’approche “neuronale”. C’est ce que j’ai tenté de faire
dans [18], en me limitant au réseau de neurones le plus répandu, le “Percep-
tron MultiCouche” (PMC). J’ai analysé en détail ses défauts et ses qualités.
Ma conclusion penche en faveur de mon approche, pour essentiellement
deux raisons. La première est qu’il est difficile de prédire les performances du
PMC sans faire appel à une interprétation probabiliste, ce qu’il est malgré
tout possible de faire lorsque la taille du réseau PMC et le nombre d’exemples
tendent tous deux vers l’infini [44] [37] [25]. Cette analyse montre aussi au
passage que les performances du PMC sont toujours moins bonnes que la
solution bayesienne. La seconde raison est que l’apprentissage du PMC est
très lent: le temps requis pour atteindre une précision donnée ǫ, n’est pas
PRÉSENTATION DES TRAVAUX 17

fonction polynomiale de ǫ, même dans le cas très favorable où le problème


est convexe [18]. Dans le jargon de la théorie de l’apprentissage, on dirait
que l’apprentissage du PMC est NP (Non Polynomial). On peut se référer à
[126] pour une introduction acceptable aux réseaux de neurones, et à [125]
pour une présentation moderne du point de vue traitement du signal.
Cependant, l’estimation des densités de probabilité soulève des problèmes
d’ordre pratique [33]. En effet, les résultats connus sont essentiellement
de nature asymptotique [29]; malgré les nombreux travaux menés par les
statisticiens, que je mentionne dans [29], le choix de certains paramètres est
encore laissé sous le contrôle de l’intuition, faute de mieux. Par exemple,
dans les estimateurs à noyau fixe, on sait que le facteur largeur doit être
de l’ordre de N −1/d+4 , si d est la dimesion de l’espace, et N le nombre
d’exemples. Mais le coefficient de proportionnalité est difficile à déterminer,
car il dépend du Laplacien de la densité cherchée.
Un autre obstacle pratique à l’utilisation des estimateurs à noyau est
leur grande exigeance en place mémoire pour de grands échantillons. Nous
avons proposé dans [28] une approche tirant parti d’un groupement au-
tomatique préalable. L’idée est que, dans certains problèmes, le temps
d’apprentissage ne compte pas, mais l’optimalité de l’exploitation de la
mémoire est d’importance. Par exemple, un constructeur de jouets, désirant
mettre au point une carte de reconnaissance de la parole bon marché, im-
posera des contraintes de mémoire importantes en mode opérationnel, mais
ne tiendra pas compte du fait que l’apprentissage prend 40mn sur un PC,
ou 3 jours sur une station UNIX, si cet apprentissage se fait une fois pour
toute en usine.
Enfin, le dernier problème auquel je me suis interessé dans ce domaine
est celui de la taille minimale de la base de données. Pour estimer une
densité en dimension d, il est clair qu’il faudra un nombre d’exemples fonction
exponentielle de d. Certains auteurs ont donné des indications pratiques dans
ce sens. Notamment, il est raisonnable d’admettre que le nombre minimal
d’exemples Nmin en dimension d est donné par log10 Nmin = 0.6 (d − 14 ).
Evidemment, cette règle est valable si aucune modèle paramétrique ne désire
être utilisé. De plus cette règle est une condition suffisante, permettant
d’obtenir une estimation de variance relative acceptable. Elle peut ne pas
être nécessaire, en particulier si les données s’avèrent être concentrées autour
d’une variété de dimension inférieure à d. Le problème est que ceci n’est pas
connu à l’avance, dans la quasi-totalité des cas.
Or il arrive fréquemment qu’on ait à construire un classifieur en dimen-
sion trop élevée par rapport à la borne précédente (exemple: d = 10 ⇒
18 CHAPITRE 2

N = 708000). L’idée proposée dans [2] [29] lorsqu’on est confronté à ce


problème est la suivante. On cherche un changement de base (inversible,
mais non orthogonal) de façon à ce que la variable aléatoire z de dimension
d puisse se décomposer en deux variables aléatoires x et y approximativement
indépendantes de dimension plus faibles dans le nouveau système:

pz (A u) ≈ px (u1 ) py (u2 ).

Cette décomposition a été baptisée Analyse en Sous-espaces Indépendants


(ASI), par analogie à l’ACI décrite plus haut, et fera l’objet de coopérations
avec d’autres laboratoires français et étrangers.

2.5 Autres travaux


Expérience industrielle Le poste que j’occupe depuis plus de sept ans à
Thomson requiert avant tout l’obtention de contrats de recherche. En effet,
la pérennité de l’activité de “recherche amont” n’est assurée qu’à ce prix,
les autres activités de la société étant conditionnées par leur rentabilité à
court terme. En outre, la conjoncture économique ne fait qu’exacerber ces
contraintes.
La circulaire ministérielle du 27 octobre 1992 demande que soient men-
tionnées dans le document d’habilitation les obtentions de contrats de
recherche. Il est difficile pour certains universitaires d’imaginer le coût que
représente une étude dans l’environement de travail qui est celui d’une grande
entreprise comme Thomson. En sept ans, j’ai démarché une dizaine de con-
trats pour un budget total de l’ordre de 8 millions de francs hors taxes (les
financements internes ne sont pas inclus dans ces chiffres). Un tel budget
est considéré comme modéré dans l’industrie.
Par ailleurs, j’ai eu l’honneur de rentrer au collège scientifique de Thom-
son S.A. en 1992.

Vie universitaire Sur le plan universitaire, j’ai encadré une thèse sur
le thème des algorithmes rapides pour les systèmes structurés, qui a été
soutenue en septembre 1993 (E. Kazamarande), et en encadre une autre
actuellement sur le thème de l’estimation de temps de retards différentiels
(B. Emile). Il n’est malheureusement pas envisageable d’encadrer plus d’un
étudiant à la fois tout en conservant comme emploi principal la fonction qui
est la mienne à Thomson-Sintra.
PRÉSENTATION DES TRAVAUX 19

J’ai également participé au jury de 12 thèses, la plupart du temps en


tant que rapporteur.

Enseignement De septembre 1981 à juin 1982, j’ai assuré pendant une


année scolaire des travaux dirigés d’algèbre élémentaire, tournée vers les ap-
plications en électricité. Entre octobre 1982 à mars 1984, j’ai été responsable
pendant deux années consécutives de travaux dirigés à l’INPG, sur la théorie
des distributions et leur application dans le monde de l’ingénieur. Entre oc-
tobre 1989 et mars 1993, j’ai assuré la dispense d’un petit cours-TD à l’ESSI
sur la théorie de la détection et le traitement du signal Sonar. A partir de
la rentrée 1995, je serai chargé d’un cours de DEA.

Organisation d’évènements J’ai été convié à participer à l’organisation


du “Workshop on High-Order Statistics” qui s’est tenu à Chamrousse en
juillet 1991. J’ai co-organisé les conférences IEEE sur les statistiques d’ordre
élevé en juin 1993 à Lake Tahoe, Californie, et en juin 1995 à Begur, Espagne.
J’ai également organisé une session spéciale d’une journée à la conférence
SPIE à San Diego en juillet 1994.
J’ai été l’instigateur du working group “ATHOS”, action Esprit BRA
notifiée en juillet 1992. Ce consortium a permis de fédérer certains efforts
du GDR-TDSI au delà des frontières de l’hexagone, dans le domaine des
statistiques d’ordre élevé.

Expertises J’expertise très régulièrement des articles soumis à des revues


scientifiques telles que: IEEE Transactions on Signal Processing, la revue
européenne Signal Processing, ou la revue française Traitement du Signal.
A titre plus occasionnel, j’expertise aussi des articles pour les revues IEEE
Transactions on Information Theory, IEEE Transactions on Circuits and
Systems, Neural Computation, ou SIAM Journal on Matrix Analysis.
Ces analyses représentent un volume de travail non négligeable dans
l’activité de recherche, surtout si elles sont nombreuses (au moins douze
par an). A titre occasionnel, j’ai été également convié à donner des avis
scientifiques sur des soumissions de projets à la CEE (Esprit BRA, Esprit
LTR). Par ailleurs, je suis amené de temps à autre à expertiser des soumis-
sions pour des conférences que je n’ai pas co-organisées (notamment pour
Eusipco92, Gretsi93, Eusipco94, et Gretsi95).
20 CHAPITRE 2

Invitations Outre quelques invitations à des séminaires privés en France


(e.g. séminaire annuel du Campus Thomson en mars 1990 et avril 95) ou
à l’étranger (e.g. séminaires EPFL à Lausanne en mai 1991 et novembre
1994), j’ai été invité à présenter mes travaux à plusieurs reprises, notam-
ment à la conférence SPIE qui s’est tenue à San Diego en juillet 1990,
au congrès WHOS de Chamrousse en juillet 1991, et plus récemment à la
conférence ESANN en avril 1995 à Bruxelles. J’ai été invité pendant 1 mois
par l’IMA (Institute for Mathematics and its Applications) à Minneapolis
pour le séminaire “Linear algebra for signal processing” en avril 1992. J’ai
aussi quelquefois participé à des “sessions invitées” de conférences interna-
tionales.
Chapitre 3

Introduction aux SOE

Les Statistiques d’Ordre Elevé (SOE), autrement dit, les moments et cumu-
lants d’ordre supérieur à 2, sont utilisées essentiellement en complément aux
statistiques d’ordre 2, afin de permettre la résolution de problèmes restés
insolubles jusqu’alors. L’identification de modèles MA multivariables fait
partie de ces problèmes [194]. En outre, les SOE ont été ensuite (et plus
récemment) exploitées pour améliorer les solutions (conditionnement, iden-
tifiabilité..) déjà apportées par les techniques classiques.
Ce chapitre est surtout destiné au néophyte. Son but est de donner
les définitions et propriétés nécessaires à l’introduction et à l’estimation des
SOE.

3.1 Variables aléatoires réelles scalaires


Soit X une variable aléatoire à valeurs dans IR (le cas de variables complexes
sera abordé plus loin dans la section 3.3). On notera Fx (u) sa fonction de
répartition et on supposera généralement que X admet une densité de prob-
abilité px (u). Autrement dit, nous aurons dFx (u) = px (u) du. Rappelons
que px (u) est positive et a pour somme l’unité. Si Fx (u) est une fonction en
escalier, elle n’admet pas de densité (la densité n’existe qu’au sens des distri-
butions). Les moments généralisés de X sont définis pour toute application
réelle g par: Z +∞
E{g(X)} = g(u) px (u) du. (3.1)
−∞
Dans la pratique, on utilise surtout des fonctions polynômiales g(u), con-
duisant aux moments “classiques” d’ordre n, tels que la moyenne ou la vari-

21
22 CHAPITRE 3

ance de X, mais également des fonctions exponentielles. C’est ainsi que l’on
associe “des fonctions caractéristiques” aux variables aléatoires.
La première fonction caractéristique de X est:

Φx (v) = E{ evX }, (3.2)

où  désigne la racine de −1. La fonction caractéristique Φ(v) est toujours


continue et vaut 1 à l’origine. Elle est donc non nulle dans un voisinage de
l’origine, sur lequel on pourra définir son logarithme néperien:

Ψx (v) = log( Φx (v) ). (3.3)

Cette nouvelle fonction est communément appelée seconde fonction ca-


ractéristique. Lorsque X admet une densité, px (u), on peut remarquer que
Φx (v) n’est autre que sa transformée de Fourier:
Z +∞
Φx (v) = evz px (z) dz. (3.4)
−∞

Dans ce cas, on retrouve la densité à partir de la première fonction cara-


ctéristique par transformée de Fourier inverse:
Z +∞
px (z) = e−vz Φx (v) dv. (3.5)
−∞

Notons µ′(r) {X} les moments d’ordre r de X, lorsqu’ils existent:

µ′(r) {X} = E{ X r }, (3.6)

et µ(r) {X} ses moments centrés:

µ(r) {X} = E{ ( X − µ′1 )r }, (3.7)

Les fonctions caractéristiques décrivent complètement la variable aléatoire


à laquelle elles sont associées. En particulier, ses moments peuvent être
obtenus à partir des dérivées successives de Φx (v) à l’origine:
dr Φx (v)
µ′(r) {X} = (−)r . (3.8)
dv r v=0

Les dérivées de la seconde fonction caractéristique prises à l’origine donnent


les cumulants:
dr Ψx (v)
C(r) {X} = (−)r . (3.9)
dv r v=0
INTRODUCTION AUX SOE 23

On montre [136] que les cumulants d’ordre n peuvent être calculés à


partir des moments d’ordre inférieur ou égal à n:

C(1) {X} = µ′(1) , (3.10)


C(2) {X} = µ(2) = µ′(2) − µ′2 (1) , (3.11)
C(3) {X} = µ(3) = µ′(3) − 3 µ′(1) µ′(2) + 2 µ′3
(1) , (3.12)
C(4) {X} = µ′(4) − 4 µ′(3) µ′(1) − 3 µ′2 ′
(2) + 12 µ(2) µ′2 ′4
(1) − 6 µ(1) (3.13)

Dans le cas de variables centrées (µ′1 = 0), les expressions se simplifient:

C(1) {X} = 0, (3.14)


2
C(2) {X} = E{X }, (3.15)
C(3) {X} = E{X 3 }, (3.16)
4 2 2
C(4) {X} = E{X } − 3 E{X } . (3.17)

La relation (3.9) montre que les cumulants sont les coefficients du


développement en série de Taylor de la seconde fonction caractéristique.
Lorsque la variable X est gaussienne, sa seconde fonction caractéristique est

1
Ψx (v) = µ′(1) v − µ v2 , (3.18)
2 (2)
ce qui montre que ses cumulants d’ordre supérieur à 2 sont tous nuls. In-
versement cette propriété caractérise la loi gaussienne [134]. On peut donc
en déduire que les variables gaussiennes sont entièrement décrites par leurs
propriétés au second ordre. Ceci explique pourquoi les chercheurs en traite-
ment du signal se sont longtemps limités au second ordre. En “invoquant”
le théorème de la limite centrale, on peut penser que la plupart des signaux
ont tendance à être gaussiens, mais ce point de vue est erroné. Nous aurons
l’occasion d’y revenir.
La variance de X, C(2) {X} caractérise la puissance de X. Les
quantités C(3) {X} et C(4) {X} caractérisent respectivement l’asymétrie et
l’aplatissement de la loi, en prenant la loi gaussienne comme référence. Afin
de rendre ces mesures indépendantes de la variance, on a coutume d’utiliser
des grandeurs standardisées parfois appelées facteur d’asymétie (skewness
en anglais) et facteur d’aplatissement (ou kurtosis, mot de racine grecque1
1
κύρτ ωσις: action de courber, convexité.
24 CHAPITRE 3

dont l’utilisation est autorisée en français), définies de la façon suivante:



K(3) {X} = C(3) {X/ µ2 } (3.19)

K(4) {X} = C(4) {X/ µ2 }. (3.20)

Pour une variable centrée, les facteurs d’asymétrie et d’aplatissement


s’écrivent:
E{X 3 }
K(3) {X} = , (3.21)
E{X 2 }3/2
E{X 4 }
K(4) {X} = − 3. (3.22)
E{X 2 }2

Exemple: La variable aléatoire uniformément répartie dans [−aa] a pour


ar
fonction caractéristique Φ(u) = sinauau , pour moments d’ordre pair µ′(r) = r+1 ,
6
et pour kurtosis K(4) = − 5 . On peut trouver dans [169] les coefficients
d’asymétrie et d’aplatissement obtenus pour quelques distributions standard.

3.2 Cas vectoriel, multicorrélations


Sauf mention contraire, on supposera dorénavant que les variables aléatoires
sont centrées. On pourra représenter les variables aléatoires à plusieurs
dimensions par un vecteur colonne:

X T = (X1 , X2 . . . Xn ) . (3.23)

De la même façon que dans le cas scalaire, on définit la fonction car-


actéristique conjointe de N variables aléatoires xn par la relation:
def Tx
Φx (v) = E{eΣvn xn } = E{ev }. (3.24)

Si les composantes xn du vecteur aléatoire x admettent une densité con-


jointe px (u), alors la fonction caractéristique de x est donnée par la Trans-
formée de Fourier de sa densité:
Z
Tu
Φx (v) = ev px (u) du. (3.25)
IR N

La seconde fonction caractéristique garde la même définition: Ψx (v) =


log Φx (v). Ces fonctions peuvent de nouveau servir à générer les moments
et les cumulants.
INTRODUCTION AUX SOE 25

Les cumulants d’ordre 2 sont des grandeurs à 2 indices, qui peuvent être
rangés dans une matrice (la matrice de covariance):

Cij = C(2) {Xi , Xj } = E{Xi Xj }.

Lorsqu’on manipule des données à plusieurs dimensions, nous voyons qu’il


peut devenir inutile de préciser l’ordre du moment ou du cumulant considéré.
Ainsi, la matrice de covariance peut être écrite:

Cij {X} = C{Xi , Xj }. (3.26)

Il n’y aura jamais ambiguité sur la signification d’un indice puisque


lorsqu’il indique l’ordre, il figure entre parenthèses. De même, les cumu-
lants d’ordre plus élevé pourront être souvent notés de façon plus compacte,
en omettant d’indiquer l’ordre lorsque ce dernier correspond au nombre de
variables entre accollades. Par exemple, on notera:

Cijk {X} = C{Xi , Xj , Xk }, (3.27)


Ciii {X} = C(3) {Xi }, (3.28)
Chijk {X} = C{Xh , Xi , Xj , Xk }, (3.29)
Ciiii {X} = C(4) {Xi }. (3.30)

Ces notations étant précisées, il est facile de voir, en développant


T
l’exponentielle ev x en série autour de v = 0, que les coefficients des termes
de degré r, vi vj ..vk , sont r µij..k /r! [136] [160], ce qui implique que:

∂ r Φx (v)
µ′i1 i2 ..ir {x} = (−)r . (3.31)
∂vi1 ∂vi2 ..∂vir v=0

Il est inutile de réécrire cette relation pour les cumulants car elle se déduit
de celle-ci en remplaçant Φ par Ψ.
Comme dans le cas scalaire, il est possible d’établir des égalités liant
moments et cumulants en développant la fonction log en série entière. On
obtient par exemple:

Cij {x} = µ′ij {X} − µ′i {X}µ′j {X}. (3.32)

Pour décrire l’ensemble de ces relations de façon plus complète, il est


nécessaire d’introduire des conventions d’écriture, sans quoi nous aurions
vite fait d’aboutir à des pages de termes, d’ailleurs très semblables les uns
aux autres.
26 CHAPITRE 3

On conviendra d’écrire une somme de k termes se déduisant les uns des


autres par permutation d’indices par une notation crochet. Quelques bons
exemples valent mieux qu’un long discours:

[3] δij δkl = δij δkl + δik δjl + δil δjk , (3.33)
[3] aij bk cijk = aij bk cijk + aik bj cijk + ajk bi cijk . (3.34)

La présence du crochet entraine donc une sommation implicite. On suppose


toujours que les termes à r indices (qui sont des tenseurs d’ordre r) sont
complètement symétriques. Pour que la notaton soit correcte, il faut que le
nombre de monômes distincts que l’on puisse obtenir par permutation soit
égal à l’entier figurant entre crochets. Ainsi, les écritures:

[3]xi δjk , [6]xi xj δkl , [10]xi xj xk δlm , [35]Aijk Babcd Cijkabcd ,

sont correctes. Les cumulants d’ordre 3 et 4 sont alors donnés en fonction


des moments par les expressions compactes:

Cijk = µ′ijk − [3]µ′i µ′jk + 2µ′i µ′j µ′k , (3.35)


Cijkl = µ′ijkl − [4]µ′i µ′jkl − [3]µ′ij µ′kl + 2 [6]µ′i µ′j µ′kl − 6µ′i µ′j µ′k µ′l .(3.36)

Dans le cas centré, ces expressions se simplifient et on a:

Cij = µij , (3.37)


Cijk = µijk , (3.38)
Cijkl = µijkl − [3]µij µkl . (3.39)

Il est intéressant de comparer ces expressions avec celles que l’on a obtenu
dans le cas scalaire.
De façon plus générale, les cumulants sont liés aux moments par la for-
mule de Leonov et Shiryaev (donnée ici à l’ordre r):

(−1)k−1 (k − 1)! E{
X Y Y Y
C{X1 , ..., Xr } = Xi } · E{ Xj } · · · E{ Xk },
i∈v1 j∈v2 k∈vp
(3.40)
où la sommation s’étend sur tous les ensembles {v1 , v2 , · · · , vp ; 1 ≤ p ≤ r}
formant une partition de {1, 2, · · · , r}. Cette expression s’étend au cas où les
{vi } ne décrivent plus nécessairement toutes les partitions; on parle alors de
cumulants généralisés [160, page 60].
INTRODUCTION AUX SOE 27

Multicorrélations
A l’instar de la fonction de corrélation d’ordre 2, on peut définir des fonctions
de multicorrélation d’ordre supérieur. Aux ordres 2 et 3, les moments centrés
et les cumulants sont confondus, de sorte qu’il n’existe pas d’ambiguité. En
revanche aux ordres plus grands, il faudra prendre garde à préciser s’il s’agit
de “multicorrélations cumulantes” ou non.
Lorsque ce n’est pas spécifié, on considère en général qu’il s’agit multi-
corrélations cumulantes, par défaut. A l’ordre r on définit par exemple:

CX,i1 i2 ..ir (t; τ2 , .., τr ) = C{Xi1 (t), Xi2 (t + τ2 ), ..., Xir (t + τr )}. (3.41)

Un processus réel à temps discret de dimension N , X(t), t ∈ ZZ , est dit


usuellement stationnaire (ou fortement stationnaire, ou stationnaire au sens
strict) si et seulement si l’ensemble des propriétés statistiques conjointes des
vecteurs [Xa1 (t1 + t), ..Xak (tk + t)] ne dépend pas de la date t, et ce pour
tout k ∈ IN , tout k-uplet (a1 , ..ak ), 1 ≤ aj ≤ N , et tout k-uplet (t1 , .., tk ),
tj ∈ ZZ . Cette définition est très forte et n’est pas toujours requise. Une
définition bien connue est celle de la stationnarité jusqu’au second ordre
(ou stationnarité au sens large, dite faible), qui requiert que la moyenne
µX = E{X(t)} et la fonction de corrélation CX,ij (τ ) = cum{Xi (t), Xj (t+τ )}
soient finies et qu’elles ne dépendent pas de la date t [175].
De la même manière, on peut définir la stationnarité à l’ordre r [85] [180]
[205] [89]:

Définition 3.2.1 Un processus réel à temps discret de dimension N , X(t),


t ∈ ZZ , est dit stationnaire à l’ordre r si et seulement si ses multicorré-
lations (corrélations cumulantes) CX,i1 i2 ..ir (τ2 , .., τr ) = cum{Xi1 (t), Xi2 (t +
τ2 ), ..., Xir (t + τr )} sont finies et ne dépendent pas de la date t.

Il est clair qu’un processus stationnaire (au sens strict) est stationnaire
à tous les ordres jusqu’à r si ses moments sont finis jusqu’à l’ordre r.

3.3 Cas complexe, multispectres


3.3.1 Définition et circularité
Une variable aléatoire complexe, comme l’a très justment souligné Fortet
[112], n’est rien d’autre qu’une variable aléatoire réelle de dimension 2. Ainsi,
28 CHAPITRE 3

une variable aléatoire complexe z admet une densité si et seulement si ses


parties réelle et imaginaire admettent une densité conjointe. On pourra
convenir de noter cette densité de façon compacte par pz (u), où u ∈ Cl .
De la même façon, on peut définir la fonction caractéristique d’une vari-
able complexe z. Si z = x + y, x ∈ IR N , y ∈ IR N , alors
def T v+y T w] †
Φz (u) = E{e[x } = E{e Re[z u] }, (3.42)

si u = v + w. Une propriété immédiate de cette notation compacte est que

ΦaZ (u) = ΦZ (a∗ u), (3.43)

pour tout scalaire complexe a. Nous avons par conséquent à notre disposition
les mêmes outils que dans le cas de variables réelles. Cependant, les variables
aléatoires complexes sont la plupart du temps obtenues par Transformée
de Fourier (TF) de données réelles, ce qui leur confère une structure très
particulière. Les variables aléatoires complexes obtenues de cette façon ne
sont donc pas de simples variables aléatoires à 2 composantes réelles, mais
des contraintes lient ces 2 composantes. C’est pourquoi il est pertinent
d’introduire les variables aléatoires dites circulaires.

Définition 3.3.1 Nous dirons qu’un vecteur aléatoire complexe de dimen-


sion N , Z, est circulaire (ou circulaire au sens fort), si et seulement si

ΦZ (au) = ΦZ (u), ∀a ∈ Cl , |a| = 1. (3.44)

En particulier, si Z admet une densité, Z est circulaire si Z eθ a même


densité de probabilité que Z.
Cette définition, proposée à l’origine dans [68] [17], est compatible avec
les définitions proposées dans le passé. En effet, elle entraine la proposition
suivante:

Proposition 3.3.2 Soit Z un vecteur aléatoire complexe, dont les moments


existent à tous les ordres. Alors Z est circulaire si et seulement si tous ses
moments de la forme:
∗bj
Ziai
Y Y
µpq = E{ Zj }
Σai =p Σbj =q

sont nuls dès que p 6= q.


INTRODUCTION AUX SOE 29

Démonstration. Si Z est circulaire, alors les moments de Z et de


Z eα sont égaux, puisque toutes deux ont même loi. En particulier, l’égalité
µpq {Z} = µpq {Z eα } entraine que

µpq {Z} = µpq {Z} eα(p−q) ,

ce qui prouve la proposition.


La proposition 3.3.2 montre par exemple qu’une variable aléatoire
scalaire complexe circulaire vérifie E{Z} = 0, E{Z 2 } = 0, E{Z 2 Z ∗ } = 0...
En outre, d’après la proposition 3.3.2, les fonctions caractéristiques (et
la densité de probabilité quand elle existe) d’un vecteur aléatoire complexe
circulaire sont fonction uniquement de la variable matricielle u u†:

∃f / ΦZ (u) = f (uu†). (3.45)

Cette propriété peut être comparée à la définition des variables dites


sphériquement invariantes. D’après [174], de telles variables sont telles que:

∃f / ΦZ (u) = f (u†Cu)

où C est une matrice hermitienne définie positive. Autrement dit, avec ces
définitions, toute variable sphériquement invariante est circulaire, mais la
réciproque n’est pas vraie.
Dans la suite, nous aurons besoin de la définition restrictive suivante:

Définition 3.3.3 On dira qu’un vecteur aléatoire complexe Z est circulaire


à l’ordre r s’il verifie
∗bj
Ziai
Y Y
E{ Zj }=0 (3.46)
Σai =p Σbj =q

pour tout couple (p, q) d’entiers positifs tel que p + q ≤ r et p 6= q.

Notons que cette définition ne suppose pas nécessairement que les mo-
ments sont finis pour p = q.
Dans le cas gaussien, la circularité à l’ordre 2 entraine la circularité à
tous les ordres, et est caractérisée par deux propriétés liant les parties réelle
et imaginaire. En effet, posons Z = A + B. Si Z est circulaire, alors
E{ZZ T } = 0 implique que E{AAT −BB T } = 0 et que E{AB T +BAT } = 0.
Autrement dit, A et B ont même matrice de covariance, et leur covariance
30 CHAPITRE 3

croisée est antisymétrique. C’est ainsi qu’ont été définies les variables gaussi-
ennes complexes circulaires [201] [122].
Différentes définitions possibles de circularité ont été récemment passées
en revue, et analysées plus en profondeur dans [176]. On remarquera no-
tamment que la définition de la circularité conjointe des composantes d’un
vecteur aléatoire est une notion bien plus forte que la circularité marginale
de chacune de ses composantes.

3.3.2 Densités multispectrales


Dans cette section, nous rappelons quelques résultats classiques de théorie
du signal. Nous renvoyons aux ouvrages [85, ch. IX] [86, ch. VIII] [180, ch.
I] [175, ch. 6] [90, ch. E.II.2] [160] pour les démonstrations.
Il est connu (Herghotz, Cramér) que si X(t) est un processus à temps
discret de dimension N faiblement stationnaire, alors il existe une fonction
matricielle unique G(λ) à accroissements non négatifs telle que:
Z 1/2
G(−1/2) = 0, et C(τ ) = e2πτ λ dG(λ). (3.47)
−1/2

On convient d’appeler cette fonction G(λ) la répartition spectrale de puis-


sance de X(t), et dG(λ) la mesure spectrale associée (d’après le théorème
de Bochner, ce résultat s’applique d’ailleurs aussi aux processus à temps
continu s’ils sont continus en moyenne quadratique).
De même, si X(t) est stationnaire jusqu’à l’ordre r (cf définition 3.2.1),
alors il existe une fonction tensorielle G(λ2 , .., λr ) telle que:

G(−1/2, .., −1/2) = 0, (3.48)


Z 1/2 Z 1/2 Pr
C(τ2 , .., τr ) = .. e2π τ λ
k=2 k k dG(λ2 , .., λr ). (3.49)
−1/2 −1/2

La quantité dG(λ2 , .., λr ) est la mesure multispectrale de X(t). Remarquons


que cette écriture n’est autorisée que si dG est une distribution tempérée,
ce qui devrait être vérifé par ailleurs. Il se trouve que ce problème n’a été
curieusement jamais abordé dans la littérature. A. Blanc-Lapierre introduit
par exemple une condition d’appartenance du processus à une classe baptisée
Φ(∞), qu’il est difficile de vérifier [85, ch.X].
Le signal X(t) n’admet pas toujours de densité multispectrale d’ordre r.
Une condition suffisante pour qu’il en admette une est qu’il soit sommable à
INTRODUCTION AUX SOE 31

l’ordre r, c’est à dire que X(t) soit stationnaire d’ordre r et que ses multi-
corrélations d’ordre r soient absolument sommables:
X
|Ca1 ..ar (u2 , .., ur )| < ∞. (3.50)
(u2 ,..,ur )∈ZZ r−1

Cette propriété assure que les multicorrélations d’ordre r tendent suf-


fisamment vite vers zéro pour justifier l’existence de leur transformée de
Fourier, les densités multispectrales fa1 ..ar (λ2 , .., λr ), qui sont alors contin-
ues. Ces dernières sont alors les différentielles d’ordre r de la fonction de
répartition spectrale. En outre, le processus X(t) sera dit mélangeant à
l’ordre r: plus les échantillons sont éloignés les uns des autres, plus ils sont
décorrélés à l’ordre r.
Les signaux aléatoires (faiblement stationnaires) eux-mêmes admettent
une représentation spectrale (représentation dite de Cramér) qui sera notée:
Z 1/2
X(t) = e2πtλ dZ(λ), (3.51)
−1/2

où le processus Z(λ) est un processus à accroissements orthogonaux, défini


par les relations:

Z(λ) = lim Z(T ; λ), λ ∈ [−1/2, 1/2] (3.52)


T →∞
Z λ T
X(t)e−2πty dy.
X
Z(T ; λ) = (3.53)
−1/2 t=−T

L’ensemble des définitions et propriétés essentielles que nous avons précisées


jusqu’à présent vont maintenant servir à l’établissement de la circularité des
variables spectrales.

3.3.3 Circularité des variables spectrales


Nous allons voir maintenant que les variables aléatoires complexes obtenues
par TF de signaux aléatoires à temps discret stationnaires sont circulaires.
Cependant, les signaux stationnaires n’admettent pas de transformée de
Fourier, même lorsqu’ils admettent une représentation spectrale [175, ch.
6.2]. Une façon classique de contourner le problème est de raisonner sur le
processus intégral Z(λ) introduit plus haut, ou sur ses accroissements dZ(λ).
32 CHAPITRE 3

Proposition 3.3.4 Soient X(t) un processus réel stationnaire jusqu’à


l’ordre r, r ≥ 2, et Z(λ) sa répartition spectrale. Alors pour tout k,
1 ≤ k ≤ r, et pour tout k-uplet (λ1 , .., λk ) de fréquences, λj ∈ [−1/2, 1/2],
les cumulants des accroissements spectraux s’écrivent:
X
cum{dZa1 (λ1 ), .., dZak (λk )} = δ1 ( λj ) dGa1 ..ak (λ2 , .., λk ), (3.54)

où δ1 désigne la distribution ”peigne de Dirac” de période 1, et dG la mesure


multispectrale de X(t).

Démonstration. Par définition de Z(λ), il vient que:

def
α = cum{Za1 (λ1 ), .., Zar (λr )} (3.55)
X XZ λ1 Z λr
= .. .. C12..r (t2 − t1 , .., tr − t1 )
t1 tr −1/2 −1/2
Pr
yk tk
e−2π k=1 dy1 ..dyr . (3.56)

Puisque X(t) est stationnaire à l’ordre r, on peut d’après (3.49) exprimer


ses multicorrélations en fonction de ses mesures multispectrales correspon-
dantes. D’où, en posant t1 = t:

X Z λ1 Z λr Z Z X
α = .. .. exp{−2π t(y1 + Σ uk )}
t2 ..tr −1/2 −1/2 t
r
X
exp{2π (uk − yk )tk } dG(u2 , .., ur )dy1 ..dyr . (3.57)
k=2

Or, la somme sur t ∈ ZZ de e2π tβ est égale à la distribution tempérée peigne


de Dirac de période 1, noté ici δ1 (β). Donc les r − 1 premières sommes dans
(3.57) valent δ1 (uk − yk ). Par conséquent, uk = yk et le cumulant calculé
devient:
Z λ1 Z λr r
X
α= .. dG(y2 , .., yr ) δ1 ( yk ). (3.58)
−1/2 −1/2 k=1

La proposition s’obtient alors par différentiation, grâce à la multilinéarité


des cumulants [160].
En corollaire, on peut établir la propriété de circularité suivante:
INTRODUCTION AUX SOE 33

Proposition 3.3.5 Si en outre X(t) est sommable à tous les ordres jusqu’à
r, alors pour toute fréquence λ telle que |λ| < 1r , les vecteurs dZ(λ) sont
circulaires à l’ordre (p + q) = r. Autrement dit:
∗ ∗
E{dZn1 (λ)..dZnp (λ) dZm 1
(λ)..dZm q
(λ)} = 0

dès que p 6= q, 1 ≤ p, q ≤ r.
Notons que pour les processus à temps continu, la circularité décrite
ci-dessus serait toujours assurée, pourvu que les écritures (3.47) et (3.49)
soient autorisées (par exemple, lorsque les mesures multispectrales dG sont
absolument sommables). On peut le vérifier en constatant que si la fréquence
d’échantillonage tend vers l’infini, alors la condition sur la fréquence réduite
|λ| < 1r tend à être toujours vraie pour toute valeur λ finie.
Démonstration. Soit s un entier quelconque, s ∈ {1, 2, .., r}, et p et q
deux entiers positifs tels que p + q = s. Appliquons la proposition 3.3.4 avec
λ1 = λ2 = .. = λp = λ et λp+1 = λp+2 = .. = λp+q = −λ. La somme des
fréquences vaut λi = (p − q)λ. Si p 6= q, alors une condition suffisante
P

pour que (p − q)λ ne soit jamais entier est que 0 < (p + q)|λ| < 1. Le terme
P
δ1 ( λi ) est donc toujours nul sous les hypothèses de la présente proposition.
Comme X(t) est sommable à tous les ordres jusqu’à r = (p + q), il admet
une densité multispectrale d’ordre s définie par:

dGa1 a2 ..as (λ2 , .., λs ) = fa1 a2 ..as (λ2 , .., λs ) dλ2 ..dλs ,

où fa1 a2 ..as est finie. D’après la proposition 3.3.4, tous les cumulants de
dZ(λ) d’ordre s sont donc nuls, pour tous les ordres s inférieurs ou égaux à
r. Comme les moments sont fonctions polynômiales des cumulants, ils sont
par conséquent aussi tous nuls.
Nous renvoyons le lecteur à l’article récent de B. Picinbono [176] pour une
discussion plus complète, et en particulier sur les conditions de circularité
conjointe.

3.4 Propriétés des moments et cumulants


Les SOS jouissent tout d’abord de deux proprı́etés élémentaires que nous
exposons maintenant; la seconde n’est satisfaite que par les cumulants.

Proposition 3.4.1 Les moments et cumulants satisfont la propriété dite


de multilinéarité. Soient deux vecteurs aléatoires x et y liés par la relation
34 CHAPITRE 3

linéaire y = Ax, où A est une matrice quelconque. Alors les moments et
cumulants de y sont des fonctions formellement linéaires de chacune des
composantes Aij . Par exemple nous aurons:
X
C{yi , yj } = Aia Ajb C{xa , xb }, (3.59)
a,b
X
C{yi , yj , yk } = Aia Ajb Akc C{xa , xb , xc }, (3.60)
a,b,c
X
µ{yi , yj , yk } = Aia Ajb Akc µ{xa , xb , xc }, (3.61)
a,b,c
X
C(3) {yi } = Aia Aib Aic C{xa , xb , xc } . . . (3.62)
a,b,c


Démonstration. Il suffit de remarquer que ΦAx (u) = Φx (A u), d’après
(3.42). En passant à la variable aléatoire réelle de taille double, on peut
alors obtenir le résultat à l’aide de (3.31).
C’est grâce à la multilinéarité que les moments et cumulants méritent la
dénomination de tenseurs. Notons que cette propriété se réduit dans le cas
scalaire à une simple relation d’homogéneité:

C(r) {λ x} = λr C(r) {x}. (3.63)

Proposition 3.4.2 Les cumulants satisfont la propriété d’ additivité suiv-


ante. Si x et y sont des vecteurs aléatoires indépendants, alors:

C{x + y} = C{x} + C{y}. (3.64)

Démonstration. SI x et y sont indépendantes, alors px,y (u, v) =


px (u) py (v), d’où Φx,y (u, v) = Φx (u) Φy (v), et finalement Ψx,y (u, v) =
Ψx (u) + Ψy (v). Ceci prouve la proposition pour les variables réelles. Les
variables complexes de dimension N peuvent être traitées comme des vari-
ables aléatoires de dimension 2N .
Nous avons défini dans la section 3.1 l’opération de standardisation pour
les variables aléatoires scalaires. Cette opération peut aussi être définie dans
le cas multivariable. Soit x un vecteur aléatoire de matrice de covariance
Cij . Si la matrice C est inversible, alors la variable standardisée est définie

comme étant x̃ = R−1 x, où R est une matrice telle que RR = C. Noter que,
la matrice R n’étant pas unique, la variable standardisée n’est pas unique,
INTRODUCTION AUX SOE 35


bien qu’ayant une covariance unité: C{x̃} = R−1 CR− = I. On convient
donc de choisir un procédé systématique pour calculer R, qui aura en outre
le mérite de fonctionner même lorsque C ne sera pas inversible.

Définition 3.4.3 Soient x un vecteur aléatoire de dimension N , C sa ma-



trice de covariance, et C = RS 2 R la décomposition en éléments propres
correspondante, où S est une matrice diagonale r × r à éléments strictement
† †
positifs, r ≤ N , et R une matrice vérifiant R R = I. Le vecteur x̃ = S −1 R x
est le vecteur standardisé associé à x.

Le vecteur x̃ est maintenant défini en général (càd si toutes ses valeurs


propres non nulles de C sont distinctes) à une matrice multiplicative près de
la forme ∆P , où ∆ est diagonale r × r et constituée d’éléments de module 1,
et P est une permutation. Le vecteur aléatoire x̃ a toujours une covariance
unité.
Les moments et cumulants satisfont un certain nombre d’inégalités re-
marquables qu’il est difficile de répertorier de façon exhaustive. La proposi-
tion ci-dessous en donne quelques-unes.

Proposition 3.4.4 Soit X un vecteur aléatoire réel d’ordre 4 et de dimen-


sion N . Alors ses cumulants standardisés γijkl = Kijkl {X} satisfont les
relations suivantes:

γiiii ≥ −2, (3.65)


γiijj ≥ −1, (3.66)
γiiii + 2γiiij ≥ −2, (3.67)
2
γiij ≤ γiiii + 2, (3.68)
2 2
γiij + γijj ≤ γiijj + 1. (3.69)

Démonstration. Si µijkl désignent les moments centrés de X, alors les


cumulants standardisés satisfont

γiiii = µiiii − 3, γiijj = µiijj − 1 si i 6= j

et γiiij = µiiij si i 6= j. D’après l’inégalité de Cauchy-Schwarz, toute variance


est positive, et en particulier var{Xi Xj +aXi +bXj } ≥ 0 quels que soient les
paramètres a et b. Si nous calculons cette variance en fonction des moments
centrés de X, nous obtenons donc un polynome de degré 2 en a et en b.
Pour a fixé, son discriminant est donc négatif, ce qui conduit à conclure
36 CHAPITRE 3

qu’un polynome en b est à son tour positif. La négativité de son discriminant


2 + γ2 ≤ γ
conduit finalement à la relation γiij ijj iijj + 1. De même, en étudiant
2
le signe de var{aXi + bXj }, on obtiendrait la relation γiij 2 ≤γ
iiii + 2.
Pour terminer, en étudiant le signe du polynome var{aXi2 +bXj2 +Xi Xj },
pour (a, b) ∈ IR ∪ {−∞, ∞}, on obtient l’inégalité suivante
a2 (γ1111 + 2) + b2 (γ2222 + 2) + (1 + 2ab)γ1122 + 2aγ1112 + 2bγ1222 + 1 ≥ 0.
dont les trois premières relations de la proposition sont des cas particuliers.

Exemple: Si pz (u) = 21 δ(u − 1) + 12 δ(u + 1), alors µ2r = 1 et µ2r+1 = 0.


Donc γ(4) = −2 et la borne est atteinte.

Théorème de la limite centrale par les SOE


Le théorème de la limite centrale a une grande importance car il permet
d’approximer la loi de certains estimateurs par la loi gaussienne, mais aussi
car il permet plus précisément d’accéder à l’ordre de grandeur de ses cumu-
lants successifs.
Proposition 3.4.5 Soient X(n), 1 ≤ n ≤ N , N variables aléatoires
scalaires indépendantes, chacune de cumuant d’ordre r borné, noté κr (n).
On pose
N N
1 X 1 X
κ̄r = κr (n) et Y = √ (X(n) − κ̄1 ).
N n=1 N n=1
Alors la variable aléatoire Y tend en loi vers une variable aléatoire gaussi-
enne. Plus précisément, ses cumulants d’ordre r, notés λr , sont donnés
par:
λ1 = 0, (3.70)
λ2 = κ̄2 , (3.71)
1
λr = κ̄r , ∀r ≥ 2. (3.72)
N r/2−1
Démonstration. En vertu de la propriété d’additivité (proposition 3.4.2),
les cumulants de la variable Y s’écrivent comme la somme:
N
C(r) {Y } = N −r/2
X
C(r) {X(n)},
n=1

ce qui prouve que λr = N 1−r/2 κ̄r par définition de κ̄r .


INTRODUCTION AUX SOE 37

3.4.1 Liens entre SOE et densité de probabilité


a) Problème des moments

La première fonction caractéristique est la transformée de Fourier de la den-


sité de probabilité, éventuellement au sens des distributions si cette dernière
n’existe pas. Ceci suffit à montrer, au moins intuitivement, que les con-
traintes qui vont lier les moments sont très compliquées, et qu’elles ne peu-
vent certainement pas être décrites simplement comme on l’a exposé dans la
section 3.4, à l’aide d’inégalités de Schwarz. Ces contraintes découlent essen-
tiellement de la positivité de la mesure. Déjà, nous avons vu que l’existence
des moments n’est pas liée à celle de la densité, mais à la différentiabilité de
la fonction caractéristique au voisinage de l’origine (on sait déjà qu’elle est
continue partout). Plus précisément, si une fonction caractéristique admet
une différentielle d’ordre r à l’origine, alors tous les moments jusqu’à l’ordre
r existent si r est pair, mais jusqu’à l’ordre r − 1 si r est impair [152, p. 29].
Le premier théorème, dû à Marcinkiewicz (1940), dont Dugué donna
une démonstration plus simple en 1951, établit que si une variable aléatoire
possède un cumulant non nul d’ordre r > 2, alors elle en possède une infinité
[2] [178] [134] [152]:

Théorème 3.4.6 Si une fonction caractéristique est de la forme Φ(u) =


exp{P (u)}, où P (u) est un polynôme, alors ce polynôme est de degré au
plus 2.

En d’autres termes, la variable aléatoire est soit réduite à une constante, soit
gaussienne.

Le problème des moments est le problème inverse, en quelque sorte.


Etant donnée une suite de nombres, existe-il une densité qui les admette
pour cumulants (ou moments) ?
Sous certaines conditions, la suite infinie des moments peut définir la
fonction caractéristique de façon unique [134]. Mais on peut trouver des
exemples de densités ayant la même suite infinie de moments [152, p. 20].
Lorsqu’une suite finie de moments est donnée, s’il existe une solution, il y en
a en général plusieurs. On peut alors sélectionner une solution en maximisant
par exemple l’information de Fisher [204].
Notons que le problème des moments a également été étudié à l’ordre 2,
pour les processus stationnaires [146]. Il s’agit alors de compléter une suite
de valeurs de la fonction de corrélation, connue en un nombre fini de valeurs.
38 CHAPITRE 3

Connaissant les 4 premiers cumulants, il peut être intéressant sur le


plan pratique de connaitre une loi réaliste pouvant approximer celle des
observations. Le système de lois de Pearson permet de répondre à cette
préoccupation; en effet, il effectue une partition de l’ensemble des den-
sités, dont les 4 premiers moments sont finis, en différentes familles, suivant
les valeurs du couple asymétrie-kurtosis [138, vol.6, p.655–657] [138, vol.3,
p.216–219] [131, ch. 12]. Evidemment, le choix de cette solution a principale-
ment un intérêt pratique, mais n’est pas justifié par un critère d’optimalité,
contrairement à l’approche du problème des moments.

b) Queues de distribution

Une idée fausse consiste à croire qu’une densité ayant des queues de distribu-
tion en-dessous de la gaussienne aura nécessairement un kurtosis négatif, et
un kurtosis positif dans le cas contraire. En outre, la définition des lois sous-
et sur-gaussiennes est très versatile, suivant les articles techniques, comme
nous l’expliquons maintenant.
Benveniste propose notamment [83, page 390] une définition faisant in-
tervenir la monoticité de

1 d log px (u)
f (u) = − .
u du

Lorsque f (u) est strictement croissante (resp. décroissante), px (u) est dite
sur-gaussienne (resp. sous-gaussienne). Il est clair que certaines densités ne
seront ni l’une, ni l’autre.
En revanche, de nombreux auteurs qualifient de sur-gaussiennes les den-
sités ayant des queues de distribution supérieures à la densité gaussienne à
l’infini [204], et de sous-gaussiennes les autres. En réalité, A. Mansour a
montré par une simple application d’un théorème de la moyenne que cette
dernière définition est équivalente au signe du kurtosis (négatif pour les den-
sités sous-gaussiennes) si la partie paire de la densité coupe deux fois (càd
une fois sur [0 + ∞[) la densité gaussienne de mêmes moyenne et variance.
En revanche, des contre-exemples des deux types ont été donnés lorsque le
nombre d’intersections est différent de deux.
On retiendra donc qu’il existe au moins trois définitions du caractère
de sous- ou sur- gaussianité, et que ces dernières ne sont pas toujours
équivalentes.
INTRODUCTION AUX SOE 39

3.5 Estimation des moments et cumulants


3.5.1 Les κ-statistiques
Si X est une variable aléatoire scalaire, et si x(n), 1 ≤ n ≤ N , sont
N réalisations de X identiquement distribuées, il est naturel d’estimer sa
moyenne statistique de X par la moyenne arithmétique de ses réalisations:
N
1 X
k(1) = x(n). (3.73)
N n=1

Il est facile de vérifier que k(1) est un estimateur non biaisé de µ′(1) . On pour-
rait être tenté de poursuivre aux ordres supérieurs en utilisant les moyennes
empiriques suivantes
N
1 X
m(r) = (x(n) − k(1) )r , (3.74)
N n=1

mais il s’avère que ces estimateurs sont en général biaisés. En effet, nous
avons par exemple, si les réalisations x(n) sont indépendantes:

N −1
E{m(2) } = µ(2) .
N
Un estimateur non biaisé de la variance de X est donc:
N
k(2) = m . (3.75)
N − 1 (2)
Ce procédé peut être poursuivi aux ordres supérieurs à 2 en cherchant les
coefficients αi,r tels que l’expression
r
X Y
k(r) = αi,r m(qi ) (3.76)
i=1 Σ qi =r

soit un estimateur non biaisé de C(r) {X}. Ainsi on trouverait:

N2
k(3) = m (3.77)
(N − 1)(N − 2) (3)
N2
k(4) = [ (N + 1) m(4) − 3 (N − 1) m2(2) ].
(3.78)
(N − 1)(N − 2)(N − 3)
40 CHAPITRE 3

Les quantités définies de cette façon sont communément appelées κ −


statistiques [136]. En ce qui concerne les cumulants standardisés, il n’existe
pas d’estimateur non biaisé qui soit indépendant de la distribution de X.
L’asymétrie et l’aplatissement, qui sont essentiellement les seules grandeurs
standardisées qui retiendront notre intérêt, seront estimées par les grandeurs
biaisées suivantes:
3/2
K(3) {X} : g(3) = k(3) / k(2) , (3.79)
2
K(4) {X} : g(4) = k(4) / k(2) . (3.80)

3.5.2 Premiers cumulants des κ-statistiques


Les cumulants successifs des estimateurs k(r) sont maintenant bien connus, et
leurs moments et cumulants successifs peuvent être calculés de façon exacte
[136] § 12.16. Pour alléger les écritures, notons les cumulants κ(r) = C(r) {X},
r/2
les moments standardisés β(r) = µ(r) /µ(2) , et les cumulants standardisés
γ(r) = K(r) {X}. On notera en particulier que (tooujours sous l’hypothèse
que les échantillons sont i.i.d.):

κ4 2 κ22
µ(2) {k(2) } = + , (3.81)
N N −1
κ6 9 (κ4 κ2 + κ23 ) 6N κ32
µ(2) {k(3) } = + + , (3.82)
N N −1 (N − 1)(N − 2)
κ8 (16 κ6 κ2 + 48 κ5 κ3 + 34 κ24 )
µ(2) {k(4) } = + +
N N −1
8N (9 κ4 κ22 + 18 κ23 κ2 ) 24N (N + 1) κ42
+ ;(3.83)
(N − 1)(N − 2) (N − 1)(N − 2)(N − 3)

et que, pour de grandes valeurs de N :


1
C(3) {k(2) } ≈ [κ6 + 12 κ4 κ2 + 4 κ23 + 8 κ32 ], (3.84)
N2
1
C(3) {k(3) } ≈ [κ9 + 27 (κ7 κ2 + 3 κ6 κ3 + 4 κ5 κ4 ) + 18 (12 κ5 κ22 + 45 κ4 κ3 κ2
N2
+14 κ33 + 30 κ3 κ32 ) ], (3.85)
1
C(4) {k(2) } ≈ [κ8 + 24 κ6 κ2 + 32 κ5 κ3 + 32 κ24 + 144 κ4 κ22 + 96 κ23 κ2
N3
+48 κ42 ]. (3.86)
INTRODUCTION AUX SOE 41

En raison de leur longueur, les expressions des cumulants de k(4) ne sont


pas rapportées ici. Plus généralement, nous avons:

1
C(q) {k(r) } = O( ). (3.87)
N q−1

Les estimateurs k(r) sont par conséquent asymptotiquement gaussiens. Mais


si l’approximation gaussienne est assez vite valable pour κ(2) , il faudra
vraisemblablement atteindre des valeurs nettement plus grandes de N pour
qu’elle soit valable pour κ(3) et a fortiori κ(4) ; pour s’en assurer, il suffit
de consulter [136] pour constater que le coefficient du terme en 1/N q−1 est
généralement de plus en plus grand lorsque r augmente. Pourtant, certaines
distributions échappent à cette règle heuristique [87].
Par ailleurs, les propriétés statistiques des estimateurs standardisés g(r)
ont été étudiées seulement de façon approchée pour de grandes valeurs de N
[160] [138], en raison de leur complexité. On notera en particulier qu’ils sont
biaisés au premier ordre, et qu’ils sont corrélés (leur biais dépend d’ailleurs
des cumulants d’ordre plus élevé) [136, ex.10.26-27]. En effectuamt un
développement limité de la fonction de deux variables w(x, y) = x/y 3/2 ,
il est possible d’obtenir les expressions approchées (3.91) et (3.92):

1
E{g(3) } = β(3) + O( ), (3.88)
N
1
E{g(4) } = β(4) + O( ), (3.89)
N
1 1
µ(2) {g(3) } = [β − 6 β(4) + 9 + β(3) (9 β(4) + 35) − 3 β(5) β(3) ]
N (6) 4
1
+O( 2 ), (3.90)
N
1 1 2 11 2
µ(2) {g(3) } = [γ − 3 γ(3) γ(5) + 9 γ(4) (1 + γ(3) )− γ + 6]
N (6) 4 2 (3)
1
+O( 2 ), (3.91)
N
1 3 2
µ(2) {g(4) } = [β − 4 β(6) β(4) + 4 β(4) − β(4) + 16 β(4) β(3)
N (8)
1
−8 β(5) β(3) + 16 β(3) ] + O( 2 ). (3.92)
N

Exemple: Si X(n) sont des variables indépendantes uniformément dis-


tribuées dans [−aa], alors pour de grandes valeurs de N , la variance relative
42 CHAPITRE 3

du moment empirique d’ordre r vaut pour r pair:


V ar{k(r) } 1 r2
= .
µ2(r) N 2r + 1

3.5.3 Statistiques dans le cas gaussien


Dans le cas gaussien, un certain nombre de simplifications sont possibles car
tous les cumulants d’ordre supérieur à deux apparaissant dans les expressions
r/2
générales sont nuls. De plus, k(2) et k(r) /k(2) sont indépendantes. On obtient
notamment [136, §12.16, 12.18]:

2
µ(2) {k(2) } = κ2 , (3.93)
N −1 2
6N
µ(2) {k(3) } = κ3 , (3.94)
(N − 1)(N − 2) 2
24N (N + 1)
µ(2) {k(4) } = κ4 . (3.95)
(N − 1)(N − 2)(N − 3) 2
Cette dernière relation montre par exemple que la variance du cumulant
d’ordre 4 est en O( 24 4
N ). Dans le cas complexe circulaire, on trouverait O( N ).
En ce qui concerne les estimateurs de l’asymétrie et de l’aplatissement,
nous avons dans le cas gaussien des résultats exacts [136] ex. 12.9, 12.10, et
12.22, [160] p 108-109, [157]:

E{k3 }
E{g(3) } = 3/2
E{k2 }
= γ(3) = 0, (3.96)
E{k4 }
E{g(4) } =
E{k22 }
= γ(4) = 0, (3.97)
6N (N − 1)
µ(2) {g(3) } =
(N − 2)(N + 1)(N + 3)
6 1
≈ + O{ 2 }, (3.98)
N N
24N (N − 1)2
µ(2) {g(4) } =
(N − 3)(N − 2)(N + 3)(N + 5)
24 1
≈ + O{ 2 }. (3.99)
N N
INTRODUCTION AUX SOE 43

Autrement dit, la variance du kurtosis (aplatissement) est du même ordre


que celle du cumulant d’odre 4 non standardisé.
On vérifie que les variances (3.98) et (3.99) peuvent être obtenues en
annulant les cumulants standardisés dans les expressions (3.91) et (3.92).
Il est aussi possible de calculer les cumulants standardisés des estimateurs
standardisés g(r) . En effet, on peut déduire de [157] que:

K(3) {g(3) } = 0, (3.100)


r
216 213 1
K(3) {g(4) } = − √ + o{ 2 }, (3.101)
N N N N
36 864 1
K(4) {g(3) } = − 2 + o{ 2 }, (3.102)
N N N
540 20 196 1
K(4) {g(4) } = − 2
+ o{ 2 }. (3.103)
N N N
Il est clair que pour N de l’ordre de 300 ou plus, l’aplatissement de
g(3) devient négligeable; en revanche, il faut atteindre des valeurs de N >
5000 pour avoir une approximation gaussienne acceptable pour g(4) . La
distribution exacte de g(3) et g(4) a été tabulée par Pearson et Hartley dans
les années 70. Par ailleurs, D’Agostino et Pearson [102] ainsi que Anscombe
et Glynn [78] donnent ces distributions pour des valeurs de N inférieures à
200.
Exemple: Si X(n) sont des variables gaussiennes indépendantes, toutes
de moyenne nulle et de variance σ 2 , alors le moment centré d’ordre 2r est
donné par:
σ 2r (2r)!
µ(2r) = ,
2r r!
et la variance relative du moment empirique correspondant est, pour de
grandes valeurs de N :
" #
V ar{k(2r) } 1 4r! r!2
2 = −1 .
µ(2r) N 2r!3

Un estimateur du cumulant d’ordre 4 a été proposé récemment par Am-


blard [76] , et n’a pas recours de manière explicite aux moments d’ordre 4, ce
qui peut être avantageux dans une implantation récursive. Cet estimateur
s’écrit, à la date t, si on dispose de l’estimation à la date précédente et des
observations x(t) et x(t − 1):
 
k(4),t = (1 − α) k(4),t−1 + α x(t)4 − 3x(t)2 x(t − 1)2 . (3.104)
44 CHAPITRE 3

3.5.4 Cas multivariable


Dans le cas de variables à plusieurs composantes, le principe mis en œuvre
est le même, bien que les notations soient nettement plus compliquées. Il
faut notamment faire appel à la convention de sommation d’Einstein, et à la
notation crochet de McCullagh. C’est pourquoi on se contente d’expressions
asymptotiques (pour de larges valeurs de N ). Toutefois, il existe aussi des
mécanismes dans le cas multivariable pour générer les κ-statistiques [160].
On citera, simplement à titre d’exemple, le cumulant d’ordre 3 de la
covariance estimée:
1 1
C(3) {κij , κkl , κmn } =
2
κijklmn + [12] κijkl κmn
N N (N − 1)
N −2 1
+[4] κijk κlmn + [8] κij κkl κmn . (3.105)
N (N − 1)2 (N − 1)2

3.5.5 Fonctions de multicorrélation


On définit habituellement l’estimation suivante de la fonction
d’autocorrélation (d’ordre 2) d’un processus x(t) scalaire stationnaire au
sens large:
N
1 X
Ĉ(2),x (τ ) = x(t) x(t + τ ). (3.106)
N t=1
Notons que pour N fini, cet estimateur n’utilise pas également toutes les
données. En pratique, on a aussi le choix entre deux autres estimateurs; le
premier est biaisé mais de type positif, et le deuxième non biaisé:

1 NX
−τ
Ĉ(2),x (τ ) = x(t) x(t + τ ), (3.107)
N t=1
N −τ
1 X
Ĉ(2),x (τ ) = x(t) x(t + τ ). (3.108)
N − τ t=1

Lorsque τ << N , les trois estimateurs sont équivalents.


La convergence (et la consistence) de ces estimateurs est une question
importante, qui est liée aux propriétés d’ergodicité du processus [137, sec.
47.7] [89, p. 41-43] [86, ch.15]. En appliquant le théorème ergodique à la
série chronologique x(t)x(t + τ ) à τ fixé, on pourrait étudier la convergence
p.s. (presque sûre) de l’estimateur de la fonction de corrélation. Cependant,
il peut être utile de se contenter d’une stationnarité plus faible, d’une part,
INTRODUCTION AUX SOE 45

et de chercher à obtenir une consistence en moyenne quadratique (m.q.),


d’autre part. Rappelons que les convergences m.q. et p.s. ne sont pas
toujours comparables.
Nous savons qu’à l’ordre 2, la variance de la fonction d’autocorrélation
(3.106) est donnée par:

1 NX−1
V ar{Ĉ(2),x (τ )} = (N − s) C(4)x (s, τ, s + τ ) + (N − s) C2(2)x (s)
N 2 s=0
−s C2(2)x (τ ) + (N − s) C(2)x (s + τ ) C(2)x (s − τ ).(3.109)

Habituellement, on adopte d’ailleurs plutôt l’expression suivante, valable si


les C(r),x décroissent assez vite vers zéro:

1 NX
−1
V ar{Ĉ(2),x (τ )} ≈ C (s, τ, s + τ ) + C2(2)x (s) + C(2)x (s + τ ) C(2)x (s − τ ).
N s=0 (4)x
(3.110)
Pour que l’estimateur Ĉ(2),x (τ ) converge vers C(2),x (τ ) en moyenne quadra-
tique (consistence forte), il suffit que [123]:

1. x(t) admette des moments finis jusqu’à l’ordre 4,


2. x(t) soit stationnaire jusqu’à l’ordre 4,
1 PN 2
3. N u=1 C(2),x (u) → 0 si N → ∞
1 PN
4. N u=1 C(4),x (u, τ, u + τ ) → 0 si N → ∞

Notamment, il est suffisant que:


N N
C(2),x (u)2
X X
C(4),x (u, τ, u + τ ) et (3.111)
u=1 u=1

soient bornées quand N tend vers l’infini. Le processus X(t) doit donc être
mélangeant dans un sens voisin de celui défini en (3.50), si ces conditions
suffisantes sont adoptées.
Ceci s’étend sans mal au cas multivariable, en remplaçant les sommes
précédentes par:
N N
trace{Cx (u) Cx (u)T }.
X X
Cx,ijij (u, τ, u + τ ) et (3.112)
u=1 u=1
46 CHAPITRE 3

Des résultats similaires existent également pour les fonctions de


corrélation normalisées [179, p. 76] [137, ch.48]. Dans ce dernier cas, il
est plus difficile de construire un estimateur non biaisé, car le biais dépend
alors de la distribution.
Lorsque le processus X(t) est fortement mélangeant (i.e. la dépendance
entre le passé avant la date t = a et le futur après la date t = b tend vers
zéro lorsque b − a augmente), alors on peut montrer que les estimateurs de
C(2)x (τ ) sont asymptotiquement conjointement gaussiens [180, p. 117]. C’est
le cas des processus linéaires.
Pour les processus stationnaires à l’ordre r > 2, les fonctions de mul-
ticorrélation à l’ordre r se définissent comme à l’ordre 2, si on admet que
la durée d’intégration, T , est grande devant l’unité. Ainsi, la fonction de
multicorrélation cumulante d’ordre 3 d’un signal stationnaire jusqu’à l’ordre
3, x(t), peut être estimée par:
T
1 X
Ĉ(3),x (τ1 , τ2 ) = x(t) x(t + τ1 ) x(t + τ2 )). (3.113)
T t=1
Dans le cas multivariable, l’expression est similaire:
T
1 X
ĈX,ijk (τ1 , τ2 ) = Xi (t) Xj (t + τ1 ) Xk (t + τ2 )). (3.114)
T t=1
mais on devra faire appel au produit de Kronecker si on souhaite garder une
formulation compacte non indexée.
Des conditions suffisantes de consistence en m.q. peuvent être également
énoncées pour les multicorrélations en s’inspirant des résultats d’ergodicité
à l’ordre 2 [123] [89] [180] [121]. On aurait par exemple, pour la consistence
m.q. de la multicorrélation (3.113):
1. x(t) admet des moments finis jusqu’à l’ordre 6,
2. x(t) est stationnaire jusqu’à l’ordre 6,
1 PT −1
3. T s=0 µ(6),x (s, τ1 , τ2 , s + τ1 , s + τ2 ) → C2(3),x (τ1 , τ2 ) si T → ∞.
Le troisième point peut être traduit en une condition sur des séries de mul-
ticorrélations, comme pour l’ordre 2. Mais dans le cas présent, nous aurions
pas moins de 40 séries distinctes, l’une en C(6) , 15 en C(2) C(4) , 9 en C(3) C(3) , et
15 en C(2) C(2) C(2) . Ces expressions ne sont pas données ici, mais on pourra
les trouver dans [63].
L’extension au cas complexe de certains résultats asymptotiques peut
être trouvée dans [195].
Chapitre 4

Intervention des SOE dans


quelques problèmes

J’ai sélectionné trois aspects des SOE dans ce chapitre, en me basant bien
sûr sur des critères de convenance personnelle, mais aussi et surtout parce
que ces sujets sont d’actualité. Le premier concerne les tests de normalité. Il
est naturel d’aborder ce sujet en tout premier lieu puisque si les observations
sont gaussiennes, il n’y a pas lieu de recourir aux SOE. Le deuxième concerne
les mélanges linéaires de signaux, sujet qui a éveillé un intérêt croissant de
la part de la communauté scientifique ces cinq dernières années. Et enfin,
je pense qu’il est regrettable que l’aspect tensoriel des SOE ne soit que très
rarement évoqué dans les approches multivariables. Ce sujet est donc abordé
en dernier lieu.

4.1 Tests de gaussianité


Le test de normalité fait partie des tests d’hypothèse sans alternative.
Autrement dit, si on définit l’hypothèse H0 comme étant: “l’observation
est gaussienne”, nous n’avons rien d’autre à lui opposer que l’hypothèse
contraire, H̄0 . Ces tests de normalité sont parfois qualifiés d’omnibus [88]
[101].
Dans une telle situation, un seul paramètre permet d’ajuster la détection:
le niveau du test, ou erreur de première espèce, défini par:

α = P rob(choisir H̄0 /H0 vraie) (4.1)

47
48 CHAPITRE 4

Une autre conséquence est qu’il ne peut exister de détecteur optimal au sens
de la probabilité d’erreur, l’erreur de seconde espèce restant indéfinie.
Cette constatation est loin d’être anodine, car elle montre notamment
que les propriétés statistiques de la variable-test n’ont besoin d’être connues
que sous l’hypothèse H0 . Par exemple, si le kurtosis empirique est utilisé, il
sera suffisant de connaitre ses quantiles sous hypothèse gaussienne.
Il existe d’autres tests standard sans alternative. Citons à titre d’exemple
les tests de stationnarité, les tests de blancheur (plus ou moins forte) [99], les
tests de réversibilité temporelle de processus [181], ou bien encore les tests
de linéarité [127]. Le test de normalité est lié aux tests précédents dans le
sens où:

• un processus gaussien non stationnaire peut apparaitre comme étant


non gaussien s’il est supposé stationnaire;

• la plupart des tests de normalité supposent que les processus à tester


sont blancs au sens fort (échantillons indépendamment et identique-
ment distribués), ce qui est une de leurs principales limitations;

• tout processus gaussien est réversible, mais la réciproque n’est pas


vraie;

• tout processus gaussien est linéaire, mais il existe des processus


linéaires non gaussiens.

On distingue principalement deux familles de tests de normalité: les


tests scalaires et les tests vectoriels. Les premiers testent la normalité
marginale des échantillons, et les derniers la normalité conjointe de plusieurs
échantillons (par exemple consécutifs). Il est clair que la normalité conjointe
entraine la normalité marginale, mais la réciproque n’est pas vraie.
Le fait de tester la normalité conjointe d’un nombre (forcément) limité
d’échantillons entraine un biais dans la décision, dans le sens évidemment
où la décision “gaussien” sera prise trop souvent. A contrario, l’hypothèse
d’indépendance des échantillons (blancheur forte) entraine malheureusement
un biais en sens inverse, de sorte qu’on ne sera pas en mesure d’obtenir des
réponses fiables ni dans un sens ni dans l’autre.
C’est pourquoi un de nos travaux récents a consisté à développer un test
vectoriel capable de s’affranchir de cette hypothèse de blancheur. Avant de
décrire comment ce test a été construit, il est pertinent de passer en revue
un certain nombre de tests connus.
INTERVENTION DES SOE DANS QUELQUES PROBLÈMES 49

4.1.1 Les tests existants


En reprenant la distinction scalaire/vectoriel précisée plus haut, on peut
dresser un historique des tests les plus représentatifs. L’ensemble des tests
est résumé dans le tableau 4.1.

a) Tests scalaires
1. Test du Chi-deux (1922): Si l’existence de la distribution dite “Chi-
deux” remonte à 1838 avec les travaux de Bienaymé (1852 pour la loi
du χ2 à n degrés de liberté), son utilisation pour les tests d’ajustement
de lois n’a pu voir le jour qu’avec la preuve de la convergence asym-
totique du rapport de vraisemblance vers une variable du Chi-deux,
preuve attribuée à Fisher en 1922. Dans ce rapport de vraisemblance,
la densité des observations est remplacée par un histogramme calculé
à partir d’intervalles de longueur prédéterminée. Notons que la con-
vergence du rapport de vraisemblance vers une loi du Chi-deux pour
des problèmes de détection plus généraux que l’ajustement de loi n’a
été prouvée que plus tard par Wilks (1938) et Wald (1943).
2. Geary (1935): Geary propose comme variable test le rapport p entre E|x|
estimée et l’écart-type empirique σ̂; cette quantité vaut 2/π dans le
cas gaussien.
3. Kolmogorov-Smirnov (1948): Le test de Kolmogorov est basé sur la
statistique d’ordre 1 de l’échantillon observé. La variable test est la
distance L∞ entre les fonctions de répartition estimées. Kolmogorov
donne en 1933 l’expression analytique de la distribution asymptotique
de cette variable test (sous forme d’une série); Smirnov ne la tabule
qu’en 1948, date à laquelle son utilisation devient possible.
4. Pearson-Hartley (1962): Récapitulation sous forme de tables des quan-
tiles de toutes les variables tests usuelles. En particulier, tables pour
l’aplatissement (kurtosis) estimé pour divers temps d’intégration [172].
5. Shapiro-Wilk (1965): Ici la variable test est le rapport entre le carré
de l’estimation linéaire de σ à partir de la statistique d’ordre d’ordre
n et la variance empirique. Les coefficients de cet estimateur linéaire
sont tabulés pour différentes longueurs d’échantillon et différents ordres
d’estimateur [187].
6. Lilliefors (1967): Lilliefors modifie les tables de Smirnov pour permet-
tre l’application du test de Kolmogorov au cas composite (moyenne et
50 CHAPITRE 4

variance de la loi gaussienne la plus proche inconnues).


7. Un test du même genre que celui de Shapiro et Wilk a été proposé par
D’Agostino et al en 1971 [101]. L’obectif est toujours surtout les petits
échantillons (de l’ordre de 50 ou 100).
8. Test du Chi-deux de Moore (1971): Le test du Chi-deux décrit plus
haut a été sensiblement amélioré par Moore pour permettre son ap-
plication lorsque l’histogramme des observations est calculé avec des
cellules variables [161]. En outre, la solution qu’il a proposée est ap-
plicable en dimension supérieure à 1.
9. D’Agostino-Pearson (1973): Ce n’est qu’en 1973 que l’on voit proposer
les cumulants standardisés comme test de normalité composites: ce
sont les tests de l’asymétrie (ordre 3) et de l’aplatissement (ordre 4).
La combinaison de ces deux variables en vue de la construction d’une
variable test unique plus robuste est proposée en 1977 par les mêmes
auteurs [102]. Voir aussi [171].
10. Stephens (1974) propose une nouvelle amélioration à la table des quan-
tiles du test de Kolmogorov-Smirnov [193].
11. Gasser (1975) : Tests de l’asymétrie et de l’aplatissement pour des
signaux colorés; variance et normalité asymptotiques [116].
12. Vasicek (1976): La densité gaussienne est celle des densités à support
réel qui a la plus grande entropie. Le test est basé sur une estimation de
l’entropie. Si la variable test atteint la borne gaussienne (connue) avec
une tolérance acceptable, l’hypothèse gaussienne est acceptée [200].
13. Saniga-Miles (1979): En tant que tests scalaires sur des échantillons de
taille supérieure à 50, l’ordre préférentiel est le suivant: Aplatissement,
Asymétrie, d’Agostino, et enfin Shapiro-Wilk (peu utilisable sur des
échantillons de taille supérieure à 100 d’après les auteurs) [184].
14. Mardia (1980) : L’auteur fait dans [157] une synthèse assez complète
des tests de normalité scalaires, et il en recense plus de cinquante.
15. Lin-Mudholkar (1980): Parmi les nombreux tests de normalité
ultérieurs, mentionnons le “Z-test”. Ce dernier est basé sur un
théorème prouvé par Cramér dans les années 40 disant que la
moyenne empirique m̂ et la variance empririque σ̂ 2 sont statistique-
ment indépendantes si et seulement si l’échantillon est gaussien. Lin
et Mudholkar ont donc proposé un test basé sur la corrélation entre
entre µ̂ et σ̂ 2 [149].
INTERVENTION DES SOE DANS QUELQUES PROBLÈMES 51

16. Moore (1982): La coloration du processus entraine une perte apparente


de normalité dans les tests scalaires [162].
17. Hinich (1982): Test de normalité et de linéarité basé sur le bispec-
tre. Permet de s’affranchir de la coloration, mais nécessite de très
longs temps d’intégration [127]. Ne fonctionne que pour des signaux
dissymétriquement distribués.
18. Anscombe-Glynn (1983): Autre méthode d’approximation de la den-
sité de l’aplatissement estimé; la dernière approche en date était celle
de [102].
19. Dallal-Wilkinson (1986): Nouvelle amélioration du calcul des quantiles
dans le test de Kolmogorov-Smirnov [103].
20. Fukunaga-Flick (1986) : Utilisation d’une propriété indirecte des vari-
ables normales: le produit de deux densités gaussiennes est une gaussi-
enne [113].

Remarques. D’après Stephens [193], le test du Chi-deux est moins per-


formant que le test de Kolmogorov. De plus, il semble spécialement sensible
à la dépendance des échantillons [162].
Les tests basés sur l’asymétrie ou l’aplatissement semblent très attractifs
pour des durées d’intégration considérées comme élevées (N > 1000), alors
qu’ils sont moins performants pour des échantillons petits (N ≤ 100) [184].
D’autres tests, comme celui de D’Agostino [101], ou celui de Shapiro et Wilk
[187], sont au contraire adaptés à des échantillons que nous qualifions de
courts (càd N de l’ordre de 100) [171]. Le test du Chi-deux est reconnu
comme étant moins puissant que le test de Kolmogorov [193], et que les
autres tests d’ajustement [184].
D’autres façons de tester la gaussianité consistent à tester des propriétés
(nécessaires et suffisantes) que doivent satisfaire les observations pour être
gaussiennes. Nous en avons vu un exemple avec le test de Lin et Mud-
holkar, qui était basé sur le théorème de Cramér. Un autre test consisterait
à mélanger linéairement deux voies, et à essayer de les séparer par ACI
(Analyse en Composantes Indépendantes); ce test serait alors bassé sur le
théorème de Darmois [43]. Ce dernier test ne présentrait pas grand intérêt,
compte tenu de la difficulté que présenterait l’évaluation de son niveau.
Si le but du test de normalité est de déceler des différences décisives
entre le bruit et le signal, il peut être plus approprié de mesurer l’écart
entre les densités (ou fonctions de répartition) empiriques d’une voie bruit
52 CHAPITRE 4

et d’une voie signal. Le problème n’est donc plus un test de normalité


mais un test différentiel de statistiques (une sorte de test d’homogéneité). Il
existe d’ailleurs un test différentiel proposé par Smirnov. On peut également
essayer de développer une distribution en série autour de l’autre, ce qui
donnerait naissance à des cumulants centrés autour du bruit, et non autour
de la loi normale. Bien que très séduisante, la faisabilité de cette seconde
approche reste malheureusement encore à prouver.
Comme nous l’avons dit plus haut, une des limitations essentielles des
tests est due à la dépendance des échantillons, qui introduit un biais dans les
valeurs des seuils. C’est le même phénomène que celui observé pour le test
du Chi-deux par Moore en 1982 [162]. L’influence de cette dépendance sur
les tests d’asymétrie et d’aplatissement a été analysée par Gasser dans [116].
Ce problème se rencontre malheureusement aussi dans les tests vectoriels
(cf. section b)).

b) Tests vectoriels
Il y a comparativement beaucoup moins de tests vectoriels de normalité.
Nous avons relevé les tests suivants:
1. Mardia (1970) : Une première extension des tests scalaires, simple mais
peu puissante, aux dimensions supérieures à 1 consiste à projeter les
observations sur une droite arbitraire.
2. Mardia a proposé comme définition de l’aplatissement l’espérance
mathématique du module à la puissance 4 des mesures standardisées,
E{ρ4n } [155]. Par construction, ce test est invariant par transformation
affine. D’autres tests multivariables sont possibles [157].
3. Andrews et al (1973) : Les auteurs abordent surtout le cas de la dimen-
sion 2. Ils proposent de calculer le module carré ρ2n et l’angle polaire θn
def −1/2
des échantillons standardisés yn = Vx (xn − x̄n ). Alors sous H0 , ρ2n
suit approximativement une loi du Chi-deux à deux degrés de liberté,
et θn suit une loi uniforme [77].
Cette idée s’étend pour le module carré en dimension quelconque p > 2,
puisqu’alors ρ2n suit approximativement une loi du Chi-deux à p degré
de liberté; mais seul un des p − 1 angles est uniformément distribué
[157, page 314].
4. Hinich (1982) : Le test de normalité est un cas particulier du test de
linéarité, comme nous l’avons déjà souligné. Hinich est à l’origine du
INTERVENTION DES SOE DANS QUELQUES PROBLÈMES 53

Temps/ Indépendants/ Scalaire/


Fréquence Dépendants Vectoriel
Fisher’22 T I S
Geary’35 T I S
Kolmogorov-Smirnov’48 T I S
Pearson-Hartley T I S
Shapiro-Wolk’65 T I S
Lilliefors’67 T I S
Mardia’70 T I V
d’Agostino’71 T I S
Moore’71 T I S
d’Agostino-Pearson’73 T I S
Andrews-et al’73 T I V
Stephens’74 T I S
Gasser’75 T D S
Vasicek’76 T I S
Saniga-Miles’79 T I S
Mardia’80 T I S
Lin-Mudholkar’80 T I S
Rao-Gabr’80 F D V
Moore’82 T D S
Hinich’82 F D V
Anscombe-Glynn’83 T I S
Mardia-Foster’83 T I V
Mardia-Kanazawa’83 T I V
Dallal-Wilkinson’86 T I S
Fukunaga-Flick’86 T I S
Csorgo’86 T I V
Epps’87 T D V
DalleMolle-Hinich’89 F D V
Steinberg-Zeitouni’92 T I V
Moulines-et al’93 T D V
Giannakis-Tsatsanis’94 T D V
Tugnait’94 F D V
Comon-Deruaz’95 T D V

Table 4.1: Synoptique des principaux tests


54 CHAPITRE 4

premier test de linéarité de processus. Le test proposé est basé sur le


bispectre des observations: il est constant si le processus est linéaire,
et cette constante est nulle si le processus est gaussien.
5. Mardia - Foster (1983) : Les auteurs reprennent les propriétés aux
ordres 1 et 2 de l’aplatissement vectoriel défini par Mardia en 1970,
et établies en 1974. En outre, ils calculent le moment croisé entre
l’asymétrie et l’aplatissement vectoriels pour des échantillons finis sous
H0 . [158]. On remarquera par exemple que les estimateurs sont biaisés,
mais consistants.
6. Mardia - Kanazawa (1983) : Il est proposé d’approximer la distribution
de l’aplatissement vectoriel empirique par une loi du Chi-deux. Le
moment d’ordre 3 de cet aplatissement est évalué analytiquement à
cet effet [159].
7. Csörgö (1986) : Test de normalité basé sur la fonction caractéristique
empirique. Le test suppose des échantillons indépendants [100].
8. Epps (1987) : Technique basée sur l’écart entre des statistiques em-
piriques et leur valeur exacte sous H0 . Comme dans [100], les hy-
pothèses composites sont traitées (i.e. moyenne et variance inconnues).
La fonction caractéristique est un des exemples possibles de statistique
[106].
9. Steinberg - Zeitouni (1992) : Test basé sur l’écart entre l’entropie
empirique sous hypothèse gaussienne (calculée à partir du spectre),
et l’entropie du processus estimée de façon moins restrictive [192].
L’intérêt pratique de ce test reste à montrer expérimentalement,
compte tenu de la complexité des expressions intervenant dans le calcul
de cette entropie
10. Moulines et al (1992) adoptent d’abord une approche inspirée de Epps
[106], basée sur une mesure de déviation de la fonction caractéristique
[166].
Ils proposent ensuite un autre test sans doute plus intéressant,
procédant comme suit. On construit un processus ŝ(t) à partir du
processus à tester, x(t). L’opération consiste à tester si la moyenne
de ŝ(t) est égale à sa moyenne sous H0 , s0 . On pensera notamment à
incorporer dans ŝ(t) des puissances de x(t). La difficulté réside dans
le calcul de la variance A de ŝ(t) − s0 . La variable-test utilisée sera
Q = N (ŝ − s0 )T A−1 (ŝ − s0 ), qui suit asymptotiquement une loi du χ2 .
INTERVENTION DES SOE DANS QUELQUES PROBLÈMES 55

11. Giannakis et Tsatsanis (1994) : Ces auteurs proposent de tester la


nullité d’un ensemble de p valeurs de la fonction de bi- ou de tri-
corrélation [121], rangées dans un vecteur Z. Pour évaluer le niveau
du test, ils supposent que son estimation Ẑ est approximativement
gaussienne (limite asymptotique) et testent la variable standardisée
Q = N Ẑ T A−1 Ẑ, qui suit une loi du χ2 à p degrés de liberté. Cepen-
dant, la variance A de Ẑ doit être estimée, ce qui aura pour effet de
diminuer le nombre de degrés de liberté de Q, du fait que  et Ẑ seront
corrélés, ce qui n’a pas été pris en compte.
12. Tugnait (1994) : Le test est basé sur une forme partiellement intégrée
du bispectre ou du trispectre [199]. L’avantage par rapport au test de
Hinich réside dans une réduction du coût calcul.

4.1.2 Statistiques du kurtosis multivariable


Le test qui nous semble posséder le meilleur compromis entre complexité de
calcul et niveau est celui du kurtosis multivariable [157]. Cependant, ses
quantiles n’ont été évalués sous H0 que dans le cas i.i.d., comme nous allons
le voir ci-après (section a)). C’est pourquoi nous avons poursuivi une étude
plus approfondie de ce test, dans le cas d’échantillons colorés (section b)).

a) Cas i.i.d.
On suppose que les observations sont des vecteurs X(n), 1 ≤ n ≤ N , chacun
de dimension p, et que la suite des X(n) est stationnaire au second ordre,
de moyenne zéro et de covariance S. En outre dans cette section, on admet
qu’ils sont statistiquement indépendants, ce qui n’est évidemment quasiment
jamais vérifié en pratique.
Le kurtosis multivariable de Mardia est une contraction du moment stan-
dardisé, définie par:
N 
1 X 2
Bp (N ) = X(n)T S −1 X(n) , (4.2)
N n=1

Si on note K̂ le tenseur moment centré d’ordre 4, et G l’inverse de la


matrice de covariance S, alors l’écriture suivante est équivalente:
p
X
Bp (N ) = K̂ijkl Gij Gkl , (4.3)
i,j,k,l=1
56 CHAPITRE 4

En pratique, la covariance S doit être remplacé par une estimée Ŝ,


corrélée avec les données X(n), et la variable test devra être notée B̂p (N ).
Dans le cas i.i.d. qui nous occupe dans cette section, les trois premiers
moments de ce kurtosis multivariable sont, sous l’hypothèse H0 :

N −1
µ1,B = E{B̂p (N )} = p(p + 2) ,
N +1
8p(p + 2)
µ2,B = Var{B̂p (N )} = + o(N −2 ), (4.4)
N
p(p + 2)(p + 8)
µ3,B = 64 + o(N −3 ).
N2
Ceci montre en particulier que pour N assez grand devant p (par exemple
N = 1000 et p = 2), B̂p (N ) peut être assimilée à une variable gaussienne.
Evidemment, la normalité asymptotique de telles variables est connue [157]
[136, ch.12], mais il est utile de savoir à partir de quelle valeur de N cette
approximation est applicable sur le plan pratique.
Nous n’avons pas repris ces calculs dans le cas où Bp (N ) serait con-
struit sur le tenseur cumulant, mais il semble qu’en première évaluation, les
résultats ne changent pas au second ordre. Dans la suite on conservera la
définition construite sur le tenseur moment, afin de pouvoir effectuer des
comparaisons.

b) Cas coloré
Considérons à présent notre problème original, et notons x(t) le processus à
tester, 1 ≤ t ≤ N . Le test vectoriel portera sur la normalité conjointe d’un
nombre limité p d’échantillons. Pour ce faire, on construit le vecteur X(n)
suivant:

x(n ∆ + 1)
 

X(n) =  ..
, 1 ≤ ∆ << N. (4.5)
 
.
x(n ∆ + p)
Le paramètre ∆ est fixé et permet d’ajuster un recouvrement éventuel.
Evidemment, les vecteurs X(n) ne sont indépendants que si ∆ − p est
supérieur à la durée de corrélation du procesus x(t). Or, il n’est pas tou-
jours possible de faire en sorte que ce soit vrai, notamment si on désire
1000 réalisations identiquement distribuées, compte-tenu de la durée de sta-
tionnarité du processus. On se propose donc de calculer la moyenne et la
INTERVENTION DES SOE DANS QUELQUES PROBLÈMES 57

variance de la variable test:


p
X
B̂p (N ) = K̂ijkl Ĝij Ĝkl
i,j,k,l=1

sous ces nouvelles conditions, pour de grandes valeurs de N (i.e. N grand


devant p).

Limites de l’approximation. On pose δ = Ŝ − S et ε = K̂ − K. La


variance de ces quantités est de l’ordre de N −1 . En effet, sous l’hypothèse
H0 , on obtient en utilisant la notation de McCullagh [160]:

N
1X
Cov{Ŝab , Ŝcd } = 2
([3]Ran bn Rcm dm − Ran bn Rcm dm ) ,
Nm,n=1
N
1 X
Cov{K̂abcd , K̂ef gh } = ([105]Ran bn Rcn dn Rem fm Rgm hm
N m,n=1
−[3]Ran bn Rcn dn · [3]Rem fm Rgm hm ) .

def
où Rin jm = E{Xi (n)Xj (m)} = C(n−m)∆+i−j si Cτ désigne la fonction
d’autocorrélation du processus x(t). On peut aussi vérifier que la covari-
ance croisée est aussi du même ordre.
Dans le cas scalaire, ces résultats se simplifient:
N
Var{Ŝ} 2 X k02 (n − m)
= , (4.6)
S2 N 2 m,n=1 C02
N
" #
Var{K̂} 8 X k02 (n − m) 1 k02 (n − m)
= 1 + , (4.7)
K2 N 2 m,n=1 C02 3 C02

où on a noté k0 (s) = Cs∆ , pour alléger les écritures ultérieures. En partic-
ulier dans le cas i.i.d., on retrouve des résultats plus familiers:

Var{Ŝ} 2 Var{K̂} 32
2
= , 2
= . (4.8)
S N K 3N
On supposera dans la suite que ces variances sont petites, ce qui nécessite
que la corrélation Cτ décroisse suffisamment vite vers zéro. En d’autres
termes, il faut que le spectre de x(t) soit lisse et à large support.
58 CHAPITRE 4

Développement à l’ordre 2. Développons la matrice Ĝ au second ordre


en δ:
Ĝ = G − GδG + GδGδG + O(δ3 ). (4.9)
Le kurtosis multivariable (4.3) peut alors être approximé de la façon suivante,
après quelques manipulations:
XX 1
B̂p = Bp + εabcd Gab Gcd
abcd ijkl
p4
2
− Kabcd Gab Gci δij Gjd
p2
2
− 2 εabcd Gab Gci δij Gjd
p
+Kabcd Gai δij Gjb Gck δkl Gld
+2Kabcd Gcb Gai δij Gjk δkl Gld + o(N −1 ). (4.10)

Cette expression nous permet maintenant de calculer la moyenne et la


variance de B̂p (N ), à l’ordre deux en N −1 :

XX 2
E{B̂p } = Bp + − Gab Gci Gjd E{εabcd δij }
abcd ijkl
p2
+Kabcd Gai Gld E{δij δkl }(Gjb Gck + 2Gcb Gjk ) + o(N −1 ). (4.11)

et
X X 1
Var{B̂p } = + Gab Gcd Gef Ggh E{εabcd εef gh }
abcd ijkl
p4
ef gh
4
− Kef gh Gab Gcd Gef Ggi Gjh E{εabcd δij }
p2
+4Kabcd Kef gh Gab Gci Gjd Gef Ggk Glh E{δij δkl } + o(N −1 ). (4.12)

A titre illustratif, on peut en déduire dans le cas scalaire (coloré) les


expressions suivantes, que l’on peut vérifier par ailleurs par un calcul direct:

2 3K
E{B̂1 } ≈ B1 − 3
E{εδ} + 4 E{δ2 }, (4.13)
S S
E{ε2 } 4K 2 4K
Var{B̂1 } ≈ 4
+ 6 E{δ2 } − 5 E{εδ}. (4.14)
S S S
INTERVENTION DES SOE DANS QUELQUES PROBLÈMES 59

Mais les expressions obtenues jusqu’à présent sont génériques, et il con-


vient de les traduire en fonction uniquement des moments d’ordre 2, puisque
nous sommes sous l’hypothèse H0 , et en tenant compte de la form partic-
ulière (4.5) du vecteur X(n).

Statistiques avec la covariance exacte. Si la covariance S était connue,


il serait inutile de développer G au second ordre comme nous l’avons fait
plus haut en préliminaires. Le biais serait alors nul, la moyenne valant alors
p(p + 2), et la variance s’obtiendrait en développant simplement K̂ − K en
fonction de Cτ . En réalité ce calcul s’est avéré extrêmement compliqué. En
outre, nous savons que la variable Bp (N ) aura une variance nécessairement
plus grande que B̂p (N ), puisque Ŝ et K̂ sont corrélées (résultat général sur
les variables-test studentisées).
Cependant, ce calcul a malgré tout été mené à terme, avec le recours à
Maple pour de multiples vérifications. Nous avons obtenu:

1 NX
−1
" #
48 k2 (s) k2 (s)
Var{B1 (N )} = 2+ (N − s) 0 2 (3 + 0 2 ) , (4.15)
N N s=1 C0 C0
" PN −1 #
16 1 s=1 (N − s)q0 (s)
Var{B2 (N )} = 20 + . (4.16)
N N (C02 − C12 )4

avec, en ayant adopté la notation compacte ki ≡ ki (s) ≡ Cs∆+i :


h
q0 (s) = q2 (s) + 16(C02 − C12 )2 (2k02 + k12 + k−1
2
)C02 − 4k0 (k1 + k−1 )C0 C1
i
+2(k02 + k1 k−1 )C12 , (4.17)

où q2 (s) est donnée en (4.23). Il n’est pas possible de présenter par écrit les
résultats pour p ≥ 3 en raison de leur longueur.

Statistiques avec la covariance estimée. En réalité, il faut considérer le


cas où la covariance S est estimée par la covariance empirique Ŝ. A présent,
il faut exprimer non seulement G et K en fonction de Cτ , mais aussi les
moments d’ordre 2 du couple (ε, δ). On garde la notation ki (s) ≡ Cs∆+i
pour alléger les écritures.
Pour p = 1, nous obtenons après de longs calculs assités par Maple:

4 NX
−1
" #
2 k2 (s)
E{B̂1 } = 3 1 − − 2 (N − s) 0 2 , (4.18)
N N s=1 C0
60 CHAPITRE 4

2 NX
−1
" #
24 k4 (s)
Var{B̂1 } = 1+ (N − s) 0 4 . (4.19)
N N s=1 C0

On peut vérifier que dans le cas i.i.d., la moyenne est bien de −6/N et la
variance de 24/N , ce qui est conforme aux résultats classiques en la matière
[138, vol.5, page 219], [156].
Le cas p = 2 est aussi intéresant à présenter, et doit sa (relative) sim-
plicité au fait que la matice inverse G s’exprime encore assez simplement en
fonction des éléments de S. Nous obtenons:
" PN −1 #
4 1 s=1(N − s)q1 (s)
E{B̂2 } = 4 2 − − 2 , (4.20)
N N (C02 − C12 )2
" PN −1 #
16 1 s=1(N − s)q2 (s)
Var{B̂2 } = 4+ , (4.21)
N N (C02 − C12 )4

où les fonction q1 (s) et q2 (s) sont définies par:


h i h i
q1 (s) = (k1 + k−1 )2 + 8 k02 C02 −12 k0 (k1 +k−1 )C1 C0 +2 (k1 + k−1 )2 + 2k02 C12 ,
(4.22)
h i
q2 (s) = 8(k02 − k1 k−1 )2 + 3(k12 + k−1
2 2
) + 12k02 (k1 − k−1 )2 C04
h i
+ 4 8k04 + 3(5k02 + k1 k−1 )(k1 + k−1 )2 − 4k−1 k1 (k02 + k1 k−1 ) C02 C12
 
2
+ 8 k−1 k12 + k04 + 4 k02 k1 k−1 C14
h i
− 24 k0 (k−1 + k1 ) (k12 + k−1
2
+ 2 k02 )C02 + 2 (k−1 k1 + k02 )C12 C0 C(4.23)
1,

4.1.3 Résultats sur signaux


Le test de normalité décrit précédemment a été appliqué à des signaux
synthétiques, et à des signaux réels d’acoustique sous-marine. Nous en re-
portons ci-après un extrait. Dans chacun des jeux d’essais, tous les tests ont
utilisé la même estimatin de la fonction d’autocorrélation Cτ pour chaque p
fixé, si bien que seules les estimations de la moyenne et de la variance de la
variable-test sont différentes. On a choisi ∆ = p dans tous les tests.
La table 4.2 presente les valeurs obtenues pour le rapport:

B − E{B}
t= , (4.24)
V ar{B}1/2
INTERVENTION DES SOE DANS QUELQUES PROBLÈMES 61

Test B̂1,iid Bp B̂p


Dim. p 1 1 2 1 2
Formule (4.4) (4.15) (4.16) (4.19) (4.21)
Gaussien
iid -0.165 -0.089 0.275 -0.165 0.643
MA(1) 0.248 0.115 0.251 0.249 0.598
MA(9) -0.255 -0.062 0.043 -0.117 0.121
AR(2) -0.106 -0.027 -0.139 -0.029 -0.279
Uniforme
iid -24.79 -12.39 -9.655 -24.79 -21.59
MA(1) -22.86 -11.18 -9.191 -22.84 -20.79
MA(9) -2.722 -0.666 -5.182 -1.620 -11.24
AR(2) -2.252 -0.494 -1.281 -1.283 -2.859
M er
mer201 -1.067 -0.193 1.433 -0.630 3.197
mer202 1.661 0.355 2.009 1.339 4.613
mer204 1.482 0.281 1.591 1.154 3.666
mer205 1.866 0.340 7.074 1.316 15.59
Table 4.2: Valeurs du rapport t.

lorsque B désigne soit B̂p soit Bp . Les formules ayant servi à estimer la
moyenne et la variance sont rappelées en haut de chaque colonne.
Rappelons qu’asymptotiquement, t = ±1.960 correspond à une proba-
bilité de détection de 95% (niveau 5%), et t = ±1.645 à 90% (niveau 10%).
Les échantillons étaient de taille N = 10000. La fonction d’autocorrélation
a été calculée à l’aide de toute la longueur de l’échantillon, mais seules les
200 premiers retards ont été pris en compte lorsque Cτ prenait une valeur
significative.
Tous les calculs ont été exécutés q̀a l’aide de Matlab sur une station
SUN4 SPARC5. Les simulations peuvent être reproduites en générant les
séquences i.i.d. à partir des racines 12345 et 1234567, pour les bruits gaussien
etuniforme, respectivement.

Conclusions. On constate que les processus colorés non gaussiens (pilotés


par une innovation uniforme) sont souvent classés comme gaussiens lorsque
les queues de corrélation sont assez longues (e.g. les MA(9) ou AR(2)), sauf
pour notre test B̂2 (N ) qui s’en tire bien. Pour les bruits de mer, le test B̂2 (N )
a toujours conclu “non gaussien”, contrairement aux réponses données par
62 CHAPITRE 4

le kurtosis scalaire sous hypothèse i.i.d. De même, le test non studentisé


B2 (N ) conclue au gaussien dans ce cas, ce qui est vraisemblablement erroné.
Ce travail, très récent [30], est encore incomplet. Il serait utile d’effectuer
des simulations en nombre plus important. Par ailleurs, d’autres tests sont
en cours sur signaux acoustiques sous-marins.

4.2 Mélanges linéaires


4.2.1 Taxinomie
Il existe en réalité un certain nombre de problèmes similaires –mais distincts–
relatifs aux mélanges linéaires. Considérons le modèle d’observation suivant:

y(t) = [H(z)] · x(t) + v(t), (4.25)

où y(t) est un processus vectoriel de dimension N , H(z) une fonction de


transfert de dimensions N × Ns , x(t) est un processus vectoriel dit “vecteur
source”, et v(t) un bruit indépendant de x(t). Si Ns > 1, on supposera
que les sources xi (t) sont statistiquement indépendantes. En revanche, les
sources xi (t) ne sont pas toujours supposées blanches (au sens fort, ou même
à l’ordre 2).
Dans le modèle (4.25), il est clair que le couple (H, x) n’est pas unique-
ment défini en l’absence d’hypothèses supplémentaires. C’est pourquoi une
contrainte est généralement admise pour conférer l’unicité à la solution. Nous
allons passer en revue les options possibles page 63 et suivantes.
Suivant l’application, le problème consiste soit à identifier H (e.g. locali-
sation en traitement d’antenne, identification de systèmes), soit à extraire le
vecteur source (e.g. déconvolution, égalisation). La littérature est très abon-
dante en ce qui concerne l’identification entrées-sorties, c’est à dire lorsque
les entrées sont aussi observées [91] [124] [135]. On s’est d’ailleurs aperçu au
fil des années qu’il était préférable d’admettre que les entrées aussi pouvaient
être bruitées [189] [150].
On ne va cependant pas se pencher sur ce problème, mais sur celui
de l’identification (ou de la déconvolution) dite “autodidacte”, c’est à dire
uniquement à partir de l’observation des sorties du système. Ce type
d’identification a aussi reçu d’autres qualificatifs, tels que “aveugle”, “my-
ope”, ou même “extralucide”. Mais ces derniers semblent moins appropriés.
Lorsque H(z) est une constante, on parlera de problème de séparation de
sources, ou d’Analyse en Composantes Indépendantes si la cohérence tem-
INTERVENTION DES SOE DANS QUELQUES PROBLÈMES 63

porelle n’est pas expoitée (e.g. si toutes les sources ont même spectre), et
de séparation de signaux dans le cas contraire. On parlera en revanche de
déconvolution autodidacte ou aveugle (blind deconvolution en anglais) lorsque
la fonction de transfert n’est pas réduite à une constante. La séparation de
signaux et l’ACI sont donc des cas particuliers de la déconvolution autodi-
dacte.
A priori deux familles d’approches sont possibles: l’approche identifica-
tion consistant à estimer H(z), et l’approche déconvolution, où les entrées
sont estimées directement. Si on cherche au bout du compte à reconstru-
ire les signaux-source, la première approche nécessitera alors le calcul des
résidus (prédiction linéaire).
Annonçons tout de suite que:

1. Le problème de la séparation de signaux est soluble à l’ordre 2.


2. Le problème de l’ACI n’est pas soluble à l’ordre 2, sauf cas particulier
(cf. sections suivantes), et le recours aux SOE est nécessaire.
3. Le problème de la déconvolution autodidacte n’est en général pas solu-
ble à l’ordre 2, sauf dans le cas multivariable (N > 1) et sous certaines
conditions portant sur la matrice H(z), et sur le nombre de capteurs
(N > Ns ) [151].

Les méthodes de résolution actuelles ne sont pas adaptées à la présence


de bruit, éventuellement non gaussien. Seules, les méthodes cherchant à
maximiser un contraste peuvent supporter un bruit non gaussien, toutefois
en dessous de 0dB (la mesure du rapport signal à bruit n’a de sens dans ce
cas que si les sources et le bruit ont mêmes statistiques).
Notons que pour des durées d’intégration finies, ce qui est la situation
pratique incontournable, les erreurs d’estimation sur les cumulants peu-
vent être vues au premier ordre comme du bruit additif non gaussien; d’où
l’importance d’un minimum de robustesse des méthodes vis à vis du bruit
non gaussien.

Pour y voir plus clair, tentons de dresser une liste des hypothèses que
l’on peut faire dans les différentes approches:
Hypothèses sur les sources.

S0. Les sources x(t) sont indépendantes. Cette hypothèse est commune à
toutes les approches. Les approches à l’ordre r se contenteront bien
sûr de l’indépendance à l’ordre r.
64 CHAPITRE 4

S1. Les sources xi (t) sont chacune i.i.d.


S2. Les sources sont blanches à l’ordre 2. Si les spectres des sources sont
connus, on se ramène à cette hypothèse en reportant une racine du
spectre de xi dans la fonction de transfert Hii (z). Cette hypothèse est
plus faible que S1.
S3. Les sources sont de variance 1. Avec l’hypothèse S2 (ou S1), cette
condition entraine que la matrice spectrale des sources est constante
et égale à l’identité.
S4. Le nombre de sources Ns est strictement inférieur au nombre de cap-
teurs N . Cette hypothèse est nécessaire dans la séparation de sources
à l’ordre 2.
S5. Les sources ont une distribution discrète. Cette hypothèse permet non
seulement la séparation à l’ordre 2, mais permet aussi de s’affranchir
d’autres hypothèses.
Hypothèses sur le filtre.
F1. Les éléments diagonaux de H(z) sont constants et valent 1. Nous
écrivons ceci: DiagH(z) = I, ∀z.
F2. Les colonnes de H(z) sont normalisées. Autrement dit,

DiagH(z) H(z) = I, ∀z. Cette convention remplace F1 lorsqu’elle
est plus agréable à manipuler.
F3. La normalisation des colonnes de H(z) est faite globalement sur tout le
spectre: Diag H(z)† H(z)dz = I. Cette normalisation est plus faible
H

que F2.
F4. La matrice H(z) est une matrice colonne de rang plein, pour tout z.
Ceci implique en particulier que, si H(z) est un filtre RIF, alors il
admet un inverse à gauche lui-même RIF; en d’autres termes, H(z) est
à minimum de phase.
F5. H(z) est un filtre RIF dont on connait exactement le degré.
Propriétés dûes à un prétraitement de y(t).
Y1. Chaque observation y(t) est de variance 1.
Y2. Chaque composante yi (t) est préalablement blanchie à l’ordre 2. On
supposera que cette opération est mené avec l’adoption supplémentaire
des hypothèses S2 et S3, de sorte qu’on obtient alors la relation
INTERVENTION DES SOE DANS QUELQUES PROBLÈMES 65

DiagH(z)H(z)† = I, ∀z. Il s’agit alors d’une normalisation des lignes


de H(z).
Y3. Le processus vectoriel y(t) est préalablement blanchi à l’ordre 2 dans
son ensemble. Autrement dit, E{y(z)y(z)† } = I. Avec S2 et S3, cette
opération entraine que H(z)H(z)† = I, ∀z, ce que l’on admettra sous
Y3. Ce prétraitement est très fort, puisqu’il exploite entièrement les
statistiques d’ordre 2.
Y4. Les lignes de H(z) sont normalisées globalement sur tout le spectre.
Autrement dit, Diag H(z)H(z)† dz = I. Cette hypothèse est plus
H

faible que Y2, et a fortiori que Y3.


Hypothèses sur le bruit
B1. Le bruit v(t) est gaussien et blanc temporellement.
B2. Le bruit est de cohérence spatiale G connue: E{v(t)v(t)† } = σ 2 G, où
σ est inconnue.
Chaque hypothèse conduira, suivant le type de problème considéré, à des
algorithmes très différents, comme nous le verrons plus loin (cf. section 4.2.2
et suivantes).

4.2.2 Tour d’horizon bibliographique


Ce tour d’horizon n’a pas la prétention d’être totalement exhaustif. En
revanche, son objectif est de donner un échantillonnage assez complet des
problèmes relatifs à la déconvolution aveugle des mélanges linéaires qui sont
ou ont été à l’étude.

a) Déconvolution scalaire
Le problème de la déconvolution “aveugle”, c’est à dire sans séquence
d’apprentissage, a été beaucoup étudié depuis les travaux de Sato et Go-
dard dans les années 75-80. Ces algorithmes minimisent de façon itérative
un critère mesurant l’écart entre une statistique de la sortie de l’égaliseur et
la même statistique de la source [63].
Benveniste, qui a analysé en profondeur le comportement de ce type de
critère, ainsi que celui des algorithmes itératifs proposés pour le minimiser
[83] [82], est à l’origine du qualificatif “aveugle”.
Macchi et Eweda ont analysé de leur côté la convergence d’un algorithme
d’égalisation consistant à minimiser l’écart entre la sortie et la sortie désirée
66 CHAPITRE 4

(assimilée à l’élément le plus proche dans un alphabet donné) par un algo-


rithme du gradient stochastique [154].
Une des approches les plus prometteuses est sans aucun doute celle
revendiquée par Donoho [105]. Après avoir défini une relation d’ordre en-
tre variables aléatoires par leur écart à la normalité, il propose une famille
de critères restant compatibles avec cette relation. Pour notre part, nous
appellerons ces critères des contrastes statistiques. L’entropie et le kurtosis
sont notamment des contrastes.
Shalvi et Weinstein ont proposé dans [186] un algorithme de maximisa-
tion itérative du kurtosis. Ils en ont analysé la convergence; on peut aussi
consulter les commentaires de Tugnait à ce sujet publiés dans [198].
Lorsque la source est blanche au sens fort, il est toujours possible
d’emprunter une approche identification ARMA (pouvant faire intervenir
les SOE), et de calculer les résidus. Cette approche reste d’ailleurs appli-
cable dans le cas multivariable (cf. page 70). Compte-tenu de l’énorme
quantité de travaux publiés dans ce domaine, le plus simple est de se référer
à l’article de synthèse de Swami [194].
Le choix entre les techniques basées sur les SOE ou celles de type Sato
reste une question ouverte. On peut par exemple mentionner le débat ouvert
par Proakis dans [177], présentant notamment les avantages des approches
multispectrales.
Une variante est celle proposée par Bellini [80], où l’utilisation de cumu-
lants “généralisés” est préconisée; ces cumulants sont définis comme étant la
corrélation entre les observations et une filtrée non linéaire de ces dernières.
L’intérêt du recours aux SOE dans ce type de problème a été souligné
par Lacoume dans [142].
La connaissance du fait que la source est de distribution discrète peut
être exploitée, que la source soit blanche ou non. La question importante
est de savoir comment un algorithme basé uniquement sur cette information
se comporte en présence de bruit. Par exemple dans [118], Gassiat suppose
que la fonction de transfert remplit toute la bande, et que le bruit est blanc
gaussien et de variance inconnue.

b) Séparation de signaux
Le problème de la séparation de signaux, tel que nous l’avons défini en section
4.2.1, exploite le fait que les signaux ont des spectres d’ordre 2 différents.
Cette idée a été proposée à l’origine par Fety [110], mais a été à notre avis
mal exploitée, peut-être parce que en partie mal présentée. Cependant, tous
INTERVENTION DES SOE DANS QUELQUES PROBLÈMES 67

les éléments nécessaires s’y trouvent. Un exposé technique sera développé


en section 4.2.3 page 72, et donnera l’essentiel de cette approche, présenté
de la façon qui s’impose à mon avis [68].
Tong et Liu ont, indépendamment et bien plus tard, exposé leur approche
du problème, et ont analysé les conditions d’identifiabilité de la matrice de
mélange [196].
Plus récemment, VanGerven a proposé une approche applicable seule-
ment dans le cas de 2 sources et de 2 capteurs [119], à mon avis peu
intéressante. En effet, elle procède par recherche exhaustive à la résolution
d’un système d’équations non linéaires. Leur approche ressemble un peu à
celle de Nguyen-Thi [168], mais pour un problème bien plus simple.
En revanche, une étude plus intéressante a été publiée par Belouchrani
et alterae [81]. Elle consiste à diagonaliser conjointement (de manière
évidemment approximative) un ensemble de matrices de covariance (ce con-
cept avait déjà été introduit par Souloumiac pour l’ACI [190]); en outre, une
évaluation des performances asymptotiques est présentée. Cette approche
est a priori meilleure que celle de Tong puisqu’elle est basée sur plusieurs
matrices de covariance.
Avant de conclure, il convient de souligner l’intérêt malgré tout assez
limité de ce genre de problème, vu du côté des applications. L’identification
de mélanges instantanés est surtout rencontré en tant que sous-problème
de mélanges réels, qui sont en très grande majorité convolutifs. Dans ce
sous-problème, il s’avère justement que les signaux sont blancs, et que les
conditions d’identifiabilité requises dans la séparation de signaux ne sont pas
vérifiées. On se trouve en présence du problème d’Analyse en Composantes
Indépendantes (ACI), sur lequel nous allons nous pencher maintenant.

c) Séparation de sources (ACI)


Le problème de l’ACI a été introduit à l’origine par Jutten et Hérault [132].
Un algorithme itératif de nature neuro-mimétique était proposé pour sa
résolution. A l’époque, son fonctionnement était passé pour un mystère,
qui a trouvé explication ultérieurement [49] [51] [6]. Le même problème a
été abordé par Bar-Ness quelques années plus tôt, mais de manière très
différente, et avec vraisemblablement une moins bonne compréhension de
l’outil et de sa portée [79].
La nécessité de recourir aux SOE pour permettre l’identifiabilité a été
reconnue indépendamment par Lacoume [144] et Comon [49] [50] [48]. Fort
de cette constatation, Lacoume et Ruiz proposaient une identification basée
68 CHAPITRE 4

sur la minimisation de la somme des carrés des cumulants croisés [144].


Cependant, cet algorithme était coûteux, et pratiquement inutilisable pour
plus de trois sources.
L’approche de Gaeta a été celle du maximum de vraisemblance. Il a
constaté que si les cumulants d’ordre 3 sont nuls, alors la vraisemblance
approchée revient au critère précédent [114]. On notera en particulier que
ce sera le cas des variables aléatoires complexes circulaires. Cette analyse
donne un autre éclairage du problème, mais ne propose pas de nouvel algo-
rithme numérique. Par ailleurs, ce critère rejoint celui proposé par Cardoso
et Souloumiac d’une part [97] [190], et celui proposé par Comon d’autre part
[43], dont nous allons parler dans un instant.
Dans le même contexte, il est possible de calculer la borne de Cramér-
Rao; ces résultats sont présentés par Lacoume et Harroy, avec le formalisme
nécessaire au cas complexe [143]. Il est important de souligner que dans le cas
complexe, la préservation de la structure tensorielle des SOE est précieuse
[142].
Souloumiac et Cardoso ont mis au point une technique de diagonalisa-
tion conjointe de plusieurs matrices (en nombre supérieur à deux, ce qui
n’est possible qu’approximativement) [191] [96] [190] [97]. Il a été constaté
que ses performances théoriques sont similaires à l’approche par contrastes
de Comon [94]. Cette constatation a été confirmée indépendamment par
Chevalier quelques années plus tard sur le plan expérimental [98].
Les critères de contrastes, déjà introduits dans le cas scalaire pour la
déconvolution (cf. section a) page 65), sont des critères intéressants dans
le cas de l’ACI car ils permettent de conférer une certaine optimalité au
sens probabiliste aux solutions obtenues, notamment en présence de bruit,
éventuellement non gaussien [21] [2]. Ces critères seront présentés plus en
détail dans la section 4.2.5 page 83.
Comme cela a été dit plus haut, dans le cas où les cumulants d’ordre
3 sont nuls, la fonction de vraisemblance approximée coincide avec un con-
traste. Mais d’autres critères faisant intervenir les cumulants d’un ordre fixé
r quelconque plus grand que 2 sont des contrastes [2]. L’information mutuelle
est elle aussi un contraste, et peut être approximée par un développement
d’Edgeworth de la densité. Ceci donne lieu à des critères faisant intervenir
les cumulants d’ordre 3 et 4 [2]; les expressions correspondantes sont (4.60)
(4.66).
Un algorithme d’optimisation a été également proposé par Comon, basé
sur les rotations de Givens [43] [2]. Les solutions sont particulièrement sim-
ples dans le cas de deux sources, comme on le montre dans la section 4.2.6.
INTERVENTION DES SOE DANS QUELQUES PROBLÈMES 69

Hélas cette simplicité n’est conservée dans le cas complexe qu’en l’absence
de bruit [21] [3].
Plusieurs solutions récursives ont été proposées dans la littérature pour
réaliser la séparation de sources. La première est décrite dans l’article en
deux volets [133] [6]; cet algorithme est du type Robbins-Monro. Une autre
a été proposée par Comon, mais n’est pas non plus du type gradient [50].
Par contre Moreau et Macchi ont proposé plusieurs algorithmes de type LMS
minimisant des critères de contraste [164] [165] [163].
Cardoso et Laheld introduisent le concept de gradient relatif [145], per-
mettant d’atteindre des performances qui ne dépendent que du niveau de
bruit (qui est supposé faible) et de la distribution des sources, et pas de la
matrice de mélange [94].
Par ailleurs, Cardoso a expliqué comment faire un usage optimal des
cumulants d’ordre 4 dans un contexte d’ajustement de modèle [95], pour le
problème de l’ACI. Il s’agit ici de l’ajustement des cumulants d’entrée ou de
sortie.
Enfin, signalons qu’une fonction de contraste a été proposée par Krob
pour l’identification de transformations linéaires-quadratiques [141]. Des
articles longs sur ce sujet devraient paraitre prochainement.
Un résultat plus curieux est celui de Gamboa, qui a montré récemment
que l’ identifiabilité est possible à l’ordre 2 si sources sont de distribution
discrète [115].
Très peu d’auteurs se sont penchés sur le cas où le nombre de sources est
supérieur au nombre de capteurs, et ce sujet est encore très prospectif. Il
semblerait que l’on doive soit utiliser un modèle de réception [93], mais alors
il ne s’agit plus d’identification aveugle, soit restreindre le type de mélange
à une classe paramétrée, par exemple les retards purs [31], soit avoir recours
à des outils d’algèbre multilinéaire (cf. section 4.3), qui sont hélas d’une
grande complexité [24]. Quoiqu’il en soit, il est clair que si l’identification
est parfois possible, la séparation des sources, elle, ne l’est pas, du moins de
façon exacte, même asymptotiquement.

d) Déconvolution vectorielle à l’ordre 2

Comme cela a été annoncé page 63, le problème de déconvolution aveugle


peut être soluble à l’ordre 2 sous certaines conditions dans le cas multivari-
able (N > 1). Cette constatation, qui peut paraite un peu surprenante, a
été bien résumée par Loubaton [151].
70 CHAPITRE 4

Si le filtre H(z) est causal et d’inverse causal et stable, alors il est iden-
tifiable à l’ordre 2 seulement, à une ACI près. Si de plus il est FIR de rang
plein pour tout z, alors le spectre des sources peut être aussi identifié. Tong
et Xu [197] sont à l’origine de l’idée de départ, qui a été ensuite améliorée par
Moulines et d’autres co-auteurs [167]. Cette solution fonctionne en présence
d’une seule source.
Gesbert a proposé récemment une implantation adaptative de cette so-
lution dans [120], toujours pour une source. Par ailleurs, Abedmeraim et
alterae ont généralisé la résolution au cas de plusieurs sources [75]. Une
autre direction de généralisation est celle de la coloration des sources; Fi-
jalkow et Loubaton ont proposé récemment une technique pour traiter le cas
d’une source ARMA, en présence de bruit corrélé spatialement [111].
L’idée d’identifier un modèle ARMA monique suivi d’une ACI avait été
proposé par Comon dans [49] ou [21]. Mais l’identification MA monique
faisait appel aux SOE, ce que l’on peut désormais éviter.

e) Déconvolution vectorielle avec les SOE


L’idée la plus ancienne consiste à supposer que les sources sont blanches
temporellement (au sens fort) et spatiallement (indépendantes), et à iden-
tifier un modèle linéaire, ARMA par exemple. L’estimation des sources se
fait alors par le calcul des résidus (prédiction linéaire), comme dans le cas
scalaire. Même dans le cas vectoriel, il y a aujourd’hui un très grand nom-
bre de techniques qui ont été proposées. On peut se référer aux travaux
de Swami et al [194], ainsi qu’aux synthèses dressées par l’équipe de Favier
[104] [108] [109]. La différence fondamentale entre les cas scalaire et vectoriel
est que le recours à l’ACI est nécessaire pour terminer l’identification si le
modèle n’est pas monique (i.e. B0 6= I) [49] [5].
L’idée la plus simple qui vient ensuite à l’esprit est celle de l’extension au
cas convolutif des premiers algorithmes itératifs proposés pour l’ACI, comme
celui de Hérault et Jutten [125]. C’est ce qu’on fait Jutten et Nguyen-Thi
dans [168], par annulation itérative des cumulants de type 31 et 13, mais sans
grand succès. On connait les problèmes de convergence dont souffre déjà cet
algorithme dans le cas instantané [6]. Plus précisément, ces problèmes sont
d’une part la vitesse de convergence (très variable, et parfois extrêmement
lente), mais aussi l’absence de solutions parmi les points stationnaires de
l’algorithme, suivant les circonstances. Ces problèmes risquent d’être encore
plus insurmontables dans le cas convolutif.
Comon s’est penché sur la faisabilité des approches multispectrales bande
INTERVENTION DES SOE DANS QUELQUES PROBLÈMES 71

étroite. L’idée est très simple: si on se place en bande étroite, le mélange


devient complexe instantané, et peut être identifié par ACI. Toutefois, cette
approche est peu satisfaisante. En effet, si le rapport signal à bruit est
faible, il peut être indispensable d’utiliser toute la bande du signal utile.
Il se trouve qu’il est très difficile de fusionner les résultats obtenus dans
chacune des bandes, même dans le cas de mélanges très simples comme
les retards purs amortis [21], à cause de l’indétermination présente dans le
modèle (permutation).
Il est clair que la solution du problème des mélanges convolutifs est
indéterminée à une matrice diagonale de filtres près, et à une permutation
près. On peut se débarrasser de la première indétermination en imposant
(éventuellement provisoirement) une contrainte telle que S1 ou F1. En re-
vanche, on ne peut contourner efficacement la seconde, qui n’est d’ailleurs
généralement pas gênante, sauf précisément dans le cas présent. En ef-
fet, il est important de remarquer qu’en scindant un problème à bande
large en plusieurs problèmes à bande étroite, on multiplie artificiellement
l’indétermination en autant de permuations que de bandes. C’est là que se
situe la maladresse.
Capdevielle propose une technique de détermination des permutations
basée sur les liens statistiques pouvant exister entre différents canaux
fréquentiels [92]. Cette approche est inspiré de [185], où un prétraitement
avait été nécessaire pour rehausser la corrélation et améliorer éventuellement
le conditionnement; le problème était celui d’un filtrage RIF avec accès à
une réponse désirée. Cette technique risque vraisemblablement de ne pas
marcher lorque les hypothèses du théorème de la limite centrale s’appliquent.
En revanche, on peut espérer qu’elle fonctionne lorsque les sources contien-
nent des raies spectrales corrélées (par exemple, pour des machines tour-
nantes). Certains liens doivent exister avec les travaux de Krob [139].
Dans le cas de Ns = 2 sources, Yellin et Weinstein ont proposé un al-
gorithme itératif basé sur une propriété que doivent vérifier les multispec-
tres croisés entre l’observation et la sortie du filtre déconvolueur. Il s’agit
d’une approche large bande, qui peut être formulée dans le domaine temps.
Présenté à l’origine à l’ordre 3 [202], l’algorithme a été étendu à l’ordre 4
[203] (ce qui était d’ailleurs évident). Cependant, cet algorithme possède de
fortes limitations; en effet, on ne dispose pas de preuve de sa convergence,
et il n’a été justifié et expérimenté qu’en l’absence totale de bruit.
Inouye a étendu récemment l’algorithme de Shalvi basé sur la maximi-
sation du kurtosis au cas multivariable [130]. Ceci semble intéressant, et
rejoindrait les axes de recherche que nous proposons, liés aux fonctions de
72 CHAPITRE 4

contraste. Quelques outils sont suggérés dans la section 4.2.5 à cette inten-
tion, et devront être confrontés aux travaux de Inouye (ce qui n’a pas encore
été fait).
Enfin, reste le cas des mélanges particuliers, comme celui des retards
purs (non multiples de la période d’échantillonnage) amortis. Il a été
montré par Emile et Comon qu’il était possible d’identifier directement (non
itérativement) la fonction de transfert. En outre, l’identification du mélange
reste possible dans le cas où le nombre de sources est supérieur au nombre
de capteurs, ce qui est une sorte de curiosité [31].

On va à présent exposer la philosophie de la séparation de signaux. On


abordera ensuite les outils relatifs aux fonctions de contrastes (dédiés aux
mélanges instantanés ou convolutifs), pour enfin se pencher sur l’ACI.

4.2.3 Séparation de signaux


a) Mélanges instantanés inversibles de signaux
Supposons que l’on observe un signal aléatoire y(t) à N composantes, et que
ce dernier satisfasse le modèle linéaire suivant:

y(t) = Hx(t), (4.26)

où H est une matrice carrée inversible, et x(t) un signal dont les N compo-
santes xn (t) sont statistiquement indépendantes et non identiquement nulles.
Ce mélange sera dit instantané car la réponse impulsionnelle du filtre dont
les entrées sont xn (t) et les sorties yn (t) est une constante. La question que
l’on se pose est de savoir s’il est possible d’identifier la matrice H uniquement
à partir de l’observation des sorties yn (t).

Proposition 4.2.1 S’il existe une solution particulière (Ho , xo (t)), alors
il existe toute une classe de solutions (H, x(t)) de la forme H = Ho ΛP ,
x(t) = P T Λ−1 xo (t), se déduisant de la solution particulière par un change-
ment d’échelle Λ (matrice diagonale régulière) et une permutation P .

Dans cette mesure, on peut dire que le problème est mal posé. On
peut soit chercher un représentant canonique de la classe d’équivalence des
solutions, soit une solution particulière quelconque, sachant que la seconde
donnera accès à la première, et que toutes deux pourront générer l’ensemble
des solutions. Nous décrivons donc maintenant une méthode permettant
INTERVENTION DES SOE DANS QUELQUES PROBLÈMES 73

d’obtenir une solution particulière, dont le principe a été proposé à l’origine


par Fety [110, p.109].
La matrice de covariance de l’observation, Γij (τ ) = C{yi (t) yj (t + τ )},
s’écrit en fonction de la matrice de covariance de x, notée Cij (τ ):

Γ(τ ) = H C(τ ) H, (4.27)

où la matrice C(τ ) est diagonale quelle que soit la valeur de τ , puisque les
composantes de x(t) sont indépendantes. Une façon d’aborder ce problème
est de construire les deux matrices suivantes:
X X
Γ1 = ατ Γ(τ ), et Γ2 = βτ Γ(τ ), (4.28)
τ τ

où ατ et βτ sont des coefficients scalaires arbitraires qu’il faudra choisir


de façon à satisfaire les conditions d’identifiabilité (que nous allons aborder
ci-après).
Il existe au moins un jeu de coefficients {ατ , βτ } tel que Γ2 soit inversible.
En effet, Γ(0) est par exemple inversible car H et C(0) le sont. On peut donc
dorénavant supposer que Γ2 est inversible sans restreindre la généralité. Les
matrices Γ1 et Γ2 vérifient:

Γ1 = H K1 H T , et Γ2 = H K2 H T , (4.29)

où K1 et K2 sont des matrices diagonales. Soit la décomposition en éléments


propres généralisés suivante:

Γ1 U = Γ2 U Λ, (4.30)

où U est une matrice inversible et Λ une matrice diagonale. Les colonnes
de U sont les vecteurs propres du faisceau {Γ1 , Γ2 } et les éléments de Λ les
−1/2 −T /2
valeurs propres associées (valeurs propres d’une matrice Γ2 Γ1 Γ2 ).

Proposition 4.2.2 La matrice H peut être identifiée à une permutation et


un facteur d’echelle près si et seulement si les valeurs propres Λnn du faisceau
{Γ1 , Γ2 } sont toutes distinctes.

Pour démontrer cette proposition, il est plus clair d’introduire les deux
lemmes suivants [68].

Lemme 4.2.3 Si une matrice W inversible satisfait une relation KW =


W Λ, où K et Λ sont diagonales, alors il existe (au moins) une permutation
P telle que K = P T ΛP .
74 CHAPITRE 4

Démonstration. Nous avons Kii Wij = Wij Λjj , pour tout couple (i, j).
Comme W est de rang plein, il existe au moins un élément non nul Waj
dans chaque colonne j, ce qui montre que pour tout j, il existe un a tel
que Λjj = Kaa . Ce résultat peut être aussi vu comme une conséquence de
l’unicité de la décomposition spectrale.

Lemme 4.2.4 Les seules matrices A satisfaisant AΛ = ΛA, où Λ est diag-
onale de composantes toutes distinctes, sont les matrices diagonales.

Démonstration. La matrice A doit vérifier pour tout couple (i, j) la


relation Aij (Λii − Λjj ) = 0. Il est alors évident que si les composantes de Λ
sont toutes distinctes, Aij = 0 pour i 6= j.

Démonstration. (proposition 4.2.2). Supposons Γ2 inversible, sans


restreindre la généralité. Les matrices H et Γ2 étant inversibles, la relation
HK1 H T U = HK2 H T U Λ implique que K2−1 K1 H T U = H T U Λ. Or d’après
le lemme 4.2.3, nous avons nécessairement K2−1 K1 = P T ΛP , où P est une
permutation. Il vient donc que Λ P H T U = P H T U Λ. Maintenant d’après
de lemme 4.2.4, la matrice P H T U doit être diagonale. Appelons-la ∆. On
a donc finalement H = U −T ∆P , ce qui montre que H a été identifiée aux
matrices multiplicatives ∆ et P près.

b) Mélanges instantanés singuliers


Si Γ1 et Γ2 sont singulières, les conditions d’identifiabilité de la procédure
précédente ne sont plus forcément valables. Il en est de même si H est
rectangulaire ou carrée singulière. Nous qualifions ces modèles de singuliers.
En pratique, si on s’attaque à un problème d’identification aveugle, on ne
sait en général pas grand chose sur la matrice H, et il pourrait bien se faire
notamment qu’elle soit singulière. Cela ne peut et ne doit se détecter dans
le cadre de l’identificaton aveugle, qu’à partir des observations y(t). Dans
tous les cas, le modèle
y(t) = H x(t) + v(t) (4.31)
est sans doute plus réaliste, où la matrice H est éventuellement singulière,
et où v(t) est un signal de “nuisance”, indiquant l’écart entre l’observation
réelle et le modèle idéal. Pour un système ayant moins d’entrées que de
sorties, H aura pour rang au plus le nombre d’entrées s’il n’y a pas de bruit.
Inversement, pour un système ayant plus d’entrées que de sorties, N entrées
INTERVENTION DES SOE DANS QUELQUES PROBLÈMES 75

seront prises en compte dans la partie Hx(t), et les autres devront figurer
dans le terme v(t) au titre de nuisances.
Pour tenter de discerner les différentes singularités, nous proposons la
procédure suivante.

1. Si Γy (0) est singulière, alors la matrice H n’est pas inversible. Notons


la décomposition spectrale de Γy (0) comme suit:

Γy (0) = R S RT , (4.32)

où S est diagonale inversible de dimension r × r. Les matrices H


et Γy (0) ayant le même espace image (de dimension r), il existe une
matrice H̄ de rang plein est de taille r × N telle que H = RH̄. On a
calculé R, voyons maintenant comment identifier H̄. On peut poser

ȳ(t) = RT y(t), (4.33)

et considérer le modèle ȳ(t) = H̄ x(t) + v̄(t), où Γȳ est inversible. On


est alors ramené au point suivant.
2. Si Γy (0) est régulière, on peut appliquer la procédure décrite dans la
section a) pour identifier le mélange. Si les valeurs propres Λnn sont
distinctes, on peut estimer les signaux source par la relation

x̂i (t) = U T y(t). (4.34)

De deux choses l’une. Ou bien certains signaux x̂i (t) obtenus sont suffi-
samment décorrélés entre eux, et le modèle (4.26) est satisfait pour ces
composantes, ou bien il reste une corrélation importante entre toutes
les composantes de x̂(t), et on peut conclure par la présence d’une
nuisance v(t) importante. Cette dernière peut être dûe à du bruit de
mesure, ou bien à la présence d’autres sources que les xi (t), 1 ≤ i ≤ N .
Dans ce dernier cas, il est nécessaire d’avoir plus d’informations pour
pouvoir identifier le mélange. On pourra notamment recourir à une
méthode spécifique utilisant les statistiques d’ordre supérieur (cf. sec-
tion 4.2.5).
3. Si certaines valeurs propres Λnn sont confondues, cela veut dire que la
diversité des fonctions Γij (τ ) n’est pas assez riche pour permettre de
conclure, et il faudra recourir à des statistiques d’ordre supérieur (i.e.
Analyse en Composantes Indépendantes).
76 CHAPITRE 4

On pourra également utiliser les techniques d’ordre supérieur pour con-


firmer ou affiner un résultat obtenu avec les statistiques d’ordre 2.
Cette section n’a exposé que schématiquement le principe de la résolution
du problème de la séparation de signaux [68] [110]. Une étude plus appro-
fondie du problème peut être trouvée dans [81].

L’hypothèse S0 d’indépendance des sources est dans tous les cas au cen-
tre de toutes les approches. C’est pourquoi il convient dans un premier
temps d’introduire diverses mesures d’indépendance statistique. En outre,
ces éléments permettent de donner des fondements théoriques aux approches
par maximisation de contrastes [2].

4.2.4 Indépendance statistique


Dans cette section, on passe en revue quelques moyens de mesurer
l’indépendance statistique, sur les plans théorique et pratique.

a) Information mutuelle
Définition 4.2.5 Soit x un vecteur aléatoire de dimension N admettant
une densité px (u). Les composantes xi de x sont dites indépendantes si et
seulement si la distribution conjointe des xi est égale au produit de leurs
distibutions marginales:
N
Y
px (u) = pxi (ui ). (4.35)
i=1

Une façon naturelle de mesurer l’indépendance des variables xi est donc


de mesurer la distance δ(px , i pxi ) entre ces deux densités. Parmi toutes les
Q

mesures de distance disponibles, l’une est particulièrement usitée. Il s’agit


de la divergence de Kullback:
px (u)
Z
def
δ(px , py ) = px (u) log du. (4.36)
py (u)
Noter le vocabulaire: le mot divergence a été utilisé, car cette mesure d’écart
n’est pas une fonction symétrique de ses arguments, et ne mérite donc pas
le titre de distance.
Proposition 4.2.6 La divergence de Kullback est toujours positive et
vérifie:
pp
δ(px , py ) = 0, si et seulement si px (u) = py (u). (4.37)
INTERVENTION DES SOE DANS QUELQUES PROBLÈMES 77

Démonstration. Pour tout réel positif w, on a l’inégalité de convexité


log w ≤ w − 1, avec égalité si et seulement si w = 1. En appliquant cette
inégalité au rapport py (u)/px (u), on obtient:

py (u)
Z
−δ(px , py ) ≤ px (u) [ − 1] du.
px (u)
R
Or le second membre est toujours nul puisque p(u) = 1 pour toute densité
de probabilité. Par ailleurs comme la fonction log w est tangente à w − 1 en
w = 1, l’égalité n’a lieu que si py (u)/px (u) = 1 pour presque tout u.

Proposition 4.2.7 La divergence de Kullback est invariante par transfor-


mation inversible.

Démonstration. Posons Y = Ay et X = Ax, où A est une matrice


inversible. Alors pX (v) = px (A−1 v)/|det(A)|, et PY (v) = py (A−1 v)/|det(A)|.
Il vient par conséquent

px (A−1 v) dv
Z
δ(pX , pY ) = px (A−1 v) log .
py (A−1 v) | det A|

On pose u = A−1 v, c.à.d. dv = | det A|du. Alors

px (u)
Z
δ(pX , pY ) = px (u) log du,
py (u)

ce qui termine la démonstration.


La divergence de Kullback appliquée à py (u) = pxi (ui ) conduit à la
Q

mesure d’indépendance suivante:

px (u)
Z
I(px ) = px (u) log QN du. (4.38)
i=1 pxi (ui )

Cette quantité n’est autre que l’information mutuelle moyenne, bien con-
nue en codage et en télécommunications. En vertu de la proposition 4.2.6,
l’information mutuelle est toujours positive, et s’annule si et seulement si les
variables xi sont indépendantes.
Contrairement à ce que l’on pourrait croire, l’information mutuelle n’est
pas invariante par changement de base, bien que la divergence de Kullback le
78 CHAPITRE 4

soit. Pour s’en convaincre, il suffit de considérer le contre-exemple suivant.


Prenons une variable gaussienne de dimension N , de densité
1 T V −1 u
Φx (u) = [2π]−N/2 [det V ]−1/2 e− 2 u , (4.39)
où V est une matrice de covariance inversible. Alors son information
mutuelle est donnée par:
1 Vii
Q
I(Φx ) = log . (4.40)
2 det V
Prenons comme changement de base une matrice A telle que AAT = V −1 .
Alors l’information mutuelle après changement de base est I(ΦAx ) = 0. Il
faudrait que la covariance V soit diagonale, ou que la matrice A soit de la
forme ΛP , Λ diagonale et P permutation, pour que l’information mutuelle
ne change pas. En d’autres termes, si X = Ax, nous n’avons en général pas
Q Q
pxi (ui ) = pXj (vj ). En revanche nous aurons invariance par changement
d’échelle, comme cela sera précisé avec la proposition 4.2.13.

b) Néguentropie
L’entropie différentielle, ou plus simplement l’entropie, d’une variable
aléatoire admettant px (u) pour densité de probabilité est définie par:
Z
def
S(px ) = − px (u) log px (u) du. (4.41)

On pourra notamment remarquer que l’information est une différence


d’entropies: I(px ) = S(pxi ) − S(px ). L’entropie joue un rôle tout à fait
P

particulier en statistiques. En effet, il est possible de montrer qu’il n’existe


pas d’autre fonctionnelle satisfaisant quatre axiomes de base, découlant du
principe fondamental selon lequel si un problème peut être résolu de plusieurs
façons, alors les solutions obtenues doivent être les mêmes [188, page 27].
Mais ceci nous éloigne de notre propos. Nous avons introduit pour mémoire
l’entropie, mais c’est en réalité la néguentropie qui va surtout présenter un
intérêt pour notre propos.
Définition 4.2.8 Soit x un vecteur aléatoire centré admettant px (u) pour
densité. Notons ϕ(x) la variable aléatoire gaussienne centrée de même co-
variance que x, et Φx (u) sa densité. Alors la néguentropie associée à px
est
px (u)
Z
J(px ) = px (u) log du. (4.42)
Φx (u)
INTERVENTION DES SOE DANS QUELQUES PROBLÈMES 79

Il est facile de remarquer que la néguentropie est une mesure d’écart à


la distribution gaussienne, puisqu’elle est égale à la divergence δ(px , Φx ).
Nous avons par conséquent la propriété:

Proposition 4.2.9 La néguentropie d’une distribution px est toujours pos-


itive, et s’annule si et seulement si px est presque partout gaussienne.

De façon encore plus explicite, nous avons:

Proposition 4.2.10 La néguentropie est la différence des entropies suiv-


antes:
J(px ) = S(Φx ) − S(px ). (4.43)

Démonstration. Par définition de l’entropie, nous avons:


Z Z
S(Φx ) − S(px ) = px (u) log px (u) du − px (u) log Φx (u) du
Z Z
+ px (u) log Φx (u) du − Φx (u) log Φx (u) du.
R
D’où on déduit immédiatement S(Φx )− S(px ) = J(px )+ log Φx (u) [px (u)−
Φx (u)] du. Or ce dernier terme est nul puisque, par définition, x et ϕ(x) ont
même variance, et log Φx (u) est un polynôme de degré 2.

Proposition 4.2.11 L’entropie et la néguentropie sont invariantes par


changement de base orthonormé.

Démonstration. Considérons deux vecteurs aléatoires, x et y = Qx, où


Q est une matrice inversible. Alors L’entropie de y s’écrit
Z
S(px ) = − py (Qu) log[| det Q| py (Qu)] |detQ| du,

ce qui donne la règle de transformation de l’entropie par changement de base:

S(px ) = S(py ) − log | det Q|. (4.44)

Il est clair que l’entropie est invariante par toute transformation dont le
déterminant est de module 1, et en particulier par transformation orthog-
onale. Par ailleurs, la néguentropie est invariante au moins sur le même
ensemble de transformations, d’après la proposition 4.2.10.
80 CHAPITRE 4

Proposition 4.2.12 La néguentropie est invariante par changement de base


(inversible).
Démonstration. On applique simplement (4.44), qui est valable pour
toute matrice inversible, à px et φx . Par différence, log | det Q| disparait et
J(px ) = J(φx ).

Proposition 4.2.13 L’information mutuelle est invariante par changement


d’échelle, et peut s’écrire:
X
I(px ) = J(px ) − J(pxi ) + I(Φx ). (4.45)
i

Démonstration. Par définition de l’information, nous avons


X
I(px ) = S(pxi ) − S(px ). (4.46)
Soit Λ une matrice diagonale régulière. Le vecteur Λx a pour entropie
P
I(pΛx ) = S(Φxi ) − log Λii − S(px ) + log det Λ, ce qui prouve que I(pΛx ) =
I(px ). En outre, en utilisant la propriété 4.2.10, la relation (4.46) donne:
X X
I(px ) = S(Φxi ) − J(pxi ) − S(Φx ) + J(px ).
P
Enfin, un nouveau recours à I(Φx ) = S(Φxi ) − S(Φx ) permet de conclure.
Notons que dans ce résultat, l’information gaussienne peut être remplacée
par sa valeur donnée en (4.40).
Cette dernière propriété met en relief les termes suscepibles d’entrainer
une dépendance statistique entre les composantes xi . Tout d’abord I(Φx ),
qui est une contribution d’ordre 2, peut être facilement éliminée en stan-
dardisant les données. Après standardisation, il ne reste que les deux
néguentropies de la formule (4.45), qui sont des termes d’ordre supérieur.
Si nous ne voulons pas détruire la décorrélation d’ordre 2, les seules trans-
formations linéaires que l’on a le droit de faire subir à un vecteur aléatoire x
sont les transformations diagonales, qui n’ont aucun effet sur l’information
comme on l’a montré avec la proposition 4.2.13, et les transformations or-
thogonales. Or d’après la proposition 4.2.11, la première néguentropie est
invariante par transformation orthogonale; il ne reste donc plus que le second
terme de (4.45), qui soit susceptible de mesurer la dépendance statistique
entre les composantes d’un vecteur standardisé.
Malheureusement, les densités sont en général inconnues, de sorte qu’il
faudra approximer les néguentropies par des estimations. Le but de la section
d) sera précisément de proposer un moyen pratique de mettre en œuvre cette
estimation à partir des moments ou cumulants d’ordre supérieur.
INTERVENTION DES SOE DANS QUELQUES PROBLÈMES 81

c) Développement en série d’Edgeworth

Soit une variable aléatoire scalaire x de seconde fonction caractéristique


Ψx (u), supposée être voisine d’une fonction Ψo (u). Par définition, Ψx (u)
génère les cumulants dans son développement en série entière:

1 1
Ψx (u) = κ1 u + κ2 u2 + κ3 u3 + . . . , (4.47)
2! 3!

où κr désigne le cumulant d’ordre r, C(r) {x}. Posons λr le cumulant d’ordre r


dans le développement en série de Ψo (u), et ηr = κr − λr . Alors la différence
des fonctions caractéristiques s’écrit:

1
ηr ur .
X
Ψx (u) − Ψo (u) = (4.48)
r=1
r!

Notons qu’il n’existe pas forcément de variable aléatoire dont les cumulants
d’ordre r sont égaux à ηr . Mais on peut tout de même noter les ”moments”
µr définis par:
∞ ∞
1 1
ηr ur ] = µ k uk .
X X
exp[ (4.49)
r=1
r! j=0
k!

A partir de cette relation, il est possible de développer px (v) autour de po (u)


comme suit:

X 1
px (v) = po (v) µk hk (v), (4.50)
k=0
k!

où les fonctions hk (v) sont définies par

(−1)k dk po
hk (v) = (v). (4.51)
po (v) dv k

Le développement (4.50) ne revêt une forme simple que pour certaines den-
sités po (v) particulières, notamment celles pour lesquelles les fonctions hk (v)
sont des polynomes.
Le développement en série d’Edgeworth de type A permet d’approximer
une densité lorsque po (v) est gaussienne. Dans un souci de consistence des
notations, on notera alors po (v) = Φx (v). Pour simplifier les expressions, et
sans restreindre la généralité, on se placera dans le cas gaussien standardisé.
Dans ce cas, les fonctions hk (v) sont les polynomes de Hermite définis par
82 CHAPITRE 4

la récurrence:

h0 (v) = 1, (4.52)
h1 (v) = v, (4.53)
d
hk+1 (v) = v hk (v) − hk (v). (4.54)
dv
Par exemple, h2 (v) = v 2 − 1 et h3 (v) = v 3 − 3v. En outre, le développement
de Edgeworth se distingue de celui de Gram-Charlier par le fait que les
termes sont ordonnés non pas par degré croissant, mais par ordre de grandeur
décroissant sous les hypothèses du théorème de la limite centrale (page 36).
Le classement des termes, s’il n’a aucune importance dans une série infinie
convergente, en a beaucoup lorsqu’il s’agit de tronquer la série. Le théorème
de la limite centrale nous dit que, si x est la somme de m variables aléatoires
indépendantes de cumulants bornés, alors le cumulant d’ordre r de x est de
l’ordre de m1−r/2 . Ceci conduit au classement suivant:
Ordre
m−1/2 κ3
m−1 κ4 κ23
m−3/2 κ5 κ3 κ4 κ33
m−2 κ6 κ3 κ5 κ23 κ4 κ24 κ43
m−5/2 κ7 κ3 κ6 κ23 κ5 κ24 κ3 κ53 κ4 κ5 κ33 κ4

Ainsi le développement en série de Edgeworth de la densité px (v) autour de


Φx (v) s’écrit [136, formule 6.49]:

px (v)/Φx (v) = 1
1
+ κ3 h3 (v)
3!
1 10 2
+ κ4 h4 (v) + κ h6 (v)
4! 6! 3
1 35 280 3
+ κ5 h5 (v) + κ3 κ4 h7 (v) + κ h9 (v)
5! 7! 9! 3
1 56 35 2100 2
+ κ6 h6 (v) + κ3 κ5 h8 (v) + κ24 h8 (v) + κ κ4 h10 (v)
6! 8! 8! 10! 3
15400 4
+ κ h12 (v)
12! 3
+O(m−2 ). (4.55)
INTERVENTION DES SOE DANS QUELQUES PROBLÈMES 83

d) Approximation de la néguentropie
Dans cette secton, nous allons utiliser le développement de Edgeworth pour
approximer la néguentropie que nous avons définie précdemment en (4.42).
La relation (4.40) a montré que I(Φx ) = 0 si et seulement si la matrice
de covariance est diagonale. Pour des distributions non gaussiennes, la
décorrélation à l’ordre 2 est insuffisante pour assurer l’indépendance. En
revanche, la néguentropie sera suffisante pour assurer l’indépendance statis-
tique. En général, à l’instar de la densité de probabilité, la néguentropie est
en général inconnue. On se propose ici de l’approximer à l’aide des cumulants
d’ordre croissant.
Posons px (u) = Φx (u)[1+f (u)], où f (u) est donnée par le développement
de Edgeworth. On adopte le développement en série du logarithme suivant:
(1+f ) log(1+f ) = f +f 2 /2−f 3 /6+f 4 /12+o(f 4 ). En reportant cette approx-
imation dans l’expression de la néguentropie (4.42), et en replaçant f (u) par
sa valeur, on peut obtenir l’approximation escomptée. L’expression finale de
la néguentropie nécessite les propriétés intégrales suivantes des polynomes
de Hermite:
Z
Φ(v) hp (v) hq (v) dv = p! δpq , (4.56)
Z
Φ(v) h23 (v) h4 (v) dv = 3!3 , (4.57)
Z
Φ(v) h23 (v) h6 (v) dv = 6!, (4.58)
Z
Φ(v) h43 (v) dv = 93 3!2 . (4.59)

On obtient alors après calcul, si z est une variable aléatoire scalaire stan-
dardisée:
1 1 7 1
J(pz ) = κ23 + κ24 + κ43 − κ23 κ4 + o(m−2 ). (4.60)
12 48 48 8

4.2.5 Contrastes statistiques


a) Généralités
Les ingrédients introduits dans cette section sont communs aux trois sections
qui vont suivre. Le premier ingrédient est la notion de filtre trivial.
Définition 4.2.14 La suite de matrices {A(k)} est dite triviale si et seule-
ment si pour tout indice i fixé, il existe un seul couple d’indices (j, k) tel que:
Aij (k) 6= 0.
84 CHAPITRE 4

On admet que le nombre de sources est égal au nombre de capteurs,


puisque ceci n’est pas restrictif lorsque N ≥ Ns dans le modèle d’observation
de départ (4.25), comme on l’a déjà souligné plus haut.
On admet que le processus observé se modélise comme suit:
X
y(t) = H(k) x(t − k) + v(t), (4.61)
k

où y(t) et x(t) sont de dimension N , et où les matrices H(k) sont cette
fois carrées. On désigne par H(z) la transformée en z de la suite H(k).
Les autres notations restent celles du modèle (4.25). Il sera en outre
nécessaire d’imposer des contraintes supplémentaires pour assurer l’unicité
de la modélisation.
Soit H un sous-ensemble des filtres H(z) de norme L2 finie, et P = {y(t)}
un ensemble de processus de dimension N . Pour alléger les écritures, on
adoptera parfois la notation compacte: H · x ≡ H(z) · x(t). De même, on
notera H · P l’ensemble image de P par les filtres de H.

Définition 4.2.15 Une application Υ associant la densité de probabilité


d’un élément y(t) ∈ H · P à un nombre réel positif, noté Υ(y), sera dite con-
traste probabiliste discriminant, ou plus simplement contraste sur (P, H),
si elle vérifie les trois conditions suivantes:

C1. Υ est invariante par changement d’échelle; c’est à dire que Υ(Λy) =
Υ(y), ∀y ∈ H · P, et ∀Λ, matrice constante diagonale régulière de H.
C2. Si les composantes xi (t) d’un processus x(t) ∈ P sont indépendantes,
et chacune blanche au sens fort, alors Υ(H · x) ≤ Υ(x), ∀H(z) ∈ H.
C3. Il y a égalité dans C2 si et seulement si H(k) est triviale. C’est cette
condition qui assure le caractère discriminant du contraste.

Un contraste ne vérifiant pas la propriété C3 sera peu utile car, en


l’absence de bruit, Υ(H · x) pourrait atteindre son maximum, Υ(x), sans
pour autant que le filtre H soit triviale.
Il faut remarquer que la notation Υ(y) constitue un abus, puisque Υ
est construite sur la densité de probabilité de y (éventuellement au sens
des distributions). La notation correcte serait Υ(py ), mais cela alourdirait
considérablement les écritures. L’abus est donc admis, mais il faut en être
conscient.
INTERVENTION DES SOE DANS QUELQUES PROBLÈMES 85

Cette définition étend le concept proposé dans [43] [2], tout en assurant
la compatibilité avec le concept introduit par Donoho pour la déconvolution
scalaire [105] [117], comme nous allons le préciser dans ce qui va suivre.
Il existe des relations d’équivalence entre les couples (P, H). Par exem-
ple, P ={processus temporellement blancs à l’ordre 2 et de variance 1} et
H ={matrices rationnelles}, peut être remplacé par P ={processus à spectre
rationnel} et H ={filtres rationnels H(z) tels que DiagH(z) = I, ∀z}.

b) Déconvolution scalaire
Voyons à présent comment les définitions précédentes se particularisent au
cas de la déconvolution scalaire.

Corollaire 4.2.16 Dans le cas scalaire N = 1, les filtres triviaux sont ceux
dont la réponse impulsionnelle est nulle partout sauf en un point; autrement
dit, ce sont les retards purs multiples de la période d’échantillonnage, suivis
d’un facteurs d’échelle.

Proposition 4.2.17 Le module du cumulant standardisé d’ordre r > 2 à


l’origine est un contraste sur l’ensemble P des processus non gaussiens ad-
mettant des moments finis jusqu’à l’ordre r, et l’ensemble H des filtres non
nuls.

Démonstration. La condition C1 est assurée par la standardisation des


cumulants. Par ailleurs, y(t) = k H(k) x(t − k). Grâce à la propriété de
P

multilinéarité des cumulants (3.4.1), nous avons:

H(k)r
P
k
K(r),y = K(r),x P .
[ k H(k)2 ]r/2

Or, par inégalité entre les normes Lp , dès que m ≥ 2, [ H(k)r ]1/r ≤
P

[ H(k)2 ]1/2 , ce qui entraine bien |K(r),y | ≤ |K(r),x |, donc C2.


P

Enfin, l’égalité |K(r),y | = |K(r),x | entraine [ H(k)r ]1/r = [ H(k)2 ]1/2 ,


P P

ce qui n’est possible que lorsque H(k) ne contient qu’une seule valeur non
nulle lorsque r > 2. Ceci prouve C3.
Ces propriétés ont éte prouvées à l’origine par C.W. Granger vers 1976
[105]. Une étude générale rigoureuse des contrastes dans le cas scalaire
peut être trouvée dans [117]. Les cumulants standardisés d’ordre 3 ou 4,
appelés asymétrie et aplatissement (kurtosis), ont été également utilisés
86 CHAPITRE 4

indépendamment en analyse de données [128]. On voit aussi que la fonc-


tionnelle Υ(y) = |K(r),y |α est également un contraste, pour tout α > 0 et
tout r > 2.

Proposition
R
4.2.18 L’opposé de l’entropie moyenne de Shannon, Υ0 (y) =
−S(y) = log py (u) py (u) du, est un contraste sur l’ensemble P des processus
non gaussiens de variance finie, et l’ensemble H des filtres conservant la
variance, i.e. , satisfaisant k H(k)2 = 1.
P

Démonstration. Ce résultat est énoncé dans [105] sans preuve détaillée.


En réalité, la démonstration est un peu plus pénible qu’on pourrait le croire,
et fait appel à la propriété: S( H(k) x(k)) − S(x) ≥ log( H(k)2 )/2 [84].
P P

Cette propriété est satisfaite dès que les variables x(k) sont i.i.d. Elle n’est
pas donnée ici à cause de sa longueur. On se réfèrera à [63].

c) Mélange instantané vectoriel


Si les composantes zi d’un vecteur aléatoire sont statistiquement
indépendantes, alors celles du vecteur ΛP z le sont aussi si Λ est une matrice
diagonale et P une permutation. Une première exigeance que l’on est en
droit d’imposer est donc qu’une fonction de contraste soit insensible à des
transformations du type ΛP . En conséquence la matrice F ne peut être
définie qu’à cette indétermination près. C’est d’ailleurs la même chose dans
le problème de séparation de signaux. On retrouve cette indétermination
dans la définition des filtres triviaux:

Corollaire 4.2.19 Dans le cas de mélanges instantanés, les filtres triviaux


sont de la forme H = Λ P , où Λ est diagonale et P est une permutation.

Les matrices triviales orthogonales sont les “permutations signées”. Dans


le cas complexe, les matrices unitaires triviales seront appelées de la même
façon, sachant qu’elles sont en fait le produit d’une permutation par une
matrice diagonale formée d’éléments de module 1.
La définition générale 4.2.15 tient compte de cette indétermination par
l’insensibilité au facteur d’échelle. L’insensibilité à la permutation découle
de celle de la densité de probabilité. La définition 4.2.15 se particularise
dans le cas des mélanges instantanés à la définition suivante:

Corollaire 4.2.20 Un contraste sur (P, H) est une application Υ de P dans


IR telle que les trois conditions suivantes soient satisfaites:
INTERVENTION DES SOE DANS QUELQUES PROBLÈMES 87

C1. Υ(Λy) = Υ(y), pour toute matrice diagonale Λ ∈ H;


C2. Si x a des composantes indépendantes, alors Υ(Ax) ≤ Υ(x) pour toute
matrice A ∈ H.
C3. Υ(Ax) = Υ(x) n’est vérifiée pour tout x ∈ P de composantes
indépendantes que si A est de la forme ΛP .

Sauf mention contraire, H sera, dans le contexte des mélanges instan-


tanés, l’ensemble des matrices carrées inversibles. On va donner dans la
suite quatre exemples de contrastes.

def
Proposition 4.2.21 L’application Υo (z) = −I(pz̃ ), où z̃ est le vecteur
standardisé associé à z, conformément à la définition 3.4.3, est un contraste
sur l’ensemble P des vecteurs aléatoires de covariance finie et inversible. En
outre, il est discriminant sur le sous-ensemble des vecteurs aléatoires ayant
au plus une composante gaussienne.

Démonstration. La démonstration découle directement des propriétés


4.2.6 page 76 et 4.2.13 page 80 [2].
Comme nous l’avons déjà souligné, l’information mutuelle est en général
difficilement utilisable dans la pratique car les densités sont inconnues, même
si des tentatives ont été faites dans ce sens [173]. Il est donc utile de se
tourner vers des contrastes plus “pratiques”.

def
Proposition 4.2.22 L’application Υ2,r (z) = N 2
P
i=1 K(r),yi , est un contraste
sur (P, H), où P désigne le sous-ensemble des vecteurs aléatoires ayant des
moments finis jusqu’à l’ordre r, pour r > 2, et ayant au plus un cumu-
lant marginal d’ordre r nul. H désigne l’ensemble des matrices carrées in-
versibles.

Démonstration. Dans cette démonstration, il est légitime de poser


H = L Q, où Q est orthogonale, et ỹ(t) = Q x(t). En effet, puisque Υ2,r est
construit sur les cumulants standardisés de y(t), nous savons que Υ2,r (y) =
Υ2,r (ỹ) = Υ2,r (Q x). Tout se passe donc comme si H était l’ensemble des
matrices orthogonales.

Condition C1. La condition C1 découle de la standardisation.


88 CHAPITRE 4

P 2
Condition C2. On note Υ(x) = p K(r), xp , en omettant provisoirement
l’indexage (2,r ) pour alléger, et:

K2i1 ...ir ,y .
X
Ω(y) =
i1 ...ir

Alors Υ(y) ≤ Ω(y) puisque tous les termes sont positifs. Par ailleurs, Ω(y)
s’écrit, par multilinéarité des cumulants:
X X
Ω(y) = Qi1 p Qi1 q · · · Qir p Qir q K(r),xp K(r),xq .
pq i1 ...ir

Or, comme QT Q = I par hypothèse, il vient que Ω(y) = Υ(x). En conclu-


sion, nous avons:
Υ2,r (y) ≤ Ω(y) = Υ2,r (x). (4.62)
Cette relation, qui prouve C2, nous sera utile pour la suite de la
démonstration.

Condition C3, première démonstration. C3 a été prouvée dans le


cas général par Comon [42] [2]. Toutefois, une démonstration plus simple
a été donnée par M. Krob dans le cas r = 4 [139]. Le principe de cette
démonstration reste valable lorsque r est multiple de 4, comme nous allons
l’expliquer maintenant.
Posons r = 4s, s entier. Notons Υ(ȳ) et Ω(ȳ) les quantités obtenues
en remplaçant les cumulants K(r),xp par leur module dans les expressions
développées de Υ(y) et Ω(y), respectivement. Alors, par le même raison-
nement que pour obtenir (4.62), on obtiendrait:
Υ2,r (ȳ) ≤ Ω(ȳ) = Υ2,r (x).
Mais on peut observer que, par inégalité triangulaire, Υ(y) ≤ Υ(ȳ). Par
conséquent, si on a l’égalité Υ(y) = Υ(x), on a nécessairement égalité de
tous ces termes entre eux, et en particulier Υ(ȳ) = Ω(ȳ). Ceci se traduit par
les égalités:
X
Qi1 p · · · Qir p |K(r),xp | = 0, ∀(i1 · · · ir ) 6= (i1 · · · i1 ). (4.63)
p

En particulier, si le r-uplet (i1 · · · ir ) ne contient que deux indices distincts,


i et j, en nombre égal (ce qui est possible car r est pair):
Q2s 2s
X
ip Qjp |K(r),xp | = 0, ∀(i, j), i 6= j.
p
INTERVENTION DES SOE DANS QUELQUES PROBLÈMES 89

Pour tout p tel que K(r),xp 6= 0, ceci entraine la nullité du produit Qip Qjp ,
puisque tous les termes sont positifs dans la somme. Si le vecteur x a au plus
un cumulant d’ordre r non nul, alors le produit Qip Qjp est nul pour N − 1
valeurs de p. En conséquence, N − 1 colonnes de Q ne contiennent qu’un
seul élement non nul. Comme Q est orthogonale, ses lignes sont normées, et
elle est nécessairement une permutation signée.

Condition C3, seconde démonstration. Lorsque r n’est plus un mul-


tiple de 4, la démonstation précédente s’effondre. La démonstration qui suit
reproduit celle donnée dans [42] [2]. On utilise le lemme suivant:

Lemme 4.2.23 Soit r Q la matrice dont les éléments sont |Qij |r . Alors, si
Q est orthogonale, 2 Q vérifie: ||2 Q u|| ≤ ||u||, ∀u, pour la norme L2 .

Démonstration du lemme. Notons Q̄ (resp ū) la matrice (resp. le vecteur)


dont les éléments sont les modules de ceux de Q (resp. ceux de u). Si
Q est unitaire, alors 2 Q est bistochastique, c’est à dire que la somme de
ses composantes au sein d’une même ligne ou d’une même colonne vaut 1.
D’après un théorème de Birkhoff, l’ensemble des matrices bistochastiques est
un polyèdre convexe dont les sommets sont des permutations; ceci veut dire
que:
2
X X
Q= αs Ps , αs ≥ 0, αs = 1.
s s
Par inégalité triangulaire, il vient finalement:

||2 Q u|| ≤ ||2 Q̄ ū|| ≤


X
αs ||Ps u|| = ||u||.
s

Démonstration de C3. Comme Q est unitaire, ses composantes sont de


module plus petit que 1, et |r Qij | ≤ |2 Qij | dès que r ≤ 2. Par inégalité
triangulaire, on en tire que, pour tout vecteur u:

Qrki Qrkj ui uj ≤ Q̄rki Q̄rkj ūi ūj ≤ Q̄2ki Q̄2kj ūi ūj .
X X X

i,j,k i,j,k i,j,k

En appliquant le lemme, on obtient que:

||r Q u||2 ≤ ||2 Q̄ ū||2 ≤ ||ū||2 = ||u||2 .

Appliquons ce résultat au vecteur u formé des cumulants marginaux d’ordre


r de la variable standardisée ỹ. On obtient alors simplement:

Υ(Q ỹ) ≤ Υ(ỹ),


90 CHAPITRE 4

qui reste valable pour le vecteur y. Ceci prouve C2 en passant. Si on a


égalité, cela veut dire que:

||2 Q̄ ū||2 − ||r Q̄ ū||2 = 0,

pour un certain vecteur u ayant au plus une composante nulle. Comme elle
est toujours positive ou nulle, la quantité suivante doit donc être nulle:

[2 Q̄ ū]2i − [r Q̄ ū]2i = 0, ∀i.

Cette égalité reste vraie en enlevant les carrés, à cause le la positivité des
termes. Tous les termes étant de nouveau positifs, on doit avoir

[2 Q̄ij − r Q̄ij ]ūj = 0, ∀(i, j).

La chute est similaire à celle de la première démonstration. On remarque


que, comme ūj est strictement positif pour au moins N − 1 valeurs de j,
l’égalité 2 Q̄ij = r Q̄ij pour r > 2 entraine que N − 1 colonnes de la matrice Q
ne contiennent qu’un seul élément non nul. L’orthogonalité de Q implique
enfin que Q est une permutation signée.
La démonstration s’étend au cas complexe lorsque l’ordre r est pair, et
que les cumulants sont définis de façon à ce que la moitié des termes soit
conjugués [2].
Un autre contraste a été proposé récemment par Moreau et Macchi [163]
[164] [165] et semble particulièrement intéressant. En effet, une analyse
précise de leur démonstration montre que le fait que Q soit orthogonale est
incomplètement utilisé, et qu’une condition bien plus faible suffit, comme
nous allons le voir plus loin.
N def
Proposition 4.2.24 L’application Υ1,r (z) = i=1 |K(r),yi |, est un con-
P

traste sur (P, H), où P est l’ensemble des vecteurs aléatoires ayant des
moment finis jusqu’à l’ordre r, pour r > 2, et ayant au plus un cumulant
marginal d’ordre r nul.

Démonstration. Commençons par donner la démonstration lorsque Q


est orthogonale, calquée sur celle de E. Moreau. La condition C1 ne pose
pas de problème grâce à la standardisation des cumulants. Pour démontrer
C2, remarquons que:

Qrjp K(r),xp ≤ |Qjp |r · |K(r),xp |.


X X X
Υ1 (y) =
j p j,p
INTERVENTION DES SOE DANS QUELQUES PROBLÈMES 91

Or, comme |Qjp |2 = 1 et r ≥ 2, alors |Qjp |r ≤ 1, il vient:


P P
j j
X
Υ1 (y) ≤ |K(r),xp | = Υ1 (x),
p

qui prouve C2.


Pour prouver C3, supposons que Υ1 (y) = Υ1 (x). Alors:
 

|Qjp |r  · |K(r),xp | = 0.
X X
1 −
p j

Comme tous les termes sont positifs, on en déduit que j |Qjp |r = 1 pour
P

tout p tel que K(r),xp 6= 0. Donc la pième colonne de Q ne contient qu’un


élément non nul. Enfin, comme Q est orthogonale, si N − 1 de ses colonnes
n’ont qu’un élément non nul, elle est une permutation signée.
On remarquera que, jusqu’à la dernière étape de la démonstration, seules
la propriété de normalisation des colonnes a été utilisée pour prouver C3.
Ceci nous conduit à considérer le contraste suivant:

Proposition 4.2.25 L’application définie par Υ(y) = i |C(r),yi | est un


P

contraste sur (P, H), si P désigne l’ensemble des vecteurs aléatoires de di-
mension N ayant des moments finis jusqu’à l’ordre r et ayant au plus un
cumulant marginal d’ordre r nul, et si H désigne l’ensemble des matrices
satisfaisant les relations suivantes:
Y2. Diag H H T = I (chaque ligne est normée),
F2. Diag H T H = I (chaque colonne est normée).

Démonstration. La preuve est la même que celle de la proposition


4.2.24. Les différences sont les suivantes: Y2 est utilisée pour prouver la
condition C1, F2 est utilisée pour C2, et F2 et Y2 sont nécessaires pour C3,
sans nécessiter l’orthogonalité de Q.
On peut se demander si ces contraintes sont légitimes. Nous savons que
le modèle d’observation y = Hx souffre d’une indétermination à une ma-
trice multiplicative près, de la forme Λ P . Il est donc utile (et ici nécessaire)
d’imposer N contraintes permettant de lever cette indétermination. En stan-
dardisant les données, on avait réduit cette indétermination à une permuta-
tion signée, mais en même temps on se débarrassait des corrélations d’ordre
2, ce qui n’était pas indispensable.
92 CHAPITRE 4

Pourtant, il peut être désagréable d’être obligé de recourir à cette


procédure, notamment en présence de bruit gaussien. Ceci peut se compren-
dre en remarquant que la standardisation devrait faire intervenir une racine
de la matrice de covariance du signal seul, et non de celle de l’observation.
Une contrainte possible est: Diag H = I. Mais cette contrainte manque
de souplesse dans le contexte qui nous occupe. Une autre contrainte consiste
à imposer une variance unité sur chacune des sorties. C’est précisément
ce que traduit la contrainte Y2. Comme nous l’avons précisé page 64, la
contrainte F2 peut être vue comme une normalisation des colonnes de H.
Enfin, on ne manquera pas de remarquer que F2 et Y2 réunies sont des
contraintes bien plus faibles que l’orthogonalité. Il est facile de le vérifier en
remarquant que si H est orthogonale, alors H T H = H H T = I, tandis que
F2 et Y2 ne correspondent qu’aux diagonales de ces deux dernières égalités.
Par exemple si N = 2, les rotations hyperboliques satisfont F2 et Y2.
Le contraste 4.2.25 ne fait plus intervenir de cumulants standardisés, et
peut donc potentiellement prétendre à une insensibilité au bruit gaussien.
Un autre constraste proposé par E. Moreau avait également cette faculté,
mais faisait intervenir le module d’un cumulant croisé [164].

d) Mélanges convolutifs vectoriels


L’objectif de cette section est assez modeste. Il consiste à présenter
une ébauche de projet de recherche orienté vers la mise au point
d’algorithmes de déconvolution multivariable autodidacte en présence de
bruit, éventuellement non gaussien.
L’intérêt des fonctions de contraste a déjà été souligné et il n’est pas
nécessaire d’y revenir. En revanche, la définition 4.2.15 donnée en page 84
ne présenterait pas beaucoup d’intérêt s’il n’était pas possible d’exhiber au
moins une fonction de contraste applicable dans cette situation. C’est ce qui
va être fait maintenant.

Proposition 4.2.26 La fonction Υ1 (y) = j |C(r),yj | est un contraste sur


P

(P, H), si P est l’ensemble des processus stationnaires à l’ordre r, ayant


au plus une composante gaussienne, et si H est l’ensemble des filtres H(z)
vérifiant les conditions suivantes, notées F3 et Y4 page 64:
I
[F3.] Diag H(z) H(z)† dz = I, (4.64)
I
[Y4.] Diag H(z)† H(z) dz = I. (4.65)
INTERVENTION DES SOE DANS QUELQUES PROBLÈMES 93

Par exemple, si le filtre H(z) préserve l’énergie sur chaque composante, et


si l’entrée x(t) est blanche au second ordre, alors la normalisation F3 sera
satisfaite (cf. page 64).
Démonstration. La condition C1 demandée dans la définition 4.2.15 est
assurée par F3.
Pour la condition C2, on remarque que le contraste se développe comme
suit:
r
|Hip (k)|r · |C(r),xp |.
X X X
Υ1 (y) = Hjp (k) C(r),xp ≤
i p,k i,p,k

Mais Y4 implique que |Hip (k)|2 = 1, ∀i. Donc pour r ≥ 2, on a bien:


P
i,k
X
Υ1 (y) ≤ |C(r),xp | = Υ1 (x).
p

Pour prouver C3, supposons que Υ1 (y) = Υ1 (x). Alors:


 

|Hip (k)|r  · |C(r),xp | = 0.


X X
1 −
p i,k

Donc pour tout p tel que C(r),xp 6= 0, il vient que:

|Hip (k)|r = 1.
X

ik

On rencontre alors une complication qui n’apparaissait pas dans le cas in-
stantané. En effet, on voudrait que la somme sur i et p soit égale à 1 pour
pouvoir conclure. Pour ce faire, on remarque simplement que la dernière
égalité entraine que i,p,k |Hip (k)|r = N . Mais comme p,k |Hip (k)|r ≤ 1
P P

d’après F3, on doit avoir aussi:


|Hip (k)|r = 1, ∀i.
X

pk

Ceci se constate immédiatement, par exemple par l’absurde. On en déduit


finalement que {H(k)} est triviale, dès que r > 2, en utilisant une nouvelle
fois F3.
La “complication” est également surmontable dans le cas de la fonction-
nelle Υ2 , dans des conditions similaires. Ceci est heureux car Υ2 présente
l’intérêt d’être différentiable, contrairement à Υ1 , qui fait intervenir une
valeur absolue. L’absence de différentiabilité est un obstacle supplémentaire
à une mise en œuvre en ligne.
94 CHAPITRE 4

4.2.6 Un algorithme pour l’ACI


Dans cette section, on présente un algorithme hors ligne, proposé pour cal-
culer l’ACI (solution dans le cas des mélanges instantanés). On pourra
trouver diverses solutions en ligne dans [163], par exemple.

a) Approche en deux étapes


Nous avons vu avec la proposition 4.2.13 que l’information mutuelle
s’écrivait:
N
X
I(px ) = J(px ) − J(pxi ) + I(Φx ).
i=1
L’approche a priori la plus précise consisterait à maximiser cette information
mutuelle, éventuellement en remplaçant les néguentropies par des approxi-
mations. Afin d’éviter à avoir à résoudre un problème d’optimisation multi-
modal de grande dimension, on propose dans cette section une approche en
deux étapes.
Si x est un vecteur aléatoire standardisé, il est clair que la composante
I(Φx ) est nulle. La nullité de ce terme est préservée par transformation
orthogonale. On peut donc décomposer la matrice cherchée F en deux fac-
teurs: F = QL− , où L− assure la standardisation, et où Q est orthogonale.
Or, d’après (4.2.11), la quantité J(px ) est invariante par transformation or-
P
thogonale. Il ne reste donc que le deuxième terme, i J(pxi ), à maximiser
dans l’ensemble des matrices orthogonales.
D’après l’équation (4.60), nous voyons que le critère Υo peut être ap-
proximé par Υ3 si les cumulants d’ordre 3 ne sont pas nuls. S’ils sont nuls,
alors Υo peut être approximé par Υ4 . Malheureusement, les conditions dans
lesquelles l’expression
N
def
4K23,i + K24,i + 7K43,i − 6K23,i K4,i
X
Υ3,4 = (4.66)
i=1

pourrait être un contraste discriminant n’ont pas été obtenues à ce jour. On


utilisera donc ce dernier critère avec prudence.

b) Algorithme Contraste–Maximisation (CM)


Dans cette section, on s’intéressera à la recherche de la matrice Q maximisant
le contraste Υr (pz ), r ∈ {3, 4}, z = Qỹ. La matrice Q a N (N − 1)/2
paramètres libres, si elle est de dimension N . Il n’est pas aisé de mener une
INTERVENTION DES SOE DANS QUELQUES PROBLÈMES 95

telle optimisation, même s’il est possible de calculer la différentielle de Υr , et


d’obtenir analytiquement l’équation des valeurs stationnaires [36]. On peut
par contre décomposer la matrice Q en un produit de N (N − 1)/2 rotations
planes de la forme:
!
1 1 θ
Q(i,j) =√ , (4.67)
1 + θ2 −θ 1

où θ désigne la tangente de l’angle de la rotation plane Q(i,j) , opérant dans


le plan défini par les iieme et j ieme coordonnées. Cette décomposition n’est
pas unique.
La recherche d’une rotation plane maximisant le contraste Υr (pz ), r ∈
{3, 4} se fait de façon purement analytique en résolvant des polynômes de
degré inférieur ou égal à 4 (c’est donc possible par radicaux). L’ensemble de
l’algorithme CM est décrit ci-dessous.

Définition 4.2.27 Algorithme CM


1. Calculer la SVD de la matrice de données: †
√ Y †= V SU , et construire la
matrice de√données standardisées Z = T U et la matrice de passage
L = V S / T . Si Y est N × T et de rang ρ, alors Z est ρ × T et L est
N × ρ.
2. Initialiser F ← L.
3. Commencer la boucle sur les balayages: k = 1, 2, . . . , kmax; On fixe

kmax ≤ 1 + ρ.
4. balayer les ρ(ρ− 1)/2 paires (i, j), conformément à schéma de balayage
fixé (par exemple cyclique par lignes). Pour chaque paire, faire:

(a) Estimer les r+1 cumulants d’ordre r des lignes i et j de la matrice


Z.
(b) Calculer l’angle α maximisant le contraste Υr , dans l’intervalle:

] − π/4, π/4].

(c) Accumuler la matrice de passage: F ← F Q†(i,j) .


(d) Mettre à jour la matrice de données: Z ← Q(i,j) Z.

5. Arrêter la boucle si k = kmax ou bien si tous les angles estimés dans


le dernier balayage sont petits devant 1/T .
96 CHAPITRE 4

6. Calculer la norme des colonnes de F : ∆ii = ||Fi: ||.


7. Ordonner les composantes de ∆ par ordre décroissant: ∆ ← P ∆ P †
et changer l’ordre des colonne de F en conséquence: F ← F P † .
8. Normaliser la matrice F par: F ← F ∆−1 .
9. Fixer la phase (signe) de chaque colonne de F de façon à ce que
l’élément de plus grand module soit réel positif: F ← F D.

Les quatre dernières étapes de l’algorithme décrit ci-dessus sont fac-


ultatives, dans le sens où elles ne servent qu’à déterminer de façon
unique un représentant de la classe d’équivalence des solutions [21] [2].
L’algorithme CM est sous-optimal à deux niveaux: d’abord, il n’utilise pas
les néguentropies pour identifier la meilleure standardisation, puisque seuls
les moments d’ordre 2 sont utilisés dans cette étape. Ensuite, l’optimisation
sur Q ne se fait pas non plus globalement mais est décomposée en plusieurs
problèmes d’optimisation monodimensionnels, un peu à la manière d’une re-
laxation. Ce n’est pas exactement une relaxation, car la décomposition se
fait dans un groupe et non dans un espace vectoriel. L’algorithme ci-dessus
est décrit comme si les données étaient complexes, mais pour alléger, on s’est
limité ci-après à la description du cas réel.

c) Obtention de la rotation plane dans l’algorithme CM


L’objectif de cette section est de décrire en détail comment l’angle α d’une
rotation plane peut être choisi de façon à maximiser les fonctions de con-
trastes Υ3 ou Υ4 . Cette description correspond à l’étape 4b de l’algorithme
CM défini en 4.2.27.
Supposons que la matrice de données standardisées, notée ici Y , soit
de dimension 2 × T , et que nous cherchions la rotation Q maximisant la
fonctions de contraste Υr (pz ). Nous avons:
!
1 1 θ
Q= √ , et Z = QY. (4.68)
1 + θ2 −θ 1

La fonction de contraste Υr (pz ), ne dépendant que des cumulants marginaux


d’ordre r de Z, par construction, est fonction implicite de θ et des cumulants
d’ordre r de Y , compte tenu de la propriété de multilinéarité des cumulants.
Utilisons κ pour désigner les cumulants de Z et g ceux de Y . On peut
donc convenir de noter –abusivement– cette fonction Υr (θ; g). A priori cette
INTERVENTION DES SOE DANS QUELQUES PROBLÈMES 97

fonction est une fraction rationelle de θ, ce qui explique qu’il soit faisable de
trouver son maximum absolu en un nombre réduit d’opérations élémentaires.
La valeur de l’angle α se déduit directement de celle de sa tangente θ; il suffit
de prendre par exemple l’angle se trouvant dans l’intervalle ]−π/2, π/2], mais
cela n’est pas nécessaire. En effet, cette indétermination n’affecte la matrice
Q que par multiplication par une matrice de la forme ΛP . Voyons donc
comment obtenir la tangente θ.

d) Maximisation de Υ3

Si r = 3, nous avons l’expression suivante pour le contraste:

3
1  
ai θ i − (−θ)−i ,
X
Υ3 (θ; g) = (θ + )−3 (4.69)
θ i=1

où les coefficients ai sont donnés par

2 2
a3 = g111 + g222 , (4.70)
a2 = 6 (g122 g222 − g111 g112 ), (4.71)
2 2
a1 = 9 (g122 + g112 ) + 6 (g112 g222 + g111 g122 ). (4.72)

Les points stationnaires correspondant à dΥ3 /dθ = 0 sont les racines du


polynome:
ω3 (ξ; g) = d2 ξ 2 + d1 ξ − 4 d2 , si d2 6= 0, (4.73)

où nous avons utilisé la variable auxiliaire ξ = θ − 1/θ, et où les coefficients
di sont donnés par:

d2 = a2 /6 = g122 g222 − g111 g112 , (4.74)


d1 = a1 /3 − a3 . (4.75)

Il suffit donc de calculer toutes les racines réelles de ω3 (ξ; g), et de calculer
ensuite pour chacune d’elles la solution θ correspondante grâce à la relation
θ 2 − ξθ − 1 = 0, qui n’admet toujours qu’une seule racine dans l’intervalle
] − 1, 1]. Enfin, s’il y a plus d’une racine réelle, on sélectionnera celle des
solutions donnant la plus grande valeur du contraste.
98 CHAPITRE 4

e) Maximisation de Υ4
Si r = 4, la procédure est similaire. On préfèrera exprimer le contraste en
fonction de la variable auxiliaire ξ = θ − 1/θ dès le départ, de sorte que:
4
Υ4 (ξ; g) = (ξ 2 + 4)−2 bi ξ i .
X
(4.76)
i=0

De même, les points stationnaires de Υ4 (ξ; g) sont donnés par les racines
d’un polynome en ξ:
4
ci ξ i .
X
ω4 (ξ; g) = (4.77)
i=0

Les valeurs des coefficients bi et ci en fonction des cumulants des observations


sont données dans [2]. Ces racines sont faciles à calculer puisque le polynome
n’est que de degré 4. Comme précédemment, après avoir calculé les racines ξp
de ω4 (ξ; g), il suffit de les reporter dans l’expression de Υ4 (ξ; g) pour avoir
celle correspondant au maximum absolu. La valeur de θ correspondante
s’obtient en calculant la racine de θ 2 −ξθ −1 = 0 se trouvant dans l’intervalle
] − 1, 1].

4.3 Décompositions tensorielles


Les moments et les cumulants de variables aléatoires sont des objets ten-
soriels, comme l’a bien expliqué Mc Cullagh dans son livre [160]. Pourtant,
il est bien rare qu’ils soient considérés comme tels aux ordres supérieurs à 2.
Evidemment à l’ordre 2, les outils d’algèbre linéaire étant bien rodés
depuis des années, on a pris l’habitude de ranger les moments dans une
matrice de covariance. Mais il n’y a en principe aucune raison qu’on ne
fasse pas de même pour les SOE, si ce n’est précisément à cause de l’absence
d’outils spécifiquement tensoriels. L’objet de cette section est d’expliquer
pourquoi ces outils ne sont pas disponibles aujourd’hui.
Il y a au mons deux raisons à cela. La première est que ces outils
sont difficiles à mettre au point, comme il va être bientôt démontré avec
l’exemple de la diagonalisation. La seconde est qu’il n’y a sans doute jamais
eu véritablement de demande dans ce sens. Les tenseurs étaient utilisés es-
sentiellement en physique, et n’étaient d’ailleurs pas symétriques. En statis-
tiques, les moyens limités en puissance de calcul interdisaient l’utilisation
pratique des SOE multivariables pour des problèmes concrets.
INTERVENTION DES SOE DANS QUELQUES PROBLÈMES 99

La situation a aujourd’hui changé, et il apparait utile de développer


quelques outils supplémentaires pour le traitement du signal de demain.

4.3.1 Diagonalisation tensorielle


Considérons un tableau réel T à d indices ik , 1 ≤ k ≤ d, variant chacun dans
{1, .., n}. On suppose que T est complètement symétrique, c’est à dire que
l’ordre des indices ne change rien à la valeur de T ; par exemple, T123 = T231 .
On dira que d est l’ordre de T et n sa dimension.
Si d = 2, T est une matrice symétrique, et on sait qu’elle est diagonalis-
able par transformation congruente:

T = A Λ A† . (4.78)

Cette décomposition n’est pas unique. Un théorème établi par Sylvester


nous apprend d’ailleurs que la signature (le nombre de signes + et −) de la
matrice diagonale Λ est un invariant parmi les solutions. Un de ces choix est
celui de la décomposition spectrale (i.e. en éléments propres), où on impose
à la matrice A d’être orthogonale.
La question que l’on se pose est de savoir si une telle décomposition peut
s’étendre au cas de tables à plus de deux indices. Décrivons le problème
dans le cas de trois indices, pour simplifier. La diagonalisation congruente
s’écrirait: r
X
Tijk = Aip Ajp Akp Λpp . (4.79)
p=1

Dans cette décomposition, le nombre r joue le même rôle que celui du rang
pour les matrices. Cependant, rien ne nous dit que r ≤ n, malheureusement
[24] [34].
A ce stade, plusieurs familles de problèmes peuvent être identifiés. Dans
la première, on ne considère que les décompositions pour lesquelles r = n.
Cette décomposition ne sera alors exacte que dans des cas très particuliers
[35], ce qui apparaitra plus clairement après les explications de la section
4.3.3. Quoiqu’il en soit, on voit déjà le lien étroit existant entre de telles
diagonalisations et le problème de l’ACI décrit au chapitre 4.2 si la table T
désigne le tenseur cumulant d’ordre d des observations.
Dans les problèmes de la seconde famille, on considère le cas générique,
c’est à dire le cas le plus souvent rencontré. Pour les matrices par exemple,
le cas générique est celui du rang plein. Pour les tenseurs, le rang générique
n’est pas le rang maximal possible; ceci est une première particularité (cf.
100 CHAPITRE 4

section 4.3.3). S’il s’agit de tenseurs d’ordre d > 2, alors la seconde famille
est très différente de la première.
Dans la troisième famille, on s’intéresse aux cas non génériques. On
trouve notamment le cas du rang maximal, mais aussi les cas intermédiaires
entre r = n et r générique. L’intérêt de considérer ces cas intermédiaires
est d’ordre pratique: on espère être capable de proposer des algorithmes
pour calculer la diagonalisation congruente dans ces cas-là, ou au moins
prouver qu’ils existent théoriquement, ce qui n’est pas aujourd’hui possible
pour toutes les valeurs du triplet (p, n, r), loin s’en faut.

4.3.2 Polynômes homogènes


On ne trouve pratiquement rien dans la littérature sur la diagonalisation de
tables à plus de deux indices. Pourtant, il y avait au 19ème siècle une grosse
activité de recherche sur les polynômes homogènes, qui a malheureusement
été étouffée en grande partie à cause de Hilbert. En effet, ce dernier a tué un
des plus gros débouchés pour ces chercheurs qu’était le théorie des invariants
[170].
On peut très brièvement expliquer pourquoi les tenseurs et les polynômes
homogènes sont liés. On trouvera plus de détails dans [24] si nécessaire. Tout
tenseur symétrique G de dimension n et d’ordre d est associé de façon unique
à un polynôme homogène p de degré d à n variables par la relation:
n
X
p(xi1 , xi2 , .., xid ) = Gi1 i2 ..id xi1 xi2 ..xid (4.80)
i1 ,i2 ,..id =1

Il est évident qu’avec cet éclairage, la diagonalisation de G est équivalente


à la décomposition de p en puissances de formes linéaires. Dans le cas des
matrices par exemple, on sait que toute matrice symétrique est associée à
une forme quadratique, et vice-versa.
C’est grâce à cette connexion qu’il a été possible de remonter aux travaux
de Salmon, puis de Rota et de Reznick [24]. Ce sont ces travaux qui nous
ont permis d’établir ce qui va être décrit maintenant dans la section 4.3.3.

4.3.3 Rang générique et nombre de solutions


A partir d’un très grand nombre de relations, rassemblées pour la plupart
par Reznick et Rota, il a été possible de dresser la table 4.3. Cette dernière
donne la valeur du rang générique r pour des valeurs quelconques du couple
(d, n). On constatera que dans la première colonne, on a bien r = n, puisque
INTERVENTION DES SOE DANS QUELQUES PROBLÈMES 101

ordre 2 3 4 5 6 7 8
dimension
2 2 2 3 3 4 4 5
3 3 4 6 7 10 12 15
4 4 5 10 14 22 30 42
5 5 8 15 26 42 66 99
6 6 10 22 42 77 132 215
7 7 12 30 66 132 246 429
8 8 15 42 99 215 429 805

Table 4.3: Rang générique des tenseurs en fonction de leur dimension et de


leur ordre.

cette dernière correspond au cas matriciel d = 2. Il est important de noter


qu’il n’y a aucune règle systématique connue pour calculer r; certaines de
ces valeurs n’ont été obtenues que récemment, après plusieurs articles visant
à les encadrer par des bornes.
En outre, le nombre de solutions est infini si rn > D, si on pose
!
n+d−1
D= . (4.81)
d

La dimension de la variété des solutions est donnée par la différence nr −


D, qui est reproduite dans le tableau 4.4. On vérifie bien que dans le cas
matriciel, la dimension est n(n − 1)/2. On constate aussi que pour certains
couples (n, d), il n’existe qu’un nombre fini de solutions; citons notamment
les couples (4, 3), (7, 3), ou (7, 4).
Mis à part les cas où r ≤ n et d = 2, il n’a été possible pour l’instant
de diagonaliser un tenseur symétrique que pour n = 2, ce qui présente un
intérêt très limité [24]. Ceci fait l’objet de recherches en cours.
102 CHAPITRE 4

ordre 2 3 4 5 6 7 8
dimension
2 1 0 1 0 1 0 1
3 3 2 3 0 2 0 0
4 6 0 5 0 4 0 3
5 10 5 5 4 0 0 0
6 15 4 6 0 0 0 3
7 21 0 0 0 0 6 0
8 28 0 6 0 4 0 5

Table 4.4: Dimension de l’ensemble des solutions.


Chapitre 5

Orientations et perspectives

Dans ce chapitre on décrit les perspectives de travaux telles qu’elles peuvent


être envisagées aujourd’hui en reprenant la partition en quatre volets pro-
posée aux chapitres 1 et 2. Je saurai gré au lecteur intéressé par l’un de ces
sujets de recherche de bien vouloir m’en avertir, pour mettre en place une
coopération éventuelle, qui sera la bienvenue.
Certains des sujets décrits ci-après trouvent des applications dans le
monde industriel, notamment sonar; cependant, ces applications ne sont
pas précisées pour des raisons de confidentialité.

Traitement d’antenne
1 Il est non seulement discutable d’imposer l’hypothèse de stationnarité
des sources dans les problèmes de mélanges linéaires, au regard des
conditions expérimentales, mais aussi très certainement superflu sur
le plan théorique. Il est même vraisemblable que la non stationnarité
des sources permette d’atteindre, lorsque le milieu est constant, de
meilleures performances.
2 Le problème de la calibration automatique sans bruiteur coopérant,
révélant des problèmes d’observabilité complexes, est d’un grand
intérêt opérationnel [148]. Il fait l’objet d’une étude en 1995-96.
3 Celui de la pondération optimale d’antennes de géométrie quelconque
est posé encore aujourd’hui sous la forme d’un problème d’optimisation
multimodal général, malgré ses nombreuses particularités.
4 L’évaluation de bornes permettant d’accéder aux performances ultimes
atteignables en estimation de paramètres est également difficile à met-

103
104 CHAPITRE 5

tre en œuvre lorsque le modèle gaussien est irréaliste. Ceci pose le


problème du traitement d’antenne ultime (lorsque les statistiques des
observations et des sources sont parfaitement connues), si on cherche à
construire un traitement basé sur les SOE, en complément aux statis-
tiques d’ordre 2.
5 Le calcul de performances de certaines chaines de traitement complexes
(très non linéaires) est difficile à mener à bien dans des conditions
réalistes, c’est à dire sur signaux réels, en particulier lorsque les données
sont peu nombreuses. Les techniques de rééchantillonnage (Bootstrap)
sont bien adaptées à ce calcul.
6 Nous avons vu que la déconvolution des mélanges linéaires multivari-
ables est possible avec le recours uniquement aux moments d’ordre 2,
dans certaines circonstances. En particulier, lorsque les observations
sont suréchantillonnées. D’un autre côté l’aspect cyclostationnaire a
été peu utilisé pour cette catégorie de problèmes, et conduit sans doute
aux mêmes conclusions.
7 Les modèles bilinéaires occupent une place toute particulière parmi
les processus non linéaires. En effet, bien qu’ayant une structure plus
simple, ils permettent d’approcher tout type de processus. On peut les
utiliser notamment pour extraire un signal d’un bruit multiplicatif.
8 L’ACI peut être vue comme une décomposition d’un vecteur aléatoire
sur une base adéquate, dans laquelle ses composantes sont statis-
tiquement indépendantes. Elle est donc applicable aux signaux
aléatoires, et conduirait à une décomposition sur une base de fonctions
déterministes, à l’instar de la décomposition de Karhunen-Loeve (KL).
On peut se demander si cette nouvelle démarche n’aurait pas bien plus
de sens physique que la simple orthogonalité de la décomposition de
KL.
9 La particularité de certains mélanges linéaires a déjà été mentionnée,
et notamment ceux ne comportant que des retards purs et des amor-
tissements. Evidemment, si les retards sont multiples de la période
d’échantillonnage, le problème semble simple, mais n’a pas grand
intérêt. En revanche lorsque ce n’est pas le cas, les filtres sont non
causaux et de réponse impulsionnelle infinie, ce qui n’est pas très
plaisant.
Cependant, le fait que les réponses aient une forme très particulière doit
pouvoir être pris en compte. Un problème intéressant, mais difficile à
ORIENTATIONS ET PERSPECTIVES 105

poser correctement, est celui d’un seul capteur et d’une seule source,
en présence de trajets multiples. C’est un des points à aborder dans
la thèse de B. Emile.

10 Lorsque le nombre de sources est supérieur au nombre de capteurs,


bien peu de méthodes sont applicables. On a vu que si le mélange est
composé de retards purs, l’identification de la fonction de transfert est
théoriquement possible, quel que soit le nombre K de capteurs et le
nombre P de sources. Elle conduit donc à une estimation asympto-
tiquement clairvoyante (les sources ne peuvent pas être parfaitement
estimées, mais leur vecteur directionnel peut l’être). B. Emile se penche
sur de tels mélanges dans sa thèse.
Cependant, les conditions sous lesquelles l’identification d’un mélange
(convolutif quelconque) de P sources avec K capteurs est possible ne
sont aujourd’hui pas clairement établies. Dans le cas de mélanges
instantanés, on avance notamment la condition suffisante que P <
(3K − 2)/2. Mais aucun algorithme n’est disponible aujourd’hui, qui
soit capable de réaliser cette identification. Ceci fait l’objet d’une
coopération avec l’université de Leuven (KUL).

11 On sait qu’un mélange instantané de 2 sources sur 2 capteurs est iden-


tifiable avec un nombre fini (et très réduit) d’opérations. Néanmoins,
ce résultat n’est vrai qu’en l’absence de bruit si les variables aléatoires
sont complexes (même circulaires). Il est pourtant vraisemblable que
la maximisation d’un contraste soit possible analytiquement dans ce
cas, avec le recours à la résolution de polynômes de degré inférieur ou
égal à quatre (elle l’est dans le cas de variables aléatoires réelles, en
présence de bruit).

12 La fonction d’ambiguité a été définie aux ordres élevés par Porat. On


peut se demander s’il ne serait pas possible de la définir tous ordres
confondus (e.g. par une divergence de Kullback).

13 La formation de voies est une mesure d’inhomogéneité du champ basée


sur les moments d’ordre 2. Rien n’empêche de construire un outil
mesurant les inhomogéneités en se basant sur les variations de la fonc-
tion de répartition avec la direction. On devrait gagner en pouvoir de
détection si les sources sont non gaussiennes.
106 CHAPITRE 5

Statistiques d’ordre élevé

14 Il est important de donner une préférence aux algorithmes de


déconvolution de mélanges linéaires qui fonctionnent en bande large.
Elles ont plus d’attrait lorsque le signal est large-bande et de faible
niveau. Une formulation dans le domaine temps est notamment
souhaitable.
Les fonctions de contrastes dans le domaine temps répondent à ce
besoin. Toutefois, la définition des fonctions de contrastes dans le
cas des mélanges convolutifs vectoriels donnée dans la section 4.2.5
aura sans doute besoin d’être parachevée. En outre, d’autres exemples
de fonctions de contraste devront être exhibés, et des algorithmes de
résolution mis au point. Je termine par exemple la mise au point de la
factorisation “doublement diagonale”, normalisant à la fois les lignes
et les colonnes d’une matrice. Par ailleurs, il serait utile de comparer
mon contraste basé sur l’ordre 4 seulement avec la solution préconisée
par Inouye.
15 La définition des contrastes introduite dans la section 4.2.5 fait inter-
venir un couple (H, P) d’ensembles (Filtre, Processus). On conçoit que
plus ces ensembles sont grands, plus le contraste considéré est “puis-
sant”. Il est donc possible de dresser une sorte de hiérarchie dans les
fonctions de contrastes.
16 Dans le chapitre 3, on a souligné le fait que les conditions d’existence
des multispectres n’ont jamais été clairement établies. Cette lacune
fondamentale reste à combler.
17 Le test de normalité décrit en détail dans la section 4.1 doit être
expérimenté sur un plus grand nombre de signaux-test (Monte carlo
et données rélles), et comparé avec les tests de Giannakis-Tsatsanis
et de Moulines et al. Il est aussi possible de le comparer avec un
test de type TIU (intersection-union), revenant dans le cas présent à
pré-déconvoluer, ce qui pourrait se faire avec l’algorithme de Shalvi-
Weinstein par exemple.
18 Un multispectre, en tant que fonction de plusieurs variables
(nécessairement discrétisées), peut être vu comme un tenseur, de même
que le spectre d’ordre 2 peut être vu comme une matrice. La factori-
sation d’un multispectre revient à la diagonalisation de ce tenseur.
Lorsque le tenseur est de rang 1, le processus considéré est linéaire.
ORIENTATIONS ET PERSPECTIVES 107

Le lien entre factorisation multispectrale, diagonalisation tensorielle,


et tests de rang, peut avoir un intérêt dont la nature n’est pas unique-
ment théorique. La thèse de D. Rossille [182] l’a bien mis en évidence.

Algorithmique numérique Dans ce paragraphe sont inclus les problèmes


d’algèbre linéaire théoriques ainsi que les aspects plus appliqués
d’algorithmique.

19 Dans le troisième volet, je propose la poursuite des travaux sur


l’analyse de la stabilité des algorithmes rapides de résolution de
systèmes de faible rang de déplacement. En outre, la mise au point
d’algorithmes rapides de résolution de systèmes structurés singuliers
au sens des moindres carrés reste un problème ouvert.
20 La caractérisation des éléments propres des matrices structurées
(Töplitz, produit de Töplitz...) est un problème lié au précédent d’une
certaine manière, bien que ce dernier ne nécessite que la caractérisation
du noyau. L’état de l’art dans ce domaine avance assez irrégulièrement.
21 Sur un autre plan, comme nous l’avons vu, l’ACI peut être vue comme
la diagonalisation approchée d’un tenseur symétrique d’ordre supérieur
à deux. Nous avons pu caractériser l’ensemble des tenseurs symétriques
linéairement diagonalisables. Il serait intéressant d’étendre ces
résultats dans un premier temps au cas complexe (avec le problème
de la définition de la symétrie pour les ordres impairs), et dans un
second temps aux cas non génériques.
22 La factorisation (e.g. diagonalisation par transformation congruente)
des tenseurs de rang plus grand que leur dimension dépasse le cadre
de l’ACI. La recherche d’algorithmes spécifiques aux tenseurs est un
domaine qui a été –curieusement– très peu exploré. Une coopération
avec l’université KUL et avec l’INRIA est en cours.
23 J’ai mis en évidence l’intérêt que peut présenter l’Analyse en sous-
espaces Indépendants (ASI), et tout spécialement pour la classification.
Un sujet de recherche consiste à concevoir un algorithme numérique
performant de calcul de l’ASI.
24 Un vieux sujet auquel je souhaite m’atteler depuis des années est celui
de la révision des algorithmes numériques d’algèbre linéaire lorsque les
matrices sont aléatoires. Par exemple, la factorisation QR est utilisée
108 CHAPITRE 5

pour résoudre des systèmes linéaires, à des fins de prédiction en trai-


tement du signal. Mais la stratégie de pivotage ne tient pas compte de
la variance des éléments de la matrice.

Apprentissage Le quatrième et dernier axe concerne la théorie et la mise


en œuvre de l’apprentissage, supervisé ou non.
25 Les estimateurs à noyau de probabilité, dont les avantages ne sont
plus à vanter, souffrent d’une limitation pratique: on ne sait toujours
pas évaluer le paramètre de largeur minimisant le biais ou l’erreur
quadratique. On peut se limiter au cas des noyaux à largeur fixe, car
le passage au noyau variable a été fait correctement par Abramson.
26 Le problème de l’apprentissage non supervisé peut être vu sous l’angle
de l’identification de lois mélange. Sans vouloir adresser le problème
de la détermination du nombre de modes qui est mal posé, on peut
se pencher sur l’identification des paramètres du modèle en supposant
que le nombre de modes est connu. L’ajustement des moments conduit
à la résolution d’un système polynomial.
27 L’identification d’un filtre linéaire à partir des ses entrées et sorties
peut sans doute être abordée sans modèle paramétrique (tel que les
modèles de Volterra). On propose la construction d’une transforma-
tion non linéaire (par exemple réseau de neurones avec temps de re-
tard) de façon incrémentale sans rétropropagation. Il en résulterait
un gain immense en temps de calcul dans l’apprentissage (comparer
par exemple à l’apprentissage supervisé des réseaux stratifiés comme
le PMC). Plus précisément, il est reconnu que les théorèmes théoriques
de représentation (e.g. Sprecher) ne sont pas applicables dans la pra-
tique.
28 Comme cela a été expliqué au chapitre 2, il est des cas où la dimension
des vecteurs de la base de données est trop grande; la notion de pe-
tite taille ou de grande dimension est ici comprise conformément à la
définition de [29] [65]. Ce sujet de recherche consiste en l’application
de l’algorithme d’ASI à des bases de données, décrit au point 23, afin
d’évaluer son intérêt sur des problèmes réels. On peut penser à des
applications dans le domaine de la reconnaissance de la parole par ex-
emple. D’autres applications peuvent être envisagées lorsqu’elles de-
mandent le découplage de variables. Des coopérations sont en cours
avec les universités INPG et KUL.
ORIENTATIONS ET PERSPECTIVES 109

29 Si, après avoir procédé aux réductions de dimension classiques (e.g.


PCA), et aux partitions de l’espace (i.e. ASI), la dimension reste trop
élevée, on peut malgré tout être convaincu que l’apprentissage est pos-
sible dans des conditions raisonnables. Ceci n’est pas contradictoire,
puisque la condition sur la dimension (donnée page 17) est une condi-
tion suffisante non nécessaire de garantie de performances.
Si cette intuition est bien fondée, alors elle signifie que les données sont
cantonnées au voisinage d’une variété non linéaire de dimension plus
faible. On peut s’en convaincre en calculant par exemple la dimension
fractale moyenne des données. Le problème consiste ensuite à iden-
tifier, par voie homotopique, la surface en question, et à “projeter”
les données sur un espace vectoriel de même dimension. J’envisage
volontiers une coopération avec J. Hérault de l’INPG sur ce sujet.
30 Dans un certain nombre de situations pratiques, il peut être intéressant
de bâtir un classifieur à K classes avec des briques simples; l’intérêt
peut tout simplement provenir d’une question de rentabilité de produc-
tion en grand nombre. Je baptise ce problème “classification modu-
laire”. Le premier exemple est celui où ces briques sont des classifieurs
binaires. Le second, déjà étudié en communications, est celui de la
classification à ressources distribuées avec contraintes de communica-
tions entre processeurs. Le troisième exemple, dont j’ai déjà parlé page
16, est celui de la classification distribuée avec contraintes de mémoire
totale.
La classification modulaire nécessite bien sûr la mise au point
d’algorithmes, mais aussi soulève des questions d’ordre plus théoriques
relevant de l’optimalité de l’approche (critère d’optimisation, bornes
ultimes sur les performances indépendamment de tout algorithme...).
Une coopération est en cours avec l’EPFL sur un des aspects de ce
problème.
110 CHAPITRE 5
Chapitre 6

Bibliographie

6.1 Publications personnelles


Les publications sont regroupées par type, puis listées par ordre rétro-
chronologique dans chacun des types. Les articles de conférence parus dans
des proceedings réédités sous forme de livre sont classés dans la rubrique
“conférences avec actes”.

6.1.1 Articles parus dans des revues internationales ou dans


des ouvrages édités en langue anglaise
[1] P. COMON, “Structured matrices and inverses”, in Linear Algebra
for Signal Processing, A. Bojanczyk, G. Cybenko, Eds., vol. 69 of
IMA Volumes in Mathematics and its Applications, pp. 1–16. Springer
Verlag, 1995.
[2] P. COMON, “Independent Component Analysis, a new concept ?”,
Signal Processing, Elsevier, vol. 36, no. 3, pp. 287–314, Apr. 1994,
Special issue on Higher-Order Statistics.
[3] E. CHAUMETTE, P. COMON, D. MULLER, “An ICA-based tech-
nique for radiating sources estimation; application to airport surveil-
lance”, IEE Proceedings - Part F, vol. 140, no. 6, pp. 395–401, Dec.
1993, Special issue on Applications of High-Order Statistics.
[4] P. COMON, P. LAURENT, “Displacement rank of generalized inverses
of persymmetric matrices”, SIAM Journal on Matrix Analysis, vol. 14,
no. 3, pp. 646–654, July 1993.

111
112 CHAPITRE 6

[5] P. COMON, “MA identification using fourth order cumulants”, Signal


Processing, Eurasip, vol. 26, no. 3, pp. 381–388, 1992.

[6] P. COMON, C. JUTTEN, J. HERAULT, “Separation of sources, part


II: Problems statement”, Signal Processing, vol. 24, no. 1, pp. 11–20,
July 1991.

[7] P. COMON, G. H. GOLUB, “Tracking of a few extreme singular


values and vectors in signal processing”, Proceedings of the IEEE, vol.
78, no. 8, pp. 1327–1343, Aug. 1990, Published from Stanford report
78NA-89-01, feb 1989.

[8] P. COMON, Y. ROBERT, D. TRYSTRAM, “Systolic implementa-


tion of the adaptive solution to normal equations”, Computer Vision,
Graphics and Image Processing, vol. 52, pp. 402–408, 1990.

[9] J. Y. BLANC, P. COMON, D. TRYSTRAM, “Using preconditioned


conjugate gradient for solving consecutive linear systems”, Commu-
nications in Applied Numerical Methods, vol. 6, no. 3, pp. 231–240,
1990.

[10] P. COMON, D. T. PHAM, “Estimation of the order of a FIR filter for


noise cancellation”, IEEE Trans. on Inf. Theory, vol. 36, no. 2, pp.
429–434, Mar. 1990.

[11] P. COMON, D. T. PHAM, “An error bound for a noise canceller”,


IEEE Trans. on ASSP, vol. 37, no. 10, pp. 1513–1517, Oct. 1989.

[12] P. COMON, L. KOPP, “Comments on a real-time high resolution


technique for angle of arrival estimation”, Proceedings of the IEEE,
vol. 77, no. 3, pp. 492–494, Mar. 1989.

[13] P. COMON, D. TRYSTRAM, “An incomplete factorization algorithm


for adaptive filtering”, Signal Processing, vol. 13, pp. 353–360, Dec.
1987.

[14] P. COMON, Y. ROBERT, “A systolic array for computing B A-1”,


IEEE Trans. on ASSP, vol. 35, no. 6, pp. 717–723, 1987.

[15] P. COMON, J. L. LACOUME, “Noise reduction for an estimated


Wiener filter using noise references”, IEEE Trans. on Information
Theory, vol. 32, no. 2, pp. 310–313, Mar. 1986.
BIBLIOGRAPHIE 113

6.1.2 Articles parus dans des revues en langue française


[16] E. KAZAMARANDE, P. COMON, “Performances numériques de
l’algorithme de Levinson”, RAIRO Mathematical Modeling and Nu-
merical Analysis, vol. 29, no. 2, pp. 123–170, June 1995.
[17] P. COMON, “Circularité et signaux aléatoires à temps discret”, Trai-
tement du Signal, vol. 11, no. 5, pp. 417–420, Dec 1994.
[18] P. COMON, “Classification supervisée par réseaux multicouches”,
Traitement du Signal, vol. 8, no. 6, pp. 387–407, dec 1991.
[19] P. COMON, “Performances de la régression linéaire dans le cas
gaussien”, Traitement du Signal, vol. 8, no. 4, pp. 281–282, 1991.
[20] P. COMON, “Classification bayésienne distribuée”, Revue Technique
Thomson CSF, vol. 22, no. 4, pp. 543–561, 1990.
[21] P. COMON, “Analyse en Composantes Indépendantes et identification
aveugle”, Traitement du Signal, vol. 7, no. 3, pp. 435–450, Dec. 1990,
Numero special non lineaire et non gaussien.
[22] P. COMON, D. TRYSTRAM, Y. ROBERT, “Implementation sys-
tolique de systemes adaptatifs”, Traitement du Signal, vol. 4, no. 4,
pp. 73–85, 1987.
[23] P. COMON, “Estimation multivariable complexe”, Traitement du
Signal, vol. 3, no. 2, pp. 97–101, 1986.

6.1.3 Articles soumis à des revues avec comité de lecture


[24] P. COMON, B. MOURRAIN, “Decomposition of quantics in sums
of powers of linear forms”, Signal Processing, Feb. 1995, submitted,
special issue on High-Order Statistics, Giannakis and Swami editors.
[25] P. COMON, G. BIENVENU, “Ultimate performance of QEM classi-
fiers”, IEEE Trans. Neural Networks, May 1995, submitted.
[26] B. EMILE, P. COMON, “Estimation of time delays between colored
sources”, IEEE Trans. on Signal Processing, 1995, submitted.

6.1.4 Conférences avec actes


[27] B. EMILE, P. COMON, “Estimation de temps de retard entre signaux
colorés”, in XVieme Colloque Gretsi, Juan les Pins, 18–22 Sept 1995.
114 CHAPITRE 6

[28] P. COMON, Y. CHENEVAL, “Supervised classification with variable


kernel estimators”, in IWANN, Mira Cabestany Prieto, Ed., Malaga,
Spain, June 7-11 1995, pp. 1099–1106, Springer-Verlag, Lecture Notes
in Computer Sciences.
[29] P. COMON, “Supervised classification, a probabilistic approach”, in
ESANN-European Symposium on Artificial Neural Networks, Verley-
sen, Ed., Brussels, Apr 19-21 1995, pp. 111–128, D facto Publ., invited
paper.
[30] P. COMON, L. DERUAZ, “Normality tests for coloured samples”,
in IEEE-ATHOS Workshop on Higher-Order Statistics, Begur, Spain,
12–14 June 1995, pp 217–221.
[31] B. EMILE, P. COMON, J. LE ROUX, “Estimation of time delays
between wide-band sources”, in IEEE-ATHOS Workshop on Higher-
Order Statistics, Begur, Spain, 12–14 June 1995, pp 111-115.
[32] P. COMON, B. EMILE, “Estimation of time delays in the blind mix-
ture problem”, in EUSIPCO 94, Edinburgh, Scotland, September
13-16 1994, pp. 482–485.
[33] P. COMON, J. L. VOZ, M. VERLEYSEN, “Estimation of performance
bounds in supervised classification”, in ESANN-European Symposium
on Artificial Neural Networks, M. Verleysen, Ed., 45 rue Masui, B-1210
Brussels, Belgium, April 20-22 1994, pp. 37–42, D facto Publ.
[34] P. COMON, B. MOURRAIN, “Decomposition of quantics in sums of
powers”, in SPIE conference on Advanced Signal Processing V, San
Diego, July 24–29 1994, pp. 93–104.
[35] P. COMON, “Tensor diagonalization, a useful tool in signal process-
ing”, in IFAC-SYSID, 10th IFAC Symposium on System Identifica-
tion, M. Blanke, T. Soderstrom, Eds., Copenhagen, Denmark, July
4-6 1994, vol. 1, pp. 77–82, invited session.
[36] P. COMON, “Remarques sur la diagonalisation tensorielle par la meth-
ode de Jacobi”, in XIVeme Colloque Gretsi, 13-16 Septembre 1993, pp.
125–128.
[37] P. COMON, G. BIENVENU, T. LEFEBVRE, “Supervised design of
optimal receivers”, in Acoustic Signal Processing for Ocean Exploration
Processing and Ocean Exploration, J. M. F. Moura, I. M. G. Lourtie,
Eds. 1993, pp. 547–552, Kluwer Academic Publishers, Proceedings of
BIBLIOGRAPHIE 115

the NATO Advanced Study Institute on Acoustic Signal Processing


and Ocean Exploration, July 26-Aug. 7, 1992, Madeira, Portugal.
[38] E. CHAUMETTE, P. COMON, D. MULLER, “Application of ICA to
airport surveillance”, in IEEE Signal Processing Workshop on High-
Order Statistics, South Lake Tahoe, California, June 7-9 1993, pp.
210–214.
[39] C. JUTTEN, P. COMON, “Neural Bayesian classifier”, in IWANN,
A. Prito J. Mira, J. Cabestany, Ed., Stiges, Spain, June 9–11 1993, pp.
119–124, Springer Verlag.
[40] P. COMON, “Independent component analysis, and the diagonaliza-
tion of symmetric tensors”, in European Conference on Circuit Theory
and Design ECCTD, H. Dedieu, Ed., Davos, Aug 30-Sept 3 1993, pp.
185–190, Elsevier, invited session.
[41] P. COMON, “Displacement rank of pseudo-inverses”, in International
Conference on Acoustics, Speech and Signal Processing - ICASSP,
Mar. 23-26 1992, vol. V, pp. 49–52.
[42] P. COMON, “Blind identification in presence of noise”, in Proc.
European Signal Processing Conf. EUSIPCO, Brussels, Aug 24 - 27
1992, pp. 835–838.
[43] P. COMON, “Independent component analysis”, in Proc. Int. Sig.
Proc. Workshop on Higher-Order Statistics, Chamrousse, France, July
10-12 1991, pp. 111–120, Republished in Higher-Order Statistics,
J.L.Lacoume ed., Elsevier, 1992, pp 29–38.
[44] P. COMON, G. BIENVENU, “Detection et estimation supervisees”, in
XVieme Colloque Gretsi, Juan les Pins, 16–20 Sept 1991, pp. 277–280.
[45] J. F. CARDOSO, P. COMON, “Tensor-based independent compo-
nent analysis”, in Proc. European Signal Processing Conf. EUSIPCO,
Barcelona, Spain, September 18-21 1990, pp. 673–676.
[46] P. COMON, “High-order separation, application to detection and lo-
calization”, in Proc. European Signal Processing Conf. EUSIPCO,
Barcelona, Spain, September 18-21 1990, pp. 277–280.
[47] P. COMON, J. F. CARDOSO, “Eigenvalue decomposition of a cu-
mulant tensor with applications”, in SPIE Conference on Advanced
Signal Processing Algorithms, San Diego, California, July 10-12 1990,
pp. 361–372, Architectures and Implementations, vol.1348.
116 CHAPITRE 6

[48] P. COMON, “Separation of stochastic processes”, in Proc. Workshop


on Higher-Order Spectral Analysis, Vail, Colorado, June 28-30 1989,
IEEE-ONR-NSF, pp. 174–179.

[49] P. COMON, “Separation of sources using high-order cumulants”, in


SPIE Conference on Advanced Algorithms and Architectures for Signal
Processing, San Diego, California, August 8-10 1989, pp. 170–181, vol.
Real-time signal processing XII.

[50] P. COMON, “Separation de melanges de signaux”, in XII Colloque


Gretsi, Juan les Pins, 12 -16 juin 1989, pp. 137–140.

[51] P. COMON, “Statistical approach to the Jutten-Herault algorithm”,


in NATO Workshop on Neuro-Computing, Les Arcs, France, Feb. 27-
March 3 1989, Republished in: Neurocomputing, Algorithms, Archi-
tectures and Applications, F.Fogelman and J. Herault editors, NATO
ASI series, Springer Verlag, 1990, pp81–88.

[52] P. COMON, “Fast updating of a low-rank approximate to a vary-


ing hermitian matrix”, in 22nd Asilomar Conference, Pacific Grove,
Nov. 2-4 1988, pp. 358–362.

[53] P. COMON, “Fast computation of a restricted subset of eigenpairs


of a varying hermitian matrix”, in NATO ASI on Num. Linear Alge-
bra, Digital Sig.Proc. and Parallel Algorithms, Leuven, Belgium, Aug.
1988, Republished in: Numerical Linear Algebra, Digital Signal Pro-
cessing and Parallel Algorithms, G.H. Golub and P. VanDooren edi-
tors, Springer Verlag, NATO ASI series vol. F70, 1991, pp457–466.

[54] P. COMON, “Adaptive computation of a few extreme eigenpairs of


a positive definite hermitian matrix”, in European Signal Processing
Conference EUSIPCO, Grenoble, France, Sept. 5-8 1988, pp. 647–650.

[55] P. COMON, T. KAILATH, “An array processing technique using the


first principal component”, in First International Workshop on SVD
and Signal Processing, Sept. 1987, Extended version published in:
SVD and Signal Processing, E.F. Deprettere editor, North Holland,
1988, 301–316.

[56] E. MOISAN, P. COMON, “Ponderations variables pour les filtres en


treillis adaptatifs”, in XIe Colloque GRETSI, Nice, 1-5 juin 1987, pp.
309–312.
BIBLIOGRAPHIE 117

[57] P. COMON, J. L. LACOUME, “About Capon estimator optimality”,


in Third Workshop on Spectrum Estimation and Modeling, Boston,
Nov. 17-18 1986.
[58] P. COMON, J. L. LACOUME, “Signal estimation using a reception
model”, in International Symposium EUSIPCO, The Hague, Nether-
lands, Sept. 2-5 1986.
[59] P. COMON, J. L. LACOUME, “A robust adaptive filter for noise
reduction problems”, in International Conference on Acoustics, Speech
and Signal Processing - ICASSP, Tokyo, Japan, Apr. 7-11 1986, pp.
2599–2602.
[60] P. COMON, F. PLANSON, “Ground response to electromagnetic nat-
ural excitation”, in IASTED International Symposium, Paris, June 19-
21 1985, vol. Applied Signal Processing, pp. 271–274.
[61] P. COMON, G. LEJEUNE, “Extrapolation de signaux lacunaires”, in
IXeme Colloque Gretsi, Nice, 16-20 mai 1983, pp. 199–203.

6.1.5 Livres
[62] L. KOPP, P. COMON, J. P. LECADRE, Traitement d’antenne Sonar,
livre en préparation.
[63] J. L. LACOUME, P. COMON, P. O. AMBLARD, Statistiques d’ordre
élevé en traitement du signal, livre en préparation.

6.1.6 Autres: Brevets, Conférences sans actes, notes de


cours
[64] P. COMON, B. EMILE, “Estimation de temps de retard à l’aide de
cumulants”, in Journée signal de cergy, ENSEA, Cergy, 2 fev 1995,
pp. 18–20.
[65] C. JUTTEN et al., Enhanced learning for evolutive neural architec-
tures, Louvain la Neuve, April 1995.
[66] P. COMON, Procédé et Dispositif d’Estimation Aveugle de Retards
Différentiels, 1993, Brevet enregistré en aout 1994 pour Thomson-
Sintra, no 59-358V(X 5991).
[67] P. COMON, C. JUTTEN, Neural classifiers, Courses notes, Neuro-
Nimes, Oct. 1993.
118 CHAPITRE 6

[68] P. COMON, J. L. LACOUME, “Statistiques d’ordres supérieurs pour


le traitement du signal”, Ecole Predoctorale de Physique, Les Houches,
30 aout – 10 septembre 1993, P. Flandrin et J. L. Lacoume ed.
[69] P. COMON, “Wavefields separation: Neural networks versus batch
methods”, in EAPG Workshop on Multichannel Filtering of Seismic
Data, Paris, June 1992, Abstracts only.
[70] P. COMON, “Structured matrices and their inverses”, in IMA Work-
shop on Linear Algebra for Signal Processing, Minneapolis, Apr. 6-10
1992.
[71] P. COMON, “ATHOS, qu’est-ce que cela évoque pour vous ?”, Trai-
tement du Signal, vol.10, no. 1, 1993, Editorial.
[72] P. COMON, “Distributed detection and estimation”, in ESPRIT
BRA Workshop on Neural Networks and Artificial Vision, Cham-
rousse, France, Jan. 29-30 1991, Proceedings of extended abstracts.
[73] P. COMON, Method and Device for Real-time Signals Separa-
tion, 1989, Patent registrated for Thomson-Sintra, January 1990,
no 9000436. International extension confirmed on March, 1992.
[74] P. COMON, L. KOPP, Traitement du signal Sonar, Notes de cours,
ESSI, 1989-1994.

En outre, une quinzaine de rapports ont été rédigés en relation avec les
contrats de recherche, et ne sont pas mentionnés ici.

6.2 Autres références bibliographiques


[75] K. ABEDMERAIM, P. LOUBATON, E. MOULINES, “Subspace
method for blind identification of multichannel FIR filters in noise field
with unknown spatial covariance”, in Asilomar conference, Asilomar,
California, 1994.
[76] P. O. AMBLARD, J. M. BROSSIER, N. CHARKANI, “New adap-
tive estimation of the fourth-order cumulant...”, in Proc. EUSIPCO,
Edinburgh, Sept. 1994, pp. 466–469.
[77] D. F. ANDREWS, R. GNANADESIKAN, J. L. WARNER, “Methods
for assessing multivariate normality”, in Multivariate Analysis III,
P. R. Krishnaiah, Ed., pp. 95–116. Academic Press, 1973.
BIBLIOGRAPHIE 119

[78] F. J. ANSCOMBE, W. J. GLYNN, “Distribution of the kurtosis statis-


tic b2 for normal samples”, Biometrika, vol. 70, no. 1, pp. 227–234,
1983.
[79] Y. BAR-NESS, J. W. CARLIN, M. L. STEINBERGER, “Bootstrap-
ping adaptive interference cancelers: Some practical limitations”, in
Proc. The Globecom. Conference, Miami, Nov. 1982, pp. 1251–1255,
paper No F3.7.
[80] S. BELLINI, F. ROCCA, “Asymptotically efficient blind deconvolu-
tion”, Signal Processing, Elsevier, vol. 20, pp. 193–209, 1990.
[81] A. BELOUCHRANI, K ABEDMERAIM, J. F. CARDOSO,
E. MOULINES, “Second-order blind separation of correlated sources”,
in Proc. Int. Conf. Digital Signal Processing, Cyprus, 1993, pp. 346–
351.
[82] A. BENVENISTE, M. GOURSAT, “Blind equalizers”, IEEE Trans.
Communications, vol. 32, no. 8, pp. 871–883, Aug. 1984.
[83] A. BENVENISTE, M. GOURSAT, G. RUGET, “Robust identification
of a non-minimum phase system”, IEEE Trans. Auto. Control, vol. 25,
no. 3, pp. 385–399, June 1980.
[84] R. E. BLAHUT, Principles and Practice of Information Theory,
Addison-Wesley, 1987.
[85] A. BLANC-LAPIERRE, R. FORTET, Theorie des Fonctions
Aleatoires, Masson, 1953.
[86] A. BLANC-LAPIERRE, B. PICINBONO, Fonctions aleatoires, Mas-
son, 1981.
[87] C. BOURAIN, P. BONDON, “Efficiency of high-order moment esti-
mates”, in IEEE-ATHOS Workshop on Higher-Order Statistics, Be-
gur, Spain, 12–14 June 1995, pp. 186–190.
[88] K. O. BOWMAN, L. R. SHENTON, “Omnibus contours for depar-
tures from normality based on b1 and b2”, Biometrika, vol. 62, pp.
243–250, 1975.
[89] D. R. BRILLINGER, Time Series, Data Analysis and Theory, Holden-
Day, 1981.
[90] D. De BRUCQ, Theorie du Signal, Masson, 1988.
120 CHAPITRE 6

[91] J. A. CADZOW, O. M. SOLOMON, “Algebraic approach to system


identification”, IEEE Trans. ASSP, vol. 34, pp. 462–469, 1986.
[92] V. CAPDEVIELLE, C. SERVIERE, J. L. LACOUME, “Separation
of wide band sources”, in IEEE-ATHOS Workshop on Higher-Order
Statistics, Begur, Spain, 12–14 June 1995, pp. 66–70.
[93] J. F. CARDOSO, “Localisation et identification par la quadricovari-
ance”, Traitement du Signal, vol. 7, no. 5, pp. 397–406, Dec. 1990.
[94] J. F. CARDOSO, “On the performance of source separation algo-
rithms”, in Proc. EUSIPCO, Edinburgh, Sept. 1994, pp. 776–779.
[95] J. F. CARDOSO, S. BOSE, B. FRIEDLANDER, “Output cumu-
lant matching for source separation”, in IEEE-ATHOS Workshop on
Higher-Order Statistics, Begur, Spain, 12–14 June 1995, pp. 44–48.
[96] J. F. CARDOSO, A. SOULOUMIAC, “Blind beamforming for non-
Gaussian signals”, IEE Proceedings - Part F, vol. 140, no. 6, pp. 362–
370, Dec. 1993, Special issue on Applications of High-Order Statistics.
[97] J. F. CARDOSO, A. SOULOUMIAC, “An efficient technique for
blind separation of complex sources”, in Proc. IEEE SP Workshop
on Higher-Order Stat., Lake Tahoe, USA, 1993, pp. 275–279.
[98] P. CHEVALIER, “On the performance of higher order blind sources
separation methods”, in IEEE-ATHOS Workshop on Higher-Order
Statistics, Begur, Spain, 12–14 June 1995, pp. 30–34.
[99] W. J. CONOVER, Practical NonParametric Statistics, Wiley, 1980.
[100] S. CSÖRGÖ, “Testing for normality in arbitrary dimension”, The
Annals of Statistics, vol. 14, no. 2, pp. 708–723, 1986.
[101] R. D’AGOSTINO, “An omnibus test of normality for moderate and
large size samples”, Biometrika, vol. 58, no. 2, pp. 341–348, 1971.
[102] R. D’AGOSTINO, E. S. PEARSON, “Tests for departure from normal-
ity. empirical results for the diustribution of b2 and b1”, Biometrika,
vol. 60, no. 3, pp. 613–622, 1973.
[103] G. E. DALLAL, L. WILKINSON, “An analytic approximation to the
distribution of Lilliefors’s test statistic for normality”, The American
Statistician, vol. 40, no. 4, pp. 294–296, Nov. 1986.
BIBLIOGRAPHIE 121

[104] D. DEMBELE, Identification de modèles ARMA linéaires à l’aide de


statistiques d’ordre élevé, Application à l’égalisation aveugle, Doctorat,
Université de Nice Sophia-Antipolis, juillet 1995.
[105] D. DONOHO, “On minimum entropy deconvolution”, in Applied
time-series analysis II, pp. 565–609. Academic Press, 1981.
[106] T. W. EPPS, “Testing that a stationary time series is Gaussian”, The
Annals of Statistics, vol. 15, no. 4, pp. 1683–1698, 1987.
[107] G. FAVIER, Filtrage, modélisation et identification de systèmes
liéaires stochastiques à temps discret, CNRS, 1982.
[108] G. FAVIER, D. DEMBELE, J. L. PEYRE, “Identification de
modèles paramétriques AR, MA, et ARMA avec les statistiques d’ordre
supérieur, et analyse des performances”, in XIVeme Colloque Gretsi,
13-16 Septembre 1993, pp. 137–140.
[109] G. FAVIER, J. P. PUY, G. MAYNARD, “Identification de modèles
ARMA”, in XIIème Colloque Gretsi, Juan les Pins, 12 -16 juin 1989,
pp. 153–156.
[110] L. FETY, Methodes de Traitement d’Antenne Adaptees aux Radio-
communications, Doctorat, ENST, 1988.
[111] I. FIJALKOW, P. LOUBATON, “Identification of rank one rational
spectral densities from noisy observations: a stochastic realization ap-
proach”, Systems and Control Letters, , no. 24, pp. 201–205, 1995.
[112] R. FORTET, Elements de la theorie des probabilites, CNRS, 1965.
[113] K. FUKUNAGA, T. E. FLICK, “A test of the Gaussian-ness of a data
set using clustering”, IEEE Trans. Pattern Ana. Mach. Intel., vol. 8,
no. 2, pp. 240–247, 1986.
[114] M. GAETA, J. L. LACOUME, “Source separation without a priori
knowledge: the maximum likelihood solution”, in Proc. EUSIPCO,
Barcelona, Spain, 1990, pp. 621–624.
[115] F. GAMBOA, “Separation of sources having unknown discrete sup-
ports”, in IEEE-ATHOS Workshop on Higher-Order Statistics, Begur,
Spain, 12–14 June 1995, pp. 56–60.
[116] T. GASSER, “Goodness-of-fit tests for correlated data”, Biometrika,
vol. 62, no. 3, pp. 563–570, 1975.
122 CHAPITRE 6

[117] E. GASSIAT, Déconvolution aveugle, Doctorat, Université de Paris-


sud, Orsay, janvier 1988.
[118] E. GASSIAT, “Blind deconvolution of discrete linear systems per-
turbed with additive noise”, in IEEE-ATHOS Workshop on Higher-
Order Statistics, Begur, Spain, 12–14 June 1995, pp. 305–309.
[119] S. Van GERVEN, D. Van COMPERNOLLE, “On the use of decorre-
lation in scalar signal separation”, in IEEE International Conference
on Acoustics, Speech and Signal Processing (ICASSP’94), vol.III, Ade-
laide, Australia, Apr. 1994, pp. 57–60.
[120] D. GESBERT, P. DUHAMEL, S. MAYRARGUE, “Subspace-based
adaptive algorithms for the blind equalization of multichannel FIR
filters”, in Proc. EUSIPCO, Edinburgh, Sept. 1994, pp. 712–715.
[121] G. B. GIANNAKIS, M. K. TSATSANIS, “Time-domain tests for
Gaussianity and time-reversibility”, IEEE Trans. on Signal Process-
ing, vol. 42, no. 12, pp. 3460–3472, Dec. 1994.
[122] N. R. GOODMAN, “Statistical analysis based on certain multivariate
complex normal distributions”, Annals Math. Stat., vol. 34, pp. 152–
177, 1963.
[123] E. J. HANNAN, Multiple time series, Wiley, 1970.
[124] E. J. HANNAN, M. DEISTLER, The statistical theory of linear sys-
tems, Wiley, 1988.
[125] J. HERAULT, C. JUTTEN, Réseaux neuronaux et traitement du si-
gnal, Traitement du Signal. Hermes, Paris, 1994.
[126] J. HERTZ, A. KROGH, R. G. PALMER, Introduction to the theory
of Neural Computation, Addison Wesley, 1991.
[127] M. HINICH, “Testing for Gaussianity and linearity of a stationary time
series”, Journal of Time Series Analysis, vol. 3, no. 3, pp. 169–176,
1982.
[128] P. J. HUBER, “Projection pursuit”, The Annals of Statistics, vol. 13,
no. 2, pp. 435–475, 1985, Invited paper with discussion.
[129] Y. INOUYE, “Modeling of multichannel time series and extrapolation
of matrix-valued autocorrelation sequences”, IEEE Trans ASSP, vol.
31, no. 1, pp. 45–55, Feb. 1983.
BIBLIOGRAPHIE 123

[130] Y. INOUYE, T. HABE, “Blind equalization of multichannel linear


time-invariant systems”, The Institute of Electronics Information and
Communication Engineers, , no. 24, pp. 9–16, May 1995.
[131] N. L. JOHNSON, S. KOTZ, Distributions in statistics: Continuous
Univariate Distributions-1, Wiley, 1970.
[132] C. JUTTEN, J. HÉRAULT, “Independent component analysis versus
PCA”, in Proc. EUSIPCO, Grenoble, France, 1988, pp. 643–646.
[133] C. JUTTEN, J. HERAULT, “Blind separation of sources, part I: An
adaptive algorithm based on neuromimetic architecture”, Signal Pro-
cessing, Elsevier, vol. 24, no. 1, pp. 1–10, 1991.
[134] A. M. KAGAN, Y. V. LINNIK, C.R. RAO, Characterization Problems
in Mathematical Statistics, Wiley, 1973.
[135] T. KAILATH, Linear Systems, Prentice-Hall, 1980.
[136] M. KENDALL, A. STUART, The Advanced Theory of Statistics, Dis-
tribution Theory, vol. 1, C. Griffin, 1977.
[137] M. KENDALL, A. STUART, The Advanced Theory of Statistics, De-
sign and Analysis, and Time-Series, vol. 3, C. Griffin, 1979.
[138] S. KOTZ, N. L. JOHNSON, Encyclopedia of Statistical Sciences, Wi-
ley, 1982.
[139] M. KROB, Identification aveugle de modèles non linéaires à l’aide de
statistiques d’ordre supérieur, Doctorat de l’Université de Paris-sud,
Orsay, 8 fevrier 1994.
[140] M. KROB, M. BENIDIR, “Blind identification of a linear-quadratic
mixture”, in Proc. IEEE SP Workshop on Higher-Order Stat., Lake
Tahoe, USA, 1993, pp. 351–355.
[141] M. KROB, M. BENIDIR, “Une fonction de contraste pour
l’identification aveugle d’un modele lineaire quadratique”, in XIVeme
Colloque Gretsi, 13-16 Septembre 1993, pp. 101–104.
[142] J. L. LACOUME, M. GAETA, P. O. AMBLARD, “From order 2 to
HOS: new tools and applications”, in Proc. European Signal Processing
Conf. EUSIPCO, Brussels, Aug 24 - 27 1992, pp. 91–98.
[143] J. L. LACOUME, F. HARROY, “Performances in blind sources sep-
aration”, in IEEE-ATHOS Workshop on Higher-Order Statistics, Be-
gur, Spain, 12–14 June 1995, pp. 25–29.
124 CHAPITRE 6

[144] J. L. LACOUME, P. RUIZ, “Separation of independent sources from


correlated inputs”, IEEE Trans. Sig. Proc., vol. 40, no. 12, pp. 3074–
3078, Dec. 1992.
[145] B. LAHELD, J. F. CARDOSO, “Adaptive source separation without
prewhitening”, in Proc. EUSIPCO, Edinburgh, Sept. 1994, pp. 183–
186.
[146] H. J. LANDAU, “Maximum entropy and the moment problem”, Bul-
letin of the American Math. Soc., vol. 16, no. 1, pp. 47–77, Jan. 1987.
[147] P. LASCAUX, R. THEODOR, Analyse numérique matricielle ap-
pliquée à l’art de l’ingénieur, Masson, 1986.
[148] J. P. LECADRE, “Au carrefour de nombreuses applications, la cali-
bration d’antenne”, Traitement du signal, vol. 10, no. 5, pp. 347, 1993,
Numéro spécial calibration.
[149] C. C. LIN, “A simple test for normality against asymmetric alterna-
tives”, Biometrika, vol. 67, no. 2, pp. 455–461, 1980.
[150] L. LJUNG, T. SODERSTROM, Theory and Practice of Recursive
Identification, MIT Press, Cambridge, 1983.
[151] P. LOUBATON, “Techniques du second ordre pour la déconvolution
aveugle multi-sources multi-capteurs”, in Journée signal de cergy, EN-
SEA, Cergy, 2 fev 1995, pp. 2–15.
[152] G. LUKACS, Characteristic functions, Griffin, 1960.
[153] O. MACCHI, Adaptive processing, Wiley, 1995.
[154] O. MACCHI, E. EWEDA, “Convergence analysis of self-adaptive
equalizers”, IEEE Trans. Information theory, vol. 30, no. 2, pp. 161–
176, Mar. 1984.
[155] K. V. MARDIA, “Measures of multivariate skewness and kurtosis with
applications”, Biometrika, vol. 57, pp. 519–530, 1970.
[156] K. V. MARDIA, “Applications of some measures of multivariate skew-
ness and kurtosis for testing normality”, Sankhya B, vol. 36, pp. 115–
128, 1974.
[157] K. V. MARDIA, “Tests of univariate and multivariate normality”,
in Handbook of Statistics, Vol.1, P. R. Krishnaiah, Ed., pp. 279–320.
North-Holland, 1980.
BIBLIOGRAPHIE 125

[158] K. V. MARDIA, K. FOSTER, “Ominibus tests of multinormality


based on skewness and kurtosis”, Commun. Statist. Simula. Computa.,
vol. 12, no. 2, pp. 207–221, 1983.
[159] K. V. MARDIA, M. KANAZAWA, “The null distribution of multi-
variate kurtosis”, Commun. Statist. Simula. Computa., vol. 12, no. 5,
pp. 569–576, 1983.
[160] P. McCULLAGH, Tensor Methods in Statistics, Monographs on Statis-
tics and Applied Probability. Chapman and Hall, 1987.
[161] D. S. MOORE, “A chi-square statistic with random cell boundaries”,
The Annals of Statistics, vol. 42, no. 1, pp. 147–156, 1971.
[162] D. S. MOORE, “The effect of dependence on chi squared tests of fit”,
The Annals of Statistics, vol. 10, no. 4, pp. 1163–1171, 1982.
[163] E. MOREAU, Apprentissage et adaptivité, séparation auto-adaptative
de sources indépendantes par un réseau de neurones, Doctorat de
l’Université de Paris-sud, Orsay, 1 fevrier 1995.
[164] E. MOREAU, O. MACCHI, “Separation de sources adaptative sans
blanchiment prealable”, in XIVeme Colloque Gretsi, 13-16 Septembre
1993.
[165] E. MOREAU, O. MACCHI, “A one stage self-adaptive algorithm for
source separation”, in Proc. ICASSP, Adelaide, Australia., 1994.
[166] E. MOULINES, K. CHOUKRI, M. CHARBIT, “Testing that a mul-
tivariate stationary time series is Gaussian”, in Sixth SSAP Workshop
on Stat. Signal and Array Proc., Oct. 1992, pp. 185–188.
[167] E. MOULINES, P. DUHAMEL, J. F. CARDOSO, S. MAYRAGUE,
“Subspace methods for the blind identification of multichannel FIR
filters”, IEEE Trans. on Signal Processing, vol. 43, no. 2, pp. 516–525,
Feb. 1995.
[168] H. L. NGUYEN-THI, C. JUTTEN, “Comparaison de quelques algo-
rithmes adaptatifs de separation de sources dans un melange convo-
lutif”, in XIV Colloque GRETSI, Juan les Pins, France, Sept. 13–16
1993, pp. 333–336.
[169] C. L. NIKIAS, A. P. PETROPULU, Higher-Order Spectra Analysis,
Signal Processing Series. Prentice-Hall, Englewood Cliffs, 1993.
126 CHAPITRE 6

[170] K. V. PARSHALL, “The one-hundred anniversary of the death of


invariant theory”, The Mathematical Intelligencer, vol. 12, no. 4, pp.
10–16, 1990.
[171] E. S. PEARSON, R. B. D’AGOSTINO, K. O. BOWMAN, “Tests for
departure from normality: Comparison of powers”, Biometrika, vol.
64, no. 2, pp. 231–246, 1977.
[172] E. S. PEARSON, H. O. HARTLEY, Biometrika Tables for Statisti-
cians, vol. I, Cambridge University Press, 1962.
[173] D. T. PHAM, P. GARRAT, “Separation of a mixture of independent
sources through a maximum likelihood approach”, in Proc. European
Signal Processing Conf. EUSIPCO, Brussels, Aug 24 - 27 1992, pp.
771–774.
[174] B. PICINBONO, “Spherically invariant and compound stochastic pro-
cesses”, IEEE Trans. Information Theory, vol. 16, no. 1, pp. 77–79,
Jan. 1970.
[175] B. PICINBONO, Random Signals and Systems, Prentice-Hall, 1993.
[176] B. PICINBONO, “On circularity”, IEEE Trans. Signal Processing,
vol. 42, no. 12, pp. 3473–3482, Dec. 1994.
[177] J. G. PROAKIS, C. L. NIKIAS, “Blind equalization”, in SPIE Adap-
tive Signal Processing, 1991, vol. 1565, pp. 76–88.
[178] S. PROSPERI, “Décomposition de lois, fonctions caractéristiques, et
caractérisation”, Traitement du Signal, vol. 11, no. 2, pp. 117–131,
février 1994.
[179] G. C. REINSEL, Elements of multivariate time series analysis,
Springer-Verlag, 1993.
[180] M. ROSENBLATT, Stationary Processes and Random Fields,
Birkhauser, 1985.
[181] M. ROSENBLATT, “Gaussian and nongaussian linear sequences”, in
New directions in time series analysis, D. Brillinger et al, Ed., vol. 45
of IMA Volumes in Mathematics and its Applications, pp. 327–333.
Springer Verlag, 1992.
[182] D. ROSSILLE, Reconstruction à partir du bispectre, Application à
l’astronomie, Effets de l’échantillonnage et de la stationnarité sur
les spectres d’ordre supérieur, Doctorat, Université de Nice Sophia-
Antipolis, 20 juin 1995.
BIBLIOGRAPHIE 127

[183] J. LE ROUX, D. ROSSILLE, C. HUET, “A multiresolution exten-


sion of Lohmann-Weigelt-Wirnitzer recursion for computing a Fourier
transform phase from a third order spectrum phase”, in IEEE-ATHOS
Workshop on Higher-Order Statistics, Begur, Spain, 12–14 June 1995,
pp. 315–319.
[184] E. M. SANIGA, J. A. MILES, “Power of some standard goodness-of-
fit tests of normality against stable asymmetric alternatives”, Jour.
Am. Stat. Assoc., vol. 74, no. 368, pp. 861–865, Dec. 1979.
[185] C. SERVIERE, V. CAPDEVIELLE, “An identification method of FIR
digital filters in frequency domain”, in Proc. EUSIPCO, Edinburgh,
Sept. 1994, pp. 1058–1061.
[186] O. SHALVI, E. WEINSTEIN, “New criteria for blind deconvolution
of nonminimum phase systems”, IEEE Trans. Inf. Theory, vol. 36, no.
2, pp. 312–321, Mar. 1990.
[187] S. S. SHAPIRO, M. B. WILK, H. J. CHEN, “A comparative study of
various tests for normality”, American Statistical Association Journal,
vol. 63, pp. 1343–1372, Dec. 1968.
[188] J. E. SHORE, R. W. JOHNSON, “Axiomatic derivation of the princi-
ple of maximum entropy and the principle of minimum cross-entropy”,
IEEE Trans. Information Theory, vol. 26, no. 1, pp. 26–37, Jan. 1980.
[189] T. SODERSTROM, P. STOICA, System Identification, Prentice-Hall,
1989.
[190] A. SOULOUMIAC, Utilisation des statistiques d’ordre supérieur pour
la séparation et le filtrage, Doctorat, ENST, Février 1993.
[191] A. SOULOUMIAC, J. F. CARDOSO, “Performances en séparation de
sources”, in Proc. GRETSI, Juan les Pins,France, 1993, pp. 321–324.
[192] Y. STEINBERG, O. ZEITOUNI, “On tests for normality”, IEEE
Trans. on Inf. Theory, vol. 38, no. 6, pp. 1779–1787, Nov. 1992.
[193] M. A. STEPHENS, “Edf statistics for goodness of fit and some com-
parisons”, Journal of the American Statistical Association, vol. 69, no.
347, pp. 730–737, 1974.
[194] A. SWAMI, G. GIANNAKIS, S. SHAMSUNDER, “Multichannel
ARMA processes”, IEEE Trans. on Signal Processing, vol. 42, no.
4, pp. 898–913, Apr. 1994.
128 CHAPITRE 6

[195] P. TICHAVSKY, A. SWAMI, “Statistical characterization of sample


fourth-order cumulants of a noisy complex sinusoidal process”, IEEE
Trans. on Signal Processing, vol. 43, July 1995.
[196] L. TONG, R. LIU, V. C. SOON, “Indeterminacy and identifiability of
blind identification”, IEEE Trans Circuits and Systems, vol. 38, no.
5, pp. 499–509, May 1991.
[197] L. TONG, G. XU, T. KAILATH, “Blind identification and equaliza-
tion based on second-order statistics: a time domain approach”, IEEE
Trans. on Signal Processing, vol. 40, no. 2, pp. 340–349, Mar. 1994.
[198] J. TUGNAIT, “Comments on ‘new criteria for blind deconvolution of
nonminimum phase systems”’, IEEE Trans. Inf. Theory, vol. 38, no.
1, pp. 210–213, Jan. 1992.
[199] J. K. TUGNAIT, “Detection of non-Gaussian signals using integrated
polyspectrum”, IEEE Trans. on Signal Processing, vol. 42, no. 11, pp.
3137–3149, Nov. 1994.
[200] O. VASIECEK, “A test for normality based on sample entropy”, Jour.
Roy. Statist. Soc. B, vol. 38, pp. 54–59, 1976.
[201] R. A. WOODING, “The multivariate distribution of complex normal
variables”, Biometrika, vol. 43, pp. 212–215, 1956.
[202] D. YELLIN, E. WEINSTEIN, “Multi-channel signal separation based
on cross-bispectra”, in Proc. IEEE SP Workshop on Higher-Order
Stat., Lake Tahoe, USA, 1993, pp. 270–274.
[203] D. YELLIN, E. WEINSTEIN, “Criteria for multichannel signal separa-
tion”, IEEE Trans. on Signal Processing, vol. 42, no. 8, pp. 2158–2168,
Aug. 1994.
[204] V. ZIVOJNOVIC, “Higher-order statistics and Huber’s robustness”,
in IEEE-ATHOS Workshop on Higher-Order Statistics, Begur, Spain,
12–14 June 1995, pp. 236–240.
[205] I. G. ZURBENKO, The spectral analysis of time series, North-
Holland, 1985.
BIBLIOGRAPHIE 129

6.3 Annexes
Pour ne pas encombrer inutilement le document, ce sont essentiellement les
articles de revue qui sont rassemblés dans cette annexe.
Sommaire
[1] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
[2] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
[3] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175
[4] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183
[5] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193
[6] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201
[7] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211
[8] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229
[9] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 237
[10] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 247
[11] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253
[12] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 259
[13] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 261
[14] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 269
[15] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 277
[16] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 281
[18] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 329
[19] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 351
[20] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 353
[21] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 373
[23] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 389
[24] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 395
[25] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 415
[26] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 419
Quelques articles de conférence
[27] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 423
[28] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 427
[29] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 435
[35] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 453
[36] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 459
[37] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 463
[45] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 469
[47] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 473
[49] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 485
130 CHAPITRE 6

[50] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 497
[53] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 501

Vous aimerez peut-être aussi