HDR Comon

Quelques développements récents en traitement du
signal
Pierre Comon
To cite this version:

Pierre Comon. Quelques développements récents en traitement du signal. Traitement du signal et de
l’image [eess.SP]. Université Nice Sophia Antipolis, 1995. �tel-00473197�
HAL Id: tel-00473197

https://theses.hal.science/tel-00473197
Submitted on 14 Apr 2010
HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est

archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents
entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non,
lished or not. The documents may come from émanant des établissements d’enseignement et de
teaching and research institutions in France or recherche français ou étrangers, des laboratoires
abroad, or from public or private research centers. publics ou privés.
HABILITATION
A DIRIGER DES RECHERCHES
UNIVERSITE DE NICE SOPHIA-ANTIPOLIS

U.F.R. SCIENCES
QUELQUES DEVELOPPEMENTS RECENTS

EN TRAITEMENT DU SIGNAL
Pierre COMON
Présentée le 18 septembre 1995 devant le jury:
Mme Odile Macchi Présidente et Rapporteur
Mr Gérard Favier Examinateur

Mr Michel Granger Rapporteur
Mr Laurent Kopp Examinateur
Mr Jean-Louis Lacoume Rapporteur
Mr Joel Le Roux Examinateur
Quelques développements récents
en traitement du signal
HABITITATION A DIRIGER DES RECHERCHES
Pierre Comon
Imprimé le 16 août 1995

1
Bien évidemment, je remercie les membres du jury pour le temps qu’ils

ont accepté de sacrifier à l’analyse de mon travail. J’espère que cette analyse
n’aura pas été stérile.
Cependant, ce n’est pas l’essentiel de mon message. En effet un
dénominateur commun a réuni les membres du jury: la confiance qu’ils ont
bien voulu accorder à certains de mes travaux. Cette confiance est essen-
tielle dans la vie d’un chercheur car sa carence compromet l’efficacité de son
travail. Je tiens à remercier chacun d’entre eux pour ce concours implicite.
Je n’oublie pas ma petite famille, qui a souvent dû faire le sacrifice de

ses loisirs pour une cause discutable, ainsi que bien d’autres contributeurs
indirects sans qui mon travail aurait été entravé. Je pense notamment à G.
Bienvenu, défenseur de la recherche amont en milieu industriel.
2
A mes amis
Ceux que les diplômes indiffèrent
Ceux qui s’éloignent sans s’en rendre compte
Imprimé le 24 juillet 1995

Table des matières
1 Introduction 7
1.1 Organisation du document . . . . . . . . . . . . . . . . . . . . 7
1.2 Présentation succincte . . . . . . . . . . . . . . . . . . . . . . 8
2 Présentation des travaux 11

2.1 Traitement d’antenne . . . . . . . . . . . . . . . . . . . . . . . 11
2.2 Statistiques d’Ordre Elevé (SOE) . . . . . . . . . . . . . . . . 13
2.3 Algorithmes numériques . . . . . . . . . . . . . . . . . . . . . 15
2.4 Apprentissage supervisé . . . . . . . . . . . . . . . . . . . . . 16
2.5 Autres travaux . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3 Introduction aux SOE 21

3.1 Variables aléatoires réelles scalaires . . . . . . . . . . . . . . . 21
3.2 Cas vectoriel, multicorrélations . . . . . . . . . . . . . . . . . 24
3.3 Cas complexe, multispectres . . . . . . . . . . . . . . . . . . . 27
3.3.1 Définition et circularité . . . . . . . . . . . . . . . . . 27
3.3.2 Densités multispectrales . . . . . . . . . . . . . . . . . 30
3.3.3 Circularité des variables spectrales . . . . . . . . . . . 31
3.4 Propriétés des moments et cumulants . . . . . . . . . . . . . . 33
3.4.1 Liens entre SOE et densité de probabilité . . . . . . . 37
a) Problème des moments . . . . . . . . . . . . . . . 37
b) Queues de distribution . . . . . . . . . . . . . . . 38
3.5 Estimation des moments et cumulants . . . . . . . . . . . . . 39
3.5.1 Les κ-statistiques . . . . . . . . . . . . . . . . . . . . . 39
3.5.2 Premiers cumulants des κ-statistiques . . . . . . . . . 40
3.5.3 Statistiques dans le cas gaussien . . . . . . . . . . . . 42
3.5.4 Cas multivariable . . . . . . . . . . . . . . . . . . . . . 44
3.5.5 Fonctions de multicorrélation . . . . . . . . . . . . . . 44
3
4 TABLE DES MATIERES
4 Intervention des SOE dans quelques problèmes 47

4.1 Tests de gaussianité . . . . . . . . . . . . . . . . . . . . . . . 47
4.1.1 Les tests existants . . . . . . . . . . . . . . . . . . . . 49
a) Tests scalaires . . . . . . . . . . . . . . . . . . . . 49
b) Tests vectoriels . . . . . . . . . . . . . . . . . . . 52
4.1.2 Statistiques du kurtosis multivariable . . . . . . . . . 55
a) Cas i.i.d. . . . . . . . . . . . . . . . . . . . . . . . 55
b) Cas coloré . . . . . . . . . . . . . . . . . . . . . . 56
4.1.3 Résultats sur signaux . . . . . . . . . . . . . . . . . . 60
4.2 Mélanges linéaires . . . . . . . . . . . . . . . . . . . . . . . . 62
4.2.1 Taxinomie . . . . . . . . . . . . . . . . . . . . . . . . . 62
4.2.2 Tour d’horizon bibliographique . . . . . . . . . . . . . 65
a) Déconvolution scalaire . . . . . . . . . . . . . . . 65
b) Séparation de signaux . . . . . . . . . . . . . . . . 66
c) Séparation de sources (ACI) . . . . . . . . . . . . 67
d) Déconvolution vectorielle à l’ordre 2 . . . . . . . . 69
e) Déconvolution vectorielle avec les SOE . . . . . . 70
4.2.3 Séparation de signaux . . . . . . . . . . . . . . . . . . 72
a) Mélanges instantanés inversibles de signaux . . . 72
b) Mélanges instantanés singuliers . . . . . . . . . . 74
4.2.4 Indépendance statistique . . . . . . . . . . . . . . . . . 76
a) Information mutuelle . . . . . . . . . . . . . . . . 76
b) Néguentropie . . . . . . . . . . . . . . . . . . . . 78
c) Développement en série d’Edgeworth . . . . . . . 81
d) Approximation de la néguentropie . . . . . . . . . 83
4.2.5 Contrastes statistiques . . . . . . . . . . . . . . . . . . 83
a) Généralités . . . . . . . . . . . . . . . . . . . . . . 83
b) Déconvolution scalaire . . . . . . . . . . . . . . . 85
c) Mélange instantané vectoriel . . . . . . . . . . . . 86
d) Mélanges convolutifs vectoriels . . . . . . . . . . . 92
4.2.6 Un algorithme pour l’ACI . . . . . . . . . . . . . . . . 94
a) Approche en deux étapes . . . . . . . . . . . . . . 94
b) Algorithme Contraste–Maximisation (CM) . . . . 94
c) Obtention de la rotation plane dans l’algorithme
CM . . . . . . . . . . . . . . . . . . . . . . . . . . 96
d) Maximisation de Υ3 . . . . . . . . . . . . . . . . . 97
e) Maximisation de Υ4 . . . . . . . . . . . . . . . . . 98
4.3 Décompositions tensorielles . . . . . . . . . . . . . . . . . . . 98
4.3.1 Diagonalisation tensorielle . . . . . . . . . . . . . . . . 99
TABLE DES MATIERES 5
4.3.2 Polynômes homogènes . . . . . . . . . . . . . . . . . . 100

4.3.3 Rang générique et nombre de solutions . . . . . . . . . 100
5 Orientations et perspectives 103
6 Bibliographie 111
6.1 Publications personnelles . . . . . . . . . . . . . . . . . . . . 111
6.1.1 Articles parus dans des revues internationales ou dans
des ouvrages édités en langue anglaise . . . . . . . . . 111
6.1.2 Articles parus dans des revues en langue française . . 113
6.1.3 Articles soumis à des revues avec comité de lecture . . 113
6.1.4 Conférences avec actes . . . . . . . . . . . . . . . . . . 113
6.1.5 Livres . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
6.1.6 Autres: Brevets, Conférences sans actes, notes de cours 117
6.2 Autres références bibliographiques . . . . . . . . . . . . . . . 118
6.3 Annexes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
6 TABLE DES MATIERES
Chapitre 1
Introduction
1.1 Organisation du document

L’habilitation à diriger des recherches est régie par l’arrêté du 23 novembre
1988, modifié par un arrêté du 13 février 1992. Pour plus de clarté, le
ministère de l’éducation nationale a publié une circulaire le 27 octobre 1992
afin de prévenir les mauvaises interprétations éventuelles des arrêtés. Il y
est notamment précisé que:
L’habilitation n’est pas une thèse. Il s’agit d’une procédure qui [...] doit
rester légère. [...] On ne saurait en particulier exiger du candidat [...] la
rédaction d’un véritable mémoire ni d’une seconde thèse, après celle du doc-
torat.
Bien que les textes officiels engagent les candidats à se contenter d’une
synthèse rapide suivie de publications, j’ai été encouragé par mon entourage
à aller plus loin. Cependant, ne voulant pas non plus m’engager sur la
rédaction d’une seconde thèse, j’ai délibérément choisi de ne détailler qu’une
partie de mes travaux. Ainsi, le contexte technique et l’état de l’art exposés
dans le chapitre 4 ne portent que sur un des quatre volets de ma recherche.
Le chapitre 2 présente de façon synthétique l’ensemble des travaux
que j’ai accomplis depuis 1983, et mentionne brièvement mes activités
périphériques à la recherche proprement dite, telles que l’organisation
d’évènements, l’obtention de contrats, ou les expertises scientifiques. La
vocation de ce chapitre n’est pas d’entrer dans des détails techniques, con-
trairement aux chapitres suivants; elle doit être acceptée comme étant très
partiale, puisque limitée à mes propres travaux.
Les chapitres 3 et 4 détaillent un des quatre volets de l’activité présentée
7
8 CHAPITRE 1
dans le chapitre 2, qui porte essentiellement sur l’usage des statistiques

d’ordre supérieur à deux. Pour plus de clarté et dans un souci de complétude,
le premier de ces deux chapitres rassemble un certain nombre de résultats en
principe connus, mais pour la plupart disséminés dans des ouvrages ou des
revues spécialisés. Le second chapitre présente en détail quelques contribu-
tions, en prenant cette fois en compte l’état de l’art de façon objective. Les
sections 4.1, 4.2, et 4.3 peuvent être vues comme trois projets de recherche,
du plus finalisé au plus ambitieux.
Enfin, et puisque ceci est requis d’après les arrêtés ministériels, le chapitre
5 est dédié à la présentation de projets de recherche futurs.
1.2 Présentation succincte

Les activités que j’ai menées depuis une dizaine d’années relèvent essen-
tiellement du domaine du traitement du signal, mais aussi de l’analyse de
données, et de l’analyse numérique. Ces activités peuvent être regroupées
dans quatre volets qui sont exposés ci-après de façon succincte.
Le premier volet, intitulé “Traitement d’antenne”, concerne les trans-
formations effectuées sur les signaux issus d’antennes à capteurs discrets,
utilisées en acoustique Sonar et en Radar notamment. Une des tâches à
réaliser est l’élimination de bruit de fond, en faisant appel à des opérateurs
linéaires, principalement des projecteurs. Ces opérateurs doivent être
adaptés à la tâche à effectuer mais aussi aux statistiques des signaux mesurés
afin de réduire les erreurs. La versatilité des espaces vectoriels que l’on peut
construire autour des signaux observés entraı̂ne autant de projecteurs de na-
ture différente. Une autre tâche majeure (qui rejoint la précédente à bien des
égards) est celle de la focalisation électronique de l’antenne dans une direc-
tion donnée, afin de réduire l’influence des sources rayonnantes avoisinantes,
et notamment des brouilleurs.
Pour ces deux tâches, il est très utile de pouvoir accéder aux perfor-
mances des traitements, même de façon approchée, en termes de gain en
rapport signal à bruit ou de résolution angulaire, par exemple. Par ailleurs,
grâce à l’essor des calculateurs, le recours aux statistiques d’ordre élevé est
maintenant possible et autorise l’utilisation d’opérateurs non linéaires.
Le deuxième volet concerne les Statistiques d’Ordre Elevé (SOE),
et en particulier l’étude du nouveau concept d’Analyse en Composantes
Indépendantes (ACI) que j’ai développé en 1990. L’ACI peut être considérée
comme une alternative à l’Analyse en Composantes Principales (ACP) en
INTRODUCTION 9
analyse de données; ce concept a de nombreux avantages sur l’ACP dans un

certain nombre de cas de figure, que l’on rencontre en particulier en traite-
ment d’antenne. Toutefois, de sérieux problèmes d’une part théoriques et
d’autre part algorithmiques restent encore incomplètement résolus.
J’ai montré notamment que l’ACI ne peut être définie que relativement
à la maximisation d’un critère de contraste, et que tous les contrastes ne
sont pas équivalents. Certains contrastes jouent cependant un rôle privilégié.
L’analyse des contrastes relève de la théorie de l’information. L’ACI est aussi
utile dans les problèmes de déconvolution ou d’identification multivariables.
En outre l’ACI soulève des problèmes plus généraux sur les décompositions
tensorielles (factorisation, diagonalisation).
Le troisième volet comprend l’étude d’algorithmes numériques. Ces al-

gorithmes peuvent être de type “en ligne”, c’est à dire traiter les données en
temps réel et mettre à jour une solution récursivement (le terme “adaptatif”
semble ambigu dans ce contexte), soit de type “hors ligne” et traiter les
données en temps différé. Considérons l’espace des matrices dont les dimen-
sions sont de l’ordre de N . On sait qu’un certain nombre de décompositions
de matrices nécessitent de l’ordre de N 3 opérations; c’est le cas notamment
de la factorisation QR et du calcul des éléments propres. Toutefois, cette
évaluation de complexité n’est valable qu’en régime hors ligne. En régime
en ligne, la complexité peut être diminuée d’un ordre de grandeur.
De même, si la matrice considérée possède une structure exploitable,
telle que Töplitz, Hankel, ou produit de Töplitz, qui sont des structures
rencontrées couramment en traitement du signal, la complexité hors ligne
peut être également considérablement réduite, au prix parfois d’une perte
de stabilité de l’algorithme. De plus, les algorithmes rapides existants tels
que celui communément appelé algorithme de Schur, ne permettent pas
résoudre au sens des moindres carrés les systèmes linéaires structurés sin-
guliers. Une qualité importante des algorithmes numériques est aussi leur
stabilité numérique apparente, fonction à la fois du conditionnement des
problèmes, et de l’arithmétique (nécessairement finie) des machines.
D’autre part j’ai évoqué au paragraphe précédent les problèmes algo-
rithmiques rencontrés avec la mise au point de l’ACI. Cette décomposition
demande en effet de l’ordre de N 4 à N 6 opérations, suivant la façon dont
on procède, cette complexité étant évidemment à mettre en parallèle avec
les O(N 3 ) opérations requises pour le calcul de l’ACP. Le coût élevé de
cette décomposition rend encore plus attrayantes les solutions rapides et
parallélisables.
10 CHAPITRE 1
Le quatrième et dernier volet est intitulé “Apprentissage supervisé”. En

traitement du signal, les problèmes de détection ou d’estimation sont traités
habituellement avec l’aide d’un modèle probabiliste. Le cas le plus simple
est celui de l’estimation d’un signal noyé dans un bruit, où l’on suppose
que le bruit est gaussien. Dans la pratique, l’hypothèse du bruit gaussien
additif est parfois beaucoup trop simpliste. On ne peut pourtant recourir
à des modèles plus performants que si les connaissances a priori que l’on a
du phénomène physique le permettent. Or cela ne représente peut être que
la moitié des situations rencontrées. C’est une des raisons pour lesquelles
les réseaux de neurones ont fait l’objet de tant d’engouement ces dernières
années.
Mon enthousiasme sera plus réservé, pour la simple raison que ces nou-
velles techniques ne semblent pas toujours apporter de solutions meilleures
que celles que fournissent les approches plus classiques qui, contrairement
à ce qui est souvent clamé, peuvent fort bien traiter ce genre de problème.
Le contexte des réseaux de neurones est celui de l’apprentissage d’un traite-
ment de façon “supervisée”, c’est à dire à l’aide d’un ensemble d’exemples
contenant des couples (entrée, sortie désirée). J’ai montré qu’il est aussi
possible d’élaborer des solutions classiques dans un tel contexte, et que ces
dernières peuvent être moins coûteuses. En outre, les performances sont
plus facilement prédictibles, et on peut s’attendre à ce qu’elles soient plutôt
meilleures.
Ces quatre volets vont être maintenant développés et commentés dans le
chapitre qui suit. Ceci sera notamment l’occasion d’introduire les publica-
tions parues dans la littérature ouverte.
Chapitre 2
Présentation des travaux
Dans ce chapitre, on propose un exposé des principales publications, étayé

de courts commentaires techniques de quelques lignes. Les publications
sont regroupées par type (articles en langue anglaise, française, actes de
conférences...), comme il de coutume de le faire, et classées par ordre
chronologique au sein de chaque type (cf chapitre 6). Je reprends succes-
sivement dans ce chapitre les quatre volets annoncés en introduction.
2.1 Traitement d’antenne

Une façon d’éliminer le bruit dans une mesure est de placer des capteurs
supplémentaires ne mesurant que des bruits. Les signaux ainsi mesurés sont
souvent appelés “références de bruit seul”. Imaginons par exemple que nous
voulions enregistrer une conversation dans une voiture. En plus du micro-
phone situé dans l’habitacle, nous pouvons placer des microphones ou des
accéléromètres en différents points stratégiques du moteur ou du châssis.
Par régression, il est possible d’estimer le bruit perturbant l’enregistrement
et de le soustraire à ce dernier. Pour cette raison, ce procédé exploitant
des références de bruit seul est souvent désigné par “soustraction de bruit”.
Evidemment, un tel procédé est d’autant plus performant que les références
de bruit sont corrélées avec le bruit perturbant le signal utile.
J’ai montré dans [11] [15] [59] que le rapport signal à bruit peut se
dégrader si la régression n’est pas calculée avec suffisamment de précision.
Dans ces travaux, j’ai proposé un critère de performance quantitatif pouvant
assurer un gain positif. Grâce à ce critère, un filtre “robuste” toujours per-
formant peut être construit. Sans entrer dans les détails, le résultat peut se
11
12 CHAPITRE 2
résumer ainsi: plus la cohérence entre le bruit perturbateur et les références

est faible, plus les observations devront être longues. Dans [10], nous avons
montré que la même technique peut être utilisée pour identifier l’ordre de
filtres à réponse impulsionnelle finie. Dans [19], j’ai repris de façon plus
didactique et plus succincte la technique d’évaluation des résidus dans les
problèmes de régression linéaire.
En l’absence de références de bruit, un autre recours est de multiplier
les mesures du signal pollué. Par focalisation électronique, on peut en-
suite construire un récepteur plus directionnel et réduire ainsi la présence
du bruit dans la mesure. Parmi les méthodes de focalisation connues, citons
la méthode de Capon maximisant le rapport signal à bruit, et les méthodes
Haute-Résolution (HR). Dans [57], nous révisons la présentation usuelle du
filtre spatial de Capon, alors que dans [55] je me penche sur les performances
de la méthode HR la plus répandue, basée sur l’Analyse en Composantes
Principales (ACP).
Avant de terminer cette section, on peut mentionner quelques travaux
un peu plus généraux pouvant aussi être utilisés en traitement d’antenne. Le
premier [23] souligne de façon didactique les différences élémentaires souvent
ignorées entre la théorie de l’estimation de paramètres réels, et complexes.
Quelques exemples sont donnés, notamment lorsque le bruit suit une loi
complexe circulaire. De nouvelles définitions de la notion de circularité sont
introduites dans [17].
Dans [61], on avait présenté différentes techniques d’extrapolation de
signaux lorsque les mesures sont interrompues (pannes d’enregistrement par
exemple). Dans [5], un nouvel algorithme d’identification de filtres à Réponse
Impulsionnelle Finie (RIF) à phase non minimale est proposé, basé sur des
statistiques d’ordre supérieur à deux. Pour des données de courte durée,
cet algorithme améliore considérablement les autres approches récemment
proposées dans la littérature.
J’ai proposé récemment un sujet de recherche spécifiquement axé sur
l’estimation de temps de retard, problème qui apparait fréquemment dans
le domaine du sonar, sous des formes plus ou moins complexes. L’idée de
départ était de recourir aux SOE [66] [21]. Deux pistes avaient été proposées
dans [21]. La première, basée sur une approche bande étroite, n’avait pas été
recommandée en raison de la difficulté que représente la fusion des bandes
en présence de bruit. La seconde consistait en l’identification d’un modèle
MA ou ARMA monique suivie d’une ACI. Grâce à l’obtention d’une bourse
CNRS cofinancée par Thomson, nous avons pu concrétiser cette idée. Une
première approche de type spectral [32] a été nantie d’une procédure de
PRÉSENTATION DES TRAVAUX 13
retour dans le domaine temps permettant une vraie intégration large bande
[31]. Une présentation plus élégante est donnée dans [26]. Nous avons aussi
développé l’autre approche consistant à identifier dans un premier temps un
modèle linéaire multivariable, puis à remonter dans un second temps aux
retards par interpolation [27].
Je participe (modestement) à la rédaction d’un ouvrage de synthèse sur
le traitement d’antenne [62], sous l’impulsion de Laurent Kopp.
2.2 Statistiques d’Ordre Elevé (SOE)

Le concept d’ACI a été initialement suggéré par C.Jutten vers 1987, et je l’ai
défini de façon précise en 1989. L’algorithme proposé à l’origine par C.Jutten
était présenté de façon heuristique, et utilisait des cellules de calcul neuro-
mimétiques. J’ai dans un premier temps analysé le fonctionnement de cette
technique [51] [6], ce qui a révélé sa sous-optimalité. Un autre algorithme a
été proposé par ailleurs dans [48] [50], et breveté [73]. Dans [50], une version
adaptative (en ligne) peu coûteuse était décrite. A ce stade, il s’agissait de
séparer des signaux inconnus linéairement mélangés par une transformation
instantanée.
Ces travaux ont démontré la généralité du problème et motivé la
définition du concept d’ACI, que j’ai d’abord proposé dans [21] et [43]. Cette
définition permet de s’affranchir du modèle d’observation linéaire avec bruit
gaussien, sous-jacent dans toutes les autres approches connues abordant le
problème de la séparation aveugle de signaux. Ceci a été rendu possible
grâce à l’introduction d’une fonctionnelle de “contraste”. Les résultats ex-
posés dans [43] sont développés plus en détail et de façon plus complète dans
[2]. La complexité du calcul de l’ACI, comparée pour diverses approches, a
été abordée dans [45] et [47].
L’ACI est directement applicable aux méthodes HR en traitement
d’antenne, ainsi que dans bien d’autres domaines: c’est une décomposition
pouvant prendre la place de l’ACP. J’ai esquissé quelques applications dans
[21] et [46], notamment la détection et la localisation de sources rayon-
nantes, la compression de données, et la classification. On peut notamment
définir le concept d’Analyse en Sous-espaces Indépendants (ASI) [29], qui
sera repris en section 2.4. Ce dernier permet de réduire le nombre minimal
d’échantillons en dimension d > 1, nécessaire pour estimer une densité de
probabilité avec une précision donnée.
L’ACI peut aussi être mise à profit dans les problèmes de déconvolution
14 CHAPITRE 2
[2] [43] et d’identification aveugles multivariables [49] [5]. Ces utilisations

de l’ACI conjointement à d’autres techniques d’identification permettent de
mettre en œuvre la séparation aveugle de signaux large-bande linéairement
mélangés par une transformation convolutive à phase non minimale (cf. sec-
tion précédente). Une application prometteuse est celle de l’amélioration du
contrôle aérien dans les aéroports civils, notamment celui d’Orly [3].
En essayant d’utiliser les SOE pour mettre en œuvre des algorithmes de
localisation haute-résolution, nous avons été confrontés a l’observation suiv-
ante: les variables aléatoires spectrales traitées ne possédaient pas toujours
la propriété dite de circularité. Cette constatation a été présentée assez
formellement dans [17]. Mais d’autres travaux ont exploré récemment ce
domaine plus en profondeur [176]. En coopération avec J.L.Lacoume, on
tentera dans l’ouvrage en préparation [63] de donner un aperçu synthétique
de l’ensemble de ces propriétés.
Un autre sujet a attiré mon attention ces dernières années, à force de
pratiquer l’usage des SOE. En effet, il est clair qu’il est des domaines plus
fertiles pour les SOE (comme les télécommunications) que d’autres (comme
le sonar). La question qu’on aimerait se poser avant de lancer une étude de
performances d’un algorithme sur une base de données réelle est de savoir
si les données s’écartent suffisamment du caractère gaussien pour qu’il y ait
un espoir de faire mieux que les techniques classiques d’ordre deux. Or, la
quasi-totalité des tests de gaussianité supposent que les signaux à tester sont
blancs. En outre, peu nombreuses, les techniques restantes demeurent très
gourmandes en calculs, et exigent des durées d’intégration importantes, ce
qui peut être incompatible avec la durée de stationnarité des phénomènes
observés. C’est pourquoi j’ai développé un test original, qui reste valable
quand on s’écarte de l’hypothèse de blancheur (dans la pratique, les spectres
des signaux doivent être continus et à large support). Les résultats semblent
pour l’instant encourageants [30].
Enfin, les cumulants (ou les moments) de variables aléatoires vectorielles
peuvent être vus comme des tenseurs symétriques. Avec cette vision sub-
jective, un problème tel que l’ACI devient un problème de diagonalisation
tensorielle [35]. Or, s’il y a apparemment très peu d’ouvrages connus sur
les décompositions en algèbre multilinéaire, de nombreux travaux ont vu le
jour depuis le début du siècle sur les polynômes homogènes (Gauss, Cayley,
Noether, Dieudonné...). C’est alors en remarquant qu’on peut associer bi-
jectivement tout tenseur symétrique à un polynôme homogène, qu’on peut
transposer de nouveau le problème [34]. Avec cette approche, au lieu de
chercher à diagonaliser approximativement un tenseur symétrique [36], on
s’aperçoit que l’on peut le diagonaliser exactement, mais en général de

plusieurs manières [24].
2.3 Algorithmes numériques

J’ai expliqué dans l’introduction de ce document, ainsi que dans la première
section de ce chapitre, le rôle que joue l’ACP en traitement d’antenne,
et plus généralement en traitement du signal. Le calcul des éléments
propres a été longtemps considéré comme prohibitif en raison de son
coût élevé, i.e, de l’ordre de N 3 opérations pour une matrice symétrique
N × N . Toutefois, cette complexité peut être considérablement décrue
lorsque cette décomposition doit être calculée en ligne, ou lorsqu’un pe-
tit nombre d’espaces propres dominants sont requis [55] [54] [53] [52]. De
plus, ces solutions n’interdisent pas d’implantation parallèle pour autant
[12]. L’article [7] récapitule les résultats que j’ai obtenus et présente une
étude comparative de divers algorithmes adaptatifs existants.
Dans le contexte de l’ACI, nous avons suggéré la même famille
d’algorithmes dans [45] pour calculer les matrices propres de l’opérateur
quadricovariance, afin de réduire la complexité.
En régime non stationnaire (localement stationnaire), le calcul de la
régression linéaire dans le domaine spectral (pour la soustraction de bruit
par exemple) nécessite la résolution d’une suite de systèmes linéaires voisins
les uns des autres. Lorsque ces systèmes sont pleins, nous avons proposé
un certain nombre de solutions [13] [9]. En revanche, en régime hors ligne,
on peut également utiliser une des architectures parallèles maintenant bien
connues [8] [14] [22].
En régime stationnaire (ou presque stationnaire au sens des rangs de
déplacements), le calcul de la régression linéaire requiert la résolution de
systèmes structurés (Töplitz par exemple). Les algorithmes à notre dispo-
sition sont principalement issus de ceux qui sont maintenant connus sous le
nom de Levinson et de Schur. Malheureusement, ces derniers ne fonction-
nent efficacement que sur des classes de systèmes fortement réguliers. Pour
cette raison, il est important de savoir évaluer la stabilité de ces algorithmes
en fonction du conditionnement des systèmes. Dans [4] [41], nous avons
montré que même les systèmes structurés singuliers devraient pouvoir être
résolus rapidement au sens des moindres carrés, car une forme de structure
est préservée dans le calcul de la pseudo-inverse. D’autres travaux sont en
cours sur ce sujet [1].
16 CHAPITRE 2
Mais la rapidité n’est pas le seul critère à prendre en compte dans la

mise au point d’un algorithme. La robustesse numérique est au moins aussi
importante. Il se trouve précisément qu’en général plus les algorithmes sont
rapides, plus ils sont numériquement instables. Nous examinons dans [16] la
stabilité numérique de l’algorithme de Levinson, un des algorithmes les plus
utilisés pour la résolution des systèmes Töplitz. Ces travaux mériteraient
d’être poursuivis également pour l’algorithme de Schur, et les algorithmes
correspondants adaptés aux systèmes Töplitz par blocs.
2.4 Apprentissage supervisé

Comme je l’ai précisé en introduction, l’apprentissage supervisé consiste à
identifier une relation entre deux ensembles de variables, E et F, à partir
d’exemples {x(n) ∈ E, y(n) ∈ F, 1 ≤ n ≤ N } en nombre fini. Considérons
le cas d’une application de E dans F. Il est souvent clamé par une partie
de la communauté que les réseaux de neurones sont parfaitement adaptés à
ce genre de problème, puisque c’est également de cette façon qu’un enfant
apprend, supervisé par ses parents. Sans réfuter cette affirmation, je ne
pense pas que les techniques classiques soient incapables d’aborder ce genre
de problème. J’ai montré dans [20] comment les problèmes de classification
(où le cardinal de F est fini) pouvaient fort bien être résolus par l’approche
bayesienne.
J’ai suggéré également une méthode permettant d’identifier des applica-
tions plus générales [72]. Cette méthode peut aussi être utilisée pour identi-
fier des relations multivoques entre ensembles. Pour devancer les critiques,
l’implantation de l’apprentissage sur un réseau de cellules est également pos-
sible dans l’approche proposée [18]. Il convient donc de comparer cette ap-
proche “classique” et l’approche “neuronale”. C’est ce que j’ai tenté de faire
dans [18], en me limitant au réseau de neurones le plus répandu, le “Percep-
tron MultiCouche” (PMC). J’ai analysé en détail ses défauts et ses qualités.
Ma conclusion penche en faveur de mon approche, pour essentiellement
deux raisons. La première est qu’il est difficile de prédire les performances du
PMC sans faire appel à une interprétation probabiliste, ce qu’il est malgré
tout possible de faire lorsque la taille du réseau PMC et le nombre d’exemples
tendent tous deux vers l’infini [44] [37] [25]. Cette analyse montre aussi au
passage que les performances du PMC sont toujours moins bonnes que la
solution bayesienne. La seconde raison est que l’apprentissage du PMC est
très lent: le temps requis pour atteindre une précision donnée ǫ, n’est pas
fonction polynomiale de ǫ, même dans le cas très favorable où le problème

est convexe [18]. Dans le jargon de la théorie de l’apprentissage, on dirait
que l’apprentissage du PMC est NP (Non Polynomial). On peut se référer à
[126] pour une introduction acceptable aux réseaux de neurones, et à [125]
pour une présentation moderne du point de vue traitement du signal.
Cependant, l’estimation des densités de probabilité soulève des problèmes
d’ordre pratique [33]. En effet, les résultats connus sont essentiellement
de nature asymptotique [29]; malgré les nombreux travaux menés par les
statisticiens, que je mentionne dans [29], le choix de certains paramètres est
encore laissé sous le contrôle de l’intuition, faute de mieux. Par exemple,
dans les estimateurs à noyau fixe, on sait que le facteur largeur doit être
de l’ordre de N −1/d+4 , si d est la dimesion de l’espace, et N le nombre
d’exemples. Mais le coefficient de proportionnalité est difficile à déterminer,
car il dépend du Laplacien de la densité cherchée.
Un autre obstacle pratique à l’utilisation des estimateurs à noyau est
leur grande exigeance en place mémoire pour de grands échantillons. Nous
avons proposé dans [28] une approche tirant parti d’un groupement au-
tomatique préalable. L’idée est que, dans certains problèmes, le temps
d’apprentissage ne compte pas, mais l’optimalité de l’exploitation de la
mémoire est d’importance. Par exemple, un constructeur de jouets, désirant
mettre au point une carte de reconnaissance de la parole bon marché, im-
posera des contraintes de mémoire importantes en mode opérationnel, mais
ne tiendra pas compte du fait que l’apprentissage prend 40mn sur un PC,
ou 3 jours sur une station UNIX, si cet apprentissage se fait une fois pour
toute en usine.
Enfin, le dernier problème auquel je me suis interessé dans ce domaine
est celui de la taille minimale de la base de données. Pour estimer une
densité en dimension d, il est clair qu’il faudra un nombre d’exemples fonction
exponentielle de d. Certains auteurs ont donné des indications pratiques dans
ce sens. Notamment, il est raisonnable d’admettre que le nombre minimal
d’exemples Nmin en dimension d est donné par log10 Nmin = 0.6 (d − 14 ).
Evidemment, cette règle est valable si aucune modèle paramétrique ne désire
être utilisé. De plus cette règle est une condition suffisante, permettant
d’obtenir une estimation de variance relative acceptable. Elle peut ne pas
être nécessaire, en particulier si les données s’avèrent être concentrées autour
d’une variété de dimension inférieure à d. Le problème est que ceci n’est pas
connu à l’avance, dans la quasi-totalité des cas.
Or il arrive fréquemment qu’on ait à construire un classifieur en dimen-
sion trop élevée par rapport à la borne précédente (exemple: d = 10 ⇒
18 CHAPITRE 2
N = 708000). L’idée proposée dans [2] [29] lorsqu’on est confronté à ce

problème est la suivante. On cherche un changement de base (inversible,
mais non orthogonal) de façon à ce que la variable aléatoire z de dimension
d puisse se décomposer en deux variables aléatoires x et y approximativement
indépendantes de dimension plus faibles dans le nouveau système:
pz (A u) ≈ px (u1 ) py (u2 ).
Cette décomposition a été baptisée Analyse en Sous-espaces Indépendants

(ASI), par analogie à l’ACI décrite plus haut, et fera l’objet de coopérations
avec d’autres laboratoires français et étrangers.
2.5 Autres travaux

Expérience industrielle Le poste que j’occupe depuis plus de sept ans à
Thomson requiert avant tout l’obtention de contrats de recherche. En effet,
la pérennité de l’activité de “recherche amont” n’est assurée qu’à ce prix,
les autres activités de la société étant conditionnées par leur rentabilité à
court terme. En outre, la conjoncture économique ne fait qu’exacerber ces
contraintes.
La circulaire ministérielle du 27 octobre 1992 demande que soient men-
tionnées dans le document d’habilitation les obtentions de contrats de
recherche. Il est difficile pour certains universitaires d’imaginer le coût que
représente une étude dans l’environement de travail qui est celui d’une grande
entreprise comme Thomson. En sept ans, j’ai démarché une dizaine de con-
trats pour un budget total de l’ordre de 8 millions de francs hors taxes (les
financements internes ne sont pas inclus dans ces chiffres). Un tel budget
est considéré comme modéré dans l’industrie.
Par ailleurs, j’ai eu l’honneur de rentrer au collège scientifique de Thom-
son S.A. en 1992.
Vie universitaire Sur le plan universitaire, j’ai encadré une thèse sur
le thème des algorithmes rapides pour les systèmes structurés, qui a été
soutenue en septembre 1993 (E. Kazamarande), et en encadre une autre
actuellement sur le thème de l’estimation de temps de retards différentiels
(B. Emile). Il n’est malheureusement pas envisageable d’encadrer plus d’un
étudiant à la fois tout en conservant comme emploi principal la fonction qui
est la mienne à Thomson-Sintra.
J’ai également participé au jury de 12 thèses, la plupart du temps en

tant que rapporteur.
Enseignement De septembre 1981 à juin 1982, j’ai assuré pendant une

année scolaire des travaux dirigés d’algèbre élémentaire, tournée vers les ap-
plications en électricité. Entre octobre 1982 à mars 1984, j’ai été responsable
pendant deux années consécutives de travaux dirigés à l’INPG, sur la théorie
des distributions et leur application dans le monde de l’ingénieur. Entre oc-
tobre 1989 et mars 1993, j’ai assuré la dispense d’un petit cours-TD à l’ESSI
sur la théorie de la détection et le traitement du signal Sonar. A partir de
la rentrée 1995, je serai chargé d’un cours de DEA.
Organisation d’évènements J’ai été convié à participer à l’organisation

du “Workshop on High-Order Statistics” qui s’est tenu à Chamrousse en
juillet 1991. J’ai co-organisé les conférences IEEE sur les statistiques d’ordre
élevé en juin 1993 à Lake Tahoe, Californie, et en juin 1995 à Begur, Espagne.
J’ai également organisé une session spéciale d’une journée à la conférence
SPIE à San Diego en juillet 1994.
J’ai été l’instigateur du working group “ATHOS”, action Esprit BRA
notifiée en juillet 1992. Ce consortium a permis de fédérer certains efforts
du GDR-TDSI au delà des frontières de l’hexagone, dans le domaine des
statistiques d’ordre élevé.
Expertises J’expertise très régulièrement des articles soumis à des revues

scientifiques telles que: IEEE Transactions on Signal Processing, la revue
européenne Signal Processing, ou la revue française Traitement du Signal.
A titre plus occasionnel, j’expertise aussi des articles pour les revues IEEE
Transactions on Information Theory, IEEE Transactions on Circuits and
Systems, Neural Computation, ou SIAM Journal on Matrix Analysis.
Ces analyses représentent un volume de travail non négligeable dans
l’activité de recherche, surtout si elles sont nombreuses (au moins douze
par an). A titre occasionnel, j’ai été également convié à donner des avis
scientifiques sur des soumissions de projets à la CEE (Esprit BRA, Esprit
LTR). Par ailleurs, je suis amené de temps à autre à expertiser des soumis-
sions pour des conférences que je n’ai pas co-organisées (notamment pour
Eusipco92, Gretsi93, Eusipco94, et Gretsi95).
20 CHAPITRE 2
Invitations Outre quelques invitations à des séminaires privés en France

(e.g. séminaire annuel du Campus Thomson en mars 1990 et avril 95) ou
à l’étranger (e.g. séminaires EPFL à Lausanne en mai 1991 et novembre
1994), j’ai été invité à présenter mes travaux à plusieurs reprises, notam-
ment à la conférence SPIE qui s’est tenue à San Diego en juillet 1990,
au congrès WHOS de Chamrousse en juillet 1991, et plus récemment à la
conférence ESANN en avril 1995 à Bruxelles. J’ai été invité pendant 1 mois
par l’IMA (Institute for Mathematics and its Applications) à Minneapolis
pour le séminaire “Linear algebra for signal processing” en avril 1992. J’ai
aussi quelquefois participé à des “sessions invitées” de conférences interna-
tionales.
Chapitre 3
Introduction aux SOE
Les Statistiques d’Ordre Elevé (SOE), autrement dit, les moments et cumu-
lants d’ordre supérieur à 2, sont utilisées essentiellement en complément aux
statistiques d’ordre 2, afin de permettre la résolution de problèmes restés
insolubles jusqu’alors. L’identification de modèles MA multivariables fait
partie de ces problèmes [194]. En outre, les SOE ont été ensuite (et plus
récemment) exploitées pour améliorer les solutions (conditionnement, iden-
tifiabilité..) déjà apportées par les techniques classiques.
Ce chapitre est surtout destiné au néophyte. Son but est de donner
les définitions et propriétés nécessaires à l’introduction et à l’estimation des
SOE.
3.1 Variables aléatoires réelles scalaires

Soit X une variable aléatoire à valeurs dans IR (le cas de variables complexes
sera abordé plus loin dans la section 3.3). On notera Fx (u) sa fonction de
répartition et on supposera généralement que X admet une densité de prob-
abilité px (u). Autrement dit, nous aurons dFx (u) = px (u) du. Rappelons
que px (u) est positive et a pour somme l’unité. Si Fx (u) est une fonction en
escalier, elle n’admet pas de densité (la densité n’existe qu’au sens des distri-
butions). Les moments généralisés de X sont définis pour toute application
réelle g par: Z +∞
E{g(X)} = g(u) px (u) du. (3.1)
−∞
Dans la pratique, on utilise surtout des fonctions polynômiales g(u), con-
duisant aux moments “classiques” d’ordre n, tels que la moyenne ou la vari-
21
22 CHAPITRE 3
ance de X, mais également des fonctions exponentielles. C’est ainsi que l’on
associe “des fonctions caractéristiques” aux variables aléatoires.
La première fonction caractéristique de X est:
Φx (v) = E{ evX }, (3.2)
où  désigne la racine de −1. La fonction caractéristique Φ(v) est toujours

continue et vaut 1 à l’origine. Elle est donc non nulle dans un voisinage de
l’origine, sur lequel on pourra définir son logarithme néperien:
Ψx (v) = log( Φx (v) ). (3.3)
Cette nouvelle fonction est communément appelée seconde fonction ca-

ractéristique. Lorsque X admet une densité, px (u), on peut remarquer que
Φx (v) n’est autre que sa transformée de Fourier:
Z +∞
Φx (v) = evz px (z) dz. (3.4)
−∞
Dans ce cas, on retrouve la densité à partir de la première fonction cara-

ctéristique par transformée de Fourier inverse:
Z +∞
px (z) = e−vz Φx (v) dv. (3.5)
−∞
Notons µ′(r) {X} les moments d’ordre r de X, lorsqu’ils existent:
µ′(r) {X} = E{ X r }, (3.6)
et µ(r) {X} ses moments centrés:
µ(r) {X} = E{ ( X − µ′1 )r }, (3.7)
Les fonctions caractéristiques décrivent complètement la variable aléatoire

à laquelle elles sont associées. En particulier, ses moments peuvent être
obtenus à partir des dérivées successives de Φx (v) à l’origine:
dr Φx (v)
µ′(r) {X} = (−)r . (3.8)
dv r v=0
Les dérivées de la seconde fonction caractéristique prises à l’origine donnent

les cumulants:
dr Ψx (v)
C(r) {X} = (−)r . (3.9)
dv r v=0
INTRODUCTION AUX SOE 23
On montre [136] que les cumulants d’ordre n peuvent être calculés à

partir des moments d’ordre inférieur ou égal à n:
C(1) {X} = µ′(1) , (3.10)

C(2) {X} = µ(2) = µ′(2) − µ′2 (1) , (3.11)
C(3) {X} = µ(3) = µ′(3) − 3 µ′(1) µ′(2) + 2 µ′3
(1) , (3.12)
C(4) {X} = µ′(4) − 4 µ′(3) µ′(1) − 3 µ′2 ′
(2) + 12 µ(2) µ′2 ′4
(1) − 6 µ(1) (3.13)
Dans le cas de variables centrées (µ′1 = 0), les expressions se simplifient:
C(1) {X} = 0, (3.14)

2
C(2) {X} = E{X }, (3.15)
C(3) {X} = E{X 3 }, (3.16)
4 2 2
C(4) {X} = E{X } − 3 E{X } . (3.17)
La relation (3.9) montre que les cumulants sont les coefficients du

développement en série de Taylor de la seconde fonction caractéristique.
Lorsque la variable X est gaussienne, sa seconde fonction caractéristique est
1
Ψx (v) = µ′(1) v − µ v2 , (3.18)
2 (2)
ce qui montre que ses cumulants d’ordre supérieur à 2 sont tous nuls. In-
versement cette propriété caractérise la loi gaussienne [134]. On peut donc
en déduire que les variables gaussiennes sont entièrement décrites par leurs
propriétés au second ordre. Ceci explique pourquoi les chercheurs en traite-
ment du signal se sont longtemps limités au second ordre. En “invoquant”
le théorème de la limite centrale, on peut penser que la plupart des signaux
ont tendance à être gaussiens, mais ce point de vue est erroné. Nous aurons
l’occasion d’y revenir.
La variance de X, C(2) {X} caractérise la puissance de X. Les
quantités C(3) {X} et C(4) {X} caractérisent respectivement l’asymétrie et
l’aplatissement de la loi, en prenant la loi gaussienne comme référence. Afin
de rendre ces mesures indépendantes de la variance, on a coutume d’utiliser
des grandeurs standardisées parfois appelées facteur d’asymétie (skewness
en anglais) et facteur d’aplatissement (ou kurtosis, mot de racine grecque1
1
κύρτ ωσις: action de courber, convexité.
24 CHAPITRE 3
dont l’utilisation est autorisée en français), définies de la façon suivante:

√
K(3) {X} = C(3) {X/ µ2 } (3.19)
√
K(4) {X} = C(4) {X/ µ2 }. (3.20)
Pour une variable centrée, les facteurs d’asymétrie et d’aplatissement

s’écrivent:
E{X 3 }
K(3) {X} = , (3.21)
E{X 2 }3/2
E{X 4 }
K(4) {X} = − 3. (3.22)
E{X 2 }2
Exemple: La variable aléatoire uniformément répartie dans [−aa] a pour

ar
fonction caractéristique Φ(u) = sinauau , pour moments d’ordre pair µ′(r) = r+1 ,
6
et pour kurtosis K(4) = − 5 . On peut trouver dans [169] les coefficients
d’asymétrie et d’aplatissement obtenus pour quelques distributions standard.
3.2 Cas vectoriel, multicorrélations

Sauf mention contraire, on supposera dorénavant que les variables aléatoires
sont centrées. On pourra représenter les variables aléatoires à plusieurs
dimensions par un vecteur colonne:
X T = (X1 , X2 . . . Xn ) . (3.23)
De la même façon que dans le cas scalaire, on définit la fonction car-

actéristique conjointe de N variables aléatoires xn par la relation:
def Tx
Φx (v) = E{eΣvn xn } = E{ev }. (3.24)
Si les composantes xn du vecteur aléatoire x admettent une densité con-

jointe px (u), alors la fonction caractéristique de x est donnée par la Trans-
formée de Fourier de sa densité:
Z
Tu
Φx (v) = ev px (u) du. (3.25)
IR N
La seconde fonction caractéristique garde la même définition: Ψx (v) =

log Φx (v). Ces fonctions peuvent de nouveau servir à générer les moments
et les cumulants.
Les cumulants d’ordre 2 sont des grandeurs à 2 indices, qui peuvent être
rangés dans une matrice (la matrice de covariance):
Cij = C(2) {Xi , Xj } = E{Xi Xj }.
Lorsqu’on manipule des données à plusieurs dimensions, nous voyons qu’il

peut devenir inutile de préciser l’ordre du moment ou du cumulant considéré.
Ainsi, la matrice de covariance peut être écrite:
Cij {X} = C{Xi , Xj }. (3.26)
Il n’y aura jamais ambiguité sur la signification d’un indice puisque

lorsqu’il indique l’ordre, il figure entre parenthèses. De même, les cumu-
lants d’ordre plus élevé pourront être souvent notés de façon plus compacte,
en omettant d’indiquer l’ordre lorsque ce dernier correspond au nombre de
variables entre accollades. Par exemple, on notera:
Cijk {X} = C{Xi , Xj , Xk }, (3.27)

Ciii {X} = C(3) {Xi }, (3.28)
Chijk {X} = C{Xh , Xi , Xj , Xk }, (3.29)
Ciiii {X} = C(4) {Xi }. (3.30)
Ces notations étant précisées, il est facile de voir, en développant

T
l’exponentielle ev x en série autour de v = 0, que les coefficients des termes
de degré r, vi vj ..vk , sont r µij..k /r! [136] [160], ce qui implique que:
∂ r Φx (v)
µ′i1 i2 ..ir {x} = (−)r . (3.31)
∂vi1 ∂vi2 ..∂vir v=0
Il est inutile de réécrire cette relation pour les cumulants car elle se déduit
de celle-ci en remplaçant Φ par Ψ.
Comme dans le cas scalaire, il est possible d’établir des égalités liant
moments et cumulants en développant la fonction log en série entière. On
obtient par exemple:
Cij {x} = µ′ij {X} − µ′i {X}µ′j {X}. (3.32)
Pour décrire l’ensemble de ces relations de façon plus complète, il est

nécessaire d’introduire des conventions d’écriture, sans quoi nous aurions
vite fait d’aboutir à des pages de termes, d’ailleurs très semblables les uns
aux autres.
26 CHAPITRE 3
On conviendra d’écrire une somme de k termes se déduisant les uns des

autres par permutation d’indices par une notation crochet. Quelques bons
exemples valent mieux qu’un long discours:
[3] δij δkl = δij δkl + δik δjl + δil δjk , (3.33)
[3] aij bk cijk = aij bk cijk + aik bj cijk + ajk bi cijk . (3.34)
La présence du crochet entraine donc une sommation implicite. On suppose

toujours que les termes à r indices (qui sont des tenseurs d’ordre r) sont
complètement symétriques. Pour que la notaton soit correcte, il faut que le
nombre de monômes distincts que l’on puisse obtenir par permutation soit
égal à l’entier figurant entre crochets. Ainsi, les écritures:
[3]xi δjk , [6]xi xj δkl , [10]xi xj xk δlm , [35]Aijk Babcd Cijkabcd ,
sont correctes. Les cumulants d’ordre 3 et 4 sont alors donnés en fonction

des moments par les expressions compactes:
Cijk = µ′ijk − [3]µ′i µ′jk + 2µ′i µ′j µ′k , (3.35)

Cijkl = µ′ijkl − [4]µ′i µ′jkl − [3]µ′ij µ′kl + 2 [6]µ′i µ′j µ′kl − 6µ′i µ′j µ′k µ′l .(3.36)
Dans le cas centré, ces expressions se simplifient et on a:
Cij = µij , (3.37)

Cijk = µijk , (3.38)
Cijkl = µijkl − [3]µij µkl . (3.39)
Il est intéressant de comparer ces expressions avec celles que l’on a obtenu
dans le cas scalaire.
De façon plus générale, les cumulants sont liés aux moments par la for-
mule de Leonov et Shiryaev (donnée ici à l’ordre r):
(−1)k−1 (k − 1)! E{
X Y Y Y
C{X1 , ..., Xr } = Xi } · E{ Xj } · · · E{ Xk },
i∈v1 j∈v2 k∈vp
(3.40)
où la sommation s’étend sur tous les ensembles {v1 , v2 , · · · , vp ; 1 ≤ p ≤ r}
formant une partition de {1, 2, · · · , r}. Cette expression s’étend au cas où les
{vi } ne décrivent plus nécessairement toutes les partitions; on parle alors de
cumulants généralisés [160, page 60].
Multicorrélations
A l’instar de la fonction de corrélation d’ordre 2, on peut définir des fonctions
de multicorrélation d’ordre supérieur. Aux ordres 2 et 3, les moments centrés
et les cumulants sont confondus, de sorte qu’il n’existe pas d’ambiguité. En
revanche aux ordres plus grands, il faudra prendre garde à préciser s’il s’agit
de “multicorrélations cumulantes” ou non.
Lorsque ce n’est pas spécifié, on considère en général qu’il s’agit multi-
corrélations cumulantes, par défaut. A l’ordre r on définit par exemple:
CX,i1 i2 ..ir (t; τ2 , .., τr ) = C{Xi1 (t), Xi2 (t + τ2 ), ..., Xir (t + τr )}. (3.41)
Un processus réel à temps discret de dimension N , X(t), t ∈ ZZ , est dit

usuellement stationnaire (ou fortement stationnaire, ou stationnaire au sens
strict) si et seulement si l’ensemble des propriétés statistiques conjointes des
vecteurs [Xa1 (t1 + t), ..Xak (tk + t)] ne dépend pas de la date t, et ce pour
tout k ∈ IN , tout k-uplet (a1 , ..ak ), 1 ≤ aj ≤ N , et tout k-uplet (t1 , .., tk ),
tj ∈ ZZ . Cette définition est très forte et n’est pas toujours requise. Une
définition bien connue est celle de la stationnarité jusqu’au second ordre
(ou stationnarité au sens large, dite faible), qui requiert que la moyenne
µX = E{X(t)} et la fonction de corrélation CX,ij (τ ) = cum{Xi (t), Xj (t+τ )}
soient finies et qu’elles ne dépendent pas de la date t [175].
De la même manière, on peut définir la stationnarité à l’ordre r [85] [180]
[205] [89]:
Définition 3.2.1 Un processus réel à temps discret de dimension N , X(t),

t ∈ ZZ , est dit stationnaire à l’ordre r si et seulement si ses multicorré-
lations (corrélations cumulantes) CX,i1 i2 ..ir (τ2 , .., τr ) = cum{Xi1 (t), Xi2 (t +
τ2 ), ..., Xir (t + τr )} sont finies et ne dépendent pas de la date t.
Il est clair qu’un processus stationnaire (au sens strict) est stationnaire
à tous les ordres jusqu’à r si ses moments sont finis jusqu’à l’ordre r.
3.3 Cas complexe, multispectres

3.3.1 Définition et circularité
Une variable aléatoire complexe, comme l’a très justment souligné Fortet
[112], n’est rien d’autre qu’une variable aléatoire réelle de dimension 2. Ainsi,
28 CHAPITRE 3
une variable aléatoire complexe z admet une densité si et seulement si ses

parties réelle et imaginaire admettent une densité conjointe. On pourra
convenir de noter cette densité de façon compacte par pz (u), où u ∈ Cl .
De la même façon, on peut définir la fonction caractéristique d’une vari-
able complexe z. Si z = x + y, x ∈ IR N , y ∈ IR N , alors
def T v+y T w] †
Φz (u) = E{e[x } = E{e Re[z u] }, (3.42)
si u = v + w. Une propriété immédiate de cette notation compacte est que
ΦaZ (u) = ΦZ (a∗ u), (3.43)
pour tout scalaire complexe a. Nous avons par conséquent à notre disposition
les mêmes outils que dans le cas de variables réelles. Cependant, les variables
aléatoires complexes sont la plupart du temps obtenues par Transformée
de Fourier (TF) de données réelles, ce qui leur confère une structure très
particulière. Les variables aléatoires complexes obtenues de cette façon ne
sont donc pas de simples variables aléatoires à 2 composantes réelles, mais
des contraintes lient ces 2 composantes. C’est pourquoi il est pertinent
d’introduire les variables aléatoires dites circulaires.
Définition 3.3.1 Nous dirons qu’un vecteur aléatoire complexe de dimen-

sion N , Z, est circulaire (ou circulaire au sens fort), si et seulement si
ΦZ (au) = ΦZ (u), ∀a ∈ Cl , |a| = 1. (3.44)
En particulier, si Z admet une densité, Z est circulaire si Z eθ a même

densité de probabilité que Z.
Cette définition, proposée à l’origine dans [68] [17], est compatible avec
les définitions proposées dans le passé. En effet, elle entraine la proposition
suivante:
Proposition 3.3.2 Soit Z un vecteur aléatoire complexe, dont les moments

existent à tous les ordres. Alors Z est circulaire si et seulement si tous ses
moments de la forme:
∗bj
Ziai
Y Y
µpq = E{ Zj }
Σai =p Σbj =q
sont nuls dès que p 6= q.

Démonstration. Si Z est circulaire, alors les moments de Z et de

Z eα sont égaux, puisque toutes deux ont même loi. En particulier, l’égalité
µpq {Z} = µpq {Z eα } entraine que
µpq {Z} = µpq {Z} eα(p−q) ,
ce qui prouve la proposition.

La proposition 3.3.2 montre par exemple qu’une variable aléatoire
scalaire complexe circulaire vérifie E{Z} = 0, E{Z 2 } = 0, E{Z 2 Z ∗ } = 0...
En outre, d’après la proposition 3.3.2, les fonctions caractéristiques (et
la densité de probabilité quand elle existe) d’un vecteur aléatoire complexe
circulaire sont fonction uniquement de la variable matricielle u u†:
∃f / ΦZ (u) = f (uu†). (3.45)
Cette propriété peut être comparée à la définition des variables dites

sphériquement invariantes. D’après [174], de telles variables sont telles que:
∃f / ΦZ (u) = f (u†Cu)
où C est une matrice hermitienne définie positive. Autrement dit, avec ces
définitions, toute variable sphériquement invariante est circulaire, mais la
réciproque n’est pas vraie.
Dans la suite, nous aurons besoin de la définition restrictive suivante:
Définition 3.3.3 On dira qu’un vecteur aléatoire complexe Z est circulaire

à l’ordre r s’il verifie
∗bj
Ziai
Y Y
E{ Zj }=0 (3.46)
Σai =p Σbj =q
pour tout couple (p, q) d’entiers positifs tel que p + q ≤ r et p 6= q.
Notons que cette définition ne suppose pas nécessairement que les mo-
ments sont finis pour p = q.
Dans le cas gaussien, la circularité à l’ordre 2 entraine la circularité à
tous les ordres, et est caractérisée par deux propriétés liant les parties réelle
et imaginaire. En effet, posons Z = A + B. Si Z est circulaire, alors
E{ZZ T } = 0 implique que E{AAT −BB T } = 0 et que E{AB T +BAT } = 0.
Autrement dit, A et B ont même matrice de covariance, et leur covariance
30 CHAPITRE 3
croisée est antisymétrique. C’est ainsi qu’ont été définies les variables gaussi-
ennes complexes circulaires [201] [122].
Différentes définitions possibles de circularité ont été récemment passées
en revue, et analysées plus en profondeur dans [176]. On remarquera no-
tamment que la définition de la circularité conjointe des composantes d’un
vecteur aléatoire est une notion bien plus forte que la circularité marginale
de chacune de ses composantes.
3.3.2 Densités multispectrales

Dans cette section, nous rappelons quelques résultats classiques de théorie
du signal. Nous renvoyons aux ouvrages [85, ch. IX] [86, ch. VIII] [180, ch.
I] [175, ch. 6] [90, ch. E.II.2] [160] pour les démonstrations.
Il est connu (Herghotz, Cramér) que si X(t) est un processus à temps
discret de dimension N faiblement stationnaire, alors il existe une fonction
matricielle unique G(λ) à accroissements non négatifs telle que:
Z 1/2
G(−1/2) = 0, et C(τ ) = e2πτ λ dG(λ). (3.47)
−1/2
On convient d’appeler cette fonction G(λ) la répartition spectrale de puis-

sance de X(t), et dG(λ) la mesure spectrale associée (d’après le théorème
de Bochner, ce résultat s’applique d’ailleurs aussi aux processus à temps
continu s’ils sont continus en moyenne quadratique).
De même, si X(t) est stationnaire jusqu’à l’ordre r (cf définition 3.2.1),
alors il existe une fonction tensorielle G(λ2 , .., λr ) telle que:
G(−1/2, .., −1/2) = 0, (3.48)

Z 1/2 Z 1/2 Pr
C(τ2 , .., τr ) = .. e2π τ λ
k=2 k k dG(λ2 , .., λr ). (3.49)
−1/2 −1/2
La quantité dG(λ2 , .., λr ) est la mesure multispectrale de X(t). Remarquons

que cette écriture n’est autorisée que si dG est une distribution tempérée,
ce qui devrait être vérifé par ailleurs. Il se trouve que ce problème n’a été
curieusement jamais abordé dans la littérature. A. Blanc-Lapierre introduit
par exemple une condition d’appartenance du processus à une classe baptisée
Φ(∞), qu’il est difficile de vérifier [85, ch.X].
Le signal X(t) n’admet pas toujours de densité multispectrale d’ordre r.
Une condition suffisante pour qu’il en admette une est qu’il soit sommable à
l’ordre r, c’est à dire que X(t) soit stationnaire d’ordre r et que ses multi-
corrélations d’ordre r soient absolument sommables:
X
|Ca1 ..ar (u2 , .., ur )| < ∞. (3.50)
(u2 ,..,ur )∈ZZ r−1
Cette propriété assure que les multicorrélations d’ordre r tendent suf-

fisamment vite vers zéro pour justifier l’existence de leur transformée de
Fourier, les densités multispectrales fa1 ..ar (λ2 , .., λr ), qui sont alors contin-
ues. Ces dernières sont alors les différentielles d’ordre r de la fonction de
répartition spectrale. En outre, le processus X(t) sera dit mélangeant à
l’ordre r: plus les échantillons sont éloignés les uns des autres, plus ils sont
décorrélés à l’ordre r.
Les signaux aléatoires (faiblement stationnaires) eux-mêmes admettent
une représentation spectrale (représentation dite de Cramér) qui sera notée:
Z 1/2
X(t) = e2πtλ dZ(λ), (3.51)
−1/2
où le processus Z(λ) est un processus à accroissements orthogonaux, défini

par les relations:
Z(λ) = lim Z(T ; λ), λ ∈ [−1/2, 1/2] (3.52)

T →∞
Z λ T
X(t)e−2πty dy.
X
Z(T ; λ) = (3.53)
−1/2 t=−T
L’ensemble des définitions et propriétés essentielles que nous avons précisées

jusqu’à présent vont maintenant servir à l’établissement de la circularité des
variables spectrales.
3.3.3 Circularité des variables spectrales

Nous allons voir maintenant que les variables aléatoires complexes obtenues
par TF de signaux aléatoires à temps discret stationnaires sont circulaires.
Cependant, les signaux stationnaires n’admettent pas de transformée de
Fourier, même lorsqu’ils admettent une représentation spectrale [175, ch.
6.2]. Une façon classique de contourner le problème est de raisonner sur le
processus intégral Z(λ) introduit plus haut, ou sur ses accroissements dZ(λ).
32 CHAPITRE 3
Proposition 3.3.4 Soient X(t) un processus réel stationnaire jusqu’à

l’ordre r, r ≥ 2, et Z(λ) sa répartition spectrale. Alors pour tout k,
1 ≤ k ≤ r, et pour tout k-uplet (λ1 , .., λk ) de fréquences, λj ∈ [−1/2, 1/2],
les cumulants des accroissements spectraux s’écrivent:
X
cum{dZa1 (λ1 ), .., dZak (λk )} = δ1 ( λj ) dGa1 ..ak (λ2 , .., λk ), (3.54)
où δ1 désigne la distribution ”peigne de Dirac” de période 1, et dG la mesure

multispectrale de X(t).
Démonstration. Par définition de Z(λ), il vient que:
def
α = cum{Za1 (λ1 ), .., Zar (λr )} (3.55)
X XZ λ1 Z λr
= .. .. C12..r (t2 − t1 , .., tr − t1 )
t1 tr −1/2 −1/2
Pr
yk tk
e−2π k=1 dy1 ..dyr . (3.56)
Puisque X(t) est stationnaire à l’ordre r, on peut d’après (3.49) exprimer

ses multicorrélations en fonction de ses mesures multispectrales correspon-
dantes. D’où, en posant t1 = t:
X Z λ1 Z λr Z Z X
α = .. .. exp{−2π t(y1 + Σ uk )}
t2 ..tr −1/2 −1/2 t
r
X
exp{2π (uk − yk )tk } dG(u2 , .., ur )dy1 ..dyr . (3.57)
k=2
Or, la somme sur t ∈ ZZ de e2π tβ est égale à la distribution tempérée peigne

de Dirac de période 1, noté ici δ1 (β). Donc les r − 1 premières sommes dans
(3.57) valent δ1 (uk − yk ). Par conséquent, uk = yk et le cumulant calculé
devient:
Z λ1 Z λr r
X
α= .. dG(y2 , .., yr ) δ1 ( yk ). (3.58)
−1/2 −1/2 k=1
La proposition s’obtient alors par différentiation, grâce à la multilinéarité

des cumulants [160].
En corollaire, on peut établir la propriété de circularité suivante:
Proposition 3.3.5 Si en outre X(t) est sommable à tous les ordres jusqu’à
r, alors pour toute fréquence λ telle que |λ| < 1r , les vecteurs dZ(λ) sont
circulaires à l’ordre (p + q) = r. Autrement dit:
∗ ∗
E{dZn1 (λ)..dZnp (λ) dZm 1
(λ)..dZm q
(λ)} = 0
dès que p 6= q, 1 ≤ p, q ≤ r.
Notons que pour les processus à temps continu, la circularité décrite
ci-dessus serait toujours assurée, pourvu que les écritures (3.47) et (3.49)
soient autorisées (par exemple, lorsque les mesures multispectrales dG sont
absolument sommables). On peut le vérifier en constatant que si la fréquence
d’échantillonage tend vers l’infini, alors la condition sur la fréquence réduite
|λ| < 1r tend à être toujours vraie pour toute valeur λ finie.
Démonstration. Soit s un entier quelconque, s ∈ {1, 2, .., r}, et p et q
deux entiers positifs tels que p + q = s. Appliquons la proposition 3.3.4 avec
λ1 = λ2 = .. = λp = λ et λp+1 = λp+2 = .. = λp+q = −λ. La somme des
fréquences vaut λi = (p − q)λ. Si p 6= q, alors une condition suffisante
P
pour que (p − q)λ ne soit jamais entier est que 0 < (p + q)|λ| < 1. Le terme
P
δ1 ( λi ) est donc toujours nul sous les hypothèses de la présente proposition.
Comme X(t) est sommable à tous les ordres jusqu’à r = (p + q), il admet
une densité multispectrale d’ordre s définie par:
dGa1 a2 ..as (λ2 , .., λs ) = fa1 a2 ..as (λ2 , .., λs ) dλ2 ..dλs ,
où fa1 a2 ..as est finie. D’après la proposition 3.3.4, tous les cumulants de
dZ(λ) d’ordre s sont donc nuls, pour tous les ordres s inférieurs ou égaux à
r. Comme les moments sont fonctions polynômiales des cumulants, ils sont
par conséquent aussi tous nuls.
Nous renvoyons le lecteur à l’article récent de B. Picinbono [176] pour une
discussion plus complète, et en particulier sur les conditions de circularité
conjointe.
3.4 Propriétés des moments et cumulants

Les SOS jouissent tout d’abord de deux proprı́etés élémentaires que nous
exposons maintenant; la seconde n’est satisfaite que par les cumulants.
Proposition 3.4.1 Les moments et cumulants satisfont la propriété dite

de multilinéarité. Soient deux vecteurs aléatoires x et y liés par la relation
34 CHAPITRE 3
linéaire y = Ax, où A est une matrice quelconque. Alors les moments et
cumulants de y sont des fonctions formellement linéaires de chacune des
composantes Aij . Par exemple nous aurons:
X
C{yi , yj } = Aia Ajb C{xa , xb }, (3.59)
a,b
X
C{yi , yj , yk } = Aia Ajb Akc C{xa , xb , xc }, (3.60)
a,b,c
X
µ{yi , yj , yk } = Aia Ajb Akc µ{xa , xb , xc }, (3.61)
a,b,c
X
C(3) {yi } = Aia Aib Aic C{xa , xb , xc } . . . (3.62)
a,b,c
†
Démonstration. Il suffit de remarquer que ΦAx (u) = Φx (A u), d’après
(3.42). En passant à la variable aléatoire réelle de taille double, on peut
alors obtenir le résultat à l’aide de (3.31).
C’est grâce à la multilinéarité que les moments et cumulants méritent la
dénomination de tenseurs. Notons que cette propriété se réduit dans le cas
scalaire à une simple relation d’homogéneité:
C(r) {λ x} = λr C(r) {x}. (3.63)
Proposition 3.4.2 Les cumulants satisfont la propriété d’ additivité suiv-

ante. Si x et y sont des vecteurs aléatoires indépendants, alors:
C{x + y} = C{x} + C{y}. (3.64)
Démonstration. SI x et y sont indépendantes, alors px,y (u, v) =

px (u) py (v), d’où Φx,y (u, v) = Φx (u) Φy (v), et finalement Ψx,y (u, v) =
Ψx (u) + Ψy (v). Ceci prouve la proposition pour les variables réelles. Les
variables complexes de dimension N peuvent être traitées comme des vari-
ables aléatoires de dimension 2N .
Nous avons défini dans la section 3.1 l’opération de standardisation pour
les variables aléatoires scalaires. Cette opération peut aussi être définie dans
le cas multivariable. Soit x un vecteur aléatoire de matrice de covariance
Cij . Si la matrice C est inversible, alors la variable standardisée est définie
†
comme étant x̃ = R−1 x, où R est une matrice telle que RR = C. Noter que,
la matrice R n’étant pas unique, la variable standardisée n’est pas unique,
†
bien qu’ayant une covariance unité: C{x̃} = R−1 CR− = I. On convient
donc de choisir un procédé systématique pour calculer R, qui aura en outre
le mérite de fonctionner même lorsque C ne sera pas inversible.
Définition 3.4.3 Soient x un vecteur aléatoire de dimension N , C sa ma-

†
trice de covariance, et C = RS 2 R la décomposition en éléments propres
correspondante, où S est une matrice diagonale r × r à éléments strictement
† †
positifs, r ≤ N , et R une matrice vérifiant R R = I. Le vecteur x̃ = S −1 R x
est le vecteur standardisé associé à x.
Le vecteur x̃ est maintenant défini en général (càd si toutes ses valeurs

propres non nulles de C sont distinctes) à une matrice multiplicative près de
la forme ∆P , où ∆ est diagonale r × r et constituée d’éléments de module 1,
et P est une permutation. Le vecteur aléatoire x̃ a toujours une covariance
unité.
Les moments et cumulants satisfont un certain nombre d’inégalités re-
marquables qu’il est difficile de répertorier de façon exhaustive. La proposi-
tion ci-dessous en donne quelques-unes.
Proposition 3.4.4 Soit X un vecteur aléatoire réel d’ordre 4 et de dimen-

sion N . Alors ses cumulants standardisés γijkl = Kijkl {X} satisfont les
relations suivantes:
γiiii ≥ −2, (3.65)

γiijj ≥ −1, (3.66)
γiiii + 2γiiij ≥ −2, (3.67)
2
γiij ≤ γiiii + 2, (3.68)
2 2
γiij + γijj ≤ γiijj + 1. (3.69)
Démonstration. Si µijkl désignent les moments centrés de X, alors les

cumulants standardisés satisfont
γiiii = µiiii − 3, γiijj = µiijj − 1 si i 6= j
et γiiij = µiiij si i 6= j. D’après l’inégalité de Cauchy-Schwarz, toute variance

est positive, et en particulier var{Xi Xj +aXi +bXj } ≥ 0 quels que soient les
paramètres a et b. Si nous calculons cette variance en fonction des moments
centrés de X, nous obtenons donc un polynome de degré 2 en a et en b.
Pour a fixé, son discriminant est donc négatif, ce qui conduit à conclure
36 CHAPITRE 3
qu’un polynome en b est à son tour positif. La négativité de son discriminant

2 + γ2 ≤ γ
conduit finalement à la relation γiij ijj iijj + 1. De même, en étudiant
2
le signe de var{aXi + bXj }, on obtiendrait la relation γiij 2 ≤γ
iiii + 2.
Pour terminer, en étudiant le signe du polynome var{aXi2 +bXj2 +Xi Xj },
pour (a, b) ∈ IR ∪ {−∞, ∞}, on obtient l’inégalité suivante
a2 (γ1111 + 2) + b2 (γ2222 + 2) + (1 + 2ab)γ1122 + 2aγ1112 + 2bγ1222 + 1 ≥ 0.
dont les trois premières relations de la proposition sont des cas particuliers.
Exemple: Si pz (u) = 21 δ(u − 1) + 12 δ(u + 1), alors µ2r = 1 et µ2r+1 = 0.

Donc γ(4) = −2 et la borne est atteinte.
Théorème de la limite centrale par les SOE

Le théorème de la limite centrale a une grande importance car il permet
d’approximer la loi de certains estimateurs par la loi gaussienne, mais aussi
car il permet plus précisément d’accéder à l’ordre de grandeur de ses cumu-
lants successifs.
Proposition 3.4.5 Soient X(n), 1 ≤ n ≤ N , N variables aléatoires
scalaires indépendantes, chacune de cumuant d’ordre r borné, noté κr (n).
On pose
N N
1 X 1 X
κ̄r = κr (n) et Y = √ (X(n) − κ̄1 ).
N n=1 N n=1
Alors la variable aléatoire Y tend en loi vers une variable aléatoire gaussi-
enne. Plus précisément, ses cumulants d’ordre r, notés λr , sont donnés
par:
λ1 = 0, (3.70)
λ2 = κ̄2 , (3.71)
1
λr = κ̄r , ∀r ≥ 2. (3.72)
N r/2−1
Démonstration. En vertu de la propriété d’additivité (proposition 3.4.2),
les cumulants de la variable Y s’écrivent comme la somme:
N
C(r) {Y } = N −r/2
X
C(r) {X(n)},
n=1
ce qui prouve que λr = N 1−r/2 κ̄r par définition de κ̄r .

3.4.1 Liens entre SOE et densité de probabilité

a) Problème des moments
La première fonction caractéristique est la transformée de Fourier de la den-

sité de probabilité, éventuellement au sens des distributions si cette dernière
n’existe pas. Ceci suffit à montrer, au moins intuitivement, que les con-
traintes qui vont lier les moments sont très compliquées, et qu’elles ne peu-
vent certainement pas être décrites simplement comme on l’a exposé dans la
section 3.4, à l’aide d’inégalités de Schwarz. Ces contraintes découlent essen-
tiellement de la positivité de la mesure. Déjà, nous avons vu que l’existence
des moments n’est pas liée à celle de la densité, mais à la différentiabilité de
la fonction caractéristique au voisinage de l’origine (on sait déjà qu’elle est
continue partout). Plus précisément, si une fonction caractéristique admet
une différentielle d’ordre r à l’origine, alors tous les moments jusqu’à l’ordre
r existent si r est pair, mais jusqu’à l’ordre r − 1 si r est impair [152, p. 29].
Le premier théorème, dû à Marcinkiewicz (1940), dont Dugué donna
une démonstration plus simple en 1951, établit que si une variable aléatoire
possède un cumulant non nul d’ordre r > 2, alors elle en possède une infinité
[2] [178] [134] [152]:
Théorème 3.4.6 Si une fonction caractéristique est de la forme Φ(u) =

exp{P (u)}, où P (u) est un polynôme, alors ce polynôme est de degré au
plus 2.
En d’autres termes, la variable aléatoire est soit réduite à une constante, soit
gaussienne.
Le problème des moments est le problème inverse, en quelque sorte.

Etant donnée une suite de nombres, existe-il une densité qui les admette
pour cumulants (ou moments) ?
Sous certaines conditions, la suite infinie des moments peut définir la
fonction caractéristique de façon unique [134]. Mais on peut trouver des
exemples de densités ayant la même suite infinie de moments [152, p. 20].
Lorsqu’une suite finie de moments est donnée, s’il existe une solution, il y en
a en général plusieurs. On peut alors sélectionner une solution en maximisant
par exemple l’information de Fisher [204].
Notons que le problème des moments a également été étudié à l’ordre 2,
pour les processus stationnaires [146]. Il s’agit alors de compléter une suite
de valeurs de la fonction de corrélation, connue en un nombre fini de valeurs.
38 CHAPITRE 3
Connaissant les 4 premiers cumulants, il peut être intéressant sur le

plan pratique de connaitre une loi réaliste pouvant approximer celle des
observations. Le système de lois de Pearson permet de répondre à cette
préoccupation; en effet, il effectue une partition de l’ensemble des den-
sités, dont les 4 premiers moments sont finis, en différentes familles, suivant
les valeurs du couple asymétrie-kurtosis [138, vol.6, p.655–657] [138, vol.3,
p.216–219] [131, ch. 12]. Evidemment, le choix de cette solution a principale-
ment un intérêt pratique, mais n’est pas justifié par un critère d’optimalité,
contrairement à l’approche du problème des moments.
b) Queues de distribution
Une idée fausse consiste à croire qu’une densité ayant des queues de distribu-
tion en-dessous de la gaussienne aura nécessairement un kurtosis négatif, et
un kurtosis positif dans le cas contraire. En outre, la définition des lois sous-
et sur-gaussiennes est très versatile, suivant les articles techniques, comme
nous l’expliquons maintenant.
Benveniste propose notamment [83, page 390] une définition faisant in-
tervenir la monoticité de
1 d log px (u)
f (u) = − .
u du
Lorsque f (u) est strictement croissante (resp. décroissante), px (u) est dite
sur-gaussienne (resp. sous-gaussienne). Il est clair que certaines densités ne
seront ni l’une, ni l’autre.
En revanche, de nombreux auteurs qualifient de sur-gaussiennes les den-
sités ayant des queues de distribution supérieures à la densité gaussienne à
l’infini [204], et de sous-gaussiennes les autres. En réalité, A. Mansour a
montré par une simple application d’un théorème de la moyenne que cette
dernière définition est équivalente au signe du kurtosis (négatif pour les den-
sités sous-gaussiennes) si la partie paire de la densité coupe deux fois (càd
une fois sur [0 + ∞[) la densité gaussienne de mêmes moyenne et variance.
En revanche, des contre-exemples des deux types ont été donnés lorsque le
nombre d’intersections est différent de deux.
On retiendra donc qu’il existe au moins trois définitions du caractère
de sous- ou sur- gaussianité, et que ces dernières ne sont pas toujours
équivalentes.
3.5 Estimation des moments et cumulants

3.5.1 Les κ-statistiques
Si X est une variable aléatoire scalaire, et si x(n), 1 ≤ n ≤ N , sont
N réalisations de X identiquement distribuées, il est naturel d’estimer sa
moyenne statistique de X par la moyenne arithmétique de ses réalisations:
N
1 X
k(1) = x(n). (3.73)
N n=1
Il est facile de vérifier que k(1) est un estimateur non biaisé de µ′(1) . On pour-
rait être tenté de poursuivre aux ordres supérieurs en utilisant les moyennes
empiriques suivantes
N
1 X
m(r) = (x(n) − k(1) )r , (3.74)
N n=1
mais il s’avère que ces estimateurs sont en général biaisés. En effet, nous
avons par exemple, si les réalisations x(n) sont indépendantes:
N −1
E{m(2) } = µ(2) .
N
Un estimateur non biaisé de la variance de X est donc:
N
k(2) = m . (3.75)
N − 1 (2)
Ce procédé peut être poursuivi aux ordres supérieurs à 2 en cherchant les
coefficients αi,r tels que l’expression
r
X Y
k(r) = αi,r m(qi ) (3.76)
i=1 Σ qi =r
soit un estimateur non biaisé de C(r) {X}. Ainsi on trouverait:
N2
k(3) = m (3.77)
(N − 1)(N − 2) (3)
N2
k(4) = [ (N + 1) m(4) − 3 (N − 1) m2(2) ].
(3.78)
(N − 1)(N − 2)(N − 3)
40 CHAPITRE 3
Les quantités définies de cette façon sont communément appelées κ −

statistiques [136]. En ce qui concerne les cumulants standardisés, il n’existe
pas d’estimateur non biaisé qui soit indépendant de la distribution de X.
L’asymétrie et l’aplatissement, qui sont essentiellement les seules grandeurs
standardisées qui retiendront notre intérêt, seront estimées par les grandeurs
biaisées suivantes:
3/2
K(3) {X} : g(3) = k(3) / k(2) , (3.79)
2
K(4) {X} : g(4) = k(4) / k(2) . (3.80)
3.5.2 Premiers cumulants des κ-statistiques

Les cumulants successifs des estimateurs k(r) sont maintenant bien connus, et
leurs moments et cumulants successifs peuvent être calculés de façon exacte
[136] § 12.16. Pour alléger les écritures, notons les cumulants κ(r) = C(r) {X},
r/2
les moments standardisés β(r) = µ(r) /µ(2) , et les cumulants standardisés
γ(r) = K(r) {X}. On notera en particulier que (tooujours sous l’hypothèse
que les échantillons sont i.i.d.):
κ4 2 κ22
µ(2) {k(2) } = + , (3.81)
N N −1
κ6 9 (κ4 κ2 + κ23 ) 6N κ32
µ(2) {k(3) } = + + , (3.82)
N N −1 (N − 1)(N − 2)
κ8 (16 κ6 κ2 + 48 κ5 κ3 + 34 κ24 )
µ(2) {k(4) } = + +
N N −1
8N (9 κ4 κ22 + 18 κ23 κ2 ) 24N (N + 1) κ42
+ ;(3.83)
(N − 1)(N − 2) (N − 1)(N − 2)(N − 3)
et que, pour de grandes valeurs de N :

1
C(3) {k(2) } ≈ [κ6 + 12 κ4 κ2 + 4 κ23 + 8 κ32 ], (3.84)
N2
1
C(3) {k(3) } ≈ [κ9 + 27 (κ7 κ2 + 3 κ6 κ3 + 4 κ5 κ4 ) + 18 (12 κ5 κ22 + 45 κ4 κ3 κ2
N2
+14 κ33 + 30 κ3 κ32 ) ], (3.85)
1
C(4) {k(2) } ≈ [κ8 + 24 κ6 κ2 + 32 κ5 κ3 + 32 κ24 + 144 κ4 κ22 + 96 κ23 κ2
N3
+48 κ42 ]. (3.86)
En raison de leur longueur, les expressions des cumulants de k(4) ne sont

pas rapportées ici. Plus généralement, nous avons:
1
C(q) {k(r) } = O( ). (3.87)
N q−1
Les estimateurs k(r) sont par conséquent asymptotiquement gaussiens. Mais

si l’approximation gaussienne est assez vite valable pour κ(2) , il faudra
vraisemblablement atteindre des valeurs nettement plus grandes de N pour
qu’elle soit valable pour κ(3) et a fortiori κ(4) ; pour s’en assurer, il suffit
de consulter [136] pour constater que le coefficient du terme en 1/N q−1 est
généralement de plus en plus grand lorsque r augmente. Pourtant, certaines
distributions échappent à cette règle heuristique [87].
Par ailleurs, les propriétés statistiques des estimateurs standardisés g(r)
ont été étudiées seulement de façon approchée pour de grandes valeurs de N
[160] [138], en raison de leur complexité. On notera en particulier qu’ils sont
biaisés au premier ordre, et qu’ils sont corrélés (leur biais dépend d’ailleurs
des cumulants d’ordre plus élevé) [136, ex.10.26-27]. En effectuamt un
développement limité de la fonction de deux variables w(x, y) = x/y 3/2 ,
il est possible d’obtenir les expressions approchées (3.91) et (3.92):
1
E{g(3) } = β(3) + O( ), (3.88)
N
1
E{g(4) } = β(4) + O( ), (3.89)
N
1 1
µ(2) {g(3) } = [β − 6 β(4) + 9 + β(3) (9 β(4) + 35) − 3 β(5) β(3) ]
N (6) 4
1
+O( 2 ), (3.90)
N
1 1 2 11 2
µ(2) {g(3) } = [γ − 3 γ(3) γ(5) + 9 γ(4) (1 + γ(3) )− γ + 6]
N (6) 4 2 (3)
1
+O( 2 ), (3.91)
N
1 3 2
µ(2) {g(4) } = [β − 4 β(6) β(4) + 4 β(4) − β(4) + 16 β(4) β(3)
N (8)
1
−8 β(5) β(3) + 16 β(3) ] + O( 2 ). (3.92)
N
Exemple: Si X(n) sont des variables indépendantes uniformément dis-

tribuées dans [−aa], alors pour de grandes valeurs de N , la variance relative
42 CHAPITRE 3
du moment empirique d’ordre r vaut pour r pair:

V ar{k(r) } 1 r2
= .
µ2(r) N 2r + 1
3.5.3 Statistiques dans le cas gaussien

Dans le cas gaussien, un certain nombre de simplifications sont possibles car
tous les cumulants d’ordre supérieur à deux apparaissant dans les expressions
r/2
générales sont nuls. De plus, k(2) et k(r) /k(2) sont indépendantes. On obtient
notamment [136, §12.16, 12.18]:
2
µ(2) {k(2) } = κ2 , (3.93)
N −1 2
6N
µ(2) {k(3) } = κ3 , (3.94)
(N − 1)(N − 2) 2
24N (N + 1)
µ(2) {k(4) } = κ4 . (3.95)
(N − 1)(N − 2)(N − 3) 2
Cette dernière relation montre par exemple que la variance du cumulant
d’ordre 4 est en O( 24 4
N ). Dans le cas complexe circulaire, on trouverait O( N ).
En ce qui concerne les estimateurs de l’asymétrie et de l’aplatissement,
nous avons dans le cas gaussien des résultats exacts [136] ex. 12.9, 12.10, et
12.22, [160] p 108-109, [157]:
E{k3 }
E{g(3) } = 3/2
E{k2 }
= γ(3) = 0, (3.96)
E{k4 }
E{g(4) } =
E{k22 }
= γ(4) = 0, (3.97)
6N (N − 1)
µ(2) {g(3) } =
(N − 2)(N + 1)(N + 3)
6 1
≈ + O{ 2 }, (3.98)
N N
24N (N − 1)2
µ(2) {g(4) } =
(N − 3)(N − 2)(N + 3)(N + 5)
24 1
≈ + O{ 2 }. (3.99)
N N
Autrement dit, la variance du kurtosis (aplatissement) est du même ordre

que celle du cumulant d’odre 4 non standardisé.
On vérifie que les variances (3.98) et (3.99) peuvent être obtenues en
annulant les cumulants standardisés dans les expressions (3.91) et (3.92).
Il est aussi possible de calculer les cumulants standardisés des estimateurs
standardisés g(r) . En effet, on peut déduire de [157] que:
K(3) {g(3) } = 0, (3.100)

r
216 213 1
K(3) {g(4) } = − √ + o{ 2 }, (3.101)
N N N N
36 864 1
K(4) {g(3) } = − 2 + o{ 2 }, (3.102)
N N N
540 20 196 1
K(4) {g(4) } = − 2
+ o{ 2 }. (3.103)
N N N
Il est clair que pour N de l’ordre de 300 ou plus, l’aplatissement de
g(3) devient négligeable; en revanche, il faut atteindre des valeurs de N >
5000 pour avoir une approximation gaussienne acceptable pour g(4) . La
distribution exacte de g(3) et g(4) a été tabulée par Pearson et Hartley dans
les années 70. Par ailleurs, D’Agostino et Pearson [102] ainsi que Anscombe
et Glynn [78] donnent ces distributions pour des valeurs de N inférieures à
200.
Exemple: Si X(n) sont des variables gaussiennes indépendantes, toutes
de moyenne nulle et de variance σ 2 , alors le moment centré d’ordre 2r est
donné par:
σ 2r (2r)!
µ(2r) = ,
2r r!
et la variance relative du moment empirique correspondant est, pour de
grandes valeurs de N :
" #
V ar{k(2r) } 1 4r! r!2
2 = −1 .
µ(2r) N 2r!3
Un estimateur du cumulant d’ordre 4 a été proposé récemment par Am-

blard [76] , et n’a pas recours de manière explicite aux moments d’ordre 4, ce
qui peut être avantageux dans une implantation récursive. Cet estimateur
s’écrit, à la date t, si on dispose de l’estimation à la date précédente et des
observations x(t) et x(t − 1):

k(4),t = (1 − α) k(4),t−1 + α x(t)4 − 3x(t)2 x(t − 1)2 . (3.104)
44 CHAPITRE 3
3.5.4 Cas multivariable

Dans le cas de variables à plusieurs composantes, le principe mis en œuvre
est le même, bien que les notations soient nettement plus compliquées. Il
faut notamment faire appel à la convention de sommation d’Einstein, et à la
notation crochet de McCullagh. C’est pourquoi on se contente d’expressions
asymptotiques (pour de larges valeurs de N ). Toutefois, il existe aussi des
mécanismes dans le cas multivariable pour générer les κ-statistiques [160].
On citera, simplement à titre d’exemple, le cumulant d’ordre 3 de la
covariance estimée:
1 1
C(3) {κij , κkl , κmn } =
2
κijklmn + [12] κijkl κmn
N N (N − 1)
N −2 1
+[4] κijk κlmn + [8] κij κkl κmn . (3.105)
N (N − 1)2 (N − 1)2
3.5.5 Fonctions de multicorrélation

On définit habituellement l’estimation suivante de la fonction
d’autocorrélation (d’ordre 2) d’un processus x(t) scalaire stationnaire au
sens large:
N
1 X
Ĉ(2),x (τ ) = x(t) x(t + τ ). (3.106)
N t=1
Notons que pour N fini, cet estimateur n’utilise pas également toutes les
données. En pratique, on a aussi le choix entre deux autres estimateurs; le
premier est biaisé mais de type positif, et le deuxième non biaisé:
1 NX
−τ
Ĉ(2),x (τ ) = x(t) x(t + τ ), (3.107)
N t=1
N −τ
1 X
Ĉ(2),x (τ ) = x(t) x(t + τ ). (3.108)
N − τ t=1
Lorsque τ << N , les trois estimateurs sont équivalents.

La convergence (et la consistence) de ces estimateurs est une question
importante, qui est liée aux propriétés d’ergodicité du processus [137, sec.
47.7] [89, p. 41-43] [86, ch.15]. En appliquant le théorème ergodique à la
série chronologique x(t)x(t + τ ) à τ fixé, on pourrait étudier la convergence
p.s. (presque sûre) de l’estimateur de la fonction de corrélation. Cependant,
il peut être utile de se contenter d’une stationnarité plus faible, d’une part,
et de chercher à obtenir une consistence en moyenne quadratique (m.q.),

d’autre part. Rappelons que les convergences m.q. et p.s. ne sont pas
toujours comparables.
Nous savons qu’à l’ordre 2, la variance de la fonction d’autocorrélation
(3.106) est donnée par:
1 NX−1
V ar{Ĉ(2),x (τ )} = (N − s) C(4)x (s, τ, s + τ ) + (N − s) C2(2)x (s)
N 2 s=0
−s C2(2)x (τ ) + (N − s) C(2)x (s + τ ) C(2)x (s − τ ).(3.109)
Habituellement, on adopte d’ailleurs plutôt l’expression suivante, valable si

les C(r),x décroissent assez vite vers zéro:
1 NX
−1
V ar{Ĉ(2),x (τ )} ≈ C (s, τ, s + τ ) + C2(2)x (s) + C(2)x (s + τ ) C(2)x (s − τ ).
N s=0 (4)x
(3.110)
Pour que l’estimateur Ĉ(2),x (τ ) converge vers C(2),x (τ ) en moyenne quadra-
tique (consistence forte), il suffit que [123]:
1. x(t) admette des moments finis jusqu’à l’ordre 4,

2. x(t) soit stationnaire jusqu’à l’ordre 4,
1 PN 2
3. N u=1 C(2),x (u) → 0 si N → ∞
1 PN
4. N u=1 C(4),x (u, τ, u + τ ) → 0 si N → ∞
Notamment, il est suffisant que:

N N
C(2),x (u)2
X X
C(4),x (u, τ, u + τ ) et (3.111)
u=1 u=1
soient bornées quand N tend vers l’infini. Le processus X(t) doit donc être
mélangeant dans un sens voisin de celui défini en (3.50), si ces conditions
suffisantes sont adoptées.
Ceci s’étend sans mal au cas multivariable, en remplaçant les sommes
précédentes par:
N N
trace{Cx (u) Cx (u)T }.
X X
Cx,ijij (u, τ, u + τ ) et (3.112)
u=1 u=1
46 CHAPITRE 3
Des résultats similaires existent également pour les fonctions de

corrélation normalisées [179, p. 76] [137, ch.48]. Dans ce dernier cas, il
est plus difficile de construire un estimateur non biaisé, car le biais dépend
alors de la distribution.
Lorsque le processus X(t) est fortement mélangeant (i.e. la dépendance
entre le passé avant la date t = a et le futur après la date t = b tend vers
zéro lorsque b − a augmente), alors on peut montrer que les estimateurs de
C(2)x (τ ) sont asymptotiquement conjointement gaussiens [180, p. 117]. C’est
le cas des processus linéaires.
Pour les processus stationnaires à l’ordre r > 2, les fonctions de mul-
ticorrélation à l’ordre r se définissent comme à l’ordre 2, si on admet que
la durée d’intégration, T , est grande devant l’unité. Ainsi, la fonction de
multicorrélation cumulante d’ordre 3 d’un signal stationnaire jusqu’à l’ordre
3, x(t), peut être estimée par:
T
1 X
Ĉ(3),x (τ1 , τ2 ) = x(t) x(t + τ1 ) x(t + τ2 )). (3.113)
T t=1
Dans le cas multivariable, l’expression est similaire:
T
1 X
ĈX,ijk (τ1 , τ2 ) = Xi (t) Xj (t + τ1 ) Xk (t + τ2 )). (3.114)
T t=1
mais on devra faire appel au produit de Kronecker si on souhaite garder une
formulation compacte non indexée.
Des conditions suffisantes de consistence en m.q. peuvent être également
énoncées pour les multicorrélations en s’inspirant des résultats d’ergodicité
à l’ordre 2 [123] [89] [180] [121]. On aurait par exemple, pour la consistence
m.q. de la multicorrélation (3.113):
1. x(t) admet des moments finis jusqu’à l’ordre 6,
2. x(t) est stationnaire jusqu’à l’ordre 6,
1 PT −1
3. T s=0 µ(6),x (s, τ1 , τ2 , s + τ1 , s + τ2 ) → C2(3),x (τ1 , τ2 ) si T → ∞.
Le troisième point peut être traduit en une condition sur des séries de mul-
ticorrélations, comme pour l’ordre 2. Mais dans le cas présent, nous aurions
pas moins de 40 séries distinctes, l’une en C(6) , 15 en C(2) C(4) , 9 en C(3) C(3) , et
15 en C(2) C(2) C(2) . Ces expressions ne sont pas données ici, mais on pourra
les trouver dans [63].
L’extension au cas complexe de certains résultats asymptotiques peut
être trouvée dans [195].
Chapitre 4
Intervention des SOE dans

quelques problèmes
J’ai sélectionné trois aspects des SOE dans ce chapitre, en me basant bien
sûr sur des critères de convenance personnelle, mais aussi et surtout parce
que ces sujets sont d’actualité. Le premier concerne les tests de normalité. Il
est naturel d’aborder ce sujet en tout premier lieu puisque si les observations
sont gaussiennes, il n’y a pas lieu de recourir aux SOE. Le deuxième concerne
les mélanges linéaires de signaux, sujet qui a éveillé un intérêt croissant de
la part de la communauté scientifique ces cinq dernières années. Et enfin,
je pense qu’il est regrettable que l’aspect tensoriel des SOE ne soit que très
rarement évoqué dans les approches multivariables. Ce sujet est donc abordé
en dernier lieu.
4.1 Tests de gaussianité

Le test de normalité fait partie des tests d’hypothèse sans alternative.
Autrement dit, si on définit l’hypothèse H0 comme étant: “l’observation
est gaussienne”, nous n’avons rien d’autre à lui opposer que l’hypothèse
contraire, H̄0 . Ces tests de normalité sont parfois qualifiés d’omnibus [88]
[101].
Dans une telle situation, un seul paramètre permet d’ajuster la détection:
le niveau du test, ou erreur de première espèce, défini par:
α = P rob(choisir H̄0 /H0 vraie) (4.1)
47
48 CHAPITRE 4
Une autre conséquence est qu’il ne peut exister de détecteur optimal au sens
de la probabilité d’erreur, l’erreur de seconde espèce restant indéfinie.
Cette constatation est loin d’être anodine, car elle montre notamment
que les propriétés statistiques de la variable-test n’ont besoin d’être connues
que sous l’hypothèse H0 . Par exemple, si le kurtosis empirique est utilisé, il
sera suffisant de connaitre ses quantiles sous hypothèse gaussienne.
Il existe d’autres tests standard sans alternative. Citons à titre d’exemple
les tests de stationnarité, les tests de blancheur (plus ou moins forte) [99], les
tests de réversibilité temporelle de processus [181], ou bien encore les tests
de linéarité [127]. Le test de normalité est lié aux tests précédents dans le
sens où:
• un processus gaussien non stationnaire peut apparaitre comme étant

non gaussien s’il est supposé stationnaire;
• la plupart des tests de normalité supposent que les processus à tester

sont blancs au sens fort (échantillons indépendamment et identique-
ment distribués), ce qui est une de leurs principales limitations;
• tout processus gaussien est réversible, mais la réciproque n’est pas

vraie;
• tout processus gaussien est linéaire, mais il existe des processus

linéaires non gaussiens.
On distingue principalement deux familles de tests de normalité: les

tests scalaires et les tests vectoriels. Les premiers testent la normalité
marginale des échantillons, et les derniers la normalité conjointe de plusieurs
échantillons (par exemple consécutifs). Il est clair que la normalité conjointe
entraine la normalité marginale, mais la réciproque n’est pas vraie.
Le fait de tester la normalité conjointe d’un nombre (forcément) limité
d’échantillons entraine un biais dans la décision, dans le sens évidemment
où la décision “gaussien” sera prise trop souvent. A contrario, l’hypothèse
d’indépendance des échantillons (blancheur forte) entraine malheureusement
un biais en sens inverse, de sorte qu’on ne sera pas en mesure d’obtenir des
réponses fiables ni dans un sens ni dans l’autre.
C’est pourquoi un de nos travaux récents a consisté à développer un test
vectoriel capable de s’affranchir de cette hypothèse de blancheur. Avant de
décrire comment ce test a été construit, il est pertinent de passer en revue
un certain nombre de tests connus.
INTERVENTION DES SOE DANS QUELQUES PROBLÈMES 49
4.1.1 Les tests existants

En reprenant la distinction scalaire/vectoriel précisée plus haut, on peut
dresser un historique des tests les plus représentatifs. L’ensemble des tests
est résumé dans le tableau 4.1.
a) Tests scalaires
1. Test du Chi-deux (1922): Si l’existence de la distribution dite “Chi-
deux” remonte à 1838 avec les travaux de Bienaymé (1852 pour la loi
du χ2 à n degrés de liberté), son utilisation pour les tests d’ajustement
de lois n’a pu voir le jour qu’avec la preuve de la convergence asym-
totique du rapport de vraisemblance vers une variable du Chi-deux,
preuve attribuée à Fisher en 1922. Dans ce rapport de vraisemblance,
la densité des observations est remplacée par un histogramme calculé
à partir d’intervalles de longueur prédéterminée. Notons que la con-
vergence du rapport de vraisemblance vers une loi du Chi-deux pour
des problèmes de détection plus généraux que l’ajustement de loi n’a
été prouvée que plus tard par Wilks (1938) et Wald (1943).
2. Geary (1935): Geary propose comme variable test le rapport p entre E|x|
estimée et l’écart-type empirique σ̂; cette quantité vaut 2/π dans le
cas gaussien.
3. Kolmogorov-Smirnov (1948): Le test de Kolmogorov est basé sur la
statistique d’ordre 1 de l’échantillon observé. La variable test est la
distance L∞ entre les fonctions de répartition estimées. Kolmogorov
donne en 1933 l’expression analytique de la distribution asymptotique
de cette variable test (sous forme d’une série); Smirnov ne la tabule
qu’en 1948, date à laquelle son utilisation devient possible.
4. Pearson-Hartley (1962): Récapitulation sous forme de tables des quan-
tiles de toutes les variables tests usuelles. En particulier, tables pour
l’aplatissement (kurtosis) estimé pour divers temps d’intégration [172].
5. Shapiro-Wilk (1965): Ici la variable test est le rapport entre le carré
de l’estimation linéaire de σ à partir de la statistique d’ordre d’ordre
n et la variance empirique. Les coefficients de cet estimateur linéaire
sont tabulés pour différentes longueurs d’échantillon et différents ordres
d’estimateur [187].
6. Lilliefors (1967): Lilliefors modifie les tables de Smirnov pour permet-
tre l’application du test de Kolmogorov au cas composite (moyenne et
50 CHAPITRE 4
variance de la loi gaussienne la plus proche inconnues).

7. Un test du même genre que celui de Shapiro et Wilk a été proposé par
D’Agostino et al en 1971 [101]. L’obectif est toujours surtout les petits
échantillons (de l’ordre de 50 ou 100).
8. Test du Chi-deux de Moore (1971): Le test du Chi-deux décrit plus
haut a été sensiblement amélioré par Moore pour permettre son ap-
plication lorsque l’histogramme des observations est calculé avec des
cellules variables [161]. En outre, la solution qu’il a proposée est ap-
plicable en dimension supérieure à 1.
9. D’Agostino-Pearson (1973): Ce n’est qu’en 1973 que l’on voit proposer
les cumulants standardisés comme test de normalité composites: ce
sont les tests de l’asymétrie (ordre 3) et de l’aplatissement (ordre 4).
La combinaison de ces deux variables en vue de la construction d’une
variable test unique plus robuste est proposée en 1977 par les mêmes
auteurs [102]. Voir aussi [171].
10. Stephens (1974) propose une nouvelle amélioration à la table des quan-
tiles du test de Kolmogorov-Smirnov [193].
11. Gasser (1975) : Tests de l’asymétrie et de l’aplatissement pour des
signaux colorés; variance et normalité asymptotiques [116].
12. Vasicek (1976): La densité gaussienne est celle des densités à support
réel qui a la plus grande entropie. Le test est basé sur une estimation de
l’entropie. Si la variable test atteint la borne gaussienne (connue) avec
une tolérance acceptable, l’hypothèse gaussienne est acceptée [200].
13. Saniga-Miles (1979): En tant que tests scalaires sur des échantillons de
taille supérieure à 50, l’ordre préférentiel est le suivant: Aplatissement,
Asymétrie, d’Agostino, et enfin Shapiro-Wilk (peu utilisable sur des
échantillons de taille supérieure à 100 d’après les auteurs) [184].
14. Mardia (1980) : L’auteur fait dans [157] une synthèse assez complète
des tests de normalité scalaires, et il en recense plus de cinquante.
15. Lin-Mudholkar (1980): Parmi les nombreux tests de normalité
ultérieurs, mentionnons le “Z-test”. Ce dernier est basé sur un
théorème prouvé par Cramér dans les années 40 disant que la
moyenne empirique m̂ et la variance empririque σ̂ 2 sont statistique-
ment indépendantes si et seulement si l’échantillon est gaussien. Lin
et Mudholkar ont donc proposé un test basé sur la corrélation entre
entre µ̂ et σ̂ 2 [149].
16. Moore (1982): La coloration du processus entraine une perte apparente

de normalité dans les tests scalaires [162].
17. Hinich (1982): Test de normalité et de linéarité basé sur le bispec-
tre. Permet de s’affranchir de la coloration, mais nécessite de très
longs temps d’intégration [127]. Ne fonctionne que pour des signaux
dissymétriquement distribués.
18. Anscombe-Glynn (1983): Autre méthode d’approximation de la den-
sité de l’aplatissement estimé; la dernière approche en date était celle
de [102].
19. Dallal-Wilkinson (1986): Nouvelle amélioration du calcul des quantiles
dans le test de Kolmogorov-Smirnov [103].
20. Fukunaga-Flick (1986) : Utilisation d’une propriété indirecte des vari-
ables normales: le produit de deux densités gaussiennes est une gaussi-
enne [113].
Remarques. D’après Stephens [193], le test du Chi-deux est moins per-

formant que le test de Kolmogorov. De plus, il semble spécialement sensible
à la dépendance des échantillons [162].
Les tests basés sur l’asymétrie ou l’aplatissement semblent très attractifs
pour des durées d’intégration considérées comme élevées (N > 1000), alors
qu’ils sont moins performants pour des échantillons petits (N ≤ 100) [184].
D’autres tests, comme celui de D’Agostino [101], ou celui de Shapiro et Wilk
[187], sont au contraire adaptés à des échantillons que nous qualifions de
courts (càd N de l’ordre de 100) [171]. Le test du Chi-deux est reconnu
comme étant moins puissant que le test de Kolmogorov [193], et que les
autres tests d’ajustement [184].
D’autres façons de tester la gaussianité consistent à tester des propriétés
(nécessaires et suffisantes) que doivent satisfaire les observations pour être
gaussiennes. Nous en avons vu un exemple avec le test de Lin et Mud-
holkar, qui était basé sur le théorème de Cramér. Un autre test consisterait
à mélanger linéairement deux voies, et à essayer de les séparer par ACI
(Analyse en Composantes Indépendantes); ce test serait alors bassé sur le
théorème de Darmois [43]. Ce dernier test ne présentrait pas grand intérêt,
compte tenu de la difficulté que présenterait l’évaluation de son niveau.
Si le but du test de normalité est de déceler des différences décisives
entre le bruit et le signal, il peut être plus approprié de mesurer l’écart
entre les densités (ou fonctions de répartition) empiriques d’une voie bruit
52 CHAPITRE 4
et d’une voie signal. Le problème n’est donc plus un test de normalité

mais un test différentiel de statistiques (une sorte de test d’homogéneité). Il
existe d’ailleurs un test différentiel proposé par Smirnov. On peut également
essayer de développer une distribution en série autour de l’autre, ce qui
donnerait naissance à des cumulants centrés autour du bruit, et non autour
de la loi normale. Bien que très séduisante, la faisabilité de cette seconde
approche reste malheureusement encore à prouver.
Comme nous l’avons dit plus haut, une des limitations essentielles des
tests est due à la dépendance des échantillons, qui introduit un biais dans les
valeurs des seuils. C’est le même phénomène que celui observé pour le test
du Chi-deux par Moore en 1982 [162]. L’influence de cette dépendance sur
les tests d’asymétrie et d’aplatissement a été analysée par Gasser dans [116].
Ce problème se rencontre malheureusement aussi dans les tests vectoriels
(cf. section b)).
b) Tests vectoriels
Il y a comparativement beaucoup moins de tests vectoriels de normalité.
Nous avons relevé les tests suivants:
1. Mardia (1970) : Une première extension des tests scalaires, simple mais
peu puissante, aux dimensions supérieures à 1 consiste à projeter les
observations sur une droite arbitraire.
2. Mardia a proposé comme définition de l’aplatissement l’espérance
mathématique du module à la puissance 4 des mesures standardisées,
E{ρ4n } [155]. Par construction, ce test est invariant par transformation
affine. D’autres tests multivariables sont possibles [157].
3. Andrews et al (1973) : Les auteurs abordent surtout le cas de la dimen-
sion 2. Ils proposent de calculer le module carré ρ2n et l’angle polaire θn
def −1/2
des échantillons standardisés yn = Vx (xn − x̄n ). Alors sous H0 , ρ2n
suit approximativement une loi du Chi-deux à deux degrés de liberté,
et θn suit une loi uniforme [77].
Cette idée s’étend pour le module carré en dimension quelconque p > 2,
puisqu’alors ρ2n suit approximativement une loi du Chi-deux à p degré
de liberté; mais seul un des p − 1 angles est uniformément distribué
[157, page 314].
4. Hinich (1982) : Le test de normalité est un cas particulier du test de
linéarité, comme nous l’avons déjà souligné. Hinich est à l’origine du
Temps/ Indépendants/ Scalaire/

Fréquence Dépendants Vectoriel
Fisher’22 T I S
Geary’35 T I S
Kolmogorov-Smirnov’48 T I S
Pearson-Hartley T I S
Shapiro-Wolk’65 T I S
Lilliefors’67 T I S
Mardia’70 T I V
d’Agostino’71 T I S
Moore’71 T I S
d’Agostino-Pearson’73 T I S
Andrews-et al’73 T I V
Stephens’74 T I S
Gasser’75 T D S
Vasicek’76 T I S
Saniga-Miles’79 T I S
Mardia’80 T I S
Lin-Mudholkar’80 T I S
Rao-Gabr’80 F D V
Moore’82 T D S
Hinich’82 F D V
Anscombe-Glynn’83 T I S
Mardia-Foster’83 T I V
Mardia-Kanazawa’83 T I V
Dallal-Wilkinson’86 T I S
Fukunaga-Flick’86 T I S
Csorgo’86 T I V
Epps’87 T D V
DalleMolle-Hinich’89 F D V
Steinberg-Zeitouni’92 T I V
Moulines-et al’93 T D V
Giannakis-Tsatsanis’94 T D V
Tugnait’94 F D V
Comon-Deruaz’95 T D V
Table 4.1: Synoptique des principaux tests

54 CHAPITRE 4
premier test de linéarité de processus. Le test proposé est basé sur le

bispectre des observations: il est constant si le processus est linéaire,
et cette constante est nulle si le processus est gaussien.
5. Mardia - Foster (1983) : Les auteurs reprennent les propriétés aux
ordres 1 et 2 de l’aplatissement vectoriel défini par Mardia en 1970,
et établies en 1974. En outre, ils calculent le moment croisé entre
l’asymétrie et l’aplatissement vectoriels pour des échantillons finis sous
H0 . [158]. On remarquera par exemple que les estimateurs sont biaisés,
mais consistants.
6. Mardia - Kanazawa (1983) : Il est proposé d’approximer la distribution
de l’aplatissement vectoriel empirique par une loi du Chi-deux. Le
moment d’ordre 3 de cet aplatissement est évalué analytiquement à
cet effet [159].
7. Csörgö (1986) : Test de normalité basé sur la fonction caractéristique
empirique. Le test suppose des échantillons indépendants [100].
8. Epps (1987) : Technique basée sur l’écart entre des statistiques em-
piriques et leur valeur exacte sous H0 . Comme dans [100], les hy-
pothèses composites sont traitées (i.e. moyenne et variance inconnues).
La fonction caractéristique est un des exemples possibles de statistique
[106].
9. Steinberg - Zeitouni (1992) : Test basé sur l’écart entre l’entropie
empirique sous hypothèse gaussienne (calculée à partir du spectre),
et l’entropie du processus estimée de façon moins restrictive [192].
L’intérêt pratique de ce test reste à montrer expérimentalement,
compte tenu de la complexité des expressions intervenant dans le calcul
de cette entropie
10. Moulines et al (1992) adoptent d’abord une approche inspirée de Epps
[106], basée sur une mesure de déviation de la fonction caractéristique
[166].
Ils proposent ensuite un autre test sans doute plus intéressant,
procédant comme suit. On construit un processus ŝ(t) à partir du
processus à tester, x(t). L’opération consiste à tester si la moyenne
de ŝ(t) est égale à sa moyenne sous H0 , s0 . On pensera notamment à
incorporer dans ŝ(t) des puissances de x(t). La difficulté réside dans
le calcul de la variance A de ŝ(t) − s0 . La variable-test utilisée sera
Q = N (ŝ − s0 )T A−1 (ŝ − s0 ), qui suit asymptotiquement une loi du χ2 .
11. Giannakis et Tsatsanis (1994) : Ces auteurs proposent de tester la

nullité d’un ensemble de p valeurs de la fonction de bi- ou de tri-
corrélation [121], rangées dans un vecteur Z. Pour évaluer le niveau
du test, ils supposent que son estimation Ẑ est approximativement
gaussienne (limite asymptotique) et testent la variable standardisée
Q = N Ẑ T A−1 Ẑ, qui suit une loi du χ2 à p degrés de liberté. Cepen-
dant, la variance A de Ẑ doit être estimée, ce qui aura pour effet de
diminuer le nombre de degrés de liberté de Q, du fait que Â et Ẑ seront
corrélés, ce qui n’a pas été pris en compte.
12. Tugnait (1994) : Le test est basé sur une forme partiellement intégrée
du bispectre ou du trispectre [199]. L’avantage par rapport au test de
Hinich réside dans une réduction du coût calcul.
4.1.2 Statistiques du kurtosis multivariable

Le test qui nous semble posséder le meilleur compromis entre complexité de
calcul et niveau est celui du kurtosis multivariable [157]. Cependant, ses
quantiles n’ont été évalués sous H0 que dans le cas i.i.d., comme nous allons
le voir ci-après (section a)). C’est pourquoi nous avons poursuivi une étude
plus approfondie de ce test, dans le cas d’échantillons colorés (section b)).
a) Cas i.i.d.
On suppose que les observations sont des vecteurs X(n), 1 ≤ n ≤ N , chacun
de dimension p, et que la suite des X(n) est stationnaire au second ordre,
de moyenne zéro et de covariance S. En outre dans cette section, on admet
qu’ils sont statistiquement indépendants, ce qui n’est évidemment quasiment
jamais vérifié en pratique.
Le kurtosis multivariable de Mardia est une contraction du moment stan-
dardisé, définie par:
N
1 X 2
Bp (N ) = X(n)T S −1 X(n) , (4.2)
N n=1
Si on note K̂ le tenseur moment centré d’ordre 4, et G l’inverse de la

matrice de covariance S, alors l’écriture suivante est équivalente:
p
X
Bp (N ) = K̂ijkl Gij Gkl , (4.3)
i,j,k,l=1
56 CHAPITRE 4
En pratique, la covariance S doit être remplacé par une estimée Ŝ,

corrélée avec les données X(n), et la variable test devra être notée B̂p (N ).
Dans le cas i.i.d. qui nous occupe dans cette section, les trois premiers
moments de ce kurtosis multivariable sont, sous l’hypothèse H0 :
N −1
µ1,B = E{B̂p (N )} = p(p + 2) ,
N +1
8p(p + 2)
µ2,B = Var{B̂p (N )} = + o(N −2 ), (4.4)
N
p(p + 2)(p + 8)
µ3,B = 64 + o(N −3 ).
N2
Ceci montre en particulier que pour N assez grand devant p (par exemple
N = 1000 et p = 2), B̂p (N ) peut être assimilée à une variable gaussienne.
Evidemment, la normalité asymptotique de telles variables est connue [157]
[136, ch.12], mais il est utile de savoir à partir de quelle valeur de N cette
approximation est applicable sur le plan pratique.
Nous n’avons pas repris ces calculs dans le cas où Bp (N ) serait con-
struit sur le tenseur cumulant, mais il semble qu’en première évaluation, les
résultats ne changent pas au second ordre. Dans la suite on conservera la
définition construite sur le tenseur moment, afin de pouvoir effectuer des
comparaisons.
b) Cas coloré
Considérons à présent notre problème original, et notons x(t) le processus à
tester, 1 ≤ t ≤ N . Le test vectoriel portera sur la normalité conjointe d’un
nombre limité p d’échantillons. Pour ce faire, on construit le vecteur X(n)
suivant:
x(n ∆ + 1)
 
X(n) =  ..
, 1 ≤ ∆ << N. (4.5)
 
.
x(n ∆ + p)
Le paramètre ∆ est fixé et permet d’ajuster un recouvrement éventuel.
Evidemment, les vecteurs X(n) ne sont indépendants que si ∆ − p est
supérieur à la durée de corrélation du procesus x(t). Or, il n’est pas tou-
jours possible de faire en sorte que ce soit vrai, notamment si on désire
1000 réalisations identiquement distribuées, compte-tenu de la durée de sta-
tionnarité du processus. On se propose donc de calculer la moyenne et la
variance de la variable test:

p
X
B̂p (N ) = K̂ijkl Ĝij Ĝkl
i,j,k,l=1
sous ces nouvelles conditions, pour de grandes valeurs de N (i.e. N grand

devant p).
Limites de l’approximation. On pose δ = Ŝ − S et ε = K̂ − K. La

variance de ces quantités est de l’ordre de N −1 . En effet, sous l’hypothèse
H0 , on obtient en utilisant la notation de McCullagh [160]:
N
1X
Cov{Ŝab , Ŝcd } = 2
([3]Ran bn Rcm dm − Ran bn Rcm dm ) ,
Nm,n=1
N
1 X
Cov{K̂abcd , K̂ef gh } = ([105]Ran bn Rcn dn Rem fm Rgm hm
N m,n=1
−[3]Ran bn Rcn dn · [3]Rem fm Rgm hm ) .
def
où Rin jm = E{Xi (n)Xj (m)} = C(n−m)∆+i−j si Cτ désigne la fonction
d’autocorrélation du processus x(t). On peut aussi vérifier que la covari-
ance croisée est aussi du même ordre.
Dans le cas scalaire, ces résultats se simplifient:
N
Var{Ŝ} 2 X k02 (n − m)
= , (4.6)
S2 N 2 m,n=1 C02
N
" #
Var{K̂} 8 X k02 (n − m) 1 k02 (n − m)
= 1 + , (4.7)
K2 N 2 m,n=1 C02 3 C02
où on a noté k0 (s) = Cs∆ , pour alléger les écritures ultérieures. En partic-
ulier dans le cas i.i.d., on retrouve des résultats plus familiers:
Var{Ŝ} 2 Var{K̂} 32
2
= , 2
= . (4.8)
S N K 3N
On supposera dans la suite que ces variances sont petites, ce qui nécessite
que la corrélation Cτ décroisse suffisamment vite vers zéro. En d’autres
termes, il faut que le spectre de x(t) soit lisse et à large support.
58 CHAPITRE 4
Développement à l’ordre 2. Développons la matrice Ĝ au second ordre

en δ:
Ĝ = G − GδG + GδGδG + O(δ3 ). (4.9)
Le kurtosis multivariable (4.3) peut alors être approximé de la façon suivante,
après quelques manipulations:
XX 1
B̂p = Bp + εabcd Gab Gcd
abcd ijkl
p4
2
− Kabcd Gab Gci δij Gjd
p2
2
− 2 εabcd Gab Gci δij Gjd
p
+Kabcd Gai δij Gjb Gck δkl Gld
+2Kabcd Gcb Gai δij Gjk δkl Gld + o(N −1 ). (4.10)
Cette expression nous permet maintenant de calculer la moyenne et la

variance de B̂p (N ), à l’ordre deux en N −1 :
XX 2
E{B̂p } = Bp + − Gab Gci Gjd E{εabcd δij }
abcd ijkl
p2
+Kabcd Gai Gld E{δij δkl }(Gjb Gck + 2Gcb Gjk ) + o(N −1 ). (4.11)
et
X X 1
Var{B̂p } = + Gab Gcd Gef Ggh E{εabcd εef gh }
abcd ijkl
p4
ef gh
4
− Kef gh Gab Gcd Gef Ggi Gjh E{εabcd δij }
p2
+4Kabcd Kef gh Gab Gci Gjd Gef Ggk Glh E{δij δkl } + o(N −1 ). (4.12)
A titre illustratif, on peut en déduire dans le cas scalaire (coloré) les

expressions suivantes, que l’on peut vérifier par ailleurs par un calcul direct:
2 3K
E{B̂1 } ≈ B1 − 3
E{εδ} + 4 E{δ2 }, (4.13)
S S
E{ε2 } 4K 2 4K
Var{B̂1 } ≈ 4
+ 6 E{δ2 } − 5 E{εδ}. (4.14)
S S S
Mais les expressions obtenues jusqu’à présent sont génériques, et il con-

vient de les traduire en fonction uniquement des moments d’ordre 2, puisque
nous sommes sous l’hypothèse H0 , et en tenant compte de la form partic-
ulière (4.5) du vecteur X(n).
Statistiques avec la covariance exacte. Si la covariance S était connue,

il serait inutile de développer G au second ordre comme nous l’avons fait
plus haut en préliminaires. Le biais serait alors nul, la moyenne valant alors
p(p + 2), et la variance s’obtiendrait en développant simplement K̂ − K en
fonction de Cτ . En réalité ce calcul s’est avéré extrêmement compliqué. En
outre, nous savons que la variable Bp (N ) aura une variance nécessairement
plus grande que B̂p (N ), puisque Ŝ et K̂ sont corrélées (résultat général sur
les variables-test studentisées).
Cependant, ce calcul a malgré tout été mené à terme, avec le recours à
Maple pour de multiples vérifications. Nous avons obtenu:
1 NX
−1
" #
48 k2 (s) k2 (s)
Var{B1 (N )} = 2+ (N − s) 0 2 (3 + 0 2 ) , (4.15)
N N s=1 C0 C0
" PN −1 #
16 1 s=1 (N − s)q0 (s)
Var{B2 (N )} = 20 + . (4.16)
N N (C02 − C12 )4
avec, en ayant adopté la notation compacte ki ≡ ki (s) ≡ Cs∆+i :

h
q0 (s) = q2 (s) + 16(C02 − C12 )2 (2k02 + k12 + k−1
2
)C02 − 4k0 (k1 + k−1 )C0 C1
i
+2(k02 + k1 k−1 )C12 , (4.17)
où q2 (s) est donnée en (4.23). Il n’est pas possible de présenter par écrit les
résultats pour p ≥ 3 en raison de leur longueur.
Statistiques avec la covariance estimée. En réalité, il faut considérer le

cas où la covariance S est estimée par la covariance empirique Ŝ. A présent,
il faut exprimer non seulement G et K en fonction de Cτ , mais aussi les
moments d’ordre 2 du couple (ε, δ). On garde la notation ki (s) ≡ Cs∆+i
pour alléger les écritures.
Pour p = 1, nous obtenons après de longs calculs assités par Maple:
4 NX
−1
" #
2 k2 (s)
E{B̂1 } = 3 1 − − 2 (N − s) 0 2 , (4.18)
N N s=1 C0
60 CHAPITRE 4
2 NX
−1
" #
24 k4 (s)
Var{B̂1 } = 1+ (N − s) 0 4 . (4.19)
N N s=1 C0
On peut vérifier que dans le cas i.i.d., la moyenne est bien de −6/N et la
variance de 24/N , ce qui est conforme aux résultats classiques en la matière
[138, vol.5, page 219], [156].
Le cas p = 2 est aussi intéresant à présenter, et doit sa (relative) sim-
plicité au fait que la matice inverse G s’exprime encore assez simplement en
fonction des éléments de S. Nous obtenons:
" PN −1 #
4 1 s=1(N − s)q1 (s)
E{B̂2 } = 4 2 − − 2 , (4.20)
N N (C02 − C12 )2
" PN −1 #
16 1 s=1(N − s)q2 (s)
Var{B̂2 } = 4+ , (4.21)
N N (C02 − C12 )4
où les fonction q1 (s) et q2 (s) sont définies par:

h i h i
q1 (s) = (k1 + k−1 )2 + 8 k02 C02 −12 k0 (k1 +k−1 )C1 C0 +2 (k1 + k−1 )2 + 2k02 C12 ,
(4.22)
h i
q2 (s) = 8(k02 − k1 k−1 )2 + 3(k12 + k−1
2 2
) + 12k02 (k1 − k−1 )2 C04
h i
+ 4 8k04 + 3(5k02 + k1 k−1 )(k1 + k−1 )2 − 4k−1 k1 (k02 + k1 k−1 ) C02 C12

2
+ 8 k−1 k12 + k04 + 4 k02 k1 k−1 C14
h i
− 24 k0 (k−1 + k1 ) (k12 + k−1
2
+ 2 k02 )C02 + 2 (k−1 k1 + k02 )C12 C0 C(4.23)
1,
4.1.3 Résultats sur signaux

Le test de normalité décrit précédemment a été appliqué à des signaux
synthétiques, et à des signaux réels d’acoustique sous-marine. Nous en re-
portons ci-après un extrait. Dans chacun des jeux d’essais, tous les tests ont
utilisé la même estimatin de la fonction d’autocorrélation Cτ pour chaque p
fixé, si bien que seules les estimations de la moyenne et de la variance de la
variable-test sont différentes. On a choisi ∆ = p dans tous les tests.
La table 4.2 presente les valeurs obtenues pour le rapport:
B − E{B}
t= , (4.24)
V ar{B}1/2
Test B̂1,iid Bp B̂p

Dim. p 1 1 2 1 2
Formule (4.4) (4.15) (4.16) (4.19) (4.21)
Gaussien
iid -0.165 -0.089 0.275 -0.165 0.643
MA(1) 0.248 0.115 0.251 0.249 0.598
MA(9) -0.255 -0.062 0.043 -0.117 0.121
AR(2) -0.106 -0.027 -0.139 -0.029 -0.279
Uniforme
iid -24.79 -12.39 -9.655 -24.79 -21.59
MA(1) -22.86 -11.18 -9.191 -22.84 -20.79
MA(9) -2.722 -0.666 -5.182 -1.620 -11.24
AR(2) -2.252 -0.494 -1.281 -1.283 -2.859
M er
mer201 -1.067 -0.193 1.433 -0.630 3.197
mer202 1.661 0.355 2.009 1.339 4.613
mer204 1.482 0.281 1.591 1.154 3.666
mer205 1.866 0.340 7.074 1.316 15.59
Table 4.2: Valeurs du rapport t.
lorsque B désigne soit B̂p soit Bp . Les formules ayant servi à estimer la
moyenne et la variance sont rappelées en haut de chaque colonne.
Rappelons qu’asymptotiquement, t = ±1.960 correspond à une proba-
bilité de détection de 95% (niveau 5%), et t = ±1.645 à 90% (niveau 10%).
Les échantillons étaient de taille N = 10000. La fonction d’autocorrélation
a été calculée à l’aide de toute la longueur de l’échantillon, mais seules les
200 premiers retards ont été pris en compte lorsque Cτ prenait une valeur
significative.
Tous les calculs ont été exécutés q̀a l’aide de Matlab sur une station
SUN4 SPARC5. Les simulations peuvent être reproduites en générant les
séquences i.i.d. à partir des racines 12345 et 1234567, pour les bruits gaussien
etuniforme, respectivement.
Conclusions. On constate que les processus colorés non gaussiens (pilotés

par une innovation uniforme) sont souvent classés comme gaussiens lorsque
les queues de corrélation sont assez longues (e.g. les MA(9) ou AR(2)), sauf
pour notre test B̂2 (N ) qui s’en tire bien. Pour les bruits de mer, le test B̂2 (N )
a toujours conclu “non gaussien”, contrairement aux réponses données par
62 CHAPITRE 4
le kurtosis scalaire sous hypothèse i.i.d. De même, le test non studentisé

B2 (N ) conclue au gaussien dans ce cas, ce qui est vraisemblablement erroné.
Ce travail, très récent [30], est encore incomplet. Il serait utile d’effectuer
des simulations en nombre plus important. Par ailleurs, d’autres tests sont
en cours sur signaux acoustiques sous-marins.
4.2 Mélanges linéaires

4.2.1 Taxinomie
Il existe en réalité un certain nombre de problèmes similaires –mais distincts–
relatifs aux mélanges linéaires. Considérons le modèle d’observation suivant:
y(t) = [H(z)] · x(t) + v(t), (4.25)
où y(t) est un processus vectoriel de dimension N , H(z) une fonction de

transfert de dimensions N × Ns , x(t) est un processus vectoriel dit “vecteur
source”, et v(t) un bruit indépendant de x(t). Si Ns > 1, on supposera
que les sources xi (t) sont statistiquement indépendantes. En revanche, les
sources xi (t) ne sont pas toujours supposées blanches (au sens fort, ou même
à l’ordre 2).
Dans le modèle (4.25), il est clair que le couple (H, x) n’est pas unique-
ment défini en l’absence d’hypothèses supplémentaires. C’est pourquoi une
contrainte est généralement admise pour conférer l’unicité à la solution. Nous
allons passer en revue les options possibles page 63 et suivantes.
Suivant l’application, le problème consiste soit à identifier H (e.g. locali-
sation en traitement d’antenne, identification de systèmes), soit à extraire le
vecteur source (e.g. déconvolution, égalisation). La littérature est très abon-
dante en ce qui concerne l’identification entrées-sorties, c’est à dire lorsque
les entrées sont aussi observées [91] [124] [135]. On s’est d’ailleurs aperçu au
fil des années qu’il était préférable d’admettre que les entrées aussi pouvaient
être bruitées [189] [150].
On ne va cependant pas se pencher sur ce problème, mais sur celui
de l’identification (ou de la déconvolution) dite “autodidacte”, c’est à dire
uniquement à partir de l’observation des sorties du système. Ce type
d’identification a aussi reçu d’autres qualificatifs, tels que “aveugle”, “my-
ope”, ou même “extralucide”. Mais ces derniers semblent moins appropriés.
Lorsque H(z) est une constante, on parlera de problème de séparation de
sources, ou d’Analyse en Composantes Indépendantes si la cohérence tem-
porelle n’est pas expoitée (e.g. si toutes les sources ont même spectre), et
de séparation de signaux dans le cas contraire. On parlera en revanche de
déconvolution autodidacte ou aveugle (blind deconvolution en anglais) lorsque
la fonction de transfert n’est pas réduite à une constante. La séparation de
signaux et l’ACI sont donc des cas particuliers de la déconvolution autodi-
dacte.
A priori deux familles d’approches sont possibles: l’approche identifica-
tion consistant à estimer H(z), et l’approche déconvolution, où les entrées
sont estimées directement. Si on cherche au bout du compte à reconstru-
ire les signaux-source, la première approche nécessitera alors le calcul des
résidus (prédiction linéaire).
Annonçons tout de suite que:
1. Le problème de la séparation de signaux est soluble à l’ordre 2.

2. Le problème de l’ACI n’est pas soluble à l’ordre 2, sauf cas particulier
(cf. sections suivantes), et le recours aux SOE est nécessaire.
3. Le problème de la déconvolution autodidacte n’est en général pas solu-
ble à l’ordre 2, sauf dans le cas multivariable (N > 1) et sous certaines
conditions portant sur la matrice H(z), et sur le nombre de capteurs
(N > Ns ) [151].
Les méthodes de résolution actuelles ne sont pas adaptées à la présence

de bruit, éventuellement non gaussien. Seules, les méthodes cherchant à
maximiser un contraste peuvent supporter un bruit non gaussien, toutefois
en dessous de 0dB (la mesure du rapport signal à bruit n’a de sens dans ce
cas que si les sources et le bruit ont mêmes statistiques).
Notons que pour des durées d’intégration finies, ce qui est la situation
pratique incontournable, les erreurs d’estimation sur les cumulants peu-
vent être vues au premier ordre comme du bruit additif non gaussien; d’où
l’importance d’un minimum de robustesse des méthodes vis à vis du bruit
non gaussien.
Pour y voir plus clair, tentons de dresser une liste des hypothèses que
l’on peut faire dans les différentes approches:
Hypothèses sur les sources.
S0. Les sources x(t) sont indépendantes. Cette hypothèse est commune à
toutes les approches. Les approches à l’ordre r se contenteront bien
sûr de l’indépendance à l’ordre r.
64 CHAPITRE 4
S1. Les sources xi (t) sont chacune i.i.d.

S2. Les sources sont blanches à l’ordre 2. Si les spectres des sources sont
connus, on se ramène à cette hypothèse en reportant une racine du
spectre de xi dans la fonction de transfert Hii (z). Cette hypothèse est
plus faible que S1.
S3. Les sources sont de variance 1. Avec l’hypothèse S2 (ou S1), cette
condition entraine que la matrice spectrale des sources est constante
et égale à l’identité.
S4. Le nombre de sources Ns est strictement inférieur au nombre de cap-
teurs N . Cette hypothèse est nécessaire dans la séparation de sources
à l’ordre 2.
S5. Les sources ont une distribution discrète. Cette hypothèse permet non
seulement la séparation à l’ordre 2, mais permet aussi de s’affranchir
d’autres hypothèses.
Hypothèses sur le filtre.
F1. Les éléments diagonaux de H(z) sont constants et valent 1. Nous
écrivons ceci: DiagH(z) = I, ∀z.
F2. Les colonnes de H(z) sont normalisées. Autrement dit,
†
DiagH(z) H(z) = I, ∀z. Cette convention remplace F1 lorsqu’elle
est plus agréable à manipuler.
F3. La normalisation des colonnes de H(z) est faite globalement sur tout le
spectre: Diag H(z)† H(z)dz = I. Cette normalisation est plus faible
H
que F2.
F4. La matrice H(z) est une matrice colonne de rang plein, pour tout z.
Ceci implique en particulier que, si H(z) est un filtre RIF, alors il
admet un inverse à gauche lui-même RIF; en d’autres termes, H(z) est
à minimum de phase.
F5. H(z) est un filtre RIF dont on connait exactement le degré.
Propriétés dûes à un prétraitement de y(t).
Y1. Chaque observation y(t) est de variance 1.
Y2. Chaque composante yi (t) est préalablement blanchie à l’ordre 2. On
supposera que cette opération est mené avec l’adoption supplémentaire
des hypothèses S2 et S3, de sorte qu’on obtient alors la relation
DiagH(z)H(z)† = I, ∀z. Il s’agit alors d’une normalisation des lignes

de H(z).
Y3. Le processus vectoriel y(t) est préalablement blanchi à l’ordre 2 dans
son ensemble. Autrement dit, E{y(z)y(z)† } = I. Avec S2 et S3, cette
opération entraine que H(z)H(z)† = I, ∀z, ce que l’on admettra sous
Y3. Ce prétraitement est très fort, puisqu’il exploite entièrement les
statistiques d’ordre 2.
Y4. Les lignes de H(z) sont normalisées globalement sur tout le spectre.
Autrement dit, Diag H(z)H(z)† dz = I. Cette hypothèse est plus
H
faible que Y2, et a fortiori que Y3.

Hypothèses sur le bruit
B1. Le bruit v(t) est gaussien et blanc temporellement.
B2. Le bruit est de cohérence spatiale G connue: E{v(t)v(t)† } = σ 2 G, où
σ est inconnue.
Chaque hypothèse conduira, suivant le type de problème considéré, à des
algorithmes très différents, comme nous le verrons plus loin (cf. section 4.2.2
et suivantes).
4.2.2 Tour d’horizon bibliographique

Ce tour d’horizon n’a pas la prétention d’être totalement exhaustif. En
revanche, son objectif est de donner un échantillonnage assez complet des
problèmes relatifs à la déconvolution aveugle des mélanges linéaires qui sont
ou ont été à l’étude.
a) Déconvolution scalaire
Le problème de la déconvolution “aveugle”, c’est à dire sans séquence
d’apprentissage, a été beaucoup étudié depuis les travaux de Sato et Go-
dard dans les années 75-80. Ces algorithmes minimisent de façon itérative
un critère mesurant l’écart entre une statistique de la sortie de l’égaliseur et
la même statistique de la source [63].
Benveniste, qui a analysé en profondeur le comportement de ce type de
critère, ainsi que celui des algorithmes itératifs proposés pour le minimiser
[83] [82], est à l’origine du qualificatif “aveugle”.
Macchi et Eweda ont analysé de leur côté la convergence d’un algorithme
d’égalisation consistant à minimiser l’écart entre la sortie et la sortie désirée
66 CHAPITRE 4
(assimilée à l’élément le plus proche dans un alphabet donné) par un algo-

rithme du gradient stochastique [154].
Une des approches les plus prometteuses est sans aucun doute celle
revendiquée par Donoho [105]. Après avoir défini une relation d’ordre en-
tre variables aléatoires par leur écart à la normalité, il propose une famille
de critères restant compatibles avec cette relation. Pour notre part, nous
appellerons ces critères des contrastes statistiques. L’entropie et le kurtosis
sont notamment des contrastes.
Shalvi et Weinstein ont proposé dans [186] un algorithme de maximisa-
tion itérative du kurtosis. Ils en ont analysé la convergence; on peut aussi
consulter les commentaires de Tugnait à ce sujet publiés dans [198].
Lorsque la source est blanche au sens fort, il est toujours possible
d’emprunter une approche identification ARMA (pouvant faire intervenir
les SOE), et de calculer les résidus. Cette approche reste d’ailleurs appli-
cable dans le cas multivariable (cf. page 70). Compte-tenu de l’énorme
quantité de travaux publiés dans ce domaine, le plus simple est de se référer
à l’article de synthèse de Swami [194].
Le choix entre les techniques basées sur les SOE ou celles de type Sato
reste une question ouverte. On peut par exemple mentionner le débat ouvert
par Proakis dans [177], présentant notamment les avantages des approches
multispectrales.
Une variante est celle proposée par Bellini [80], où l’utilisation de cumu-
lants “généralisés” est préconisée; ces cumulants sont définis comme étant la
corrélation entre les observations et une filtrée non linéaire de ces dernières.
L’intérêt du recours aux SOE dans ce type de problème a été souligné
par Lacoume dans [142].
La connaissance du fait que la source est de distribution discrète peut
être exploitée, que la source soit blanche ou non. La question importante
est de savoir comment un algorithme basé uniquement sur cette information
se comporte en présence de bruit. Par exemple dans [118], Gassiat suppose
que la fonction de transfert remplit toute la bande, et que le bruit est blanc
gaussien et de variance inconnue.
b) Séparation de signaux
Le problème de la séparation de signaux, tel que nous l’avons défini en section
4.2.1, exploite le fait que les signaux ont des spectres d’ordre 2 différents.
Cette idée a été proposée à l’origine par Fety [110], mais a été à notre avis
mal exploitée, peut-être parce que en partie mal présentée. Cependant, tous
les éléments nécessaires s’y trouvent. Un exposé technique sera développé

en section 4.2.3 page 72, et donnera l’essentiel de cette approche, présenté
de la façon qui s’impose à mon avis [68].
Tong et Liu ont, indépendamment et bien plus tard, exposé leur approche
du problème, et ont analysé les conditions d’identifiabilité de la matrice de
mélange [196].
Plus récemment, VanGerven a proposé une approche applicable seule-
ment dans le cas de 2 sources et de 2 capteurs [119], à mon avis peu
intéressante. En effet, elle procède par recherche exhaustive à la résolution
d’un système d’équations non linéaires. Leur approche ressemble un peu à
celle de Nguyen-Thi [168], mais pour un problème bien plus simple.
En revanche, une étude plus intéressante a été publiée par Belouchrani
et alterae [81]. Elle consiste à diagonaliser conjointement (de manière
évidemment approximative) un ensemble de matrices de covariance (ce con-
cept avait déjà été introduit par Souloumiac pour l’ACI [190]); en outre, une
évaluation des performances asymptotiques est présentée. Cette approche
est a priori meilleure que celle de Tong puisqu’elle est basée sur plusieurs
matrices de covariance.
Avant de conclure, il convient de souligner l’intérêt malgré tout assez
limité de ce genre de problème, vu du côté des applications. L’identification
de mélanges instantanés est surtout rencontré en tant que sous-problème
de mélanges réels, qui sont en très grande majorité convolutifs. Dans ce
sous-problème, il s’avère justement que les signaux sont blancs, et que les
conditions d’identifiabilité requises dans la séparation de signaux ne sont pas
vérifiées. On se trouve en présence du problème d’Analyse en Composantes
Indépendantes (ACI), sur lequel nous allons nous pencher maintenant.
c) Séparation de sources (ACI)

Le problème de l’ACI a été introduit à l’origine par Jutten et Hérault [132].
Un algorithme itératif de nature neuro-mimétique était proposé pour sa
résolution. A l’époque, son fonctionnement était passé pour un mystère,
qui a trouvé explication ultérieurement [49] [51] [6]. Le même problème a
été abordé par Bar-Ness quelques années plus tôt, mais de manière très
différente, et avec vraisemblablement une moins bonne compréhension de
l’outil et de sa portée [79].
La nécessité de recourir aux SOE pour permettre l’identifiabilité a été
reconnue indépendamment par Lacoume [144] et Comon [49] [50] [48]. Fort
de cette constatation, Lacoume et Ruiz proposaient une identification basée
68 CHAPITRE 4
sur la minimisation de la somme des carrés des cumulants croisés [144].

Cependant, cet algorithme était coûteux, et pratiquement inutilisable pour
plus de trois sources.
L’approche de Gaeta a été celle du maximum de vraisemblance. Il a
constaté que si les cumulants d’ordre 3 sont nuls, alors la vraisemblance
approchée revient au critère précédent [114]. On notera en particulier que
ce sera le cas des variables aléatoires complexes circulaires. Cette analyse
donne un autre éclairage du problème, mais ne propose pas de nouvel algo-
rithme numérique. Par ailleurs, ce critère rejoint celui proposé par Cardoso
et Souloumiac d’une part [97] [190], et celui proposé par Comon d’autre part
[43], dont nous allons parler dans un instant.
Dans le même contexte, il est possible de calculer la borne de Cramér-
Rao; ces résultats sont présentés par Lacoume et Harroy, avec le formalisme
nécessaire au cas complexe [143]. Il est important de souligner que dans le cas
complexe, la préservation de la structure tensorielle des SOE est précieuse
[142].
Souloumiac et Cardoso ont mis au point une technique de diagonalisa-
tion conjointe de plusieurs matrices (en nombre supérieur à deux, ce qui
n’est possible qu’approximativement) [191] [96] [190] [97]. Il a été constaté
que ses performances théoriques sont similaires à l’approche par contrastes
de Comon [94]. Cette constatation a été confirmée indépendamment par
Chevalier quelques années plus tard sur le plan expérimental [98].
Les critères de contrastes, déjà introduits dans le cas scalaire pour la
déconvolution (cf. section a) page 65), sont des critères intéressants dans
le cas de l’ACI car ils permettent de conférer une certaine optimalité au
sens probabiliste aux solutions obtenues, notamment en présence de bruit,
éventuellement non gaussien [21] [2]. Ces critères seront présentés plus en
détail dans la section 4.2.5 page 83.
Comme cela a été dit plus haut, dans le cas où les cumulants d’ordre
3 sont nuls, la fonction de vraisemblance approximée coincide avec un con-
traste. Mais d’autres critères faisant intervenir les cumulants d’un ordre fixé
r quelconque plus grand que 2 sont des contrastes [2]. L’information mutuelle
est elle aussi un contraste, et peut être approximée par un développement
d’Edgeworth de la densité. Ceci donne lieu à des critères faisant intervenir
les cumulants d’ordre 3 et 4 [2]; les expressions correspondantes sont (4.60)
(4.66).
Un algorithme d’optimisation a été également proposé par Comon, basé
sur les rotations de Givens [43] [2]. Les solutions sont particulièrement sim-
ples dans le cas de deux sources, comme on le montre dans la section 4.2.6.
Hélas cette simplicité n’est conservée dans le cas complexe qu’en l’absence
de bruit [21] [3].
Plusieurs solutions récursives ont été proposées dans la littérature pour
réaliser la séparation de sources. La première est décrite dans l’article en
deux volets [133] [6]; cet algorithme est du type Robbins-Monro. Une autre
a été proposée par Comon, mais n’est pas non plus du type gradient [50].
Par contre Moreau et Macchi ont proposé plusieurs algorithmes de type LMS
minimisant des critères de contraste [164] [165] [163].
Cardoso et Laheld introduisent le concept de gradient relatif [145], per-
mettant d’atteindre des performances qui ne dépendent que du niveau de
bruit (qui est supposé faible) et de la distribution des sources, et pas de la
matrice de mélange [94].
Par ailleurs, Cardoso a expliqué comment faire un usage optimal des
cumulants d’ordre 4 dans un contexte d’ajustement de modèle [95], pour le
problème de l’ACI. Il s’agit ici de l’ajustement des cumulants d’entrée ou de
sortie.
Enfin, signalons qu’une fonction de contraste a été proposée par Krob
pour l’identification de transformations linéaires-quadratiques [141]. Des
articles longs sur ce sujet devraient paraitre prochainement.
Un résultat plus curieux est celui de Gamboa, qui a montré récemment
que l’ identifiabilité est possible à l’ordre 2 si sources sont de distribution
discrète [115].
Très peu d’auteurs se sont penchés sur le cas où le nombre de sources est
supérieur au nombre de capteurs, et ce sujet est encore très prospectif. Il
semblerait que l’on doive soit utiliser un modèle de réception [93], mais alors
il ne s’agit plus d’identification aveugle, soit restreindre le type de mélange
à une classe paramétrée, par exemple les retards purs [31], soit avoir recours
à des outils d’algèbre multilinéaire (cf. section 4.3), qui sont hélas d’une
grande complexité [24]. Quoiqu’il en soit, il est clair que si l’identification
est parfois possible, la séparation des sources, elle, ne l’est pas, du moins de
façon exacte, même asymptotiquement.
d) Déconvolution vectorielle à l’ordre 2
Comme cela a été annoncé page 63, le problème de déconvolution aveugle

peut être soluble à l’ordre 2 sous certaines conditions dans le cas multivari-
able (N > 1). Cette constatation, qui peut paraite un peu surprenante, a
été bien résumée par Loubaton [151].
70 CHAPITRE 4
Si le filtre H(z) est causal et d’inverse causal et stable, alors il est iden-
tifiable à l’ordre 2 seulement, à une ACI près. Si de plus il est FIR de rang
plein pour tout z, alors le spectre des sources peut être aussi identifié. Tong
et Xu [197] sont à l’origine de l’idée de départ, qui a été ensuite améliorée par
Moulines et d’autres co-auteurs [167]. Cette solution fonctionne en présence
d’une seule source.
Gesbert a proposé récemment une implantation adaptative de cette so-
lution dans [120], toujours pour une source. Par ailleurs, Abedmeraim et
alterae ont généralisé la résolution au cas de plusieurs sources [75]. Une
autre direction de généralisation est celle de la coloration des sources; Fi-
jalkow et Loubaton ont proposé récemment une technique pour traiter le cas
d’une source ARMA, en présence de bruit corrélé spatialement [111].
L’idée d’identifier un modèle ARMA monique suivi d’une ACI avait été
proposé par Comon dans [49] ou [21]. Mais l’identification MA monique
faisait appel aux SOE, ce que l’on peut désormais éviter.
e) Déconvolution vectorielle avec les SOE

L’idée la plus ancienne consiste à supposer que les sources sont blanches
temporellement (au sens fort) et spatiallement (indépendantes), et à iden-
tifier un modèle linéaire, ARMA par exemple. L’estimation des sources se
fait alors par le calcul des résidus (prédiction linéaire), comme dans le cas
scalaire. Même dans le cas vectoriel, il y a aujourd’hui un très grand nom-
bre de techniques qui ont été proposées. On peut se référer aux travaux
de Swami et al [194], ainsi qu’aux synthèses dressées par l’équipe de Favier
[104] [108] [109]. La différence fondamentale entre les cas scalaire et vectoriel
est que le recours à l’ACI est nécessaire pour terminer l’identification si le
modèle n’est pas monique (i.e. B0 6= I) [49] [5].
L’idée la plus simple qui vient ensuite à l’esprit est celle de l’extension au
cas convolutif des premiers algorithmes itératifs proposés pour l’ACI, comme
celui de Hérault et Jutten [125]. C’est ce qu’on fait Jutten et Nguyen-Thi
dans [168], par annulation itérative des cumulants de type 31 et 13, mais sans
grand succès. On connait les problèmes de convergence dont souffre déjà cet
algorithme dans le cas instantané [6]. Plus précisément, ces problèmes sont
d’une part la vitesse de convergence (très variable, et parfois extrêmement
lente), mais aussi l’absence de solutions parmi les points stationnaires de
l’algorithme, suivant les circonstances. Ces problèmes risquent d’être encore
plus insurmontables dans le cas convolutif.
Comon s’est penché sur la faisabilité des approches multispectrales bande
étroite. L’idée est très simple: si on se place en bande étroite, le mélange

devient complexe instantané, et peut être identifié par ACI. Toutefois, cette
approche est peu satisfaisante. En effet, si le rapport signal à bruit est
faible, il peut être indispensable d’utiliser toute la bande du signal utile.
Il se trouve qu’il est très difficile de fusionner les résultats obtenus dans
chacune des bandes, même dans le cas de mélanges très simples comme
les retards purs amortis [21], à cause de l’indétermination présente dans le
modèle (permutation).
Il est clair que la solution du problème des mélanges convolutifs est
indéterminée à une matrice diagonale de filtres près, et à une permutation
près. On peut se débarrasser de la première indétermination en imposant
(éventuellement provisoirement) une contrainte telle que S1 ou F1. En re-
vanche, on ne peut contourner efficacement la seconde, qui n’est d’ailleurs
généralement pas gênante, sauf précisément dans le cas présent. En ef-
fet, il est important de remarquer qu’en scindant un problème à bande
large en plusieurs problèmes à bande étroite, on multiplie artificiellement
l’indétermination en autant de permuations que de bandes. C’est là que se
situe la maladresse.
Capdevielle propose une technique de détermination des permutations
basée sur les liens statistiques pouvant exister entre différents canaux
fréquentiels [92]. Cette approche est inspiré de [185], où un prétraitement
avait été nécessaire pour rehausser la corrélation et améliorer éventuellement
le conditionnement; le problème était celui d’un filtrage RIF avec accès à
une réponse désirée. Cette technique risque vraisemblablement de ne pas
marcher lorque les hypothèses du théorème de la limite centrale s’appliquent.
En revanche, on peut espérer qu’elle fonctionne lorsque les sources contien-
nent des raies spectrales corrélées (par exemple, pour des machines tour-
nantes). Certains liens doivent exister avec les travaux de Krob [139].
Dans le cas de Ns = 2 sources, Yellin et Weinstein ont proposé un al-
gorithme itératif basé sur une propriété que doivent vérifier les multispec-
tres croisés entre l’observation et la sortie du filtre déconvolueur. Il s’agit
d’une approche large bande, qui peut être formulée dans le domaine temps.
Présenté à l’origine à l’ordre 3 [202], l’algorithme a été étendu à l’ordre 4
[203] (ce qui était d’ailleurs évident). Cependant, cet algorithme possède de
fortes limitations; en effet, on ne dispose pas de preuve de sa convergence,
et il n’a été justifié et expérimenté qu’en l’absence totale de bruit.
Inouye a étendu récemment l’algorithme de Shalvi basé sur la maximi-
sation du kurtosis au cas multivariable [130]. Ceci semble intéressant, et
rejoindrait les axes de recherche que nous proposons, liés aux fonctions de
72 CHAPITRE 4
contraste. Quelques outils sont suggérés dans la section 4.2.5 à cette inten-
tion, et devront être confrontés aux travaux de Inouye (ce qui n’a pas encore
été fait).
Enfin, reste le cas des mélanges particuliers, comme celui des retards
purs (non multiples de la période d’échantillonnage) amortis. Il a été
montré par Emile et Comon qu’il était possible d’identifier directement (non
itérativement) la fonction de transfert. En outre, l’identification du mélange
reste possible dans le cas où le nombre de sources est supérieur au nombre
de capteurs, ce qui est une sorte de curiosité [31].
On va à présent exposer la philosophie de la séparation de signaux. On

abordera ensuite les outils relatifs aux fonctions de contrastes (dédiés aux
mélanges instantanés ou convolutifs), pour enfin se pencher sur l’ACI.
4.2.3 Séparation de signaux

a) Mélanges instantanés inversibles de signaux
Supposons que l’on observe un signal aléatoire y(t) à N composantes, et que
ce dernier satisfasse le modèle linéaire suivant:
y(t) = Hx(t), (4.26)
où H est une matrice carrée inversible, et x(t) un signal dont les N compo-
santes xn (t) sont statistiquement indépendantes et non identiquement nulles.
Ce mélange sera dit instantané car la réponse impulsionnelle du filtre dont
les entrées sont xn (t) et les sorties yn (t) est une constante. La question que
l’on se pose est de savoir s’il est possible d’identifier la matrice H uniquement
à partir de l’observation des sorties yn (t).
Proposition 4.2.1 S’il existe une solution particulière (Ho , xo (t)), alors
il existe toute une classe de solutions (H, x(t)) de la forme H = Ho ΛP ,
x(t) = P T Λ−1 xo (t), se déduisant de la solution particulière par un change-
ment d’échelle Λ (matrice diagonale régulière) et une permutation P .
Dans cette mesure, on peut dire que le problème est mal posé. On
peut soit chercher un représentant canonique de la classe d’équivalence des
solutions, soit une solution particulière quelconque, sachant que la seconde
donnera accès à la première, et que toutes deux pourront générer l’ensemble
des solutions. Nous décrivons donc maintenant une méthode permettant
d’obtenir une solution particulière, dont le principe a été proposé à l’origine

par Fety [110, p.109].
La matrice de covariance de l’observation, Γij (τ ) = C{yi (t) yj (t + τ )},
s’écrit en fonction de la matrice de covariance de x, notée Cij (τ ):
Γ(τ ) = H C(τ ) H, (4.27)
où la matrice C(τ ) est diagonale quelle que soit la valeur de τ , puisque les
composantes de x(t) sont indépendantes. Une façon d’aborder ce problème
est de construire les deux matrices suivantes:
X X
Γ1 = ατ Γ(τ ), et Γ2 = βτ Γ(τ ), (4.28)
τ τ
où ατ et βτ sont des coefficients scalaires arbitraires qu’il faudra choisir

de façon à satisfaire les conditions d’identifiabilité (que nous allons aborder
ci-après).
Il existe au moins un jeu de coefficients {ατ , βτ } tel que Γ2 soit inversible.
En effet, Γ(0) est par exemple inversible car H et C(0) le sont. On peut donc
dorénavant supposer que Γ2 est inversible sans restreindre la généralité. Les
matrices Γ1 et Γ2 vérifient:
Γ1 = H K1 H T , et Γ2 = H K2 H T , (4.29)
où K1 et K2 sont des matrices diagonales. Soit la décomposition en éléments

propres généralisés suivante:
Γ1 U = Γ2 U Λ, (4.30)
où U est une matrice inversible et Λ une matrice diagonale. Les colonnes
de U sont les vecteurs propres du faisceau {Γ1 , Γ2 } et les éléments de Λ les
−1/2 −T /2
valeurs propres associées (valeurs propres d’une matrice Γ2 Γ1 Γ2 ).
Proposition 4.2.2 La matrice H peut être identifiée à une permutation et

un facteur d’echelle près si et seulement si les valeurs propres Λnn du faisceau
{Γ1 , Γ2 } sont toutes distinctes.
Pour démontrer cette proposition, il est plus clair d’introduire les deux
lemmes suivants [68].
Lemme 4.2.3 Si une matrice W inversible satisfait une relation KW =

W Λ, où K et Λ sont diagonales, alors il existe (au moins) une permutation
P telle que K = P T ΛP .
74 CHAPITRE 4
Démonstration. Nous avons Kii Wij = Wij Λjj , pour tout couple (i, j).
Comme W est de rang plein, il existe au moins un élément non nul Waj
dans chaque colonne j, ce qui montre que pour tout j, il existe un a tel
que Λjj = Kaa . Ce résultat peut être aussi vu comme une conséquence de
l’unicité de la décomposition spectrale.
Lemme 4.2.4 Les seules matrices A satisfaisant AΛ = ΛA, où Λ est diag-
onale de composantes toutes distinctes, sont les matrices diagonales.
Démonstration. La matrice A doit vérifier pour tout couple (i, j) la

relation Aij (Λii − Λjj ) = 0. Il est alors évident que si les composantes de Λ
sont toutes distinctes, Aij = 0 pour i 6= j.
Démonstration. (proposition 4.2.2). Supposons Γ2 inversible, sans

restreindre la généralité. Les matrices H et Γ2 étant inversibles, la relation
HK1 H T U = HK2 H T U Λ implique que K2−1 K1 H T U = H T U Λ. Or d’après
le lemme 4.2.3, nous avons nécessairement K2−1 K1 = P T ΛP , où P est une
permutation. Il vient donc que Λ P H T U = P H T U Λ. Maintenant d’après
de lemme 4.2.4, la matrice P H T U doit être diagonale. Appelons-la ∆. On
a donc finalement H = U −T ∆P , ce qui montre que H a été identifiée aux
matrices multiplicatives ∆ et P près.
b) Mélanges instantanés singuliers

Si Γ1 et Γ2 sont singulières, les conditions d’identifiabilité de la procédure
précédente ne sont plus forcément valables. Il en est de même si H est
rectangulaire ou carrée singulière. Nous qualifions ces modèles de singuliers.
En pratique, si on s’attaque à un problème d’identification aveugle, on ne
sait en général pas grand chose sur la matrice H, et il pourrait bien se faire
notamment qu’elle soit singulière. Cela ne peut et ne doit se détecter dans
le cadre de l’identificaton aveugle, qu’à partir des observations y(t). Dans
tous les cas, le modèle
y(t) = H x(t) + v(t) (4.31)
est sans doute plus réaliste, où la matrice H est éventuellement singulière,
et où v(t) est un signal de “nuisance”, indiquant l’écart entre l’observation
réelle et le modèle idéal. Pour un système ayant moins d’entrées que de
sorties, H aura pour rang au plus le nombre d’entrées s’il n’y a pas de bruit.
Inversement, pour un système ayant plus d’entrées que de sorties, N entrées
seront prises en compte dans la partie Hx(t), et les autres devront figurer
dans le terme v(t) au titre de nuisances.
Pour tenter de discerner les différentes singularités, nous proposons la
procédure suivante.
1. Si Γy (0) est singulière, alors la matrice H n’est pas inversible. Notons

la décomposition spectrale de Γy (0) comme suit:
Γy (0) = R S RT , (4.32)
où S est diagonale inversible de dimension r × r. Les matrices H

et Γy (0) ayant le même espace image (de dimension r), il existe une
matrice H̄ de rang plein est de taille r × N telle que H = RH̄. On a
calculé R, voyons maintenant comment identifier H̄. On peut poser
ȳ(t) = RT y(t), (4.33)
et considérer le modèle ȳ(t) = H̄ x(t) + v̄(t), où Γȳ est inversible. On

est alors ramené au point suivant.
2. Si Γy (0) est régulière, on peut appliquer la procédure décrite dans la
section a) pour identifier le mélange. Si les valeurs propres Λnn sont
distinctes, on peut estimer les signaux source par la relation
x̂i (t) = U T y(t). (4.34)
De deux choses l’une. Ou bien certains signaux x̂i (t) obtenus sont suffi-
samment décorrélés entre eux, et le modèle (4.26) est satisfait pour ces
composantes, ou bien il reste une corrélation importante entre toutes
les composantes de x̂(t), et on peut conclure par la présence d’une
nuisance v(t) importante. Cette dernière peut être dûe à du bruit de
mesure, ou bien à la présence d’autres sources que les xi (t), 1 ≤ i ≤ N .
Dans ce dernier cas, il est nécessaire d’avoir plus d’informations pour
pouvoir identifier le mélange. On pourra notamment recourir à une
méthode spécifique utilisant les statistiques d’ordre supérieur (cf. sec-
tion 4.2.5).
3. Si certaines valeurs propres Λnn sont confondues, cela veut dire que la
diversité des fonctions Γij (τ ) n’est pas assez riche pour permettre de
conclure, et il faudra recourir à des statistiques d’ordre supérieur (i.e.
Analyse en Composantes Indépendantes).
76 CHAPITRE 4
On pourra également utiliser les techniques d’ordre supérieur pour con-

firmer ou affiner un résultat obtenu avec les statistiques d’ordre 2.
Cette section n’a exposé que schématiquement le principe de la résolution
du problème de la séparation de signaux [68] [110]. Une étude plus appro-
fondie du problème peut être trouvée dans [81].
L’hypothèse S0 d’indépendance des sources est dans tous les cas au cen-
tre de toutes les approches. C’est pourquoi il convient dans un premier
temps d’introduire diverses mesures d’indépendance statistique. En outre,
ces éléments permettent de donner des fondements théoriques aux approches
par maximisation de contrastes [2].
4.2.4 Indépendance statistique

Dans cette section, on passe en revue quelques moyens de mesurer
l’indépendance statistique, sur les plans théorique et pratique.
a) Information mutuelle
Définition 4.2.5 Soit x un vecteur aléatoire de dimension N admettant
une densité px (u). Les composantes xi de x sont dites indépendantes si et
seulement si la distribution conjointe des xi est égale au produit de leurs
distibutions marginales:
N
Y
px (u) = pxi (ui ). (4.35)
i=1
Une façon naturelle de mesurer l’indépendance des variables xi est donc

de mesurer la distance δ(px , i pxi ) entre ces deux densités. Parmi toutes les
Q
mesures de distance disponibles, l’une est particulièrement usitée. Il s’agit

de la divergence de Kullback:
px (u)
Z
def
δ(px , py ) = px (u) log du. (4.36)
py (u)
Noter le vocabulaire: le mot divergence a été utilisé, car cette mesure d’écart
n’est pas une fonction symétrique de ses arguments, et ne mérite donc pas
le titre de distance.
Proposition 4.2.6 La divergence de Kullback est toujours positive et
vérifie:
pp
δ(px , py ) = 0, si et seulement si px (u) = py (u). (4.37)
Démonstration. Pour tout réel positif w, on a l’inégalité de convexité

log w ≤ w − 1, avec égalité si et seulement si w = 1. En appliquant cette
inégalité au rapport py (u)/px (u), on obtient:
py (u)
Z
−δ(px , py ) ≤ px (u) [ − 1] du.
px (u)
R
Or le second membre est toujours nul puisque p(u) = 1 pour toute densité
de probabilité. Par ailleurs comme la fonction log w est tangente à w − 1 en
w = 1, l’égalité n’a lieu que si py (u)/px (u) = 1 pour presque tout u.
Proposition 4.2.7 La divergence de Kullback est invariante par transfor-

mation inversible.
Démonstration. Posons Y = Ay et X = Ax, où A est une matrice

inversible. Alors pX (v) = px (A−1 v)/|det(A)|, et PY (v) = py (A−1 v)/|det(A)|.
Il vient par conséquent
px (A−1 v) dv
Z
δ(pX , pY ) = px (A−1 v) log .
py (A−1 v) | det A|
On pose u = A−1 v, c.à.d. dv = | det A|du. Alors
px (u)
Z
δ(pX , pY ) = px (u) log du,
py (u)
ce qui termine la démonstration.

La divergence de Kullback appliquée à py (u) = pxi (ui ) conduit à la
Q
mesure d’indépendance suivante:
px (u)
Z
I(px ) = px (u) log QN du. (4.38)
i=1 pxi (ui )
Cette quantité n’est autre que l’information mutuelle moyenne, bien con-
nue en codage et en télécommunications. En vertu de la proposition 4.2.6,
l’information mutuelle est toujours positive, et s’annule si et seulement si les
variables xi sont indépendantes.
Contrairement à ce que l’on pourrait croire, l’information mutuelle n’est
pas invariante par changement de base, bien que la divergence de Kullback le
78 CHAPITRE 4
soit. Pour s’en convaincre, il suffit de considérer le contre-exemple suivant.

Prenons une variable gaussienne de dimension N , de densité
1 T V −1 u
Φx (u) = [2π]−N/2 [det V ]−1/2 e− 2 u , (4.39)
où V est une matrice de covariance inversible. Alors son information
mutuelle est donnée par:
1 Vii
Q
I(Φx ) = log . (4.40)
2 det V
Prenons comme changement de base une matrice A telle que AAT = V −1 .
Alors l’information mutuelle après changement de base est I(ΦAx ) = 0. Il
faudrait que la covariance V soit diagonale, ou que la matrice A soit de la
forme ΛP , Λ diagonale et P permutation, pour que l’information mutuelle
ne change pas. En d’autres termes, si X = Ax, nous n’avons en général pas
Q Q
pxi (ui ) = pXj (vj ). En revanche nous aurons invariance par changement
d’échelle, comme cela sera précisé avec la proposition 4.2.13.
b) Néguentropie
L’entropie différentielle, ou plus simplement l’entropie, d’une variable
aléatoire admettant px (u) pour densité de probabilité est définie par:
Z
def
S(px ) = − px (u) log px (u) du. (4.41)
On pourra notamment remarquer que l’information est une différence

d’entropies: I(px ) = S(pxi ) − S(px ). L’entropie joue un rôle tout à fait
P
particulier en statistiques. En effet, il est possible de montrer qu’il n’existe

pas d’autre fonctionnelle satisfaisant quatre axiomes de base, découlant du
principe fondamental selon lequel si un problème peut être résolu de plusieurs
façons, alors les solutions obtenues doivent être les mêmes [188, page 27].
Mais ceci nous éloigne de notre propos. Nous avons introduit pour mémoire
l’entropie, mais c’est en réalité la néguentropie qui va surtout présenter un
intérêt pour notre propos.
Définition 4.2.8 Soit x un vecteur aléatoire centré admettant px (u) pour
densité. Notons ϕ(x) la variable aléatoire gaussienne centrée de même co-
variance que x, et Φx (u) sa densité. Alors la néguentropie associée à px
est
px (u)
Z
J(px ) = px (u) log du. (4.42)
Φx (u)
Il est facile de remarquer que la néguentropie est une mesure d’écart à

la distribution gaussienne, puisqu’elle est égale à la divergence δ(px , Φx ).
Nous avons par conséquent la propriété:
Proposition 4.2.9 La néguentropie d’une distribution px est toujours pos-

itive, et s’annule si et seulement si px est presque partout gaussienne.
De façon encore plus explicite, nous avons:
Proposition 4.2.10 La néguentropie est la différence des entropies suiv-

antes:
J(px ) = S(Φx ) − S(px ). (4.43)
Démonstration. Par définition de l’entropie, nous avons:

Z Z
S(Φx ) − S(px ) = px (u) log px (u) du − px (u) log Φx (u) du
Z Z
+ px (u) log Φx (u) du − Φx (u) log Φx (u) du.
R
D’où on déduit immédiatement S(Φx )− S(px ) = J(px )+ log Φx (u) [px (u)−
Φx (u)] du. Or ce dernier terme est nul puisque, par définition, x et ϕ(x) ont
même variance, et log Φx (u) est un polynôme de degré 2.
Proposition 4.2.11 L’entropie et la néguentropie sont invariantes par

changement de base orthonormé.
Démonstration. Considérons deux vecteurs aléatoires, x et y = Qx, où

Q est une matrice inversible. Alors L’entropie de y s’écrit
Z
S(px ) = − py (Qu) log[| det Q| py (Qu)] |detQ| du,
ce qui donne la règle de transformation de l’entropie par changement de base:
S(px ) = S(py ) − log | det Q|. (4.44)
Il est clair que l’entropie est invariante par toute transformation dont le
déterminant est de module 1, et en particulier par transformation orthog-
onale. Par ailleurs, la néguentropie est invariante au moins sur le même
ensemble de transformations, d’après la proposition 4.2.10.
80 CHAPITRE 4
Proposition 4.2.12 La néguentropie est invariante par changement de base

(inversible).
Démonstration. On applique simplement (4.44), qui est valable pour
toute matrice inversible, à px et φx . Par différence, log | det Q| disparait et
J(px ) = J(φx ).
Proposition 4.2.13 L’information mutuelle est invariante par changement

d’échelle, et peut s’écrire:
X
I(px ) = J(px ) − J(pxi ) + I(Φx ). (4.45)
i
Démonstration. Par définition de l’information, nous avons

X
I(px ) = S(pxi ) − S(px ). (4.46)
Soit Λ une matrice diagonale régulière. Le vecteur Λx a pour entropie
P
I(pΛx ) = S(Φxi ) − log Λii − S(px ) + log det Λ, ce qui prouve que I(pΛx ) =
I(px ). En outre, en utilisant la propriété 4.2.10, la relation (4.46) donne:
X X
I(px ) = S(Φxi ) − J(pxi ) − S(Φx ) + J(px ).
P
Enfin, un nouveau recours à I(Φx ) = S(Φxi ) − S(Φx ) permet de conclure.
Notons que dans ce résultat, l’information gaussienne peut être remplacée
par sa valeur donnée en (4.40).
Cette dernière propriété met en relief les termes suscepibles d’entrainer
une dépendance statistique entre les composantes xi . Tout d’abord I(Φx ),
qui est une contribution d’ordre 2, peut être facilement éliminée en stan-
dardisant les données. Après standardisation, il ne reste que les deux
néguentropies de la formule (4.45), qui sont des termes d’ordre supérieur.
Si nous ne voulons pas détruire la décorrélation d’ordre 2, les seules trans-
formations linéaires que l’on a le droit de faire subir à un vecteur aléatoire x
sont les transformations diagonales, qui n’ont aucun effet sur l’information
comme on l’a montré avec la proposition 4.2.13, et les transformations or-
thogonales. Or d’après la proposition 4.2.11, la première néguentropie est
invariante par transformation orthogonale; il ne reste donc plus que le second
terme de (4.45), qui soit susceptible de mesurer la dépendance statistique
entre les composantes d’un vecteur standardisé.
Malheureusement, les densités sont en général inconnues, de sorte qu’il
faudra approximer les néguentropies par des estimations. Le but de la section
d) sera précisément de proposer un moyen pratique de mettre en œuvre cette
estimation à partir des moments ou cumulants d’ordre supérieur.
c) Développement en série d’Edgeworth
Soit une variable aléatoire scalaire x de seconde fonction caractéristique

Ψx (u), supposée être voisine d’une fonction Ψo (u). Par définition, Ψx (u)
génère les cumulants dans son développement en série entière:
1 1
Ψx (u) = κ1 u + κ2 u2 + κ3 u3 + . . . , (4.47)
2! 3!
où κr désigne le cumulant d’ordre r, C(r) {x}. Posons λr le cumulant d’ordre r

dans le développement en série de Ψo (u), et ηr = κr − λr . Alors la différence
des fonctions caractéristiques s’écrit:
∞
1
ηr ur .
X
Ψx (u) − Ψo (u) = (4.48)
r=1
r!
Notons qu’il n’existe pas forcément de variable aléatoire dont les cumulants
d’ordre r sont égaux à ηr . Mais on peut tout de même noter les ”moments”
µr définis par:
∞ ∞
1 1
ηr ur ] = µ k uk .
X X
exp[ (4.49)
r=1
r! j=0
k!
A partir de cette relation, il est possible de développer px (v) autour de po (u)

comme suit:
∞
X 1
px (v) = po (v) µk hk (v), (4.50)
k=0
k!
où les fonctions hk (v) sont définies par
(−1)k dk po
hk (v) = (v). (4.51)
po (v) dv k
Le développement (4.50) ne revêt une forme simple que pour certaines den-
sités po (v) particulières, notamment celles pour lesquelles les fonctions hk (v)
sont des polynomes.
Le développement en série d’Edgeworth de type A permet d’approximer
une densité lorsque po (v) est gaussienne. Dans un souci de consistence des
notations, on notera alors po (v) = Φx (v). Pour simplifier les expressions, et
sans restreindre la généralité, on se placera dans le cas gaussien standardisé.
Dans ce cas, les fonctions hk (v) sont les polynomes de Hermite définis par
82 CHAPITRE 4
la récurrence:
h0 (v) = 1, (4.52)
h1 (v) = v, (4.53)
d
hk+1 (v) = v hk (v) − hk (v). (4.54)
dv
Par exemple, h2 (v) = v 2 − 1 et h3 (v) = v 3 − 3v. En outre, le développement
de Edgeworth se distingue de celui de Gram-Charlier par le fait que les
termes sont ordonnés non pas par degré croissant, mais par ordre de grandeur
décroissant sous les hypothèses du théorème de la limite centrale (page 36).
Le classement des termes, s’il n’a aucune importance dans une série infinie
convergente, en a beaucoup lorsqu’il s’agit de tronquer la série. Le théorème
de la limite centrale nous dit que, si x est la somme de m variables aléatoires
indépendantes de cumulants bornés, alors le cumulant d’ordre r de x est de
l’ordre de m1−r/2 . Ceci conduit au classement suivant:
Ordre
m−1/2 κ3
m−1 κ4 κ23
m−3/2 κ5 κ3 κ4 κ33
m−2 κ6 κ3 κ5 κ23 κ4 κ24 κ43
m−5/2 κ7 κ3 κ6 κ23 κ5 κ24 κ3 κ53 κ4 κ5 κ33 κ4
Ainsi le développement en série de Edgeworth de la densité px (v) autour de

Φx (v) s’écrit [136, formule 6.49]:
px (v)/Φx (v) = 1
1
+ κ3 h3 (v)
3!
1 10 2
+ κ4 h4 (v) + κ h6 (v)
4! 6! 3
1 35 280 3
+ κ5 h5 (v) + κ3 κ4 h7 (v) + κ h9 (v)
5! 7! 9! 3
1 56 35 2100 2
+ κ6 h6 (v) + κ3 κ5 h8 (v) + κ24 h8 (v) + κ κ4 h10 (v)
6! 8! 8! 10! 3
15400 4
+ κ h12 (v)
12! 3
+O(m−2 ). (4.55)
d) Approximation de la néguentropie
Dans cette secton, nous allons utiliser le développement de Edgeworth pour
approximer la néguentropie que nous avons définie précdemment en (4.42).
La relation (4.40) a montré que I(Φx ) = 0 si et seulement si la matrice
de covariance est diagonale. Pour des distributions non gaussiennes, la
décorrélation à l’ordre 2 est insuffisante pour assurer l’indépendance. En
revanche, la néguentropie sera suffisante pour assurer l’indépendance statis-
tique. En général, à l’instar de la densité de probabilité, la néguentropie est
en général inconnue. On se propose ici de l’approximer à l’aide des cumulants
d’ordre croissant.
Posons px (u) = Φx (u)[1+f (u)], où f (u) est donnée par le développement
de Edgeworth. On adopte le développement en série du logarithme suivant:
(1+f ) log(1+f ) = f +f 2 /2−f 3 /6+f 4 /12+o(f 4 ). En reportant cette approx-
imation dans l’expression de la néguentropie (4.42), et en replaçant f (u) par
sa valeur, on peut obtenir l’approximation escomptée. L’expression finale de
la néguentropie nécessite les propriétés intégrales suivantes des polynomes
de Hermite:
Z
Φ(v) hp (v) hq (v) dv = p! δpq , (4.56)
Z
Φ(v) h23 (v) h4 (v) dv = 3!3 , (4.57)
Z
Φ(v) h23 (v) h6 (v) dv = 6!, (4.58)
Z
Φ(v) h43 (v) dv = 93 3!2 . (4.59)
On obtient alors après calcul, si z est une variable aléatoire scalaire stan-
dardisée:
1 1 7 1
J(pz ) = κ23 + κ24 + κ43 − κ23 κ4 + o(m−2 ). (4.60)
12 48 48 8
4.2.5 Contrastes statistiques

a) Généralités
Les ingrédients introduits dans cette section sont communs aux trois sections
qui vont suivre. Le premier ingrédient est la notion de filtre trivial.
Définition 4.2.14 La suite de matrices {A(k)} est dite triviale si et seule-
ment si pour tout indice i fixé, il existe un seul couple d’indices (j, k) tel que:
Aij (k) 6= 0.
84 CHAPITRE 4
On admet que le nombre de sources est égal au nombre de capteurs,

puisque ceci n’est pas restrictif lorsque N ≥ Ns dans le modèle d’observation
de départ (4.25), comme on l’a déjà souligné plus haut.
On admet que le processus observé se modélise comme suit:
X
y(t) = H(k) x(t − k) + v(t), (4.61)
k
où y(t) et x(t) sont de dimension N , et où les matrices H(k) sont cette
fois carrées. On désigne par H(z) la transformée en z de la suite H(k).
Les autres notations restent celles du modèle (4.25). Il sera en outre
nécessaire d’imposer des contraintes supplémentaires pour assurer l’unicité
de la modélisation.
Soit H un sous-ensemble des filtres H(z) de norme L2 finie, et P = {y(t)}
un ensemble de processus de dimension N . Pour alléger les écritures, on
adoptera parfois la notation compacte: H · x ≡ H(z) · x(t). De même, on
notera H · P l’ensemble image de P par les filtres de H.
Définition 4.2.15 Une application Υ associant la densité de probabilité

d’un élément y(t) ∈ H · P à un nombre réel positif, noté Υ(y), sera dite con-
traste probabiliste discriminant, ou plus simplement contraste sur (P, H),
si elle vérifie les trois conditions suivantes:
C1. Υ est invariante par changement d’échelle; c’est à dire que Υ(Λy) =
Υ(y), ∀y ∈ H · P, et ∀Λ, matrice constante diagonale régulière de H.
C2. Si les composantes xi (t) d’un processus x(t) ∈ P sont indépendantes,
et chacune blanche au sens fort, alors Υ(H · x) ≤ Υ(x), ∀H(z) ∈ H.
C3. Il y a égalité dans C2 si et seulement si H(k) est triviale. C’est cette
condition qui assure le caractère discriminant du contraste.
Un contraste ne vérifiant pas la propriété C3 sera peu utile car, en

l’absence de bruit, Υ(H · x) pourrait atteindre son maximum, Υ(x), sans
pour autant que le filtre H soit triviale.
Il faut remarquer que la notation Υ(y) constitue un abus, puisque Υ
est construite sur la densité de probabilité de y (éventuellement au sens
des distributions). La notation correcte serait Υ(py ), mais cela alourdirait
considérablement les écritures. L’abus est donc admis, mais il faut en être
conscient.
Cette définition étend le concept proposé dans [43] [2], tout en assurant
la compatibilité avec le concept introduit par Donoho pour la déconvolution
scalaire [105] [117], comme nous allons le préciser dans ce qui va suivre.
Il existe des relations d’équivalence entre les couples (P, H). Par exem-
ple, P ={processus temporellement blancs à l’ordre 2 et de variance 1} et
H ={matrices rationnelles}, peut être remplacé par P ={processus à spectre
rationnel} et H ={filtres rationnels H(z) tels que DiagH(z) = I, ∀z}.
b) Déconvolution scalaire
Voyons à présent comment les définitions précédentes se particularisent au
cas de la déconvolution scalaire.
Corollaire 4.2.16 Dans le cas scalaire N = 1, les filtres triviaux sont ceux
dont la réponse impulsionnelle est nulle partout sauf en un point; autrement
dit, ce sont les retards purs multiples de la période d’échantillonnage, suivis
d’un facteurs d’échelle.
Proposition 4.2.17 Le module du cumulant standardisé d’ordre r > 2 à

l’origine est un contraste sur l’ensemble P des processus non gaussiens ad-
mettant des moments finis jusqu’à l’ordre r, et l’ensemble H des filtres non
nuls.
Démonstration. La condition C1 est assurée par la standardisation des

cumulants. Par ailleurs, y(t) = k H(k) x(t − k). Grâce à la propriété de
P
multilinéarité des cumulants (3.4.1), nous avons:
H(k)r
P
k
K(r),y = K(r),x P .
[ k H(k)2 ]r/2
Or, par inégalité entre les normes Lp , dès que m ≥ 2, [ H(k)r ]1/r ≤
P
[ H(k)2 ]1/2 , ce qui entraine bien |K(r),y | ≤ |K(r),x |, donc C2.

P
Enfin, l’égalité |K(r),y | = |K(r),x | entraine [ H(k)r ]1/r = [ H(k)2 ]1/2 ,

P P
ce qui n’est possible que lorsque H(k) ne contient qu’une seule valeur non
nulle lorsque r > 2. Ceci prouve C3.
Ces propriétés ont éte prouvées à l’origine par C.W. Granger vers 1976
[105]. Une étude générale rigoureuse des contrastes dans le cas scalaire
peut être trouvée dans [117]. Les cumulants standardisés d’ordre 3 ou 4,
appelés asymétrie et aplatissement (kurtosis), ont été également utilisés
86 CHAPITRE 4
indépendamment en analyse de données [128]. On voit aussi que la fonc-

tionnelle Υ(y) = |K(r),y |α est également un contraste, pour tout α > 0 et
tout r > 2.
Proposition
R
4.2.18 L’opposé de l’entropie moyenne de Shannon, Υ0 (y) =
−S(y) = log py (u) py (u) du, est un contraste sur l’ensemble P des processus
non gaussiens de variance finie, et l’ensemble H des filtres conservant la
variance, i.e. , satisfaisant k H(k)2 = 1.
P
Démonstration. Ce résultat est énoncé dans [105] sans preuve détaillée.

En réalité, la démonstration est un peu plus pénible qu’on pourrait le croire,
et fait appel à la propriété: S( H(k) x(k)) − S(x) ≥ log( H(k)2 )/2 [84].
P P
Cette propriété est satisfaite dès que les variables x(k) sont i.i.d. Elle n’est
pas donnée ici à cause de sa longueur. On se réfèrera à [63].
c) Mélange instantané vectoriel

Si les composantes zi d’un vecteur aléatoire sont statistiquement
indépendantes, alors celles du vecteur ΛP z le sont aussi si Λ est une matrice
diagonale et P une permutation. Une première exigeance que l’on est en
droit d’imposer est donc qu’une fonction de contraste soit insensible à des
transformations du type ΛP . En conséquence la matrice F ne peut être
définie qu’à cette indétermination près. C’est d’ailleurs la même chose dans
le problème de séparation de signaux. On retrouve cette indétermination
dans la définition des filtres triviaux:
Corollaire 4.2.19 Dans le cas de mélanges instantanés, les filtres triviaux

sont de la forme H = Λ P , où Λ est diagonale et P est une permutation.
Les matrices triviales orthogonales sont les “permutations signées”. Dans

le cas complexe, les matrices unitaires triviales seront appelées de la même
façon, sachant qu’elles sont en fait le produit d’une permutation par une
matrice diagonale formée d’éléments de module 1.
La définition générale 4.2.15 tient compte de cette indétermination par
l’insensibilité au facteur d’échelle. L’insensibilité à la permutation découle
de celle de la densité de probabilité. La définition 4.2.15 se particularise
dans le cas des mélanges instantanés à la définition suivante:
Corollaire 4.2.20 Un contraste sur (P, H) est une application Υ de P dans

IR telle que les trois conditions suivantes soient satisfaites:
C1. Υ(Λy) = Υ(y), pour toute matrice diagonale Λ ∈ H;

C2. Si x a des composantes indépendantes, alors Υ(Ax) ≤ Υ(x) pour toute
matrice A ∈ H.
C3. Υ(Ax) = Υ(x) n’est vérifiée pour tout x ∈ P de composantes
indépendantes que si A est de la forme ΛP .
Sauf mention contraire, H sera, dans le contexte des mélanges instan-

tanés, l’ensemble des matrices carrées inversibles. On va donner dans la
suite quatre exemples de contrastes.
def
Proposition 4.2.21 L’application Υo (z) = −I(pz̃ ), où z̃ est le vecteur
standardisé associé à z, conformément à la définition 3.4.3, est un contraste
sur l’ensemble P des vecteurs aléatoires de covariance finie et inversible. En
outre, il est discriminant sur le sous-ensemble des vecteurs aléatoires ayant
au plus une composante gaussienne.
Démonstration. La démonstration découle directement des propriétés

4.2.6 page 76 et 4.2.13 page 80 [2].
Comme nous l’avons déjà souligné, l’information mutuelle est en général
difficilement utilisable dans la pratique car les densités sont inconnues, même
si des tentatives ont été faites dans ce sens [173]. Il est donc utile de se
tourner vers des contrastes plus “pratiques”.
def
Proposition 4.2.22 L’application Υ2,r (z) = N 2
P
i=1 K(r),yi , est un contraste
sur (P, H), où P désigne le sous-ensemble des vecteurs aléatoires ayant des
moments finis jusqu’à l’ordre r, pour r > 2, et ayant au plus un cumu-
lant marginal d’ordre r nul. H désigne l’ensemble des matrices carrées in-
versibles.
Démonstration. Dans cette démonstration, il est légitime de poser

H = L Q, où Q est orthogonale, et ỹ(t) = Q x(t). En effet, puisque Υ2,r est
construit sur les cumulants standardisés de y(t), nous savons que Υ2,r (y) =
Υ2,r (ỹ) = Υ2,r (Q x). Tout se passe donc comme si H était l’ensemble des
matrices orthogonales.
Condition C1. La condition C1 découle de la standardisation.

88 CHAPITRE 4
P 2
Condition C2. On note Υ(x) = p K(r), xp , en omettant provisoirement
l’indexage (2,r ) pour alléger, et:
K2i1 ...ir ,y .
X
Ω(y) =
i1 ...ir
Alors Υ(y) ≤ Ω(y) puisque tous les termes sont positifs. Par ailleurs, Ω(y)
s’écrit, par multilinéarité des cumulants:
X X
Ω(y) = Qi1 p Qi1 q · · · Qir p Qir q K(r),xp K(r),xq .
pq i1 ...ir
Or, comme QT Q = I par hypothèse, il vient que Ω(y) = Υ(x). En conclu-

sion, nous avons:
Υ2,r (y) ≤ Ω(y) = Υ2,r (x). (4.62)
Cette relation, qui prouve C2, nous sera utile pour la suite de la
démonstration.
Condition C3, première démonstration. C3 a été prouvée dans le

cas général par Comon [42] [2]. Toutefois, une démonstration plus simple
a été donnée par M. Krob dans le cas r = 4 [139]. Le principe de cette
démonstration reste valable lorsque r est multiple de 4, comme nous allons
l’expliquer maintenant.
Posons r = 4s, s entier. Notons Υ(ȳ) et Ω(ȳ) les quantités obtenues
en remplaçant les cumulants K(r),xp par leur module dans les expressions
développées de Υ(y) et Ω(y), respectivement. Alors, par le même raison-
nement que pour obtenir (4.62), on obtiendrait:
Υ2,r (ȳ) ≤ Ω(ȳ) = Υ2,r (x).
Mais on peut observer que, par inégalité triangulaire, Υ(y) ≤ Υ(ȳ). Par
conséquent, si on a l’égalité Υ(y) = Υ(x), on a nécessairement égalité de
tous ces termes entre eux, et en particulier Υ(ȳ) = Ω(ȳ). Ceci se traduit par
les égalités:
X
Qi1 p · · · Qir p |K(r),xp | = 0, ∀(i1 · · · ir ) 6= (i1 · · · i1 ). (4.63)
p
En particulier, si le r-uplet (i1 · · · ir ) ne contient que deux indices distincts,

i et j, en nombre égal (ce qui est possible car r est pair):
Q2s 2s
X
ip Qjp |K(r),xp | = 0, ∀(i, j), i 6= j.
p
Pour tout p tel que K(r),xp 6= 0, ceci entraine la nullité du produit Qip Qjp ,
puisque tous les termes sont positifs dans la somme. Si le vecteur x a au plus
un cumulant d’ordre r non nul, alors le produit Qip Qjp est nul pour N − 1
valeurs de p. En conséquence, N − 1 colonnes de Q ne contiennent qu’un
seul élement non nul. Comme Q est orthogonale, ses lignes sont normées, et
elle est nécessairement une permutation signée.
Condition C3, seconde démonstration. Lorsque r n’est plus un mul-

tiple de 4, la démonstation précédente s’effondre. La démonstration qui suit
reproduit celle donnée dans [42] [2]. On utilise le lemme suivant:
Lemme 4.2.23 Soit r Q la matrice dont les éléments sont |Qij |r . Alors, si
Q est orthogonale, 2 Q vérifie: ||2 Q u|| ≤ ||u||, ∀u, pour la norme L2 .
Démonstration du lemme. Notons Q̄ (resp ū) la matrice (resp. le vecteur)

dont les éléments sont les modules de ceux de Q (resp. ceux de u). Si
Q est unitaire, alors 2 Q est bistochastique, c’est à dire que la somme de
ses composantes au sein d’une même ligne ou d’une même colonne vaut 1.
D’après un théorème de Birkhoff, l’ensemble des matrices bistochastiques est
un polyèdre convexe dont les sommets sont des permutations; ceci veut dire
que:
2
X X
Q= αs Ps , αs ≥ 0, αs = 1.
s s
Par inégalité triangulaire, il vient finalement:
||2 Q u|| ≤ ||2 Q̄ ū|| ≤

X
αs ||Ps u|| = ||u||.
s
Démonstration de C3. Comme Q est unitaire, ses composantes sont de

module plus petit que 1, et |r Qij | ≤ |2 Qij | dès que r ≤ 2. Par inégalité
triangulaire, on en tire que, pour tout vecteur u:
Qrki Qrkj ui uj ≤ Q̄rki Q̄rkj ūi ūj ≤ Q̄2ki Q̄2kj ūi ūj .
X X X
i,j,k i,j,k i,j,k
En appliquant le lemme, on obtient que:
||r Q u||2 ≤ ||2 Q̄ ū||2 ≤ ||ū||2 = ||u||2 .
Appliquons ce résultat au vecteur u formé des cumulants marginaux d’ordre

r de la variable standardisée ỹ. On obtient alors simplement:
Υ(Q ỹ) ≤ Υ(ỹ),

90 CHAPITRE 4
qui reste valable pour le vecteur y. Ceci prouve C2 en passant. Si on a

égalité, cela veut dire que:
||2 Q̄ ū||2 − ||r Q̄ ū||2 = 0,
pour un certain vecteur u ayant au plus une composante nulle. Comme elle
est toujours positive ou nulle, la quantité suivante doit donc être nulle:
[2 Q̄ ū]2i − [r Q̄ ū]2i = 0, ∀i.
Cette égalité reste vraie en enlevant les carrés, à cause le la positivité des
termes. Tous les termes étant de nouveau positifs, on doit avoir
[2 Q̄ij − r Q̄ij ]ūj = 0, ∀(i, j).
La chute est similaire à celle de la première démonstration. On remarque

que, comme ūj est strictement positif pour au moins N − 1 valeurs de j,
l’égalité 2 Q̄ij = r Q̄ij pour r > 2 entraine que N − 1 colonnes de la matrice Q
ne contiennent qu’un seul élément non nul. L’orthogonalité de Q implique
enfin que Q est une permutation signée.
La démonstration s’étend au cas complexe lorsque l’ordre r est pair, et
que les cumulants sont définis de façon à ce que la moitié des termes soit
conjugués [2].
Un autre contraste a été proposé récemment par Moreau et Macchi [163]
[164] [165] et semble particulièrement intéressant. En effet, une analyse
précise de leur démonstration montre que le fait que Q soit orthogonale est
incomplètement utilisé, et qu’une condition bien plus faible suffit, comme
nous allons le voir plus loin.
N def
Proposition 4.2.24 L’application Υ1,r (z) = i=1 |K(r),yi |, est un con-
P
traste sur (P, H), où P est l’ensemble des vecteurs aléatoires ayant des
moment finis jusqu’à l’ordre r, pour r > 2, et ayant au plus un cumulant
marginal d’ordre r nul.
Démonstration. Commençons par donner la démonstration lorsque Q

est orthogonale, calquée sur celle de E. Moreau. La condition C1 ne pose
pas de problème grâce à la standardisation des cumulants. Pour démontrer
C2, remarquons que:
Qrjp K(r),xp ≤ |Qjp |r · |K(r),xp |.

X X X
Υ1 (y) =
j p j,p
Or, comme |Qjp |2 = 1 et r ≥ 2, alors |Qjp |r ≤ 1, il vient:

P P
j j
X
Υ1 (y) ≤ |K(r),xp | = Υ1 (x),
p
qui prouve C2.

Pour prouver C3, supposons que Υ1 (y) = Υ1 (x). Alors:
 
|Qjp |r  · |K(r),xp | = 0.
X X
1 −
p j
Comme tous les termes sont positifs, on en déduit que j |Qjp |r = 1 pour
P
tout p tel que K(r),xp 6= 0. Donc la pième colonne de Q ne contient qu’un

élément non nul. Enfin, comme Q est orthogonale, si N − 1 de ses colonnes
n’ont qu’un élément non nul, elle est une permutation signée.
On remarquera que, jusqu’à la dernière étape de la démonstration, seules
la propriété de normalisation des colonnes a été utilisée pour prouver C3.
Ceci nous conduit à considérer le contraste suivant:
Proposition 4.2.25 L’application définie par Υ(y) = i |C(r),yi | est un

P
contraste sur (P, H), si P désigne l’ensemble des vecteurs aléatoires de di-
mension N ayant des moments finis jusqu’à l’ordre r et ayant au plus un
cumulant marginal d’ordre r nul, et si H désigne l’ensemble des matrices
satisfaisant les relations suivantes:
Y2. Diag H H T = I (chaque ligne est normée),
F2. Diag H T H = I (chaque colonne est normée).
Démonstration. La preuve est la même que celle de la proposition

4.2.24. Les différences sont les suivantes: Y2 est utilisée pour prouver la
condition C1, F2 est utilisée pour C2, et F2 et Y2 sont nécessaires pour C3,
sans nécessiter l’orthogonalité de Q.
On peut se demander si ces contraintes sont légitimes. Nous savons que
le modèle d’observation y = Hx souffre d’une indétermination à une ma-
trice multiplicative près, de la forme Λ P . Il est donc utile (et ici nécessaire)
d’imposer N contraintes permettant de lever cette indétermination. En stan-
dardisant les données, on avait réduit cette indétermination à une permuta-
tion signée, mais en même temps on se débarrassait des corrélations d’ordre
2, ce qui n’était pas indispensable.
92 CHAPITRE 4
Pourtant, il peut être désagréable d’être obligé de recourir à cette

procédure, notamment en présence de bruit gaussien. Ceci peut se compren-
dre en remarquant que la standardisation devrait faire intervenir une racine
de la matrice de covariance du signal seul, et non de celle de l’observation.
Une contrainte possible est: Diag H = I. Mais cette contrainte manque
de souplesse dans le contexte qui nous occupe. Une autre contrainte consiste
à imposer une variance unité sur chacune des sorties. C’est précisément
ce que traduit la contrainte Y2. Comme nous l’avons précisé page 64, la
contrainte F2 peut être vue comme une normalisation des colonnes de H.
Enfin, on ne manquera pas de remarquer que F2 et Y2 réunies sont des
contraintes bien plus faibles que l’orthogonalité. Il est facile de le vérifier en
remarquant que si H est orthogonale, alors H T H = H H T = I, tandis que
F2 et Y2 ne correspondent qu’aux diagonales de ces deux dernières égalités.
Par exemple si N = 2, les rotations hyperboliques satisfont F2 et Y2.
Le contraste 4.2.25 ne fait plus intervenir de cumulants standardisés, et
peut donc potentiellement prétendre à une insensibilité au bruit gaussien.
Un autre constraste proposé par E. Moreau avait également cette faculté,
mais faisait intervenir le module d’un cumulant croisé [164].
d) Mélanges convolutifs vectoriels

L’objectif de cette section est assez modeste. Il consiste à présenter
une ébauche de projet de recherche orienté vers la mise au point
d’algorithmes de déconvolution multivariable autodidacte en présence de
bruit, éventuellement non gaussien.
L’intérêt des fonctions de contraste a déjà été souligné et il n’est pas
nécessaire d’y revenir. En revanche, la définition 4.2.15 donnée en page 84
ne présenterait pas beaucoup d’intérêt s’il n’était pas possible d’exhiber au
moins une fonction de contraste applicable dans cette situation. C’est ce qui
va être fait maintenant.
Proposition 4.2.26 La fonction Υ1 (y) = j |C(r),yj | est un contraste sur

P
(P, H), si P est l’ensemble des processus stationnaires à l’ordre r, ayant

au plus une composante gaussienne, et si H est l’ensemble des filtres H(z)
vérifiant les conditions suivantes, notées F3 et Y4 page 64:
I
[F3.] Diag H(z) H(z)† dz = I, (4.64)
I
[Y4.] Diag H(z)† H(z) dz = I. (4.65)
Par exemple, si le filtre H(z) préserve l’énergie sur chaque composante, et

si l’entrée x(t) est blanche au second ordre, alors la normalisation F3 sera
satisfaite (cf. page 64).
Démonstration. La condition C1 demandée dans la définition 4.2.15 est
assurée par F3.
Pour la condition C2, on remarque que le contraste se développe comme
suit:
r
|Hip (k)|r · |C(r),xp |.
X X X
Υ1 (y) = Hjp (k) C(r),xp ≤
i p,k i,p,k
Mais Y4 implique que |Hip (k)|2 = 1, ∀i. Donc pour r ≥ 2, on a bien:

P
i,k
X
Υ1 (y) ≤ |C(r),xp | = Υ1 (x).
p
Pour prouver C3, supposons que Υ1 (y) = Υ1 (x). Alors:

 
|Hip (k)|r  · |C(r),xp | = 0.

X X
1 −
p i,k
Donc pour tout p tel que C(r),xp 6= 0, il vient que:
|Hip (k)|r = 1.
X
ik
On rencontre alors une complication qui n’apparaissait pas dans le cas in-
stantané. En effet, on voudrait que la somme sur i et p soit égale à 1 pour
pouvoir conclure. Pour ce faire, on remarque simplement que la dernière
égalité entraine que i,p,k |Hip (k)|r = N . Mais comme p,k |Hip (k)|r ≤ 1
P P
d’après F3, on doit avoir aussi:

|Hip (k)|r = 1, ∀i.
X
pk
Ceci se constate immédiatement, par exemple par l’absurde. On en déduit

finalement que {H(k)} est triviale, dès que r > 2, en utilisant une nouvelle
fois F3.
La “complication” est également surmontable dans le cas de la fonction-
nelle Υ2 , dans des conditions similaires. Ceci est heureux car Υ2 présente
l’intérêt d’être différentiable, contrairement à Υ1 , qui fait intervenir une
valeur absolue. L’absence de différentiabilité est un obstacle supplémentaire
à une mise en œuvre en ligne.
94 CHAPITRE 4
4.2.6 Un algorithme pour l’ACI

Dans cette section, on présente un algorithme hors ligne, proposé pour cal-
culer l’ACI (solution dans le cas des mélanges instantanés). On pourra
trouver diverses solutions en ligne dans [163], par exemple.
a) Approche en deux étapes

Nous avons vu avec la proposition 4.2.13 que l’information mutuelle
s’écrivait:
N
X
I(px ) = J(px ) − J(pxi ) + I(Φx ).
i=1
L’approche a priori la plus précise consisterait à maximiser cette information
mutuelle, éventuellement en remplaçant les néguentropies par des approxi-
mations. Afin d’éviter à avoir à résoudre un problème d’optimisation multi-
modal de grande dimension, on propose dans cette section une approche en
deux étapes.
Si x est un vecteur aléatoire standardisé, il est clair que la composante
I(Φx ) est nulle. La nullité de ce terme est préservée par transformation
orthogonale. On peut donc décomposer la matrice cherchée F en deux fac-
teurs: F = QL− , où L− assure la standardisation, et où Q est orthogonale.
Or, d’après (4.2.11), la quantité J(px ) est invariante par transformation or-
P
thogonale. Il ne reste donc que le deuxième terme, i J(pxi ), à maximiser
dans l’ensemble des matrices orthogonales.
D’après l’équation (4.60), nous voyons que le critère Υo peut être ap-
proximé par Υ3 si les cumulants d’ordre 3 ne sont pas nuls. S’ils sont nuls,
alors Υo peut être approximé par Υ4 . Malheureusement, les conditions dans
lesquelles l’expression
N
def
4K23,i + K24,i + 7K43,i − 6K23,i K4,i
X
Υ3,4 = (4.66)
i=1
pourrait être un contraste discriminant n’ont pas été obtenues à ce jour. On

utilisera donc ce dernier critère avec prudence.
b) Algorithme Contraste–Maximisation (CM)

Dans cette section, on s’intéressera à la recherche de la matrice Q maximisant
le contraste Υr (pz ), r ∈ {3, 4}, z = Qỹ. La matrice Q a N (N − 1)/2
paramètres libres, si elle est de dimension N . Il n’est pas aisé de mener une
telle optimisation, même s’il est possible de calculer la différentielle de Υr , et

d’obtenir analytiquement l’équation des valeurs stationnaires [36]. On peut
par contre décomposer la matrice Q en un produit de N (N − 1)/2 rotations
planes de la forme:
!
1 1 θ
Q(i,j) =√ , (4.67)
1 + θ2 −θ 1
où θ désigne la tangente de l’angle de la rotation plane Q(i,j) , opérant dans

le plan défini par les iieme et j ieme coordonnées. Cette décomposition n’est
pas unique.
La recherche d’une rotation plane maximisant le contraste Υr (pz ), r ∈
{3, 4} se fait de façon purement analytique en résolvant des polynômes de
degré inférieur ou égal à 4 (c’est donc possible par radicaux). L’ensemble de
l’algorithme CM est décrit ci-dessous.
Définition 4.2.27 Algorithme CM

1. Calculer la SVD de la matrice de données: †
√ Y †= V SU , et construire la
matrice de√données standardisées Z = T U et la matrice de passage
L = V S / T . Si Y est N × T et de rang ρ, alors Z est ρ × T et L est
N × ρ.
2. Initialiser F ← L.
3. Commencer la boucle sur les balayages: k = 1, 2, . . . , kmax; On fixe
√
kmax ≤ 1 + ρ.
4. balayer les ρ(ρ− 1)/2 paires (i, j), conformément à schéma de balayage
fixé (par exemple cyclique par lignes). Pour chaque paire, faire:
(a) Estimer les r+1 cumulants d’ordre r des lignes i et j de la matrice

Z.
(b) Calculer l’angle α maximisant le contraste Υr , dans l’intervalle:
] − π/4, π/4].
(c) Accumuler la matrice de passage: F ← F Q†(i,j) .

(d) Mettre à jour la matrice de données: Z ← Q(i,j) Z.
5. Arrêter la boucle si k = kmax ou bien si tous les angles estimés dans

le dernier balayage sont petits devant 1/T .
96 CHAPITRE 4
6. Calculer la norme des colonnes de F : ∆ii = ||Fi: ||.

7. Ordonner les composantes de ∆ par ordre décroissant: ∆ ← P ∆ P †
et changer l’ordre des colonne de F en conséquence: F ← F P † .
8. Normaliser la matrice F par: F ← F ∆−1 .
9. Fixer la phase (signe) de chaque colonne de F de façon à ce que
l’élément de plus grand module soit réel positif: F ← F D.
Les quatre dernières étapes de l’algorithme décrit ci-dessus sont fac-

ultatives, dans le sens où elles ne servent qu’à déterminer de façon
unique un représentant de la classe d’équivalence des solutions [21] [2].
L’algorithme CM est sous-optimal à deux niveaux: d’abord, il n’utilise pas
les néguentropies pour identifier la meilleure standardisation, puisque seuls
les moments d’ordre 2 sont utilisés dans cette étape. Ensuite, l’optimisation
sur Q ne se fait pas non plus globalement mais est décomposée en plusieurs
problèmes d’optimisation monodimensionnels, un peu à la manière d’une re-
laxation. Ce n’est pas exactement une relaxation, car la décomposition se
fait dans un groupe et non dans un espace vectoriel. L’algorithme ci-dessus
est décrit comme si les données étaient complexes, mais pour alléger, on s’est
limité ci-après à la description du cas réel.
c) Obtention de la rotation plane dans l’algorithme CM

L’objectif de cette section est de décrire en détail comment l’angle α d’une
rotation plane peut être choisi de façon à maximiser les fonctions de con-
trastes Υ3 ou Υ4 . Cette description correspond à l’étape 4b de l’algorithme
CM défini en 4.2.27.
Supposons que la matrice de données standardisées, notée ici Y , soit
de dimension 2 × T , et que nous cherchions la rotation Q maximisant la
fonctions de contraste Υr (pz ). Nous avons:
!
1 1 θ
Q= √ , et Z = QY. (4.68)
1 + θ2 −θ 1
La fonction de contraste Υr (pz ), ne dépendant que des cumulants marginaux

d’ordre r de Z, par construction, est fonction implicite de θ et des cumulants
d’ordre r de Y , compte tenu de la propriété de multilinéarité des cumulants.
Utilisons κ pour désigner les cumulants de Z et g ceux de Y . On peut
donc convenir de noter –abusivement– cette fonction Υr (θ; g). A priori cette
fonction est une fraction rationelle de θ, ce qui explique qu’il soit faisable de
trouver son maximum absolu en un nombre réduit d’opérations élémentaires.
La valeur de l’angle α se déduit directement de celle de sa tangente θ; il suffit
de prendre par exemple l’angle se trouvant dans l’intervalle ]−π/2, π/2], mais
cela n’est pas nécessaire. En effet, cette indétermination n’affecte la matrice
Q que par multiplication par une matrice de la forme ΛP . Voyons donc
comment obtenir la tangente θ.
d) Maximisation de Υ3
Si r = 3, nous avons l’expression suivante pour le contraste:
3
1
ai θ i − (−θ)−i ,
X
Υ3 (θ; g) = (θ + )−3 (4.69)
θ i=1
où les coefficients ai sont donnés par
2 2
a3 = g111 + g222 , (4.70)
a2 = 6 (g122 g222 − g111 g112 ), (4.71)
2 2
a1 = 9 (g122 + g112 ) + 6 (g112 g222 + g111 g122 ). (4.72)
Les points stationnaires correspondant à dΥ3 /dθ = 0 sont les racines du

polynome:
ω3 (ξ; g) = d2 ξ 2 + d1 ξ − 4 d2 , si d2 6= 0, (4.73)
où nous avons utilisé la variable auxiliaire ξ = θ − 1/θ, et où les coefficients
di sont donnés par:
d2 = a2 /6 = g122 g222 − g111 g112 , (4.74)

d1 = a1 /3 − a3 . (4.75)
Il suffit donc de calculer toutes les racines réelles de ω3 (ξ; g), et de calculer
ensuite pour chacune d’elles la solution θ correspondante grâce à la relation
θ 2 − ξθ − 1 = 0, qui n’admet toujours qu’une seule racine dans l’intervalle
] − 1, 1]. Enfin, s’il y a plus d’une racine réelle, on sélectionnera celle des
solutions donnant la plus grande valeur du contraste.
98 CHAPITRE 4
e) Maximisation de Υ4
Si r = 4, la procédure est similaire. On préfèrera exprimer le contraste en
fonction de la variable auxiliaire ξ = θ − 1/θ dès le départ, de sorte que:
4
Υ4 (ξ; g) = (ξ 2 + 4)−2 bi ξ i .
X
(4.76)
i=0
De même, les points stationnaires de Υ4 (ξ; g) sont donnés par les racines
d’un polynome en ξ:
4
ci ξ i .
X
ω4 (ξ; g) = (4.77)
i=0
Les valeurs des coefficients bi et ci en fonction des cumulants des observations

sont données dans [2]. Ces racines sont faciles à calculer puisque le polynome
n’est que de degré 4. Comme précédemment, après avoir calculé les racines ξp
de ω4 (ξ; g), il suffit de les reporter dans l’expression de Υ4 (ξ; g) pour avoir
celle correspondant au maximum absolu. La valeur de θ correspondante
s’obtient en calculant la racine de θ 2 −ξθ −1 = 0 se trouvant dans l’intervalle
] − 1, 1].
4.3 Décompositions tensorielles

Les moments et les cumulants de variables aléatoires sont des objets ten-
soriels, comme l’a bien expliqué Mc Cullagh dans son livre [160]. Pourtant,
il est bien rare qu’ils soient considérés comme tels aux ordres supérieurs à 2.
Evidemment à l’ordre 2, les outils d’algèbre linéaire étant bien rodés
depuis des années, on a pris l’habitude de ranger les moments dans une
matrice de covariance. Mais il n’y a en principe aucune raison qu’on ne
fasse pas de même pour les SOE, si ce n’est précisément à cause de l’absence
d’outils spécifiquement tensoriels. L’objet de cette section est d’expliquer
pourquoi ces outils ne sont pas disponibles aujourd’hui.
Il y a au mons deux raisons à cela. La première est que ces outils
sont difficiles à mettre au point, comme il va être bientôt démontré avec
l’exemple de la diagonalisation. La seconde est qu’il n’y a sans doute jamais
eu véritablement de demande dans ce sens. Les tenseurs étaient utilisés es-
sentiellement en physique, et n’étaient d’ailleurs pas symétriques. En statis-
tiques, les moyens limités en puissance de calcul interdisaient l’utilisation
pratique des SOE multivariables pour des problèmes concrets.
La situation a aujourd’hui changé, et il apparait utile de développer

quelques outils supplémentaires pour le traitement du signal de demain.
4.3.1 Diagonalisation tensorielle

Considérons un tableau réel T à d indices ik , 1 ≤ k ≤ d, variant chacun dans
{1, .., n}. On suppose que T est complètement symétrique, c’est à dire que
l’ordre des indices ne change rien à la valeur de T ; par exemple, T123 = T231 .
On dira que d est l’ordre de T et n sa dimension.
Si d = 2, T est une matrice symétrique, et on sait qu’elle est diagonalis-
able par transformation congruente:
T = A Λ A† . (4.78)
Cette décomposition n’est pas unique. Un théorème établi par Sylvester

nous apprend d’ailleurs que la signature (le nombre de signes + et −) de la
matrice diagonale Λ est un invariant parmi les solutions. Un de ces choix est
celui de la décomposition spectrale (i.e. en éléments propres), où on impose
à la matrice A d’être orthogonale.
La question que l’on se pose est de savoir si une telle décomposition peut
s’étendre au cas de tables à plus de deux indices. Décrivons le problème
dans le cas de trois indices, pour simplifier. La diagonalisation congruente
s’écrirait: r
X
Tijk = Aip Ajp Akp Λpp . (4.79)
p=1
Dans cette décomposition, le nombre r joue le même rôle que celui du rang
pour les matrices. Cependant, rien ne nous dit que r ≤ n, malheureusement
[24] [34].
A ce stade, plusieurs familles de problèmes peuvent être identifiés. Dans
la première, on ne considère que les décompositions pour lesquelles r = n.
Cette décomposition ne sera alors exacte que dans des cas très particuliers
[35], ce qui apparaitra plus clairement après les explications de la section
4.3.3. Quoiqu’il en soit, on voit déjà le lien étroit existant entre de telles
diagonalisations et le problème de l’ACI décrit au chapitre 4.2 si la table T
désigne le tenseur cumulant d’ordre d des observations.
Dans les problèmes de la seconde famille, on considère le cas générique,
c’est à dire le cas le plus souvent rencontré. Pour les matrices par exemple,
le cas générique est celui du rang plein. Pour les tenseurs, le rang générique
n’est pas le rang maximal possible; ceci est une première particularité (cf.
100 CHAPITRE 4
section 4.3.3). S’il s’agit de tenseurs d’ordre d > 2, alors la seconde famille
est très différente de la première.
Dans la troisième famille, on s’intéresse aux cas non génériques. On
trouve notamment le cas du rang maximal, mais aussi les cas intermédiaires
entre r = n et r générique. L’intérêt de considérer ces cas intermédiaires
est d’ordre pratique: on espère être capable de proposer des algorithmes
pour calculer la diagonalisation congruente dans ces cas-là, ou au moins
prouver qu’ils existent théoriquement, ce qui n’est pas aujourd’hui possible
pour toutes les valeurs du triplet (p, n, r), loin s’en faut.
4.3.2 Polynômes homogènes

On ne trouve pratiquement rien dans la littérature sur la diagonalisation de
tables à plus de deux indices. Pourtant, il y avait au 19ème siècle une grosse
activité de recherche sur les polynômes homogènes, qui a malheureusement
été étouffée en grande partie à cause de Hilbert. En effet, ce dernier a tué un
des plus gros débouchés pour ces chercheurs qu’était le théorie des invariants
[170].
On peut très brièvement expliquer pourquoi les tenseurs et les polynômes
homogènes sont liés. On trouvera plus de détails dans [24] si nécessaire. Tout
tenseur symétrique G de dimension n et d’ordre d est associé de façon unique
à un polynôme homogène p de degré d à n variables par la relation:
n
X
p(xi1 , xi2 , .., xid ) = Gi1 i2 ..id xi1 xi2 ..xid (4.80)
i1 ,i2 ,..id =1
Il est évident qu’avec cet éclairage, la diagonalisation de G est équivalente

à la décomposition de p en puissances de formes linéaires. Dans le cas des
matrices par exemple, on sait que toute matrice symétrique est associée à
une forme quadratique, et vice-versa.
C’est grâce à cette connexion qu’il a été possible de remonter aux travaux
de Salmon, puis de Rota et de Reznick [24]. Ce sont ces travaux qui nous
ont permis d’établir ce qui va être décrit maintenant dans la section 4.3.3.
4.3.3 Rang générique et nombre de solutions

A partir d’un très grand nombre de relations, rassemblées pour la plupart
par Reznick et Rota, il a été possible de dresser la table 4.3. Cette dernière
donne la valeur du rang générique r pour des valeurs quelconques du couple
(d, n). On constatera que dans la première colonne, on a bien r = n, puisque
ordre 2 3 4 5 6 7 8
dimension
2 2 2 3 3 4 4 5
3 3 4 6 7 10 12 15
4 4 5 10 14 22 30 42
5 5 8 15 26 42 66 99
6 6 10 22 42 77 132 215
7 7 12 30 66 132 246 429
8 8 15 42 99 215 429 805
Table 4.3: Rang générique des tenseurs en fonction de leur dimension et de

leur ordre.
cette dernière correspond au cas matriciel d = 2. Il est important de noter

qu’il n’y a aucune règle systématique connue pour calculer r; certaines de
ces valeurs n’ont été obtenues que récemment, après plusieurs articles visant
à les encadrer par des bornes.
En outre, le nombre de solutions est infini si rn > D, si on pose
!
n+d−1
D= . (4.81)
d
La dimension de la variété des solutions est donnée par la différence nr −

D, qui est reproduite dans le tableau 4.4. On vérifie bien que dans le cas
matriciel, la dimension est n(n − 1)/2. On constate aussi que pour certains
couples (n, d), il n’existe qu’un nombre fini de solutions; citons notamment
les couples (4, 3), (7, 3), ou (7, 4).
Mis à part les cas où r ≤ n et d = 2, il n’a été possible pour l’instant
de diagonaliser un tenseur symétrique que pour n = 2, ce qui présente un
intérêt très limité [24]. Ceci fait l’objet de recherches en cours.
102 CHAPITRE 4
ordre 2 3 4 5 6 7 8
dimension
2 1 0 1 0 1 0 1
3 3 2 3 0 2 0 0
4 6 0 5 0 4 0 3
5 10 5 5 4 0 0 0
6 15 4 6 0 0 0 3
7 21 0 0 0 0 6 0
8 28 0 6 0 4 0 5
Table 4.4: Dimension de l’ensemble des solutions.

Chapitre 5
Orientations et perspectives
Dans ce chapitre on décrit les perspectives de travaux telles qu’elles peuvent

être envisagées aujourd’hui en reprenant la partition en quatre volets pro-
posée aux chapitres 1 et 2. Je saurai gré au lecteur intéressé par l’un de ces
sujets de recherche de bien vouloir m’en avertir, pour mettre en place une
coopération éventuelle, qui sera la bienvenue.
Certains des sujets décrits ci-après trouvent des applications dans le
monde industriel, notamment sonar; cependant, ces applications ne sont
pas précisées pour des raisons de confidentialité.
Traitement d’antenne
1 Il est non seulement discutable d’imposer l’hypothèse de stationnarité
des sources dans les problèmes de mélanges linéaires, au regard des
conditions expérimentales, mais aussi très certainement superflu sur
le plan théorique. Il est même vraisemblable que la non stationnarité
des sources permette d’atteindre, lorsque le milieu est constant, de
meilleures performances.
2 Le problème de la calibration automatique sans bruiteur coopérant,
révélant des problèmes d’observabilité complexes, est d’un grand
intérêt opérationnel [148]. Il fait l’objet d’une étude en 1995-96.
3 Celui de la pondération optimale d’antennes de géométrie quelconque
est posé encore aujourd’hui sous la forme d’un problème d’optimisation
multimodal général, malgré ses nombreuses particularités.
4 L’évaluation de bornes permettant d’accéder aux performances ultimes
atteignables en estimation de paramètres est également difficile à met-
103
104 CHAPITRE 5
tre en œuvre lorsque le modèle gaussien est irréaliste. Ceci pose le

problème du traitement d’antenne ultime (lorsque les statistiques des
observations et des sources sont parfaitement connues), si on cherche à
construire un traitement basé sur les SOE, en complément aux statis-
tiques d’ordre 2.
5 Le calcul de performances de certaines chaines de traitement complexes
(très non linéaires) est difficile à mener à bien dans des conditions
réalistes, c’est à dire sur signaux réels, en particulier lorsque les données
sont peu nombreuses. Les techniques de rééchantillonnage (Bootstrap)
sont bien adaptées à ce calcul.
6 Nous avons vu que la déconvolution des mélanges linéaires multivari-
ables est possible avec le recours uniquement aux moments d’ordre 2,
dans certaines circonstances. En particulier, lorsque les observations
sont suréchantillonnées. D’un autre côté l’aspect cyclostationnaire a
été peu utilisé pour cette catégorie de problèmes, et conduit sans doute
aux mêmes conclusions.
7 Les modèles bilinéaires occupent une place toute particulière parmi
les processus non linéaires. En effet, bien qu’ayant une structure plus
simple, ils permettent d’approcher tout type de processus. On peut les
utiliser notamment pour extraire un signal d’un bruit multiplicatif.
8 L’ACI peut être vue comme une décomposition d’un vecteur aléatoire
sur une base adéquate, dans laquelle ses composantes sont statis-
tiquement indépendantes. Elle est donc applicable aux signaux
aléatoires, et conduirait à une décomposition sur une base de fonctions
déterministes, à l’instar de la décomposition de Karhunen-Loeve (KL).
On peut se demander si cette nouvelle démarche n’aurait pas bien plus
de sens physique que la simple orthogonalité de la décomposition de
KL.
9 La particularité de certains mélanges linéaires a déjà été mentionnée,
et notamment ceux ne comportant que des retards purs et des amor-
tissements. Evidemment, si les retards sont multiples de la période
d’échantillonnage, le problème semble simple, mais n’a pas grand
intérêt. En revanche lorsque ce n’est pas le cas, les filtres sont non
causaux et de réponse impulsionnelle infinie, ce qui n’est pas très
plaisant.
Cependant, le fait que les réponses aient une forme très particulière doit
pouvoir être pris en compte. Un problème intéressant, mais difficile à
ORIENTATIONS ET PERSPECTIVES 105
poser correctement, est celui d’un seul capteur et d’une seule source,
en présence de trajets multiples. C’est un des points à aborder dans
la thèse de B. Emile.
10 Lorsque le nombre de sources est supérieur au nombre de capteurs,

bien peu de méthodes sont applicables. On a vu que si le mélange est
composé de retards purs, l’identification de la fonction de transfert est
théoriquement possible, quel que soit le nombre K de capteurs et le
nombre P de sources. Elle conduit donc à une estimation asympto-
tiquement clairvoyante (les sources ne peuvent pas être parfaitement
estimées, mais leur vecteur directionnel peut l’être). B. Emile se penche
sur de tels mélanges dans sa thèse.
Cependant, les conditions sous lesquelles l’identification d’un mélange
(convolutif quelconque) de P sources avec K capteurs est possible ne
sont aujourd’hui pas clairement établies. Dans le cas de mélanges
instantanés, on avance notamment la condition suffisante que P <
(3K − 2)/2. Mais aucun algorithme n’est disponible aujourd’hui, qui
soit capable de réaliser cette identification. Ceci fait l’objet d’une
coopération avec l’université de Leuven (KUL).
11 On sait qu’un mélange instantané de 2 sources sur 2 capteurs est iden-

tifiable avec un nombre fini (et très réduit) d’opérations. Néanmoins,
ce résultat n’est vrai qu’en l’absence de bruit si les variables aléatoires
sont complexes (même circulaires). Il est pourtant vraisemblable que
la maximisation d’un contraste soit possible analytiquement dans ce
cas, avec le recours à la résolution de polynômes de degré inférieur ou
égal à quatre (elle l’est dans le cas de variables aléatoires réelles, en
présence de bruit).
12 La fonction d’ambiguité a été définie aux ordres élevés par Porat. On

peut se demander s’il ne serait pas possible de la définir tous ordres
confondus (e.g. par une divergence de Kullback).
13 La formation de voies est une mesure d’inhomogéneité du champ basée

sur les moments d’ordre 2. Rien n’empêche de construire un outil
mesurant les inhomogéneités en se basant sur les variations de la fonc-
tion de répartition avec la direction. On devrait gagner en pouvoir de
détection si les sources sont non gaussiennes.
106 CHAPITRE 5
Statistiques d’ordre élevé
14 Il est important de donner une préférence aux algorithmes de

déconvolution de mélanges linéaires qui fonctionnent en bande large.
Elles ont plus d’attrait lorsque le signal est large-bande et de faible
niveau. Une formulation dans le domaine temps est notamment
souhaitable.
Les fonctions de contrastes dans le domaine temps répondent à ce
besoin. Toutefois, la définition des fonctions de contrastes dans le
cas des mélanges convolutifs vectoriels donnée dans la section 4.2.5
aura sans doute besoin d’être parachevée. En outre, d’autres exemples
de fonctions de contraste devront être exhibés, et des algorithmes de
résolution mis au point. Je termine par exemple la mise au point de la
factorisation “doublement diagonale”, normalisant à la fois les lignes
et les colonnes d’une matrice. Par ailleurs, il serait utile de comparer
mon contraste basé sur l’ordre 4 seulement avec la solution préconisée
par Inouye.
15 La définition des contrastes introduite dans la section 4.2.5 fait inter-
venir un couple (H, P) d’ensembles (Filtre, Processus). On conçoit que
plus ces ensembles sont grands, plus le contraste considéré est “puis-
sant”. Il est donc possible de dresser une sorte de hiérarchie dans les
fonctions de contrastes.
16 Dans le chapitre 3, on a souligné le fait que les conditions d’existence
des multispectres n’ont jamais été clairement établies. Cette lacune
fondamentale reste à combler.
17 Le test de normalité décrit en détail dans la section 4.1 doit être
expérimenté sur un plus grand nombre de signaux-test (Monte carlo
et données rélles), et comparé avec les tests de Giannakis-Tsatsanis
et de Moulines et al. Il est aussi possible de le comparer avec un
test de type TIU (intersection-union), revenant dans le cas présent à
pré-déconvoluer, ce qui pourrait se faire avec l’algorithme de Shalvi-
Weinstein par exemple.
18 Un multispectre, en tant que fonction de plusieurs variables
(nécessairement discrétisées), peut être vu comme un tenseur, de même
que le spectre d’ordre 2 peut être vu comme une matrice. La factori-
sation d’un multispectre revient à la diagonalisation de ce tenseur.
Lorsque le tenseur est de rang 1, le processus considéré est linéaire.
Le lien entre factorisation multispectrale, diagonalisation tensorielle,

et tests de rang, peut avoir un intérêt dont la nature n’est pas unique-
ment théorique. La thèse de D. Rossille [182] l’a bien mis en évidence.
Algorithmique numérique Dans ce paragraphe sont inclus les problèmes

d’algèbre linéaire théoriques ainsi que les aspects plus appliqués
d’algorithmique.
19 Dans le troisième volet, je propose la poursuite des travaux sur

l’analyse de la stabilité des algorithmes rapides de résolution de
systèmes de faible rang de déplacement. En outre, la mise au point
d’algorithmes rapides de résolution de systèmes structurés singuliers
au sens des moindres carrés reste un problème ouvert.
20 La caractérisation des éléments propres des matrices structurées
(Töplitz, produit de Töplitz...) est un problème lié au précédent d’une
certaine manière, bien que ce dernier ne nécessite que la caractérisation
du noyau. L’état de l’art dans ce domaine avance assez irrégulièrement.
21 Sur un autre plan, comme nous l’avons vu, l’ACI peut être vue comme
la diagonalisation approchée d’un tenseur symétrique d’ordre supérieur
à deux. Nous avons pu caractériser l’ensemble des tenseurs symétriques
linéairement diagonalisables. Il serait intéressant d’étendre ces
résultats dans un premier temps au cas complexe (avec le problème
de la définition de la symétrie pour les ordres impairs), et dans un
second temps aux cas non génériques.
22 La factorisation (e.g. diagonalisation par transformation congruente)
des tenseurs de rang plus grand que leur dimension dépasse le cadre
de l’ACI. La recherche d’algorithmes spécifiques aux tenseurs est un
domaine qui a été –curieusement– très peu exploré. Une coopération
avec l’université KUL et avec l’INRIA est en cours.
23 J’ai mis en évidence l’intérêt que peut présenter l’Analyse en sous-
espaces Indépendants (ASI), et tout spécialement pour la classification.
Un sujet de recherche consiste à concevoir un algorithme numérique
performant de calcul de l’ASI.
24 Un vieux sujet auquel je souhaite m’atteler depuis des années est celui
de la révision des algorithmes numériques d’algèbre linéaire lorsque les
matrices sont aléatoires. Par exemple, la factorisation QR est utilisée
108 CHAPITRE 5
pour résoudre des systèmes linéaires, à des fins de prédiction en trai-

tement du signal. Mais la stratégie de pivotage ne tient pas compte de
la variance des éléments de la matrice.
Apprentissage Le quatrième et dernier axe concerne la théorie et la mise

en œuvre de l’apprentissage, supervisé ou non.
25 Les estimateurs à noyau de probabilité, dont les avantages ne sont
plus à vanter, souffrent d’une limitation pratique: on ne sait toujours
pas évaluer le paramètre de largeur minimisant le biais ou l’erreur
quadratique. On peut se limiter au cas des noyaux à largeur fixe, car
le passage au noyau variable a été fait correctement par Abramson.
26 Le problème de l’apprentissage non supervisé peut être vu sous l’angle
de l’identification de lois mélange. Sans vouloir adresser le problème
de la détermination du nombre de modes qui est mal posé, on peut
se pencher sur l’identification des paramètres du modèle en supposant
que le nombre de modes est connu. L’ajustement des moments conduit
à la résolution d’un système polynomial.
27 L’identification d’un filtre linéaire à partir des ses entrées et sorties
peut sans doute être abordée sans modèle paramétrique (tel que les
modèles de Volterra). On propose la construction d’une transforma-
tion non linéaire (par exemple réseau de neurones avec temps de re-
tard) de façon incrémentale sans rétropropagation. Il en résulterait
un gain immense en temps de calcul dans l’apprentissage (comparer
par exemple à l’apprentissage supervisé des réseaux stratifiés comme
le PMC). Plus précisément, il est reconnu que les théorèmes théoriques
de représentation (e.g. Sprecher) ne sont pas applicables dans la pra-
tique.
28 Comme cela a été expliqué au chapitre 2, il est des cas où la dimension
des vecteurs de la base de données est trop grande; la notion de pe-
tite taille ou de grande dimension est ici comprise conformément à la
définition de [29] [65]. Ce sujet de recherche consiste en l’application
de l’algorithme d’ASI à des bases de données, décrit au point 23, afin
d’évaluer son intérêt sur des problèmes réels. On peut penser à des
applications dans le domaine de la reconnaissance de la parole par ex-
emple. D’autres applications peuvent être envisagées lorsqu’elles de-
mandent le découplage de variables. Des coopérations sont en cours
avec les universités INPG et KUL.
29 Si, après avoir procédé aux réductions de dimension classiques (e.g.

PCA), et aux partitions de l’espace (i.e. ASI), la dimension reste trop
élevée, on peut malgré tout être convaincu que l’apprentissage est pos-
sible dans des conditions raisonnables. Ceci n’est pas contradictoire,
puisque la condition sur la dimension (donnée page 17) est une condi-
tion suffisante non nécessaire de garantie de performances.
Si cette intuition est bien fondée, alors elle signifie que les données sont
cantonnées au voisinage d’une variété non linéaire de dimension plus
faible. On peut s’en convaincre en calculant par exemple la dimension
fractale moyenne des données. Le problème consiste ensuite à iden-
tifier, par voie homotopique, la surface en question, et à “projeter”
les données sur un espace vectoriel de même dimension. J’envisage
volontiers une coopération avec J. Hérault de l’INPG sur ce sujet.
30 Dans un certain nombre de situations pratiques, il peut être intéressant
de bâtir un classifieur à K classes avec des briques simples; l’intérêt
peut tout simplement provenir d’une question de rentabilité de produc-
tion en grand nombre. Je baptise ce problème “classification modu-
laire”. Le premier exemple est celui où ces briques sont des classifieurs
binaires. Le second, déjà étudié en communications, est celui de la
classification à ressources distribuées avec contraintes de communica-
tions entre processeurs. Le troisième exemple, dont j’ai déjà parlé page
16, est celui de la classification distribuée avec contraintes de mémoire
totale.
La classification modulaire nécessite bien sûr la mise au point
d’algorithmes, mais aussi soulève des questions d’ordre plus théoriques
relevant de l’optimalité de l’approche (critère d’optimisation, bornes
ultimes sur les performances indépendamment de tout algorithme...).
Une coopération est en cours avec l’EPFL sur un des aspects de ce
problème.
110 CHAPITRE 5
Chapitre 6
Bibliographie
6.1 Publications personnelles

Les publications sont regroupées par type, puis listées par ordre rétro-
chronologique dans chacun des types. Les articles de conférence parus dans
des proceedings réédités sous forme de livre sont classés dans la rubrique
“conférences avec actes”.
6.1.1 Articles parus dans des revues internationales ou dans

des ouvrages édités en langue anglaise
[1] P. COMON, “Structured matrices and inverses”, in Linear Algebra
for Signal Processing, A. Bojanczyk, G. Cybenko, Eds., vol. 69 of
IMA Volumes in Mathematics and its Applications, pp. 1–16. Springer
Verlag, 1995.
[2] P. COMON, “Independent Component Analysis, a new concept ?”,
Signal Processing, Elsevier, vol. 36, no. 3, pp. 287–314, Apr. 1994,
Special issue on Higher-Order Statistics.
[3] E. CHAUMETTE, P. COMON, D. MULLER, “An ICA-based tech-
nique for radiating sources estimation; application to airport surveil-
lance”, IEE Proceedings - Part F, vol. 140, no. 6, pp. 395–401, Dec.
1993, Special issue on Applications of High-Order Statistics.
[4] P. COMON, P. LAURENT, “Displacement rank of generalized inverses
of persymmetric matrices”, SIAM Journal on Matrix Analysis, vol. 14,
no. 3, pp. 646–654, July 1993.
111
112 CHAPITRE 6
[5] P. COMON, “MA identification using fourth order cumulants”, Signal

Processing, Eurasip, vol. 26, no. 3, pp. 381–388, 1992.
[6] P. COMON, C. JUTTEN, J. HERAULT, “Separation of sources, part

II: Problems statement”, Signal Processing, vol. 24, no. 1, pp. 11–20,
July 1991.
[7] P. COMON, G. H. GOLUB, “Tracking of a few extreme singular

values and vectors in signal processing”, Proceedings of the IEEE, vol.
78, no. 8, pp. 1327–1343, Aug. 1990, Published from Stanford report
78NA-89-01, feb 1989.
[8] P. COMON, Y. ROBERT, D. TRYSTRAM, “Systolic implementa-

tion of the adaptive solution to normal equations”, Computer Vision,
Graphics and Image Processing, vol. 52, pp. 402–408, 1990.
[9] J. Y. BLANC, P. COMON, D. TRYSTRAM, “Using preconditioned

conjugate gradient for solving consecutive linear systems”, Commu-
nications in Applied Numerical Methods, vol. 6, no. 3, pp. 231–240,
1990.
[10] P. COMON, D. T. PHAM, “Estimation of the order of a FIR filter for

noise cancellation”, IEEE Trans. on Inf. Theory, vol. 36, no. 2, pp.
429–434, Mar. 1990.
[11] P. COMON, D. T. PHAM, “An error bound for a noise canceller”,

IEEE Trans. on ASSP, vol. 37, no. 10, pp. 1513–1517, Oct. 1989.
[12] P. COMON, L. KOPP, “Comments on a real-time high resolution

technique for angle of arrival estimation”, Proceedings of the IEEE,
vol. 77, no. 3, pp. 492–494, Mar. 1989.
[13] P. COMON, D. TRYSTRAM, “An incomplete factorization algorithm

for adaptive filtering”, Signal Processing, vol. 13, pp. 353–360, Dec.
1987.
[14] P. COMON, Y. ROBERT, “A systolic array for computing B A-1”,

IEEE Trans. on ASSP, vol. 35, no. 6, pp. 717–723, 1987.
[15] P. COMON, J. L. LACOUME, “Noise reduction for an estimated

Wiener filter using noise references”, IEEE Trans. on Information
Theory, vol. 32, no. 2, pp. 310–313, Mar. 1986.
BIBLIOGRAPHIE 113
6.1.2 Articles parus dans des revues en langue française

[16] E. KAZAMARANDE, P. COMON, “Performances numériques de
l’algorithme de Levinson”, RAIRO Mathematical Modeling and Nu-
merical Analysis, vol. 29, no. 2, pp. 123–170, June 1995.
[17] P. COMON, “Circularité et signaux aléatoires à temps discret”, Trai-
tement du Signal, vol. 11, no. 5, pp. 417–420, Dec 1994.
[18] P. COMON, “Classification supervisée par réseaux multicouches”,
Traitement du Signal, vol. 8, no. 6, pp. 387–407, dec 1991.
[19] P. COMON, “Performances de la régression linéaire dans le cas
gaussien”, Traitement du Signal, vol. 8, no. 4, pp. 281–282, 1991.
[20] P. COMON, “Classification bayésienne distribuée”, Revue Technique
Thomson CSF, vol. 22, no. 4, pp. 543–561, 1990.
[21] P. COMON, “Analyse en Composantes Indépendantes et identification
aveugle”, Traitement du Signal, vol. 7, no. 3, pp. 435–450, Dec. 1990,
Numero special non lineaire et non gaussien.
[22] P. COMON, D. TRYSTRAM, Y. ROBERT, “Implementation sys-
tolique de systemes adaptatifs”, Traitement du Signal, vol. 4, no. 4,
pp. 73–85, 1987.
[23] P. COMON, “Estimation multivariable complexe”, Traitement du
Signal, vol. 3, no. 2, pp. 97–101, 1986.
6.1.3 Articles soumis à des revues avec comité de lecture

[24] P. COMON, B. MOURRAIN, “Decomposition of quantics in sums
of powers of linear forms”, Signal Processing, Feb. 1995, submitted,
special issue on High-Order Statistics, Giannakis and Swami editors.
[25] P. COMON, G. BIENVENU, “Ultimate performance of QEM classi-
fiers”, IEEE Trans. Neural Networks, May 1995, submitted.
[26] B. EMILE, P. COMON, “Estimation of time delays between colored
sources”, IEEE Trans. on Signal Processing, 1995, submitted.
6.1.4 Conférences avec actes

[27] B. EMILE, P. COMON, “Estimation de temps de retard entre signaux
colorés”, in XVieme Colloque Gretsi, Juan les Pins, 18–22 Sept 1995.
114 CHAPITRE 6
[28] P. COMON, Y. CHENEVAL, “Supervised classification with variable

kernel estimators”, in IWANN, Mira Cabestany Prieto, Ed., Malaga,
Spain, June 7-11 1995, pp. 1099–1106, Springer-Verlag, Lecture Notes
in Computer Sciences.
[29] P. COMON, “Supervised classification, a probabilistic approach”, in
ESANN-European Symposium on Artificial Neural Networks, Verley-
sen, Ed., Brussels, Apr 19-21 1995, pp. 111–128, D facto Publ., invited
paper.
[30] P. COMON, L. DERUAZ, “Normality tests for coloured samples”,
in IEEE-ATHOS Workshop on Higher-Order Statistics, Begur, Spain,
12–14 June 1995, pp 217–221.
[31] B. EMILE, P. COMON, J. LE ROUX, “Estimation of time delays
between wide-band sources”, in IEEE-ATHOS Workshop on Higher-
Order Statistics, Begur, Spain, 12–14 June 1995, pp 111-115.
[32] P. COMON, B. EMILE, “Estimation of time delays in the blind mix-
ture problem”, in EUSIPCO 94, Edinburgh, Scotland, September
13-16 1994, pp. 482–485.
[33] P. COMON, J. L. VOZ, M. VERLEYSEN, “Estimation of performance
bounds in supervised classification”, in ESANN-European Symposium
on Artificial Neural Networks, M. Verleysen, Ed., 45 rue Masui, B-1210
Brussels, Belgium, April 20-22 1994, pp. 37–42, D facto Publ.
[34] P. COMON, B. MOURRAIN, “Decomposition of quantics in sums of
powers”, in SPIE conference on Advanced Signal Processing V, San
Diego, July 24–29 1994, pp. 93–104.
[35] P. COMON, “Tensor diagonalization, a useful tool in signal process-
ing”, in IFAC-SYSID, 10th IFAC Symposium on System Identifica-
tion, M. Blanke, T. Soderstrom, Eds., Copenhagen, Denmark, July
4-6 1994, vol. 1, pp. 77–82, invited session.
[36] P. COMON, “Remarques sur la diagonalisation tensorielle par la meth-
ode de Jacobi”, in XIVeme Colloque Gretsi, 13-16 Septembre 1993, pp.
125–128.
[37] P. COMON, G. BIENVENU, T. LEFEBVRE, “Supervised design of
optimal receivers”, in Acoustic Signal Processing for Ocean Exploration
Processing and Ocean Exploration, J. M. F. Moura, I. M. G. Lourtie,
Eds. 1993, pp. 547–552, Kluwer Academic Publishers, Proceedings of
BIBLIOGRAPHIE 115
the NATO Advanced Study Institute on Acoustic Signal Processing

and Ocean Exploration, July 26-Aug. 7, 1992, Madeira, Portugal.
[38] E. CHAUMETTE, P. COMON, D. MULLER, “Application of ICA to
airport surveillance”, in IEEE Signal Processing Workshop on High-
Order Statistics, South Lake Tahoe, California, June 7-9 1993, pp.
210–214.
[39] C. JUTTEN, P. COMON, “Neural Bayesian classifier”, in IWANN,
A. Prito J. Mira, J. Cabestany, Ed., Stiges, Spain, June 9–11 1993, pp.
119–124, Springer Verlag.
[40] P. COMON, “Independent component analysis, and the diagonaliza-
tion of symmetric tensors”, in European Conference on Circuit Theory
and Design ECCTD, H. Dedieu, Ed., Davos, Aug 30-Sept 3 1993, pp.
185–190, Elsevier, invited session.
[41] P. COMON, “Displacement rank of pseudo-inverses”, in International
Conference on Acoustics, Speech and Signal Processing - ICASSP,
Mar. 23-26 1992, vol. V, pp. 49–52.
[42] P. COMON, “Blind identification in presence of noise”, in Proc.
European Signal Processing Conf. EUSIPCO, Brussels, Aug 24 - 27
1992, pp. 835–838.
[43] P. COMON, “Independent component analysis”, in Proc. Int. Sig.
Proc. Workshop on Higher-Order Statistics, Chamrousse, France, July
10-12 1991, pp. 111–120, Republished in Higher-Order Statistics,
J.L.Lacoume ed., Elsevier, 1992, pp 29–38.
[44] P. COMON, G. BIENVENU, “Detection et estimation supervisees”, in
XVieme Colloque Gretsi, Juan les Pins, 16–20 Sept 1991, pp. 277–280.
[45] J. F. CARDOSO, P. COMON, “Tensor-based independent compo-
nent analysis”, in Proc. European Signal Processing Conf. EUSIPCO,
Barcelona, Spain, September 18-21 1990, pp. 673–676.
[46] P. COMON, “High-order separation, application to detection and lo-
calization”, in Proc. European Signal Processing Conf. EUSIPCO,
Barcelona, Spain, September 18-21 1990, pp. 277–280.
[47] P. COMON, J. F. CARDOSO, “Eigenvalue decomposition of a cu-
mulant tensor with applications”, in SPIE Conference on Advanced
Signal Processing Algorithms, San Diego, California, July 10-12 1990,
pp. 361–372, Architectures and Implementations, vol.1348.
116 CHAPITRE 6
[48] P. COMON, “Separation of stochastic processes”, in Proc. Workshop

on Higher-Order Spectral Analysis, Vail, Colorado, June 28-30 1989,
IEEE-ONR-NSF, pp. 174–179.
[49] P. COMON, “Separation of sources using high-order cumulants”, in

SPIE Conference on Advanced Algorithms and Architectures for Signal
Processing, San Diego, California, August 8-10 1989, pp. 170–181, vol.
Real-time signal processing XII.
[50] P. COMON, “Separation de melanges de signaux”, in XII Colloque

Gretsi, Juan les Pins, 12 -16 juin 1989, pp. 137–140.
[51] P. COMON, “Statistical approach to the Jutten-Herault algorithm”,

in NATO Workshop on Neuro-Computing, Les Arcs, France, Feb. 27-
March 3 1989, Republished in: Neurocomputing, Algorithms, Archi-
tectures and Applications, F.Fogelman and J. Herault editors, NATO
ASI series, Springer Verlag, 1990, pp81–88.
[52] P. COMON, “Fast updating of a low-rank approximate to a vary-

ing hermitian matrix”, in 22nd Asilomar Conference, Pacific Grove,
Nov. 2-4 1988, pp. 358–362.
[53] P. COMON, “Fast computation of a restricted subset of eigenpairs

of a varying hermitian matrix”, in NATO ASI on Num. Linear Alge-
bra, Digital Sig.Proc. and Parallel Algorithms, Leuven, Belgium, Aug.
1988, Republished in: Numerical Linear Algebra, Digital Signal Pro-
cessing and Parallel Algorithms, G.H. Golub and P. VanDooren edi-
tors, Springer Verlag, NATO ASI series vol. F70, 1991, pp457–466.
[54] P. COMON, “Adaptive computation of a few extreme eigenpairs of

a positive definite hermitian matrix”, in European Signal Processing
Conference EUSIPCO, Grenoble, France, Sept. 5-8 1988, pp. 647–650.
[55] P. COMON, T. KAILATH, “An array processing technique using the

first principal component”, in First International Workshop on SVD
and Signal Processing, Sept. 1987, Extended version published in:
SVD and Signal Processing, E.F. Deprettere editor, North Holland,
1988, 301–316.
[56] E. MOISAN, P. COMON, “Ponderations variables pour les filtres en

treillis adaptatifs”, in XIe Colloque GRETSI, Nice, 1-5 juin 1987, pp.
309–312.
BIBLIOGRAPHIE 117
[57] P. COMON, J. L. LACOUME, “About Capon estimator optimality”,

in Third Workshop on Spectrum Estimation and Modeling, Boston,
Nov. 17-18 1986.
[58] P. COMON, J. L. LACOUME, “Signal estimation using a reception
model”, in International Symposium EUSIPCO, The Hague, Nether-
lands, Sept. 2-5 1986.
[59] P. COMON, J. L. LACOUME, “A robust adaptive filter for noise
reduction problems”, in International Conference on Acoustics, Speech
and Signal Processing - ICASSP, Tokyo, Japan, Apr. 7-11 1986, pp.
2599–2602.
[60] P. COMON, F. PLANSON, “Ground response to electromagnetic nat-
ural excitation”, in IASTED International Symposium, Paris, June 19-
21 1985, vol. Applied Signal Processing, pp. 271–274.
[61] P. COMON, G. LEJEUNE, “Extrapolation de signaux lacunaires”, in
IXeme Colloque Gretsi, Nice, 16-20 mai 1983, pp. 199–203.
6.1.5 Livres
[62] L. KOPP, P. COMON, J. P. LECADRE, Traitement d’antenne Sonar,
livre en préparation.
[63] J. L. LACOUME, P. COMON, P. O. AMBLARD, Statistiques d’ordre
élevé en traitement du signal, livre en préparation.
6.1.6 Autres: Brevets, Conférences sans actes, notes de

cours
[64] P. COMON, B. EMILE, “Estimation de temps de retard à l’aide de
cumulants”, in Journée signal de cergy, ENSEA, Cergy, 2 fev 1995,
pp. 18–20.
[65] C. JUTTEN et al., Enhanced learning for evolutive neural architec-
tures, Louvain la Neuve, April 1995.
[66] P. COMON, Procédé et Dispositif d’Estimation Aveugle de Retards
Différentiels, 1993, Brevet enregistré en aout 1994 pour Thomson-
Sintra, no 59-358V(X 5991).
[67] P. COMON, C. JUTTEN, Neural classifiers, Courses notes, Neuro-
Nimes, Oct. 1993.
118 CHAPITRE 6
[68] P. COMON, J. L. LACOUME, “Statistiques d’ordres supérieurs pour

le traitement du signal”, Ecole Predoctorale de Physique, Les Houches,
30 aout – 10 septembre 1993, P. Flandrin et J. L. Lacoume ed.
[69] P. COMON, “Wavefields separation: Neural networks versus batch
methods”, in EAPG Workshop on Multichannel Filtering of Seismic
Data, Paris, June 1992, Abstracts only.
[70] P. COMON, “Structured matrices and their inverses”, in IMA Work-
shop on Linear Algebra for Signal Processing, Minneapolis, Apr. 6-10
1992.
[71] P. COMON, “ATHOS, qu’est-ce que cela évoque pour vous ?”, Trai-
tement du Signal, vol.10, no. 1, 1993, Editorial.
[72] P. COMON, “Distributed detection and estimation”, in ESPRIT
BRA Workshop on Neural Networks and Artificial Vision, Cham-
rousse, France, Jan. 29-30 1991, Proceedings of extended abstracts.
[73] P. COMON, Method and Device for Real-time Signals Separa-
tion, 1989, Patent registrated for Thomson-Sintra, January 1990,
no 9000436. International extension confirmed on March, 1992.
[74] P. COMON, L. KOPP, Traitement du signal Sonar, Notes de cours,
ESSI, 1989-1994.
En outre, une quinzaine de rapports ont été rédigés en relation avec les
contrats de recherche, et ne sont pas mentionnés ici.
6.2 Autres références bibliographiques

[75] K. ABEDMERAIM, P. LOUBATON, E. MOULINES, “Subspace
method for blind identification of multichannel FIR filters in noise field
with unknown spatial covariance”, in Asilomar conference, Asilomar,
California, 1994.
[76] P. O. AMBLARD, J. M. BROSSIER, N. CHARKANI, “New adap-
tive estimation of the fourth-order cumulant...”, in Proc. EUSIPCO,
Edinburgh, Sept. 1994, pp. 466–469.
[77] D. F. ANDREWS, R. GNANADESIKAN, J. L. WARNER, “Methods
for assessing multivariate normality”, in Multivariate Analysis III,
P. R. Krishnaiah, Ed., pp. 95–116. Academic Press, 1973.
BIBLIOGRAPHIE 119
[78] F. J. ANSCOMBE, W. J. GLYNN, “Distribution of the kurtosis statis-

tic b2 for normal samples”, Biometrika, vol. 70, no. 1, pp. 227–234,
1983.
[79] Y. BAR-NESS, J. W. CARLIN, M. L. STEINBERGER, “Bootstrap-
ping adaptive interference cancelers: Some practical limitations”, in
Proc. The Globecom. Conference, Miami, Nov. 1982, pp. 1251–1255,
paper No F3.7.
[80] S. BELLINI, F. ROCCA, “Asymptotically efficient blind deconvolu-
tion”, Signal Processing, Elsevier, vol. 20, pp. 193–209, 1990.
[81] A. BELOUCHRANI, K ABEDMERAIM, J. F. CARDOSO,
E. MOULINES, “Second-order blind separation of correlated sources”,
in Proc. Int. Conf. Digital Signal Processing, Cyprus, 1993, pp. 346–
351.
[82] A. BENVENISTE, M. GOURSAT, “Blind equalizers”, IEEE Trans.
Communications, vol. 32, no. 8, pp. 871–883, Aug. 1984.
[83] A. BENVENISTE, M. GOURSAT, G. RUGET, “Robust identification
of a non-minimum phase system”, IEEE Trans. Auto. Control, vol. 25,
no. 3, pp. 385–399, June 1980.
[84] R. E. BLAHUT, Principles and Practice of Information Theory,
Addison-Wesley, 1987.
[85] A. BLANC-LAPIERRE, R. FORTET, Theorie des Fonctions
Aleatoires, Masson, 1953.
[86] A. BLANC-LAPIERRE, B. PICINBONO, Fonctions aleatoires, Mas-
son, 1981.
[87] C. BOURAIN, P. BONDON, “Efficiency of high-order moment esti-
mates”, in IEEE-ATHOS Workshop on Higher-Order Statistics, Be-
gur, Spain, 12–14 June 1995, pp. 186–190.
[88] K. O. BOWMAN, L. R. SHENTON, “Omnibus contours for depar-
tures from normality based on b1 and b2”, Biometrika, vol. 62, pp.
243–250, 1975.
[89] D. R. BRILLINGER, Time Series, Data Analysis and Theory, Holden-
Day, 1981.
[90] D. De BRUCQ, Theorie du Signal, Masson, 1988.
120 CHAPITRE 6
[91] J. A. CADZOW, O. M. SOLOMON, “Algebraic approach to system

identification”, IEEE Trans. ASSP, vol. 34, pp. 462–469, 1986.
[92] V. CAPDEVIELLE, C. SERVIERE, J. L. LACOUME, “Separation
of wide band sources”, in IEEE-ATHOS Workshop on Higher-Order
Statistics, Begur, Spain, 12–14 June 1995, pp. 66–70.
[93] J. F. CARDOSO, “Localisation et identification par la quadricovari-
ance”, Traitement du Signal, vol. 7, no. 5, pp. 397–406, Dec. 1990.
[94] J. F. CARDOSO, “On the performance of source separation algo-
rithms”, in Proc. EUSIPCO, Edinburgh, Sept. 1994, pp. 776–779.
[95] J. F. CARDOSO, S. BOSE, B. FRIEDLANDER, “Output cumu-
lant matching for source separation”, in IEEE-ATHOS Workshop on
Higher-Order Statistics, Begur, Spain, 12–14 June 1995, pp. 44–48.
[96] J. F. CARDOSO, A. SOULOUMIAC, “Blind beamforming for non-
Gaussian signals”, IEE Proceedings - Part F, vol. 140, no. 6, pp. 362–
370, Dec. 1993, Special issue on Applications of High-Order Statistics.
[97] J. F. CARDOSO, A. SOULOUMIAC, “An efficient technique for
blind separation of complex sources”, in Proc. IEEE SP Workshop
on Higher-Order Stat., Lake Tahoe, USA, 1993, pp. 275–279.
[98] P. CHEVALIER, “On the performance of higher order blind sources
separation methods”, in IEEE-ATHOS Workshop on Higher-Order
Statistics, Begur, Spain, 12–14 June 1995, pp. 30–34.
[99] W. J. CONOVER, Practical NonParametric Statistics, Wiley, 1980.
[100] S. CSÖRGÖ, “Testing for normality in arbitrary dimension”, The
Annals of Statistics, vol. 14, no. 2, pp. 708–723, 1986.
[101] R. D’AGOSTINO, “An omnibus test of normality for moderate and
large size samples”, Biometrika, vol. 58, no. 2, pp. 341–348, 1971.
[102] R. D’AGOSTINO, E. S. PEARSON, “Tests for departure from normal-
ity. empirical results for the diustribution of b2 and b1”, Biometrika,
vol. 60, no. 3, pp. 613–622, 1973.
[103] G. E. DALLAL, L. WILKINSON, “An analytic approximation to the
distribution of Lilliefors’s test statistic for normality”, The American
Statistician, vol. 40, no. 4, pp. 294–296, Nov. 1986.
BIBLIOGRAPHIE 121
[104] D. DEMBELE, Identification de modèles ARMA linéaires à l’aide de

statistiques d’ordre élevé, Application à l’égalisation aveugle, Doctorat,
Université de Nice Sophia-Antipolis, juillet 1995.
[105] D. DONOHO, “On minimum entropy deconvolution”, in Applied
time-series analysis II, pp. 565–609. Academic Press, 1981.
[106] T. W. EPPS, “Testing that a stationary time series is Gaussian”, The
Annals of Statistics, vol. 15, no. 4, pp. 1683–1698, 1987.
[107] G. FAVIER, Filtrage, modélisation et identification de systèmes
liéaires stochastiques à temps discret, CNRS, 1982.
[108] G. FAVIER, D. DEMBELE, J. L. PEYRE, “Identification de
modèles paramétriques AR, MA, et ARMA avec les statistiques d’ordre
supérieur, et analyse des performances”, in XIVeme Colloque Gretsi,
13-16 Septembre 1993, pp. 137–140.
[109] G. FAVIER, J. P. PUY, G. MAYNARD, “Identification de modèles
ARMA”, in XIIème Colloque Gretsi, Juan les Pins, 12 -16 juin 1989,
pp. 153–156.
[110] L. FETY, Methodes de Traitement d’Antenne Adaptees aux Radio-
communications, Doctorat, ENST, 1988.
[111] I. FIJALKOW, P. LOUBATON, “Identification of rank one rational
spectral densities from noisy observations: a stochastic realization ap-
proach”, Systems and Control Letters, , no. 24, pp. 201–205, 1995.
[112] R. FORTET, Elements de la theorie des probabilites, CNRS, 1965.
[113] K. FUKUNAGA, T. E. FLICK, “A test of the Gaussian-ness of a data
set using clustering”, IEEE Trans. Pattern Ana. Mach. Intel., vol. 8,
no. 2, pp. 240–247, 1986.
[114] M. GAETA, J. L. LACOUME, “Source separation without a priori
knowledge: the maximum likelihood solution”, in Proc. EUSIPCO,
Barcelona, Spain, 1990, pp. 621–624.
[115] F. GAMBOA, “Separation of sources having unknown discrete sup-
ports”, in IEEE-ATHOS Workshop on Higher-Order Statistics, Begur,
Spain, 12–14 June 1995, pp. 56–60.
[116] T. GASSER, “Goodness-of-fit tests for correlated data”, Biometrika,
vol. 62, no. 3, pp. 563–570, 1975.
122 CHAPITRE 6
[117] E. GASSIAT, Déconvolution aveugle, Doctorat, Université de Paris-

sud, Orsay, janvier 1988.
[118] E. GASSIAT, “Blind deconvolution of discrete linear systems per-
turbed with additive noise”, in IEEE-ATHOS Workshop on Higher-
Order Statistics, Begur, Spain, 12–14 June 1995, pp. 305–309.
[119] S. Van GERVEN, D. Van COMPERNOLLE, “On the use of decorre-
lation in scalar signal separation”, in IEEE International Conference
on Acoustics, Speech and Signal Processing (ICASSP’94), vol.III, Ade-
laide, Australia, Apr. 1994, pp. 57–60.
[120] D. GESBERT, P. DUHAMEL, S. MAYRARGUE, “Subspace-based
adaptive algorithms for the blind equalization of multichannel FIR
filters”, in Proc. EUSIPCO, Edinburgh, Sept. 1994, pp. 712–715.
[121] G. B. GIANNAKIS, M. K. TSATSANIS, “Time-domain tests for
Gaussianity and time-reversibility”, IEEE Trans. on Signal Process-
ing, vol. 42, no. 12, pp. 3460–3472, Dec. 1994.
[122] N. R. GOODMAN, “Statistical analysis based on certain multivariate
complex normal distributions”, Annals Math. Stat., vol. 34, pp. 152–
177, 1963.
[123] E. J. HANNAN, Multiple time series, Wiley, 1970.
[124] E. J. HANNAN, M. DEISTLER, The statistical theory of linear sys-
tems, Wiley, 1988.
[125] J. HERAULT, C. JUTTEN, Réseaux neuronaux et traitement du si-
gnal, Traitement du Signal. Hermes, Paris, 1994.
[126] J. HERTZ, A. KROGH, R. G. PALMER, Introduction to the theory
of Neural Computation, Addison Wesley, 1991.
[127] M. HINICH, “Testing for Gaussianity and linearity of a stationary time
series”, Journal of Time Series Analysis, vol. 3, no. 3, pp. 169–176,
1982.
[128] P. J. HUBER, “Projection pursuit”, The Annals of Statistics, vol. 13,
no. 2, pp. 435–475, 1985, Invited paper with discussion.
[129] Y. INOUYE, “Modeling of multichannel time series and extrapolation
of matrix-valued autocorrelation sequences”, IEEE Trans ASSP, vol.
31, no. 1, pp. 45–55, Feb. 1983.
BIBLIOGRAPHIE 123
[130] Y. INOUYE, T. HABE, “Blind equalization of multichannel linear

time-invariant systems”, The Institute of Electronics Information and
Communication Engineers, , no. 24, pp. 9–16, May 1995.
[131] N. L. JOHNSON, S. KOTZ, Distributions in statistics: Continuous
Univariate Distributions-1, Wiley, 1970.
[132] C. JUTTEN, J. HÉRAULT, “Independent component analysis versus
PCA”, in Proc. EUSIPCO, Grenoble, France, 1988, pp. 643–646.
[133] C. JUTTEN, J. HERAULT, “Blind separation of sources, part I: An
adaptive algorithm based on neuromimetic architecture”, Signal Pro-
cessing, Elsevier, vol. 24, no. 1, pp. 1–10, 1991.
[134] A. M. KAGAN, Y. V. LINNIK, C.R. RAO, Characterization Problems
in Mathematical Statistics, Wiley, 1973.
[135] T. KAILATH, Linear Systems, Prentice-Hall, 1980.
[136] M. KENDALL, A. STUART, The Advanced Theory of Statistics, Dis-
tribution Theory, vol. 1, C. Griffin, 1977.
[137] M. KENDALL, A. STUART, The Advanced Theory of Statistics, De-
sign and Analysis, and Time-Series, vol. 3, C. Griffin, 1979.
[138] S. KOTZ, N. L. JOHNSON, Encyclopedia of Statistical Sciences, Wi-
ley, 1982.
[139] M. KROB, Identification aveugle de modèles non linéaires à l’aide de
statistiques d’ordre supérieur, Doctorat de l’Université de Paris-sud,
Orsay, 8 fevrier 1994.
[140] M. KROB, M. BENIDIR, “Blind identification of a linear-quadratic
mixture”, in Proc. IEEE SP Workshop on Higher-Order Stat., Lake
Tahoe, USA, 1993, pp. 351–355.
[141] M. KROB, M. BENIDIR, “Une fonction de contraste pour
l’identification aveugle d’un modele lineaire quadratique”, in XIVeme
Colloque Gretsi, 13-16 Septembre 1993, pp. 101–104.
[142] J. L. LACOUME, M. GAETA, P. O. AMBLARD, “From order 2 to
HOS: new tools and applications”, in Proc. European Signal Processing
Conf. EUSIPCO, Brussels, Aug 24 - 27 1992, pp. 91–98.
[143] J. L. LACOUME, F. HARROY, “Performances in blind sources sep-
aration”, in IEEE-ATHOS Workshop on Higher-Order Statistics, Be-
gur, Spain, 12–14 June 1995, pp. 25–29.
124 CHAPITRE 6
[144] J. L. LACOUME, P. RUIZ, “Separation of independent sources from

correlated inputs”, IEEE Trans. Sig. Proc., vol. 40, no. 12, pp. 3074–
3078, Dec. 1992.
[145] B. LAHELD, J. F. CARDOSO, “Adaptive source separation without
prewhitening”, in Proc. EUSIPCO, Edinburgh, Sept. 1994, pp. 183–
186.
[146] H. J. LANDAU, “Maximum entropy and the moment problem”, Bul-
letin of the American Math. Soc., vol. 16, no. 1, pp. 47–77, Jan. 1987.
[147] P. LASCAUX, R. THEODOR, Analyse numérique matricielle ap-
pliquée à l’art de l’ingénieur, Masson, 1986.
[148] J. P. LECADRE, “Au carrefour de nombreuses applications, la cali-
bration d’antenne”, Traitement du signal, vol. 10, no. 5, pp. 347, 1993,
Numéro spécial calibration.
[149] C. C. LIN, “A simple test for normality against asymmetric alterna-
tives”, Biometrika, vol. 67, no. 2, pp. 455–461, 1980.
[150] L. LJUNG, T. SODERSTROM, Theory and Practice of Recursive
Identification, MIT Press, Cambridge, 1983.
[151] P. LOUBATON, “Techniques du second ordre pour la déconvolution
aveugle multi-sources multi-capteurs”, in Journée signal de cergy, EN-
SEA, Cergy, 2 fev 1995, pp. 2–15.
[152] G. LUKACS, Characteristic functions, Griffin, 1960.
[153] O. MACCHI, Adaptive processing, Wiley, 1995.
[154] O. MACCHI, E. EWEDA, “Convergence analysis of self-adaptive
equalizers”, IEEE Trans. Information theory, vol. 30, no. 2, pp. 161–
176, Mar. 1984.
[155] K. V. MARDIA, “Measures of multivariate skewness and kurtosis with
applications”, Biometrika, vol. 57, pp. 519–530, 1970.
[156] K. V. MARDIA, “Applications of some measures of multivariate skew-
ness and kurtosis for testing normality”, Sankhya B, vol. 36, pp. 115–
128, 1974.
[157] K. V. MARDIA, “Tests of univariate and multivariate normality”,
in Handbook of Statistics, Vol.1, P. R. Krishnaiah, Ed., pp. 279–320.
North-Holland, 1980.
BIBLIOGRAPHIE 125
[158] K. V. MARDIA, K. FOSTER, “Ominibus tests of multinormality

based on skewness and kurtosis”, Commun. Statist. Simula. Computa.,
vol. 12, no. 2, pp. 207–221, 1983.
[159] K. V. MARDIA, M. KANAZAWA, “The null distribution of multi-
variate kurtosis”, Commun. Statist. Simula. Computa., vol. 12, no. 5,
pp. 569–576, 1983.
[160] P. McCULLAGH, Tensor Methods in Statistics, Monographs on Statis-
tics and Applied Probability. Chapman and Hall, 1987.
[161] D. S. MOORE, “A chi-square statistic with random cell boundaries”,
The Annals of Statistics, vol. 42, no. 1, pp. 147–156, 1971.
[162] D. S. MOORE, “The effect of dependence on chi squared tests of fit”,
The Annals of Statistics, vol. 10, no. 4, pp. 1163–1171, 1982.
[163] E. MOREAU, Apprentissage et adaptivité, séparation auto-adaptative
de sources indépendantes par un réseau de neurones, Doctorat de
l’Université de Paris-sud, Orsay, 1 fevrier 1995.
[164] E. MOREAU, O. MACCHI, “Separation de sources adaptative sans
blanchiment prealable”, in XIVeme Colloque Gretsi, 13-16 Septembre
1993.
[165] E. MOREAU, O. MACCHI, “A one stage self-adaptive algorithm for
source separation”, in Proc. ICASSP, Adelaide, Australia., 1994.
[166] E. MOULINES, K. CHOUKRI, M. CHARBIT, “Testing that a mul-
tivariate stationary time series is Gaussian”, in Sixth SSAP Workshop
on Stat. Signal and Array Proc., Oct. 1992, pp. 185–188.
[167] E. MOULINES, P. DUHAMEL, J. F. CARDOSO, S. MAYRAGUE,
“Subspace methods for the blind identification of multichannel FIR
filters”, IEEE Trans. on Signal Processing, vol. 43, no. 2, pp. 516–525,
Feb. 1995.
[168] H. L. NGUYEN-THI, C. JUTTEN, “Comparaison de quelques algo-
rithmes adaptatifs de separation de sources dans un melange convo-
lutif”, in XIV Colloque GRETSI, Juan les Pins, France, Sept. 13–16
1993, pp. 333–336.
[169] C. L. NIKIAS, A. P. PETROPULU, Higher-Order Spectra Analysis,
Signal Processing Series. Prentice-Hall, Englewood Cliffs, 1993.
126 CHAPITRE 6
[170] K. V. PARSHALL, “The one-hundred anniversary of the death of

invariant theory”, The Mathematical Intelligencer, vol. 12, no. 4, pp.
10–16, 1990.
[171] E. S. PEARSON, R. B. D’AGOSTINO, K. O. BOWMAN, “Tests for
departure from normality: Comparison of powers”, Biometrika, vol.
64, no. 2, pp. 231–246, 1977.
[172] E. S. PEARSON, H. O. HARTLEY, Biometrika Tables for Statisti-
cians, vol. I, Cambridge University Press, 1962.
[173] D. T. PHAM, P. GARRAT, “Separation of a mixture of independent
sources through a maximum likelihood approach”, in Proc. European
Signal Processing Conf. EUSIPCO, Brussels, Aug 24 - 27 1992, pp.
771–774.
[174] B. PICINBONO, “Spherically invariant and compound stochastic pro-
cesses”, IEEE Trans. Information Theory, vol. 16, no. 1, pp. 77–79,
Jan. 1970.
[175] B. PICINBONO, Random Signals and Systems, Prentice-Hall, 1993.
[176] B. PICINBONO, “On circularity”, IEEE Trans. Signal Processing,
vol. 42, no. 12, pp. 3473–3482, Dec. 1994.
[177] J. G. PROAKIS, C. L. NIKIAS, “Blind equalization”, in SPIE Adap-
tive Signal Processing, 1991, vol. 1565, pp. 76–88.
[178] S. PROSPERI, “Décomposition de lois, fonctions caractéristiques, et
caractérisation”, Traitement du Signal, vol. 11, no. 2, pp. 117–131,
février 1994.
[179] G. C. REINSEL, Elements of multivariate time series analysis,
Springer-Verlag, 1993.
[180] M. ROSENBLATT, Stationary Processes and Random Fields,
Birkhauser, 1985.
[181] M. ROSENBLATT, “Gaussian and nongaussian linear sequences”, in
New directions in time series analysis, D. Brillinger et al, Ed., vol. 45
of IMA Volumes in Mathematics and its Applications, pp. 327–333.
Springer Verlag, 1992.
[182] D. ROSSILLE, Reconstruction à partir du bispectre, Application à
l’astronomie, Effets de l’échantillonnage et de la stationnarité sur
les spectres d’ordre supérieur, Doctorat, Université de Nice Sophia-
Antipolis, 20 juin 1995.
BIBLIOGRAPHIE 127
[183] J. LE ROUX, D. ROSSILLE, C. HUET, “A multiresolution exten-

sion of Lohmann-Weigelt-Wirnitzer recursion for computing a Fourier
transform phase from a third order spectrum phase”, in IEEE-ATHOS
Workshop on Higher-Order Statistics, Begur, Spain, 12–14 June 1995,
pp. 315–319.
[184] E. M. SANIGA, J. A. MILES, “Power of some standard goodness-of-
fit tests of normality against stable asymmetric alternatives”, Jour.
Am. Stat. Assoc., vol. 74, no. 368, pp. 861–865, Dec. 1979.
[185] C. SERVIERE, V. CAPDEVIELLE, “An identification method of FIR
digital filters in frequency domain”, in Proc. EUSIPCO, Edinburgh,
Sept. 1994, pp. 1058–1061.
[186] O. SHALVI, E. WEINSTEIN, “New criteria for blind deconvolution
of nonminimum phase systems”, IEEE Trans. Inf. Theory, vol. 36, no.
2, pp. 312–321, Mar. 1990.
[187] S. S. SHAPIRO, M. B. WILK, H. J. CHEN, “A comparative study of
various tests for normality”, American Statistical Association Journal,
vol. 63, pp. 1343–1372, Dec. 1968.
[188] J. E. SHORE, R. W. JOHNSON, “Axiomatic derivation of the princi-
ple of maximum entropy and the principle of minimum cross-entropy”,
IEEE Trans. Information Theory, vol. 26, no. 1, pp. 26–37, Jan. 1980.
[189] T. SODERSTROM, P. STOICA, System Identification, Prentice-Hall,
1989.
[190] A. SOULOUMIAC, Utilisation des statistiques d’ordre supérieur pour
la séparation et le filtrage, Doctorat, ENST, Février 1993.
[191] A. SOULOUMIAC, J. F. CARDOSO, “Performances en séparation de
sources”, in Proc. GRETSI, Juan les Pins,France, 1993, pp. 321–324.
[192] Y. STEINBERG, O. ZEITOUNI, “On tests for normality”, IEEE
Trans. on Inf. Theory, vol. 38, no. 6, pp. 1779–1787, Nov. 1992.
[193] M. A. STEPHENS, “Edf statistics for goodness of fit and some com-
parisons”, Journal of the American Statistical Association, vol. 69, no.
347, pp. 730–737, 1974.
[194] A. SWAMI, G. GIANNAKIS, S. SHAMSUNDER, “Multichannel
ARMA processes”, IEEE Trans. on Signal Processing, vol. 42, no.
4, pp. 898–913, Apr. 1994.
128 CHAPITRE 6
[195] P. TICHAVSKY, A. SWAMI, “Statistical characterization of sample

fourth-order cumulants of a noisy complex sinusoidal process”, IEEE
Trans. on Signal Processing, vol. 43, July 1995.
[196] L. TONG, R. LIU, V. C. SOON, “Indeterminacy and identifiability of
blind identification”, IEEE Trans Circuits and Systems, vol. 38, no.
5, pp. 499–509, May 1991.
[197] L. TONG, G. XU, T. KAILATH, “Blind identification and equaliza-
tion based on second-order statistics: a time domain approach”, IEEE
Trans. on Signal Processing, vol. 40, no. 2, pp. 340–349, Mar. 1994.
[198] J. TUGNAIT, “Comments on ‘new criteria for blind deconvolution of
nonminimum phase systems”’, IEEE Trans. Inf. Theory, vol. 38, no.
1, pp. 210–213, Jan. 1992.
[199] J. K. TUGNAIT, “Detection of non-Gaussian signals using integrated
polyspectrum”, IEEE Trans. on Signal Processing, vol. 42, no. 11, pp.
3137–3149, Nov. 1994.
[200] O. VASIECEK, “A test for normality based on sample entropy”, Jour.
Roy. Statist. Soc. B, vol. 38, pp. 54–59, 1976.
[201] R. A. WOODING, “The multivariate distribution of complex normal
variables”, Biometrika, vol. 43, pp. 212–215, 1956.
[202] D. YELLIN, E. WEINSTEIN, “Multi-channel signal separation based
on cross-bispectra”, in Proc. IEEE SP Workshop on Higher-Order
Stat., Lake Tahoe, USA, 1993, pp. 270–274.
[203] D. YELLIN, E. WEINSTEIN, “Criteria for multichannel signal separa-
tion”, IEEE Trans. on Signal Processing, vol. 42, no. 8, pp. 2158–2168,
Aug. 1994.
[204] V. ZIVOJNOVIC, “Higher-order statistics and Huber’s robustness”,
in IEEE-ATHOS Workshop on Higher-Order Statistics, Begur, Spain,
12–14 June 1995, pp. 236–240.
[205] I. G. ZURBENKO, The spectral analysis of time series, North-
Holland, 1985.
BIBLIOGRAPHIE 129
6.3 Annexes
Pour ne pas encombrer inutilement le document, ce sont essentiellement les
articles de revue qui sont rassemblés dans cette annexe.
Sommaire
[1] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
[2] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
[3] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175
[4] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183
[5] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193
[6] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201
[7] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211
[8] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229
[9] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 237
[10] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 247
[11] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253
[12] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 259
[13] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 261
[14] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 269
[15] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 277
[16] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 281
[18] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 329
[19] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 351
[20] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 353
[21] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 373
[23] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 389
[24] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 395
[25] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 415
[26] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 419
Quelques articles de conférence
[27] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 423
[28] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 427
[29] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 435
[35] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 453
[36] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 459
[37] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 463
[45] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 469
[47] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 473
[49] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 485
130 CHAPITRE 6
[50] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 497
[53] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 501

HDR Comon

Transféré par

Droits d'auteur :

Formats disponibles

HDR Comon

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

HDR Comon

Transféré par

Droits d'auteur :

Formats disponibles

Quelques développements récents en traitement du

To cite this version:

HAL Id: tel-00473197

HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est

UNIVERSITE DE NICE SOPHIA-ANTIPOLIS

QUELQUES DEVELOPPEMENTS RECENTS

Présentée le 18 septembre 1995 devant le jury:

Mme Odile Macchi Présidente et Rapporteur

Mr Gérard Favier Examinateur

HABITITATION A DIRIGER DES RECHERCHES

Imprimé le 16 août 1995

Bien évidemment, je remercie les membres du jury pour le temps qu’ils

Je n’oublie pas ma petite famille, qui a souvent dû faire le sacrifice de

Imprimé le 24 juillet 1995

2 Présentation des travaux 11

3 Introduction aux SOE 21

4 Intervention des SOE dans quelques problèmes 47

4.3.2 Polynômes homogènes . . . . . . . . . . . . . . . . . . 100

5 Orientations et perspectives 103

1.1 Organisation du document

dans le chapitre 2, qui porte essentiellement sur l’usage des statistiques

1.2 Présentation succincte

analyse de données; ce concept a de nombreux avantages sur l’ACP dans un

Le troisième volet comprend l’étude d’algorithmes numériques. Ces al-

Le quatrième et dernier volet est intitulé “Apprentissage supervisé”. En

Présentation des travaux

Dans ce chapitre, on propose un exposé des principales publications, étayé

2.1 Traitement d’antenne

résumer ainsi: plus la cohérence entre le bruit perturbateur et les références

2.2 Statistiques d’Ordre Elevé (SOE)

[2] [43] et d’identification aveugles multivariables [49] [5]. Ces utilisations

s’aperçoit que l’on peut le diagonaliser exactement, mais en général de

2.3 Algorithmes numériques

Mais la rapidité n’est pas le seul critère à prendre en compte dans la

2.4 Apprentissage supervisé

fonction polynomiale de ǫ, même dans le cas très favorable où le problème

N = 708000). L’idée proposée dans [2] [29] lorsqu’on est confronté à ce

Cette décomposition a été baptisée Analyse en Sous-espaces Indépendants

2.5 Autres travaux

J’ai également participé au jury de 12 thèses, la plupart du temps en

Enseignement De septembre 1981 à juin 1982, j’ai assuré pendant une

Organisation d’évènements J’ai été convié à participer à l’organisation

Expertises J’expertise très régulièrement des articles soumis à des revues

Invitations Outre quelques invitations à des séminaires privés en France

Introduction aux SOE

3.1 Variables aléatoires réelles scalaires

Φx (v) = E{ evX }, (3.2)

où  désigne la racine de −1. La fonction caractéristique Φ(v) est toujours

Ψx (v) = log( Φx (v) ). (3.3)

Cette nouvelle fonction est communément appelée seconde fonction ca-

Dans ce cas, on retrouve la densité à partir de la première fonction cara-

Notons µ′(r) {X} les moments d’ordre r de X, lorsqu’ils existent:

µ′(r) {X} = E{ X r }, (3.6)

et µ(r) {X} ses moments centrés:

µ(r) {X} = E{ ( X − µ′1 )r }, (3.7)

Les fonctions caractéristiques décrivent complètement la variable aléatoire

Les dérivées de la seconde fonction caractéristique prises à l’origine donnent

On montre [136] que les cumulants d’ordre n peuvent être calculés à

C(1) {X} = µ′(1) , (3.10)