HDR Comon
HDR Comon
HDR Comon
signal
Pierre Comon
Pierre COMON
Pierre Comon
A mes amis
Ceux que les diplômes indiffèrent
Ceux qui s’éloignent sans s’en rendre compte
1 Introduction 7
1.1 Organisation du document . . . . . . . . . . . . . . . . . . . . 7
1.2 Présentation succincte . . . . . . . . . . . . . . . . . . . . . . 8
3
4 TABLE DES MATIERES
6 Bibliographie 111
6.1 Publications personnelles . . . . . . . . . . . . . . . . . . . . 111
6.1.1 Articles parus dans des revues internationales ou dans
des ouvrages édités en langue anglaise . . . . . . . . . 111
6.1.2 Articles parus dans des revues en langue française . . 113
6.1.3 Articles soumis à des revues avec comité de lecture . . 113
6.1.4 Conférences avec actes . . . . . . . . . . . . . . . . . . 113
6.1.5 Livres . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
6.1.6 Autres: Brevets, Conférences sans actes, notes de cours 117
6.2 Autres références bibliographiques . . . . . . . . . . . . . . . 118
6.3 Annexes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
6 TABLE DES MATIERES
Chapitre 1
Introduction
7
8 CHAPITRE 1
11
12 CHAPITRE 2
retour dans le domaine temps permettant une vraie intégration large bande
[31]. Une présentation plus élégante est donnée dans [26]. Nous avons aussi
développé l’autre approche consistant à identifier dans un premier temps un
modèle linéaire multivariable, puis à remonter dans un second temps aux
retards par interpolation [27].
Je participe (modestement) à la rédaction d’un ouvrage de synthèse sur
le traitement d’antenne [62], sous l’impulsion de Laurent Kopp.
pz (A u) ≈ px (u1 ) py (u2 ).
Vie universitaire Sur le plan universitaire, j’ai encadré une thèse sur
le thème des algorithmes rapides pour les systèmes structurés, qui a été
soutenue en septembre 1993 (E. Kazamarande), et en encadre une autre
actuellement sur le thème de l’estimation de temps de retards différentiels
(B. Emile). Il n’est malheureusement pas envisageable d’encadrer plus d’un
étudiant à la fois tout en conservant comme emploi principal la fonction qui
est la mienne à Thomson-Sintra.
PRÉSENTATION DES TRAVAUX 19
Les Statistiques d’Ordre Elevé (SOE), autrement dit, les moments et cumu-
lants d’ordre supérieur à 2, sont utilisées essentiellement en complément aux
statistiques d’ordre 2, afin de permettre la résolution de problèmes restés
insolubles jusqu’alors. L’identification de modèles MA multivariables fait
partie de ces problèmes [194]. En outre, les SOE ont été ensuite (et plus
récemment) exploitées pour améliorer les solutions (conditionnement, iden-
tifiabilité..) déjà apportées par les techniques classiques.
Ce chapitre est surtout destiné au néophyte. Son but est de donner
les définitions et propriétés nécessaires à l’introduction et à l’estimation des
SOE.
21
22 CHAPITRE 3
ance de X, mais également des fonctions exponentielles. C’est ainsi que l’on
associe “des fonctions caractéristiques” aux variables aléatoires.
La première fonction caractéristique de X est:
1
Ψx (v) = µ′(1) v − µ v2 , (3.18)
2 (2)
ce qui montre que ses cumulants d’ordre supérieur à 2 sont tous nuls. In-
versement cette propriété caractérise la loi gaussienne [134]. On peut donc
en déduire que les variables gaussiennes sont entièrement décrites par leurs
propriétés au second ordre. Ceci explique pourquoi les chercheurs en traite-
ment du signal se sont longtemps limités au second ordre. En “invoquant”
le théorème de la limite centrale, on peut penser que la plupart des signaux
ont tendance à être gaussiens, mais ce point de vue est erroné. Nous aurons
l’occasion d’y revenir.
La variance de X, C(2) {X} caractérise la puissance de X. Les
quantités C(3) {X} et C(4) {X} caractérisent respectivement l’asymétrie et
l’aplatissement de la loi, en prenant la loi gaussienne comme référence. Afin
de rendre ces mesures indépendantes de la variance, on a coutume d’utiliser
des grandeurs standardisées parfois appelées facteur d’asymétie (skewness
en anglais) et facteur d’aplatissement (ou kurtosis, mot de racine grecque1
1
κύρτ ωσις: action de courber, convexité.
24 CHAPITRE 3
X T = (X1 , X2 . . . Xn ) . (3.23)
Les cumulants d’ordre 2 sont des grandeurs à 2 indices, qui peuvent être
rangés dans une matrice (la matrice de covariance):
∂ r Φx (v)
µ′i1 i2 ..ir {x} = (−)r . (3.31)
∂vi1 ∂vi2 ..∂vir v=0
Il est inutile de réécrire cette relation pour les cumulants car elle se déduit
de celle-ci en remplaçant Φ par Ψ.
Comme dans le cas scalaire, il est possible d’établir des égalités liant
moments et cumulants en développant la fonction log en série entière. On
obtient par exemple:
[3] δij δkl = δij δkl + δik δjl + δil δjk , (3.33)
[3] aij bk cijk = aij bk cijk + aik bj cijk + ajk bi cijk . (3.34)
Il est intéressant de comparer ces expressions avec celles que l’on a obtenu
dans le cas scalaire.
De façon plus générale, les cumulants sont liés aux moments par la for-
mule de Leonov et Shiryaev (donnée ici à l’ordre r):
(−1)k−1 (k − 1)! E{
X Y Y Y
C{X1 , ..., Xr } = Xi } · E{ Xj } · · · E{ Xk },
i∈v1 j∈v2 k∈vp
(3.40)
où la sommation s’étend sur tous les ensembles {v1 , v2 , · · · , vp ; 1 ≤ p ≤ r}
formant une partition de {1, 2, · · · , r}. Cette expression s’étend au cas où les
{vi } ne décrivent plus nécessairement toutes les partitions; on parle alors de
cumulants généralisés [160, page 60].
INTRODUCTION AUX SOE 27
Multicorrélations
A l’instar de la fonction de corrélation d’ordre 2, on peut définir des fonctions
de multicorrélation d’ordre supérieur. Aux ordres 2 et 3, les moments centrés
et les cumulants sont confondus, de sorte qu’il n’existe pas d’ambiguité. En
revanche aux ordres plus grands, il faudra prendre garde à préciser s’il s’agit
de “multicorrélations cumulantes” ou non.
Lorsque ce n’est pas spécifié, on considère en général qu’il s’agit multi-
corrélations cumulantes, par défaut. A l’ordre r on définit par exemple:
CX,i1 i2 ..ir (t; τ2 , .., τr ) = C{Xi1 (t), Xi2 (t + τ2 ), ..., Xir (t + τr )}. (3.41)
Il est clair qu’un processus stationnaire (au sens strict) est stationnaire
à tous les ordres jusqu’à r si ses moments sont finis jusqu’à l’ordre r.
pour tout scalaire complexe a. Nous avons par conséquent à notre disposition
les mêmes outils que dans le cas de variables réelles. Cependant, les variables
aléatoires complexes sont la plupart du temps obtenues par Transformée
de Fourier (TF) de données réelles, ce qui leur confère une structure très
particulière. Les variables aléatoires complexes obtenues de cette façon ne
sont donc pas de simples variables aléatoires à 2 composantes réelles, mais
des contraintes lient ces 2 composantes. C’est pourquoi il est pertinent
d’introduire les variables aléatoires dites circulaires.
∃f / ΦZ (u) = f (u†Cu)
où C est une matrice hermitienne définie positive. Autrement dit, avec ces
définitions, toute variable sphériquement invariante est circulaire, mais la
réciproque n’est pas vraie.
Dans la suite, nous aurons besoin de la définition restrictive suivante:
Notons que cette définition ne suppose pas nécessairement que les mo-
ments sont finis pour p = q.
Dans le cas gaussien, la circularité à l’ordre 2 entraine la circularité à
tous les ordres, et est caractérisée par deux propriétés liant les parties réelle
et imaginaire. En effet, posons Z = A + B. Si Z est circulaire, alors
E{ZZ T } = 0 implique que E{AAT −BB T } = 0 et que E{AB T +BAT } = 0.
Autrement dit, A et B ont même matrice de covariance, et leur covariance
30 CHAPITRE 3
croisée est antisymétrique. C’est ainsi qu’ont été définies les variables gaussi-
ennes complexes circulaires [201] [122].
Différentes définitions possibles de circularité ont été récemment passées
en revue, et analysées plus en profondeur dans [176]. On remarquera no-
tamment que la définition de la circularité conjointe des composantes d’un
vecteur aléatoire est une notion bien plus forte que la circularité marginale
de chacune de ses composantes.
l’ordre r, c’est à dire que X(t) soit stationnaire d’ordre r et que ses multi-
corrélations d’ordre r soient absolument sommables:
X
|Ca1 ..ar (u2 , .., ur )| < ∞. (3.50)
(u2 ,..,ur )∈ZZ r−1
def
α = cum{Za1 (λ1 ), .., Zar (λr )} (3.55)
X XZ λ1 Z λr
= .. .. C12..r (t2 − t1 , .., tr − t1 )
t1 tr −1/2 −1/2
Pr
yk tk
e−2π k=1 dy1 ..dyr . (3.56)
X Z λ1 Z λr Z Z X
α = .. .. exp{−2π t(y1 + Σ uk )}
t2 ..tr −1/2 −1/2 t
r
X
exp{2π (uk − yk )tk } dG(u2 , .., ur )dy1 ..dyr . (3.57)
k=2
Proposition 3.3.5 Si en outre X(t) est sommable à tous les ordres jusqu’à
r, alors pour toute fréquence λ telle que |λ| < 1r , les vecteurs dZ(λ) sont
circulaires à l’ordre (p + q) = r. Autrement dit:
∗ ∗
E{dZn1 (λ)..dZnp (λ) dZm 1
(λ)..dZm q
(λ)} = 0
dès que p 6= q, 1 ≤ p, q ≤ r.
Notons que pour les processus à temps continu, la circularité décrite
ci-dessus serait toujours assurée, pourvu que les écritures (3.47) et (3.49)
soient autorisées (par exemple, lorsque les mesures multispectrales dG sont
absolument sommables). On peut le vérifier en constatant que si la fréquence
d’échantillonage tend vers l’infini, alors la condition sur la fréquence réduite
|λ| < 1r tend à être toujours vraie pour toute valeur λ finie.
Démonstration. Soit s un entier quelconque, s ∈ {1, 2, .., r}, et p et q
deux entiers positifs tels que p + q = s. Appliquons la proposition 3.3.4 avec
λ1 = λ2 = .. = λp = λ et λp+1 = λp+2 = .. = λp+q = −λ. La somme des
fréquences vaut λi = (p − q)λ. Si p 6= q, alors une condition suffisante
P
pour que (p − q)λ ne soit jamais entier est que 0 < (p + q)|λ| < 1. Le terme
P
δ1 ( λi ) est donc toujours nul sous les hypothèses de la présente proposition.
Comme X(t) est sommable à tous les ordres jusqu’à r = (p + q), il admet
une densité multispectrale d’ordre s définie par:
dGa1 a2 ..as (λ2 , .., λs ) = fa1 a2 ..as (λ2 , .., λs ) dλ2 ..dλs ,
où fa1 a2 ..as est finie. D’après la proposition 3.3.4, tous les cumulants de
dZ(λ) d’ordre s sont donc nuls, pour tous les ordres s inférieurs ou égaux à
r. Comme les moments sont fonctions polynômiales des cumulants, ils sont
par conséquent aussi tous nuls.
Nous renvoyons le lecteur à l’article récent de B. Picinbono [176] pour une
discussion plus complète, et en particulier sur les conditions de circularité
conjointe.
linéaire y = Ax, où A est une matrice quelconque. Alors les moments et
cumulants de y sont des fonctions formellement linéaires de chacune des
composantes Aij . Par exemple nous aurons:
X
C{yi , yj } = Aia Ajb C{xa , xb }, (3.59)
a,b
X
C{yi , yj , yk } = Aia Ajb Akc C{xa , xb , xc }, (3.60)
a,b,c
X
µ{yi , yj , yk } = Aia Ajb Akc µ{xa , xb , xc }, (3.61)
a,b,c
X
C(3) {yi } = Aia Aib Aic C{xa , xb , xc } . . . (3.62)
a,b,c
†
Démonstration. Il suffit de remarquer que ΦAx (u) = Φx (A u), d’après
(3.42). En passant à la variable aléatoire réelle de taille double, on peut
alors obtenir le résultat à l’aide de (3.31).
C’est grâce à la multilinéarité que les moments et cumulants méritent la
dénomination de tenseurs. Notons que cette propriété se réduit dans le cas
scalaire à une simple relation d’homogéneité:
†
bien qu’ayant une covariance unité: C{x̃} = R−1 CR− = I. On convient
donc de choisir un procédé systématique pour calculer R, qui aura en outre
le mérite de fonctionner même lorsque C ne sera pas inversible.
En d’autres termes, la variable aléatoire est soit réduite à une constante, soit
gaussienne.
b) Queues de distribution
Une idée fausse consiste à croire qu’une densité ayant des queues de distribu-
tion en-dessous de la gaussienne aura nécessairement un kurtosis négatif, et
un kurtosis positif dans le cas contraire. En outre, la définition des lois sous-
et sur-gaussiennes est très versatile, suivant les articles techniques, comme
nous l’expliquons maintenant.
Benveniste propose notamment [83, page 390] une définition faisant in-
tervenir la monoticité de
1 d log px (u)
f (u) = − .
u du
Lorsque f (u) est strictement croissante (resp. décroissante), px (u) est dite
sur-gaussienne (resp. sous-gaussienne). Il est clair que certaines densités ne
seront ni l’une, ni l’autre.
En revanche, de nombreux auteurs qualifient de sur-gaussiennes les den-
sités ayant des queues de distribution supérieures à la densité gaussienne à
l’infini [204], et de sous-gaussiennes les autres. En réalité, A. Mansour a
montré par une simple application d’un théorème de la moyenne que cette
dernière définition est équivalente au signe du kurtosis (négatif pour les den-
sités sous-gaussiennes) si la partie paire de la densité coupe deux fois (càd
une fois sur [0 + ∞[) la densité gaussienne de mêmes moyenne et variance.
En revanche, des contre-exemples des deux types ont été donnés lorsque le
nombre d’intersections est différent de deux.
On retiendra donc qu’il existe au moins trois définitions du caractère
de sous- ou sur- gaussianité, et que ces dernières ne sont pas toujours
équivalentes.
INTRODUCTION AUX SOE 39
Il est facile de vérifier que k(1) est un estimateur non biaisé de µ′(1) . On pour-
rait être tenté de poursuivre aux ordres supérieurs en utilisant les moyennes
empiriques suivantes
N
1 X
m(r) = (x(n) − k(1) )r , (3.74)
N n=1
mais il s’avère que ces estimateurs sont en général biaisés. En effet, nous
avons par exemple, si les réalisations x(n) sont indépendantes:
N −1
E{m(2) } = µ(2) .
N
Un estimateur non biaisé de la variance de X est donc:
N
k(2) = m . (3.75)
N − 1 (2)
Ce procédé peut être poursuivi aux ordres supérieurs à 2 en cherchant les
coefficients αi,r tels que l’expression
r
X Y
k(r) = αi,r m(qi ) (3.76)
i=1 Σ qi =r
N2
k(3) = m (3.77)
(N − 1)(N − 2) (3)
N2
k(4) = [ (N + 1) m(4) − 3 (N − 1) m2(2) ].
(3.78)
(N − 1)(N − 2)(N − 3)
40 CHAPITRE 3
κ4 2 κ22
µ(2) {k(2) } = + , (3.81)
N N −1
κ6 9 (κ4 κ2 + κ23 ) 6N κ32
µ(2) {k(3) } = + + , (3.82)
N N −1 (N − 1)(N − 2)
κ8 (16 κ6 κ2 + 48 κ5 κ3 + 34 κ24 )
µ(2) {k(4) } = + +
N N −1
8N (9 κ4 κ22 + 18 κ23 κ2 ) 24N (N + 1) κ42
+ ;(3.83)
(N − 1)(N − 2) (N − 1)(N − 2)(N − 3)
1
C(q) {k(r) } = O( ). (3.87)
N q−1
1
E{g(3) } = β(3) + O( ), (3.88)
N
1
E{g(4) } = β(4) + O( ), (3.89)
N
1 1
µ(2) {g(3) } = [β − 6 β(4) + 9 + β(3) (9 β(4) + 35) − 3 β(5) β(3) ]
N (6) 4
1
+O( 2 ), (3.90)
N
1 1 2 11 2
µ(2) {g(3) } = [γ − 3 γ(3) γ(5) + 9 γ(4) (1 + γ(3) )− γ + 6]
N (6) 4 2 (3)
1
+O( 2 ), (3.91)
N
1 3 2
µ(2) {g(4) } = [β − 4 β(6) β(4) + 4 β(4) − β(4) + 16 β(4) β(3)
N (8)
1
−8 β(5) β(3) + 16 β(3) ] + O( 2 ). (3.92)
N
2
µ(2) {k(2) } = κ2 , (3.93)
N −1 2
6N
µ(2) {k(3) } = κ3 , (3.94)
(N − 1)(N − 2) 2
24N (N + 1)
µ(2) {k(4) } = κ4 . (3.95)
(N − 1)(N − 2)(N − 3) 2
Cette dernière relation montre par exemple que la variance du cumulant
d’ordre 4 est en O( 24 4
N ). Dans le cas complexe circulaire, on trouverait O( N ).
En ce qui concerne les estimateurs de l’asymétrie et de l’aplatissement,
nous avons dans le cas gaussien des résultats exacts [136] ex. 12.9, 12.10, et
12.22, [160] p 108-109, [157]:
E{k3 }
E{g(3) } = 3/2
E{k2 }
= γ(3) = 0, (3.96)
E{k4 }
E{g(4) } =
E{k22 }
= γ(4) = 0, (3.97)
6N (N − 1)
µ(2) {g(3) } =
(N − 2)(N + 1)(N + 3)
6 1
≈ + O{ 2 }, (3.98)
N N
24N (N − 1)2
µ(2) {g(4) } =
(N − 3)(N − 2)(N + 3)(N + 5)
24 1
≈ + O{ 2 }. (3.99)
N N
INTRODUCTION AUX SOE 43
1 NX
−τ
Ĉ(2),x (τ ) = x(t) x(t + τ ), (3.107)
N t=1
N −τ
1 X
Ĉ(2),x (τ ) = x(t) x(t + τ ). (3.108)
N − τ t=1
1 NX−1
V ar{Ĉ(2),x (τ )} = (N − s) C(4)x (s, τ, s + τ ) + (N − s) C2(2)x (s)
N 2 s=0
−s C2(2)x (τ ) + (N − s) C(2)x (s + τ ) C(2)x (s − τ ).(3.109)
1 NX
−1
V ar{Ĉ(2),x (τ )} ≈ C (s, τ, s + τ ) + C2(2)x (s) + C(2)x (s + τ ) C(2)x (s − τ ).
N s=0 (4)x
(3.110)
Pour que l’estimateur Ĉ(2),x (τ ) converge vers C(2),x (τ ) en moyenne quadra-
tique (consistence forte), il suffit que [123]:
soient bornées quand N tend vers l’infini. Le processus X(t) doit donc être
mélangeant dans un sens voisin de celui défini en (3.50), si ces conditions
suffisantes sont adoptées.
Ceci s’étend sans mal au cas multivariable, en remplaçant les sommes
précédentes par:
N N
trace{Cx (u) Cx (u)T }.
X X
Cx,ijij (u, τ, u + τ ) et (3.112)
u=1 u=1
46 CHAPITRE 3
J’ai sélectionné trois aspects des SOE dans ce chapitre, en me basant bien
sûr sur des critères de convenance personnelle, mais aussi et surtout parce
que ces sujets sont d’actualité. Le premier concerne les tests de normalité. Il
est naturel d’aborder ce sujet en tout premier lieu puisque si les observations
sont gaussiennes, il n’y a pas lieu de recourir aux SOE. Le deuxième concerne
les mélanges linéaires de signaux, sujet qui a éveillé un intérêt croissant de
la part de la communauté scientifique ces cinq dernières années. Et enfin,
je pense qu’il est regrettable que l’aspect tensoriel des SOE ne soit que très
rarement évoqué dans les approches multivariables. Ce sujet est donc abordé
en dernier lieu.
47
48 CHAPITRE 4
Une autre conséquence est qu’il ne peut exister de détecteur optimal au sens
de la probabilité d’erreur, l’erreur de seconde espèce restant indéfinie.
Cette constatation est loin d’être anodine, car elle montre notamment
que les propriétés statistiques de la variable-test n’ont besoin d’être connues
que sous l’hypothèse H0 . Par exemple, si le kurtosis empirique est utilisé, il
sera suffisant de connaitre ses quantiles sous hypothèse gaussienne.
Il existe d’autres tests standard sans alternative. Citons à titre d’exemple
les tests de stationnarité, les tests de blancheur (plus ou moins forte) [99], les
tests de réversibilité temporelle de processus [181], ou bien encore les tests
de linéarité [127]. Le test de normalité est lié aux tests précédents dans le
sens où:
a) Tests scalaires
1. Test du Chi-deux (1922): Si l’existence de la distribution dite “Chi-
deux” remonte à 1838 avec les travaux de Bienaymé (1852 pour la loi
du χ2 à n degrés de liberté), son utilisation pour les tests d’ajustement
de lois n’a pu voir le jour qu’avec la preuve de la convergence asym-
totique du rapport de vraisemblance vers une variable du Chi-deux,
preuve attribuée à Fisher en 1922. Dans ce rapport de vraisemblance,
la densité des observations est remplacée par un histogramme calculé
à partir d’intervalles de longueur prédéterminée. Notons que la con-
vergence du rapport de vraisemblance vers une loi du Chi-deux pour
des problèmes de détection plus généraux que l’ajustement de loi n’a
été prouvée que plus tard par Wilks (1938) et Wald (1943).
2. Geary (1935): Geary propose comme variable test le rapport p entre E|x|
estimée et l’écart-type empirique σ̂; cette quantité vaut 2/π dans le
cas gaussien.
3. Kolmogorov-Smirnov (1948): Le test de Kolmogorov est basé sur la
statistique d’ordre 1 de l’échantillon observé. La variable test est la
distance L∞ entre les fonctions de répartition estimées. Kolmogorov
donne en 1933 l’expression analytique de la distribution asymptotique
de cette variable test (sous forme d’une série); Smirnov ne la tabule
qu’en 1948, date à laquelle son utilisation devient possible.
4. Pearson-Hartley (1962): Récapitulation sous forme de tables des quan-
tiles de toutes les variables tests usuelles. En particulier, tables pour
l’aplatissement (kurtosis) estimé pour divers temps d’intégration [172].
5. Shapiro-Wilk (1965): Ici la variable test est le rapport entre le carré
de l’estimation linéaire de σ à partir de la statistique d’ordre d’ordre
n et la variance empirique. Les coefficients de cet estimateur linéaire
sont tabulés pour différentes longueurs d’échantillon et différents ordres
d’estimateur [187].
6. Lilliefors (1967): Lilliefors modifie les tables de Smirnov pour permet-
tre l’application du test de Kolmogorov au cas composite (moyenne et
50 CHAPITRE 4
b) Tests vectoriels
Il y a comparativement beaucoup moins de tests vectoriels de normalité.
Nous avons relevé les tests suivants:
1. Mardia (1970) : Une première extension des tests scalaires, simple mais
peu puissante, aux dimensions supérieures à 1 consiste à projeter les
observations sur une droite arbitraire.
2. Mardia a proposé comme définition de l’aplatissement l’espérance
mathématique du module à la puissance 4 des mesures standardisées,
E{ρ4n } [155]. Par construction, ce test est invariant par transformation
affine. D’autres tests multivariables sont possibles [157].
3. Andrews et al (1973) : Les auteurs abordent surtout le cas de la dimen-
sion 2. Ils proposent de calculer le module carré ρ2n et l’angle polaire θn
def −1/2
des échantillons standardisés yn = Vx (xn − x̄n ). Alors sous H0 , ρ2n
suit approximativement une loi du Chi-deux à deux degrés de liberté,
et θn suit une loi uniforme [77].
Cette idée s’étend pour le module carré en dimension quelconque p > 2,
puisqu’alors ρ2n suit approximativement une loi du Chi-deux à p degré
de liberté; mais seul un des p − 1 angles est uniformément distribué
[157, page 314].
4. Hinich (1982) : Le test de normalité est un cas particulier du test de
linéarité, comme nous l’avons déjà souligné. Hinich est à l’origine du
INTERVENTION DES SOE DANS QUELQUES PROBLÈMES 53
a) Cas i.i.d.
On suppose que les observations sont des vecteurs X(n), 1 ≤ n ≤ N , chacun
de dimension p, et que la suite des X(n) est stationnaire au second ordre,
de moyenne zéro et de covariance S. En outre dans cette section, on admet
qu’ils sont statistiquement indépendants, ce qui n’est évidemment quasiment
jamais vérifié en pratique.
Le kurtosis multivariable de Mardia est une contraction du moment stan-
dardisé, définie par:
N
1 X 2
Bp (N ) = X(n)T S −1 X(n) , (4.2)
N n=1
N −1
µ1,B = E{B̂p (N )} = p(p + 2) ,
N +1
8p(p + 2)
µ2,B = Var{B̂p (N )} = + o(N −2 ), (4.4)
N
p(p + 2)(p + 8)
µ3,B = 64 + o(N −3 ).
N2
Ceci montre en particulier que pour N assez grand devant p (par exemple
N = 1000 et p = 2), B̂p (N ) peut être assimilée à une variable gaussienne.
Evidemment, la normalité asymptotique de telles variables est connue [157]
[136, ch.12], mais il est utile de savoir à partir de quelle valeur de N cette
approximation est applicable sur le plan pratique.
Nous n’avons pas repris ces calculs dans le cas où Bp (N ) serait con-
struit sur le tenseur cumulant, mais il semble qu’en première évaluation, les
résultats ne changent pas au second ordre. Dans la suite on conservera la
définition construite sur le tenseur moment, afin de pouvoir effectuer des
comparaisons.
b) Cas coloré
Considérons à présent notre problème original, et notons x(t) le processus à
tester, 1 ≤ t ≤ N . Le test vectoriel portera sur la normalité conjointe d’un
nombre limité p d’échantillons. Pour ce faire, on construit le vecteur X(n)
suivant:
x(n ∆ + 1)
X(n) = ..
, 1 ≤ ∆ << N. (4.5)
.
x(n ∆ + p)
Le paramètre ∆ est fixé et permet d’ajuster un recouvrement éventuel.
Evidemment, les vecteurs X(n) ne sont indépendants que si ∆ − p est
supérieur à la durée de corrélation du procesus x(t). Or, il n’est pas tou-
jours possible de faire en sorte que ce soit vrai, notamment si on désire
1000 réalisations identiquement distribuées, compte-tenu de la durée de sta-
tionnarité du processus. On se propose donc de calculer la moyenne et la
INTERVENTION DES SOE DANS QUELQUES PROBLÈMES 57
N
1X
Cov{Ŝab , Ŝcd } = 2
([3]Ran bn Rcm dm − Ran bn Rcm dm ) ,
Nm,n=1
N
1 X
Cov{K̂abcd , K̂ef gh } = ([105]Ran bn Rcn dn Rem fm Rgm hm
N m,n=1
−[3]Ran bn Rcn dn · [3]Rem fm Rgm hm ) .
def
où Rin jm = E{Xi (n)Xj (m)} = C(n−m)∆+i−j si Cτ désigne la fonction
d’autocorrélation du processus x(t). On peut aussi vérifier que la covari-
ance croisée est aussi du même ordre.
Dans le cas scalaire, ces résultats se simplifient:
N
Var{Ŝ} 2 X k02 (n − m)
= , (4.6)
S2 N 2 m,n=1 C02
N
" #
Var{K̂} 8 X k02 (n − m) 1 k02 (n − m)
= 1 + , (4.7)
K2 N 2 m,n=1 C02 3 C02
où on a noté k0 (s) = Cs∆ , pour alléger les écritures ultérieures. En partic-
ulier dans le cas i.i.d., on retrouve des résultats plus familiers:
Var{Ŝ} 2 Var{K̂} 32
2
= , 2
= . (4.8)
S N K 3N
On supposera dans la suite que ces variances sont petites, ce qui nécessite
que la corrélation Cτ décroisse suffisamment vite vers zéro. En d’autres
termes, il faut que le spectre de x(t) soit lisse et à large support.
58 CHAPITRE 4
XX 2
E{B̂p } = Bp + − Gab Gci Gjd E{εabcd δij }
abcd ijkl
p2
+Kabcd Gai Gld E{δij δkl }(Gjb Gck + 2Gcb Gjk ) + o(N −1 ). (4.11)
et
X X 1
Var{B̂p } = + Gab Gcd Gef Ggh E{εabcd εef gh }
abcd ijkl
p4
ef gh
4
− Kef gh Gab Gcd Gef Ggi Gjh E{εabcd δij }
p2
+4Kabcd Kef gh Gab Gci Gjd Gef Ggk Glh E{δij δkl } + o(N −1 ). (4.12)
2 3K
E{B̂1 } ≈ B1 − 3
E{εδ} + 4 E{δ2 }, (4.13)
S S
E{ε2 } 4K 2 4K
Var{B̂1 } ≈ 4
+ 6 E{δ2 } − 5 E{εδ}. (4.14)
S S S
INTERVENTION DES SOE DANS QUELQUES PROBLÈMES 59
1 NX
−1
" #
48 k2 (s) k2 (s)
Var{B1 (N )} = 2+ (N − s) 0 2 (3 + 0 2 ) , (4.15)
N N s=1 C0 C0
" PN −1 #
16 1 s=1 (N − s)q0 (s)
Var{B2 (N )} = 20 + . (4.16)
N N (C02 − C12 )4
où q2 (s) est donnée en (4.23). Il n’est pas possible de présenter par écrit les
résultats pour p ≥ 3 en raison de leur longueur.
4 NX
−1
" #
2 k2 (s)
E{B̂1 } = 3 1 − − 2 (N − s) 0 2 , (4.18)
N N s=1 C0
60 CHAPITRE 4
2 NX
−1
" #
24 k4 (s)
Var{B̂1 } = 1+ (N − s) 0 4 . (4.19)
N N s=1 C0
On peut vérifier que dans le cas i.i.d., la moyenne est bien de −6/N et la
variance de 24/N , ce qui est conforme aux résultats classiques en la matière
[138, vol.5, page 219], [156].
Le cas p = 2 est aussi intéresant à présenter, et doit sa (relative) sim-
plicité au fait que la matice inverse G s’exprime encore assez simplement en
fonction des éléments de S. Nous obtenons:
" PN −1 #
4 1 s=1(N − s)q1 (s)
E{B̂2 } = 4 2 − − 2 , (4.20)
N N (C02 − C12 )2
" PN −1 #
16 1 s=1(N − s)q2 (s)
Var{B̂2 } = 4+ , (4.21)
N N (C02 − C12 )4
B − E{B}
t= , (4.24)
V ar{B}1/2
INTERVENTION DES SOE DANS QUELQUES PROBLÈMES 61
lorsque B désigne soit B̂p soit Bp . Les formules ayant servi à estimer la
moyenne et la variance sont rappelées en haut de chaque colonne.
Rappelons qu’asymptotiquement, t = ±1.960 correspond à une proba-
bilité de détection de 95% (niveau 5%), et t = ±1.645 à 90% (niveau 10%).
Les échantillons étaient de taille N = 10000. La fonction d’autocorrélation
a été calculée à l’aide de toute la longueur de l’échantillon, mais seules les
200 premiers retards ont été pris en compte lorsque Cτ prenait une valeur
significative.
Tous les calculs ont été exécutés q̀a l’aide de Matlab sur une station
SUN4 SPARC5. Les simulations peuvent être reproduites en générant les
séquences i.i.d. à partir des racines 12345 et 1234567, pour les bruits gaussien
etuniforme, respectivement.
porelle n’est pas expoitée (e.g. si toutes les sources ont même spectre), et
de séparation de signaux dans le cas contraire. On parlera en revanche de
déconvolution autodidacte ou aveugle (blind deconvolution en anglais) lorsque
la fonction de transfert n’est pas réduite à une constante. La séparation de
signaux et l’ACI sont donc des cas particuliers de la déconvolution autodi-
dacte.
A priori deux familles d’approches sont possibles: l’approche identifica-
tion consistant à estimer H(z), et l’approche déconvolution, où les entrées
sont estimées directement. Si on cherche au bout du compte à reconstru-
ire les signaux-source, la première approche nécessitera alors le calcul des
résidus (prédiction linéaire).
Annonçons tout de suite que:
Pour y voir plus clair, tentons de dresser une liste des hypothèses que
l’on peut faire dans les différentes approches:
Hypothèses sur les sources.
S0. Les sources x(t) sont indépendantes. Cette hypothèse est commune à
toutes les approches. Les approches à l’ordre r se contenteront bien
sûr de l’indépendance à l’ordre r.
64 CHAPITRE 4
que F2.
F4. La matrice H(z) est une matrice colonne de rang plein, pour tout z.
Ceci implique en particulier que, si H(z) est un filtre RIF, alors il
admet un inverse à gauche lui-même RIF; en d’autres termes, H(z) est
à minimum de phase.
F5. H(z) est un filtre RIF dont on connait exactement le degré.
Propriétés dûes à un prétraitement de y(t).
Y1. Chaque observation y(t) est de variance 1.
Y2. Chaque composante yi (t) est préalablement blanchie à l’ordre 2. On
supposera que cette opération est mené avec l’adoption supplémentaire
des hypothèses S2 et S3, de sorte qu’on obtient alors la relation
INTERVENTION DES SOE DANS QUELQUES PROBLÈMES 65
a) Déconvolution scalaire
Le problème de la déconvolution “aveugle”, c’est à dire sans séquence
d’apprentissage, a été beaucoup étudié depuis les travaux de Sato et Go-
dard dans les années 75-80. Ces algorithmes minimisent de façon itérative
un critère mesurant l’écart entre une statistique de la sortie de l’égaliseur et
la même statistique de la source [63].
Benveniste, qui a analysé en profondeur le comportement de ce type de
critère, ainsi que celui des algorithmes itératifs proposés pour le minimiser
[83] [82], est à l’origine du qualificatif “aveugle”.
Macchi et Eweda ont analysé de leur côté la convergence d’un algorithme
d’égalisation consistant à minimiser l’écart entre la sortie et la sortie désirée
66 CHAPITRE 4
b) Séparation de signaux
Le problème de la séparation de signaux, tel que nous l’avons défini en section
4.2.1, exploite le fait que les signaux ont des spectres d’ordre 2 différents.
Cette idée a été proposée à l’origine par Fety [110], mais a été à notre avis
mal exploitée, peut-être parce que en partie mal présentée. Cependant, tous
INTERVENTION DES SOE DANS QUELQUES PROBLÈMES 67
Hélas cette simplicité n’est conservée dans le cas complexe qu’en l’absence
de bruit [21] [3].
Plusieurs solutions récursives ont été proposées dans la littérature pour
réaliser la séparation de sources. La première est décrite dans l’article en
deux volets [133] [6]; cet algorithme est du type Robbins-Monro. Une autre
a été proposée par Comon, mais n’est pas non plus du type gradient [50].
Par contre Moreau et Macchi ont proposé plusieurs algorithmes de type LMS
minimisant des critères de contraste [164] [165] [163].
Cardoso et Laheld introduisent le concept de gradient relatif [145], per-
mettant d’atteindre des performances qui ne dépendent que du niveau de
bruit (qui est supposé faible) et de la distribution des sources, et pas de la
matrice de mélange [94].
Par ailleurs, Cardoso a expliqué comment faire un usage optimal des
cumulants d’ordre 4 dans un contexte d’ajustement de modèle [95], pour le
problème de l’ACI. Il s’agit ici de l’ajustement des cumulants d’entrée ou de
sortie.
Enfin, signalons qu’une fonction de contraste a été proposée par Krob
pour l’identification de transformations linéaires-quadratiques [141]. Des
articles longs sur ce sujet devraient paraitre prochainement.
Un résultat plus curieux est celui de Gamboa, qui a montré récemment
que l’ identifiabilité est possible à l’ordre 2 si sources sont de distribution
discrète [115].
Très peu d’auteurs se sont penchés sur le cas où le nombre de sources est
supérieur au nombre de capteurs, et ce sujet est encore très prospectif. Il
semblerait que l’on doive soit utiliser un modèle de réception [93], mais alors
il ne s’agit plus d’identification aveugle, soit restreindre le type de mélange
à une classe paramétrée, par exemple les retards purs [31], soit avoir recours
à des outils d’algèbre multilinéaire (cf. section 4.3), qui sont hélas d’une
grande complexité [24]. Quoiqu’il en soit, il est clair que si l’identification
est parfois possible, la séparation des sources, elle, ne l’est pas, du moins de
façon exacte, même asymptotiquement.
Si le filtre H(z) est causal et d’inverse causal et stable, alors il est iden-
tifiable à l’ordre 2 seulement, à une ACI près. Si de plus il est FIR de rang
plein pour tout z, alors le spectre des sources peut être aussi identifié. Tong
et Xu [197] sont à l’origine de l’idée de départ, qui a été ensuite améliorée par
Moulines et d’autres co-auteurs [167]. Cette solution fonctionne en présence
d’une seule source.
Gesbert a proposé récemment une implantation adaptative de cette so-
lution dans [120], toujours pour une source. Par ailleurs, Abedmeraim et
alterae ont généralisé la résolution au cas de plusieurs sources [75]. Une
autre direction de généralisation est celle de la coloration des sources; Fi-
jalkow et Loubaton ont proposé récemment une technique pour traiter le cas
d’une source ARMA, en présence de bruit corrélé spatialement [111].
L’idée d’identifier un modèle ARMA monique suivi d’une ACI avait été
proposé par Comon dans [49] ou [21]. Mais l’identification MA monique
faisait appel aux SOE, ce que l’on peut désormais éviter.
contraste. Quelques outils sont suggérés dans la section 4.2.5 à cette inten-
tion, et devront être confrontés aux travaux de Inouye (ce qui n’a pas encore
été fait).
Enfin, reste le cas des mélanges particuliers, comme celui des retards
purs (non multiples de la période d’échantillonnage) amortis. Il a été
montré par Emile et Comon qu’il était possible d’identifier directement (non
itérativement) la fonction de transfert. En outre, l’identification du mélange
reste possible dans le cas où le nombre de sources est supérieur au nombre
de capteurs, ce qui est une sorte de curiosité [31].
où H est une matrice carrée inversible, et x(t) un signal dont les N compo-
santes xn (t) sont statistiquement indépendantes et non identiquement nulles.
Ce mélange sera dit instantané car la réponse impulsionnelle du filtre dont
les entrées sont xn (t) et les sorties yn (t) est une constante. La question que
l’on se pose est de savoir s’il est possible d’identifier la matrice H uniquement
à partir de l’observation des sorties yn (t).
Proposition 4.2.1 S’il existe une solution particulière (Ho , xo (t)), alors
il existe toute une classe de solutions (H, x(t)) de la forme H = Ho ΛP ,
x(t) = P T Λ−1 xo (t), se déduisant de la solution particulière par un change-
ment d’échelle Λ (matrice diagonale régulière) et une permutation P .
Dans cette mesure, on peut dire que le problème est mal posé. On
peut soit chercher un représentant canonique de la classe d’équivalence des
solutions, soit une solution particulière quelconque, sachant que la seconde
donnera accès à la première, et que toutes deux pourront générer l’ensemble
des solutions. Nous décrivons donc maintenant une méthode permettant
INTERVENTION DES SOE DANS QUELQUES PROBLÈMES 73
où la matrice C(τ ) est diagonale quelle que soit la valeur de τ , puisque les
composantes de x(t) sont indépendantes. Une façon d’aborder ce problème
est de construire les deux matrices suivantes:
X X
Γ1 = ατ Γ(τ ), et Γ2 = βτ Γ(τ ), (4.28)
τ τ
Γ1 = H K1 H T , et Γ2 = H K2 H T , (4.29)
Γ1 U = Γ2 U Λ, (4.30)
où U est une matrice inversible et Λ une matrice diagonale. Les colonnes
de U sont les vecteurs propres du faisceau {Γ1 , Γ2 } et les éléments de Λ les
−1/2 −T /2
valeurs propres associées (valeurs propres d’une matrice Γ2 Γ1 Γ2 ).
Pour démontrer cette proposition, il est plus clair d’introduire les deux
lemmes suivants [68].
Démonstration. Nous avons Kii Wij = Wij Λjj , pour tout couple (i, j).
Comme W est de rang plein, il existe au moins un élément non nul Waj
dans chaque colonne j, ce qui montre que pour tout j, il existe un a tel
que Λjj = Kaa . Ce résultat peut être aussi vu comme une conséquence de
l’unicité de la décomposition spectrale.
Lemme 4.2.4 Les seules matrices A satisfaisant AΛ = ΛA, où Λ est diag-
onale de composantes toutes distinctes, sont les matrices diagonales.
seront prises en compte dans la partie Hx(t), et les autres devront figurer
dans le terme v(t) au titre de nuisances.
Pour tenter de discerner les différentes singularités, nous proposons la
procédure suivante.
Γy (0) = R S RT , (4.32)
De deux choses l’une. Ou bien certains signaux x̂i (t) obtenus sont suffi-
samment décorrélés entre eux, et le modèle (4.26) est satisfait pour ces
composantes, ou bien il reste une corrélation importante entre toutes
les composantes de x̂(t), et on peut conclure par la présence d’une
nuisance v(t) importante. Cette dernière peut être dûe à du bruit de
mesure, ou bien à la présence d’autres sources que les xi (t), 1 ≤ i ≤ N .
Dans ce dernier cas, il est nécessaire d’avoir plus d’informations pour
pouvoir identifier le mélange. On pourra notamment recourir à une
méthode spécifique utilisant les statistiques d’ordre supérieur (cf. sec-
tion 4.2.5).
3. Si certaines valeurs propres Λnn sont confondues, cela veut dire que la
diversité des fonctions Γij (τ ) n’est pas assez riche pour permettre de
conclure, et il faudra recourir à des statistiques d’ordre supérieur (i.e.
Analyse en Composantes Indépendantes).
76 CHAPITRE 4
L’hypothèse S0 d’indépendance des sources est dans tous les cas au cen-
tre de toutes les approches. C’est pourquoi il convient dans un premier
temps d’introduire diverses mesures d’indépendance statistique. En outre,
ces éléments permettent de donner des fondements théoriques aux approches
par maximisation de contrastes [2].
a) Information mutuelle
Définition 4.2.5 Soit x un vecteur aléatoire de dimension N admettant
une densité px (u). Les composantes xi de x sont dites indépendantes si et
seulement si la distribution conjointe des xi est égale au produit de leurs
distibutions marginales:
N
Y
px (u) = pxi (ui ). (4.35)
i=1
py (u)
Z
−δ(px , py ) ≤ px (u) [ − 1] du.
px (u)
R
Or le second membre est toujours nul puisque p(u) = 1 pour toute densité
de probabilité. Par ailleurs comme la fonction log w est tangente à w − 1 en
w = 1, l’égalité n’a lieu que si py (u)/px (u) = 1 pour presque tout u.
px (A−1 v) dv
Z
δ(pX , pY ) = px (A−1 v) log .
py (A−1 v) | det A|
px (u)
Z
δ(pX , pY ) = px (u) log du,
py (u)
px (u)
Z
I(px ) = px (u) log QN du. (4.38)
i=1 pxi (ui )
Cette quantité n’est autre que l’information mutuelle moyenne, bien con-
nue en codage et en télécommunications. En vertu de la proposition 4.2.6,
l’information mutuelle est toujours positive, et s’annule si et seulement si les
variables xi sont indépendantes.
Contrairement à ce que l’on pourrait croire, l’information mutuelle n’est
pas invariante par changement de base, bien que la divergence de Kullback le
78 CHAPITRE 4
b) Néguentropie
L’entropie différentielle, ou plus simplement l’entropie, d’une variable
aléatoire admettant px (u) pour densité de probabilité est définie par:
Z
def
S(px ) = − px (u) log px (u) du. (4.41)
Il est clair que l’entropie est invariante par toute transformation dont le
déterminant est de module 1, et en particulier par transformation orthog-
onale. Par ailleurs, la néguentropie est invariante au moins sur le même
ensemble de transformations, d’après la proposition 4.2.10.
80 CHAPITRE 4
1 1
Ψx (u) = κ1 u + κ2 u2 + κ3 u3 + . . . , (4.47)
2! 3!
Notons qu’il n’existe pas forcément de variable aléatoire dont les cumulants
d’ordre r sont égaux à ηr . Mais on peut tout de même noter les ”moments”
µr définis par:
∞ ∞
1 1
ηr ur ] = µ k uk .
X X
exp[ (4.49)
r=1
r! j=0
k!
(−1)k dk po
hk (v) = (v). (4.51)
po (v) dv k
Le développement (4.50) ne revêt une forme simple que pour certaines den-
sités po (v) particulières, notamment celles pour lesquelles les fonctions hk (v)
sont des polynomes.
Le développement en série d’Edgeworth de type A permet d’approximer
une densité lorsque po (v) est gaussienne. Dans un souci de consistence des
notations, on notera alors po (v) = Φx (v). Pour simplifier les expressions, et
sans restreindre la généralité, on se placera dans le cas gaussien standardisé.
Dans ce cas, les fonctions hk (v) sont les polynomes de Hermite définis par
82 CHAPITRE 4
la récurrence:
h0 (v) = 1, (4.52)
h1 (v) = v, (4.53)
d
hk+1 (v) = v hk (v) − hk (v). (4.54)
dv
Par exemple, h2 (v) = v 2 − 1 et h3 (v) = v 3 − 3v. En outre, le développement
de Edgeworth se distingue de celui de Gram-Charlier par le fait que les
termes sont ordonnés non pas par degré croissant, mais par ordre de grandeur
décroissant sous les hypothèses du théorème de la limite centrale (page 36).
Le classement des termes, s’il n’a aucune importance dans une série infinie
convergente, en a beaucoup lorsqu’il s’agit de tronquer la série. Le théorème
de la limite centrale nous dit que, si x est la somme de m variables aléatoires
indépendantes de cumulants bornés, alors le cumulant d’ordre r de x est de
l’ordre de m1−r/2 . Ceci conduit au classement suivant:
Ordre
m−1/2 κ3
m−1 κ4 κ23
m−3/2 κ5 κ3 κ4 κ33
m−2 κ6 κ3 κ5 κ23 κ4 κ24 κ43
m−5/2 κ7 κ3 κ6 κ23 κ5 κ24 κ3 κ53 κ4 κ5 κ33 κ4
px (v)/Φx (v) = 1
1
+ κ3 h3 (v)
3!
1 10 2
+ κ4 h4 (v) + κ h6 (v)
4! 6! 3
1 35 280 3
+ κ5 h5 (v) + κ3 κ4 h7 (v) + κ h9 (v)
5! 7! 9! 3
1 56 35 2100 2
+ κ6 h6 (v) + κ3 κ5 h8 (v) + κ24 h8 (v) + κ κ4 h10 (v)
6! 8! 8! 10! 3
15400 4
+ κ h12 (v)
12! 3
+O(m−2 ). (4.55)
INTERVENTION DES SOE DANS QUELQUES PROBLÈMES 83
d) Approximation de la néguentropie
Dans cette secton, nous allons utiliser le développement de Edgeworth pour
approximer la néguentropie que nous avons définie précdemment en (4.42).
La relation (4.40) a montré que I(Φx ) = 0 si et seulement si la matrice
de covariance est diagonale. Pour des distributions non gaussiennes, la
décorrélation à l’ordre 2 est insuffisante pour assurer l’indépendance. En
revanche, la néguentropie sera suffisante pour assurer l’indépendance statis-
tique. En général, à l’instar de la densité de probabilité, la néguentropie est
en général inconnue. On se propose ici de l’approximer à l’aide des cumulants
d’ordre croissant.
Posons px (u) = Φx (u)[1+f (u)], où f (u) est donnée par le développement
de Edgeworth. On adopte le développement en série du logarithme suivant:
(1+f ) log(1+f ) = f +f 2 /2−f 3 /6+f 4 /12+o(f 4 ). En reportant cette approx-
imation dans l’expression de la néguentropie (4.42), et en replaçant f (u) par
sa valeur, on peut obtenir l’approximation escomptée. L’expression finale de
la néguentropie nécessite les propriétés intégrales suivantes des polynomes
de Hermite:
Z
Φ(v) hp (v) hq (v) dv = p! δpq , (4.56)
Z
Φ(v) h23 (v) h4 (v) dv = 3!3 , (4.57)
Z
Φ(v) h23 (v) h6 (v) dv = 6!, (4.58)
Z
Φ(v) h43 (v) dv = 93 3!2 . (4.59)
On obtient alors après calcul, si z est une variable aléatoire scalaire stan-
dardisée:
1 1 7 1
J(pz ) = κ23 + κ24 + κ43 − κ23 κ4 + o(m−2 ). (4.60)
12 48 48 8
où y(t) et x(t) sont de dimension N , et où les matrices H(k) sont cette
fois carrées. On désigne par H(z) la transformée en z de la suite H(k).
Les autres notations restent celles du modèle (4.25). Il sera en outre
nécessaire d’imposer des contraintes supplémentaires pour assurer l’unicité
de la modélisation.
Soit H un sous-ensemble des filtres H(z) de norme L2 finie, et P = {y(t)}
un ensemble de processus de dimension N . Pour alléger les écritures, on
adoptera parfois la notation compacte: H · x ≡ H(z) · x(t). De même, on
notera H · P l’ensemble image de P par les filtres de H.
C1. Υ est invariante par changement d’échelle; c’est à dire que Υ(Λy) =
Υ(y), ∀y ∈ H · P, et ∀Λ, matrice constante diagonale régulière de H.
C2. Si les composantes xi (t) d’un processus x(t) ∈ P sont indépendantes,
et chacune blanche au sens fort, alors Υ(H · x) ≤ Υ(x), ∀H(z) ∈ H.
C3. Il y a égalité dans C2 si et seulement si H(k) est triviale. C’est cette
condition qui assure le caractère discriminant du contraste.
Cette définition étend le concept proposé dans [43] [2], tout en assurant
la compatibilité avec le concept introduit par Donoho pour la déconvolution
scalaire [105] [117], comme nous allons le préciser dans ce qui va suivre.
Il existe des relations d’équivalence entre les couples (P, H). Par exem-
ple, P ={processus temporellement blancs à l’ordre 2 et de variance 1} et
H ={matrices rationnelles}, peut être remplacé par P ={processus à spectre
rationnel} et H ={filtres rationnels H(z) tels que DiagH(z) = I, ∀z}.
b) Déconvolution scalaire
Voyons à présent comment les définitions précédentes se particularisent au
cas de la déconvolution scalaire.
Corollaire 4.2.16 Dans le cas scalaire N = 1, les filtres triviaux sont ceux
dont la réponse impulsionnelle est nulle partout sauf en un point; autrement
dit, ce sont les retards purs multiples de la période d’échantillonnage, suivis
d’un facteurs d’échelle.
H(k)r
P
k
K(r),y = K(r),x P .
[ k H(k)2 ]r/2
Or, par inégalité entre les normes Lp , dès que m ≥ 2, [ H(k)r ]1/r ≤
P
ce qui n’est possible que lorsque H(k) ne contient qu’une seule valeur non
nulle lorsque r > 2. Ceci prouve C3.
Ces propriétés ont éte prouvées à l’origine par C.W. Granger vers 1976
[105]. Une étude générale rigoureuse des contrastes dans le cas scalaire
peut être trouvée dans [117]. Les cumulants standardisés d’ordre 3 ou 4,
appelés asymétrie et aplatissement (kurtosis), ont été également utilisés
86 CHAPITRE 4
Proposition
R
4.2.18 L’opposé de l’entropie moyenne de Shannon, Υ0 (y) =
−S(y) = log py (u) py (u) du, est un contraste sur l’ensemble P des processus
non gaussiens de variance finie, et l’ensemble H des filtres conservant la
variance, i.e. , satisfaisant k H(k)2 = 1.
P
Cette propriété est satisfaite dès que les variables x(k) sont i.i.d. Elle n’est
pas donnée ici à cause de sa longueur. On se réfèrera à [63].
def
Proposition 4.2.21 L’application Υo (z) = −I(pz̃ ), où z̃ est le vecteur
standardisé associé à z, conformément à la définition 3.4.3, est un contraste
sur l’ensemble P des vecteurs aléatoires de covariance finie et inversible. En
outre, il est discriminant sur le sous-ensemble des vecteurs aléatoires ayant
au plus une composante gaussienne.
def
Proposition 4.2.22 L’application Υ2,r (z) = N 2
P
i=1 K(r),yi , est un contraste
sur (P, H), où P désigne le sous-ensemble des vecteurs aléatoires ayant des
moments finis jusqu’à l’ordre r, pour r > 2, et ayant au plus un cumu-
lant marginal d’ordre r nul. H désigne l’ensemble des matrices carrées in-
versibles.
P 2
Condition C2. On note Υ(x) = p K(r), xp , en omettant provisoirement
l’indexage (2,r ) pour alléger, et:
K2i1 ...ir ,y .
X
Ω(y) =
i1 ...ir
Alors Υ(y) ≤ Ω(y) puisque tous les termes sont positifs. Par ailleurs, Ω(y)
s’écrit, par multilinéarité des cumulants:
X X
Ω(y) = Qi1 p Qi1 q · · · Qir p Qir q K(r),xp K(r),xq .
pq i1 ...ir
Pour tout p tel que K(r),xp 6= 0, ceci entraine la nullité du produit Qip Qjp ,
puisque tous les termes sont positifs dans la somme. Si le vecteur x a au plus
un cumulant d’ordre r non nul, alors le produit Qip Qjp est nul pour N − 1
valeurs de p. En conséquence, N − 1 colonnes de Q ne contiennent qu’un
seul élement non nul. Comme Q est orthogonale, ses lignes sont normées, et
elle est nécessairement une permutation signée.
Lemme 4.2.23 Soit r Q la matrice dont les éléments sont |Qij |r . Alors, si
Q est orthogonale, 2 Q vérifie: ||2 Q u|| ≤ ||u||, ∀u, pour la norme L2 .
Qrki Qrkj ui uj ≤ Q̄rki Q̄rkj ūi ūj ≤ Q̄2ki Q̄2kj ūi ūj .
X X X
pour un certain vecteur u ayant au plus une composante nulle. Comme elle
est toujours positive ou nulle, la quantité suivante doit donc être nulle:
Cette égalité reste vraie en enlevant les carrés, à cause le la positivité des
termes. Tous les termes étant de nouveau positifs, on doit avoir
traste sur (P, H), où P est l’ensemble des vecteurs aléatoires ayant des
moment finis jusqu’à l’ordre r, pour r > 2, et ayant au plus un cumulant
marginal d’ordre r nul.
|Qjp |r · |K(r),xp | = 0.
X X
1 −
p j
Comme tous les termes sont positifs, on en déduit que j |Qjp |r = 1 pour
P
contraste sur (P, H), si P désigne l’ensemble des vecteurs aléatoires de di-
mension N ayant des moments finis jusqu’à l’ordre r et ayant au plus un
cumulant marginal d’ordre r nul, et si H désigne l’ensemble des matrices
satisfaisant les relations suivantes:
Y2. Diag H H T = I (chaque ligne est normée),
F2. Diag H T H = I (chaque colonne est normée).
|Hip (k)|r = 1.
X
ik
On rencontre alors une complication qui n’apparaissait pas dans le cas in-
stantané. En effet, on voudrait que la somme sur i et p soit égale à 1 pour
pouvoir conclure. Pour ce faire, on remarque simplement que la dernière
égalité entraine que i,p,k |Hip (k)|r = N . Mais comme p,k |Hip (k)|r ≤ 1
P P
pk
] − π/4, π/4].
fonction est une fraction rationelle de θ, ce qui explique qu’il soit faisable de
trouver son maximum absolu en un nombre réduit d’opérations élémentaires.
La valeur de l’angle α se déduit directement de celle de sa tangente θ; il suffit
de prendre par exemple l’angle se trouvant dans l’intervalle ]−π/2, π/2], mais
cela n’est pas nécessaire. En effet, cette indétermination n’affecte la matrice
Q que par multiplication par une matrice de la forme ΛP . Voyons donc
comment obtenir la tangente θ.
d) Maximisation de Υ3
3
1
ai θ i − (−θ)−i ,
X
Υ3 (θ; g) = (θ + )−3 (4.69)
θ i=1
2 2
a3 = g111 + g222 , (4.70)
a2 = 6 (g122 g222 − g111 g112 ), (4.71)
2 2
a1 = 9 (g122 + g112 ) + 6 (g112 g222 + g111 g122 ). (4.72)
où nous avons utilisé la variable auxiliaire ξ = θ − 1/θ, et où les coefficients
di sont donnés par:
Il suffit donc de calculer toutes les racines réelles de ω3 (ξ; g), et de calculer
ensuite pour chacune d’elles la solution θ correspondante grâce à la relation
θ 2 − ξθ − 1 = 0, qui n’admet toujours qu’une seule racine dans l’intervalle
] − 1, 1]. Enfin, s’il y a plus d’une racine réelle, on sélectionnera celle des
solutions donnant la plus grande valeur du contraste.
98 CHAPITRE 4
e) Maximisation de Υ4
Si r = 4, la procédure est similaire. On préfèrera exprimer le contraste en
fonction de la variable auxiliaire ξ = θ − 1/θ dès le départ, de sorte que:
4
Υ4 (ξ; g) = (ξ 2 + 4)−2 bi ξ i .
X
(4.76)
i=0
De même, les points stationnaires de Υ4 (ξ; g) sont donnés par les racines
d’un polynome en ξ:
4
ci ξ i .
X
ω4 (ξ; g) = (4.77)
i=0
T = A Λ A† . (4.78)
Dans cette décomposition, le nombre r joue le même rôle que celui du rang
pour les matrices. Cependant, rien ne nous dit que r ≤ n, malheureusement
[24] [34].
A ce stade, plusieurs familles de problèmes peuvent être identifiés. Dans
la première, on ne considère que les décompositions pour lesquelles r = n.
Cette décomposition ne sera alors exacte que dans des cas très particuliers
[35], ce qui apparaitra plus clairement après les explications de la section
4.3.3. Quoiqu’il en soit, on voit déjà le lien étroit existant entre de telles
diagonalisations et le problème de l’ACI décrit au chapitre 4.2 si la table T
désigne le tenseur cumulant d’ordre d des observations.
Dans les problèmes de la seconde famille, on considère le cas générique,
c’est à dire le cas le plus souvent rencontré. Pour les matrices par exemple,
le cas générique est celui du rang plein. Pour les tenseurs, le rang générique
n’est pas le rang maximal possible; ceci est une première particularité (cf.
100 CHAPITRE 4
section 4.3.3). S’il s’agit de tenseurs d’ordre d > 2, alors la seconde famille
est très différente de la première.
Dans la troisième famille, on s’intéresse aux cas non génériques. On
trouve notamment le cas du rang maximal, mais aussi les cas intermédiaires
entre r = n et r générique. L’intérêt de considérer ces cas intermédiaires
est d’ordre pratique: on espère être capable de proposer des algorithmes
pour calculer la diagonalisation congruente dans ces cas-là, ou au moins
prouver qu’ils existent théoriquement, ce qui n’est pas aujourd’hui possible
pour toutes les valeurs du triplet (p, n, r), loin s’en faut.
ordre 2 3 4 5 6 7 8
dimension
2 2 2 3 3 4 4 5
3 3 4 6 7 10 12 15
4 4 5 10 14 22 30 42
5 5 8 15 26 42 66 99
6 6 10 22 42 77 132 215
7 7 12 30 66 132 246 429
8 8 15 42 99 215 429 805
ordre 2 3 4 5 6 7 8
dimension
2 1 0 1 0 1 0 1
3 3 2 3 0 2 0 0
4 6 0 5 0 4 0 3
5 10 5 5 4 0 0 0
6 15 4 6 0 0 0 3
7 21 0 0 0 0 6 0
8 28 0 6 0 4 0 5
Orientations et perspectives
Traitement d’antenne
1 Il est non seulement discutable d’imposer l’hypothèse de stationnarité
des sources dans les problèmes de mélanges linéaires, au regard des
conditions expérimentales, mais aussi très certainement superflu sur
le plan théorique. Il est même vraisemblable que la non stationnarité
des sources permette d’atteindre, lorsque le milieu est constant, de
meilleures performances.
2 Le problème de la calibration automatique sans bruiteur coopérant,
révélant des problèmes d’observabilité complexes, est d’un grand
intérêt opérationnel [148]. Il fait l’objet d’une étude en 1995-96.
3 Celui de la pondération optimale d’antennes de géométrie quelconque
est posé encore aujourd’hui sous la forme d’un problème d’optimisation
multimodal général, malgré ses nombreuses particularités.
4 L’évaluation de bornes permettant d’accéder aux performances ultimes
atteignables en estimation de paramètres est également difficile à met-
103
104 CHAPITRE 5
poser correctement, est celui d’un seul capteur et d’une seule source,
en présence de trajets multiples. C’est un des points à aborder dans
la thèse de B. Emile.
Bibliographie
111
112 CHAPITRE 6
6.1.5 Livres
[62] L. KOPP, P. COMON, J. P. LECADRE, Traitement d’antenne Sonar,
livre en préparation.
[63] J. L. LACOUME, P. COMON, P. O. AMBLARD, Statistiques d’ordre
élevé en traitement du signal, livre en préparation.
En outre, une quinzaine de rapports ont été rédigés en relation avec les
contrats de recherche, et ne sont pas mentionnés ici.
6.3 Annexes
Pour ne pas encombrer inutilement le document, ce sont essentiellement les
articles de revue qui sont rassemblés dans cette annexe.
Sommaire
[1] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
[2] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
[3] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175
[4] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183
[5] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193
[6] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201
[7] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211
[8] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229
[9] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 237
[10] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 247
[11] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253
[12] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 259
[13] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 261
[14] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 269
[15] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 277
[16] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 281
[18] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 329
[19] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 351
[20] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 353
[21] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 373
[23] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 389
[24] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 395
[25] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 415
[26] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 419
Quelques articles de conférence
[27] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 423
[28] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 427
[29] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 435
[35] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 453
[36] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 459
[37] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 463
[45] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 469
[47] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 473
[49] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 485
130 CHAPITRE 6
[50] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 497
[53] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 501