Intégration, Probabilités Et Processus Aléatoires
Intégration, Probabilités Et Processus Aléatoires
Intégration, Probabilités Et Processus Aléatoires
Int
egration, Probabilit
es
et Processus Al
eatoires
Jean-Francois Le Gall
Septembre 2006
I Int
egration 7
1 Espaces mesur es 9
1.1 Ensembles mesurables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2 Mesures positives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3 Fonctions mesurables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.4 Classe monotone . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2 Int
egration par rapport ` a une mesure 17
2.1 Integration de fonctions positives . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2 Fonctions integrables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.3 Integrales dependant dun param`etre . . . . . . . . . . . . . . . . . . . . . . 26
3 Construction de mesures 29
3.1 Mesures exterieures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.2 La mesure de Lebesgue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.3 Liens avec lintegrale de Riemann . . . . . . . . . . . . . . . . . . . . . . . . 38
3.4 Un exemple densemble non mesurable . . . . . . . . . . . . . . . . . . . . . 39
3.5 Integrale de Stieltjes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.6 Le theor`eme de representation de Riesz . . . . . . . . . . . . . . . . . . . . . 41
4 Espaces Lp 43
4.1 Definition et inegalite de Holder . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.2 Lespace de Banach Lp (E, A, ) . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.3 Theor`emes de densite dans les espaces Lp . . . . . . . . . . . . . . . . . . . . 49
4.4 Le theor`eme de Radon-Nikodym . . . . . . . . . . . . . . . . . . . . . . . . . 52
5 Mesures produits 57
5.1 Generalites sur les espaces produits . . . . . . . . . . . . . . . . . . . . . . . 57
5.2 Construction de la mesure-produit . . . . . . . . . . . . . . . . . . . . . . . . 58
5.3 Le theor`eme de Fubini . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
5.4 Applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
5.4.1 Integration par parties . . . . . . . . . . . . . . . . . . . . . . . . . . 63
5.4.2 Convolution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
5.4.3 Calcul du volume de la boule unite . . . . . . . . . . . . . . . . . . . 67
3
6 Mesures sign ees 69
6.1 Definition et variation totale . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
6.2 La decomposition de Jordan . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
6.3 La dualite Lp Lq . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
6.4 Le theor`eme de representation de Riesz . . . . . . . . . . . . . . . . . . . . . 79
II Probabilit
es 89
8 Fondements de la th eorie des probabilit es 91
8.1 Definitions generales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
8.1.1 Espaces de probabilite . . . . . . . . . . . . . . . . . . . . . . . . . . 91
8.1.2 Variables aleatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
8.1.3 Esperance mathematique . . . . . . . . . . . . . . . . . . . . . . . . . 94
8.1.4 Exemple : le paradoxe de Bertrand . . . . . . . . . . . . . . . . . . . 96
8.1.5 Lois classiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
8.1.6 Fonction de repartition dune variable aleatoire reelle . . . . . . . . . 99
8.1.7 Tribu engendree par une variable aleatoire . . . . . . . . . . . . . . . 100
8.2 Moments de variables aleatoires . . . . . . . . . . . . . . . . . . . . . . . . . 101
8.2.1 Moments dordre p et variance . . . . . . . . . . . . . . . . . . . . . . 101
8.2.2 La regression lineaire . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
8.2.3 Fonctions caracteristiques . . . . . . . . . . . . . . . . . . . . . . . . 104
8.2.4 Fonction generatrice . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
9 Ind
ependance 109
9.1 Evenements independants . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
9.2 Variables aleatoires et tribus independantes . . . . . . . . . . . . . . . . . . 111
9.3 Le lemme de Borel-Cantelli . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
9.4 Sommes de variables aleatoires independantes. . . . . . . . . . . . . . . . . . 119
4
11 Conditionnement 143
11.1 Conditionnement discret . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
11.2 La definition de lesperance conditionnelle . . . . . . . . . . . . . . . . . . . 145
11.2.1 Cas des variables integrables . . . . . . . . . . . . . . . . . . . . . . . 145
11.2.2 Cas des variables positives . . . . . . . . . . . . . . . . . . . . . . . . 147
11.2.3 Le cas particulier des variables de carre integrable . . . . . . . . . . . 150
11.3 Proprietes specifiques de lesperance conditionnelle . . . . . . . . . . . . . . . 150
11.4 Calculs desperance conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . 153
11.4.1 Conditionnement discret . . . . . . . . . . . . . . . . . . . . . . . . . 153
11.4.2 Cas des variables `a densite . . . . . . . . . . . . . . . . . . . . . . . . 153
11.4.3 Conditionnement gaussien . . . . . . . . . . . . . . . . . . . . . . . . 154
11.5 Probabilites de transition et lois conditionnelles . . . . . . . . . . . . . . . . 157
III Processus al
eatoires 161
12 Theorie des martingales
`
a temps discret 163
12.1 Definitions et exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
12.2 Temps darret . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
12.3 Convergence presque s ure des martingales . . . . . . . . . . . . . . . . . . . 169
12.4 La convergence dans Lp pour p > 1 . . . . . . . . . . . . . . . . . . . . . . . 176
12.5 Uniforme integrabilite et martingales . . . . . . . . . . . . . . . . . . . . . . 179
12.6 Martingales retrogrades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
5
14.7 Fonctions harmoniques et mouvement brownien . . . . . . . . . . . . . . . . 241
6
Partie I
Int
egration
7
Chapitre 1
Espaces mesur
es
Lidee de depart de la theorie de la mesure est dassigner un nombre reel positif (la mesure
de ce sous-ensemble) `a chaque sous-ensemble dun ensemble donne, de mani`ere `a satisfaire
certaines proprietes naturelles dadditivite (la mesure dune reunion disjointe doit etre la
somme des mesures). Pour des raisons profondes, il nest pas possible en general de definir
la mesure de nimporte quel sous-ensemble, et on doit se restreindre `a une certaine classe
(tribu) de sous-ensembles, appeles les sous-ensembles mesurables : un ensemble muni dune
tribu est appele espace mesurable. Ce chapitre introduit les notions fondamentales de tribu
(= famille des ensembles mesurables), de mesure sur un espace mesurable, et de fonctions
mesurables, qui sont les fonctions dont on saura plus tard definir lintegrale. Le dernier
paragraphe enonce une forme du lemme de classe monotone, qui joue un role tr`es important
`a la fois en theorie de la mesure et en theorie des probabilites.
(i) E A ;
(ii) A A Ac A ;
[
(iii) Si An A pour tout n N, on a aussi An A.
nN
Les elements de A sont appeles parties mesurables, ou parfois A-mesurables sil y a ambigute.
On dit que (E, A) est un espace mesurable.
(1) A
\
(2) Si An A pour tout n N, on a aussi An A.
nN
9
(3) Puisquon peut toujours prendre An = pour n assez grand, la propriete (iii) entrane
que A est stable par reunions finies (et de meme par intersection finies).
Exemples.
A = P(E) ;
lensemble des parties de E qui sont (au plus) denombrables ou dont le complementaire
est (au plus) denombrable forme une tribu sur E.
Pour donner des exemples plus interessants, on remarque quune intersection quelconque
de tribus est encore une tribu. Ceci conduit `a la definition suivante.
efinition 1.1.2 Soit C un sous-ensemble de P(E). Il existe alors une plus petite tribu sur
D
E qui contienne C. Cette tribu notee (C) peut etre definie par
\
(C) = A.
A tribu,CA
Tribu bor elienne. Pour donner un premier exemple de linteret de la notion de tribu
engendree, considerons le cas o`
u E est un espace topologique.
Definition 1.1.3 Supposons que E est un espace topologique, et soit O la classe des ouverts
de E. La tribu (O) est appelee tribu borelienne et notee B(E).
La tribu borelienne est donc la plus petite tribu qui contienne tous les ouverts de E. Les
elements de B(E) sont appeles boreliens de E.
Dans la suite, `a chaque fois que lon considerera un espace topologique, par exemple R
ou Rd , on supposera sauf indication du contraire quil est muni de sa tribu borelienne.
Exercice. Verifier que la tribu B(R) est aussi engendree par les intervalles ]a, b[, a, b R,
a < b, ou par les intervalles ] , a[, a R, ou encore les intervalles ] , a[, a Q (on
peut aussi remplacer intervalles ouverts par intervalles fermes).
Tribu-produit. Un deuxi`eme exemple important de la notion de tribu engendree est la
tribu-produit.
Definition 1.1.4 Soient (E1 , A1) et (E2 , A2) deux espaces mesurables. La tribu-produit est
la tribu sur E1 E2 definie par
A1 A2 = (A1 A2 ; A1 A1 , A2 A2 }.
10
1.2 Mesures positives
Soit (E, A) un espace mesurable.
D efinition 1.2.1 Une mesure positive sur (E, A) est une application : A [0, ] qui
verifie les proprietes suivantes:
(i) () = 0 ;
Remarquons quil est important dautoriser la valeur +. La propriete (ii) est appelee
-additivite. Elle contient evidemment le cas particulier o` u les An sont vides `a partir dun
certain rang, ce qui donne la propriete dadditivite finie.
Propri
etes.
(1) Si A B, (A) (B) et si de plus (A) < ,
(2) Si A, B A,
(A) + (B) = (A B) + (A B) ;
(3) Si An A et An An+1 ,
[
( An ) = lim (An ) ;
n
nN
(5) Si An A, [ X
( An ) (An ).
nN nN
Cn = An \An1
[ [ X N
X
( An ) = ( Cn ) = (Cn ) = lim (Cn ) = lim (AN ).
N N
nN nN nN n=0
11
Pour (4), on pose An = B0 \Bn pour tout n, de sorte que la suite (An ) est croissante.
Alors
\ \ [
(B0 ) ( Bn ) = (B0 \ Bn ) = ( An ) = lim (An ) = lim ((B0 ) (Bn )).
n n
nN nN nN
La condition (B0 ) < est utilisee notamment pour ecrire (An ) = (B0 ) (Bn ).
Enfin, pour (5), on pose C0 = A0 puis pour tout n 1,
n1
[
Cn = An \ Ak .
k=0
Exemples.
(1) Si E = N, et A = P(N), la mesure de comptage est definie par
(A) = Card(A).
(On peut definir plus generalement la mesure de comptage sur (E, P(E)) lorsque E est
quelconque.) Cet exemple permet de voir que la condition (B0 ) < est necessaire dans
la propriete (4) ci-dessus : en prenant
Bn = {n, n + 1, n + 2, . . .}
on a (Bn ) = alors que Bn = et donc (Bn ) = 0.
(2) Soit (E, A) quelconque et soit x E. La mesure x definie par
1 si x A
x (A) = 1A (x) =
0 si x
/A
est appelee mesure de Dirac au point x. Plus generalement, si xn , n N sont des points de
P
E et n [0, ] on peut considerer la mesure n xn definie par
X X X
( n xn )(A) = n xn (A) = n 1A (xn ).
(3) Mesure de Lebesgue. Il existe une unique mesure positive sur (R, B(R)), notee , telle
que pour tout intervalle ouvert ]a, b[ de R on ait (]a, b[) = b a. Lexistence et lunicite de
cette mesure seront etablies plus loin.
D
efinitions.
est dite finie si (E) < (la quantite (E) est la masse totale de ).
est une mesure de probabilite si (E) = 1.
[ est dite -finie sil existe une suite croissante de parties mesurables En telles que
E= En et (En ) < pour tout n.
nN
x E est un atome de si ({x}) > 0 (on suppose que {x} A).
La mesure est dite diffuse si elle na pas datomes.
12
1.3 Fonctions mesurables
efinition 1.3.1 Soient (E, A) et (F, B) deux espaces mesurables. Une application f :
D
E F est dite mesurable si
B B , f 1 (B) A.
Lorsque E et F sont des espaces topologiques munis de leurs tribus boreliennes, on dit aussi
que f est borelienne.
Proposition 1.3.2 Pour que f soit mesurable, il suffit quil existe une sous-classe C de B
telle que (C) = B et telle que la propriete f 1 (B) A soit vraie pour tout B C.
Preuve. Soit
G = {B B : f 1 (B) A}.
Alors il est facile de verifier que G est une tribu. Par hypoth`ese C G. Il en decoule que G
contient (C) = B, do` u le resultat recherche.
Exemples. (1) Dans le cas o` u (F, B) = (R, B(R)), il suffit pour montrer que f est mesurable
detablir que les ensembles f (]a, b[), ou meme les f 1 (] , a[) sont mesurables.
1
C = {B1 B2 ; B1 B1 , B2 B2 }.
Corollaire 1.3.4 Si f, g : (E, A) (R, B(R)) sont mesurables, alors les fonctions f + g,
f g, inf(f, g), f + = sup(f, 0), f = sup(f, 0) sont mesurables.
13
La demonstration est facile : par exemple f + g est la composee des deux applications
x (f (x), g(x)) et (a, b) a + b qui sont mesurables, la seconde parce que continue.
= R {, +}, on definit
Rappelons que si (an ) est une suite delements de R
lim sup an = lim sup ak , lim inf an = lim inf ak ,
n kn n kn
alors
Proposition 1.3.5 Si fn est une suite de fonctions mesurables de E dans R,
sont aussi mesurables. En particulier si la suite fn converge simplement, sa limite lim fn est
mesurable. En general, lensemble {x E : lim fn (x) existe} est mesurable.
Preuve. Soit f (x) = inf fn (x). Il suffit de montrer que pour tout a R, f 1 ([, a[) A.
Or [
f 1 ([, a[) = {x : inf fn (x) < a} = {x : fn (x) < a}
n
do`
u le resultat. On traite de meme le cas de sup fn .
Il en decoule que
lim inf fn = sup inf fk
n0 kn
est mesurable.
Pour la derni`ere assertion, on ecrit
si G est lapplication mesurable G(x) = (lim inf fn (x), lim sup fn (x)) et designe la diagonale
de R 2 , qui est mesurable parce que fermee.
Notion de mesure-image.
D efinition 1.3.2 Soit f : (E, A) (F, B) une application mesurable, et soit une mesure
positive sur (E, A). La mesure-image de par f , notee f () est la mesure positive sur (F, B)
definie par
f ()(B) = (f 1 (B)).
Il est facile de voir que la derni`ere formule definit bien une mesure sur (F, B). Les mesures
et f () ont meme masse totale, mais il peut arriver que soit -finie sans que f () le soit.
14
1.4 Classe monotone
efinition 1.4.1 Un sous-ensemble M de P(E) est appele classe monotone si
D
(i) E M ;
Toute tribu est aussi une classe monotone. Comme dans le cas des tribus, on voit
immediatement que toute intersection de classes monotones est encore une classe monotone.
Si C est une partie quelconque de P(E), on peut donc definir la classe monotone engendree
par C, notee M(C), en posant
\
M(C) = M.
M classe monotone, CM
Th eor`eme 1.4.1 (Lemme de classe monotone) Si C P(E) est stable par intersec-
tions finies, alors M(C) = (C).
Preuve. Puisque toute tribu est une classe monotone, il est clair quon a M(C) (C).
Pour etablir linclusion inverse, il suffit de montrer que M(C) est une tribu. Or une classe
monotone est une tribu si et seulement si elle est stable par intersections finies (en effet,
par passage au complementaire, elle sera alors stable par reunion finies, puis par passage
`a la limite croissant par reunion denombrable). Montrons donc que M(C) est stable par
intersections finies.
Soit A C fixe. Posons
M1 = {B M(C) : A B M(C)}.
Puisque C est stable par intersections finies, il est clair que C M1 . Verifions ensuite que
M1 est une classe monotone:
E M1 est immediat.
Puisque M1 est une classe monotone qui contient C, M1 contient aussi M(C). On a donc
montre
A C, B M(C), A B M(C).
15
Ce nest pas encore le resultat recherche, mais on peut appliquer la meme idee une seconde
fois. Precisement, on fixe maintenant B M(C), et on pose
M2 = {A M(C) : A B M(C)}.
Corollaire 1.4.2 Soient et deux mesures sur (E, A). Supposons quil existe une classe
C A stable par intersections finies, telle que (C) = A et (A) = (A) pour tout A C.
(1) Si (E) = (E) < , on a = .
(2) Sil existe une suite croissante de parties En C telles que E = En et (En ) =
(En ) < , on a = .
A A , n (A) = (A En ), n (A) = (A En ).
Cons equence. Unicite de la mesure de Lebesgue. Il existe au plus une mesure sur
(R, B(R)) telle que pour tout intervalle ouvert non vide ]a, b[, on ait (]a, b[) = b a. En
effet, si est une seconde mesure ayant la meme propriete, on peut appliquer `a et la
partie (2) du corollaire precedent, en prenant pour C la classe des intervalles ouverts (dont
on sait quelle engendre la tribu borelienne) et En =] n, n[ pour tout n.
De la meme facon, on deduit du corollaire precedent quune mesure finie sur R est
caracterisee par les valeurs de (] , a]) pour tout a R.
16
Chapitre 2
Int
egration par rapport `
a une mesure
2.1 Int
egration de fonctions positives
On se donne un espace mesure, cest-`a-dire un espace mesurable (E, A) muni dune mesure
.
Fonctions etagees. Une fonction mesurable f `a valeurs dans R est dite etagee si elle ne
prend quun nombre fini de valeurs. Si 1 , 2 , . . . , n sont les valeurs prises par f , quon
peut supposer rangees par ordre croissant 1 < 2 < < n , on a alors
n
X
f (x) = i 1Ai (x)
i=1
o`u, pour chaque i {1, . . . , n}, Ai = f 1 ({i }) A. Lecriture precedente sera appelee
lecriture canonique de f .
D efinition 2.1.1 Supposons f `a valeurs dans R+ . Lintegrale de f par rapport `a est alors
definie par
Z Xn
f d = i (Ai )
i=1
u i = 0 et (Ai ) = .
avec la convention 0. = 0 dans le cas o`
17
R
On a a priori f d [0, ].
Supposons quon ait une autre ecriture de f sous la forme
m
X
f= j 1Bj
j=1
les ensembles mesurables Bj formant toujours une partition de E mais les nombres j netant
plus necessairement distincts. Alors il est facile de verifier quon a aussi
Z X m
f d = j (Bj ).
j=1
En effet, pour chaque i {1, . . . , n}, Ai doit etre la reunion disjointe des ensembles Bj pour
les indices j tels que j = i . Il suffit alors dutiliser la propriete dadditivite de la mesure
pour ecrire X
(Ai ) = (Bj )
{j:j =i }
(2) Si f g, Z Z
f d gd.
avec les memes ensembles mesurables disjoints Bj (mais les nombres j , resp. j , non
necessairement distincts). Dapr`es la remarque suivant la definition, on a
Z p
X Z p
X
f d = j (Bj ) , g d = j (Bj ).
j=1 j=1
R Pp
et de meme (af + bg)d = j=1 (aj + bj ) (Bj ), do`
u le resultat voulu.
18
(2) On applique (1) en ecrivant
Z Z Z Z
gd = f d + (g f )d f d.
Notons E+ lespace des fonctions etagees positives.
La propriete (2) ci-dessus montre que cette definition est coherente avec la precedente
quand f est etagee.
On notera indifferemment
Z Z Z
f d = f (x)d(x) = f (x)(dx)
Theor`eme 2.1.1 (Th eor`eme de convergence monotone) Soit (fn ) une suite croissante
de fonctions mesurables positives (`a valeurs dans [0, ]), et soit f = lim fn . Alors
Z Z
f d = lim fn d.
n
et il suffit donc detablir lautre inegalite. Pour cela, choisissons une fonction etagee positive
m
X
h= i 1Ai
i=1
En = {x E : ah(x) fn (x)}.
Alors En est mesurable. De plus en utilisant le fait que fn crot vers f , et la condition a < 1,
on voit que E est la reunion croissante des ensembles En .
19
Ensuite on remarque quon a linegalite fn a1En h, do`
u
Z Z m
X
fn d a1En h d = a i (Ai En ).
i=1
R
Comme f d est definie par le supremum des quantites de droite lorsque h decrit lensemble
des fonctions etagees positives majorees par f , on obtient bien linegalite recherchee.
Dans toute la suite fonction mesurable positive signifie fonction mesurable `a valeurs
dans [0, ].
Proposition 2.1.2 (1) Soit f une fonction mesurable positive. Il existe une suite croissante
(fn ) de fonctions etagees positives telle que fn f .
(2) Si f et g sont mesurables positives et a, b R+ ,
Z Z Z
(af + bg)d = a f d + b gd.
An = {x E : f (x) n}
Bn,i = {x E : i2n f (x) < (i + 1)2n }.
20
(2) On construit deux suites de fonctions etagees positives (fn ), (gn ) avec fn f , gn g.
Alors on a aussi afn + bgn af + bg, et en utilisant le theor`eme de convergence monotone
et les proprietes de lintegrale des fonctions etagees,
Z Z Z Z Z Z
(af + bg)d = lim (afn + bgn )d = lim (a fn d + b gn d) = a f d + b gd.
(3) Cette assertion decoule de (2) (cas dune somme finie) et du theor`eme de convergence
monotone.
u E = N et est la mesure de comptage. Alors
Remarque. Considerons le cas particulier o`
il est facile de voir que Z X
f d = f (k)
kN
et (3) redonne la propriete bien connue enoncant que pour toute suite double (an,k ) de reels
positifs, XX XX
an,k = an,k .
kN nN nN kN
Alors est une mesure positive sur (E, A), appelee mesure de densite f par rapport `a , et
notee = f .
Preuve. Il est immediat que () = 0. Par ailleurs, si (An ) est une suite densembles
mesurables disjoints,
[ Z X XZ X
An = 1An f d = 1An f d = (An )
nN nN nN nN
21
(2) On a Z
f d < f < p.p.
(3) On a Z
f d = 0 f = 0 p.p.
[
et donc (Bn ) = 0 ce qui entrane ({x : f (x) > 0}) = Bn = 0.
n1
(4) Utilisons la notation f g = sup(f, g) et f g = inf(f, g). Alors f g = f g p.p.,
do`
u Z Z Z Z
(f g)d = (f g)d + (f g f g)d = (f g)d,
Th eor`
eme 2.1.5 (Lemme de Fatou) Soit (fn ) une suite quelconque de fonctions mesura-
bles positives. Alors, Z Z
(lim inf fn )d lim inf fn d.
22
Preuve. On a
lim inf fn = lim inf fn
k nk
inf fn fp
nk
ce qui entrane Z Z
inf fn d inf fp d.
nk pk
u f + = sup(f, 0), resp. f = sup(f, 0) est la partie positive, resp. negative, de f . (Noter
o`
que f + et f sont mesurables et que f = f + f et |f | = f + + f .)
R R R
Remarque. ROn a f + d |f |d < et de meme f d < , ce qui montre que la
definition de f d a bien un sens. Dans le cas o` u f est positive, cette definition concide
bien sur avec la precedente.
On note L1 (E, A, ) lespace des fonctions -integrables. On utilisera parfois la notation
L1+ (E, A, ) pour les fonctions -integrables `a valeurs positives.
Propri etes.
R R
(a) | f d| |f |d pour f L1 (E, A, ).
R
(b) L1 (E, A, ) est un espace vectoriel et lapplication f f d est une forme lineaire
sur cet espace vectoriel.
R R
(c) Si f, g L1 (E, A, ) et f g, alors f d gd.
23
R R
(d) Si f, g L1 (E, A, ) et f = g p.p., alors f d = gd.
Preuve. (a) On ecrit
Z Z Z Z Z Z
+ +
| f d| = | f d f d| | f d| + | f d| = |f |d.
Si a 0, Z Z Z Z
+
(af )d = (af ) d (af ) d = a f d
et si a < 0,
Z Z Z Z Z Z
+ +
(af )d = (af ) d (af ) d = (a) f d + a f d = a f d.
do`
u, puisque toutes les integrales sont finies,
Z Z Z Z Z Z
(f + g) d (f + g) d = f d f d + g d g d,
+ + +
R R R
ce qui donne bien (f + R g)d =R f d +R gd.
(c) Il suffit decrire gd = f d + (g f )d.
(d) Legalite f = g p.p. entrane f + = g + et f = g p.p. Il suffit alors dutiliser les
resultats vus dans le cas des fonctions positives.
1
Remarque. OnRcombineRfacilement (c) et (d) pour obtenir que, si f, g L (E, A, ) et
f g p.p., alors f d gd.
Extension au cas complexe. Soit f : E C une fonction mesurable (cela equivaut `a
dire que Re(f ) et Im(f ) sont toutes deux mesurables). On dit que f est integrable et on
note f L1C (E, A, ) si Z
|f |d < .
24
On pose alors Z Z Z
f d = Re(f )d + i Im(f )d.
Les proprietes (a),(b) et (d) ci-dessus restent vraies si L1 (E, A, ) est remplace par L1C (E, A, )
(pour montrer (a), remarquer que
Z Z
| f d| = sup a f d
aC,|a|=1
|fn | g p.p.
et Z
lim |fn f |d = 0.
n
Preuve. On suppose dabord que les hypoth`eses suivantes plus fortes sont verifiees:
(1) Pour tout x E,
fn (x) f (x)
R
(2) Il existe une fonction g : E R+ mesurable telle que gd < et pour tout n
et tout x E
|fn (x)| g(x).
R
La propriete f L1 est alors claire puisque |f | g et gd < . Ensuite, puisque
|f fn | 2g et |f fn | 0, on peut appliquer le lemme de Fatou pour trouver
Z Z Z
lim inf (2g |f fn |) d lim inf(2g |f fn |) d = 2 gd.
25
do`
u Z
lim sup |f fn |d = 0,
R
et donc |f fn |d 0. Finalement il suffit decrire
Z Z Z
f d fn d |f fn |d.
2.3 Int
egrales d
ependant dun param`
etre
On se donne un espace metrique (U, d) qui correspond `a lespace des param`etres. Soit une
application f : U E R (ou C).
(iii) il existe une fonction g L1+ (E, A, ) telle que pour tout u U,
Preuve. Lhypoth`ese (iii) entrane que la fonction x f (u, x) est integrable et donc F (u)
est bien definie. Ensuite, soit (un )n1 une suite convergeant vers u0 . Lhypoth`ese (ii) assure
que
f (un , x) f (u0 , x) , p.p.
n
26
Exemples. (a) Soit une mesure diffuse sur (R, B(R)). Si L1 (R, B(R), ), la fonction
Z Z
F (u) = (x) (dx) = 1],u](x)(x) (dx)
],u]
f
(u0 , x) ;
u
(iii) il existe une fonction g L1+ (E, A, ) telle que pour tout u I,
27
Preuve. Soit (un )n1 une suite dans I\{u0 } convergeant vers u0 , et soit
f (un , x) f (u0 , x)
n (x) = .
un u0
Grace `a (ii), n (x) converge vers fu
(u0, x), (dx) p.p. De plus lhypoth`ese (iii) permet
dappliquer le theor`eme de convergence dominee et dobtenir
Z Z
F (un ) F (u0) f
lim = lim n (x) (dx) = (u0 , x) (dx).
n un u0 n u
Remarque. Dans de nombreuses applications, les hypoth`eses (ii) et (iii) sont remplacees
par les hypoth`eses plus fortes
(ii) (dx) p.p. lapplication u f (u, x) est derivable sur I;
(iii) il existe une fonction g L1+ (E, A, ) telle que (dx) p.p.,
f
u I , (u, x) g(x).
u
(Noter que (iii)(iii) grace au theor`eme des accroissements finis.) Sous ces hypoth`eses, la
fonction F est derivable sur I. Lexercice ci-dessous montre cependant que la forme plus
precise de lenonce du theor`eme est parfois necessaire.
Exemples. (a) Soit L1 (R, B(R), ) telle que
Z
|x(x)| (dx) < .
(b) Soit L1 (R, B(R), ), et soit h une fonction de R R une fonction de classe C 1 ,
bornee ainsi que sa derivee. Alors la convolution h est derivable sur R, et
(h ) = h .
On peut bien s ur iterer. Par exemple si h est de classe C `a support compact, h est
aussi de classe C .
Exercice. Soit une mesure diffuse sur (R, B(R)) et soit L1 (R, B(R), ) telle que
Z
|x(x)| (dx) < .
28
Chapitre 3
Construction de mesures
Le chapitre precedent partait de la donnee dune mesure sur un espace mesurable. Nous
montrons maintenant comment on construit des mesures interessantes, et particuli`erement
la mesure de Lebesgue. Le premier paragraphe introduit la notion de mesure exterieure,
verifiant des proprietes des proprietes plus faibles que celles dune mesure, et montre com-
ment `a partir dune mesure exterieure on peut construire une (vraie) mesure sur une tribu
convenable. Cette approche, qui est celle quavait utilisee Lebesgue, permet assez facilement
de construire la mesure de Lebesgue sur R ou sur Rd . Nous discutons aussi diverses pro-
prietes de la mesure de Lebesgue, ainsi que ses liens avec lintegrale de Riemann. Une autre
application est lintegrale de Stieltjes, qui correspond `a lintegrale par rapport `a une mesure
finie arbitraire sur la droite reelle.
(i) () = 0;
Les proprietes dune mesure exterieure sont moins contraignantes que celles dune mesure.
Remarquons cependant quune mesure exterieure est definie sur lensemble de toutes les
parties de E et non pas seulement sur une tribu.
Nous verrons plus loin sur des exemples comment on construit des mesures exterieures.
Notre objectif dans ce paragraphe est de montrer comment `a partir dune mesure exterieure
on construit une mesure sur une tribu M() qui depend de . Dans la suite de cette
partie, on fixe une mesure exterieure .
29
efinition 3.1.2 Une partie B de E est dite -mesurable si pour toute partie A de E,
D
(A) = (A B) + (A B c ).
On note M() lensemble des parties -mesurables.
Theor`eme 3.1.1 (1) M( ) est une tribu, qui contient toutes les parties B de E telles que
(B) = 0.
(2) La restriction de `a M( ) est une mesure.
30
en utilisant le fait que les Bk sont disjoints. On deduit de (3.1) que
m
X \
(A) (A Bk ) + (A Bkc )
k=0 k=0
[
par -sous-additivite. Cela suffit pour conclure que Bk M.
k=0
(2) Notons la restriction de `a M. On sait dej`a que () = 0. Soient Bk , k M
des elements disjoints de M. La preuve de (1) montre que pour toute partie A de E,
X \
(A) (A Bk ) + (A Bkc )
k=0 k=0
[
et donc en prenant A = Bk ,
k=0
[
X
( Bk ) (Bk ).
k=0 k=0
Comme linegalite inverse est aussi vraie par -sous-additivite, cela termine la preuve.
Linfimum porte sur tous les recouvrements denombrables de A par des intervalles ouverts
]ai , bi [, ai bi (evidemment il existe toujours de tels recouvrements).
Th
eor` eme 3.2.1 (i) est une mesure exterieure sur R.
(ii) La tribu M( ) contient B(R).
(iii) Pour tous a b, ([a, b]) = (]a, b[) = b a.
31
La restriction de `a B(R) (ou `a M()) est la mesure de Lebesgue sur R, et sera
notee simplement . En consequence des resultats de la fin du Chapitre 1, cest lunique
mesure sur B(R) qui verifie la propriete (]a, b[) = b a pour tout intervalle ]a, b[.
Preuve. (i) Il est immediat que () = 0 et que est croissante. Il reste `a etablir la
sous-additivite. Pour cela, on se donne une suite (An )nN de parties de N. On peut supposer
(An ) < pour tout n (sinon il ny a rien `a montrer). Soit > 0. Pour tout n N, on
(n) (n)
peut trouver une suite dintervalles ]ai , bi [, i N tels que
[ (n) (n)
An ]ai , bi [
iN
et X (n) (n)
(bi ai ) (An ) + .
iN
2i
(n) (n)
Il suffit alors de remarquer que les intervalles ]ai , bi [, n N, i N forment un recouvre-
ment denombrable de la reunion des An , et donc
[ X X (n) (n)
X
( An ) (bi ai ) (An ) + 2,
nN nN iN nN
do`
u le resultat puisque est arbitraire.
(ii) Puisque M( ) est une tribu, il suffit de montrer quelle contient une famille qui
engendre la tribu borelienne, par exemple la famille des intervalles ] , ], R. On
se donne donc R et on pose B =] , ]. Le probl`eme est de verifier que pour toute
partie A de R,
(A) (A B) + (A B c ).
Soit (]ai , bi [)iN un recouvrement de A, et > 0. Les intervalles ]ai , (bi ) + 2i[
recouvrent A B, et les intervalles ]ai , bi [ recouvrent A B c . Donc
X
(A B) ((bi ) (ai )) + 2,
iN
X
c
(A B ) ((bi ) (ai )).
iN
et comme (A) est par definition linfimum des sommes de droite sur tous les recouvrements
de A, linegalite recherchee en decoule.
32
(iii) Il est immediat par definition que
([a, b]) b a.
Cela donne lautre inegalite b a ([a, b]). Il est facile de voir enfin que (]a, b[) =
([a, b]) (par exemple en observant que ({a}) = ({b}) = 0).
Extension en dimension d.
On appelle pave ouvert (resp. ferme) un sous-ensemble P de Rd de la forme
d
Y d
Y
P = ]aj , bj [ , (resp. P = [aj , bj ]).
j=1 j=1
o`
u linfimum porte sur tous les recouvrements denombrables de A par des paves ouverts.
On a alors lanalogue suivant du theor`eme precedent.
Th
eor`eme 3.2.2 (i) est une mesure exterieure sur Rd .
(ii) La tribu M( ) contient B(Rd ).
(iii) Pour tous pave (ouvert ou ferme) P , (P ) = vol (P ).
33
La restriction de `a B(Rd ) (ou `a M( )) est la mesure de Lebesgue sur Rd , et sera
notee simplement .
Preuve. La preuve de (i) est exactement la meme que dans le cas d = 1. Pour (ii), il suffit
de montrer que si A est un ensemble de la forme
A = R R] , a] R R,
on a A M( ) (il est facile de voir que les ensembles de cette forme engendrent la tribu
B(Rd )). La demonstration est alors tout `a fait semblable `a celle du cas d = 1. Enfin pour
(iii), on se ram`ene `a montrer que si P est un pave ferme et si
n
[
P Pi
i=1
o`
u les Pi sont des paves ouverts, on a
n
X
vol (P ) vol (Pi ).
i=1
Proposition 3.2.3 Soit (E, A, ) un espace mesure. La classe des parties negligeables est
par definition
N = {A P(E) : B A, A B et (B) = 0}.
La tribu completee de A (par rapport `a ) est A = (A N ). Il existe alors une unique
mesure sur (E, A) qui prolonge .
Preuve. On remarque dabord que la tribu A peut etre obtenue de la mani`ere suivante : si
B = {A P(E) : B, B A, B A B et (B \B) = 0}
on a A = B. En effet on verifie facilement que B est une tribu. Il est clair que A B et
N B, ce qui entrane que A B. Enfin, si A B, on choisit B et B comme dans la
definition et on remarque que A = B (A\B), avec B A et A\B N . Linclusion B A
en decoule.
Une fois acquise legalite A = B, on construit le prolongement de `a A de la mani`ere
suivante. Si A A = B, et si B et B sont comme dans la definition de B ci-dessus,
on pose (A) = (B) = (B ). Cela ne depend pas du choix de B et B : si B, B est
un autre choix, on a `a la fois (B) (B ) et (B
) (B) ce qui force les egalites
34
= (B
(B) = (B ) = (B) ). Enfin, il est facile de verifier que le prolongement de `a
A est une mesure : si An , n N sont des elements disjoints de A, on peut pour chaque n
choisir Bn A, Bn An de mani`ere que An \Bn soit negligeable, et on a
X X [ [
(An ) = (Bn ) = ( Bn ) = ( An ),
n n n n
S S S
la derni`ere egalite parce que n An \ n Bn n (An \Bn ) est negligeable.
Posons [ \
Bn = Pin , B= Bn .
i n
ce qui implique (B) = (A). En remplacant A par ] K, K[d \A, on construit de meme
B B(Rd ), B
] K, K[d telle que ] K, K[d \A B et (] K, K[d \A) = (B).
Si
d
B =] K, K[ \B, on doit alors avoir B A et (B ) = (A). Finalement on a bien
trouve deux boreliens B et B avec B A B et (B\B ) = 0.
Theor`eme 3.2.5 La mesure de Lebesgue sur Rd est invariante par translation, au sens o` u
pour tout A B(Rd ) et tout x Rd , on a (x + A) = (A).
Inversement, si est une mesure sur (Rd , B(Rd )) finie sur les parties bornees et invari-
ante par translation, il existe une constante c 0 telle que = c.
35
Legalite x ()(A) = (A) est vraie pour tout pave A (puisque A et x+A sont deux paves de
meme volume). A laide du lemme de classe monotone du Chapitre 1, il en decoule aussitot
que x () = , ce qui est la premi`ere assertion du theor`eme.
Inversement, soit une mesure sur B(Rd ) invariante par translation. Soit
c = ([0, 1[d ).
Comme [0, 1[d est la reunion disjointe de nd paves qui sont des translates de [0, n1 [d , il en
resulte que pour tout entier n 1,
1 c
([0, [d ) = d .
n n
Soient ensuite a1 , . . . , ad 0. En ecrivant
Yd d d
[naj ] Y Y [naj ] + 1
[0, [ [0, aj [ [0, [
j=1
n j=1 j=1
n
(o`
u [x] designe la partie enti`ere de x), on trouve
Yd Yd Yd Yd Yd
c [naj ] [naj ] + 1 c
( [naj ]) d = ( [0, [) ( [0, aj [) ( [0, [) = ( [naj ] + 1) d .
j=1
n j=1
n j=1 j=1
n j=1
n
Comme dans la premi`ere partie de la preuve, cela suffit pour conclure que = c.
Preuve. La quantite inf{(U) : U ouvert , A U} est toujours plus grande que (A). Pour
lautre inegalite, on peut supposer (A) < . Ensuite, par definition de (A) = (A), on
peut
P pour chaque > 0 trouver un recouvrement de A par des paves ouverts Pi tels que
(Pi ) P (A) + . Mais alors louvert U defini comme la reunion des Pi contient A et on
a (U) (Pi ) (A) + , ce qui conduit `a linegalite voulue.
36
Pour la deuxi`eme egalite de la proposition, on peut supposer A contenu dans un compact
C (sinon on ecrit (A) = lim (A [n, n]d )). Pour chaque > 0 on peut grace `a la
premi`ere partie de la preuve trouver un ouvert U contenant C\A, tel que (U) < (C\A)+.
Mais alors F = C\U est un compact contenu dans A, et
(F ) (C) (U) (C) ((C\A) + ) = (A) ,
ce qui donne la deuxi`eme egalite.
La proposition precedente peut etre etendue `a un cadre beaucoup plus general. Nous
nous limitons au cas des mesures finies.
Proposition 3.2.7 Soit (E, d) un espace metrique, et soit une mesure finie sur (E, B(E)).
Alors, pour tout A B(E),
(A) = inf{(U) : U ouvert , A U}
= sup{(F ) : F ferme , F A}.
Preuve. Notons O la classe des ouverts de E, et soit C la classe des ensembles A B(E)
qui verifient la propriete de la proposition. Puisque la tribu borelienne est par definition
engendree par O, il suffit de montrer que O C et que C est une tribu.
Si A O, la premi`ere egalite est triviale. Pour la seconde, on remarque que pour tout
n 1, lensemble
1
Fn = {x E : d(x, Ac ) }
n
est ferme. Par ailleurs A = lim Fn , ce qui entrane
(A) = lim (Fn ),
ce qui donne bien la seconde egalite et prouve que O C.
Il reste `a montrer que C est une tribu. On a C et `a cause de la symetrie entre ouverts
et fermes, on voit immediatement que C est stable par passage au complementaire. Soit
ensuite (An )nN une suite dans C et soit > 0. Pour chaque n, on peut trouver un ouvert
Un contenant An tel que (Un ) (An ) + 2n , do` u
[ [ X
Un \ An (Un An ) 2.
nN nN nN
[ [
Puisque Un est ouvert cela donne la premi`ere des deux egalites recherchees pour An .
Ensuite, soit N un entier assez grand pour que
N
[ [
( An ) ( An ) .
n=0 nN
Pour chaque n {0, 1, . . . , N} on peut trouver un ferme Fn An tel que (An \Fn ) 2n .
Alors
N
[
F = Fn
n=0
37
est ferme et
N
[ N
X
(( An )\F ) (An Fn ) < 2
n=0 n=0
do`
u
[
(( An )\F ) 3.
n=0
[
On conclut que An C, ce qui termine la preuve.
Proposition 3.3.1 Soit f une fonction Riemann-integrable sur [a, b]. Alors f est mesurable
pour la tribu completee B([a, b]), et
Z
I(f ) = f d.
[a,b]
Preuve. On peut trouver une suite (hn ) de fonctions en escalier sur [a, b] telles que hn f
et I(hn ) I(f ). Quitte `a remplacer hn par h1 h2 hn , on peut supposer la suite (hn )
decroissante, ce qui permet de poser
h = lim hn f.
38
sont boreliennes bornees. Par convergence dominee,
Les fonctions h et h
Z Z
h d = lim hn d = lim I(hn ) = I(f ),
[a,b] [a,b]
Z Z
h d = lim n d = lim I(h
h n ) = I(f ).
[a,b] [a,b]
Donc, Z
)d = 0.
(h h
[a,b]
et donc (F ) > 0, car sinon R serait contenu dans une reunion denombrable densembles de
mesure nulle.
Par ailleurs, les ensembles q + F , q Q sont disjoints (si q + xa = q + xa on a xa xa =
q q Q et donc a = a puis q = q ). De linclusion
[
(q + F ) [0, 2]
qQ[0,1]
on deduit donc X
(q + F ) 2
qQ[0,1]
do`
u (F ) = 0 ce qui est la contradiction recherchee.
3.5 Int
egrale de Stieltjes
Le theor`eme suivant donne une description de toutes les mesures finies sur (R, B(R)). Le
resultat peut etre facilement etendu aux mesures de Radon.
39
Th eme 3.5.1 (i) Soit une mesure finie sur (R, B(R)). Pour tout x R, soit
eor`
F (x) = (] , x]).
et Z Z
dF (x) = lim dF (x) = F (b) F (a),
[a,b] n ]an1 ,b]
o`
u F (a) designe la limite `a gauche de F en a.
Preuve. (i) La verification des proprietes de F est facile. Par exemple si xn x, les
intervalles ] , xn ] decroissent vers ] , x], et donc
(Noter quon recouvre A par des intervalles ouverts `a droite et fermes `a gauche, et non plus
des intervalles ouverts comme pour la mesure de Lebesgue.) Les memes arguments que dans
le cas de la mesure de Lebesgue montrent que est une mesure exterieure. On verifie par
la meme methode que dans le cas de la mesure de Lebesgue que les intervalles ] , ] sont
dans M( ) (en fait cest meme plus facile ici). Il en decoule que la tribu M( ) contient la
tribu borelienne, et que la restriction, notee , de `a M( ) est une mesure sur (R, B(R)).
Pour terminer, il reste `a montrer que (] , x]) = F (x) pour tout x R. Il suffit pour
cela detablir que (]a, b]) = F (b) F (a) pour tous a < b (ensuite faire tendre a vers ).
Linegalite
(]a, b]) F (b) F (a)
40
est immediate par construction de .
Dans lautre sens, soit (]xi , yi ])iN un recouvrement denombrable de ]a, b]. Soit
]0, b a[. Pour chaque i N, on peut trouver yi > yi tel que F (yi ) F (yi ) + 2i . Ensuite,
on remarque quon peut recouvrir lintervalle compact [a + , b] par une sous-famille finie
(]xi , yi [)i{0,1,...,N } de la famille des intervalles ouverts (]xi , yi [)iN . Un raisonnement simple
montre qualors
N
X
X
X
F (b) F (a + ) (F (yi ) F (xi ))
(F (yi ) F (xi )) (F (yi ) F (xi )) + 2.
i=0 i=0 i=0
ce qui par definition de donne bien la minoration (]a, b]) F (b) F (a).
Cas des mesures de Radon. La formule
(]0, x]) si x 0,
F (x) =
(]x, 0]) si x < 0,
3.6 Le th
eor`
eme de repr
esentation de Riesz
Soit X un espace metrique. On note Cc (X) lespace des fonctions continues `a support
compact sur X. Une forme lineaire J sur Cc (X) est dite positive si J(f ) 0 d`es que f 0.
Si est une mesure de Radon sur X, on definit une forme lineaire J sur Cc (X) en posant
Z
J(f ) = f d.
Theor`
eme 3.6.1 Soit X un espace metrique localement compact separable, et soit J une
forme lineaire positive sur Cc (X). Il existe alors une unique mesure de Radon sur
(X, B(X)) telle que Z
f Cc (X), J(f ) = f d.
41
u pour tout A B(X),
La mesure est reguli`ere au sens o`
Exemple. Si X = R, on peut prendre J(f ) = I(f ), o` u I(f ) est comme ci-dessus lintegrale
de Riemann de la fonction f . On verifie aisement que J est une forme lineaire positive sur
Cc (R). La mesure associee est (bien s
ur) la mesure de Lebesgue. Cela fournit donc une autre
construction de la mesure de Lebesgue (en supposant construite lintegrale de Riemann des
fonctions continues).
Nous ne donnons pas ici la preuve du Theor`eme 3.6.1 : voir le Theor`eme 10.1 de Briane
et Pag`es [2] ou le chapitre 2 de Rudin [7], qui donne un enonce un peu plus precis.
42
Chapitre 4
Espaces Lp
Ce chapitre est consacre principalement `a letude de lespace Lp des fonctions dont la valeur
absolue est de puissance p-i`eme integrable. Les inegalites fondamentales de Holder, de
Minkowski et de Jensen constituent un outil important pour cette etude. On etudie no-
tamment la structure despace de Banach de lespace Lp , et dans le cas particulier p = 2
la structure despace de Hilbert de L2 . Les theor`emes de densite montrant quon peut ap-
procher nimporte quelle fonction de Lp par des fonctions plus reguli`eres jouent un role
important dans beaucoup dapplications en analyse. En application de la structure hilber-
tienne de L2 , on etablit le theor`eme de Radon-Nikodym, qui etant donne une mesure de
reference permet de decomposer nimporte quelle autre mesure en la somme dune mesure `a
densite par rapport `a la mesure de reference et dune mesure etrang`ere.
4.1 D
efinition et in
egalit
e de H
older
Dans tout ce chapitre on consid`ere un espace mesure (E, A, ). Pour tout reel p 1 on pose
Z
L (E, A, ) = {f : E R mesurable; |f |p d < }
p
et on definit aussi
L (E, A, ) = {f : E R mesurable; C R+ : |f | C, p.p.}.
On pourrait aussi considerer les espaces LpC et L C obtenus en consid erant des fonctions `a
valeurs complexes, mais dans ce chapitre nous nous interesserons surtout au cas reel.
Pour chaque p [1, ], on definit une relation dequivalence sur Lp en posant
f g si et seulement si f = g, p.p.
Cela conduit `a definir lespace quotient
Lp (E, A, ) = Lp (E, A, )/ .
Un element de Lp (E, A, ) est donc une classe dequivalence de fonctions egales p.p. Dans
la suite on fera presque systematiquement labus decriture consistant `a identifier un element
de Lp (E, A, ) `a lun de ses representants.
43
Pour toute fonction f : E R mesurable, on note pour p [1, [,
Z 1/p
p
kf kp = |f | d
de facon que kf k kf k , p.p. et que kf k est le plus petit nombre dans [0, ] avec
cette propriete.
Soient p, q [1, ]. On dit que p et q sont des exposants conjugues si
1 1
+ = 1.
p q
En particulier, p = 1 et q = sont conjugues.
x x 1 .
En effet la fonction (x) = x x a pour derivee sur ]0, [, (x) = (x1 1) qui
est positive sur ]0, 1[ et negative sur ]1, [. Donc est maximale en x = 1, ce qui donne
linegalite recherchee. En appliquant cette inegalite `a x = uv , o`
u u 0 et v > 0, on trouve
u v 1 u + (1 )v,
1
inegalite qui reste vraie si v = 0. On prend alors = p
(donc 1 = 1q ) puis
|f (x)|p |g(x)|q
u= , v=
kf kpp kgkqq
44
pour aboutir `a
|f (x)g(x)| 1 |f (x)|p 1 |g(x)|q
+ .
kf kp kgkq p kf kpp q kgkqq
En integrant cette derni`ere inegalite par rapport `a , il vient
Z
1 1 1
|f g|d + = 1.
kf kp kgkq p q
Exercice. Lorsque 1 < p < , montrer quil y a egalite dans linegalite de Holder ssi il
existe deux reels positifs , non tous deux nuls, tels que |f |p = |g|q p.p.
Le cas particulier p = q = 2 de linegalite de Holder est linegalite de Cauchy-Schwarz
Z Z 1/2 Z 1/2
2
|f g| d |f | d |g|2d .
R
Remarque. Lintegrale f d est bien definie comme integrale dune fonction mesurable
positive.
Preuve. Soit
E = {(a, b) R2 : x R, (x) ax + b}.
Les proprietes bien connues des fonctions convexes assurent que
45
En consequence,
Z Z
f d sup (af + b)d
(a,b)E
Z
= sup a f d + b
(a,b)E
Z
= f d
Exercice. Montrer que si (E) < on a
kf k = lim kf kp .
p
kf + gkp kf kp + kgkp .
R
Si |f + g|p d = 0, linegalite du theor`eme est
R triviale.p Sinon on peut diviser chacun des
(p1)/p
deux membres de linegalite precedente par ( |f + g| d) et on trouve le resultat
recherche.
Th eme 4.2.2 (Riesz) Pour tout p [1, ], lespace Lp (E, A, ) muni de la norme
eor`
f kf kp est un espace de Banach (i.e. un espace vectoriel norme complet).
46
Preuve. On se limite au cas 1 p < (le cas p = est plus facile). Verifions dabord
que f kf kp est une norme sur Lp . On a
Z
kf kp = 0 |f |p d = 0 f = 0 p.p.
On a donc
X
|gn+1 gn | < , p.p.
n=1
la serie convergeant absolument sauf sur un ensemble de mesure nulle sur lequel on peut
prendre une definition arbitraire de h (par exemple h = 0). La fonction h est alors mesurable.
Puisque gN converge vers h, p.p., on a |h| = lim inf |gN |, p.p. et le lemme de Fatou montre
immediatement que
Z Z Z
p p
|h| d lim inf |gN | d sup |gN |p d < ,
N 1
puisque la suite fn etant de Cauchy est bornee dans Lp . Enfin, `a nouveau grace au lemme
de Fatou, on a
Z Z
p p
kh gn kp = |h gn | d lim inf |gN gn |p d = lim inf kgN gn kpp (2n+1 )p
N N
47
en majorant pour N > n, kgN gn kp kgn+1 gn kp + +kgN gN 1 kp 2n+1 . Linegalite
precedente montre que gn converge vers h dans Lp . Cela entrane que fn converge vers h et
termine la preuve.
Exemple. Si E = N et est la mesure de comptage, pour tout p [1, [, lespace Lp est
lespace des suites a = (an )nN de reels tels que
X
|an |p <
n=0
muni de la norme
X
1/p
kakp = |an |p .
n=0
Lespace L est simplement lespace des suites (an )nN qui sont bornees, muni de la norme
kak = sup(an ). Remarquons que dans ce cas il ny a pas densemble non vide de mesure
nulle et donc Lp concide avec Lp . Cet espace est en general note p = p (N). Il joue un role
important dans la theorie des espaces de Banach.
La derni`ere preuve fait apparatre un resultat intermediaire qui merite detre enonce.
Proposition 4.2.3 Soit p [1, [ et soit (fn ) une suite qui converge vers f dans Lp (E, A, ).
Il existe alors une sous-suite (fkn ) qui converge p.p. vers f .
Remarque. Le resultat est aussi vrai pour p = , mais dans ce cas lextraction dune sous-
suite nest pas necessaire puisque la convergence L equivaut `a une convergence uniforme
sauf sur un ensemble de mesure nulle.
On peut se demander si inversement la convergence p.p. entrane la convergence Lp .
Cela nest pas vrai, mais le theor`eme de convergence dominee montre que si :
(i) fn f , p.p.
R
(ii) Il existe une fonction g 0 telle que |f |p d < et n, |fn | g, p.p.
alors fn f dans Lp .
Exercice. On suppose (E) < . Soit p [1, [. Montrer que les conditions
(i) fn f , p.p.
Z
(ii) Il existe r > p tel que sup |fn |r d <
n
entranent fn f dans Lp .
Le cas p = 2 du theor`eme de Riesz est particuli`erement important puisque lespace L2 a
une structure despace de Hilbert.
48
Th eme 4.2.4 Lespace L2 (E, A, ) muni du produit scalaire
eor`
Z
hf, gi = f g d
4.3 Th
eor` e dans les espaces Lp
emes de densit
Si (E, d) est un espace metrique, une mesure sur (E, B(E)) est dite exterieurement reguli`ere
si
A B(E) , (A) = inf{(U) : U ouvert, A U}.
Une fonction f : E R est dite lipschitzienne sil existe une constante K telle que
f = lim n
n
49
R R
u pour chaque n, 0 n f et n est etagee. Alors, |n |p d |f |pd < et donc
o`
n Lp (ce qui pour une fonction etagee equivaut `a n L1 ). Puisque |f n |p f p , le
theor`eme de convergence dominee donne
Z
lim |f n |p d = 0.
n
(2) Il suffit de montrer que toute fonction etagee integrable est limite dans Lp de fonctions
lipschitziennes bornees. On se ram`ene aisement au cas f = 1A , A B(E), (A) < . Soit
alors > 0. On peut trouver un ouvert O contenant A tel que (O\A) < (/2)p , et donc
k1O 1A kp < .
2
Ensuite, pour tout k 1, on pose k (x) = (k d(x, O c )) R 1. La fonction k est lipschitzienne
et k 1O quand k . Par convergence dominee, |1O k |p d 0 quand k ,
et donc on peut choisir k assez grand pour que
k1O k kp < .
2
Finalement,
k1A k kp k1A 1O kp + k1O k kp < .
(3) On utilise le lemme suivant, dont la preuve est repoussee `a la fin de la demonstration.
Rappelons que si A est un sous-ensemble de E, A designe linterieur de A.
Lemme 4.3.2 Soit E un espace metrique localement compact separable. Alors il existe une
[ [
suite croissante de compacts (Ln )n1 tels que, pour tout n, Ln Ln+1 et E = Ln = Ln .
n1 n1
Il est facile de deduire du lemme que toute mesure de Radon sur E est exterieurement
reguli`ere (ce qui a dej`a ete vu, sans demonstration, dans lenonce du theor`eme de representa-
tion de Riesz). En effet, si A est un borelien de E, on peut en considerant la restriction de
`a Ln (qui est une mesure finie) appliquer un resultat de regularite exterieure du chapitre
precedent et trouver pour chaque n un ouvert On Ln tel que A Ln On et
(On \(A Ln )) 2n .
50
R
que |f |p d < est limite dans Lp de fonctions lipschitziennes `a support compact (noter
que celles-ci sont automatiquement dans Lp ). Par convergence dominee, on a
Z
lim |f |p d = 0,
n (Ln )c
n,k (x) = k d(x, (Ln )c ) 1.
Alors n,k Lp puisque n,k 1 . De plus, par convergence dominee `a nouveau, on voit
Ln
que pour chaque n fixe, n,k converge vers 1 dans Lp quand k . Finalement, en
Ln
ecrivant
et en choisissant n puis k assez grands, on approche f dans Lp par la fonction f n,k qui est
lipschitzienne `a support compact.
Preuve du lemme. On montre dabord que E est reunion dune suite croissante de com-
pacts (Kn )n1 . Pour cela, soit (xp )p0 une suite dense dans E. Introduisons lensemble I de
couples dentiers defini par
p , 2k ) est compact},
I = {(p, k) N2 : B(x
Par ailleurs, I etant denombrable, on peut trouver une suite croissante de sous-ensembles
finis In , n 1 de I tels que I soit la reunion des In . Alors il suffit de poser
[
Kn = p , 2k )
B(x
(p,k)In
51
(ii) Lensemble des fonctions en escalier (`a support compact) est dense dans Lp (R, B(R), ).
En effet il sufit de verifier que toute fonction f Cc (R) est limite dans Lp de fonctions en
escalier. Cela se voit en ecrivant
X k
f = lim f ( ) 1[ k , k+1 [ .
n
kZ
n n n
On se ram`ene par densite au cas o` u f est une fonction en escalier : si f est limite dans L1
dune suite (n ) de fonctions en escalier,
Z Z
sup |f() n ()| = sup f (x)e dx n (x)eix dx kf n k1
ix
R R
p
X
qui tend vers 0 quand n . Ensuite, si f est en escalier, f = j 1]xj ,xj+1 [ , on a
j=1
p
X eixj+1 eixj
f() = j 0,
j=1
i ||
do`
u le resultat voulu.
4.4 Le th
eor`
eme de Radon-Nikodym
efinition 4.4.1 Soient et deux mesures sur (E, A). On dit que:
D
A A, (A) = 0 (A) = 0.
Th eme 4.4.1 (Radon-Nikodym) Soient et deux mesures -finies sur (E, A). Il
eor`
existe alors un unique couple (a , s ) de mesures -finies sur (E, A) telles que
52
(1) = a + s .
(2) a et s .
Preuve. On traite dabord en detail le cas o` u les deux mesures et sont finies. Lextension
au cas -fini ne presentera pas de difficulte. R R
Cas o` u . Dans un premier temps, on suppose , cest-`a-dire g d g d
pour toute fonction mesurable positive g. Considerons alors lapplication : L2 (E, A, )
R definie par Z
(f ) = f d.
et on sait que pour une mesure finie RL2 () L1 (). De plus, (f ) ne depend pas du
representant de f choisi pour calculer f d :
Z Z
f = f , p.p. f = f , p.p. f d = f d.
Donc est une forme lineaire continue sur L2 (E, A, ) et on sait alors quil existe une
fonction h L2 (E, A, ) telle que
Z
2
f L (E, A, ), (f ) = hf, hi = f h d.
En particulier, en prenant f = 1A ,
Z
A A, (A) = h d.
A
53
ce qui implique ({x : h(x) 1+}) = 0. On montre de meme que h 0 p.p. Remarquons
que quitte `a remplacer h par (h 0) 1, on peut supposer 0 h(x) 1 pour tout x E.
Cas general. On applique la premi`ere partie de la preuve aux mesures et + . Il existe
donc une fonction mesurable h telle que 0 h 1 et, pour toute fonction f L2 ( + ),
Z Z
f d = f h d( + ).
do`
u Z Z
f (1 h) d = f h d.
En utilisant le theor`eme de convergence monotone, on voit que cette derni`ere egalite est
vraie pour toute fonction f mesurable positive.
Posons N = {x E : h(x) = 1}. Alors en prenant f = 1N , on voit que (N) = 0. La
mesure
s = 1N (A A, s (A) = (A N))
est donc etrang`ere `a . Dautre part, en remplacant f par 1N c (1 h)1 f dans legalite
ci-dessus, on trouve que pour toute fonction f mesurable positive,
Z Z Z
h
f d = f d = f g d,
Nc Nc 1h
h
o`
u g = 1N c 1h . En posant
a = 1N c = g
on a bien les proprietes (1) et (2) du theor`eme, et la representation annoncee pour a .
Lunicite du couple (a , s ) est facile. Si (
a , s ) est un autre couple avec les proprietes
(1) et (2), on a
A A, a (A) a (A) = s (A) s (A).
Mais comme s et s sont portees respectivement par des ensembles N et N de -mesure
nulle, on a
)) s (A (N N )) = a (A (N N
s (A) s (A) = s (A (N N )) a (A (N N )) = 0
do`
u Z
g g) d = 0
(
{
g >g}
54
ce qui force g g, p.p. et par symetrie g = g, p.p.
Il reste `a saffranchir de lhypoth`ese supplementaire que et sont finies. Si et sont
seulement -finies, on peut construire une partition mesurable denombrable (En )nN de E
de mani`ere que (En ) < et (En ) < pour tout n. Notons n la restriction de `a En
et n la restriction de `a En . En appliquant le debut de la preuve on peut ecrire pour tout
n N,
n = an + sn
o`u sn n , et an = gn n , la fonction mesurable gn etant nulle sur Enc (puisque n (Enc ) = 0,
il est clair quon peut imposer cette derni`ere condition). On obtient le resultat du theor`eme
en posant X X X
a = an , s = sn , g = gn .
nN nN nN
(Dans la derni`ere somme, remarquer que pour chaque x E il y a au plus une valeur de n
pour laquelle gn (x) > 0.) La verification des proprietes dunicite ne presente pas de difficulte.
55
56
Chapitre 5
Mesures produits
Etant donne deux espaces mesurables munis chacun dune mesure, on peut construire sur
leur produit cartesien une mesure appelee la mesure produit. De plus lintegrale dune
fonction definie sur lespace produit peut etre calculee en integrant dabord par rapport `a la
mesure sur le premier espace puis par rapport `a la mesure sur le second, ou bien dans lordre
inverse : cest le fameux theor`eme de Fubini. Outre ses applications importantes en analyse
(integration par parties, convolution, etc.) ou en theorie des probabilites, le theor`eme de
Fubini est un outil essentiel pour le calcul effectif des integrales.
5.1 G
en
eralit
es sur les espaces produits
Soient (E, A) et (F, B) deux espaces mesurables. On peut alors munir le produit E F de
la tribu-produit
A B = (A B ; A A, B B).
Les ensembles de la forme A B sont appeles paves mesurables. Il est facile de verifier que
AB est la plus petite tribu sur E F qui rende mesurables les deux projections canoniques
1 : E F E et 2 : E F F .
Soit (G, C) un troisi`eme espace mesurable, et soit f : G E F . Notons f (x) =
(f1 (x), f2 (x)). On a vu dans le Chapitre 1 que f est mesurable (E F etant muni de la
tribu produit) ssi les deux applications f1 et f2 le sont.
On etend facilement la definition de la tribu produit au cas dun nombre fini quelconque
despaces mesurables (E1 , A1), . . . , (En , An ) :
A1 A2 An = (A1 An ; Ai Ai )
(A1 A2 ) A3 = A1 (A2 A3 ) = A1 A2 A3 .
57
Preuve. Linclusion B(E F ) B(E) B(F ) est vraie sans hypoth`ese de separabilite :
elle decoule de ce que les projections 1 et 2 sont continues donc mesurables pour la tribu
B(E F ).
Dans lautre sens, on observe quon peut trouver un ensemble denombrable douverts
U = {Un , n 1} de E tels que tout ouvert de E soit reunion dune sous-famille de U (si
(xk ) est une suite dense dans E, il suffit de prendre pour U les boules ouvertes de rayon
rationnel centrees en lun des xk ). Soit V = {Vn , n 1} une famille analogue pour F . Pour
tout ouvert O de E F et tout z = (x, y) O, on sait que O contient un ouvert de la
forme U V , o` u U, resp. V , est un ouvert de E, resp. de F , contenant x, resp. y. Il
en decoule que O doit etre reunion (au plus denombrable) dune sous-famille de la famille
{Un Vm ; n, m 1}. Donc tout ouvert de E F est mesurable pour B(E) B(F ) et cela
entrane B(E F ) B(E) B(F ).
u (E, A) et (F, B) sont deux espaces mesurables quelconques. Si
On revient au cas o`
C E F , on pose pour x E
Cx = {y F : (x, y) C}
et pour y F ,
C y = {x E : (x, y) C}.
Si f est une fonction definie sur E F , on note pour x E, fx (y) = f (x, y) et pour y F ,
f y (x) = f (x, y).
C = {C A B : Cx B}.
58
(i) Il existe une unique mesure m sur (E F, A B) telle que
A A, B B, m(A B) = (A)(B)
(avec la convention usuelle 0 = 0). Cette mesure est -finie, et est notee m = .
(ii) Pour tout C A B,
Z Z
(C) = (Cx ) (dx) = (C y ) (dy).
E F
Preuve. Unicite. Il existe une suite croissante An A, resp. Bn B, telle que (An ) < ,
resp. (Bn ) < , pour tout n, et E = An , resp. F = Bn . Alors, si Cn = An Bn , on a
aussi [
EF = Cn .
n
Soient m et m deux mesures sur A B verifiant la propriete enoncee en (i) du theor`eme.
Alors,
m et m concident sur la classe des paves mesurables, qui est stable par intersection finie
et engendre la tribu A B;
pour tout n, m(Cn ) = (An )(Bn ) = m (Cn ) < .
Dapr`es une consequence du lemme de classe monotone vue dans le Chapitre 1, cela suffit
pour dire que m = m .
Existence. On pose pour tout C A B,
Z
m(C) = (Cx ) (dx). (5.1)
E
Remarquons que (Cx ) est bien definie pour tout x E dapr`es le theor`eme precedent. Pour
verifier que la formule (5.1) a bien un sens il faut aussi montrer que lapplication x (Cx )
est A-mesurable.
Supposons dabord finie et posons
Alors
G contient les paves mesurables : si C = A B, (Cx ) = 1A (x)(B).
59
Il est ensuite facile de montrer que m est une mesure sur A B : si (Cn ) est une famille
de parties disjointes dans A B, les (Cn )x sont aussi disjoints pour tout x E, et donc
[ Z [
m Cn = (Cn )x (dx)
n E
Z Xn
= ((Cn )x ) (dx)
E n
XZ
= ((Cn )x ) (dx)
n E
X
= m(Cn )
n
m(A B) = (A)(B).
les memes arguments montrent que m est une mesure sur AB qui verifie la meme propriete,
ce qui dapr`es lunicite entrane m = m . On en deduit lassertion (ii) du theor`eme, ce qui
compl`ete la preuve.
Remarques. (i) Lhypoth`ese de -finitude est essentielle au moins pour la partie (ii). En
effet, si on prend (E, A) = (F, B) = (R, B(R)), = et la mesure de comptage, on
remarque que pour C = {(x, x) : x R},
Z Z
= (Cx ) (dx) 6= (C y ) (dy) = 0.
60
5.3 Le th
eor`
eme de Fubini
On commence par donner lenonce qui concerne les fonctions positives. Comme dans le
paragraphe precedent, on consid`ere deux espaces mesurables (E, A) et (F, B), et le produit
E F est muni de la tribu A B.
Th eor`
eme 5.3.1 (Fubini-Tonnelli) Soient et deux mesures -finies respectivement
sur (E, A) et sur (F, B), et soit f : E F [0, ] une fonction mesurable.
(i) Les fonctions
Z
x f (x, y) (dy)
Z
y f (x, y) (dx)
R
Preuve. (i) Soit C A B. Si f = 1C , on aRdej`a vu que la fonction x f (x, y)(dy) =
(Cx ) est A-mesurable, et de meme y f (x, y)(dx) = (C y ) est B-mesurable. Par
linearite, on en deduit que le resultat de (i) est vrai pour toute fonction etagee positive.
Enfin, si f est quelconque, on peut ecrire f = lim fn , o` u les fonctions fn sont etagees
positives, et on utilise le fait qualors
Z Z
f (x, y) (dy) = lim fn (x, y) (dy)
R
et de meme pour f (x, y) (dx).
(ii) Pour f = 1C , legalite annoncee est
Z Z
(C) = (Cx ) (dx) = (C x ) (dy)
E F
et a dej`a ete vue dans le paragraphe precedent. On en deduit par linearite le resultat voulu
quand f est etagee positive, puis par limite croissante pour f quelconque : on remarque par
exemple que si f = lim fn ,
Z Z Z Z
f (x, y) (dy) (dx) = lim fn (x, y) (dy) (dx)
E F E F
61
Th eme 5.3.2 (Fubini-Lebesgue) Soit f L1 (E F, A B, ) (ou f L1C (E
eor`
F, A B, )). Alors
(a) (dx) p.p. la fonction y f (x, y) est dans L1 (F, B, ),
(c) On a
Z Z Z Z Z
f d = f (x, y) (dy) (dx) = f (x, y) (dx) (dy).
EF E F F E
et donc la fonction y f (x, y), dont on sait dej`a quelle est mesurable, est dans L1 (F, B, ).
(b) En ecrivant f = f + f et en utilisant le theor`eme precedent, on voit que
Z Z Z
x f (x, y) (dy) = f (x, y) (dy) f (x, y) (dy)
+
1
Remarque. Lhypoth`ese f L () est cruciale. Il peut arriver en effet que les proprietes
(a) et (b) soient toutes les deux satisfaites, et donc que les quantites
Z Z Z Z
f (x, y) (dy) (dx) et f (x, y) (dx) (dy)
E F F E
62
soient bien definies, sans que ces quantites soient egales. Pour donner un exemple, con-
siderons la fonction
f (x, y) = 2e2xy exy
definie pour (x, y) ]0, []0, 1]. Alors, pour tout y ]0, 1],
Z Z Z
2xy
f (x, y) dx = 2 e dx exy dx = 0
]0,[ 0 0
5.4 Applications
5.4.1 Int
egration par parties
Soient f et g deux fonctions mesurables de R dans R localement integrables (i.e. integrables
sur tout compact pour la mesure de Lebesgue). On pose pour x R,
Z x ( R !
[0,x]
f (t) dt si x 0
F (x) = f (t) dt = R
0 [x,0]
f (t) dt si x < 0
Z x
G(x) = g(t) dt.
0
63
Alors, pour tous a < b,
Z b Z b
F (b)G(b) = F (a)G(a) + f (t)G(t)dt + F (t)g(t)dt.
a a
5.4.2 Convolution
Si f et g sont deux fonctions mesurables sur Rd , la convolution
Z
f g(x) = f (x y)g(y) dy
Rd
64
Proposition 5.4.1 Soient f, g L1 (Rd , B(Rd ), ). Alors, pour presque tout x Rd , la
convolution f g(x) est bien definie. De plus, f g L1 () et kf gk1 kf k1 kgk1.
Remarque. Cela a bien un sens de dire quune fonction definie presque partout est dans
L1 () : on peut choisir de mani`ere arbitraire le prolongement sur lensemble o`
u la fonction
nest pas definie.
Preuve. Dapr`es le theor`eme de Fubini-Tonnelli,
Z Z Z Z
|f (x t)||g(t)|dt dx = |f (x t)||g(t)|dx dt
Rd Rd ZR
d Rd Z
= |g(t)| |f (x t)|dx dt
RZd Rd Z
= |g(t)|dt |f (x)|dx
Rd Rd
<
et donne la premi`ere assertion. Pour la seconde, on utilise encore le calcul precedent pour
ecrire Z Z Z
|f g(x)|dx |f (x t)||g(t)|dt dx = kf k1 kgk1 < .
Rd Rd Rd
La proposition suivante donne un autre cadre dans lequel on peut considerer la convolu-
tion de f et g.
Cela donne la premi`ere assertion et montre aussi que f g est bornee par kf kp kgkq . Pour
luniforme continuite, on utilise le lemme suivant.
65
Si on admet le lemme, il est facile de completer la preuve de la proposition : pour
x, x Rd ,
Z
|f g(x) f g(x )| |f (x y) f (x y)||g(y)| dy
Z 1/p
kgkq |f (x y) f (x y)|pdy
= kgkq kf x f x kp
et on utilise le lemme pour dire que kf x f x kp tend vers 0 quand x x tend vers
0.
Preuve du lemme. Supposons dabord f Cc (Rd ). Alors,
Z Z Z
|f x f y | d = |f (z x) f (z y)| dz = |f (z) f (z (y x))|p dz
p p
qui tend vers 0 quand y x 0 par convergence dominee. Dans le cas general, on peut
trouver une suite fn Cc (Rd ) qui converge vers f dans Lp () (cf Chapitre 4). Alors
kf x f y kp kf x fn x kp + kfn x fn y kp + kfn y f y kp
= 2kf fn kp + kfn x fn y kp .
Pour > 0, on choisit dabord n tel que kf fn kp < /4, puis > 0 tel que kfn x fn
y kp /2 si |x y| < . Les inegalites precedentes montrent alors que kf x f y kp
si |x y| < .
Approximations de la mesure de Dirac. On dit quune suite n dans Cc (Rd ) est une
approximation de 0 si :
Il existe un compact K tel que supp(n ) K pour tout n.
Pour tout n, n 0 et Z
n (x) dx = 1.
Rd
66
Proposition 5.4.4 Soit (n ) une approximation de 0 .
(i) Si f : Rd R est continue, on a n f f quand n , uniformement sur tout
compact.
(ii) Si f Lp (Rd , B(Rd ), ), avec p [1, [, on a n f f dans Lp .
n (x) = cn (1 x2 )n 1{|x|1}
R
o`
u la constante cn est choisie pour que n (x)dx = 1. Soit alors [a, b] un intervalle contenu
dans ]0, 1[, et soit f une fonction continue sur [a, b]. On peut facilement prolonger f en une
fonction continue sur R et `a support compact contenu dans [0, 1] (prendre par exemple f
affine sur les intervalles [0, a] et [b, 1]. Alors,
Z
n f (x) = cn (1 (x y)2 )n 1{|xy|1} f (y)dy f (x)
uniformement sur [a, b]. Pour x [a, b], on peut clairement enlever lindicatrice 1{|xy|1} , et
on voit que f est limite uniforme sur [a, b] de polynomes (theor`eme de Stone-Weierstrass).
d (a1 A) = ad d (A)
67
(il suffit de le verifier lorsque A est un pave, et alors cest evident). En particulier,
d (aBd ) = ad d (Bd ).
k k
2k = , 2k+1 =
k! (k + 21 )(k 12 ) 32 1
2
d/2
d = .
( d2 + 1)
68
Chapitre 6
Mesures sign
ees
A la difference des chapitres precedents, on consid`ere ici des mesures signees, pouvant prendre
aussi bien des valeurs negatives que des valeurs positives. Le resultat principal de ce chapitre
est la decomposition de Jordan, qui fournit une ecriture minimale dune telle mesure signee
comme la difference de deux mesures positives portees par des ensembles mesurables disjoints.
A titre dapplication, on etablit un theor`eme important danalyse fonctionnelle, qui affirme
que pour deux exposants p et q conjugues ( 1p + 1q = 1) lespace Lq est le dual topologique de
Lp .
6.1 D
efinition et variation totale
Definition 6.1.1 Soit (E, A) un espace mesurable. Une mesure signee sur (E, A) est une
application : A R telle que () = 0 et que pour toute famille (An )nN delements
disjoints de A, la serie
X
(An )
nN
converge absolument, et [ X
An = (An ).
nN nN
Th eme 6.1.1 Soit une mesure signee sur (E, A). Pour tout A A, posons
eor`
X [
||(A) = sup |(An )| : A = An , An disjoints
nN nN
o`
u le supremum porte sur toutes les ecritures de A comme reunion dune famille denombrable
(An )nN de parties mesurables disjointes. Alors || est une mesure positive finie sur (E, A),
et pour tout A A, |(A)| ||(A).
Preuve. On montre dabord que || S est une mesure positive. Soit (Bi )iN une famille de
parties mesurables disjointes, et B = iN Bi . Par definition, si ti [0, ||(Bi)[ (ou ti = 0
69
S
dans le cas ||(Bi ) = 0), on peut trouver une partition1 mesurable Bi = nN An,i , de facon
que X
|(An,i)| ti .
nN
Puisque les ti peuvent etre choisis arbitrairement proches des ||(Bi ), il en decoule que
X
||(B) ||(Bi).
iN
Pour obtenir linegalite inverse, soit (An )nN une partition de B. Alors
X X X
|(An )| = | (An Bi )|
nN nN iN
XX
|(An Bi )|
nN iN
XX
= |(An Bi )|
iN nN
X
||(Bi),
iN
Lemme 6.1.2 Si A A est tel que ||(A) = , alors il existe deux parties mesurables
disjointes B et C telles que A = B C et |(B)| > 1, ||(C) = .
Preuve
S du lemme. Puisque ||(A) = , on peut trouver une partition mesurable A =
nN An de A de fa
con que
X
|(An )| > 2(1 + |(A)|).
nN
1
On fait un abus de langage puisque dans la definition usuelle dune partition les elements de la partition
sont tous non vides, ce qui nest pas forcement le cas ici.
70
On a alors par exemple X
(An )+ > 1 + |(A)|
nN
P
(le cas symetrique nN (An ) > 1 + |(A)| se traite de la meme mani`ere). On pose alors
[
B= An
{n:(An )>0}
de facon que X
(B) = (An )+ > 1 + |(A)|.
nN
De plus, si C = A\B,
Par ailleurs, puisque A = B C et que || est une mesure on doit avoir ||(B) = ou
|(C)| = , ce qui donne le resultat du lemme quitte `a echanger les roles de B et C si
necessaire.
Nous pouvons maintenant completer la preuve du theor`eme. On suppose que ||(E) =
. Alors, on peut trouver des parties mesurables disjointes B0 et C0 avec |(B0 )| > 1 et
||(C0) = . En appliquant de meme le lemme `a C0 on trouve B1 et C1 disjoints tels que
C0 = B1 C1 , |(B1 )| > 1 et ||(C1) = . Par recurrence, on construit ainsi une suite de
parties mesurables disjointes (Bn )nN , telle que |(Bn )| > 1 pour tout n. Cela contredit le
fait que la serie X
(Bn )
nN
doit converger absolument, dapr`es la definition dune mesure signee. On conclut que
||(E) < .
Exemple. Soit une mesure positive sur (E, A), et soit g L1 (E, A, ). Alors la formule
Z
(A) = g d
A
definit une mesure signee. En effet, si A est la reunion disjointe dune suite (An ) de parties
mesurables, legalite X
(A) = (An )
nN
dapr`es le theor`eme de convergence dominee. Nous verrons plus loin que dans ce cas || =
|g| .
71
6.2 La d
ecomposition de Jordan
Soit une mesure signee sur (E, A). Alors, on verifie immediatement que les formules
1
+ = ( + ||),
2
1
= (|| ),
2
definissent deux mesures positives finies sur (E, A). De plus, = + et || = + + .
Th eme 6.2.1 Soit une mesure signee sur (E, A). Il existe une partie mesurable B de
eor`
E, unique `a un ensemble de ||-mesure nulle pr`es, telle que + = 1B || et = 1Bc ||
(de mani`ere equivalente, + , resp. , est la restriction de || `a B, resp. `a B c ). De plus,
on a pour tout A A,
+ (A) = + (A B) = (A B) , (A) = (A B c ) = (A B c ).
En consequence,
(A) = + (A B) (A B c ),
||(A) = + (A B) + (A B c ).
Il est facile de deduire de cette egalite que |h1 h2 | = 1, || p.p. En effet, soit r < 1, et soit
(An )nN une partition mesurable de Er = {x E : |h1 (x) h2 (x)| r}. Alors
X X Z
|(An )| = (h1 h2 )d||
nN nN An
XZ
|h1 h2 |d||
nN An
X
r ||(An )
nN
= r ||(Er ).
De la definition de ||, il decoule alors que ||(Er ) r ||(Er ), et donc ||(Er ) = 0. Comme
cela est vrai pour tout r < 1, on a |h1 h2 | 1 p.p. et linegalite inverse est triviale.
72
Les proprietes 0 h1 1, 0 h2 1 et |h1 h2 | = 1 || p.p. entranent que
1 (A) 1 (A B) (A B) = + (A B) = + (A).
Int
egration par rapport ` a une mesure sign
ee.
1
Si f L (E, A, ||), on definit
Z Z Z Z
+
f d := f d f d = f (1B 1Bc )d||.
Proposition 6.2.2 Soit une mesure positive sur (E, A), soit g L1 (E, A, ), et soit la
mesure signee definie par Z
(A) = gd.
A
Alors || = |g| . De plus, pour toute fonction f L1 (E, A, ||), on a f g L1 (E, A, )),
et Z Z
f d = f g d.
Ensuite, on a Z Z
|f |d|| = |f | |g|d
73
et donc f L1 (||) f g L1 (). Legalite
Z Z
f d = f g d
est vraie par definition si f est etagee. Dans le cas, general, on utilise le fait quon peut
u les fonctions fn sont etagees et dominees en valeur absolue par |f |. Le
ecrire f = lim fn , o`
theor`eme de convergence dominee applique `a + , et donne le resultat voulu.
Le theor`
eme de Radon-Nikodym pour les mesures sign ees.
Soit une mesure positive, et soit une mesure signee. On dit que est absolument
continue par rapport `a (notation : ) si
A A, (A) = 0 (A) = 0.
Theor` eme 6.2.3 Soit une mesure signee et soit une mesure positive -finie. Les trois
proprietes suivantes sont equivalentes :
(i) .
(ii) Pour tout > 0, il existe > 0 tel que
A A, (A) ||(A) .
Donc, si > 0 est fixe, on peut choisir N assez grand de facon que
Z
|g| d < .
{|g|N } 2
74
6.3 e Lp Lq
La dualit
Soit une mesure positive sur (E, A). Soit p [1, ] et soit q lexposant conjugue de p.
Alors, si on fixe g Lq (E, A, ), la formule
Z
g (f ) = f g d
definit une forme lineaire continue sur Lp (E, A, ). En effet, linegalite de Holder montre
dune part que g (f ) est bien definie, dautre part que
|g (f )| Cg kf kp
kg k = sup |g (f )|,
kf kp 1
verifie kg k kgkq .
La question est alors de savoir si lon obtient ainsi toutes les formes lineaires continues
sur Lp (E, A, ) (dans le cas p = q = 2, la theorie des espaces de Hilbert nous dit dej`a que la
reponse est oui). Le theor`eme suivant donne la reponse lorsque p < .
Th eme 6.3.1 Soit une mesure -finie sur (E, A), soit p [1, [ et soit q lexposant
eor`
conjugue de p. Alors, si est une forme lineaire continue sur Lp (E, A, ), il existe une
unique g Lq (E, A, ) tel que, pour toute f Lp (E, A, ),
Z
(f ) = f g d.
kk = kgkq .
(A) = (1A ),
ce qui a bien un sens puisque 1A Lp (). On commence par verifier que est une mesure
signee sur (E, A). Soit (An )nN une famille denombrable de parties mesurables disjointes.
Si A designe la reunion des An , on a
X
1A = lim 1 An
k
nk
75
dans Lp () (par convergence dominee, facilement justifiee puisque la fonction 1 est dans
Lp ()). En utilisant la continuite de , on obtient ainsi
X X
(A) = lim 1An = lim (An ).
k k
nk nk
P
La convergence absolue de la serie (An ) est une consequence : en notant An = An si
(An ) > 0 et An = sinon, et A la reunion des An , on a
X X X
(An )+ = (An ) = lim (An ) = (A ) < ,
k
n n nk
et de meme pour les termes negatifsPde la suite ((An )). Une fois acquise la convergence
absolue de la serie, legalite (A) = n (An ) decoule de ce qui prec`ede.
Si A A et (A) = 0, on a 1A = 0 dans Lp (E, A, ) et donc (A) = (1A ) = 0. Donc
et le theor`eme precedent montre quil existe une fonction g L1 (E, A, ) telle que
Z
A A , (1A ) = (A) = g d.
A
Legalite Z
(f ) = f g d
est vraie par linearite lorsque f est etagee, puis lorsque f est seulement mesurable bornee
puisquune telle fonction est limite uniforme (donc dans Lp () parce que est finie) de
fonctions etagees.
Montrons maintenant que g Lq ().
ce qui entrane facilement que |g| kk, p.p. (pour le voir considerer A = {g >
kk + } ou A = {g < kk }), et donc kgk kk.
do`
u Z
|g|q d kkq .
En
En faisant tendre n vers , on trouve par convergence monotone que kgkq kk.
76
Dans les deux cas, on a obtenu que g Lq () et kgkq kk. Vus comme fonctions de
f Lp (), les deux membres de legalite
Z
(f ) = f g d
sont des fonctions continues sur Lp () qui concident lorsque f appartient au sous-ensemble
dense des fonctions mesurables bornees. Elles concident donc partout.
Par ailleurs, comme explique avant lenonce de theor`eme, linegalite de Holder entrane
que kk kgkq , et comme linegalite inverse a ete obtenue ci-dessus, on a kk
R = kgkq .
Enfin, lapplication qui `a g Lq () associe la forme lineaire f f g d est une
isometrie de Lq () sur le dual topologique de Lp () (i.e. lespace des formes lineaires contin-
ues sur Lp ()) et est donc necessairement injective. Cela donne lunicite de g dans lenonce
du theor`eme.
Il reste `a traiter le cas (E) = . Dans ce cas, on peut ecrire E comme la reunion dune
famille denombrable disjointe (En )nN de parties mesurables telles que (En ) < pour tout
n. Notons n la restriction de `a En . Alors lapplication f f 1En induit une isometrie
de Lp (n ) sur un sous-espace de Lp (). En remplacant par n on peut donc appliquer la
premi`ere partie de la preuve `a la forme lineaire continue n definie sur Lp (n ) par
n (f ) = (f 1En ).
Il existe donc une fonction gn Lq (n ) telle que, pour toute fonction f Lp (n ),
Z
(f 1En ) = f gn dn .
Quitte `a remplacer gn par gn 1En on peut supposer que gn = 0 sur Enc , et reecrire le resultat
precedent sous la forme Z
(f 1En ) = f gn d,
ce qui entrane Z X
(f ) = lim f gn d.
k
nk
77
Posons maintenant pour tout x E,
X
g(x) = gn (x)
nN
(il y a eu plus un terme non nul dans la somme pour chaque x). Si q = , linegalite
precedente montre que kgk kk. Si q < , la meme inegalite donne
Z XZ XZ
q q
|g| d = |gn | d = lim |gn |q d kkq .
k
nN nk
o`
u dans la deuxi`emePegalite lapplication du theor`eme de convergence dominee est justifiee
par la majoration | nk gn | |g|.
Legalite kk = kgkq et lunicite de g sont maintenant obtenues par les memes arguments
que dans le cas o` u (E) < .
Remarque. Lorsque p = , le resultat du theor`eme est faux en general : il existe des
R eaires continues sur L (E, A,1 ) qui ne peuvent pas se representer
formes lin
sous la forme
(f ) = f g d avec une fonction g L (E, A, ). Considerons le cas de , qui est lespace
des suites bornees a = (ak )kN de reels, muni de la norme kak = sup ak . Soit H le sous-
espace (ferme) de defini par
H = {a : lim ak existe},
k
et definissons : H R par
(a) = lim ak .
k
avec un element b = (bk )kN de 1 . En effet, si tel etait le cas, en considerant pour tout
(n)
n N lelement a(n) de defini par ak = 1{k=n}, on trouverait, pour tout n N,
bn = (a(n) ) = 0,
78
6.4 Le th
eor`
eme de repr
esentation de Riesz
Dans tout ce paragraphe, nous supposons que E est un espace metrique localement compact
separable. On note C0 (E) lespace des fonctions continues sur E qui tendent vers 0 `a linfini :
f C0 (E) si et seulement si f est continue et si pour tout > 0 il existe un compact K de
E tel que |f (x)| < pour tout x E\K. Lespace C0 (E) est un espace de Banach pour la
norme
kf k = sup |f (x)|.
xE
definit une forme lineaire continue sur C0 (E). De plus, cette forme lineaire est continue
puisque Z
|(f )| |f | d|| ||(E) kf k.
E
Th
eor`eme 6.4.1 Soit une forme lineaire continue sur C0 (E). Il existe alors une unique
mesure signee sur (E, B(E)) telle que
Z
f C0 (E) , (f ) = f d.
E
Nous renvoyons au chapitre 6 de Rudin [7] pour une preuve qui traite en fait le cadre
complexe plus general.
Remarque. Lespace M(E) des mesures signees sur E est un espace vectoriel, et il est facile
de verifier que lapplication ||(E) definit une norme sur cet espace vectoriel. De plus,
M(E) est complet pour cette norme. Le theor`eme precedent peut etre alors reformule en
disant que M(E) est le dual topologique de C0 (E).
Lorsque E est compact, lespace C0 (E) concide avec lespace Cb (E) des fonctions con-
tinues bornees sur E, et donc M(E) est le dual de Cb (E). Cette assertion devient fausse
lorsque E nest pas compact, par exemple lorsque E = R. Dans ce cas, il existe des formes
lineaires continues sur Cb (E) qui ne se representent pas par des mesures signees (on peut en
construire en adaptant lexemple de la fin de la partie precedente).
79
80
Chapitre 7
Remarque. Si M nest pas inversible, f (A) f (Rd ) est contenu dans un hyperplan, qui
est de mesure de Lebesgue nulle (exercice !).
Preuve. Remarquons dabord que f (A) = (f 1 )1 (A) B(Rd ) si A B(Rd ). Grace `a
linvariance par translation de la mesure de Lebesgue, on se ram`ene au cas b = 0. Dans ce
cas, on a pour tous a Rd et A B(Rd ),
ce qui montre que la mesure A (f (A)) (mesure-image de par f 1 ) est invariante par
translation. Donc il existe une constante c telle que, pour tout A B(Rd ),
(f (A)) = c (A).
81
Si M est une matrice orthogonale, et Bd designe la boule unite fermee de Rd , on a
u il decoule aussitot que c = 1 = |det(M)| dans ce cas.
f (Bd ) = Bd , do`
Si M est une matrice symetrique definie positive, alors on peut trouver une matrice or-
thogonale P telle que t P MP soit diagonale avec coefficients diagonaux i > 0, i {1, . . . , d}.
Alors,
d
Y
d d
f (P ([0, 1] )) = {MP x : x [0, 1] } = {P y : y [0, i ]},
i=1
d
Y Y
d Yd
c = c (P ([0, 1]d)) = (f (P ([0, 1]d))) = {P y : y [0, i]} = [0, i ] = i .
i=1 i=1 i=1
Soient U et D deux ouverts de Rd . On dit quune application : U D est un
diffeomorphisme de classe C 1 si est bijective et de classe C 1 sur U et si 1 est aussi de
classe C 1 sur D. On sait qualors la derivee (u) est inversible, pour tout u U.
Preuve. Par les arguments habituels (passage `a la limite croissant) on se ram`ene au cas o` u
f est etagee positive, puis au cas f = 1A , A etant un borelien de D. Dans ce cas, legalite
du theor`eme secrit : Z
(A) = |J (u)| du.
1 (A)
Quitte `a remplacer A par 1 (A), il suffit de montrer que, pour tout borelien A de U,
Z
((A)) = |J (u)| du. (7.1)
A
82
Lemme 7.1.3 Soit K un compact de U et soit > 0. Alors on peut choisir > 0 assez
petit de mani`ere que, pour tout cube C de faces parall`eles aux axes, de centre u0 K et de
cote de longueur inferieure `a ,
(1 )|J (u0 )| (C) ((C)) (1 + )|J (u0 )| (C).
Preuve du lemme. En utilisant la continuite de , on voit quon peut choisir > 0 assez
petit pour que dune part < 1d dist(K, U c ) et dautre part, pour tout u0 K et tout u Rd
tel que |u u0 | < d,
|(u) (u0 ) (u0 ) (u u0 )| |u u0 |.
Notons f (v) = (u0 ) + (u0 ) v pour v Rd . On voit que, si |u u0 | < d,
(u) = f (u u0 ) + h(u, u0 ),
avec |h(u, u0)| |u u0 |. En prenant g(u, u0) = (u0 )1 h(u, u0), on trouve que
(u) = f (u u0 + g(u, u0)),
u |g(u, u0)| a|u u0 |, avec a := sup{k (v)1 k; v K} < .
o`
Soit maintenant C un cube centre en u0 et de cote r . Il decoule de ce qui prec`ede
que
e
(C) f ((1 + da)C),
o`
uCe est le cube translate de C centre en 0. Grace `a la proposition ci-dessus, il vient alors
e = |det (u0 )| ((1 + da)C)
((C)) (f ((1 + da)C)) e = (1 + da)d |J (u0 )| (C),
83
Alors, en notant xC le centre dun cube C,
X
((C0 )) = ((C))
CCn
CC0
X
(1 + ) |J (xC )| (C)
CCn
CC0
X Z
2
(1 + ) |J (u)| du
CCn C
CC0
Z
2
= (1 + ) |J (u)| du.
C0
On a donc obtenu (7.1) lorsque A est un cube elementaire dadherence contenue dans A.
Le cas general decoule maintenant darguments de classe monotone. Notons la mesure-
image de la mesure de Lebesgue sur D par 1 :
(A) = ((A))
On a obtenu que (C) = e(C) pour tout cube elementaire C dadherence contenue dans U.
Dautre part, si Un designe la reunion (disjointe) des cubes elementaires dordre n dadherence
contenue dans U {u : |u| n}, on a Un U quand n et (Un ) = e(Un ) < pour
tout n. Comme la classe des cubes elementaires dadherence contenue dans U est stable par
intersection finie et engendre la tribu borelienne B(U), on peut appliquer le dernier corollaire
du Chapitre 1 pour conclure que = e, ce qui etait le resultat recherche.
Application `
a lint
egrale en coordonn
ees polaires.
On prend d = 2, U =]0, [] , [ et D = R2 \{(x, 0); x 0}. Alors lapplication
84
est un diffeomorphisme de classe C 1 de U sur D. On calcule facilement
cos r sin
(r, ) =
sin r cos
et donc J (r, ) = r.
Il decoule du theor`eme que, pour toute fonction borelienne f : R2 R+ ,
Z Z Z Z
f (x, y) dxdy = f (r cos , r sin ) r drd = f (r cos , r sin ) r drd.
D U 0
et dautre part
Z Z Z
2
f (r cos , r sin ) r drd = 2 er r dr = ,
0 0
85
Remarque. On peut aussi montrer que toute mesure finie sur S d1 invariante par les
isometries vectorielles est proportionnelle `a d .
Preuve. Il est immediat que d est une mesure positive finie sur S d1 : on peut la voir
x
comme limage de la restriction de d d `a la boule unite Bd par lapplication x |x| . Le
d
fait que d soit invariante par les isometries vectorielles de R (proposition de la partie 1)
entrane facilement que d lest aussi. En effet, si est une telle isometrie,
d/2 2 d/2
d (S d1 ) = d d (Bd ) = d = .
( d2 + 1) ( d2 )
Il reste `a etablir (7.3). Il suffit de traiter le cas f = 1B , o`u B est un borelien de Rd \{0}.
La formule Z Z
(B) = 1B (rz) r d1 dr d (dz)
0 S d1
definit une mesure sur Rd \{0} et le probl`eme est de montrer que = d . Considerons
dabord le cas o`
u B est de la forme
x
B = {x Rd \{0}; a < |x| b et A},
|x|
1 d
d (0 (A)) = (1 d ) d ((A)) = d (A),
d
et puisque B = b 0 (A),
bd ad
d (B) = bd d (0 (A)) = d (A) = (B).
d
86
Finalement, la classe des ensembles B de la forme ci-dessus est stable par intersections
finies, et on voit facilement quelle engendre la tribu borelienne sur Rd \{0}. Les arguments
de classe monotone habituels montrent alors que = d .
Si f : Rd R+ est une fonction radiale, au sens o`u f (x) = f (|x|), le theor`eme montre
que Z Z
f (x) dx = cd f (r) r d1 dr,
Rd 0
avec cd = d (S d1 ).
87
88
Partie II
Probabilit
es
89
Chapitre 8
Fondements de la th
eorie des
probabilit
es
8.1 D
efinitions g
en
erales
8.1.1 Espaces de probabilit
e
Soit (, A) un espace mesurable, et soit P une mesure de probabilite sur (, A). On dit
alors que (, A) est un espace de probabilite.
Un espace de probabilite est donc un cas particulier despace mesure, pour lequel la masse
totale de la mesure est egale `a 1. En fait, le point de vue diff`ere de la theorie de lintegration :
dans le cadre de la theorie des probabilites, on cherche `a fournir un mod`ele mathematique
pour une experience aleatoire.
A est lensemble des evenements, qui sont les parties de dont on peut evaluer la
probabilite. Il faut voir un evenement A A comme un sous-ensemble de contenant
toutes les eventualites pour lesquelles une certaine propriete est verifiee.
91
Pour A A, P (A) represente la probabilite doccurrence de levenement A. Dans les
premiers traites de theorie des probabilites, longtemps avant lintroduction de la theorie
de la mesure, la probabilite P (A) etait definie de la mani`ere suivante : on imagine
quon rep`ete lexperience aleatoire un nombre N de fois, et on note NA le nombre
de repetitions pour lesquelles levenement A est realise; alors, la proportion NA /N
converge quand N vers la probabilite P (A). Nous verrons plus loin le lien entre
cette definition historique et lapproche moderne.
Card(A)
= {1, 2, . . . , 6}2 , A = P() , P (A) = .
36
Le choix de la probabilite correspond `a lidee que tous les resultats possibles pour les deux
tirages sont equiprobables.
(2) On lance le de jusqu`a obtenir un 6. Ici le choix de est dej`a moins evident. Comme
le nombre de lancers necessaires nest a priori pas borne, le bon choix est dimaginer quon
fait une infinite de lancers :
= {1, 2, . . . , 6}N
de sorte quun element de est une suite = (1 , 2, . . .) qui donne les resultats des tirages
successifs. La tribu A sur est la tribu-produit definie comme la plus petite tribu rendant
mesurables tous les ensembles de la forme
{ : 1 = i1 , 2 = i2 , . . . , n = in }
92
`a la fois du point de vue theorique et pour les applications, est la mesure de Wiener, qui est
la loi du mouvement brownien.
Remarque importante. Tr`es souvent dans la suite, on ne specifiera pas le choix de lespace
de probabilite. Les donnees importantes seront les proprietes des fonctions definies sur cet
espace, les variables aleatoires.
8.1.2 Variables al
eatoires
Definition 8.1.1 Soit (E, E) un espace mesurable. Une application mesurable X : E
est appelee variable aleatoire (v.a. en abrege) `a valeurs dans E.
X 1 ({k}) = { : 1 6= 6, 2 6= 6, . . . , k1 6= 6, k = 6}.
(3) Pour t [0, 1] fixe, X() = (t) est une v.a. `a valeurs dans R3 . (Remarquons que nous
navons pas construit P dans cet exemple, mais cela nintervient pas pour les questions de
mesurabilite.)
PX (B) = P (X 1 (B)) , B E.
93
o`
u px = P (X = x) et x designe la la mesure de Dirac en x. En effet,
[ X X
PX (B) = P (X B) = P ( {X = x} = P (X = x) = px x (B).
xB xB xE
En pratique, trouver la loi dune v.a. discr`ete, cest donc calculer toutes les probabilites
P (X = x) pour x E.
Exemple. Revenons `a lexemple (2) ci-dessus, avec X() = inf{j : j = 6}. Alors, pour
tout k 1,
[ 1 1 5
P (X = k) = P {1 = i1 , . . . , k1 = ik1 , k = 6} = 5k1 ( )k = ( )k1.
i ,...,i 6=6
6 6 6
1 k1
P
Remarquons que k=1 P (X = k) = 1 et donc P (X = ) = 1 P (X N) = 0. Observons
que lensemble {X = } est loin detre vide puisquil contient toutes les suites (i1 , i2 , . . .)
qui ne prennent pas la valeur 6.
Variables al eatoires ` e. Une variable aleatoire X `a valeurs dans (Rd , B(Rd )) est
a densit
dite `a densite si PX est absolument continue par rapport `a la mesure de Lebesgue .
Dans ce cas, le theor`eme de Radon-Nikodym montre quil existe une fonction borelienne
p : Rd R+ telle que Z
PX (B) = p(x) dx.
B
R
On a en particulier Rd p(x)dx = P (X Rd ) = 1. La fonction p, qui est unique `a en ensemble
de mesure de Lebesgue nulle pr`es, est appelee la densite de (la loi de) X.
Si d = 1, on a en particulier, pour tous ,
Z
P ( X ) = p(x) dx.
8.1.3 Esp
erance math
ematique
Definition 8.1.3 Soit X une variable aleatoire reelle (i.e. `a valeurs dans R). On note
alors Z
E[X] = X() P (d),
qui est bien definie dans les deux cas suivants :
si X 0 (alors E[X] [0, ]), R
si X est de signe quelconque et E[|X|] = |X|dP < .
On etend cette definition au cas o` u X = (X1 , . . . , Xd ) est une variable aleatoire `a valeurs
d
dans R en prenant alors E[X] = (E[X1 ], . . . , E[Xd ]), pourvu bien s ur que chacune des
esperances E[Xi ] soit bien definie.
94
Proposition 8.1.1 Soit X une variable aleatoire `a valeurs dans (E, E). Pour toute fonction
mesurable f : E [0, ], on a
Z
E[f (X)] = f (x) PX (dx).
E
Preuve. Cest evidemment une propriete generale des mesures-images dej`a rencontree dans
le cours dintegration. On remarque que le resultat est vrai par definition pour f = 1B puis
par linearite pour toute fonction etagee positive. Dans le cas general, on utilise le theor`eme
de convergence monotone et le fait que toute fonction mesurable positive est limite croissante
dune suite de fonctions etagees positives.
Si f est de signe quelconque, la formule de la proposition reste vraie `a condition que les
integrales soient bien definies, ce qui revient `a E[|f (X)|] < .
La donnee de PX permet donc de calculer la valeur moyenne de variables aleatoires de
la forme f (X). Inversement, on utilise souvent la proposition pour calculer la loi dune v.a.
X : si on arrive `a ecrire Z
E[f (X)] = f d
Proposition 8.1.2 Soit X = (X1 , . . . , Xd ) une v.a. `a valeurs dans Rd . Supposons que la
loi de X a une densite p(x1 , . . . , xd ). Alors, pour tout j {1, . . . , d}, la loi de Xj a une
densite donnee par
Z
pj (x) = p(x1 , . . . , xj1 , x, xj+1 , . . . , xd ) dx1 . . . dxj1 dxj+1 . . . dxd
Rd1
(par exemple, si d = 2,
Z Z
p1 (x) = p(x, y) dy , p2 (y) = p(x, y) dx).
R R
95
Remarque. Si X = (X1 , . . . , Xd ) est une v.a. `a valeurs dans Rd , les lois PXj , quon appelle
souvent les lois marginales de X, sont determinees par la loi de X, simplement parce que
PXj = j (PX ), avec la notation ci-dessous. Il est important dobserver que :
la r
eciproque est fausse !
Pour un exemple, considerons une densite de probabilite q sur R, et observons que la fonction
p(x1 , x2 ) = q(x1 )q(x2 ) est alors aussi une densite de probabilite sur R2 . Dapr`es une remarque
ci-dessus on peut construire une v.a. X = (X1 , X2 ) `a valeurs dans R2 dont la loi est la
mesure de densite p par rapport `a la mesure de Lebesgue. Mais alors les deux v.a. X et
X = (X1 , X1 ) ont memes lois marginales (la proposition ci-dessus montre que PX1 (dx) =
PX2 (dx) = q(x)dx) alors que les lois PX et PX sont tr`es differentes, simplement parce que
PX est portee par la diagonale de R2 , qui est de mesure de Lebesgue nulle.
(a) On choisit les deux extremites de la corde au hasard sur le cercle. La premi`ere etant
choisie, la longueur de la corde sera plus grande que le cote du triangle equilateral inscrit
si et seulement si la seconde extremite est dans un secteur angulaire douverture 2/3.
La probabilite est donc 2/3
2
= 31 .
(b) On choisit le centre de la corde au hasard sur le disque unite. La probabilite desiree
est la probabilite que le centre tombe dans le disque de rayon 1/2 centre `a lorigine.
Comme laire de ce disque est un quart de laire du disque unite, on trouve comme
probabilite 41 .
On obtient donc un resultat different dans les deux cas. Lexplication tient dans le fait
que les deux methodes correspondent `a des experiences aleatoires differentes, representees
par des choix differents de lespace de probabilite. Il ny a donc aucune raison pour que la
loi de la variable aleatoire que lon consid`ere (la longueur de la corde) soit la meme dans les
deux cas. Pour nous en convaincre, explicitons les choix des espaces de probabilite.
(a) Dans ce cas,
1
= [0, 2[2 , A = B([0, 2[2 ) , P (d) = 2
d d ,
4
u on note = (, ) pour . La longueur de la corde est
o`
X() = 2| sin( )|.
2
96
On calcule facilement la loi de X :
Z
E[f (X)] = f (X()) P (d)
Z 2 Z 2
1
= f (2| sin( )|) dd
4 2 0 0 2
Z
1 u
= f (2 sin( )) du
0 2
Z 2
1 1
= f (x) q dx.
0 1 4 x2
97
8.1.5 Lois classiques
On donne dans ce paragraphe quelques exemples importants de lois.
Lois discr`
etes.
(a) Loi uniforme. Si E est un ensemble fini, Card(E) = n, une v.a. X est de loi uniforme
sur E si
1
P (X = x) = , x E.
n
(b) Loi de Bernoulli de param`etre p [0, 1]. Cest la loi dune v.a. X `a valeurs dans {0, 1}
telle que
P (X = 1) = p , P (X = 0) = 1 p.
On interpr`ete X comme le resultat du lancer dune pi`ece truquee qui tombe sur pile
avec probabilite p.
(c) Loi binomiale B(n, p) (n N , p [0, 1]). Cest la loi dune v.a. X `a valeurs dans
{1, . . . , n} telle que
P (X = k) = Cnk pk (1 p)nk .
On interpr`ete X comme le nombre de piles obtenus en n lancers avec la pi`ece precedente.
(d) Loi geometrique de param`etre p ]0, 1[. Cest la loi dune v.a. X `a valeurs dans N, telle
que
P (X = k) = (1 p) pk .
X est le nombre de piles obtenus avant le premier face.
(e) Loi de Poisson de param`etre > 0. X est une v.a. `a valeurs dans N, et
k
P (X = k) = e , k N.
k!
On calcule facilement E[X] = . La loi de Poisson est tr`es importante aussi bien
du point de vue theorique que dans les applications. Intuitivement, elle correspond
au nombre devenements rares qui se sont produits durant une periode longue. La
traduction mathematique de cette intuition est lapproximation binomiale de la loi de
Poisson : si pour tout n 1, Xn suit une loi binomiale B(n, pn ) et si npn quand
n , alors pour tout entier k N,
k
lim P (Xn = k) = e .
n k!
Lois continues. Dans les trois exemples qui suivent, X est une v.a. `a valeurs dans R, `a
densite p(x).
98
(b) Loi exponentielle de param`etre > 0.
ce quon interpr`ete en disant que la probabilite que X a > b sachant que X > a
concide avec la probabilite que X > b. Cest la propriete dabsence de memoire de
la loi exponentielle, qui explique quelle soit utilisee par exemple pour modeliser les
temps de vie de machine sans usure.
1 (x m)2
p(x) = exp .
2 2 2
Avec la loi de Poisson, cest la loi la plus importante en theorie des probabilites. Sa
densite est la fameuse courbe en cloche. Les param`etres m et sinterpr`etent comme
On remarque aussi que X m suit la loi N (0, 2). La loi gaussienne jouera un role
important dans le Chapitre 10.
Par convention on dira quune v.a. constante egale `a m suit la loi gaussienne N (m, 0).
Si X suit la loi N (m, 2), pour tous , R, X + suit la loi N (m + , 2 2 ).
8.1.6 Fonction de r
epartition dune variable al
eatoire r
eelle
Si X est une v.a. reelle, la fonction de repartition de X est la fonction FX : R [0, 1]
definie par
FX (t) = P (X t) = PX (] , t]) , t R.
La fonction FX est croissante, continue `a droite et a pour limite 0 en et 1 en +.
Inversement, si on se donne une fonction F ayant ces proprietes, on a vu dans le cours
dintegration quil existe une (unique) mesure de probabilite telle que (] , t]) = F (t)
pour tout t R. Cela montre quon peut interpreter F comme la fonction de repartition
dune v.a. reelle.
Il decoule des resultats du cours dintegration que FX caracterise la loi PX de X. On a
en particulier
P (a X b) = FX (b) FX (a) si a b,
P (a < X < b) = FX (b) FX (a) si a < b,
99
8.1.7 Tribu engendr
ee par une variable al
eatoire
Soit X une v.a. `a valeurs dans un espace mesurable quelconque (E, E). La tribu engendree
par X, notee (X), est par definition la plus petite tribu sur qui rende X mesurable :
Remarque. On peut generaliser cette definition `a une famille quelconque (Xi )iI de v.a.,
Xi etant `a valeurs dans (Ei , Ei ). Dans ce cas,
Proposition 8.1.3 Soit X une variable aleatoire `a valeurs dans (E, E), et soit Y une v.a.
reelle. Il y a equivalence entre :
(ii) Il existe une fonction mesurable f de (E, E) dans (R, B(R)) telle que Y = f (X).
Preuve. Limplication (ii)(i) est facile puisquune composee de fonctions mesurables est
mesurable.
Dans lautre sens, supposons que Y est (X)-mesurable. Traitons dabord le cas o` uY
est etagee :
Xn
Y = i 1 Ai
i=1
u i R et Ai (X), pour tout i {1, . . . , n}. Alors, pour chaque i {1, . . . , n}, on
o`
peut trouver Bi E tel que Ai = X 1 (Bi ), et on a
n
X n
X
Y = i 1 Ai = i 1Bi X = f X,
i=1 i=1
Pn
u f = i=1 i 1Bi est E-mesurable.
o`
Dans le cas general, on sait que Y est limite simple dune suite de v.a. Yn etagees et
(X)-mesurables. Dapr`es la premi`ere etape, on peut ecrire, pour tout n, Yn = fn (X), o`
u la
fonction fn : E R est mesurable. On pose alors pour tout x E :
(
lim fn (x) si la limite existe,
f (x) = n
0 sinon.
On sait que la fonction f ainsi definie est mesurable. Par ailleurs, pour tout ,
X() appartient `a lensemble des x pour lesquels lim fn (x) existe (puisque lim fn (X()) =
lim Yn () = Y ()), et de plus
100
8.2 Moments de variables al
eatoires
8.2.1 Moments dordre p et variance
Soit X une v.a. reelle et soit p 1 un entier. Le moment dordre p de X est par definition
la quantite E[X p ], qui nest definie que si E[|X|p ] < , ou si X 0. La quantite E[|X|p ]
est appelee moment absolu dordre p. En particulier le moment dordre 1 est simplement
lesperance de X. On dit que la v.a. reelle X est centree si elle est integrable et si E[X] = 0.
Lesperance mathematique est un cas particulier dintegrale par rapport `a une mesure
positive, et on peut donc lui appliquer les theor`emes generaux vus dans ce cadre. En parti-
culier, les theor`emes de convergence sont dun usage frequent :
et le cas particulier o`
uY =1
E[|X|]2 E[X 2 ]
est tr`es souvent utile.
et lecart-type de X est p
X = var(X).
101
Proposition 8.2.1 On a aussi var(X) = E[X 2 ] (E[X])2 , et pour tout a R,
En consequence,
var(X) = inf E[(X a)2 ].
aR
Preuve. On a
Les deux premi`eres assertions en decoulent aussitot, en prenant a = E[X] pour la premi`ere.
In e de Markov. (cf cours dintegration) Si X 0 et a > 0,
egalit
1
P (X a) E[X].
a
In
egalit e-Tchebicheff. Si X L2 (, A, P ) et a > 0,
e de Bienaym
1
P (|X E[X]| a) var(X).
a2
Cette inegalite decoule de linegalite de Markov appliquee `a la variable positive (X E[X])2 .
cov(X, Y ) = E[(X E[X])(Y E[Y ])] = E[X(Y E[Y ])] = E[XY ] E[X]E[Y ].
Si X = (X1 , . . . , Xd ) est une variable aleatoire `a valeurs dans Rd dont toutes les composantes
sont dans L2 (, A, P ) (ce qui equivaut `a E[|X|2 ] < ), la matrice de covariance de X est
KX = cov(Xi , Xj ) .
1id,1jd
102
8.2.2 La r
egression lin
eaire
Soient X, Y1 , . . . , Yn des variables aleatoires dans L2 (, A, P ). On cherche `a trouver la
meilleure approximation de X comme fonction affine de Y1 , . . . , Yn . Precisement, on cherche
`a minimiser
E[(X (0 + 1 Y1 + + n Yn ))2 ]
sur tous les choix possibles du (n + 1)-uplet de reels (0 , . . . , n ).
Proposition 8.2.2 On a
inf E[(X (0 + 1 Y1 + + n Yn ))2 ] = E[(X Z)2 ],
0 ,...,n R
o`
u n
X
Z = E[X] + j (Yj E[Yj ]), (1)
j=1
103
8.2.3 Fonctions caract
eristiques
Definition 8.2.3 Si X est une variable aleatoire `a valeurs dans Rd , la fonction caracteristique
de X est la fonction X : Rd C definie par
X () = E[exp(i X)] , Rd .
Lemme 8.2.3 Soit X une variable aleatoire de loi gaussienne N (0, 2 ). Alors,
2 2
X () = exp( ), R.
2
Preuve. On a Z
1 2 2
X () = ex /(2 ) eix dx.
R 2
Theor` eme 8.2.4 La fonction caracteristique dune variable aleatoire X `a valeurs dans Rd
caracterise la loi de cette variable aleatoire. Autrement dit, la transformee de Fourier definie
sur lespace des mesures de probabilite sur Rd est injective.
104
Preuve. On traite dabord le cas d = 1. Pour tout > 0, soit g la densite de la loi
gaussienne N (0, 2) :
1 x2
g (x) = exp( 2 ) , x R.
2 2
Si est une mesure de probabilite sur R, on pose
Z
(def)
f (x) = g (x y) (dy) = g (x),
R
(dx) = f (x) dx.
Il vient alors
Z Z Z
1
f (x) = g (x y) (dy) = ( 2) ei(xy) g1/ () d (dy)
R R R
1 Z ix Z
= ( 2) e g1/ () eiy (dy) d
R R
1 Z ix
= ( 2) e g1/ ()
b()d.
R
105
(cf les resultats du cours dintegration concernant les approximations de la mesure de Dirac
0 ). Par convergence dominee, facile `a justifier puisque |g | sup ||, on obtient
Z Z
lim (x) (dx) = (x)(dx),
0
Proposition 8.2.5 Soit X = (X1 , . . . , Xd ) une v.a. `a valeurs dans Rd et de carre integrable.
Alors X est de classe C 2 et
d
X d d
1 XX
X () = 1 + i j E[Xj ] j k E[Xj Xk ] + o(||2)
j=1
2 j=1 k=1
2 X
() = E[Xj Xk eiX ].
j k
X 2
De plus le theor`eme de continuite sous le signe integrale assure que j k
() est fonction
continue de .
Enfin la derni`ere assertion est simplement le developpement de Taylor de X `a lordre 2
`a lorigine.
Remarque. Si on suppose que X est de puissance p-i`eme integrable (p 1 entier) le meme
raisonnement montre que X est de classe C p . Cest cependant le cas p = 2 qui sera le plus
utile dans la suite.
106
8.2.4 Fonction g
en
eratrice
Dans le cas de variables aleatoires `a valeurs dans N, on utilise les fonctions generatrices
plutot que les fonctions caracteristiques.
Definition 8.2.4 Soit X une v.a. `a valeurs dans N. La fonction generatrice de X est la
fonction gX definie sur lintervalle [0, 1] par
X
gX (r) = E[r X ] = P (X = n) r n .
n=0
La fonction gX est continue sur [0, 1] (cela decoule par exemple du theor`eme de conver-
gence dominee), et on a gX (0) = P (X = 0) et gX (1) = 1. Le rayon de convergence de la serie
enti`ere qui apparat dans la definition est donc superieur ou egal `a un. Cela montre que la
fonction generatrice gX caracterise la loi de X, puisque les nombres P (X = n) apparaissent
comme les coefficients du developpement de Taylor de gX en 0.
On voit facilement que gX a toujours une derivee `a gauche en 1, eventuellement infinie,
et que
gX (1) = E[X].
Plus generalement, pour tout entier p 1,
(p)
lim gX (r) = E[X(X 1) (X p + 1)]
r1
107
108
Chapitre 9
Ind
ependance
9.1 Ev
enements ind
ependants
Dans tout ce chapitre on se place sur un espace de probabilite (, A, P ). Si A, B A sont
deux evenements, on dit que A et B sont independants si
P (A B) = P (A)P (B).
Au moins lorsque P (B) > 0, on peut interpr`eter cette definition en disant que la probabilite
conditionnelle
(def) P (A B)
P (A | B) =
P (B)
concide avec P (A) : le fait de savoir que B est realise ne donne pas dinformation sur la
realisation ou non de levenement A (et on peut intervertir les roles de A et B).
Exemples. (i) Lancer de deux des : = {1, 2, . . . , 6}2 , P ({}) = 1/36 pour tout .
Les evenements A = {6} {1, 2, . . . , 6} et B = {1, 2, . . . , 6} {6} sont independants. En
fait la probabilite P a ete construite precisement pour quun evenement relatif au resultat
du premier lancer soit independant dun evenement relatif au resultat du second.
109
(ii) Lancer dun seul de : = {1, 2, . . . , 6}, P ({}) = 1/6 pour tout . Les evenements
A = {1, 2} et B = {1, 3, 5} sont independants.
Definition 9.1.1 On dit que n evenements A1 , . . . , An sont independants si, pour tout sous-
ensemble non vide {j1 , . . . , jp } de {1, . . . , n}, on a
Il ne suffit pas non plus que, pour chaque paire {i, j} {1, . . . , n}, les evenements Ai et Aj
soient independants. Pour donner un exemple, considerons lespace correspondant `a deux
lancers de pile ou face (pi`ece non truquee) et prenons
Preuve. Il est clair que la condition donnee est plus forte que celle de la definition : prendre
Bi = Ai si i {j1 , . . . , jp } et Bi = sinon. Inversement, supposons que A1 , . . . , An sont
independants. Pour verifier la propriete de la proposition, on peut supposer Bi 6= pour
tout i {1, . . . , n}. Ensuite, si {j1 , . . . , jp } = {i : Bi 6= }, on est ramene `a montrer que
d`es que Bjk = Ajk ou Acjk . Finalement, il suffit de montrer que si C1 , C2 , . . . , Cp sont
independants, C1c , C2 , . . . , Cp le sont aussi. Mais cela est facile puisque, pour tout sous-
ensemble {i1 , . . . , iq } de {2, . . . , p},
110
9.2 Variables al
eatoires et tribus ind
ependantes
La notion la plus generale est celle de tribus independantes.
De plus, on a alors
hY
n i n
Y
E fi (Xi ) = E[fi (Xi )]
i=1 i=1
d`es que fi est une fonction mesurable positive sur (Ei , Ei ), pour tout i {1, . . . , n}.
et dautre part
n
Y n
Y
PX1 PXn (F1 Fn ) = PXi (Fi ) = P (Xi Fi ).
i=1 i=1
111
En comparant avec (9.1), on voit que X1 , . . . , Xn sont independantes si et seulement si les
deux mesures de probabilite P(X1 ,...,Xn ) et PX1 PXn prennent les memes valeurs sur
les paves F1 Fn . Mais comme on sait (lemme de classe monotone) quune mesure de
probabilite sur un espace-produit est caracterisee par ses valeurs sur les paves, cela equivaut
encore `a dire que P(X1 ,...,Xn ) = PX1 PXn .
La deuxi`eme assertion est ensuite une consequence du theor`eme de Fubini-Tonnelli :
hY
n i Z n
Y
E fi (Xi ) = fi (xi ) PX1 (dx1 ) . . . PXn (dxn )
i=1 E1 En i=1
n Z
Y
= fi (xi ) PXi (dxi )
i=1 Ei
n
Y
= E[fi (Xi )].
i=1
Le theor`eme ci-dessus montre aussi comment construire des v.a. independantes. Con-
siderons le cas de v.a. reelles, et soient 1 , . . . , n des mesures de probabilite sur Rn . Alors,
comme on la observe dans le Chapitre 8, on peut construire une v.a. Y = (Y1 , . . . , Yn ) `a
valeurs dans Rn dont la loi est 1 n . Dapr`es le theor`eme precedent, les composantes
Y1 , . . . Yn de Y sont des v.a. reelles independantes de lois respectives 1 , . . . , n .
Remarques. Si les fonctions fi sont de signe quelconque, legalite
hY
n i Yn
E fi (Xi ) = E[fi (Xi )]
i=1 i=1
reste vraie `a condition que E[|fi (Xi )|] < pour tout i {1, . . . , n}, et on a alors aussi
hY
n i n
Y
E |fi (Xi )| = E[|fi (Xi )|] <
i=1 i=1
Remarquons quen general le produit de v.a. dans L1 nest pas dans L1 (lindependance est
une propriete tr`es particuli`ere).
112
La reciproque du corollaire est fausse. La propriete de covariance nulle (pour deux v.a.
dans L2 ) est beaucoup plus faible que lindependance. Pour donner un exemple, partons
dune R v.a. reelle X1 dont la loi a une densite notee p(x) symetrique (p(x) = p(x)) et telle
que x p(x)dx < (de sorte que X1 L2 ). On peut par exemple choisir pour X1 une v.a.
2
de loi N (0, 2). Soit ensuite une deuxi`eme v.a. `a valeurs dans {1, 1}, independante de
X1 et telle que P ( = 1) = P ( = 1) = 21 . Alors, si X2 = X1 , on voit immediatement
que cov(X1 , X2 ) = 0 alors que X1 et X2 ne sont pas independantes. En effet, si X1 et X2
letaient, |X1 | serait independante de |X2 | = |X1 |. Or si une v.a. reelle est independante
delle-meme, elle doit etre constante p.s. (exercice !) et donc sa loi est une mesure de Dirac.
Cest une contradiction puisque la loi de |X1 | a une densite donnee par 2 p(x)1R+ (x).
Corollaire 9.2.3 Soient X1 , . . . , Xn n variables aleatoires reelles.
(i) Supposons dabord que, pour tout i {1, . . . , n}, la loi de Xi a une densite notee pi , et
que les variables aleatoires X1 , . . . , Xn sont independantes. Alors, la loi de (X1 , . . . , Xn ) a
une densite donnee par
n
Y
p(x1 , . . . , xn ) = pi (xi ).
i=1
(ii) Inversement, supposons que la loi de (X1 , . . . , Xn ) a une densite de la forme
n
Y
p(x1 , . . . , xn ) = qi (xi ),
i=1
u les fonctions qi sont boreliennes positives sur R. Alors les variables aleatoires X1 , . . . , Xn
o`
sont independantes et pour chaque i {1, . . . , n}, la loi de Xi a une densite pi qui secrit
pi = Ci qi , o`
u Ci > 0 est une constante.
Preuve. La premi`ere partie est une consequence immediate du theor`eme ci-dessus, puisque
si PXi (dxi ) = pi (xi )dxi , le theor`eme de Fubini-Tonnelli montre que
Y
n
PX1 PXn (dx1 . . . dxn ) = pi (xi ) dx1 . . . dxn .
i=1
Pour la partie (ii), on remarque dabord que, toujours `a laide du theor`eme de Fubini-
Tonnelli, on a
Yn Z Z
qi (x)dx = p(x1 , . . . , xn )dx1 . . . dxn = 1,
i=1 Rn
R
et en particulier Ki := qi (x)dx) ]0, [ pour tout i {1, . . . , n}. Ensuite, dapr`es un
resultat du Chapitre 8, la densite de Xi est
Z Y 1
pi (xi ) = p(x1 , . . . , xn )dx1 . . . dxi1 dxi+1 . . . , dxn = Kj qi (xi ) = qi (xi ).
Rn1 j6=i
Ki
113
et on voit que P(X1 ,...,Xn ) = PX1 PXn do`
u lindependance.
Exemple. Soit U une variable de loi exponentielle de param`etre 1 et soit V une variable
uniforme sur lintervalle [0, 1]. On suppose que U et V sont independantes. Alors, si on
definit
X = U cos(2V ) , Y = U sin(2V ),
les deux variables aleatoires X et Y sont independantes. Pour le voir calculons la loi du
couple (X, Y ). Pour toute fonction mesurable positive sur R2 ,
Z Z 1
E[(X, Y )] = ( u cos(2v), u sin(2v)) eu dudv
0 0
Z Z 2
1 2
= (r cos , r sin ) rer drd
0 0
Z
1 2 2
= (x, y) ex y dxdy.
R2
On obtient que la loi du couple (X, Y ) a pour densite 1 exp(x2 y 2) qui a une forme
produit comme dans la partie (ii) de la proposition. Donc X et Y sont independantes (on
voit aussi que X et Y ont la meme densite
1
p(x) = exp(x2 )
114
Proposition 9.2.4 Soient B1 , . . . , Bn des sous-tribus de A. Pour tout i {1, . . . , n}, soit
Ci Bi une classe stable par intersections finies, contenant et telle que (Ci ) = Bi .
Supposons que
Alors C1 M1 par hypoth`ese, et dautre part on voit facilement que M1 est une classe
monotone. Le lemme de classe monotone entrane que M1 contient (C1 ) = B1 , et on a
montre
A nouveau, M2 est une classe monotone qui contient C2 et donc aussi (C2 ) = B2 . En
raisonnant par recurrence, on arrive facilement au resultat voulu.
Cons equence. Regroupement par paquets. Soient B1 , . . . , Bn des tribus independantes,
et soient n0 = 0 < n1 < < np = n. Alors les tribus
(not)
D1 = B1 Bn1 = (B1 , . . . , Bn1 )
D2 = Bn1 +1 Bn2
Dp = Bnp1 +1 Bnp
Bnj1 +1 Bnj
sont independantes.
Exemple. Si X1 , . . . , X4 sont des v.a. reelles independantes, les v.a.
Z 1 = X 1 X3 , Z2 = X23 + X4
115
sont independantes.
Independance dune famille infinie. Soit (Bi )iI une famille quelconque de sous-tribus
de A. On dit que cette famille est independante si pour tout sous-ensemble fini {i1 , . . . , ip }
de I, les tribus Bi1 , . . . , Bip sont independantes.
Si (Xi )iI est une famille quelconque de variables aleatoires, cette famille est dite indepen-
dante si la famille de tribus ((Xi ))iI lest.
Proposition 9.2.5 Soit (Xn )nN une suite de variables aleatoires independantes. Alors,
pour tout entier p N, les deux tribus
sont independantes.
C1 = (X0 , . . . , Xp ) = B1
[
C2 = (Xp+1, Xp+2 , . . . , Xk ) B2
k=p+1
et en remarquant que lhypoth`ese est satisfaite grace au principe du regroupement par pa-
quets.
et
\
[
lim inf An = Ak
n=0 k=n
116
P
(ii) Si nN P (An ) = et si les evenements An sont independants, alors
P (lim sup An ) = 1
ou de mani`ere equivalente,
Remarque. Lhypoth`ese dindependance (ou une autre hypoth`ese convenable) est necessaire
u An = A pour tout n N, avec 0 < P (A) < 1.
dans (ii), comme le montre lexemple trivial o`
P
Preuve. (i) Si nN P (An ) < , alors
hX i X
E 1 An = P (An ) <
nN nN
P
et donc nN 1An < p.s.
(ii) Fixons dabord n0 N, et observons que si n n0 ,
\
n n
Y n
Y
P Ack = P (Ack ) = (1 P (Ak )).
k=n0 k=n0 k=n0
P
La divergence de la serie P (Ak ) entrane alors que
\
P Ack = 0.
k=n0
Y k
1
P (Ap1 . . . Apk ) = P (p1 N . . . pk N) = P ((p1 . . . pk )N) = = P (Apj ).
p1 . . . pk j=1
117
Par ailleurs, on sait que
X X1
P (Ap ) = = .
pP pP
p
On peut donc appliquer la partie (ii) du lemme de Borel-Cantelli pour obtenir que presque
tout (au sens de la probabilite P ) entier n appartient `a une infinite densembles Ap , et donc
est multiple dune infinite de nombres premiers distincts. Cest evidemment absurde.
(2) Considerons le cas o`
u
(, A, P ) = ([0, 1[, B([0, 1[), ).
Pour tout n 1, on pose
u [x] designe la partie enti`ere dun nombre reel x. Alors Xn () {0, 1} et on verifie
o`
aisement par recurrence sur n que, pour tout [0, 1[,
n
X
0 Xk ()2k < 2n ,
k=1
do`
u le resultat voulu.
Soit p 1 un entier quelconque, et soient i1 , . . . , ip {0, 1}. Alors, le lemme de Borel-
Cantelli permet de voir que
118
Cela montre quune suite finie donnee de 0 et de 1 apparat une infinite de fois dans
le developpement dyadique de presque tout (au sens de la mesure de Lebesgue) reel de
lintervalle [0, 1[. Pour etablir (9.2), il suffit de poser, pour tout entier n N,
Le principe du regroupement par paquets montre que la suite (Yn )nN est independante, et
le resultat recherche decoule dune application du lemme de Borel-Cantelli `a la suite des
evenements
An = {Yn = (i1 , . . . , ip )}
qui sont independants et tous de probabilite 2p .
Puisquune reunion denombrable densembles de probabilite nulle est encore de proba-
bilite nulle, on peut renforcer (9.2) sous la forme
Autrement dit, pour presque tout reel x de [0, 1[, nimporte quelle suite finie de 0 et de 1
apparat une infinite de fois dans le developpement dyadique de x.
119
par definition de PX PY . Si de plus X et Y ont une densite,
Z Z Z Z
E[(X + Y )] = (x + y) pX (x)pY (y)dxdy = (z) pX (x)pY (z x)dx dz,
ce qui montre bien que X + Y a pour densite pX pY (remarquer que pX pY est ici bien
definie presque partout comme convolution de deux fonctions de L1 (Rd , )).
(ii) Il suffit decrire
Th eor`eme 9.4.2 (Loi faible des grands nombres) Soit (Xn )n1 une suite de variables
aleatoires reelles independantes et de meme loi. Si E[X12 ] < , on a
1 L2
(X1 + + Xn ) E[X1 ].
n n
120
Preuve. Quitte `a remplacer Xn par Xn E[Xn ], on peut supposer que E[Xn ] = 0. Alors,
1 1 X
E[( (X1 + + Xn ))4 ] = 4 E[Xi1 Xi2 Xi3 Xi4 ].
n n
i1 ,...,i4 {1,...,n}
En utilisantlindependance et la propriete E[Xk ] = 0, on voit que les seuls termes non nuls
de la somme sont ceux pour lesquels chaque valeur prise par une composante du quadruplet
(i1 , i2 , i3 , i4 ) apparat au moins deux fois dans ce quadruplet. En utilisant le fait que les Xk
ont meme loi, on trouve
1 1 C
E[( (X1 + + Xn ))4 ] = 4 nE[X14 ] + 3n(n 1)E[X12 X22 ] 2
n n n
pour une certaine constante C < . Il en decoule que
X 1
E[( (X1 + + Xn ))4 ] < .
n=1
n
do`
u
X 1
( (X1 + + Xn ))4 < , p.s.
n=1
n
ce qui entrane lassertion de la proposition.
Corollaire 9.4.4 Si (An )n1 est une suite devenements independants de meme probabilite,
on a n
1 X p.s.
1Ai P (A1 ).
n i=1 n
Ce corollaire fait le lien entre notre approche axiomatique moderne et la definition his-
torique de la probabilite comme frequence dapparition dun evenement quand on rep`ete un
grand nombre de fois une experience aleatoire.
Revenons `a la deuxi`eme application du lemme de Borel-Cantelli donnee ci-dessus, qui
concernait le developpement dyadique
X
= Xk () 2k
k=1
dun reel [0, 1[. Si p 1 est fixe, on a vu que les v.a. Y1 = (X1 , . . . , Xp ), Y2 =
(Xp+1, . . . , X2p ), . . . sont independantes et de meme loi. On deduit alors du corollaire que,
pour tous i1 , . . . , ip {0, 1},
1 1
d p.s. Card{j n : Yj () = (i1 , . . . , ip )} p .
n n 2
121
Pour chaque {1, . . . , p}, le meme argument applique aux v.a. (X , X+1 , . . . , Xp+1),
(Xp+ , Xp++1, . . . , X2p+1), . . . conduit `a
1 1
d p.s. Card{j n : Xjp+() = i1 , . . . , X(j+1)p+1 () = ip } p .
n n 2
Comme une reunion denombrable densembles de probabilite nulle est encore de probabilite
nulle, on a aussi, pour tout [0, 1[ sauf sur un ensemble de mesure nulle :
1 1
p 1, i1 , . . . , ip {0, 1}, Card{k n : Xk+1 () = i1 , . . . , Xk+p () = ip } p .
n n 2
(9.3)
Autrement dit, pour presque tout reel de [0, 1[, la frequence dapparition de nimporte
quel bloc de longueur finie de 0 et de 1 dans le developpement dyadique de existe et est
egale `a 2p si p est la longueur du bloc. Remarquons quil nest pas facile dexhiber un reel
pour lequel la propriete (9.3) soit vraie. En fait, le moyen le plus rapide pour prouver
que de tels reels existent est tr`es certainement le raisonnement qui prec`ede. Ceci est typique
de lapplication des probabilites `a des probl`emes dexistence : pour etablir lexistence dun
objet ayant certaines proprietes, on montre quun objet pris au hasard (selon une loi de
probabilite bien choisie) verifie les proprietes en question.
Semigroupes de convolution
Soit I = N ou I = R+ .
Definition 9.4.1 Soit (t )tI une famille de mesures de probabilite sur R (ou sur Rd ). On
dit que (t )tI est un semigroupe de convolution si 0 = 0 et si
t t = t+t , t, t I.
Lemme 9.4.5 Pour que (t )tI soit un semigroupe de convolution, il suffit quil existe une
fonction : R C telle que :
t () = ()t , t I;
si I = N,
si I = R,
t () = exp(t()), t I.
t+t =
t = \
t t t
122
Exemples.
(1) I = N et, pour tout n N , n est la loi binomiale B(n, p) (on a fixe p [0, 1]).
La propriete n+m = n m est immediate `a partir de linterpretation probabiliste de
la loi binomiale. Alternativement on peut utiliser le lemme en remarquant que n () =
i n
(pe + 1 p) .
(2) I = R+ et, pour tout t R+ , t est la loi de Poisson de param`etre t. Dans ce cas,
k
X t
t () = eik et = exp(t(1 ei )).
k=0
k!
(3) I = R+ et, pour tout t > 0, t est la loi Gaussienne N (0, t). On a dej`a calcule dans
le Chapitre 8
t 2
t () = exp( ).
2
Cons
equence importante. Si X et Y sont deux v.a. reelles independantes et
123
124
Chapitre 10
Convergence de variables al
eatoires
D
efinition 10.1.1 On dit que la suite (Xn ) converge en probabilite vers X, et on note
(P)
Xn X
n
Proposition 10.1.1 Soit L0Rd (, A, P ) lespace de toutes les variables aleatoires `a valeurs
dans Rd , et soit L0Rd (, A, P ) son quotient par la relation dequivalence X Y ssi X = Y
p.s. Alors, la formule
d(X, Y ) = E[|X Y | 1]
125
definit une distance sur L0Rd (, A, P ) qui est compatible avec la convergence en probabilite,
au sens o` u une suite (Xn ) converge en probabilite vers X ssi d(Xn , X) tend vers 0. De plus,
lespace L0Rd (, A, P ) est complet pour la distance d.
Preuve. Il est facile de verifier que d est une distance. De plus, si la suite (Xn ) converge
en probabilite vers X, on a pour tout > 0,
E[|Xn X|1] E[|Xn X|1{|Xn X|} ]+E[(|Xn X|1)1{|Xn X|>} ] +P (|Xn X| > ).
Il reste `a voir que L0 est complet pour la distance d. Soit donc (Xn ) une suite de Cauchy
pour la distance d. On peut trouver une sous-suite Yk = Xnk telle que, pour tout k 1,
d(Yk , Yk+1) 2k .
Alors
X
X
E[ (|Yk+1 Yk | 1)] = d(Yk , Yk+1) < ,
k=1 k=1
P P
ce qui entrane k=1 (|Yk+1 Yk | 1) < p.s., et donc aussi k=1 |Yk+1 Yk | < p.s.
(p.s. il ne peut y avoir quun nombre fini de valeurs de k pour lesquelles |Yk+1 Yk | 1).
On definit ensuite une v.a. X dans L0 en posant
X
X = Y1 + (Yk+1 Yk ).
k=1
d(Yk , X) = E[|Yk X| 1] 0,
k
par convergence dominee. Donc la suite (Yk ) converge en probabilite vers X, et cela est aussi
vrai pour la suite de depart (Xn ).
La preuve precedente montre en particulier que de toute suite qui converge en probabilite
on peut extraire une sous-suite qui converge p.s. (vers la meme limite). Nous reprenons cette
propriete dans lenonce suivant.
Proposition 10.1.2 Si la suite (Xn ) converge p.s., ou dans Lp , vers X, elle converge aussi
en probabilite vers X. Inversement, si la suite (Xn ) converge en probabilite vers X, il existe
une sous-suite (Xnk ) qui converge p.s. vers X.
126
Preuve. La deuxi`eme assertion a dej`a ete vue. Pour la premi`ere, si Xn converge p.s. vers
X,
d(Xn , X) = E[|Xn X| 1] 0,
n
p
par convergence dominee. Si Xn converge dans L vers X,
En resume la convergence en probabilite est plus faible a` la fois que la convergence p.s. et
que la convergence dans Lp pour nimporte quel p [1, [ (et a fortiori pour p = ). Dans
lautre sens, la convergence en probabilite entrane la convergence p.s. pour une sous-suite,
et la proposition ci-dessous donne des conditions qui permettent de deduire la convergence
Lp de la convergence en probabilite.
Proposition 10.1.3 Soit (Xn ) une suite de v.a. convergeant en probabilite vers X. Sup-
posons quil existe r ]1, [ tel que la suite (Xn ) soit bornee dans Lr . Alors, pour tout
p [1, r[, la suite (Xn ) converge vers X dans Lp .
Preuve. Par hypoth`ese, il existe une constante C telle que E[|Xn |r ] C pour tout n. Le
lemme de Fatou entrane alors E[|X|r ] C et donc X Lr . Ensuite, en utilisant linegalite
de Holder, on a pour tout p [1, r[ et tout > 0,
E[|Xn X|p ] = E[|Xn X|p 1{|Xn X|} ] + E[|Xn X|p 1{|Xn X|>} ]
p + E[|Xn X|r ]p/r P (|Xn X| > )1p/r
p + 2p C p/r P (|Xn X| > )1p/r .
do`
u le resultat annonce puisque est arbitraire.
Th eor`eme 10.2.1 (Loi du tout ou rien) Soit (Xn )n1 une suite de variables aleatoires
independantes, `a valeurs dans des espaces mesurables quelconques. Pour tout n 1 soit Bn
la tribu
Bn = (Xk ; k n).
127
Alors la tribu asymptotique B definie par
\
B = Bn
n=1
Preuve. Posons
Dn = (Xk ; k n).
On a observe dans le Chapitre 9 que pour tout n, Dn est independante de Bn+1 , donc a
fortiori de B . Ainsi,
[
A Dn , B B , P (A B) = P (A)P (B).
n=1
S
Puisque la classe n=1 Dn est stable par intersections finies, un autre r
esultat du Chapitre
9 permet alors de conclure que B est independante de
[
Dn = (Xn ; n 1).
n=1
est mesurable par rapport `a B , et cela entrane que cette variable (`a valeurs dans [, ])
est constante p.s. En particulier, si on sait que la suite n1 (X1 + + Xn ) converge p.s. la
limite est constante (p.s.).
Avant dutiliser la loi du tout ou rien pour etablir la loi forte des grands nombres, nous
donnons dabord une application plus facile au jeu de pile ou face.
Proposition 10.2.2 Soit (Xn )n1 une suite de variables aleatoires independantes , de meme
loi donnee par P (Xn = 1) = P (Xn = 1) = 21 . Pour tout n 1, posons
S n = X1 + X2 + + X n .
Alors,
p.s. sup Sn = + et inf Sn = .
n1 n1
128
En dautres termes si on imagine un jeu o` u `a chaque instant entier le joueur gagne ou
perd un Euro avec probabilite 1/2, Sn represente le gain (positif ou negatif) accumule apr`es
n instants. La proposition montre que quand n , Sn prend tantot des valeurs positives
tantot des valeurs negatives, de plus en plus grandes en valeur absolue.
Preuve. On commence par montrer que, pour tout entier p 1,
P (p inf Sn sup Sn p) = 0.
n n
do`
u
P ({inf Sn = } {sup Sn = }) = 1,
n n
et en particulier
P ({inf Sn = }) + P ({sup Sn = }) 1.
n n
P ({inf Sn = }) = P ({sup Sn = })
n n
et dapr`es ce qui prec`ede ces deux probabilites sont strictement positives. Pour conclure, on
remarque que
{sup Sn = } B .
n
et donc levenement {supn Sn = } est mesurable par rapport `a lintersection des tribus Bk ,
cest-`a-dire B . La loi du tout ou rien montre alors que P ({supn Sn = }) = 1.
Nous passons maintenant au resultat principal de ce paragraphe.
Th eor`eme 10.2.3 (Loi forte des grands nombres) Soit (Xn )n1 une suite de variables
aleatoires independantes, de meme loi, dans L1 . Alors,
1 p.s.
(X1 + + Xn ) E[X1 ].
n n
129
Remarques. (i) Lhypoth`ese dintegrabilite est optimale dans le sens o` u elle est necessaire
pour que la limite E[X1 ] soit bien definie (et finie). Dans le cas o`
u les v.a. Xn sont positives
et E[X1 ] = , on montre facilement que
1 p.s.
(X1 + + Xn ) +
n n
M = sup(Sn na)
nN
qui est une v.a. `a valeurs dans [0, ]. Nous allons montrer que
1
lim sup Sn a , p.s.
n n
En considerant une suite de valeurs de a qui decrot vers E[X1 ], on trouve alors
1
lim sup Sn E[X1 ] , p.s.
n n
1
lim inf Sn E[X1 ] , p.s.
n n
et lenonce du theor`eme decoule de ces deux derni`eres inegalites.
Il reste `a montrer (10.1). On remarque dabord que, avec les notations de la loi du tout
ou rien, levenement {M < } est dans la tribu B . En effet, il suffit decrire pour tout
entier k 0,
et de remarquer que le dernier evenement est mesurable pour la tribu (Xk+1, Xk+2 , . . .).
Pour conclure il suffira donc de montrer que P (M < ) > 0, ou de mani`ere equivalente que
P (M = ) < 1, ce que nous ferons en raisonnant par labsurde.
130
Commencons par quelques notations. Pour tout entier k N, posons
Alors Mk et Mk ont meme loi : en effet dune part les vecteurs (X1 , . . . , Xk ) et (X2 , . . . , Xk+1)
ont meme loi et dautre part on peut ecrire Mk = Fk (X1 , . . . , Xk ) et Mk = Fk (X2 , . . . , Xk+1)
avec la meme fonction (deterministe) Fk : Rk R. Il en decoule que
M = lim Mk
k
et
M = lim Mk
k
ont aussi meme loi (ecrire P (M x) = lim P (Mk x) = lim P (Mk x) = P (M x)).
Mk+1 = Mk inf(a X1 , Mk ).
Puisque Mk a meme loi que Mk (et que ces deux v.a. sont clairement dans L1 ), on trouve
131
efinition 10.3.1 Une suite (n ) de mesures de probabilite sur Rd converge etroitement
D
(e)
vers une mesure de probabilite sur Rd (on note n ) si
Z Z
d
Cb (R ) , dn d.
n
Une suite (Xn ) de v.a. `a valeurs dans Rd converge en loi vers une v.a. X `a valeurs dans Rd
(loi)
(on note Xn X) si la suite (PXn ) converge etroitement vers PX . Cela equivaut encore `
a
Remarques. (i) Il y a un abus de langage `a dire que la suite de v.a. (Xn ) converge en loi vers
X, car la v.a. limite X nest pas definie de mani`ere unique : seule sa loi PX lest (pour cette
raison on ecrira parfois quune suite de v.a. (Xn ) converge en loi vers mesure de probabilite
sur Rd , et il faudra evidemment comprendre que la suite (PXn ) converge etroitement vers ).
Notons aussi quon peut considerer la convergence en loi de v.a. definies sur des espaces de
probabilite differents (ici nous supposerons toujours implicitement quelles sont definies sur
le meme espace de probabilite), ce qui rend la convergence en loi tr`es differente des autres
convergences discutees ci-dessus.
(ii) Lespace des mesures de probabilite sur Rd peut etre vu comme un sous-ensemble du
dual Cb (Rd ) . La convergence etroite correspond alors `a la topologie faible * sur le dual
(topologie de la convergence simple, les elements du dual etant vus comme des fonctions sur
Cb (Rd )).
Exemples. (a) Si les v.a. Xn et X sont `a valeurs dans Zd , alors Xn converge en loi vers X
si et seulement si
x Zd , P (Xn = x) P (X = x)
n
(limplication demande un petit raisonnement : largument est facile si on sait, ce qui sera
etabli plus tard, quon peut remplacer Cb (Rd ) par Cc (Rd ) dans la definition de la convergence
etroite).
(b) Si les Xn sont des v.a. `a densite, PXn (dx) = pn (x)dx, si on suppose
pn (x) p(x) , dx p.p.
R
et sil existe une fonction q 0 telle que Rd q(x)dx < et
n , pn (x) q(x) , dx p.p.
alors p est une densite de probabilite sur Rd , et Xn converge en loi vers la loi p(x)dx. Cela
decoule du theor`eme de convergence dominee.
n
(c) Si Xn est de loi uniforme sur { 21n , 22n , . . . , 22n }, alors Xn converge en loi vers la loi uniforme
sur [0, 1]. Ce resultat decoule de lapproximation de lintegrale dune fonction continue par
ses sommes de Riemann.
(d) Si Xn est de loi gaussienne N (0, n2 ) et si n 0, alors Xn converge en loi vers la v.a.
constante egale `a 0.
132
Proposition 10.3.1 Si la suite (Xn ) converge en probabilite vers X alors la suite (Xn )
converge en loi vers X.
Preuve. Supposons dabord que Xn converge p.s. vers X. Alors, pour toute fonction
Cb (Rd ), (Xn ) converge p.s. vers (X) et donc le theor`eme de convergence dominee
entrane E[(Xn )] E[(X)], do` u la convergence en loi recherchee.
Dans le cas general, raisonnons par labsurde en supposant que Xn ne converge pas en loi
vers X, donc quil existe une fonction Cb (Rd ) telle que E[(Xn )] ne converge pas vers
E[(X)]. On peut trouver une sous-suite (nk ) et > 0 tels que |E[(Xnk )] E[(X)]|
pour tout k. Mais, dapr`es un resultat de la partie 1, il existe une sous-sous-suite (nk )
telle que (Xnk ) converge p.s. vers X. La premi`ere partie de la preuve donne alors une
contradiction.
Remarque. Il existe un cas o` u la reciproque de la proposition est vraie. Cest le cas o`
u la
d
v.a. limite X est constante (p.s.). En effet, si Xn converge en loi vers a R , il decoule de
la propriete (ii) de la proposition qui suit que pour tout > 0,
lim inf PXn (B(a, )) 1
n
o`
u B(a, ) est la boule ouverte de centre a et de rayon . Cest exactement dire que Xn
converge en probabilite vers a.
Si (Xn ) est une suite de v.a. convergeant en loi vers X, il nest pas toujours vrai quon
ait
P (Xn B) P (X B)
pour tout borelien B de Rd (prendre B = {0} dans lexemple (d) ci-dessus). On a cependant
le resultat suivant.
Proposition 10.3.2 Soient (n ), des mesures de probabilite sur Rd . Les quatre assertions
suivantes sont equivalentes.
(i) La suite (n ) converge etroitement vers .
(ii) Pour tout ouvert G de Rd ,
lim inf n (G) (G).
Preuve. Commencons par montrer (i)(ii). Si G est un ouvert de Rd , on peut trouver une
suite (p ) de fonctions continues bornees telles que 0 p 1G et p 1G (par exemple
p (x) = p dist(x, Gc ) 1 ). Alors,
Z Z
lim inf n (G) sup lim inf p dn = sup p d = (G).
n p n p
133
Lequivalence (ii)(iii) est immediate par passage au complementaire.
Montrons que (ii) et (iii) entranent (iv). Si B B(Rd ),
lim sup n (B) lim sup n (B) (B)
lim inf n (B) lim inf n (B) (B).
Si (B) = 0 on a (B) = (B) = (B) et on obtient (iv).
Il reste `a montrer limplication (iv)(i). Soit Cb (Rd ). Quitte `a decomposer =
+ on peut supposer 0. Soit K > 0 tel que 0 K. Alors le theor`eme de
Fubini montre que
Z Z Z K Z K
(x)(dx) = 1{t(x)} dt (dx) = (Et )dt,
0 0
o`
u Et = {x Rd : (x) t}. De meme, pour tout n,
Z Z K
(x)n (dx) = n (Et )dt.
0
Remarquons que Et
{x Rd : (x) = t}, et quil existe au plus une infinite denombrable
de valeurs de t telles que
({x Rd : (x) = t}) > 0
(en effet il y a au plus k valeurs distinctes de t telles que ({x Rd : (x) = t}) k1 ). Donc
(iv) entrane
n (Et ) (Et ) , dt p.p.
n
et par convergence dominee on obtient
Z Z K Z K Z
(x)n (dx) = n (Et )dt n (Et )dt = (x)(dx).
0 n 0
Cons equence. Une suite (Xn ) de v.a. reelles converge en loi vers une v.a. X si et seulement
si les fonctions de repartition FXn (x) convergent vers FX (x) en tout point x o` u FX est
continue. Limplication decoule immediatement de la propriete (iv) ci-dessus. Dans
lautre sens, on observe que sous la condition de convergence des fonctions de repartition (en
tout point o`u FX est continue), on a pour tout x R,
lim inf FXn (x) FX (x),
lim sup FXn (x) FX (x).
Il decoule de cette observation que la condition (ii) de la proposition est satisfaite pour
n = PXn et = PX lorsque G est un intervalle ouvert. Il suffit ensuite decrire un ou-
vert quelconque comme reunion denombrable disjointe dintervalles ouverts pour aboutir au
resultat desire.
Rappelons la notation Cc (Rd ) pour lespace des fonctions continues `a support compact
sur Rd .
134
Proposition 10.3.3 Soient (n ) et des mesures de probabilite sur Rd . Soit H un sous-
ensemble de Cb (Rd ) dont ladherence (pour la norme sup) contient Cc (Rd ). Les proprietes
suivantes sont equivalentes :
(i) La suite (n ) converge etroitement vers .
(ii) On a Z Z
d
Cc (R ) , dn d.
n
(iii) On a Z Z
H , dn d.
n
Preuve. Il est evident que (i)(ii) et (i)(iii). Supposons ensuite que (ii) est satisfaite.
Soit Cb (Rd ) et soit (fk ) une suite de fonctions dans Cc (Rd ) telles que 0 fk 1 et
fk 1 quand k . Alors pour tout k, fk Cc (Rd ) et donc
Z Z
fk dn fk d.
n
Par ailleurs,
Z Z Z
d n f k d n sup |(x)| 1 fk d n ,
xR
Z Z Z
d fk d sup |(x)| 1 f k d .
xR
135
Th
eor`eme 10.3.4 (L evy) Une suite (n ) de mesures de probabilite sur Rd converge etroite-
ment vers une mesure de probabilite sur Rd si et seulement si
Rd , bn ()
b().
n
De mani`ere equivalente, une suite (Xn ) de variables aleatoires `a valeurs dans Rd converge
en loi vers X si et seulement si
Rd , Xn () X ().
n
et puisque ces quantites sont bornees en module par 1, on peut utiliser la formule precedente
et `a nouveau le theor`eme de convergence dominee pour obtenir que
Z Z
g f dn g f d.
n
136
10.4 Deux applications
10.4.1 La convergence des mesures empiriques
Soit (Xn )n1 une suite de variables aleatoires `a valeurs dans Rd , independantes et de meme
loi. Ces variables peuvent representer les resultats successifs dune meme experience aleatoire
repetee de mani`ere independante. Un probl`eme statistique fondamental est destimer la loi
de X1 `a partir de la donnee de X1 (), X2(), . . . , Xn () pour une seule valeur de .
Exemple : th eorie des sondages. Imaginons quon a une population de N individus
numerotes 1, 2, . . . , N . Lentier N est suppose tr`es grand (on peut penser `a la population
francaise). A lindividu i est attache un param`etre a(i) Rd (par exemple, lage de lindividu,
son intention de vote, son revenu mensuel, etc.). Si A B(Rd ), on sinteresse alors `a la
quantite
N
1 X
(A) = 1A (a(i))
N i=1
qui est la proportion dindividus dans la population dont le param`etre est dans A (par
exemple la proportion dindividus de plus de cinquante ans qui ont lintention de voter
Chirac et ont un revenu mensuel superieur `a 2000 Euros).
Comme N est tr`es grand, il est hors de question de calculer exactement (A). Le principe
dun sondage est alors de choisir un echantillon de la population, cest-`a-dire de prendre au
hasard n individus (n grand mais petit devant N) en esperant que la proportion dindividus
choisis dans cet echantillon pour lesquels le param`etre est dans A sera proche de la meme pro-
portion calculee pour la population totale. Pour rendre ceci precis en termes mathematiques,
on se donne une famille Y1 , . . . , Yn de variables aleatoires independantes de loi uniforme
sur {1, . . . , N} (ce sont les individus de notre echantillon). La valeur du param`etre pour
lindividu Yj est Xj = a(Yj ). Les v.a. X1 , . . . , Xn sont evidemment independantes et de
meme loi. De plus, cette loi est
N
1 X
PX1 (A) = P (a(Y1) A) = 1A (a(i)) = (A).
N i=1
est proche de PX1 quand n . Le theor`eme suivant apporte une reponse `a cette question.
137
Th eor` eme 10.4.1 Soit (Xn )n1 une suite de variables aleatoires independantes et de meme
loi, `a valeurs dans Rd . Pour tout et tout n 1, soit n, la mesure de probabilite sur
Rd definie par
n
1X
n, = X () .
n i=1 i
Alors, p.s.,
(e)
n, PX1 .
n
Puisque H est denombrable, quitte `a ecarter une reunion denombrable densembles de prob-
abilite nulle, on obtient
Z Z
p.s. H, dn, dPX1 .
n
Dapr`es une proposition du paragraphe precedent, cela suffit pour dire que p.s. n, converge
etroitement vers PX1 .
10.4.2 Le th
eor`
eme central limite
Soit (Xn )n1 une suite de variables aleatoires reelles independantes et de meme loi, dans L1 .
La loi forte des grands nombres montre que
1 p.s.
(X1 + + Xn ) E[X1 ].
n n
On cherche alors `a savoir `a quelle vitesse cette convergence a lieu, cest-`a-dire quel est lordre
de grandeur de la difference
1
(X1 + + Xn ) E[X1 ]
n
138
quand n est grand.
Sous lhypoth`ese supplementaire que les variables Xi sont dans L2 , on devine la reponse
en calculant, comme dans la preuve de la loi faible des grands nombres,
Ce calcul indique que la valeur moyenne de (X1 + + Xn n E[X1 ])2 crot lineairement
avec n, donc sugg`ere fortement que lordre de grandeur de X1 + + Xn
n E[X 1 ] est n,
1
ou encore que lordre de grandeur de n (X1 + + Xn ) E[X1 ] est 1/ n. Le theor`eme
central limite rend ceci plus precis.
1 (loi)
(X1 + + Xn n E[X1 ]) N (0, 2)
n n
1
Zn = (X1 + + Xn ).
n
o`
u, dans la seconde egalite, on a utilise le fait que les v.a. Xi sont independantes et de meme
loi. Dapr`es un resultat du Chapitre 8, on a
1 2 2
X1 () = 1 + iE[X1 ] 2E[X12 ] + o( 2 ) = 1 + o( 2 )
2 2
quand 0. Pour R fixe, on a donc aussi
2 2 1
X1 ( ) = 1 + o( )
n 2n n
139
quand n . En combinant avec ce qui prec`ede, on a pour tout R,
2 2 1 2 2
lim Zn () = lim (1 + o( ))n = exp( ) = U ().
n n 2n n 2
si U suit la loi N (0, 2). Le theor`eme de Levy permet maintenant de conclure que Zn
converge en loi vers U, ce qui est le resultat du theor`eme.
Cas particulier : Th eor`eme de de Moivre. On suppose que les Xn sont des variables
de Bernoulli de param`etre 21 (i.e. P (Xn = 1) = P (Xn = 0) = 21 ) independantes. Alors
Sn = X1 + + Xn suit une loi binomiale B(n, 12 ) :
P (Sn = k) = Cnk 2n .
Comme 2 = 1/4 dans ce cas particulier, le theor`eme entrane que, pour tous a < b,
r Z b
X 2 2
n
2 Cnk e2x dx.
n n a
2
+a nk n
2
+b n
Cette derni`ere convergence peut etre verifiee directement (avec certains efforts) `a laide de
la formule de Stirling. On montre en fait un resultat plus precis de la forme
r
n k 2 2 n
n 2 Cn = exp( (k )2 ) + o(1)
n 2
1 p.s.
(X1 + + Xn ) E[X1 ],
n n
140
Definition 10.4.1 Soit C une matrice d d `a coefficients reels, symetrique positive. Une
v.a. X `a valeurs dans Rd , de carre integrable, est appelee vecteur gaussien centre de covari-
ance C si
1
Rd , X () = E[eiX ] = exp( t C).
2
On dit aussi que X suit la loi N (0, C).
Remarque. Soit a Rd . On dit plus generalement que X suit la loi N (a, C) si X a suit
la loi N (0, C).
On a vu dans le Chapitre 8 que si X = (X 1 , . . . , X d ) est une v.a. `a valeurs dans Rd et
de carre integrable, on a le developpement limite
d
X d d
1 XX
X () = 1 + i j E[X j ] j k E[X j X k ] + o(| 2|)
j=1
2 j=1 k=1
Proposition 10.4.3 Soit C une matrice symetrique positive. Il existe un vecteur gaussien
centre de covariance C.
Preuve. Rappelons dabord (voir la fin du Chapitre 9) quune combinaison lineaire de v.a.
gaussiennes independantes
est encore gaussienne.
On pose A = C de sorte que A est une matrice symetrique positive et A2 = C. Soient
ensuite Y 1 , . . . , Y d d v.a. reelles independantes de loi N (0, 1). Soit Y la v.a. `a valeurs dans
Rd dont les coordonnees sont Y 1 , . . . , Y d . Alors, X = AY suit la loi N (0, C). Pour le voir,
considerons Rd et observons que X est une combinaison lineaire des v.a. Y 1 , . . . , Y d ,
et est donc une v.a. gaussienne centree. Precisement, X suit la loi N (0, 2) avec
2 u2 u2
E[eiu X ] = exp( ) = exp( t C)
2 2
et en prenant u = 1 on a le resultat voulu.
Remarques. (i) Avec les notations de la preuve ci-dessus, Y suit la loi N (0, Id).
(ii) Une v.a. X `a valeurs dans Rd est un vecteur gaussien centre si et seulement si toute
combinaison lineaire de ses composantes est gaussienne centree : en effet on a alors E[eiX ] =
exp( 21 E[( X)2 ]) = exp( 21 t KX ).
Exercice. Soit X un vecteur gaussien centre. Montrer que X a une densite si et seulement
si KX est non degeneree, et calculer alors la densite de X.
141
Theor`eme 10.4.4 (Th eor`
eme central limite vectoriel) Soit (Xn )n1 est une suite de
variables aleatoires independantes de meme loi `a valeurs dans Rd , de carre integrable. Alors,
1 (loi)
(X1 + + Xn n E[X1 ]) N (0, KX1 )
n n
Preuve. Cest la meme que dans le cas reel. On peut supposer E[X1 ] = 0. Ensuite, pour
tout Rd ,
h X1 + + Xn i h in
E exp i ( ) = E exp i X1 = X1 ( )n .
n n n
On conclut que
h X1 + + Xn i 1
lim E exp i ( ) = exp( t KX1 ),
n n 2
do`
u le resultat grace au theor`eme de Levy.
142
Chapitre 11
Conditionnement
P (A B)
P (A | B) = .
P (B)
143
denombrable. Soit E = {y E : P (Y = y) > 0}. Pour tout y E , et pour toute v.a.
X L1 (, A, P ), on peut definir, comme cas particulier de ce qui prec`ede,
E[X 1{Y =y} ]
E[X | Y = y] = .
P (Y = y)
E[X | Y ] = (Y ),
Remarque. Le choix de la valeur de sur E\E est arbitraire : de toute facon ce choix
ninfluence la definition de E[X | Y ] que sur un ensemble de probabilite nulle, puisque
X
P (Y E\E ) = P (Y = y) = 0.
yE\E
On pourrait changer la definition de sur E\E et cela donnerait la meme v.a. E[X | Y ] `a
un ensemble de mesure nulle pr`es. Dans les situations plus generales que nous rencontrerons
plus tard, les esperances conditionnelles (sachant une v.a. ou une tribu) seront toujours
definies `a un ensemble de probabilite nulle pr`es.
En comparant avec le conditionnement par rapport `a un evenement, on observe que
lesperance conditionnelle E[X | Y ] est maintenant une variable aleatoire : cest la v.a. qui
donne la valeur moyenne de X quand on connait Y : p.s.,
Remarquons aussi que E[X | Y ] est une fonction de Y donc une v.a. (Y )-mesurable. Dans
un sens qui sera precise plus loin, cest la meilleure approximation de X par une fonction de
Y.
1
Exemple. Lancer dun de. On prend = {1, 2, . . . , 6} et P ({}) = 6
pour tout .
Soient
1 si est impair,
Y () =
0 si est pair,
et X() = . Alors,
3 si {1, 3, 5},
E[X | Y ]() =
4 si {2, 4, 6}.
144
Preuve. Dapr`es la definition de lesperance conditionnelle E[X | Y ], on a
X |E[X 1{Y =y} ]| X
E[|E[X | Y ]|] = P (Y = y) E[|X| 1{Y =y} ] = E[|X|].
P (Y = y)
yE yE
Pour la derni`ere assertion, on utilise le fait quon peut ecrire Z = (Y ), avec une fonction
bornee. Alors,
X X
E[(Y ) E[X | Y ]] = (y) E[X 1{Y =y} ] = E[(Y )X 1{Y =y} ] = E[(Y )X].
yE yE
equence. Si Y est une autre v.a. discr`ete telle que (Y ) = (Y ), on a
Cons
En effet, en appliquant la proposition avec Z = 1{E[X|Y ]>E[X|Y ]} , qui est bien mesurable pour
(Y ) = (Y ) puisque E[X | Y ] et E[X | Y ] le sont, on trouve
do`u E[X | Y ] E[X | Y ] p.s., et on obtient de meme lautre inegalite. Cela montre aussi que
la derni`ere propriete de la proposition caracterise E[X | Y ] parmi les v.a. (Y )-mesurables
et integrables.
Lobservation precedente conduit `a dire que la bonne notion de conditionnement est
la notion de conditionnement par rapport `a une tribu. Cest cette notion que nous allons
developper dans les paragraphes suivants en nous basant sur la propriete de la proposition
ci-dessus.
11.2 La d
efinition de lesp
erance conditionnelle
11.2.1 Cas des variables int
egrables
Th eor`
eme et d efinition 11.2.1 Soit B une sous-tribu de A, et soit X L1 (, A, P ). Il
existe alors une unique variable aleatoire dans L1 (, B, P ), notee E[X | B], telle que
Si X 0 on a aussi E[X | B] 0.
Le point crucial est le fait que E[X | B] est mesurable pour la tribu B. Lune ou lautre
des proprietes (11.1) et (11.2) caracterise lesperance conditionnelle E[X | B] dans la classe
145
des v.a. de L1 (, B, P ). Dans la suite nous ferons reference `a lune ou lautre comme `a la
propriete caracteristique de lesperance conditionnelle.
Dans le cas particulier o` u la tribu B est engendree par une variable aleatoire Y , on ecrira
indifferemment
E[X | B] = E[X | (Y )] = E[X | Y ].
Cette notation est coherente avec le cas discret traite dans la partie precedente : comparer
(11.2) et la proposition ci-dessus.
Preuve. Commencons par lunicite. Soient X et X deux v.a. dans L1 (, B, P ) telles que
B B , e 1B ].
E[X 1B ] = Q(B) = E[X
146
(c) E[E[X | B]] = E[X].
E[X | B] + E[X | B]
|E[X | B]| = |E[X + | B] E[X | B]| E[X + | B]] + E[X | B] = E[|X| | B].
definit une variable aleatoire `a valeurs dans [0, ], qui est caracterisee (`a un ensemble de
probabilite nulle pr`es) par la propriete suivante : pour toute variable aleatoire Z B-mesurable
positive,
E[XZ] = E[E[X | B]Z]. (11.3)
E[E[X | B]Z] = lim E[E[X n | B](Z n)] = lim E[(X n)(Z n)] = E[XZ].
n n
Z = 1{X a<bX }
147
u on a fixe a, b Q+ , avec a < b. Il vient
o`
a P (X a < b X ) b P (X a < b X )
Propri
et
es.
(e) Soit (Xn ) une suite de v.a. integrables convergeant p.s. vers X. Supposons quil existe
une v.a. positive Z telle que |Xn | Z p.s. pour tout n, et E[Z] < . Alors,
148
Remarque. La mention p.s. devrait figurer dans chaque enonce impliquant une esperance
conditionnelle, puisque celle-ci nest definie qu`a un ensemble de probabilite nulle pr`es. Le
plus souvent cependant, cette mention est sous-entendue, comme dans (a),(b) et (f) ci-dessus.
Preuve. (a) et (b) sont faciles en utilisant la caracterisation de E[X | B] donnee dans le
theor`eme.
(c) Il decoule de (a) que si X1 X2 0 on a E[X1 | B] E[X2 | B]. Sous les hypoth`eses
de (c), on peut donc poser X = lim E[Xn | B], qui est une v.a. B-mesurable `a valeurs dans
[0, ]. On a alors, pour toute v.a. Z B-mesurable positive,
E[ZX ] = lim E[Z E[Xn | B]] = lim E[Z Xn ] = E[ZX]
ce qui dapr`es la caracterisation du theor`eme entrane X = E[X | B].
(d) On ecrit, en utilisant (c),
h i
E[lim inf Xn | B] = E lim inf Xn B
k nk
h i
= lim E inf Xn B
k nk
lim inf E[Xn | B]
k nk
= lim inf E[Xn | B].
(e) Il suffit dappliquer (d) deux fois :
E[lim inf(Z Xn ) | B] E[Z | B] lim sup E[Xn | B]
E[lim inf(Z + Xn ) | B] E[Z | B] + lim inf E[Xn | B]
ce qui conduit `a
E[X | B] lim inf E[Xn | B] lim sup E[Xn | B] E[X | B],
u la convergence p.s. recherchee. La convergence L1 est maintenant une consequence
do`
du theor`eme de convergence dominee, puisque |E[Xn | B]| E[|Xn | | B] E[Z | B] et
E[E[Z | B]] = E[Z] < .
(f) Notons
Ef = {(a, b) R2 : x R, f (x) ax + b}.
Alors, il est facile de verifier que
x R2 , f (x) = sup (ax + b) = sup (ax + b).
(a,b)Ef (a,b)Ef Q2
Remarque. Par analogie avec la formule P (A) = E[1A ], on ecrira souvent pour A A,
P (A | B) := E[1A | B].
Prendre garde cependant que P (A | B) ainsi definie est une variable aleatoire.
149
11.2.3 Le cas particulier des variables de carr
e int
egrable
Dans le cas o` u X est de carre integrable, il existe une autre interpretation remarquable de
E[X | B]. Avant denoncer le resultat, observons que L2 (, B, P ) sidentifie `a un sous-espace
ferme de L2 (, A, P ), `a savoir lespace des elements de L2 (, A, P ) dont un representant au
moins est B-mesurable.
Theor` eme 11.2.3 Si X L2 (, A, P ), alors E[X | B] est la projection orthogonale de X
sur L2 (, B, P ).
Preuve. La propriete (f) ci-dessus montre que E[X | B]2 E[X 2 | B] p.s. Cela entrane que
E[E[X | B]2 ] E[X 2 ] < , et donc la v.a. E[X | B] est dans L2 (, B, P ).
Par ailleurs, pour toute v.a. Z B-mesurable bornee,
E[Z(X E[X | B])] = E[ZX] E[ZE[X | B]] = 0,
toujours dapr`es la propriete caracteristique de E[X | B]. Donc X E[X | B] est orthogonal
`a toutes les v.a. bornees B-mesurables, et par un argument de densite, X E[X | B] est
orthogonal `a L2 (, B, P ). Le resultat annonce en decoule.
On peut utiliser le theor`eme precedent pour donner une autre construction de lesperance
conditionnelle, evitant le recours au theor`eme de Radon-Nikodym, en commencant par le
cas des v.a. de carre integrable. Observons aussi que ce theor`eme donne une interpretation
interessante de lesperance conditionnelle : si X est de carre integrable, E[X | B] est la
meilleure (au sens de la norme L2 ) approximation de X par une v.a. B-mesurable.
11.3 Propri
et
es sp
ecifiques de lesp
erance condition-
nelle
Les proprietes etablies ci-dessus sont analogues aux proprietes de lesperance (ou de lintegrale
de fonctions mesurables). Nous etablissons dans ce paragraphe des proprietes plus parti-
culi`eres `a lesperance conditionnelle.
Proposition 11.3.1 Soit X une variable aleatoire reelle, et soit Y une variable aleatoire
B-mesurable. Alors,
E[Y X | B] = Y E[X | B]
d`es que les esperances conditionnelles sont bien definies, cest-`a-dire si X et Y sont positives,
ou si X et Y X L1 .
Preuve. Supposons X 0 et Y 0. Alors, pour toute v.a. Z B-mesurable positive,
E[Z(Y E[X | B])] = E[(ZY )E[X | B]] = E[ZY X].
Puisque Y E[X | B] est une v.a. B-mesurable positive, cette egalite suffit pour conclure que
Y E[X | B] = E[Y X | B].
Dans le cas o`u X et Y X sont integrables, on obtient le resultat en decomposant X =
X + X et Y = Y + Y .
150
Proposition 11.3.2 Soient B1 et B2 deux sous-tribus de A telles que B1 B2 . Alors, pour
toute variable aleatoire X positive ou integrable,
E[E[X | B2 ] | B1 ] = E[X | B1 ].
Remarque. On a aussi E[E[X | B1 ] | B2 ] = E[X | B1 ] sous les memes hypoth`eses, mais cela
est evident puisque E[X | B1 ] est B2 -mesurable.
Preuve. Traitons le cas o` u X 0. Soit Z une v.a. B1 -mesurable positive. Alors, puisque
Z est aussi B2 -mesurable,
E[X | B1 ] = E[X].
Preuve. Supposons dabord que B1 et B2 sont independantes. Alors, si X est une v.a.
B2 -mesurable positive, on a pour toute v.a. Z B1 -mesurable positive,
E[h(X) | Y ] = E[h(X)]
pour toute fonction borelienne h telle que E[|h(X)|] < (rappelons que E[h(X) | Y ] =
E[h(X) | (Y )]). Si X est integrable on a donc en particulier
E[X | Y ] = E[X].
151
Cependant cette derni`ere propriete seule ne suffit pas pour donner lindependance de X et
Y . Pour sen convaincre, il suffit de traiter le cas o`u X suit une loi N (0, 1), et Y = |X|.
Alors, toute v.a. Z (Y )-mesurable bornee secrit Z = g(Y ), avec une fonction g bornee, et
donc Z
1 2
E[ZX] = E[g(|X|)X] = dy ey /2 g(|y|)y = 0,
2
ce qui montre que E[X | Y ] = 0 = E[X], alors que X et Y ne sont bien s ur pas independantes.
Nous enoncons maintenant un autre theor`eme reliant esperance conditionnelle et indepen-
dance, qui est tr`es souvent utile pour les calculs explicites desperance conditionnelle.
Th eor`
eme 11.3.4 Soient X et Y deux variables aleatoires `a valeurs respectivement dans
les espaces mesurables E et F . Supposons que X est independante de B et que Y est B-
mesurable. Alors, pour toute fonction mesurable g : E F R+ ,
Z
E[g(X, Y ) | B] = g(x, Y ) PX (dx),
o`u PX designe la loi deRX. Le terme de droite est la composee de la variable aleatoire Y par
lapplication : y g(x, y) PX (dx) ( est mesurable grace au theor`eme de Fubini).
Notons P(X,Y,Z) la loi du triplet (X, Y, Z), qui est une mesure de probabilite sur E F R+ .
Comme X est independante de (Y, Z), on a
P(X,Y,Z) = PX P(Y,Z)
152
11.4 Calculs desp
erance conditionnelle
11.4.1 Conditionnement discret
Soit Y une v.a. `a valeurs dans un espace denombrable E, et soit X L1 (, A, P ). Alors on
a dej`a vu que
E[X | Y ] = (Y )
o`
u
E[X 1{Y =y} ]
(y) =
P (Y = y)
pour tout y E tel que P (Y = y) > 0 (et (y) peut etre choisie de mani`ere arbitraire
lorsque P (Y = y) = 0).
153
(la valeur de (y) lorsque q(y) = 0 est arbitraire : le choix de la valeur h(0) sera commode
dans lenonce qui suit). Dans le calcul quiR prec`ede, on a utilise implicitement le fait que si
q(y) = 0 on a p(x, y) = 0 dx p.p., et donc h(x) p(x, y) dx = 0.
Il decoule du calcul ci-dessus et de la caracterisation de lesperance conditionnelle que
E[h(X) | Y ] = (Y ).
Proposition 11.4.1 Pour tout y Rn , soit (y, dx) la mesure de probabilite sur Rm definie
par 1
p(x, y) dx si q(y) > 0,
(y, dx) = q(y)
0 (dx) si q(y) = 0.
Alors, pour toute fonction h : Rm R+ borelienne,
Z
E[h(X) | Y ] = (Y, dx) h(x).
et on dit que (y, dx) est la loi conditionnelle de X sachant que Y = y. La fonction
p(x, y)
x
q(y)
E[X | Y1, . . . , Yp ]
154
Par ailleurs, nous avons aussi etudie, dans le Chapitre 8, la meilleure approximation de
X par une fonction affine de Y1 , . . . , Yp , qui est la projection orthogonale de X sur lespace
vectoriel (de dimension finie) engendre par 1, Y1 , . . . , Yp . En general cette derni`ere projection
est tr`es differente de lesperance conditionnelle E[X | Y1 , . . . , Yp ] qui fournit une bien meilleure
approximation de X. Nous allons cependant etudier une situation o` u les deux concident, ce
qui a lenorme avantage de ramener les calculs desperance conditionnelle `a des projections
en dimension finie.
Nous avons vu dans le Chapitre 10 quune v.a. Z = (Z1 , . . . , Zk ) `a valeurs dans Rk est un
vecteur gaussien centre si toute combinaison lineaire de Z1 , . . . , Zk est gaussienne centree, ce
qui equivaut encore `a
1t
Rk , E[exp(i Z)] = exp( KZ ).
2
Cest par exemple le cas si les composantes Z1 , . . . , Zk sont des v.a. gaussiennes independantes.
Preuve. Il suffit de montrer que, sous la condition (11.4), (X1 , . . . , Xm ) est independant de
(Y1, . . . , Yn ) (linverse est toujours vrai). Or, pour = (1 , . . . , m , 1 , . . . , n ) Rn+m ,
1t
E[exp(i (X1 , . . . , Xm , Y1 , . . . , Yn ))] = exp( K(X1 ,...,Xm ,Y1 ,...,Yn ) )
2
et, sous la condition (11.4),
m
X n
X
t
K(X1 ,...,Xm ,Y1 ,...,Yn ) = j k cov(Xj , Xk ) + j k cov(Yj , Yk ).
j,k=1 j,k=1
Cela entrane
m
X n
X
E[exp(i (X1 , . . . , Xm , Y1 , . . . , Yn ))] = E[exp(i j Xj )] E[exp(i j Yj )],
j=1 j=1
soit encore
155
entrane dabord que Xn est independant de (X1 , . . . , Xn1 ), puis que Xn1 est independant
de (X1 , . . . , Xn2 ), etc., ce qui permet de conclure.
Plus generalement, si la matrice de covariance de (X1 , . . . , Xn ) est diagonale par blocs
de tailles respectives i1 , . . . , i (avec i1 + + i = n) les sous-vecteurs (X1 , . . . , Xi1 ),
(Xi1 +1 , . . . , Xi1 +i2 ), . . . , (Xi1 ++i1 +1 , . . . , Xn ) sont independants.
o`
u
n
X
2 = E[(X j Y j )2 ]
j=1
et pour tout m R,
1 (x m)2
qm,2 (x) = exp( )
2 2 2
est la densite de la loi N (m, 2 ).
P
Remarque. Le cas = 0 se produit si et seulement si X = nj=1 j Yj , et alors X est
mesurable par rapport `a (Y1 , . . . , Yn ), de sorte que la deuxi`eme formule du theor`eme doit
sinterpreter comme E[h(X) | Y1 , . . . , Yn ] = h(X). Nous ecartons ce cas trivial dans la preuve
qui suit.
Preuve. Soit X b = Pn j Yj la projection orthogonale de X sur lespace vectoriel engendre
j=1
par Y1 , . . . , Yn . Alors, pour tout j {1, . . . , n},
b Yj ) = E[(X X)Y
cov(X X, b j] = 0
On a utilise le fait que X b est mesurable par rapport `a (Y1 , . . . , Yn ), puis lindependance de
de X Xb et de (Y1 , . . . , Yn ) qui entrane E[X X
b | Y1 , . . . , Yn ] = E[X X]
b = 0.
156
Pour la derni`ere assertion, notons Z = X X, b de sorte que Z est independante de
(Y1, . . . , Yn ) et suit la loi N (0, ) (Z est gaussienne centree et par definition 2 = E[Z 2 ]).
2
11.5 Probabilit
es de transition et lois conditionnelles
Les calculs precedents desperance conditionnelle peuvent etre reenonces de mani`ere plus
agreable `a laide de la notion de probabilite de transition.
Definition 11.5.1 Soient (E, E) et (F, F ) deux espaces mesurables. On appelle probabilite
de transition (ou parfois noyau de transition) de E dans F une application
: E F [0, 1]
(i) pour tout x E, (x, ) est une mesure de probabilite sur (F, F );
De mani`ere intuitive, `a chaque fois que lon fixe un point x du premier espace E, la
mesure de probabilite (x, ) donne le moyen de choisir de mani`ere aleatoire un point y du
deuxi`eme espace F . Dans la theorie des chanes de Markov, sur laquelle nous reviendrons,
on etudie levolution au cours du temps dun phenom`ene aleatoire dans lequel letat y `a
linstant n + 1 depend de letat x `a linstant n, et dautres param`etres aleatoires non connus
`a linstant n : la loi de letat `a linstant n + 1 connaissant letat `a linstant n est alors fournie
par une probabilite de transition (x, dy).
Exemple. Soit une mesure positive -finie sur (F, F ), et soit f : E F R+ une
application mesurable telle que
Z
f (x, y) (dy) = 1 , x E.
F
Alors Z
(x, A) = f (x, y) (dy)
A
157
Proposition 11.5.1 (i) Si h est une fonction mesurable positive (ou bornee) sur (F, F ),
alors Z
(x) := (x, dy) h(y) , x E
La verification de ces proprietes est facile. Dans (i), on suppose dabord h etagee, puis
on utilise un passage `a la limite croissant.
Nous en venons maintenant au lien entre la notion de probabilite de transition et lesperance
conditionnelle.
P (Y A | X) = (X, A) , p.s.
Il est tentant de remplacer cette egalite de variables aleatoires par legalite de nombres reels
P (Y A | X = x) = (x, A),
158
Supposons que lespace mesurable (F, F ) soit tel quune mesure de probabilite sur (F, F )
soit caracterisee par ses valeurs sur une famille denombrable densembles mesurables (cest le
cas pour (Rd , B(Rd )), en considerant les paves `a coordonnees rationnelles). Alors on conclut
que
(x, ) = (x, ) , PX (dx) p.s.
Il y a donc unicite en ce sens (et clairement on ne peut pas esperer mieux). Par abus de
langage on parlera cependant souvent de la loi conditionnelle de Y sachant X.
Considerons maintenant le probl`eme de lexistence de lois conditionnelles.
Th eor`eme 11.5.2 Supposons que (E, E) et (F, F ) soient des espaces metriques complets
separables munis de leur tribu borelienne. Alors il existe toujours une loi conditionnelle de
Y sachant X.
Nous ne demontrerons pas ce theor`eme qui est un resultat assez difficile de theorie de la
mesure. Dans la suite de ce cours, nous naurons de toute facon pas besoin du Theor`eme
11.5.2, car une construction directe permet deviter le recours au theor`eme dexistence. Pour
illustrer cela reprenons les exemples traites dans la partie precedente (attention les roles de
X et Y sont intervertis).
(1) Si X est une v.a. discr`ete, cest-`a-dire si E est denombrable, alors on peut definir (x, A)
par
(x, A) = P (Y A | X = x) si x E := {a E : P (X = a) > 0)
(x, A) = y0 (A) / E
si x
o`
u y0 est un point fixe de F , dont le choix est arbitraire.
(2) Supposons que X et Y sont `a valeurs respectivement dans Rm et dans Rn et que le couple
(X, Y ) a pour densite p(x, y), (x, y) Rm Rn . La densite de X est alors
Z
q(x) = p(x, y) dy.
Rn
La Proposition 11.4.1 montre quon peut definir la loi conditionnelle de Y sachant X par
Z
1
(x, A) = dy p(x, y) si q(x) > 0
q(x) A
(x, A) = 0 (A) si q(x) = 0.
(3) Supposons enfin que (X1 , . . . , Xn , Y ) soit un vecteur gaussien centre, et notons
n
X
j Xj
j=1
159
Le Theor`eme 11.4.3 montre que la loi conditionnelle de Y sachant X = (X1 , . . . , Xn ) est
Z
(x1 , . . . , xn ; A) = qPnj=1 j xj ,2 (y) dy
A
u qm,2 est la densite de la loi gaussienne N (m, 2 ). DePmani`ere leg`erement abusive on dit
o`
que conditionnellement `a (X1 , . . . , Xn ), Y suit la loi N ( nj=1 j Xj , 2 ).
160
Partie III
Processus al
eatoires
161
Chapitre 12
12.1 D
efinitions et exemples
On se place sur un espace de probabilite (, F , P ). Par definition un processus aleatoire est
une suite (Xn )nN de variables aleatoires definies sur (, F , P ). Dans ce chapitre, tous les
processus aleatoires seront `a valeurs reelles.
Definition 12.1.1 Une filtration de (, F , P ) est une suite croissante (Fn )nN de sous-
tribus de F . On a donc
F0 F1 F2 F
On dit aussi que (, F , (Fn )nN , P ) est un espace de probabilite filtre.
FnX = (X0 , X1 , . . . , Xn ).
Alors (FnX )nN est une filtration appelee filtration canonique du processus aleatoire (Xn )nN .
(b) Supposons que = [0, 1[, F est la tribu borelienne sur [0, 1[, et P est la mesure de
Lebesgue. Posons
i1 i
Fn = ([ n , n [; i = 1, 2, . . . , 2n ).
2 2
Alors (Fn )nN est une filtration appelee filtration dyadique de [0, 1[.
Definition 12.1.2 Un processus (Xn )nN est dit adapte `a la filtration (Fn )nN si pour tout
n N, Xn est mesurable par rapport `a la tribu Fn .
163
La filtration canonique est par construction la plus petite filtration qui rende le processus
adapte.
Dans toute la suite du chapitre (`a lexception de la partie 6), on fixe un espace de
probabilite filtre (, F , (Fn )nN , P ), dont le choix sera parfois precise dans les exemples. Les
notions qui suivent sont bien entendu relatives `a cet espace.
efinition 12.1.3 Soit (Xn )nN un processus adapte, tel que E[|Xn |] < pour tout n N.
D
On dit que le processus (Xn )nN est:
une martingale si, pour tout n N,
E[Xn+1 | Fn ] = Xn ;
E[Xn+1 | Fn ] Xn ;
E[Xn+1 | Fn ] Xn .
E[Xm | Fn ] = Xn (12.1)
Cela est facile `a verifier par recurrence sur la valeur de m n : si m = n, la propriete est
triviale, si m = n + 1, cest la definition, et si m n 2, une propriete bien connue des
esperance conditionnelles donne
164
Exemples. (i) Si X L1 (, F , P ) on pose
Xn = E[X | Fn ].
X0 = x et Xn = x + Y1 + Y2 + . . . + Yn si n 1.
F0 = {, } et Fn = (Y1 , . . . , Yn ) si n 1
(cest en fait la filtration canonique de (Xn )nN ). Alors (Xn )nN est
165
Alors (fn )nN est une martingale : si A Fn ,
Z Z
E[1A fn+1 ] = 1A () fn+1() d = (A) = 1A () fn () d = E[1A fn ],
fn = E[f | Fn ],
o`
u f est la derivee de Radon-Nikodym de par rapport `a .
Proposition 12.1.1 Soit : R R+ une fonction convexe, et soit (Xn )nN un processus
adapte, tel que E[(Xn )] < pour tout n N.
(ii) Si (Xn ) est une sous-martingale et si est croissante, ((Xn )) est une sous-martingale.
En particulier, si Xn est une martingale, |Xn | est une sous-martingale (ainsi que Xn2 si
E[Xn2 ] < pour tout n) et si Xn est une sous-martingale, Xn+ est encore une sous-martingale.
Preuve. (i) Dapr`es linegalite de Jensen pour les esperances conditionnelles,
efinition 12.1.4 Une famille (Hn )n1 de v.a. reelles est dite previsible si, pour tout n 1,
D
Hn est bornee et Fn1 -mesurable.
Proposition 12.1.2 Soit (Xn )nN un processus adapte, et (Hn )n1 une famille previsible.
On pose (H X)0 = 0 et pour tout entier n 1,
Alors,
(i) Si (Xn ) est une martingale, ((H X)n ) est aussi une martingale.
(ii) Si (Xn ) est une surmartingale (resp. une sous-martingale), et si Hn 0 pour tout
n 1, ((H X)n ) est une surmartingale (resp. une sous-martingale).
166
Preuve. (i) Puisque les v.a. Hn sont bornees, il est facile de verifier que les v.a. (H X)n
sont integrables. De plus le processus ((H X)n ) est adapte par construction. Il suffit ensuite
de verifier que, pour tout n N,
{T = n} Fn .
Il est tr`es facile de voir que cela est equivalent `a imposer que pour tout n N on a
{T n} Fn . Dans la suite nous utiliserons indifferemment lune ou lautre definition.
Il est important de noter que la valeur + est autorisee. En ecrivant
[
{T = +} = \ {T = n}
nN
on voit que {T = +} F , o`
u
_ [
F = Fn = Fn .
nN nN
En revenant `a linterpretation en termes de jeu, les temps darret sont les instants
aleatoires auxquels on peut decider de sarreter : le point-cle est que pour decider de sarreter
`a linstant n, on na `a sa disposition que linformation acquise `a cet instant, cest-`a-dire les
evenements de Fn . Pour prendre une image tiree de la Bourse, il est impossible de decider
de vendre ses actions au moment o` u elles vont etre `a leur cours maximum de lannee (cela
demanderait de connatre le futur `a cet instant !).
Exemples. (i) Si k N, le temps constant T = k est evidemment un temps darret.
(ii) Si (Yn )nN est un processus adapte, et si A est un borelien de R,
TA := inf{n N : Yn A}
167
est un temps darret, appele temps dentree dans A. En effet, pour tout entier n 0,
{TA = n} = {Y0
/ A, Y1
/ A, . . . , Yn1
/ A, Yn A} Fn .
Proposition 12.2.1 (i) Si S et T sont deux temps darret, S T et S T sont aussi des
temps darret.
(ii) Si (Tk )kN est une suite de temps darret, alors inf(Tk ), sup(Tk ), lim sup(Tk ) et lim inf(Tk )
sont aussi des temps darret.
D
efinition 12.2.2 Soit T un temps darret. La tribu du passe jusqu`a linstant T est
FT = {A F : n N, A {T = n} Fn }.
Proposition 12.2.3 Soit (Yn )nN un processus adapte, et soit T un temps darret. Alors la
v.a. 1{T <} YT definie par
Yn () si T () = n N
1{T <} YT () =
0 si T () = +
est FT -mesurable.
168
Preuve. Soit B un borelien de R. Alors, pour tout n N,
Theor`eme 12.2.4 (Th eor`eme darr et) Soit (Xn )nN une martingale (resp. une surmartin-
gale) et soit T un temps darret. Alors (XnT )nN est aussi une martingale (resp. une
surmartingale). En particulier, si le temps darret T est borne, on a XT L1 , et
XnT = X0 + (H X)n
169
tous les reels a < b on introduit deux suites de temps Sk () et Tk () appartenant `a N, qui
sont definies de la mani`ere suivante : on pose
S1 () = inf{n 0 : n a}
T1 () = inf{n S1 () : n b}
Sk+1 () = inf{n Tk () : n a}
Tk+1 () = inf{n Sk+1 () : n b}.
Bien entendu, on utilise toujours la convention inf = + dans ces definitions. On pose
ensuite pour tout entier n,
X
Nn ([a, b], ) = 1{Tk ()n} ,
k=1
X
N ([a, b], ) = 1{Tk ()<} .
k=1
La quantite N ([a, b], ) est le nombre de montees effectuees le long de lintervalle [a, b] par
la suite (n )nN . Nous utiliserons le lemme simple danalyse suivant.
Lemme 12.3.1 La suite (n )nN converge dans R ssi pour tout choix des rationnels a et b
tels que a < b, on a N ([a, b], ) < .
Considerons maintenant un processus adapte (Xn )nN . Alors les quantites Sk (X), Tk (X)
deviennent des v.a. `a valeurs dans N, et plus precisement il est facile de verifier que ce sont
des temps darret. En effet, on a par exemple
[
{Tk (X) n} = {Xm1 a, Xn1 b, . . . , Xmk a, Xnk b},
0m1 <n1 <<mk <nk n
Lemme 12.3.2 (In egalite des nombres de mont ees de Doob) Supposons que (Xn )nN
est une sous-martingale. Alors, pour tous les reels a < b et pour tout n N,
Preuve. On pose Yn = (Xn a)+ . Dapr`es la proposition 12.1.1, (Yn )nN est encore une
sous-martingale.
Pour alleger les notations posons Nn = Nn ([a, b], X), et ecrivons Sk , Tk au lieu de
Sk (X), Tk (X). Definissons alors une famille previsible (Hn )n1 en posant
X
Hn = 1{Sk <nTk } 1
k=1
170
(observer que levenement {Sk < n Tk } = {Sk n 1}\{Tk n 1} est dans Fn1 ,
parce que Sk et Tk sont des temps darret). Alors, on verifie facilement que
Nn
X Nn
X
(H Y )n = (YTk YSk ) + 1{SNn +1 <n} (Yn YSNn +1 ) (YTk YSk ) Nn (b a).
k=1 k=1
La premi`ere inegalite est vraie parce que YSNn +1 = 0 sur lensemble {SNn +1 < }, et Yn 0.
On a donc en particulier
E[(H Y )n ] (b a) E[Nn ].
Par ailleurs, si Kn = 1 Hn , (Kn )nN est une famille previsible positive, et la proposition
12.1.2 montre que (K Y ) est une sous-martingale, do` u E[(K Y )n ] E[(K.Y )0 ] = 0.
On observe ensuite que
(K Y )n + (H Y )n = ((K + H) Y )n = Yn Y0 ,
et donc
Th
eor`
eme 12.3.3 Soit (Xn )nN une sous-martingale telle que
Alors la suite Xn converge p.s. quand n . De plus sa limite X verifie E[|X |] < .
(b a) E[Nn ([a, b], X)] E[(Xn a)+ ] |a| + E[(Xn )+ ] |a| + sup E[(Xk )+ ].
kN
171
et donc N ([a, b], X) < p.s. Quitte `a ecarter une reunion denombrable densembles de
probabilite nulle, on obtient ainsi que p.s., pour tous les rationnels a < b, N ([a, b], X) < .
Dapr`es le lemme 12.3.1, cela suffit pour affirmer que p.s. la suite Xn converge dans R.
Ensuite, `a laide du lemme de Fatou, et de la remarque suivant lenonce, on a
Corollaire 12.3.4 Soit (Xn )nN une surmartingale positive. Alors Xn converge p.s. Sa
limite X est dans L1 et verifie Xn E[X | Fn ] pour tout n N.
Exemples. (1) Soit Yn = 1 + Z1 + + Zn une marche aleatoire simple (pile ou face) issue
de 1. On a vu que (Yn )nN est une martingale par rapport `a sa filtration canonique. Posons
ensuite
T = inf{n 0 : Yn = 0}.
Alors T est un temps darret. Du theor`eme 12.2.4 on deduit que Xn = YnT est une
martingale positive, `a laquelle on peut appliquer le corollaire. Donc Xn converge p.s. vers
X tel que X < . Puisque sur lensemble {T = } on a |Xn+1 Xn | = [Yn+1 Yn | = 1
pour tout n, cela nest possible que si T < p.s. Modulo un argument de symetrie
evident, cela demontre la propriete qui avait ete utilisee dans le dernier exemple de la partie
precedente.
Dans ce cas on a X = 0 p.s. et donc linegalite Xn E[X | Fn ] = 0 nest pas une
egalite, bien que la suite (Xn ) soit une martingale.
Cet exemple montre aussi que la convergence du corollaire (ou du theor`eme precedent)
na pas forcement lieu dans L1 : ici E[Xn ] = 1 pour tout n alors que E[X ] = 0.
(2) Processus de branchement. Soit une mesure de probabilite sur N, telle que
X
m= k (k) < .
k=1
X0 =
Xn
X
Xn+1 = n,j , n N.
j=1
172
La quantite Xn sinterpr`ete comme le nombre dindividus dans une population `a la generation
n, sachant que le nombre denfants de chaque individu suit la loi (et les nombres denfants
des differents individus sont des v.a. independantes).
Alors la suite mn Xn est une martingale relativement `a la filtration
F0 = {, }
Fn = (k,j : k < n, j N) , si n 1.
En effet, il est facile de voir que le processus (Xn ) est adapte (la definition de Xn ne fait
intervenir que les k,j pour k < n). Ensuite, pour tout n 0,
X
X
E[Xn+1 | Fn ] = E[ 1{jXn } n,j | Fn ] = 1{jXn } E[n,j | Fn ] = m Xn
j=1 j=1
et qualors Z > 0 p.s. sur lensemble de non-extinction. Nous verrons un resultat un peu
plus faible dans la partie 4 ci-dessous.
Si (Xn )nN est une martingale bornee dans L1 , on peut lui appliquer le theor`eme 12.3.3
et obtenir que Xn converge p.s. vers X . Les exemples precedents montrent quil ny a pas
necessairement convergence dans L1 . Le theor`eme suivant caracterise les martingales pour
lesquelles cest le cas.
173
Theor` eme 12.3.5 Soit (Xn )nN une martingale. Les deux conditions suivantes sont equiva-
lentes:
(i) Xn converge vers X p.s. et dans L1 .
Xn = E[Xm | Fn ] , m > n
Dapr`es le cas borne, la martingale E[Z 1{|Z|M } | Fn ] converge dans L1 . Donc on peut
choisir n0 assez grand pour que, pour tous m, n n0 ,
E[|Xm Xn |] < 3.
174
Un argument simple de classe monotone (cf Theor`eme 1.4.1) montre que legalite E[Z 1A ] =
[ [
E[X 1A ], vraie pour A Fn , reste vraie pour A Fn = F . Le resultat
n=1 n=1
recherche decoule ensuite de la propriete caracteristique de lesperance conditionnelle.
Exemple. Reprenons lexemple (iv) de la partie 1 : = [0, 1[, F est la tribu borelienne sur
[0, 1[, et P = est la mesure de Lebesgue. On consid`ere la filtration dyadique
i1 i
Fn = ([ , [; i = 1, 2, . . . , 2n ).
2n 2n
Soit une mesure finie sur [0, 1[, et pour tout entier n N,
2n
X ([(i 1)2n , i2n [)
d
fn () = () = 1[(i1)2n ,i2n [ ().
d |Fn i=1
2n
On a dej`a remarque que (fn )nN est une martingale (positive), et on a donc (Corollaire
12.3.4)
p.s.
fn f
n
R
avec f d < . De plus fn E[f | Fn ], ce qui montre que, pour tout A Fn ,
Z Z Z
(A) = fn 1A d E[f | Fn ]1A d = f 1A d.
En utilisant la densite dans L1 des fonctions continues `a support compact (cf Theor`eme
4.3.1), on verifie aisement que lespace des combinaisons lineaires `a coefficients positifs de
fonctions indicatrices dintervalles dyadiques est dense dans lespace L1+ ([0, 1[, ) des fonc-
tions -integrables positives, pour toute mesure finie sur [0, 1[. On deduit alors de linegalite
precedente que, pour toute fonction g mesurable positive bornee sur [0, 1[, on a
Z Z
g d gf d.
175
ce qui entrane
n o [
\
x [0, 1[: lim sup hn (x) < {hn } .
n
N =1 n=N
On obtient ainsi n o
x [0, 1[: lim sup hn (x) = 0 =0
n
et en comparant avec (12.4) on voit que et sont portees par des boreliens disjoints.
Finalement lecriture = f + est la decomposition de Lebesgue de la mesure
comme somme dune mesure absolument continue et dune mesure etrang`ere `a la mesure de
Lebesgue. De plus, est absolument continue par rapport `a ssi = 0 ce qui equivaut `a
dire que la martingale (fn ) est fermee.
Lemme 12.4.1 Soit (Xn )nN une sous-martingale, et soient S et T deux temps darret
bornes tels que S T . Alors
E[XS ] E[XT ].
(H X)N = XT XS
T = inf{n 0 : Xn a}.
176
Alors, si
A = { sup Xk a}
0kn
do`
u la premi`ere inegalite du theor`eme. La seconde est immediate.
Proposition 12.4.3 Soit p > 1 et soit (Xn )nN une sous-martingale positive. Posons
en = sup Xk .
X
0kn
Yn = sup |Yk |
0kn
on a pour tout n 0 :
p p
E[(Yn )p ] ( ) E[|Yn |p ].
p1
Preuve. La deuxi`eme partie de la proposition decoule de la premi`ere appliquee `a la sous-
martingale Xn = |Yn |. Pour la premi`ere partie, on peut supposer E[(Xn )p ] < , car sinon il
ny a rien `a montrer. Alors, linegalite de Jensen pour les esperances conditionelles montre
que, pour tout 0 k n, on a
on multiplie chaque membre de cette inegalite par ap2 et on int`egre par rapport `a la mesure
de Lebesgue da sur ]0, [. A gauche, il vient
Z hZ en
X i 1
p1
a en a) da = E
P (X e n )p ]
ap1 da = E[(X
0 0 p
177
en utilisant le theor`eme de Fubini. De meme, `a droite on a
Z h Z en
X i
p2 p2
a E[Xn 1{Xen a} ]da = E Xn a da
0 0
1 en )p1 ]
= E[Xn (X
p1
1 1 p1
e n )p ] p .
E[(Xn )p ] p E[(X
p1
dapr`es linegalite de Holder. Il vient donc
1 en )p ] 1 E[(Xn )p ] p1 E[(X
p1
e n )p ] p
E[(X
p p1
do` en )p ] < ).
u linegalite de la premi`ere partie de la proposition (on utilise le fait que E[(X
Si (Xn )nN est un processus aleatoire, on note
X = sup |Xn |.
nN
Th
eor`
eme 12.4.4 Soit (Xn )nN une martingale. Supposons quil existe p > 1 tel que
et on a
p p p
E[(X ) ]( ) E[|X |p ].
p1
Preuve. La martingale (Xn ) etant bornee dans L1 , on sait dej`a que Xn converge p.s. vers
X . De plus, la proposition 12.4.3 montre que, pour tout n N,
p p
E[(Xn )p ] ( ) sup E[|Xk |p ].
p 1 kN
En passant `a la limite croissante qund n , on a
p p p
E[(X ) ]( ) sup E[|Xk |p ] <
p 1 kN
et donc X Lp . Puisque toutes les v.a. |Xn | sont dominees par X
, le theor`eme de
p
convergence dominee montre que la suite Xn converge dans L vers X . Enfin, puisque la
suite E[|Xn |p ] est croissante (cf (12.5)) on a
178
Exemple. Revenons au processus de branchement (Xn )nN introduit dans la partie prece-
dente. On suppose que la loi de reproduction satisfait
X
m= k (k) ]1, [
k=0
et
X
k 2 (k) < .
k=0
P
On pose aussi 2 = var() = k 2 (k) m2 . On a vu que mn Xn est une martingale.
Verifions que cette martingale est bornee dans L2 . On calcule facilement
hX
i
2
E[Xn+1 | Fn ] = E 1{jXn ,kXn} n,j n,k | Fn
j,k=1
X
= 1{jXn ,kXn} E[n,j n,k ]
j,k=1
X
= 1{jXn ,kXn} (m2 + 2 1{j=k})
j,k=1
= m2 Xn2 + 2 Xn .
On a donc
2
E[Xn+1 ] = m2 E[Xn2 ] + 2 mn .
En posant an = m2n E[Xn2 ], on obtient
an+1 = an + 2 mn2
et puisque m > 1 la suite (an ) converge. En consequence, la martingale mn Xn est bornee
dans L2 . Dapr`es le theor`eme 12.4.4, cette martingale converge dans L2 vers Z. En partic-
ulier, E[Z] = E[X0 ] = et donc P (Z > 0) > 0 (il nest pas tr`es difficile de voir quon a en
fait Z > 0 p.s. sur lensemble de non-extinction de la population).
Il est immediat quune famille uniformement integrable est bornee dans L1 : il suffit de
choisir a assez grand pour que
sup E[|Xi |1{|Xi |>a} ] 1
iI
179
et decrire ensuite E[|Xi |] E[|Xi |1{|Xi |a} ] + E[|Xi |1{|Xi |>a} ] a + 1. La reciproque est
fausse : une famille bornee dans L1 nest pas necessairement u.i.
Exemples. (1) Une famille reduite `a un singleton est u.i. (cest une consequence sim-
ple du theor`eme de convergence dominee). Plus generalement, tout sous-ensemble fini de
L1 (, F , P ) est u.i.
(2) Si Z est une v.a. positive dans L1 (, F , P ), lensemble des v.a. X telles que |X| Z
est u.i. (il suffit en effet de majorer E[|X|1{|X|>a} ] E[Z1{Z>a} ] et dutiliser lexemple (1)).
(3) Soit : R+ R+ une fonction telle que x1 (x) + quand x +. Alors,
pour tout C > 0,
{X L1 (, F , P ) : E[(|X|)] C}
est u.i. En effet, il suffit decrire
x
E[|X|1{|X|>a} ] (sup ) E[(|X|)].
x>a (x)
(4) Si p > 1, tout sous-ensemble borne de Lp (, F , P ) est u.i. Cest le cas particulier de (3)
u (x) = xp .
o`
Le nom uniformement integrable est justifie par la proposition suivante.
Proposition 12.5.1 Soit (Xi )iI une famille bornee dans L1 . Il y a equivalence entre :
(i) La famille (Xi )iI est u.i.
(ii) Pour tout > 0, on peut choisir > 0 de facon que, pour tout evenement A F de
probabilite P (A) < , on ait
Preuve. (i)(ii) Soit > 0. On peut choisir a > 0 assez grand tel que
sup E[|Xi |1{|Xi |>a} ] < .
iI 2
Si on pose = /(2a), alors la condition P (A) < entrane que, pour tout i I,
E[|Xi |1A ] E[|Xi |1A{|Xi |a} ] + E[|Xi|1{|Xi |>a} ] aP (A) + < .
2
(ii)(i) Soit C = supiI E[|Xi |]. Dapr`es linegalite de Markov, pour tout a > 0,
C
i I, P (|Xi| > a) .
a
Soit > 0 et choisissons pour que la propriete de (ii) soit verifiee. Alors si a est assez
grand pour que C/a < , on a
do`
u luniforme integrabilite.
180
Corollaire 12.5.2 Soit X L1 (, F , P ). Alors la famille des esperances conditionnelles
E[X | G] quand G decrit toutes les sous-tribus de F est u.i.
Preuve. Soit > 0. Puisque le singleton {X} est u.i., la proposition precedente permet de
choisir > 0 tel que, pour tout A F avec P (A) < on ait
E[|X|1A ] .
Th
eor`eme 12.5.3 Soit (Xn )nN une suite de v.a. dans L1 qui converge en probabilite vers
X . Alors il y a equivalence entre :
181
(ii)(i) En utilisant la caracterisation de luniforme integrabilite fournie par la proposition
12.5.1(ii), on voit immediatement que la famille (Xn Xm )n,mN est aussi u.i. Donc, si > 0
est fixe, on peut choisir a assez grand pour que, pour tous m, n N,
E[|Xn Xm |]
E[|Xn Xm |1{|Xn Xm |}] + E[|Xn Xm |1{<|XnXm |a} ] + E[|Xn Xm |1{|Xn Xm |>a} ]
2 + a P (|Xn Xm | > ).
et puisque etait arbitraire, cela montre que la suite (Xn )nN est de Cauchy pour la norme
L1 .
Remarque. En consequence du theor`eme, si une suite (Xn )n converge en probabilite et
est bornee dans Lp pour une valeur p > 1, alors elle converge dans L1 , et meme dans Lq
pour tout q < p (appliquer le theor`eme `a |Xn X |q ).
Application aux martingales. En combinant le theor`eme precedent avec le theor`eme
12.3.5, on obtient que les trois conditions suivantes sont equivalentes pour une martingale
(Xn )nN :
(i) Xn converge vers X p.s. et dans L1 .
(iii) La martingale est fermee : il existe une v.a. Z L1 (, F , P ) telle que Xn = E[Z | Fn ]
pour tout n N.
Remarquons que (ii) decoule aussi de (iii) via le corollaire 12.5.2. En particulier toute
martingale uniformement integrable est fermee, et inversement. Rappelons que dans ce cas
on a Xn = E[X | Fn ] pour tout n.
Th eor`emes darr
et. Si (Xn )nN est un processus adapte qui converge p.s. vers X , on
definit XT pour tout temps darret T fini ou non en posant
X
XT = 1{T =n} Xn + 1{T =} X .
n=0
182
Theor`
eme 12.5.4 Soit (Xn )nN une martingale uniformement integrable. Alors, pour tout
temps darret T fini ou non,
XT = E[X | FT ],
et en particulier E[XT ] = E[X ] = E[Xn ] pour tout n N. Si S et T sont deux temps
darret tels que S T , on a
XS = E[XT | FS ].
Remarques. (i) Une consequence du theor`eme et du corollaire 12.5.2 est que la famille
{XT , T temps darret} est u.i.
(ii) Pour une martingale quelconque (Xn )nN , on peut appliquer le theor`eme, pour tout
entier N 0 fixe, `a la martingale arretee (XnN )nN qui est u.i. On retrouve ainsi certains
des resultats precedents.
Preuve. Verifions dabord que XT L1 :
X
E[|XT |] = E[1{T =n} |Xn |] + E[1{T =} |X |]
n=0
X
= E[1{T =n} |E[X | Fn ]|] + E[1{T =} |X |]
n=0
X
E[1{T =n} E[|X | | Fn ]] + E[1{T =} |X |]
n=0
X
= E[1{T =n} |X |] + E[1{T =} |X |]
n=0
= E[|X |] < .
De plus, si A FT ,
X
E[1A XT ] = E[1A{T =n} XT ]
nN{}
X
= E[1A{T =n} Xn ]
nN{}
X
= E[1A{T =n} X ]
nN{}
= E[1A X ].
Dans la premi`ere egalite on utilise le fait que XT L1 pour appliquer le theor`eme de Fubini et
echanger somme et integrale, et dans la troisi`eme egalite on utilise legalite Xn = E[X | Fn ]
et la propriete de definition A {T = n} Fn . Puisque XT est FT -mesurable, lidentite
precedente suffit `a montrer que XT = E[X | FT ].
Les autres assertions sont faciles : pour la derni`ere, linclusion FS FT entrane que
183
Theor`eme 12.5.5 Soit (Xn )nN une surmatingale. Supposons que lune des deux conditions
suivantes soit verifiee :
Alors, pour tout temps darret T , fini ou non, on a XT L1 . De plus, si S et T sont deux
temps darret tels que S T , on a :
Preuve. Traitons dabord le cas (i). On a vu que si le temps darret T est borne, on a
E[XT ] E[X0 ] (theor`eme 12.2.4). Le lemme de Fatou montre alors que pour un temps
darret quelconque,
E[XT ] lim inf E[XT k ] E[X0 ]
k
1
et donc XT L . Soient ensuite S et T deux temps darret tels que S T . Supposons
dabord que S et T sont bornes par lentier N. Alors le lemme 12.4.1 montre que E[XS ]
E[XT ]. Plus generalement, pour tout evenement A FS , on peut considerer le temps darret
A S() si A,
S () =
N si / A,
eS = 1{S<} XS et X
En notant X eT = 1{T <} XT on a donc, pour tout B FS ,
eS 1B ] E[X
E[X eT 1B ] = E[E[X
eT | FS ]1B ].
184
Traitons maintenant le cas (ii). Puisque (Xn )nN est u.i., (Xn )nN est bornee dans L1 , et
donc converge p.s. vers X . La convergence a aussi lieu dans L1 grace au theor`eme 12.5.3.
La convergence L1 permet de passer `a la limite m dans linegalite Xn E[Xn+m | Fn ],
et dobtenir, pour tout n N,
Xn E[X | Fn ].
Par ailleurs, le corollaire 12.3.6 montre que la martingale fermee Zn = E[X | Fn ] converge
p.s. vers X (noter que X est F -mesurable). Si on pose Yn = Xn Zn , (Yn )nN est
une surmartingale positive, telle que Y = 0. Du cas (i) (et du theor`eme 12.5.4) on deduit
dabord que XT = YT + ZT est dans L1 , puis que
YS E[YT | FS ]
(les fonctions indicatrices sont superflues puisque Y = 0). De plus, en appliquant le
theor`eme 12.5.4 `a la martingale u.i. Zn , on a aussi
ZS = E[ZT | FS ].
En combinant les deux relations obtenues on trouve bien
XS E[XT | FS ].
Exemple. Ruine du joueur. Considerons `a nouveau une marche aleatoire simple (pile ou
face) avec X0 = k 0. Soit m 1 un entier tel que 0 k m. On pose
T = inf{n 0 : Xn = 0 ou Xn = m}.
Il decoule dun exemple traite dans la partie 3 que T < p.s. La martingale Yn = XnT
est uniformement integrable, puisque bornee, et on a donc E[Y ] = E[Y0 ] = k, soit
m P (XT = m) = k
do`
u on deduit facilement que
k k
P (XT = m) = , P (XT = 0) = 1 .
m m
On peut generaliser au pile ou face biaise : on suppose que Xn = k + Y1 + . . . + Yn , o`
u les
v.a. Yi sont independantes et de meme loi
P (Y1 = 1) = p , P (Y1 = 1) = 1 p = q,
u p ]0, 1[\{ 12 }. Alors il est facile de verifier que
o`
q
Zn = ( )Xn
p
est une martingale. Si T est defini comme ci-dessus, le fait que la martingale ZnT converge
entrane que T < p.s. Ensuite en appliquant le theor`eme darret `a la martingale bornee
ZnT , on trouve
q h q i q
( )k = E ( )XT = ( )m P (XT = m) + P (XT = 0)
p p p
do`
u
( pq )k 1 ( pq )m ( pq )k
P (XT = m) = q m , P (XT = 0) = q m .
(p) 1 (p) 1
185
12.6 Martingales r
etrogrades
Une filtration retrograde est une famille (Fn )nN indexee par les entiers negatifs de sous-
tribus de F , telle que, pour tous m, n N,
n m Fn Fm .
On notera \
F = Fn
nN
qui est encore une sous-tribu de F . Remarquons que, `a la difference du cas direct etudie
precedemment, la tribu Fn devient de plus en plus petite quand n .
Un processus (Xn )nN indexe par les entiers negatifs est une martingale retrograde (resp.
une surmartingale retrograde, une sous-martingale retrograde) relativement `a la filtration
(Fn )nN si Xn est Fn -mesurable et E[|Xn |] < pour tout n N, et si, pour tous
m, n N,
n m Xn = E[Xm | Fn ] (resp. Xn E[Xm | Fn ], Xn E[Xm | Fn ]).
Th
eor`
eme 12.6.1 Soit (Xn )nN une surmartingale retrograde. Supposons que
sup E[|Xn |] < . (12.6)
nN
Alors la suite (Xn )nN est uniformement integrable et converge p.s. et dans L1 vers X
quand n . De plus, pour tout n N,
E[Xn | F ] X .
Remarques. (a) Dans le cas dune martingale retrograde, la condition (12.6) est automa-
tiquement satisfaite puisquon a Xn = E[X0 | Fn ] et donc E[|Xn |] E[|X0 |] pour tout
n N. Pour la meme raison, luniforme integrabilite de la suite (Xn )nN , dans le cas
dune martingale, decoule du corollaire 12.5.2.
(b) Dans le cas direct etudie precedemment, le fait quune surmartingale (ou une mar-
tingale) soit bornee dans L1 nentrane pas son uniforme integrabilite : en ce sens le cas
retrograde est tr`es different du cas direct.
Preuve. Nous commencons par etablir la convergence p.s. de la suite (Xn )nN , qui decoule
`a nouveau de linegalite sur les nombres de montees de Doob. Fixons un entier K 1 et
posons pour tout n {0, 1, . . . , K}
YnK = XK+n ,
GnK = FK+n .
Pour n > K, on prend aussi YnK = X0 et GnK = F0 . Alors (YnK )nN est une surmartingale
relativement `a la filtration (GnK )nN . En appliquant le lemme 12.3.2 `a la sous-martingale
YnK , on trouve pour tous a < b,
(b a) E[NK ([a, b], Y N )] E[(YKK a)+ ] = E[(X0 a)+ ] |a| + E[|X0 |].
186
On verifie aisement que quand K , NK ([a, b], Y N ) crot vers
qui est le nombre total de montees de (Xn )nN le long de [a, b]. Le theor`eme de convergence
monotone entrane donc
On obtient ainsi que N([a, b], X) < pour tous les rationnels a < b, p.s. Par une adaptation
evidente du lemme 12.3.1 cela entrane la convergence presque s ure de la suite (Xn )nN
quand n , et le lemme de Fatou montre que la limite X verifie E[|X |] < .
Montrons maintenant que la suite (Xn )nN est uniformement integrable. Soit > 0.
La suite (E[Xn ])nN etant croissante et majoree (grace `a (12.6)) on peut choisir un entier
K 0 assez petit de facon que, pour tout n K,
E[Xn ] E[XK ] + .
2
La famille finie (XK , XK+1 , . . . , X1 , X0 ) etant uniformement integrable, on peut choisir
a > 0 assez grand de mani`ere que, pour tout n {K, K + 1, . . . , 1, 0},
De plus, on peut choisir > 0 assez petit de facon que, pour tout A F tel que P (A) <
on ait
E[|XK |1A ] < .
2
Ensuite, si n < K,
1 C
P (|Xn | > a) E[|Xn |]
a a
187
u C = sup E[|Xk |] est fini par hypoth`ese. Quitte `a choisir a encore plus grand, on peut
o`
supposer que C/a < , de sorte que
E[|XK |1{|Xn |>a} ] <
2
et en combinant avec ce qui prec`ede,
pour tout n < K. Comme cette inegalite est aussi vraie pour n {K, K + 1, . . . , 1, 0},
cela termine la preuve de luniforme integrabilite de la suite (Xn )nN .
Le reste de la preuve est facile. Luniforme integrabilite et la convergence p.s. entranent
la convergence dans L1 . Ensuite, en ecrivant
E[Xn 1A ] E[Xm 1A ]
E[Xn 1A ] E[X 1A ] , A F .
On a donc aussi
E[E[Xn | F ]1A ] E[X 1A ] , A F .
et puisque X est clairement F -mesurable, cela suffit pour entraner E[Xn | F ] X .
Corollaire 12.6.2 Soit Z une v.a. dans L1 , et soit (Gn )nN une suite decroissante de tribus.
Alors,
p.s.,L1
E[Z | Gn ] E[Z | G ]
n
o`
u \
G = Gn .
nN
Preuve. Pour tout n N, posons Xn = E[Z | Gn ] et Fn = Gn . Alors (Xn )nN est une
martingale relativement `a la filtration retrograde (Fn )nN . Le theor`eme assure donc que
Xn converge p.s. et dans L1 quand n . De plus, grace `a la derni`ere assertion du
theor`eme, X = E[X0 | F ] = E[E[Z | F0 ] | F ] = E[Z | F ].
Applications. (A) La loi forte des grands nombres. Soit 1 , 2, . . . une suite de v.a. reelles
independantes et de meme loi, dans L1 . On pose S0 = 0 et pour tout n 1,
Sn = 1 + + n .
On remarque que
1
E[1 | Sn ] = Sn . (12.7)
n
188
En effet, on sait quil existe une fonction mesurable g telle que E[1 | Sn ] = g(Sn ). Si
k {1, . . . , n}, le couple (k , Sn ) a meme loi que (1 , Sn ), de sorte que, pour toute fonction
h mesurable bornee,
E[k h(Sn )] = E[1 h(Sn )] = E[g(Sn )h(Sn )]
ce qui montre quon a aussi E[k | Sn ] = g(Sn ). Il en resulte que
ng(Sn ) = E[1 + + n | Sn ] = Sn
do`
u lidentite annoncee (12.7).
On a aussi, pour tout n 1,
1
E[1 | Sn , n+1, n+2 , . . .] = Sn . (12.8)
n
Cela decoule immediatement de (12.7) et du lemme suivant, applique en prenant Z = 1 ,
H1 = (Sn ) et H2 = (n+1 , n+2, . . .).
Lemme 12.6.3 Soit Z une v.a. dans L1 et soient H1 et H2 deux sous-tribus de F . Sup-
posons que H2 est independante de (Z) H1 . Alors,
E[Z | H1 H2 ] = E[Z | H1 ]
La preuve de ce lemme est une application simple du lemme de classe monotone (Theor`eme
1.4.1) : on voit immediatement que la propriete E[1A Z] = E[1A E[Z | H1 ]] est vraie pour
les ensembles A H1 H2 de la forme A = B C, avec B H1 , C H2 , et il en decoule
que cette propriete est vraie pour tout A H1 H2 .
On peut maintenant appliquer le corollaire 12.6.2 en prenant Z = 1 et pour tout n 0,
de sorte que n1 Sn = E[Z | Gn ] par (12.8). On obtient que la suite n1 Sn converge p.s. et
dans L1 . La loi du tout ou rien de Kolmogorov (Theor`eme 10.2.1) assure que la limite est
constante et donc egale `a lim n1 E[Sn ] = E[1 ].
(B) La loi du tout ou rien de Hewitt-Savage. Soit 1 , 2 , . . . une suite de v.a. independantes et
de meme loi `a valeurs dans un espace mesurable (E, E). Lapplication (1 (), 2(), . . .)
definit une v.a. `a valeurs dans lespace produit E N , qui est muni de la plus petite tribu
rendant mesurables les applications coordonnees (x1 , x2 , . . .) xi pour tout i N . Une
fonction mesurable F definie sur E N est dite symetrique si
189
Exemple. Supposons les v.a. 1 , 2 , . . . `a valeurs dans Rd , et considerons la marche aleatoire
(en dimension d)
Xn = 1 + + n .
Si B est un borelien de Rd ,
1{Card{n1:Xn B}=}
est une fonction symetrique de 1 , 2 , . . .. On a donc
P (Card{n 1 : Xn B} = ) = 0 ou 1.
Preuve. Sans perte de generalite on peut supposer F bornee. On pose
Fn = (1 , . . . , n ) , Gn = (n+1 , n+2, . . .).
On note Y = F (1 , 2 , . . .) et on pose pour tout n N
Xn = E[Y | Fn ] , Zn = E[Y | Gn ].
Alors le corollaire 12.3.6 assure que Xn converge p.s. et dans L1 vers E[Y | F ] = Y ,
cependant que le corollaire 12.6.2 montre que Zn converge p.s. et dans L1 vers E[Y | G ] =
E[Y ] puisque G est grossi`ere (loi du tout ou rien de Kolmogorov). Donc pour tout > 0,
on peut choisir n assez grand de facon que
E[|Xn Y |] < , E[|Zn E[Y ]|] < . (12.9)
Dautre part, il existe une fonction mesurable g : E n R telle que Xn = g(1, . . . , n ),
et la premi`ere borne de (12.9) se traduit par :
E[|F (1 , 2, . . .) g(1 , . . . , n )|] < .
Puisque la suite (n+1 , . . . , 2n , 1 , . . . , n , 2n+1 , . . .) a meme loi que (1 , 2 . . .), cette borne
entrane aussi que
E[|F (n+1, . . . , 2n , 1 , . . . , n , 2n+1 , . . .) g(n+1, . . . , 2n )|] < .
Mais F (n+1 , . . . , 2n , 1 , . . . , n , 2n+1 , . . .) = F (1 , . . . , n , n+1, . . . , 2n , 2n+1, . . .) = Y grace
`a la symetrie de F , et on a donc obtenu
E[|Y g(n+1, . . . , 2n )|] < . (12.10)
En prenant lesperance conditionnelle par rapport `a Gn , on a
E[|E[Y | Gn ] E[g(n+1, . . . , 2n ) | Gn ]|] < ,
soit
E[|Zn g(n+1, . . . , 2n )|] < . (12.11)
En combinant (12.10) et (12.11) avec la deuxi`eme borne de (12.9), on trouve
E[|Y E[Y ]|] < 3.
Puisque etait arbitraire on a donc Y = E[Y ] p.s.
190
Chapitre 13
Chanes de Markov
13.1 D
efinition et premi`
eres propri
et
es
Dans tout ce chapitre, E est un espace fini ou denombrable, qui est muni comme dhabitude
de la tribu P(E). Une matrice stochastique sur E est une famille (Q(x, y), x, y E) de
nombres reels satisfaisant les deux conditions :
(i) 0 Q(x, y) 1 pour tous x, y E;
X
(ii) pour tout x E, Q(x, y) = 1.
yE
on voit que est une probabilite de transition de E dans E (voir le Chapitre 11), et inverse-
ment si on part dune telle probabilite de transition , la formule Q(x, y) = (x, {y}) definit
une matrice stochastique sur E.
Pour tout entier n 1, on peut definir Qn = (Q)n : Q1 = Q, et ensuite par recurrence,
X
Qn+1 (x, y) = Qn (x, z)Q(z, y).
zE
On verifie que Qn est encore une matrice stochastique sur E. On pose aussi Q0 (x, y) = 1{x=y} .
Pour toute fonction f : E R+ , on notera Qf la fonction definie par
X
Qf (x) = Q(x, y)f (y).
yE
D efinition 13.1.1 Soit Q une matrice stochastique sur E, et soit (Xn )nN un processus
aleatoire `a valeurs dans E. On dit que (Xn )nN est une chane de Markov de matrice de tran-
sition Q si pour tout entier n 0, la loi conditionnelle de Xn+1 connaissant (X0 , X1 , . . . , Xn )
est Q(Xn , y). De mani`ere equivalente, cela signifie que
P (Xn+1 = y | X0 = x0 , X1 = x1 , . . . , Xn = xn ) = Q(xn , y),
pour tous x0 , x1 , . . . , xn , y E tels que P (X0 = x0 , X1 = x1 , . . . , Xn = xn ) > 0.
191
Remarques. (i) En general, la loi conditionnelle de Xn+1 connaissant X0 , X1 , . . . , Xn
depend de toutes les variables X0 , X1 , . . . , Xn et pas seulement de la derni`ere Xn . Le fait
quici cette loi conditionnelle ne depende que de Xn est ce quon appelle la propri et
e de
Markov : pour predire le futur (Xn+1 ) la connaissance du passe (X0 , X1 , . . . , Xn ) ne donne
pas plus dinformation que celle du present (Xn ). Nous verrons plus tard dautres formes
plus precises de la propriete de Markov, qui correspondent `a la meme idee.
(ii) La fonction Q(x, ) donnant la loi conditionnelle de Xn+1 sachant que Xn = x ne depend
pas de lentier n : cest le caract`ere homog`ene de la chane de Markov. On pourrait aussi
considerer des chanes de Markov inhomog`enes, pour lesquelles le mecanisme de transition
entre les instants n et n + 1 depend de n.
Proposition 13.1.1 Un processus (Xn )nN a` valeurs dans E est une chane de Markov de
matrice de transition Q ssi, pour tout n 0 et pour tous x0 , x1 , . . . , xn E,
P (Xn = xn | X0 = x0 ) = Qn (x0 , xn ).
Preuve. Si (Xn )nN est une chane de Markov de matrice de transition Q la formule donnee
est immediate par recurrence sur n en ecrivant
Remarque. La formule (13.1) montre que pour une chane de Markov (Xn )nN , la loi de
(X0 , X1 , . . . , Xn ) est compl`etement determinee par la connaissance de la loi initiale (la loi de
X0 ) et de la matrice de transition Q.
La proposition suivante rassemble dautres proprietes simples des chanes de Markov.
Dans (ii) ci-dessous, on utilise la notation P (A | Z) pour designer lesperance conditionnelle
E[1A | Z].
Proposition 13.1.2 Soit (Xn )nN une chane de Markov de matrice de transition Q.
192
(i) Pour tout entier n 0 et toute fonction mesurable f : E R+ ,
E[f (Xn+1 ) | X0 , X1 , . . . , Xn ] = E[f (Xn+1 ) | Xn ] = Qf (Xn ).
Plus generalement, pour tout sous-ensemble fini {i1 , . . . , ik } de {0, 1, . . . , n 1}, on a
E[f (Xn+1 ) | Xi1 , . . . , Xik , Xn ] = Qf (Xn ).
193
13.2.2 eatoires sur Zd
Marches al
Soient , 1, 2 , . . . , n , . . . des v.a. independantes `a valeurs dans Zd . On suppose que 1 , 2 , . . .
ont meme loi et on pose pour tout n 0,
Xn = + 1 + 2 + + n .
Q(x, y) = (y x), x, y E.
P (Xn+1 = y | X0 = x0 , X1 = x1 , . . . , Xn = xn )
= P (n+1 = y xn | X0 = x0 , X1 = x1 , . . . , Xn = xn )
= P (n+1 = y xn )
= (y xn ).
1
Soit (e1 , . . . , ed ) la base canonique de Rd . Dans le cas o`u (ei ) = (ei ) = 2d pour tout
i {1, . . . , d}, la chane de Markov obtenue est appelee la marche aleatoire simple sur Zd .
13.2.3 Marche al
eatoire simple sur un graphe
Soit P2 (E) lensemble des parties de E `a deux elements, et soit A un sous-ensemble de
P2 (E). Pour tout x E, on note
Ax = {y E : {x, y} A}.
On suppose que Ax est fini et non vide pour tout x E. On definit alors une matrice de
transition Q sur E en posant pour tous x, y E,
1
si {x, y} A
Q(x, y) = Card Ax
0 sinon.
Une chane de Markov de matrice de transition Q est appelee marche aleatoire simple sur le
graphe (E, A).
X0 =
Xn
X
Xn+1 = n,j , n N ,
j=1
194
u les v.a. n,j , n, j N sont independantes et de loi . Alors, (Xn )nN est une chane de
o`
Markov sur E = N de matrice de transition
Q(x, y) = x (y), x, y N,
u x est la convolution de x fois avec elle-meme, ou de mani`ere equivalente la loi de la
o`
somme de x v.a. independantes de loi (en particulier 0 est la mesure de Dirac en 0). En
effet, en observant que les v.a. n,j , j N sont independantes de X0 , . . . , Xn , on a
P (Xn+1 = y | X0 = x0 , X1 = x1 , . . . , Xn = xn )
xn
X
= P( n,j = y | X0 = x0 , X1 = x1 , . . . , Xn = xn )
j=1
Xxn
= P( n,j = y)
j=1
xn
= (y).
on obtient une suite U0 , U1 , U2 , . . . de v.a. Ppindependantes de loi uniformePsur [0, 1] (pour voir
que Ui suit la loi uniforme, noter que j=0 i,j 2 j1
a meme loi que pn=0 n 2n1 , pour
tout entier p, et faire tendre p vers ).
Soit y1 , y2 , . . . , yk , . . . une enumeration des elements de E. Fixons aussi x E. On pose
X0x = x puis X X
X1x = yk si Q(x, yj ) < U1 Q(x, yj )
1j<k 1jk
195
de sorte quil est clair que P (X1x = y) = Q(x, y) pour tout y E. On continue par recurrence
en posant X X
x
Xn+1 = yk si Q(Xnx , yj ) < Un+1 Q(Xnx , yj ).
1j<k 1jk
En utilisant lindependance des v.a. Ui , on verifie tr`es facilement que pour tout k 1,
x
P (Xn+1 = yk | X0x = x0 , X1x = x1 , . . . Xnx = xn )
X X
= P( Q(xn , yj ) < Un+1 Q(xn , yj ) | X0x = x0 , X1x = x1 , . . . Xnx = xn )
1j<k 1jk
X X
= P( Q(xn , yj ) < Un+1 Q(xn , yj ))
1j<k 1jk
= Q(xn , yk ),
= E N.
Xn () = n .
On munit de la plus petite tribu, notee F , qui rende mesurables les applications coor-
donnees. Cest aussi la tribu engendree par les cylindres, cest-`a-dire les ensembles C de
la forme
C = { : 0 = x0 , 1 = x1 , . . . , n = xn }
u n N et x0 , x1 , . . . xn E.
o`
Lemme 13.3.2 Soit (G, G) un espace mesurable, et soit une application de G dans .
Alors est mesurable ssi Xn lest pour tout n N.
Theor`eme 13.3.3 Soit Q une matrice stochastique sur E. Pour tout x E, il existe une
unique probabilite, notee Px , sur = E N telle que sous Px , le processus des coordonnees
(Xn )nN est une chane de Markov de matrice de transition Q, et Px (X0 = x) = 1.
196
Preuve. Soit x E. La proposition 13.3.1 permet de construire sur un espace de probabilite
( , F , P ) un processus (Xnx )nN qui est une chane de Markov de transition Q telle que
X0x = x. On definit alors Px comme la mesure image de P par lapplication
(Xnx ( ))nN .
ce qui montre que sous Px le processus des coordonnees est une chane de Markov de transition
Q (cf proposition 13.1.1).
Pour lunicite, on remarque que si Px est une autre mesure de probabilite satisfaisant la
propriete du theor`eme, les mesures Px et Px concident sur les cylindres. Or les cylindres
forment une classe stable par intersection finie et qui engendre la tribu F . Le lemme de
classe monotone montre alors que Px = Px (cf Corollaire 1.4.2).
Remarques. (a) De la derni`ere assertion de la proposition 13.1.1, on deduit que, pour tout
n 0 et tous x, y E,
Px (Xn = y) = Qn (x, y).
(b) Si est une mesure de probabilite sur E, on notera
X
P = (x) Px
xE
qui definit une mesure de probabilite sur . En ecrivant la formule explicite pour P (X0 =
x0 , . . . , Xn = xn ), on verifie immediatement que sous P , (Xn )nN est une chane de Markov
de transition Q, et X0 a pour loi .
(c) Si (Xn )nN est une chane de Markov de matrice de transition Q et de loi initiale , alors
pour toute partie mesurable B de = E N , on a
En effet cette egalite est vraie lorsque B est un cylindre, et on peut ensuite utiliser le meme
argument qu`a la fin de la preuve ci-dessus. Cette egalite montre que tous les resultats
que nous etablirons dans la suite pour la chane de Markov canonique (celle fournie par le
theor`eme 13.3.3) se transporteront `a une chane de Markov quelconque de meme matrice de
transition.
Lun des avantages importants de la chane de Markov canonique est de pouvoir utiliser
les operateurs de translation. Pour tout k N on definit lapplication k : en posant
197
Le lemme 13.3.2 montre que ces applications sont mesurables.
On note Fn = (X0 , X1 , . . . , Xn ) la filtration canonique sur . On utilise aussi la notation
Ex pour designer lesperance sous la probabilite Px .
Theor`eme 13.3.4 (Propri ete de Markov simple) Soient F et G deux fonctions mesurables
positives sur et soit n 0. Supposons que F est Fn -mesurable. Alors, pour tout x E,
Ex [F G n ] = Ex [F EXn [G]].
De mani`ere equivalente,
Ex [G n | Fn ] = EXn [G],
ce quon peut traduire en disant que la loi conditionnelle de n () connaissant (X0 , X1 , . . . , Xn )
est PXn .
u p 0 et y0 , . . . , yp E. Dans ce cas, si y E,
o`
et par ailleurs
de sorte quon obtient facilement le resultat. Un argument de classe monotone montre ensuite
que le resultat reste vrai pour toute fonction G = 1A , A F , ce qui permet de conclure.
Le theor`eme precedent donne une forme generale de la propriete de Markov (simple) :
la loi conditionnelle du futur n () connaissant le passe (X0 , X1 , . . . , Xn ) ne depend que
du present Xn . Il sera tr`es important de pouvoir etendre cette propriete au cas o` u n est
remplace par un temps aleatoire T .
Pour illustrer linteret de cette extension, considerons le probl`eme de savoir si partant
dun point x la chane y revient infiniment souvent. Autrement dit, en notant
X
Nx = 1{Xn =x}
n=0
198
a-t-on Px (Nx = ) = 1 ? Il suffit en fait de verifier que la chane revient au moins une fois
en x. Si
Hx = inf{n 1 : Xn = x}
avec la convention habituelle inf = +, on a lequivalence
Limplication est triviale. Dans lautre sens, supposons Px (Hx < ) = 1. Mod-
ulo lextension de la propriete de Markov mentionnee ci-dessus, on sait que Hx () =
(Hx ()+n )nN a pour loi Px . Mais alors, en ecrivant
Nx () = 1 + Nx (Hx ())
on voit que Nx a meme loi que 1 + Nx sous Px , ce qui nest possible que si Nx = , Px p.s.
Le theor`eme qui suit permet de rendre ce raisonnement rigoureux (le resultat obtenu sera
repris et detaille dans la partie suivante).
De mani`ere equivalente,
dapr`es la propriete de Markov simple (theor`eme 13.3.4) appliquee en observant que 1{T =n} F
est Fn -mesurable parce que F est FT -mesurable (cf definition de la tribu FT dans le chapitre
precedent). Il suffit ensuite de sommer legalite obtenue sur toutes les valeurs de n N.
Corollaire 13.3.6 Soit T un temps darret tel que Px (T < ) = 1. Supposons quil existe
y E tel que Px (XT = y) = 1. Alors sous Px , T () est independant de FT et de loi Py .
do`
u les assertions de lenonce.
199
13.4 La classification des
etats
A partir de maintenant, on utilise uniquement (sauf exception, notamment dans les exem-
ples) la chane de Markov canonique construite dans le paragraphe precedent. Rappelons la
notation : pour x E,
Hx = inf{n 1 : Xn = x}
X
Nx = 1{Xn =x} .
n=0
efinition) Soit x E. On a :
Proposition 13.4.1 (et d
ou bien Px (Hx < ) = 1, et alors
Nx = , Px p.s.
dans ce cas x est dit recurrent;
ou bien Px (Hx < ) < 1, et alors
Nx < , Px p.s.
et plus precisement Ex [Nx ] = 1/Px (Hx = ) < ; dans ce cas x est dit transitoire.
Preuve. Pour tout entier k 1, la propriete de Markov forte montre que
Px (Nx k + 1) = Ex [1{Hx <} 1{Nx k} Hx ]
= Ex [1{Hx <} Ex [1{Nx k} ]]
= Px (Hx < ) Px (Nx k).
Puisque Px (Nx 1) = 1, une recurrence immediate donne Px (Nx k) = Px (Hx < )k1.
Si Px (Hx < ) = 1 il en decoule aussitot que Px (Nx = ) = 1. Si Px (Hx < ) < 1, on
trouve
X 1
Ex [Nx ] = Px (Nx k) = < .
Px (Hx = )
k=1
200
Preuve. La propriete (i) est obtenue en ecrivant :
hX
i
X
X
U(x, y) = Ex 1{Xn =y} = Px (Xn = y) = Qn (x, y).
n=0 n=0 n=0
Ex [Ny ] = Ex [1{Hy <} Ny Hy ] = Ex [1{Hy <} Ey [Ny ]] = Px (Hy < ) U(y, y).
(cest un cas particulier de marche aleatoire sur Zd ). Cette chane de Markov issue de 0 a
meme loi que (Yn1 , . . . , Ynd )nN , o`
u les processus Y 1 , . . . , Y d sont des copies independantes de
la marche aleatoire simple (pile ou face) sur Z, issue de 0. En consequence,
Lemme 13.4.3 Soit x R et soit y un autre point de E tel que U(x, y) > 0. Alors y R
et Py (Hx < ) = 1, donc en particulier U(y, x) > 0.
201
Lhypoth`ese U(x, y) > 0 entrane Px (Hy < ) > 0. On conclut que Py (Hx = ) = 0.
Ensuite, on peut trouver des entiers n1 , n2 1 tels que Qn1 (x, y) > 0, et Qn2 (y, x) > 0.
Pour tout entier p 0, on a alors
et donc
X X
U(y, y) Qn2 +p+n1 (y, y) Qn2 (y, x) Qp (x, x) Qn1 (x, y) =
p=0 p=0
P
puisque x R entrane p=0 Qp (x, x) = U(x, x) = .
En consequence du lemme, si x R et y E\R on a U(x, y) = 0 : on ne peut pas passer
dun point recurrent `a un point transitoire. Cette propriete joue un role important dans le
theor`eme suivant.
Th
eor`
eme 13.4.4 (Classification des
etats) Il existe une partition de R
[
R= Ri
iI
202
efinition 13.4.2 La chane est dite irreductible si U(x, y) > 0 pour tous x, y E.
D
Px (Ny < , y E) = 1.
Preuve. Sil existe un etat recurrent, le lemme 13.4.3 montre aussitot que tous les etats
sont recurrents, et puisque U(x, y) > 0 pour tous x, y E, on voit aussi quil y a une seule
classe de recurrence. Le reste decoule du theor`eme, `a lexception de la derni`ere assertion :
si E est fini et si on suppose que tous les etats sont transitoires, on a
X
Px p.s. , Ny <
yE
Une chane de Markov irreductible dont les etats sont recurrents sera dite recurrente
irreductible.
Exemples. Nous reprenons maintenant les differents exemples introduits ci-dessus pour
discuter dans chaque cas la classification des etats. Avant cela, insistons sur le fait que les
resultats obtenus pour la chane de Markov canonique se traduisent immediatement pour
une chane de Markov quelconque
P (Yn )nN de transition Q (et inversement). Par exemple, si
Y0 = y, en notant NxY = n=0 {Yn =x} , on a pour tout k N,
1
P ((Yn )nN B)
203
eatoire sur Z. On a
(2) Marche al
n
X
Yn = Y0 + i
i=1
Preuve. (i) Si m 6= 0, la loi forte des grands nombres montre aussitot que |Yn | p.s.
et donc tous les etats sont transitoires.
(ii) Supposons que m = 0 et que 0 est transitoire, donc U(0, 0) < . Nous allons voir que
ceci conduit `a une contradiction. Sans perte de generalite, on suppose dans la suite que
Y0 = 0. On observe que, pour tout x Z,
Si n p N, on a aussi
X X 1
Qp (0, x) Qp (0, x) >
2
|x|n |x|p
204
Mais dautre part, dapr`es (13.2), si n 1,
X n
U(0, x) Cn = .
4
|x|n
P (Yn G, n N) = 1
(rappelons que nous avons pris Y0 = 0). Cela montre que si G 6= Z, la chane nest pas
irreductible. Inversement, supposons que G = Z. Alors, notons
H = {x Z : U(0, x) > 0}
montre que x + y H;
si x H, comme 0 est recurrent, la condition U(0, x) > 0 entrane U(x, 0) > 0 (lemme
13.4.3) et puisque U(x, 0) = U(0, x) on a bien x H.
Finalement, puisque H contient {x Z : (x) > 0}, on a forcement H = Z.
1 1
Par exemple, si = 2 2 + 2 2 , tous les etats sont recurrents, mais il y a deux classes de
recurrence, les entiers pairs et les entiers impairs.
(3) Marche al eatoire sur un graphe. On consid`ere ici le cas dun graphe fini : E est fini
et A est un sous-ensemble de P2 (E) tel que, pour tout x E, Ax := {y E : {x, y} A}
est non vide. Le graphe est dit connexe si pour tous x, y E, on peut trouver un entier
p 0 et des elements x0 = x, x1 , . . . , xp1 , xp = y de E tels que {xi1 , xi } A pour tout
i {1, . . . , p}.
Proposition 13.4.7 La marche aleatoire simple sur un graphe fini connexe est recurrente
irreductible.
205
Proposition 13.4.8 0 est le seul etat recurrent. En consequence, on a p.s.
ou bien N : n N , Xn = 0.
ou bien Xn + quand n .
Remarque. P On a vu dans le chapitre precedent que le premier cas se produit avec probabilite
1 si m = k(k) 1, et que le second cas se produit avec probabilite strictement positive
si m > 1 (sous lhypoth`ese supplementaire que a un moment dordre 2).
Preuve. Supposons dabord que (0) > 0. Si x 1, U(x, 0) Px (X1 = 0) = (0)x > 0
alors que U(0, x) = 0. Cela nest possible que si x est transitoire. Traitons ensuite le cas o`
u
(0) = 0. Comme nous excluons le cas = 1 , il existe alors k 2 tel que (k) > 0. Alors,
pour tout x 1, Px (X1 > x) > 0, ce qui entrane quil existe y > x tel que U(x, y) > 0.
Comme on a clairement U(y, x) = 0, on conclut encore que x est transitoire. Les autres
assertions decoulent maintenant du theor`eme 13.4.4.
ce qui montre que sous P , (X1+n )nN a meme loi que (Xn )nN (et de meme, pour tout entier
k 0, (Xk+n )nN a meme loi que (Xn )nN ).
Exemple. Pour toute marche aleatoire sur Zd (Q(x, y) = (yx) ne depend que la difference
y x), on verifie immediatement que la mesure de comptage sur Zd est invariante.
206
Definition 13.5.2 Soit une mesure positive non triviale sur E, telle que (x) < pour
tout x E. On dit que est reversible si
En revanche, il existe des mesures invariantes qui ne sont pas reversibles : nous avons
vu que la mesure de comptage est invariante pour toute marche aleatoire sur Zd , cependant
elle nest reversible que si la loi de saut est symetrique ((x) = (x)).
Exemples. (a) Pile ou face biais e. Cest la marche aleatoire sur Z de matrice de transition
Q(i, i + 1) = p
Q(i, i 1) = q = 1 p
u p ]0, 1[. Dans ce cas, on verifie aisement que la mesure
o`
p
(i) = ( )i , iZ
q
est reversible, donc invariante. Remarquons que est differente de la mesure de comptage
(qui est aussi invariante) sauf dans le cas p = 1/2.
(b) Marche al eatoire sur un graphe. La mesure
(x) = Card(Ax )
est reversible. En effet, si {x, y} A,
1
(x)Q(x, y) = Card(Ax ) = 1 = (y)Q(y, x).
Card(Ax )
(c) Mod` ele durne dEhrenfest. Cest la chane de Markov dans {0, 1, . . . , k} de matrice
de transition
Q(j, j + 1) = kj
k
si 0 j k 1
j
Q(j, j 1) = k si 1 j k.
Une mesure est reversible ssi
kj j+1
(j) = (j + 1)
k k
pour tout 0 j k 1. On trouve aisement que
(j) = Ckj
convient.
207
Th
eor`
eme 13.5.2 Soit x un point recurrent. La formule
h HX
x 1 i
(y) = Ex 1{Xk =y}
k=0
definit une mesure invariante. De plus, (y) > 0 ssi y appartient `a la classe de recurrence
de x.
Preuve. Remarquons dabord que si y nest pas dans la classe de recurrence de x on a
Ex [Ny ] = U(x, y) = 0, et donc a fortiori (y) = 0.
Ensuite, on ecrit pour tout y E,
hX
Hx i
(y) = Ex 1{Xk =y}
k=1
X hX
Hx i
= Ex 1{Xk1 =z, Xk =y}
zE k=1
XX h i
= Ex 1{kHx , Xk1 =z} 1{Xk =y}
zE k=1
XX h i
= Ex 1{kHx , Xk1 =z} Q(z, y)
zE k=1
X hX
Hx i
= Ex 1{Xk1 =z} Q(z, y)
zE k=1
X
= (z)Q(z, y).
zE
Soit y un point de la classe de recurrence de x. Alors, il existe n 0 tel que Qn (y, x) > 0, et
la formule precedente montre que (y) < . On peut aussi trouver m tel que Qm (x, y) > 0,
et on a X
(y) = (z)Qm (z, y) Qm (x, y) > 0.
zE
Remarque. Sil existe plusieurs classes de recurrence Ri , i I, alors en choisissant pour
chaque i I un point xi Ri et en posant
xi 1
h HX i
i(y) = Exi 1{Xk =y}
k=0
208
on construit des mesures invariantes `a supports disjoints.
Th eor`
eme 13.5.3 Supposons la chane recurrente irreductible. Alors la mesure invariante
est unique `a une constante multiplicative pr`es.
Preuve. Soit une mesure invariante. On montre par recurrence que, pour tout entier
p 0, pour tous x, y E,
h p(H
X x 1) i
(y) (x) Ex 1{Xk =y} . (13.3)
k=0
Dabord, si y = x, linegalite est immediate (avec meme une egalite). On suppose donc
y 6= x. Si p = 0, linegalite (13.3) est triviale. On suppose que (13.3) est vraie `a lordre p.
Alors,
X
(y) = (z) Q(z, y)
zE
X h p(H
X x 1) i
(x) Ex 1{Xk =z} Q(z, y)
zE k=0
p
XX h i
= (x) Ex 1{Xk =z, kHx 1} Q(z, y)
zE k=0
p
XX h i
= (x) Ex 1{Xk =z, kHx 1} 1{Xk+1 =y}
zE k=0
h p(H
X x 1) i
= (x)Ex 1{Xk+1 =y}
k=0
h (p+1)H
X x i
= (x)Ex 1{Xk =y} ,
k=1
h HX
x 1 i
(y) (x) Ex 1{Xk =y} .
k=0
Fixons x E. La mesure
h HX
x 1 i
x (y) = Ex 1{Xk =y}
k=0
209
est invariante (theor`eme 13.5.2), et on a (y) (x)x (y) pour tout y E. Donc, pour tout
n 1, X X
(x) = (z)Qn (z, x) (x)x (z)Qn (z, x) = (x)x (x) = (x),
zE zE
ce qui montre que legalite (z) = (x)x (z) a lieu pour tout z tel que Qn (z, x) > 0.
Lirreductibilite assure que pour tout z E on peut trouver un entier n tel que Qn (z, x) > 0,
et on conlut donc que = (x)x , ce qui termine la preuve.
(ii) Ou bien toute mesure invariante a une masse totale infinie, et on a pour tout x E,
Ex [Hx ] = .
La chane est dite recurrente positive dans le cas (i) et recurrente nulle dans le cas (ii).
Ex [Hx ] = x (E) = .
Proposition 13.5.5 Supposons la chane irreductible. Sil existe une mesure invariante
finie, la chane est recurrente (et donc recurrente positive).
210
Preuve. Soit une mesure invariante finie, et soit y E tel que (y) > 0. Pour tout
x E, la proposition 13.4.2(iii) donne linegalite
X
Qn (x, y) = U(x, y) U(y, y).
n=0
On multiplie les deux membres de cette inegalite par (x) et on somme sur toutes les valeurs
de x E. Il vient
X
Qn (y) (E) U(y, y).
n=0
Puisque est invariante on a Qn (y) = (y) > 0 pour tout n 0. On conclut donc que
(E) U(y, y) = .
Comme (E) < , cela entrane que U(y, y) = . Donc y est recurrent et puisque la chane
est irreductible elle est recurrente (corollaire 13.4.5).
Remarque. Lexistence dune mesure invariante infinie ne permet pas de conclure : con-
siderer par exemple le pile ou face biaise (exemple (1) ci-dessus apr`es la proposition 13.5.1)
qui nest recurrent que si p = 1/2.
Exemple. Soit p ]0, 1[. Considerons la chane de Markov sur E = N de matrice de
transition
Q(k, k + 1) = p , Q(k, k 1) = 1 p , si k 1,
Q(0, 1) = 1.
Cette chane est irreductible. De plus on verifie immediatement que la mesure definie par
p k1
(k) = , si k 1,
1p
(0) = 1 p ,
est reversible donc invariante.
Si p < 21 , la mesure est finie, et la proposition 13.5.5 entrane que la chane est recurrente
positive. (Exercice : Montrer que la chane est recurrente nulle si p = 12 , et transitoire si
p > 12 .)
211
Remarque. Le resultat reste vrai si (f ) = . Il suffit dutiliser un argument
R de compa-
raison en ecrivant f = lim fk , avec des fonctions positives fk telles que fk d < .
T0 = 0 , T1 = Hx
et par recurrence
Tn+1 = inf{k > Tn : Xk = x}.
Le temps Tn est linstant du n-i`eme retour en x de la chane. Puisque letat x est recurrent,
tous ces temps darret sont finis p.s. On pose aussi pour tout k 0,
Tk+1 1
X
Zk (f ) = f (Xn ).
n=Tk
Preuve. Soient g0 , g1, g2 , . . . des fonctions mesurables bornees sur R+ . Il suffit de montrer
que, pour tout entier k 0, on a
hY
k i k
Y
Ex gi (Zi (f )) = Ex [gi (Z0 (f ))].
i=0 i=0
On demontre cette identite par recurrence sur k. Pour k = 0 il ny a rien `a montrer. Pour
passer de lordre k 1 `a lordre k, on observe que :
on a Zk (f ) = Z0 (f ) Tk , par construction.
do`
u le resultat voulu `a lordre k.
212
Nous revenons `a la preuve du theor`eme. Si x designe comme precedemment la mesure
invariante construite dans le theor`eme 13.5.2, on a = (x)x puisque x (x) = 1 et que
toutes les mesures invariantes sont proportionnelles (theor`eme 13.5.3). On observe alors que
h HX
x 1 X i R
X f d
Ex [Z0 (f )] = Ex f (y) 1{Xk =y} = f (y) x(y) = .
k=0 yE yE
(x)
Le lemme 13.6.3 et la loi forte des grands nombres montrent ensuite que Px p.s.
n1 R
1 X f d
Zk (f ) . (13.4)
n n (x)
k=0
Pour tout entier n, notons Nx (n) le nombre de retours en x effectues par la chane avant
linstant n, de sorte que TNx (n) n < TNx (n)+1 . En ecrivant
TNx (n) 1 n TNx (n)+1 1
X X X
f (Xk ) f (Xk ) f (Xk )
k=0 k=0 k=0
Nx (n) Nx (n) Nx (n)
ce qui equivaut `a
Nx (n)1 Nx (n)
X n
X X
Zj (f ) f (Xk ) Zj (f )
j=0 k=0 j=0
Nx (n) Nx (n) Nx (n)
on deduit de la convergence (13.4) que Px p.s.
n R
1 X f d
f (Xk ) .
Nx (n) k=0 n (x)
Il suffit ensuite dutiliser le meme resultat avec f remplacee par g pour finir la preuve.
o`
u est lunique probabilite invariante;
213
Dans les deux cas la convergence a lieu pour toute loi initiale de la chane.
D
efinition 13.6.1 Soit x un point recurrent, et
Remarque. Puisque Lx est stable par addition (Qn+m (x, x) Qn (x, x)Qm (x, x)), le sous
groupe engendre par Lx est Lx Lx = d(x)Z.
(ii) Si d = 1 (la chane est alors dite aperiodique), pour tous x, y E, il existe un entier
n0 tel que Qn (x, y) > 0 pour tout n n0 .
Preuve. (i) Soient x, y E. Puisque la chane est irreductible, il existe deux entiers n1 et
n2 tels que Qn1 (x, y) > 0 et Qn2 (y, x) > 0. Mais alors, si n Lx , on a n1 + n + n2 Ly , ce
qui entrane que Lx Lx Ly Ly et donc d(y) divise d(x). Par symetrie on a d(y) = d(x).
(ii) Clairement, il suffit de traiter le cas o`
u y = x. Puisque d(x) = 1, on peut trouver deux
entiers n1 , m1 0 tels que 1 = n1 m1 et
Preuve. La formule
Q((x1 , x2 ), (y1, y2 )) = Q(x1 , y1 )Q(x2 , y2 )
definit une matrice stochastique sur le E E. On note ((Xn1 , Xn2 )nN , (P (x1 ,x2 ) )(x1 ,x2 )EE )
la chane de Markov canonique associee.
Remarquons que Q est irreductible : si (x1 , x2 ), (y1 , y2) E E, la proposition 13.6.5(ii)
permet de trouver deux entiers n1 et n2 tels que Qn (x1 , y1 ) > 0 pour tout n n1 , et
Qn (x2 , y2) > 0 pour tout n n2 . Si n n1 n2 , on a par definition Qn ((x1 , x2 ), (y1, y2 )) > 0.
214
De plus la mesure produit est invariante pour Q :
X X X
(x1 )(x2 )Q(x1 , y1)Q(x2 , y2 ) = (x1 )Q(x1 , y1) (x2 )Q(x2 , y2 )
(x1 ,x2 )EE x1 E x2 E
= (y1)(y2 ).
La proposition 13.5.5 permet de conclure que la chane (Xn1 , Xn2 ) est recurrente positive.
Observons maintenant que
Introduisons le temps darret T = inf{n 0 : Xn1 = Xn2 }. Alors, legalite precedente montre
que
Ex [1{T =k,Xk1 =Xk2 =z} 1{Xn2 =y} ] = Ex [1{T =k,Xk1 =Xk2 =z}] Qnk (z, y)
= Ex [1{T =k,Xk1 =Xk2 =z}1{Xn1 =y} ],
et donc le deuxi`eme terme de la somme dans (13.5) est nul. On obtient ainsi que
X X
|Px (Xn = y) (y)| = |Ex [1{T >n} (1{Xn2 =y} 1{Xn1 =y} )]|
yE yE
X
Ex [1{T >n} (1{Xn2 =y} + 1{Xn1 =y} )]
yE
= 2 Px (T > n),
Plus generalement, si F E, on dit que f est harmonique sur F (resp. surharmonique sur
F ) si la propriete f (x) = Qf (x) (resp. f (x) Qf (x)) est vraie pour x F .
215
Remarque. On pourrait considerer plus generalement des fonctions harmoniques ou surhar-
moniques de signe quelconque.
Proposition 13.7.1 (i) La fonction f est harmonique (resp. surharmonique) ssi, pour tout
x E, le processus (f (Xn ))nN est une martingale (resp. une surmartingale) sous Px ,
relativement `a la filtration (Fn ).
(ii) Soit F E et G = E\F . On note TG le temps darret
TG = inf{n 0 : Xn G}.
Alors si f est harmonique (resp. surharmonique) sur F , le processus (f (XnTG ))nN est une
martingale (resp. une surmartingale) sous Px , pour tout x F .
(i) La fonction
h(x) = Ex [g(XTG ) 1{TG <}], xE
est harmonique sur F .
(ii) Supposons TG < , Px p.s. pour tout x F . Alors la fonction h est lunique fonction
bornee sur E qui
216
Preuve. (i) On remarque que si x F on a Px p.s.
Autrement dit, si U() = g(XTG ()) 1{TG ()<} , on a U = U 1 , Px p.s. Donc, pour x F ,
dapr`es le theor`eme 13.3.4,
h(y) = g(y), y F ,
217
218
Chapitre 14
Sn = Y 1 + + Y n
X
k(k) = 0 ( est centree).
kZd
il existe une constante > 0 telle que pour tous i, j {1, . . . , d},
X
ki kj (k) = 2 ij .
kZd
La marche aleatoire simple sur Zd (cf chapitre precedent) verifie ces hypoth`eses, avec
2
= 1/d, et il existe beaucoup dautres exemples.
219
On va sinteresser au comportement global de la fonction k Sk sur un long
intervalle de temps. Pour cela on introduit le changement dechelle suivant. Pour tout entier
n 1, pour tout reel t 0, on pose
(n) 1
St = S[nt]
n
o`
u [x] designe la partie enti`ere du nombre reel x.
Proposition 14.1.1 Pour tout choix de lentier p 1 et des nombres reels 0 = t0 < t1 <
< tp , on a
(n) (n) (n) (loi)
(St1 , St2 , . . . , Stp ) (U1 , U2 , . . . , Up )
n
pour tout j {1, . . . , p}, Uj Uj1 est un vecteur gaussien centre de matrice de covariance
2 (tj tj1 )Id (par convention, U0 = 0).
1 |x|2
pa (x) = exp , x Rd
(2a)d/2 2at
est la densite du vecteur gaussien de covariance a Id (rappelons que les coordonnees dun tel
vecteur sont des v.a. reelles N (0, a) independantes, voir la Proposition 11.4.2 et la remarque
suivant cette proposition). Grace `a lindependance des v.a. U1 , U2 U1 , . . . , Up Up1 , on
obtient que la densite de (U1 , U2 U1 , . . . , Up Up1 ) est
f (y1, . . . , yp ) = g(y1, y2 y1 , . . . , yp yp1 ) = p2 t1 (y1 )p2 (t2 t1 ) (y2 y1 ) p2 (tp tp1 ) (yp yp1 ).
220
Or on sait dej`a, grace `a lindependance des v.a. U1 , U2 U1 , . . . , Up Up1 , que
h X p i Yp h i X p
2 |j |2 (tj tj1)
E exp i j (Uj Uj1 ) = E exp ij (Uj Uj1 ) = exp
j=1 i=1 j=1
2
(on utilise la formule pour la transformee de Fourier de la loi gaussienne). Dautre part,
[ntj ]
(n) (n) 1 X
Stj Stj1 = Yk
n
k=[ntj1 ]+1
(n) (n)
ce qui montre dune part que les v.a. Stj Stj1 , 1 j p sont independantes, dautre
part que pour chaque j fixe
p
(n) (n) (loi) 1 [ntj ] [ntj1 ] 1
Stj Stj1 = S[ntj ][ntj1 ] = p S[ntj ][ntj1 ] .
n n [ntj ] [ntj1 ]
Grace au theor`eme central limite vectoriel, cette derni`ere variable converge en loi quand
n vers tj tj1 N, o` u N est un vecteur gaussien de covariance 2 Id (on utilise aussi
la propriete simple suivante : si Xn converge en loi vers X et si (an ) est une suite de reels
convergeant vers a, alors an Xn converge en loi vers aX). En consequence, pour chaque j
fixe,
h i p 2 | |2 (t t )
(n) (n) j j j1
E exp i j (Stj Stj1 ) E[exp(i tj tj1 j N)] = exp .
n 2
(n) (n)
Lindependance des v.a. Stj Stj1 , 1 j p, permet maintenant de conclure au resultat
recherche (14.1).
Definition 14.1.1 On appelle mouvement brownien (en dimension d, issu de 0) une famille
(Bt )tR+ de v.a. `a valeurs dans Rd , definies sur un espace de probabilite (, F , P ), telles
que :
(P1) On a B0 = 0 p.s. De plus, pour tout choix de lentier p 1 et des nombres reels
0 = t0 < t1 < < tp , les v.a. Bt1 , Bt2 Bt1 , . . . , Btp Btp1 sont independantes,
et, pour tout j {1, . . . , p}, Btj Btj1 est un vecteur gaussien centre de covariance
(tj tj1 )Id.
221
certaine mani`ere, cette limite correspond, pour le phenom`ene physique appele mouvement
brownien, au passage de lexplication microscopique aux observations macroscopiques.
(ii) Comme on la vu ci-dessus, la loi de (Bt1 , Bt2 , . . . , Btp ) est donnee par
Z
P (Bt1 , Bt2 , . . . , Btp ) A = dy1 . . . dyp pt1 (y1 )pt2 t1 (y2 y1 ) ptp tp1 (yp yp1 ),
A
(14.2)
pour toute partie brelienne A de (Rd )p .
h0 (t) = 1, t [0, 1]
hkn (t) = 2n/2 1[(2k)2n1 ,(2k+1)2n1 [ 2n/2 1[(2k+1)2n1 ,(2k+2)2n1 [ , t [0, 1].
On verifie que les fonctions h0 , hkn forment un syst`eme orthonorme de L2 ([0, 1], B([0, 1]), )
o`
u designe la mesure de Lebesgue. De plus ce syst`eme est total : toute fonction en escalier
constante sur les intervalles de la forme [i2n , (i+1)2n [ (pour n fixe) est combinaison lineaire
des fonctions h0 et hkp pour p < n. On conclut que la famille
h0 , (hkn )n0,0k2n 1
Dautre part, nous disposons sur notre espace de probabilite (, F , P ) dune suite de v.a.
N (0, 1) independantes. Quitte `a la renumeroter on peut ecrire cette suite sous la forme
N0 , (Nnk )n0,0k2n 1 .
222
Il est immediat de verifier que cette famille constitue un syst`eme orthonorme dans L2 (, F , P ).
Il existe alors une (unique) isometrie, notee B, de L2 ([0, 1], B([0, 1]), ) dans L2 (, F , P ) telle
que B(h0 ) = N0 et B(hkn ) = Nnk pour tous n 0, 0 k 2n 1. Precisement,
2X
1n
X
B(f ) = hf, h0 iN0 + hf, hkn iNnk ,
n=0 k=0
pour toute f L2 ([0, 1], B([0, 1]), ) (la serie converge dans L2 (, F , P )). Remarquons que
E[B(f )2 ] = kf k22
par la propriete disometrie, et que E[B(f )] = 0 puisque les v.a. N0 , Nnk sont toutes centrees.
De plus le lemme suivant montrera que B(f ) suit une loi gaussienne.
Lemme 14.2.2 Soit (Un ) une suite de v.a. gaussiennes qui converge dans L2 vers U. Alors
U est aussi gaussienne.
Bt = B(1[0,t] ).
223
qui suit une loi N (0, ti ti1 ). De plus, si i 6= j,
cov(Bti Bti1 , Btj Btj1 ) = E[(Bti Bti1 )(Btj Btj1 )] = h1]ti1 ,ti ] , 1]tj1 ,tj ] i = 0.
Or il est facile de verifier que le vecteur (Bt1 , Bt2 Bt1 , . . . , Btp Btp1 ) est un vecteur
gaussien : si 1 , . . . , p R,
p
X X
p
j (Btj Btj1 ) = B j 1]tj1 ,tj ]
j=1 j=1
suit une loi gaussienne. Dapr`es la Proposition 11.4.2, le fait que la matrice de covariance
(cov(Bti Bti1 , Btj Btj1 ))i,j=1,...,p soit diagonale entrane lindependance des v.a. Bt1 , Bt2
Bt1 , . . . , Btp Btp1 , ce qui ach`eve la preuve de (P1).
Il reste `a etablir la propriete de continuite (P2). Pour linstant, Bt = B(1[0,t] ) est defini
comme un element de L2 (, F , P ), donc une classe dequivalence de variables egales p.s. Pour
que la verification de (P2) ait un sens, il est necessaire de specifier un representant dans cette
classe dequivalence, et cela pour chaque t [0, 1] (ce choix navait pas dinfluence sur la
validite ou non de (P1) mais il en a pour (P2)). A cette fin, nous allons etudier de plus pr`es
la serie qui definit Bt . On commence par introduire les fonctions de Schauder
g0 (t) = h1[0,t] , h0 i = t
Z t
k k
gn (t) = h1[0,t] , hn i = hkn (s)ds.
0
u la serie converge a priori dans L2 (, F , P ) pour chaque t [0, 1] fixe. Nous allons montrer
o`
bien plus, `a savoir que la serie converge uniformement sur lintervalle [0, 1], pour tout ,
sauf peut-etre pour appartenant `a un ensemble A F de probabilite nulle. On definit
alors Bt () comme la somme de la serie precedente si Ac et on prend Bt () = 0 pour
tout t [0, 1] si A (puisque si une suite de v.a. converge p.s. et dans L2 les limites p.s.
et L2 sont les memes, il est clair quon a ainsi simplement specifie un choix dans la classe
dequivalence de v.a. egales p.s. `a B(1[0,t] ), et on na rien change `a la validite de (P1)). On
obtiendra la continuite des applications t Bt () en observant quune limite uniforme de
fonctions continues est continue.
On remarque dabord que 0 gnk 2n/2 et que pour n fixe les fonctions gnk , 0 k
2n 1 sont `a supports disjoints (gnk (t) > 0 seulement si k2n < t < (k + 1)2n ). Donc,
2X
n 1
sup gnk (t)Nnk 2n/2 sup |Nnk |.
t[0,1] 0k2n 1
k=0
224
Lemme 14.2.3 Si N suit la loi N (0, 1), on a pour tout a 1,
2 /2
P (|N| a) ea .
Preuve. Il suffit decrire
Z Z
2 x2 /2 2 x x2 /2 2 2
P (|N| a) = dx e dx e = ea /2 .
2 a 2 a a a 2
Puisque les v.a. Nnk sont toutes de loi N (0, 1), on peut utiliser le lemme pour majorer
n 1
2X
n
P sup |Nnk | >2 n/4
P (|Nnk | > 2n/4 ) 2n exp(2 2 1 ).
0k2n 1
k=0
En posant n o
An = sup |Nnk | > 2n/4
0k2n 1
do`
u
2X
n 1
k
sup gn (t)Nn 2n/4
k
t[0,1] k=0
ce qui assure que la serie de la definition de Bt converge uniformement sur lintervalle [0, 1].
Cela termine la verification de (P2). On peut aussi remarquer que cette construction donne
B0 () = 0 pour tout et pas seulement p.s.
Il reste `a saffranchir de la restriction t [0, 1], et `a generaliser le resultat en dimension
(1) (2)
d quelconque. Dans un premier temps on consid`ere des familles (Bt )t[0,1] , (Bt )t[0,1] , etc.
construites comme ci-dessus, en prenant `a chaque fois une nouvelle suite de v.a. gaussiennes
independantes, independante des suites precedentes. On pose ensuite
(1) (2) (k) (k+1)
Bt = B1 + B1 + + B1 + Btk si t [k, k + 1[.
On verifie aisement que (Bt )tR+ est un mouvement brownien en dimension un.
Pour passer `a une dimension d quelconque, il suffit de se donner d mouvements browniens
en dimension un independants, notes (Bt1 )tR+ , . . . , (Btd )tR+ et de poser
Bt = (Bt1 , Bt2 , . . . , Btd )
pour tout t R+ . Ceci ach`eve la preuve du theor`eme.
Si x Rd , on appelle mouvement brownien issu de x tout processus (Bt )tR+ tel que
(Bt x)tR+ soit un mouvement brownien issu de 0.
225
14.3 La mesure de Wiener
Soit C(R+ , Rd ) lespace des fonctions continues de R+ dans Rd . On munit cet espace de la
tribu C qui est la plus petite tribu rendant mesurables les applications coordonnees w w(t)
pour tout t R+ .
Lemme 14.3.1 La tribu C concide avec la tribu borelienne lorsque C(R+ , Rd ) est muni de
la topologie de la convergence uniforme sur tout compact.
On sait que lespace C(R+ , Rd ) est separable et donc que tout ouvert est reunion denombrable
de boules. Il suffit alors de montrer que toute boule est dans la tribu C, ou encore que pour
w0 C(R+ , Rd ) fixe, lapplication w d(w0 , w) est C-mesurable. Or en ecrivant pour tout
n 1,
sup (|w(t) w0 (t)| 1) = sup (|w(t) w0 (t)| 1)
t[0,n] t[0,n]Q
Definition 14.3.1 Soit (Bt )tR+ un mouvement brownien en dimension d (issu de 0), defini
sur un espace de probabilite (, F , P ). La mesure de Wiener en dimension d est la mesure
de probabilite P0 sur C(R+ , Rd ) definie comme la mesure-image de P (d) par lapplication
: (Bt ())tR+
C(R+ , Rd )
Remarquons que lapplication est mesurable : comme cela a ete observe dans le chapitre
precedent dans un contexte un peu different, il suffit de voir que la composee de avec
chacune des applications coordonnees w w(t) est mesurable, ce qui est immediat (cette
composee donne les v.a. Bt ).
La definition precedente na de sens que parce quelle ne depend pas du choix du mouve-
ment brownien B. Cela se voit de la mani`ere suivante. Si 0 = t0 < t1 < < tp , on a pour
tous A0 , A1 , . . . , Ap boreliens de Rd ,
dapr`es la formule (14.2), qui est vraie pour nimporte quel mouvement brownien B (cest
juste une reformulation de (P1)). Or le lemme de classe monotone montre quune mesure de
226
probabilite sur C(R+ , Rd ) est caracterisee par ses valeurs sur les cylindres, cest-`a-dire les
ensembles de la forme
Cela montre bien que P0 est determinee de mani`ere unique, independamment du choix du
mouvement brownien B : autrement dit tous les mouvements browniens (issus de 0) ont la
meme loi, qui est la mesure de Wiener.
Remarque. En un certain sens, la mesure de Wiener joue sur lespace C(R+ , Rd ) un role
analogue `a la mesure de Lebesgue sur [0, 1].
Si x Rd , on note aussi Px (dw) la mesure-image de P0 (dw) par la translation w x + w
(cest la loi du mouvement brownien issu de x).
Construction canonique du mouvement brownien. Elle consiste `a prendre comme
espace de probabilite = C(R+ , Rd ) muni de la tribu C et de la probabilite P0 . On definit
alors pour tout t 0,
Bt (w) = w(t), w .
La famille (Bt )tR+ , definie sur lespace de probabilite (, C, P0 ), est un mouvement brownien
issu de 0. La propriete (P2) est evidente. La propriete (P1) decoule de la formule donnee
ci-dessus pour
14.4 Premi`
eres propri
et
es du mouvement brownien
Dans ce paragraphe et le suivant, on consid`ere un mouvement brownien B en dimension d,
issu de 0. Pour tout s 0 on note Fs la tribu engendree par les v.a. (Br , 0 r s). On
note aussi F la tribu engendree par toutes les v.a. Bt , t R+ .
Proposition 14.4.1 (i) Si est une isometrie vectorielle de Rd , ((Bt ))tR+ est aussi un
mouvement brownien (en particulier B est un mouvement brownien);
(ii) pour tout > 0, le processus Bt = 1 B 2 t est aussi un mouvement brownien (invariance
par changement dechelle);
(s)
(iii) pour tout s 0, le processus Bt = Bs+t Bs est un mouvement brownien independant
de Fs (propriete de Markov simple).
Preuve. (i) et (ii) sont tr`es faciles. Pour lindependance dans (iii), on observe que pour
tout choix de t1 < t2 < < tp et r1 < r2 < < rq s, la propriete (P1) entrane que le
vecteur
(s) (s)
(Bt1 , . . . , Btp )
227
est independant de
(Br1 , . . . , Brq ).
(s)
En utilisant la Proposition 9.2.4, on en deduit aisement que la famille (Bt )tR+ est independante
de (Br )0rs .
Th
eor`
eme 14.4.2 (Loi du tout ou rien de Blumenthal) Soit
\
F0+ = Fs .
s>0
Preuve. Soit A F0+ et soient t1 , . . . , tp > 0. Pour > 0 assez petit, la propriete de Markov
simple (Proposition 14.4.1 (iii)) entrane que (Bt1 B , . . . , Btp B ) est independant de F ,
donc a fortiori de F0+ . En consequence, pour toute fonction f continue bornee sur (Rd )p ,
et donc (Bt1 , . . . , Btp ) est independant de F0+ . Grace `a nouveau `a la Proposition 9.2.4, il
en decoule que F est independante de F0+ . En particulier F0+ F est independante
delle-meme, ce qui entrane que F0+ est grossi`ere.
p.s., a R, Ta < .
En consequence, p.s.,
lim sup Bt = +, lim inf Bt = .
t t
Remarque. Il nest pas a priori evident que la variable sup0s Bs soit mesurable: il
sagit dun supremum non denombrable de fonctions mesurables. Cependant, parce que
nous savons que les trajectoires de B sont continues, on peut se restreindre aux valeurs
rationnelles de s [0, ] et on obtient un supremum denombrable de variables aleatoires
(ou alors on peut utiliser le Lemme 14.3.1).
Preuve. Soit (p ) une suite de reels strictement positifs decroissant vers 0, et soit
\
A = { sup Bs > 0}.
0sp
p
228
Il est clair que levenement A est F0+ -mesurable. Dautre part,
et
1
P ( sup Bs > 0) P (Bp > 0) = ,
0sp 2
puisque Bp suit la loi gaussienne N (0, p ) qui est symetrique. Cela montre que P (A) 1/2.
Dapr`es le Theor`eme 14.4.2 on a P (A) = 1, do` u
(la derni`ere egalite est vraie parce que la loi du mouvement brownien est definie de mani`ere
unique : voir les remarques suivant la Definition 14.3.1). En faisant tendre vers 0, on
trouve
P (sup Bs > 1) = 1.
s0
P (sup Bs > A) = 1
s0
P (inf Bs < A) = 1.
s0
229
14.5 La propri
et
e de Markov forte
Notre but est detendre la propriete de Markov simple (Proposition 14.4.1 (iii)) au cas o` u
linstant deterministe s est remplace par un temps aleatoire T . Nous devons dabord preciser
la classe des temps aleatoires admissibles. On garde les notations Ft et F introduites ci-
dessus.
Definition 14.5.1 Une variable aleatoire T `a valeurs dans [0, ] est un temps darret si
t 0, {T t} Ft .
est dans Ft .
Exemple. En dimension d = 1, Ta = inf{t 0 : Bt = a} est un temps darret. En effet
D
efinition 14.5.2 Soit T un temps darret. La tribu des evenements anterieurs `a T est
FT = {A F ; t 0, A {T t} Ft }.
On verifie facilement que les variables aleatoires T et 1{T <} BT sont FT -mesurables
(pour la deuxi`eme remarquer que
X
1{T <} BT = lim 1{i2n T <(i+1)2n } Bi2n ,
n
i=0
Theor`eme 14.5.1 (Propri e de Markov forte) Soit T un t.a. tel que P (T < ) > 0.
et
Alors, conditionnellement `a {T < }, le processus B (T ) defini par
(T )
Bt = BT +t BT
Remarque. Pour etre tout `a fait precis, il faut aussi definir B (T ) sur lensemble {T = },
par exemple en posant Bt () = 0 pour tout t 0 si T () = (ce choix na evidemment
aucune influence sur le resultat ci-dessus).
Preuve. Supposons dabord T < p.s. On va montrer que, pour A FT , 0 t1 < < tp
et F continue bornee de (Rd )p dans R+ , on a
(T ) (T )
E[1A F (Bt1 , . . . , Btp )] = P (A) E[F (Bt1 , . . . , Btp )]. (14.3)
230
Cela suffit pour etablir les differentes assertions du theor`eme : le cas A = montre que
(T )
B (T ) est un mouvement brownien (remarquer que les applications t Bt () sont contin-
ues) et dautre part (14.3) entrane que pour tout choix de 0 t1 < < tp , le vecteur
(T ) (T )
u il decoule que B (T ) est independant de FT .
(Bt1 , . . . , Btp ) est independant de FT , do`
Pour montrer (14.3), on observe dabord que p.s.
(T ) (T )
F (Bt1 , . . . , Btp )
X
= lim 1{(k1)2n <T k2n } F (Bk2n +t1 Bk2n , . . . , Bk2n +tp Bk2n ),
n
k=0
do`
u par convergence dominee,
(T ) (T )
E[1A F (Bt1 , . . . , Btp )]
X
= lim E[1A 1{(k1)2n <T k2n } F (Bk2n +t1 Bk2n , . . . , Bk2n +tp Bk2n )].
n
k=0
Pour A FT , levenement A {(k 1)2n < T k2n } est Fk2n -mesurable. Dapr`es la
propriete de Markov simple (Proposition 14.4.1 (iii)), on a donc
Ta = inf{t 0, Bt = a}.
231
(T )
puisque BtTa a = Bt BTa = Bt a. Notons B = B (Ta ) , de sorte que dapr`es le theor`eme
14.5.1, le processus B est un mouvement brownien independant de FTa donc en particulier
de Ta . Comme B a meme loi que B , le couple (Ta , B ) a aussi meme loi que (Ta , B ).
Notons H = {(s, w) R+ C(R+ , R); s t, w(t s) b a}. La probabilite precedente
vaut
P ((Ta , B ) H] = P [(Ta , B ) H)
(T )
= P (Ta t, BtTa a b a)
= P (Ta t, Bt 2a b)
= P (Bt 2a b)
do`
u le resultat voulu.
On deduit immediatement du theor`eme precedent que la loi du couple (St , Bt ) a pour
densite
2(2a b) (2a b)2
g(a, b) = exp 1{a>0,b<a} .
2t3 2t
a2
Corollaire 14.5.3 (d = 1) Pour tout a > 0, Ta a meme loi que et a donc pour densite
B12
a a2
f (t) = exp 1{t>0} .
2t3 2t
Preuve. On ecrit
P (Ta t) = P (St a)
= P (|Bt | a) (Theor`eme 14.5.2)
= P (Bt2 a2 )
= P (tB12 a2 ) (Bt a meme loi que tB1 )
a2
= P ( 2 t).
B1
Ensuite, puisque B1 suit une loi N (0, 1) on calcule facilement la densite de a2 /B12 .
Reformulation sur lespace canonique.
En vue des applications qui suivent, il sera utile de reformuler la propriete de Markov sur
lespace canonique = C(R+ , Rd ). A partir de maintenant on se place donc sur cet espace,
sur lequel on consid`ere le processus Bt (w) = w(t), et la filtration canonique Ft = (Bs , 0
s t). Rappelons que, pour tout x Rd , (Bt )t0 est sous Px un mouvement brownien issu
de x.
232
On introduit aussi les operateurs de translation. Pour tout s 0, s : est defini
par
(s w)(t) = w(s + t) , t 0.
Alternativement, Bt s = Bs+t .
Ensuite on ecrit
E0 [1{T <} F G T ] = E0 [1{T <} F G(BT + B(T ) )] = E0 [1{T <} F E0 [G(BT + B(T ) ) | FT ]],
(T ) (T )
u B designe la fonction continue (Bt )t0 , vue comme v.a. `a valeurs dans C(R+ , Rd ).
o`
(T )
Dune part BT est FT -mesurable, dautre part B est independant de FT et de loi P0 ,
dapr`es le Theor`eme 14.5.1. En utilisant le Theor`eme 11.3.4, on a
Z
(T )
E0 [G(BT + B ) | FT ] = P0 (dw) G(BT + w) = EBT [G]
do`
u le resultat voulu.
2 d/2
avec cd = (d/2)
.
233
Lemme 14.6.1 La mesure d est la seule mesure de probabilite sur la sph`ere S d1 qui soit
invariante par laction des isometries vectorielles.
Preuve. Soit une autre mesure de probabilite sur S d1 invariante par laction des
isometries vectorielles. Alors, pour tout Rd et toute isometrie vectorielle ,
Z Z Z
ix i1 (x)
b() = e (dx) = e (dx) ei()x (dx) =
b(()).
bd () = g(||).
Donc f = g, do`
ub=
bd et = d grace au Theor`eme 8.2.4.
d r)
Si x R et r > 0 on note B(x, r) la boule ouverte de centre x et de rayon r, et B(x,
la boule fermee. La probabilite uniforme sur la sph`ere de centre x et de rayon r, notee x,r
est par definition limage de d (dy) par lapplication y x + ry.
Rappelons que jusqu`a la fin du chapitre on consid`ere le mouvement brownien defini sur
lespace canonique comme cela a ete precise `a la fin de la partie precedente.
234
Definition 14.6.1 Soit D un domaine de Rd . Une fonction mesurable localement bornee
r) soit
h : D R est dite harmonique si, pour tous x D et r > 0 tels que la boule B(x,
contenue dans D, on a Z
h(x) = h(y) x,r (dy). (14.5)
h|D = g au sens o`
u, pour tout y D,
Th
eor`
eme 14.6.3 Soit D un domaine borne, et soit g une fonction mesurable bornee sur
D. Notons
T = inf{t 0 : Bt
/ D}.
Alors la fonction
h(x) = Ex [g(BT )], xD
est harmonique sur D.
on voit que T est un temps darret. Des proprietes du mouvement brownien en dimension
un il decoule aussi que T < Px p.s. On a vu qualors BT est une variable aleatoire (meme
FT -mesurable) et donc Ex [g(BT )] est bien definie, et bornee par sup{|g(y)|, y D}.
Justifions maintenant le fait que h est mesurable. Rappelons la notation C pour la
tribu introduite sur C(R+ , Rd ). Alors, pour tout A C, lapplication x Px (A) est
mesurable : cela est vrai pour les cylindres de la forme A = {w : w(t1 ) A1 , . . . , w(tp ) Ap },
puisque dans ce cas on a une formule explicite, et il suffit ensuite dutiliser un argument de
classe monotone. Il en decoule que pour toute fonction F mesurable bornee sur C(R+ , Rd ),
lapplication x Ex [F ] est mesurable. On applique ceci `a
235
r) D. Posons
Fixons maintenant x D et r > 0 tels que B(x,
S = inf{t 0 : Bt
/ B(x, r)} = inf{t 0 : |Bt x| r}.
Il est clair que S T , Px p.s. (en fait S(w) T (w) pour tout w = C(R+ , Rd )). De
plus,
BT = BT S , Px p.s.
En effet cest simplement dire que si t w(t) est une trajectoire issue du point x, le point
de sortie de D pour cette trajectoire est le meme que celui pour la meme trajectoire dont
on a efface le debut entre le point de depart et le point de sortie de la boule B(x, r) : cela
r) D.
est evident parce que B(x,
On peut donc utiliser la propriete de Markov forte sous la forme du Theor`eme 14.5.4 et
obtenir
Z
h(x) = Ex [g(BT )] = Ex [g(BT ) S ] = Ex [EBS [g(BT )]] = Ex [h(BS )] = h(y) x,r (dy)
D0 = {x D : dist(x, D c ) > r0 }.
Il suffit de montrer que h est de classe C sur D0 . Pour cela, considerons une fonction
: R R+ de classe C `a support compact contenu dans ]0, r0 [, et non identiquement
nulle. Alors, pour tout x D0 et tout r ]0, r0 [,
Z Z
h(x) = x,r (dz) h(z) = d (dy) h(x + ry).
236
On multiplie les deux membres extremes de cette egalite par r d1 (r) et on int`egre par
rapport `a dr entre 0 et r0 . En utilisant la formule (14.4) on trouve que, pour une constante
c > 0 dependant seulement de , on a pour tout x D0 ,
Z r0 Z
d1
c h(x) = cd dr r (r) d (dy) h(x + ry)
Z 0
= dz (|z|)h(x + z)
B(0,r0 )
Z
= dz (|z x|)h(x)
B(x,r0 )
Z
= dz (|z x|)e h(x)
Rd
On voit ainsi que sur D0 , h concide avec la convolution de la fonction z (|z|), qui
est de classe C et `a support compact, avec la fonction e h, qui est mesurable bornee. Nous
avons remarque `a la fin du Chapitre 2, comme application du theor`eme de derivation sous
le signe integrale, quune telle convolution est de classe C .
Il reste `a etablir la deuxi`eme assertion. En reprenant le calcul ci-dessus avec = 1[0,r0 [ ,
on trouve pour x D0 , Z
h(x) = c dy h(y)
B(x,r0 )
Corollaire 14.6.5 Si une solution du probl`eme de Dirichlet existe, elle est unique.
soit Z
dy (f (x0 ) f (y)) = 0.
B(x0 ,r)
Puisque f (x0 ) f (y) pour tout y D, ceci nest possible que si f (x0 ) = f (y), d (dy) p.p.
sur B(x0 , r). Comme f est continue (`a nouveau grace `a la proposition precedente) on a donc
f (x0 ) = f (y) pour tout y B(x0 , r). On a ainsi montre que {x D : f (x) = M} est ouvert.
237
Mais dautre part cet ensemble est aussi un ferme de D, et puisque D est connexe, on a
necessairement {x D : f (x) = M} = D. Cela est absurde puisque M > 0 et f doit tendre
vers 0 `a la fronti`ere de D.
efinition 14.6.2 On dit que D satisfait la condition de cone exterieur si, pour tout y
D
D, il existe r > 0 et un cone de revolution ouvert C de sommet y tels que C B(y, r) D c .
Th eor`eme 14.6.6 Supposons que D est un domaine borne satisfaisant la condition de cone
exterieur, et soit g une fonction continue sur D. Alors la fonction
h(x) = Ex [g(BT )], xD
est lunique solution du probl`eme de Dirichlet.
Preuve. Compte-tenu du Theor`eme 14.6.3 et du Corollaire 14.6.5, il suffit de verifier que,
pour tout y D fixe,
lim h(x) = g(y). (14.7)
xy,xD
Soit > 0. Grace `a la continuite de g, on peut choisir > 0 tel que, si z D et |z y| < ,
on a
|g(z) g(y)| < .
3
Soit ensuite M > 0 tel que |g(z)| < M pour tout z D. On a alors, pour tout > 0,
|Ex [g(BT )] g(y)| Ex [|g(BT ) g(y)|1{T }] + Ex [|g(BT ) g(y)|1{T >} ]
Ex [|g(BT ) g(y)|1{T }1{supt |Bt x|/2} ]
+2MPx sup |Bt x| > + 2M Px (T > )
t 2
= I + II + III.
Nous allons majorer separement les trois termes I, II, III.
Si |x y| < 2 , on a sur levenement {T } {supt |Bt x| /2}
|BT y| |BT x| + |x y| <
et le choix de assure que le terme I est majore par /3.
En utilisant linvariance par translation, on a
II = 2MP0 sup |Bt | >
t 2
et donc le terme II ne depend pas de x. Clairement II tend vers 0 quand tend vers 0
(cest juste dire que supt |Bt | 0 en probabilite sous P0 , ce qui est vrai puisquil y a
convergence p.s. par continuite). On peut donc choisir > 0 assez petit de mani`ere que
II < /3.
Comme a ete choisi de mani`ere arbitraire, il reste pour etablir (14.7) `a montrer quon
peut choisir ]0, /2] suffisamment petit de mani`ere que si |x y| < , le terme III =
2M Px (T > ) est aussi majore par /3. Or cela est une consequence du lemme suivant, qui
compl`ete donc la preuve du theor`eme.
238
Lemme 14.6.7 Sous la condition de cone exterieur, on a pour tout y D et tout > 0,
lim Px (T > ) = 0.
xy,xD
Remarque. Comme cela a ete suggere apr`es la preuve du Theor`eme 14.6.3, le point-cle dans
la verification de la condition fronti`ere (14.7) est de sassurer que le mouvement brownien
partant pr`es de la fronti`ere de D va sortir de D rapidement, avec une grande probabilite.
Cest precisement ce que nous dit le lemme. La condition de cone exterieur nest pas la
meilleure possible pour cela, mais elle donne dej`a des applications interessantes, comme
nous le verrons plus loin.
Preuve. Commencons par reecrire la condition de cone exterieur en y D. Pour u S d1
et > 0, notons
C(u, ) = {z Rd : z u > (1 )|z|}
le cone de revolution ouvert de sommet 0, de direction u et douverture . Alors on peut
choisir r > 0, u S d1 et > 0 tels que
y + (C(u, ) B(0, r)) D c .
Pour alleger lecriture on note C = C(u, ) B(0, r). Posons aussi
e = {z Rd : z u > (1 )|z|} B(0, r )
C
2 2
r
qui correspond `a lintersection avec B(0, 2 ) dun cone un peu plus petit que C(u, r).
Il decoule facilement de la loi du tout ou rien (Theor`eme 14.4.2) que, si TCe = inf{t 0 :
e on a
Bt C},
TCe = 0 , P0 p.s..
e
En effet, si (n ) est une suite decroissant strictement vers 0, levenement lim sup{Bn C}
est dans la tribu F0+ , et un argument analogue `a la preuve du Corollaire 14.4.3 montre que
cet evenement est de probabilite strictement positive.
Pour a ]0, r/2[, notons
ea = C
C e B(0, a)c .
Puisque les ensembles C ea croissent vers Ce quand a 0, on a T e T e = 0, P0 p.s., et donc
Ca C
pour tout > 0 on peut fixer a assez petit tel que
P0 (TCea ) > 1 .
En utilisant le fait que y + C D c , on a, avec des notations evidentes,
Px (T ) Px (Ty+C ) = P0 (Tyx+C ).
Or un raisonnement geometrique simple (faire un dessin!) montre que, d`es que |y x| est
ea , et alors
assez petit, le cone translate y x + C contient C
Px (T ) P0 (TCea ) > 1
dapr`es le choix de a. Comme etait arbitraire on a termine la preuve du lemme.
Nous en venons maintenant `a une autre caracterisation analytique des fonctions har-
moniques, qui est souvent prise comme definition.
239
Proposition 14.6.8 Soit h une fonction localement bornee sur le domaine D. Alors h est
harmonique sur D si et seulement si h est de classe C 2 sur D et h = 0.
Preuve. On suppose dabord que h est harmonique. La Proposition 14.6.4 montre que h
r0 ) soit contenue
est de classe C sur D. Soit x D et soit r0 > 0 tel que la boule B(x,
dans D. Toujours dapr`es la Proposition 14.6.4, on a pour tout r ]0, r0 ],
Z
1
h(x) = h(y) dy. (14.8)
d (B(x, r)) B(x,r)
Dautre part la formule de Taylor `a lordre deux montre que, pour y B(x, r),
Xd d
h 1 X 2h
h(y) = h(x) + (x) (yi xi ) + (x) (yi xi )(yj xj ) + o(r 2 )
i=1
yi 2 i,j=1 yi yj
u le reste o(r 2 ) est uniforme quand y decrit B(x, r). En integrant cette egalite sur B(x, r),
o`
et en utilisant les symetries evidentes, on trouve
Z d Z
1 X 2h
h(y) dy = d (B(x, r)) h(x) + 2
(x) (yi xi )2 dy + o(r d+2 ).
B(x,r) 2 i=1
y i B(x,r)
R
Posons C1 = B(0,1) y12 dy > 0. Legalite precedente et (14.8) conduisent `a
C1
h(x) r d+2 + o(r d+2 ) = 0
2
ce qui nest possible que si h(x) = 0.
Inversement supposons h de classe C 2 sur D et h = 0. Il suffit alors de montrer que
si U est une boule ouverte telle que U D, h est harmonique sur U. Dapr`es le Theor`eme
14.6.6, il existe une (unique) fonction e harmonique dans U, et telle que
h continue sur U,
e
h(x) = h(x) pour tout x U. De plus, la premi`ere partie de la preuve montre que e h=0
sur U. En appliquant le lemme suivant aux deux fonctions h e h et e
h h (definies sur U)
on trouve que h = e h sur U , ce qui termine la preuve de la proposition.
Preuve. Supposons dabord quon a la propriete plus forte u > 0 sur D. On raisonne par
labsurde en supposant
sup u(x) > sup u(x).
xV xV
240
On a alors
u
(x0 ) = 0 , j {1, . . . , d}
yj
et de plus la formule de Taylor `a lordre deux assure que la matrice symetrique
2u
Mx0 = (x0 )
yi yj i,j{1,...,d}
est negative, au sens o`u la forme quadratique associee ne prend que des valeurs negatives ou
nulle. En particulier les valeurs propres de Mx0 sont toutes negatives ou nulles et la trace
de Mx0 lest aussi. Mais ceci est une contradiction puisque la trace de Mx0 est u(x0 ) > 0.
Si on fait lhypoth`ese plus faible u 0 sur D, il suffit de poser pour tout > 0, et tout
x V
u (x) = u(x) + x21 ,
de sorte que u = u + 2 > 0. La premi`ere partie de la preuve assure que
(h(BtHU ))t0
De mani`ere informelle les fonctions harmoniques sont celles qui composees avec le mou-
vement brownien donnent des martingales. La condition de cone exterieur dans lenonce qui
prec`ede est superflue mais intervient pour des raisons techniques dans notre demonstration.
Preuve. Supposons dabord que h est harmonique, et soit U un ouvert satisfaisant les
conditions de lenonce. On note H = HU pour alleger, et on fixe x U. Remarquons que les
241
v.a. h(BtH ) sont bornees Px p.s. par sup{|h(y)| : y U } < . Soient s t. Observons que
la v.a. BsH est FsH -mesurable donc aussi Fs -mesurable. Pour obtenir legalite recherchee
E[h(BtH ) | Fs ] = h(BsH ), il suffit de montrer que, pour toute v.a. F Fs -mesurable bornee,
on a
Ex [F h(BsH )] = Ex [F h(BtH )].
Or on peut interpreter h comme la solution (unique) du probl`eme de Dirichlet dans U dont
la condition fronti`ere est simplement la restriction de h `a U. Le Theor`eme 14.6.6 montre
que, pour tout y U,
h(y) = Ey [h(BH )].
Il en decoule que
Mais puisque F 1{s<H} est Fs -mesurable (exercice), la propriete de Markov (sous la forme
du Theor`eme 14.5.4, avec le temps darret constant s) montre que
On obtient ainsi
En faisant tendre t vers , on a h(x) = Ex [h(BH )], et le Theor`eme 14.6.3 montre que h est
harmonique sur U ce qui suffit pour conclure.
A partir de maintenant, on suppose que d 2 (remarquer quen dimension un les fonc-
tions harmoniques sont les fonctions affines).
Soit f : Da,b R une fonction radiale, au sens o` u f (x) ne depend que de |x|. Alors f est
harmonique si et seulement sil existe deux constantes C, C R telles que
C + C log |x| si d = 2,
f (x) =
C + C |x|2d si d 3.
242
Preuve. Nous savons dej`a que f doit etre de classe C . Soit g :]a, b[ R la fonction telle
que f (x) = g(|x|). Lexpression du Laplacien pour une fonction radiale montre que
d1
f (x) = g (|x|) + g (|x|).
|x|
Dapr`es la Proposition 14.6.8, f est harmonique si et seulement si g satisfait lequation
differentielle
d1
g (r) + g (r) = 0
r
quil suffit de resoudre pour obtenir la proposition.
Dans les deux enonces suivants on note TA = inf{t 0 : Bt A} pour tout ferme A de
Rd .
Proposition 14.7.3 Soit x Rd \{0}, et soient , R > 0 avec < |x| < R. Alors,
log Rlog |x| si d = 2,
log Rlog
Px (TB(0,)
< TB(0,R)c ) = (14.9)
|x|2d R2d si d 3.
2d R2d
h(x) = Px (TB(0,)
< TB(0,R)c ) , < |x| < R
est la solution unique du probl`eme de Dirichlet avec condition fronti`ere g. Mais en utilisant
la Proposition 14.7.2, on voit immediatement que le terme de droite dans (14.9) est solution
du meme probl`eme de Dirichlet. Cela donne legalite recherchee.
On peut deduire de la proposition precedente des informations interessantes sur le com-
portement presque s ur des fonctions t Bt .
Corollaire 14.7.4 (i) Si d 3, pour tous > 0 et x Rd tels que < |x|,
d2
Px (TB(0,)
< ) = ( ) .
|x|
243
(ii) Si d = 2, pour tous > 0 et x Rd tels que < |x|,
Px (TB(0,)
< ) = 1
mais
Px (T{0} < ) = 0.
De plus, Px p.s., pour tout ouvert U de R2 , lensemble {t 0 : Bt U} est non borne.
Par analogie avec le cas des chanes de Markov, on dit que le mouvement brownien est
transitoire en dimension d 3 et recurrent en dimension d = 2. Noter que cette propriete
de recurrence dans le plan nentrane pas que tous les points soient visites : au contraire un
point fixe, autre que le point de depart, nest pas visite avec probabilite 1.
Preuve. (i) La premi`ere assertion est facile puisque
Px (TB(0,)
< ) = lim Px (TB(0,)
< TB(0,n)c )
n
T(n) = TB(0,2n )c .
Px (TB(0,)
< ) = 1.
Px (T{0} < ) = 0.
244
On a donc `a la fois
Px p.s. > 0, TB(0,)
<
et
Px p.s. 0
/ {Bt : t 0}.
Ces deux proprietes entranent que Px p.s. 0 est un point daccumulation de la fonction
t Bt quand t . Donc, pour tout ouvert U contenant 0, lensemble {t 0 : Bt U}
est Px p.s. non borne. Un argument de translation donne alors la derni`ere propriete du
corollaire, en remarquant aussi quon peut se limiter `a une famillle denombrable de choix de
U.
Noyau de Poisson. Rappelons que nous nous placons en dimension d 2. Le noyau de
Poisson (de la boule unite) est la fonction definie sur B(0, 1) S d1 par
1 |x|2
K(x, y) = , x B(0, 1), y S d1 .
|x y|d
Lemme 14.7.5 Pour tout y S d1 fixe, la fonction x K(x, y) est harmonique sur
B(0, 1).
Preuve. Posons Ky (x) = K(x, y) pour x B(0, 1). Un calcul direct montre que Ky = 0
sur B(0, 1), et il suffit dappliquer la Proposition 14.6.8.
Lemme 14.7.6 Pour tout x B(0, 1),
Z
K(x, y) d (dy) = 1.
S d1
Alors, on deduit facilement du lemme precedent que F est harmonique sur B(0, 1) : on
peut appliquer le theor`eme de Fubini pour verifier que F satisfait la propriete de moyenne
(ou deriver sous le signe integrale pour montrer que F = 0). Par ailleurs, en utilisant les
proprietes dinvariance de d et de K par les isometries vectorielles, on obtient que F est
une fonction radiale. Sur la boule ouverte privee de lorigine B(0, 1)\{0}, F doit donc etre
de la forme donnee dans la Proposition 14.7.2. Mais puisque F est aussi continue en 0, la
constante C intervenant dans les formules de cette proposition doit etre nulle. On a donc,
pour tout x B(0, 1), F (x) = F (0) = 1.
Theor`eme 14.7.7 Soit g une fonction continue sur S d1 . La solution du probl`eme de
Dirichlet dans B(0, 1) avec condition fronti`ere g est donnee par
Z
h(x) = K(x, y) g(y) d(dy) , x B(0, 1).
S d1
De plus, pour tout x B(0, 1) fixe, la fonction y K(x, y) est la densite par rapport `a la
mesure d (dy) de la loi sous Px du point de sortie du mouvement brownien hors de B(0, 1).
245
Preuve. Les memes arguments que dans la preuve du Lemme 14.7.6 montrent que h est
harmonique dans B(0, 1). Pour verifier la condition fronti`ere, fixons y0 S d1 . Pour tout
> 0, la forme explicite du noyau de Poisson montre que si x B(0, 1) et y S d1 sont
tels que |x y0 | < /2 et |y y0 | > on a
2
K(x, y) ( )d (1 |x|2 ).
Il decoule de cette majoration que, pour tout > 0,
Z
lim K(x, y) (dy) = 0. (14.10)
xy0 ,xB(0,1) {|yy0 |>}
Ensuite, si > 0 est donne, on choisit > 0 assez petit pour que |g(y) g(y0)| d`es que
y S d1 et |y y0 | . Si M = sup{|g(y)| : y S d1 }, il vient
Z
|h(x) g(y0)| = K(x, y) (g(y) g(y0)) d (dy)
d1
SZ
2M K(x, y) (dy) + ,
{|yy0 |>}
u T = inf{t 0 : Bt
o` / D}. En comparant les deux formules pour h on obtient precisement
que la loi de BT est la mesure K(x, y)d (dy).
246
Quelques r
ef
erences
Partie I : Integration.
Le livre classique de Rudin [7] est toujours une bonne reference. Le livre de Briane et
Pag`es [2] est tr`es detaille et assez complet.
[1] M.R. Adams, V. Guillemin. Measure Theory and Probability. Birkhauser, 1996.
[5] R.M. Dudley. Real Analysis and Probability. Chapman and Hall, 1989.
Partie II : Probabilites.
[9] et [18] sont des ouvrages en francais dont le niveau correspond grosso-modo `a celui
du cours. [10] et [11] sont des classiques dont la lecture est toujours interessante. [13] et [17]
sont des livres plus recents ecrits par des probabilistes de tout premier plan.
[12] K.L. Chung. A Course in Probability Theory. Harcourt Brace and World, 1968.
[13] R. Durrett. Probability and Examples, 2nd ed. Duxbury Press, 1996.
247
[14] W. Feller. An Introduction to Probability Theory and Its Applications, Vol. I. Wiley.
(Un grand classique sur tout ce que vous pouvez faire en probabilites sans theorie de la
mesure)
[16] J. Neveu. Bases Mathematiques du Calcul des Probabilites. Masson, 1064. (Livre de
reference sur les outils de theorie de la mesure qui interviennent en probabilites)
[19] D.W. Stroock. Probability Theory: An Analytic View. Cambridge U. Press 1993.
(Livre plus avance autour des liens entre analyse et probabilites)
[24] K.L. Chung Markov chains with stationary transition probabilities. Springer 1967
[25] R. Durrett Essentials of stochastic processes. Springer 1999 (donne beaucoup dexemples
concrets de chanes de Markov)
[26] D.W. Stroock An introduction to Markov processes. Springer 2005 (pour une lecture
plus avancee sur chanes et processus de Markov).
248