Poly Probabilités

Ecole Marocaine d’Ingénierie
Laboratoire de Mathématiques Appliquées
ELEMENTS DE PROBABILITES
B. Ouhbi
2
Table des matières
1 Expérience aléatoire et probabilité 5

1.1 Expérience aléatoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2 Espace fondamental . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3 Evénement aléatoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.4 Opérations logiques sur les événements . . . . . . . . . . . . . . . . . . . . . . . . 6
1.5 Fréquence et Probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.6 Définition axiomatique de la probabilité . . . . . . . . . . . . . . . . . . . . . . . 7
1.7 Calcul combinatoire des probabilités . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.8 Probabilité géométrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2 Calcul élémentaire de probabilités 11

2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2 Probabilité conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.3 Indépendance stochastique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.4 Expérience aléatoire composée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.5 Formules remarquables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3 Variable aléatoire discrète 17

3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.2 Loi d’une variable aléatoire discrète . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.3 Espérance mathématique et moments . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.4 Quelques lois usuelles discrètes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.4.1 Loi de Dirac . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.4.2 Loi de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.4.3 Loi binomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.4.4 Loi géométrique ou loi de Pascal . . . . . . . . . . . . . . . . . . . . . . . 21
3.4.5 Loi de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.4.6 Loi binomiale négative . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.4.7 Loi hypergéométrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.5 Fonction génératrice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.6 Convolution et somme de deux variables aléatoires . . . . . . . . . . . . . . . . . 23
4 Variable aléatoire réelle et variable aléatoire à densité 25

4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
4.2 Loi d’une variable aléatoire réelle . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
4.3 Fonction de répartition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
4.4 Variable aléatoire absolument continue . . . . . . . . . . . . . . . . . . . . . . . . 26
4.5 Intégrale de Riemann-Stieltjes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
4.6 Espérance mathématique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
4.7 Variance et moments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3
4
4.8 Médiane . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.9 Fonction du taux de hasard . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.10 Inégalité de Bienaymé-Tchebichev . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.11 Quelques lois usuelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
4.11.1 Loi uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
4.11.2 Loi normale ou loi de Gauss . . . . . . . . . . . . . . . . . . . . . . . . . . 32
4.11.3 Loi exponentielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.11.4 Loi gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.11.5 Loi du chi-deux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4.11.6 Loi log-normale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4.11.7 Loi de Weibull . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4.12 Fonction génératrice des moments . . . . . . . . . . . . . . . . . . . . . . . . . . 34
5 Convergences stochastiques et théorèmes limites 37

5.1 Covariance de deux variables aléatoires . . . . . . . . . . . . . . . . . . . . . . . . 37
5.2 Convergences stochastiques et théorèmes limites . . . . . . . . . . . . . . . . . . 38
5.3 Types de convergences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
5.3.1 Convergence presque sûre . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
5.3.2 Convergence en moyenne quadratique . . . . . . . . . . . . . . . . . . . . 39
5.3.3 Convergence en probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . 39
5.3.4 Convergence en loi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
5.4 Lois des grands nombres et théorème de la limite centrale . . . . . . . . . . . . . 40
Chapitre 1
Expérience aléatoire et probabilité
1.1 Expérience aléatoire

Lors d’une expérience répétée sous des conditions identiques, nous observons des variations
sur les résultats. C’est à dire que des conditions identiques ne permettent pas d’obtenir une seule
valeur mais un ensemble des valeurs possibles.
BExemples 1.1
1. Le jeu de pile ou face, le jet de dés, les cartes, la loterie, etc., appelés jeux de ”hasard”.
2. L’observation du nombre d’appels passant par un central téléphonique.
3. L’observation de la croissance d’une population de bactéries.
4. L’observation de la désintégration des atomes d’une substance radioactive.
5. L’observation de la durée de fonctionnement sans panne d’un appareil.
6. L’observation dans l’intervalle de temps [s,t] de l’accélération d’un véhicule en mouvement.
1.2 Espace fondamental

Une expérience aléatoire se décrit mathématiquement par la donnée de l’ensemble des issues
ou des résultats possibles de cette expérience.
Soit Ω l’espace des résultats possibles d’une expérience, appelé aussi espace des issues ou
espace des épreuves ou espace des éventualités ou encore espace fondamental. Un élément ω de
Ω est appelé un résultat ou une issue ou une épreuve ou une éventualité.
BExemples 1.2
1. L’espace fondamental du jeu de pile ou face est : Ω = {P, F }
2. L’espace fondamental d’un jeu de pile ou face répété 3 fois est :
Ω = {ω1 , ω2 , ω3 , ω4 , ω5 , ω6 , ω7 , ω8 }
avec
ω1 = (P, P, P ), ω2 = (P, P, F ), ω3 = (P, F, P ), ω4 = (F, P, P )
ω5 = (P, F, F ), ω6 = (F, P, F ), ω7 = (F, F, P ), ω8 = (F, F, F )
3. L’espace fondamental d’un jeu de pile ou face répété n fois est :
Ω = {ω1 , ..., ω2n } avec ωi = (P, F, P, ..., P ) tous les n-uples possibles.
4. L’espace fondamental d’un jeu infini de pile ou face est : Ω = {P, F }N
5. L’espace fondamental dans l’expérience aléatoire de durée de vie d’un appareil est : Ω = N
ou bien Ω = R+ (selon l’axe des temps).
6. L’espace fondamental qui consiste à observer la vitesse d’un véhicule dans [s,t] est l’en-
semble des fonctions réelles continues sur ]s, t[, noté C(]s, t[), (s < t).
5
6
1.3 Evénement aléatoire

Un événement aléatoire est un événement lié à une expérience aléatoire. Nous considérons
que la réalisation ou la non réalisation d’un événement dépend exclusivement du résultat de
l’expérience aléatoire à laquelle il est lié.
Mathématiquement, un événement aléatoire est représenté par un sous ensemble de Ω conte-
nant tous les résultats ω qui le réalisent.
BExemples 1.3
1. Dans l’exemple 2 du paragraphe précédent, obtenir au moins 2 fois pile est un événement,
noté A et décrit par l’ensemble :
A = {ω1 , ω2 , ω3 , ω4 }
Dans la même expérience, un autre événement, noté B, consistant à obtenir 3 fois face,
est :
B = {ω8 }.
Un événement comme B contenant un seul élément de Ω est dit élémentaire.
2. Dans l’exemple 6 du paragraphe précédent, l’événement ”la vitesse ne dépasse pas la valeur
vo ” se représente dans l’espace Ω = C[s, t] par la boule : {ω : supu∈[s,t] ω(t) ≤ vo }
1.4 Opérations logiques sur les événements

- Evénement contraire. A tout événement A est associé son contraire, noté Ac ou A ou
¬A ou ”non A”. Il est réalisé lorsque A n’est pas réalisé. Dans l’exemple 1 précédent,
Ac = {ω5 , ω6 , ω7 , ω8 } et B c = {ω1 , ω2 , ω3 , ω4 , ω5 , ω6 , ω7 }.
- Evénement impossible. C’est l’événement qui ne se réalise jamais. Il est noté ∅ comme
l’ensemble vide.
- Evénement certain. Cet événement est toujours réalisé. Il est noté Ω, comme l’espace fon-
damental.
- Conjonction de deux événements. Pour tout couple d’événements A et B, la conjonction
désigne leur réalisation simultanée. Elle est notée comme l’intersection des deux ensembles
A ∩ B ou A ∧ B ou ”A et B”.
B Exemple 1.4. (suite). Ac ∩ B c = {ω5 , ω6 , ω7 }.

La relation A ∩ B = ∅ signifie que les événements A et B sont incompatibles (ou que les
ensembles A et B sont disjoints).
B Exemple 1.5. (suite). A ∩ B = ∅.

- Disjonction de deux événements. Pour tout couple d’événements A et B, la disjonction
désigne la réalisation de l’un ou de l’autre ou des deux à la fois. Elle est notée comme la
réunion des deux ensembles A ∪ B ou A ∨ B ou ”A ou B” ou encore A + B, lorsque A et
B sont incompatibles. Notons bien qu’il s’agit d’un ”ou” non exclusif.
B Exemple 1.6. (suite). A∪B = {ω1 , ω2 , ω3 , ω4 , ω8 }; A∪B c = B c = {ω1 , ω2 , ω3 , ω4 , ω5 , ω6 , ω7 }.

- Disjonction exclusive de deux événements. Pour tout couple d’événements A et B, la
disjonction exclusive désigne la réalisation de l’un ou de l’autre mais pas des deux. Elle
est notée comme la différence symétrique des deux ensembles A∆B.
- Implication. Lorsque l’événement A ne peut être réalisé sans que l’événement B ne le soit
aussi, alors on dit que ”l’événement A implique l’événement B” et on note : A ⊂ B.
- Système exhaustif d’événements. C’est une suite finie ou infinie d’événements (An , n ∈ I)
telle que An ∩ Am = ∅, (n 6= m) et ∪n An = Ω.
7
1.5 Fréquence et Probabilité

Une probabilité est définie de manière rigoureuse en tant qu’objet mathématique. Elle peut
aussi être approchée soit par la fréquence statistique, soit par la notion de symétrie.
La notion de probabilité s’est dégagée historiquement par les fréquences statistiques des
événements. Lorsque nous observons la réalisation ou non d’un événement, noté A, au cours de
répétitions indépendantes d’une même expérience aléatoire, si nous notons n(A) le nombre de
ses réalisations et N le nombre total des expérience effectuées, la fréquence de cet événement
est alors exprimée par le rapport : n(A)/N .
Lorsque N augmente, la fréquence de l’événement fluctue expérimentalement de moins en
moins, et nous pouvons écrire 1
n(A)
→ pA , lorsque n → ∞ (1.1)
N
où pA est la probabilité de l’événement observé. Ce résultat expérimental est appelé : loi
empirique des grands nombres et il a conduit à abstraire de l’expérience la notion de probabilité.
L’application A → n(A)/N , possède les deux propriétés suivantes :
1. 0 ≤ n(A)/N ≤ 1
2. si A1 , ..., Ak sont k événements incompatibles, liés à l’expérience Ω, alors :
n(A1 ∪ ... ∪ Ak )/N = n(A1 )/N + · · · + n(Ak )/N (1.2)
1.6 Définition axiomatique de la probabilité

Dans ce qui suit nous donnons les notions de base du système axiomatique de Kolmogorov,
utiles pour la suite de ce cours.
Tout événement A défini sur une expérience aléatoire Ω, est un sous ensemble de Ω, mais
tout sous ensemble de Ω n’est pas a priori un événement. Il faut en outre qu’il fasse partie d’un
”catalogue” d’événements, noté F et défini sur Ω, que nous appelons σ-algèbre ou tribu.
F doit vérifier les axiomes suivants :
1. Ω ∈ F
2. Si A ∈ F alors Ac ∈ F
3. Si A1 , A2 , · · · ∈ F alors ∪n An ∈ F
L’espace (Ω, F) est appelé espace mesurable ou probabilisable.
B Exemple 1.7. F = {∅, Ω} est une σ-algèbre car elle vérifie les 3 axiomes ; elle est apelée
σ-algèbre triviale.
B Exemple 1.8. F = {∅, A, Ac , Ω} est la σ-algèbre de Bernoulli.
Une probabilité P sur (Ω, F) est une application de F dans [0, 1] qui vérifie les propriétés
suivantes :
1. P(Ω) = 1
2. P(A) ≥ 0 pour tout A ∈ F
3. Pour toute famille dénombrable d’événements A1 , A2 , . . . , deux à deux disjoints, nous
avons P
P(∪n An ) = n P(An ) (σ-additivité)
1. Le sens de cette convergence sera précisé dans le chapitre 7.
8
Remarque 1.1. La probabilité est un cas particulier des applications appelées mesures ; parfois
nous disons mesure de probabilité.
Définition 1 L’espace (Ω, F, P) est apelé espace probabilisé ou espace de probabilité ou encore
modèle de probabilité.
En conclusion, nous pouvons dire que toute expérience aléatoire se décrit mathématiquement
par la donnée d’un espace probabilisé (Ω, F, P).
Remarque 1.2. Lorsque l’espace fondamental est dénombrable, nous pouvons nous affranchir de
la définition de la tribu en l’identifiant à l’ensemble de tous les parties de l’espace fondamental.
Dans ce cas tout sous ensemble de l’espace fondamental est un événement ; pour simplifier,
l’espace probabilisé en question sera noté : (Ω, P).
Un événement A tel que P(A) = 1 est dit presque sûr (p.s.) ou de mesure pleine. On dit aussi
que P est portée par A. Nous verrons qu’ il y a des événements de mesure pleine différents
de Ω.
Un événement B tel que P(B) = 0 est dit négligeable. Nous verrons également qu’il y a des
événements négligeables différents de ∅.
Remarque 1.3. Parfois, lorsque plusieurs probabilités sont en jeu, on note : P − p.s. ou P-
négligeable, afin de faire référence à la probabilité appropriée.
Soit un espace de probabilité (Ω, F, P), tel que pour tout ω ∈ Ω, {ω} ∈ F. Un élément ω ∈ Ω,
tel que P({ω}) 6= 0, est appelé atome ponctuel de P.
La probabilité P est dite discrète ou purement atomique, s’il existe un événement A, (i.e.
A ∈ F), au plus infini dénombrable, de mesure pleine. P est dite continue ou diffuse si pour tout
ω ∈ Ω on a P({ω}) = 0.
Les résultats suivants découlent directement de la définition de probabilité.
Proposition 1 Soient A et B deux événements d’une expérience Ω. Nous avons :

1. P(Ac ) = 1 − P(A)
2. P(A) = P(A ∩ B c ) + P(A ∩ B)
3. si A ⊂ B alors P(A) ≤ P(B)
4. P(A ∪ B) = P(A) + P(B) − P(A ∩ B)
5. P(A∆B) = P(A) + P(B) − 2P(A ∩ B)
1.7 Calcul combinatoire des probabilités

Dans de nombreux problèmes nous avons considérer des espaces de probabilités où la mesure
de probabilité est uniforme, c’est-à-dire que pour tout ω ∈ Ω, P({ω}) = 1/|Ω| et par conséquent
la probabilité d’un événement A est P(A) = |A|/|Ω|. Cela suppose évidemment que Ω soit fini.
Le problème consiste alors à identifier l’espace fondamental Ω et à calculer son cardinal.
1. Permutations. Supposons que nous disposons de n objets distingables. Le nombre d’ar-
rangements différents de ces objets, appelés permutations, est n(n − 1) · · · 1, car nous avons n
choix différents pour le premier objet, n − 1 choix pour le second, etc., et nous n’avons qu’un
choix pour le dernier. Ainsi, on a montré que
Proposition 2 Le nombre de permutations de n objets distincts (n ∈ N∗ ) est :
n ! = 1 · 2 · · · (n − 1) · n.
9
Par convention 0! = 1.
Lorsque les n objets sont partiellement indistingables et forment r familles disctinctes comp-
tant n1 , n2 , ..., nr objets chacune, alors
n!
Proposition 3 Le nombre de permutations de n objets partiellement distincts est égal à n1 !···nr !
2. Arrangements. Soit un ensemble S de n éléments et m un entier tel que 1 ≤ m ≤ n. Un

arrangement de S, m à m est un m-uplet (s1 , ..., sm ) ∈ S m formé de m éléments de S deux à
deux disjoints.
Proposition 4 Le nombre d’arrangements m à m d’un ensemble S de n ≥ m éléments est

n!
Am
n = n · (n − 1) · · · (n − m + 1) =
(n − m)!
Démonstration. On a n choix pour le 1er élément de (s1 , ..., sm ), (n−1) choix pour le deuxième
élément, etc.
3. Combinaisons. Les différentes façons de considérer m éléments d’un ensemble de n, (n ≥

m), éléments sont appelées combinaisons de m objets parmi n. Ici l’ordre n’a pas d’importance.
n!
Proposition 5 Le nombre de combinaisons de m objets parmi n, est Cnm = m !·(n−m) ! .
Démonstration. Nous avons clairement Am m

n = Cn · m!, d’où le résultat.
B Exemple 1.9. Une urne contient 3 boules numérotées de 1 à 3. En tirant au hasard, et sans
remise, les trois boules de l’urne, la probabilité d’obtenir le numéro 321 est égale à 1/6, car le
nombre de permutations de trois boules est 3 ! = 1 · 2 · 3 = 6.
B Exemple 1.10. En tirant 2 boules, sans remise, dans l’urne précédente, la probabilité d’ob-
tenir le numéro 23 est égale à 1/6, car le nombre de combinaisons de 2 boules parmi 3 est égal
3!
à (3−2) ! = 6.
B Exemple 1.11. Dans une urne contenant m boules blanches et n boules noires, nous effec-
tuons r (r ≤ m) tirages sans remise. La probabilité que les r tirages donnent tous des boules
r /C r
blanches est égale à Cm r
m+n . En effet, il y a Cm façons différentes de tirer r boules parmi m
r
et Cm+n façons de tirer r boules parmi m + n.
1.8 Probabilité géométrique

La probabilité géométrique concerne la disposition de points dans une région géométrique
(i.e., un segment d’une droite, un domaine d’un plan ou de l’espace habituel tridimensionnel,
etc.). Les mesures des régions géométriques (i.e., longueur d’un segment d’une droite, aire d’une
surface, volume, etc.) lorsqu’elles sont normalisées, vérifient les trois axiomes de probabilité.
B Exemple 1.12. Soit [a, b] ⊂ [0, 1]. La probabilité qu’un point tiré au hasard dans [0, 1] soit
un point de [a, b], est égale à (b − a).
10
Chapitre 2
Calcul élémentaire de probabilités
2.1 Introduction
Le système axiomatique de Kolmogorov est complété par la définition de la probabilité
conditionnelle et de l’indépendance de deux événements.
Les événements considérés dans ce chapitre sont supposés être définis sur le même espace de
probabilité (Ω, F, P).
2.2 Probabilité conditionnelle

Définition 2 Pour tout couple d’événements A et B tel que P(B) > 0, on définit la probabilité
conditionnelle de A sachant B, notée P(A | B), par
P(A ∩ B)
P(A | B) = (2.1)
P(B)
C’est la probabilité de l’événement A sachant que l’événement B a été réalisé.
– Si A et B sont incompatibles (i.e. A ∩ B = ∅), alors P(A ∩ B) = 0 et par conséquent
P(A | B) = 0.
– Si B ⊂ A alors P(A ∩ B) = P(B) et P(A | B) = 1.
– Si A ⊂ B alors P(A | B) = P(A)/P(B).
B Exemple 2.1. Dans l’expérience du jet de deux dés, si le premier est un 3, quelle est la
probabilité que le total dépasse 6 ?
L’espace fondamental de cette expérience est : Ω = {1, 2, 3, 4, 5, 6}2 . L’événement “le premier
jet donne un 3” est : A = {(3, x) : x = 1, 2, 3, 4, 5, 6}. L’événement “le total dépasse 6” est :
B = {(x, y) : x + y > 6}.
Par conséquent, nous avons :
A ∩ B = {(3, 4), (3, 5), (3, 6)} d’où P(B | A) = P(A∩B) |A∩B|
P(A) = |A| = 2 .
1 1
B Exemple 2.2. Quelle est la probabilité que les deux enfants d’une famille soient des garçons,
sachant qu’au moins un est un garçon ?
L’espace fondamental est : Ω = {F F, F G, GF, GG} avec P(F F ) = P(F G) = P(GF ) = P(GG) =
1/4 (probabilité uniforme sur Ω).
Les événements concernés sont :
Deux garçons : A = {GG}
Au moins un garçon : B = {F G, GF, GG}
Nous observons que A ⊂ B. Par conséquent : P(A | B) = P(A)/P(B) = 1/3.
1. |C| désigne le cardinal de l’ensemble C
11
12
La probabilité conditionnelle est aussi une probabilité car elle vérifie les trois axiomes des
mesures de probabilité, i.e., pour tout événement B tel que P(B) > 0,
1. P(A | B) ≥ 0
2. P(B | B) = 1
S P
3. P( n≥0 An | B) = n≥0 P(An | B), (Ai ∩ Aj = ∅, i 6= j)
La démonstration est laissée en exercice.
2.3 Indépendance stochastique

Définition 3 Deux événements A et B sont dits stochastiquement indépendants ou indépendants
en probabilité ou simplement indépendants, si
P(A ∩ B) = P(A)P(B) (2.2)
En comparant les relations (2.1) et (2.2) ci-dessus, on peut écrire
P(A|B) = P(A) (2.3)
Par conséquent, la réalisation ou non de l’événement B n’a aucune influence sur la probabilité
de l’événement A.
De manière générale, une famille finie ou infinie dénombrable d’événements (Ai , i ∈ I) est
dite indépendante si, pour tout sous ensemble fini J de I, on a
Y
P(∩j∈J Aj ) = P(Aj ) (2.4)
j∈J
Remarque 2.1. Notons que dans le dernier cas ci-dessus, l’indépendance des événements deux
à deux ne suffit pas pour que les événements soient indépendants.
Remarque 2.2. Le fait que deux événements A et B soient incompatibles n’implique pas
qu’ils soient indépendants. Au contraire, pour deux événements incompatibles A et B tels que
P(A) × P(B) 6= 0, on montre par la relation (2.2) qu’ils ne peuvent pas être indépendants.
Proposition 6 Si A et B sont deux événements indépendants, alors :

1. Ac et B sont indépendants,
2. A et B c sont indépendants,
3. Ac et B c sont indépendants.
Démonstration. (1) P(Ac ∩ B) = P(B) − P(A ∩ B) = (1 − P(A))P(B) = P(Ac )P(B). Les points
(2) et (3) peuvent être démontrés de la même manière.
B Exemple 2.3. Soit une expérience aléatoire décrite par (Ω, F, P) avec
Ω = {abc, acb, bac, bca, cab, cba, aaa, bbb, ccc}
et P la probabilité uniforme sur Ω, i.e. pour tout ω ∈ Ω on a P({ω}) = 1/|Ω| = 1/9. Considérons
maintenant les trois événements suivants
Ak = { la k-ième lettre est un a }, k = 1, 2, 3.

13
Nous avons
P(A1 ) = P({abc, acb, aaa}) = 3/9

P(A2 ) = P({bac, cab, aaa}) = 3/9
P(A1 ∩ A2 ) = P({aaa}) = 1/9
d’où
P(A1 ∩ A2 ) = P(A1 )P(A2 )
De même, nous avons : P(A2 ∩ A3 ) = P(A3 )P(A3 ) et P(A3 ∩ A1 ) = P(A3 )P(A1 ). D’autre part
P(A1 ∩ A2 ∩ A3 ) = P({aaa}) = 1/9
Par conséquent
P(A1 ∩ A2 ∩ A3 ) 6= P(A1 )P(A2 )P(A3 )
Conclusion : les événements A1 , A2 et A3 ne sont pas indépendants.

Une notion également importante en probabilité est celle d’indépendance conditionnelle.
Définition 4 (Indépendance conditionnelle) .

Sur un espace probabilisé considérons l’événement B tel que P(B) > 0 et les événements A1 , ..., An , (n ≥
2). Alors si
P(A1 ∩ · · · ∩ An |B) = P(A1 |B) · · · P(An |B)
on dit que les événements A1 , ..., An sont conditionnellement indépendants sachant B.
2.4 Expérience aléatoire composée

Lorsque nous voulons considérer des événements aléatoires liés à plusieurs expériences aléatoires,
nous devons construire un espace probabilisé qui décrit l’ensemble des expériences en question.
Nous allons donner une brève présentation des espaces produits en se basant sur des espaces
probabilisés dénombrables.
Soient deux espaces probabilisés dénombrables décrivant deux expériences aléatoires parti-
culières (Ω1 , P1 ) et (Ω2 , P2 ) et un observateur qui observerait les deux expériences en même
temps. L’issue d’une telle expérience se présente comme un couple de points : (ω1 , ω2 ) avec
ω1 ∈ Ω1 et ω2 ∈ Ω2 . Autrement dit, l’espace fondamental de cette expérience est l’espace pro-
duit Ω1 × Ω2 , noté Ω. Sur cet espace nous pouvons définir une probabilité P par les relations
suivantes
P({ω}) = P1 ({ω1 })P2 ({ω2 }), pour tout ω = (ω1 , ω2 ) ∈ Ω
X
P(A) = P({ω}), pour tout A ⊂ Ω.
ω∈A
Tout événement d’une expérience peut se représenter soit comme un sous-ensemble A de Ω1 ,

soit comme un sous-ensemble A × Ω2 de Ω et il est facile de montrer que
XX
P(A × Ω2 ) = P1 ({ω1 })P2 ({ω2 }) = P1 (A).
A1 Ω2
Deux événements, A1 lié à la première expérience et A2 lié à la seconde expérience, sont

indépendants relativement à P, car on peut écrire
14
XX
P[(A1 × Ω2 ) ∩ (Ω1 × A2 )] = P(A1 × A2 ) = P1 ({ω1 })P2 ({ω2 })
A1 A2
= P1 (A1 )P2 (A2 ) = P(A1 × Ω2 )P(Ω1 × A2 ).
Remarque 2.3. Dans le cas d’espaces probabilisés généraux, (Ω1 , F1 , P1 ) et (Ω2 , F2 , P2 ) l’espace
produit est noté (Ω1 ×Ω2 , F1 ⊗F2 , P1 ⊗P2 ). La tribu F1 ⊗F2 est engendrée par tous les ensembles
A1 × A2 avec A1 ∈ F1 et A2 ∈ F2 . Et la probabilité produit P = P1 ⊗ P2 est définie de la même
manière que ci-dessus.
2.5 Formules remarquables

Tous les événements considérés sont supposés être définis sur le même modèle de probabilité.
Proposition 7 (Théorème des probabilités totales) .

Soit (Bn , n ∈ I) un système exhaustif d’événements et A un événement. Nous avons
X X
P(A) = P(A ∩ Bn ) = P(A | Bn )P(Bn )
n∈I n∈I
La deuxième égalité est valable si : P(Bk ) > 0, pour tout k ∈ I.

P Démonstration. Nous avons : P(A) = P(A ∩ Ω) = P(A ∩ (∪n Bn )) = P(∪n (A ∩ Bn )) =
n P(A ∩ Bn ) car les événements A ∩ Bn sont deux à deux disjoints.
Proposition 8 (Formule de Poincaré) .

Pour une suite finie d’événements : A1 , A2 , . . . , An , nous avons
n
[ n
X X
P( Ai ) = P(Ai ) − P(Ai ∩ Aj ) + · · · + (−1)n−1 P(∩ni=1 Ai )
i=1 i=1 1≤i<j≤n
Démonstration. Par récurrence sur n ∈ N∗ . Nous remarquons qu’elle est trivialement vérifiée
pour n = 1. Supposons qu’elle est vérifiée pour n entier quelconque > 1. Nous allons montrer
qu’elle est vérifiée pour n+1. Nous avons P(∪n+1 n n
i=1 Ai ) = P(∪i=1 Ai )+P(An+1 )−P((∪i=1 Ai )∩An+1 ).
En utilisant l’hypothèse de récurrence et en arrangeant les termes du deuxième membre, nous
obtenons le résultat énoncé.
Proposition 9 (Formule de Bayes séquentielle) .

Pour une suite finie d’événements : A1 , A2 , . . . , An , tels que : P(A1 ∩ · · · ∩ An−1 ) > 0, nous avons
P(∩ni=1 Ai ) = P(A1 )P(A2 | A1 )P(A3 | A1 A2 ) · · · P(An | A1 A2 . . . An−1 )
Démonstration. Nous avons : P(A1 ∩ · · · ∩ An ) = P(An |A1 ∩ · · · ∩ An−1 ) × P(A1 ∩ · · · ∩ An−1 ) =

etc.
¤
15
Proposition 10 (Formule de Bayes) .

Soient (Bn , n ∈ I) un système exhaustif d’événements avec P(Bk ) > 0, pour tout k ∈ I et un
événement A tel que P(A) > 0, alors
P(A | Bj )P(Bj )
P(Bj | A) = P
k∈I P(A | Bk )P(Bk )
Démonstration. Par la relation P(Bj |A) × P(A) = P(A|Bj ) × P(Bj ) et le théorème des pro-
babilités totales nous obtenons le résultat énoncé.
Proposition 11 (Suites monotones d’événements) .

1. Si (An , n ∈ N) est une suite
S∞croissante d’événements, i.e. A1 ⊂ A2 ⊂ · · · ⊂ An ⊂ · · · ,
posons A = limn→∞ An = n=1 An , alors : P(A) = limn→∞ P(An ).
2. Si (An , n ∈ N) est une suite décroissante, i.e. A1 ⊃ A2 ⊃ · · · ⊃ An ⊃ · · · , posons
A = limn→∞ An = ∩∞ n=1 An . Alors : P(A) = limn→∞ P(An ).
Proposition 12 (Inégalité de Boole) .

Soit une suite finie ou infinie d’événements (An , n ∈ I), alors nous avons l’inégalité suivante
[ X
P( An ) ≤ P(An ) (2.5)
n∈I n∈I
16
Chapitre 3
Variable aléatoire discrète
3.1 Introduction
Une variable aléatoire (v.a.) est définie par référence à une expérience aléatoire comme une
application, soit X, dont la valeur dépend du résultat ω de cette expérience. Les variables
aléatoires que nous allons étudier dans ce cours prennent leurs valeurs dans l’ensemble R ou
au plus dans Rd , (d > 1).
De manière plus précise, une variable aléatoire réelle (v.a.r.) est définie comme suit.
Définition 5 Une v.a. réelle sur l’espace probabilisé (Ω, F, P), est une application X définie sur
Ω et à valeurs dans R telle que, pour tout x ∈ R,
{ω : X(ω) ≤ x} ∈ F (3.1)
Remarques. 1) Une application sur (Ω, F) vérifiant (3.1) est dite mesurable.
2) L’événement {ω : X(ω) ≤ x} sera noté simplement : {X ≤ x}.
B Exemple 3.1. Dans l’expérience du jet de deux dés, la somme, le produit, la différence, etc.,
des points amenés par les dés définissent autant de v.a., i.e.
X(ω) = x + y, Y (ω) = x · y, Z(ω) = x − y
où ω = (x, y).

Lorsque l’ensemble de valeurs E de la v.a. X est au plus dénombrable, la v.a. X est dite
discrète (v.a.d.). Dans le cas où E est un ensemble fini, la v.a. X est dite finie ou simple. Lorsque
E = R la v.a. est dite numérique ou v.a.r.. Nous reviendrons plus tard, dans le cadre des v.a. à
densité, sur le classement des v.a.. √
Variable aléatoire complexe. C’est une v.a. Z = X + iY où X, Y sont des v.a.r. (i = −1).
Variable aléatoire indicatrice. Pour tout événement A de F, nous définissons sa v.a. indica-
trice, notée 1A , par
½
1 si ω ∈ A
1A (ω) = (3.2)
0 sinon
Quelques propriétés :
1. 1Ω = 1 et 1Ø = 0
2. 1A∩B = 1A · 1B
3. 1A∪B = 1A + 1B − 1A · 1B
4. 1Ac = 1 − 1A
17
18
5. A ⊂ B ⇐⇒ 1A ≤ 1B et A = B ⇐⇒ 1A = 1B
6. (1A )−1 (1) = A et (1A )−1 (0) = Ac .
Une v.a. discrète peut être représentée comme suit
X
X= xi 1Ai (3.3)
{i:xi ∈E}
où la suite d’événements (Ai , i ∈ N∗ ) forme un système exhaustif de Ω. Nous avons Ai = {X =

xi }.
3.2 Loi d’une variable aléatoire discrète

Soit X : Ω −→ E ⊂ R une v.a. discrète. Pour tout x ∈ E nous définissons l’événement
{ω : X(ω) = x}, noté simplement {X = x}, et nous notons pX (x) sa probabilité, i.e. pX (x) =
P(X = x).
Définition 6 La famille des nombres (pX (x), x ∈ E) tels que pX (x) = P(X = x) est appelée loi
de la v.a. X.
Propriétés :
1. pX (x) ≥ 0
P
2. x∈E pX (x) = 1
L’intérêt de la loi de probabilité d’une v.a. est de permettre de calculer directement, sans
passer par l’espace de probabilité, les probabilités des événements définis par X, i.e. pour tout
événement A, nous avons
X
P(X ∈ A) = pX (x) (3.4)
x∈A
B Exemple 3.2. Jet d’un dé (non pipé). La loi de la v.a. X(ω) = ω est pX (ω) = 1/6 pour tout
ω ∈ Ω, et elle est appelée loi uniforme.
B Exemple 3.3. Jet de deux dés.

La loi de la v.a. X(ω) = ω1 + ω2 est donnée dans le tableau suivant
x 2 3 4 5 6 7 8 9 10 11 12
p(x) 1/36 2/ 36 3/ 36 4/ 36 5/ 36 6/ 36 5/ 36 4/ 36 3/ 36 2/ 36 1/ 36
La fonction FX (·), définie sur R et à valeurs dans [0, 1], par la formule
X
FX (x) = pX (y) (3.5)
{y∈E:y≤x}
est appelée fonction de répartition de la v.a.d. X. C’est une fonction croissante et constante par
morceaux.
Considérons deux v.a.d. X1 , X2 définies sur le même espace de probabilité et à valeurs dans
E1 , E2 respectivement.
Définition 7 (Indépendance de deux variables aléatoires) .
Les v.a. X1 , X2 sont dites indépendantes si, pour tout x1 ∈ E1 , x2 ∈ E2 , nous avons
P(X1 = x1 , X2 = x2 ) = P(X1 = x1 )P(X2 = x2 ) (3.6)
Proposition 13 Soit X et Y deux v.a.d. indépendantes et g : R → R une application. Alors les
v.a.d. g ◦ X et g ◦ Y sont indépendante.
19
3.3 Espérance mathématique et moments

L’espérance d’une v.a. X est notée E X ou E [X]. Si X est discrète à valeurs dans E
(représentée par la relation (3.3)) et de loi p = (p(x), x ∈ E) son espérance mathématique
ou simplement espérance ou valeur moyenne est définie par
X
EX = xp(x) (3.7)
x∈E
P
L’espérance de X existe et est finie si, et seulement si, E |X| = x∈E |x|p(x) < +∞.
Propriétés :
1. E [aX] = aE [X], (a ∈ R)
2. E [X + Y ] = E [X] + E [Y ]
3. Si X ≥ 0 alors E [X] ≥ 0 et, si X ≥ Y , alors E X ≥ E Y
B Exemple 3.4. Espérance d’une v.a. indicatrice.

E 1A = 1 × P(1A = 1) + 0 × P(1A = 0) = P(A).
6
B Exemple 3.5. Soit une P v.a.d. X à valeurs dans N∗ et de loi pX (n) = πn2
. Cette v.a. ne
possède pas d’espérance car 1/n = ∞.
Proposition 14 Soient une v.a.d. X : Ω P → E et une fonction g : E → F , (E, F ⊂ R),
alors g ◦ X est une v.a.d. et E [g(X)] =
P x∈E g(x)P(X = x) à condition que E |g(X)| =
x∈E |g(x)|p(x) < +∞.
Proposition 15 Si X et Y sont deux v.a.d. indépendantes, possédant des espérances finies,
alors
E [X · Y ] = E X · E Y (3.8)
Démonstration. On a
∞
X
X= xi 1Ai avec Ai = {X = xi }
i=1
X∞
Y = yj 1Bj avec Bj = {Y = yj }
j=1
d’où
X X
X ·Y = xi yj 1Ai 1Bj = xi yj 1Ai ∩Bj
i,j i,j
donc X · Y est une v.a. discrète de valeur xi yj sur Ai ∩ Bj et ∪i,j Ai ∩ Bj = (∪i Ai ) ∩ (∪j Bj ) = Ω.
Du fait que X et Y sont indépendantes, nous avons, pour tous i et j
P(Ai ∩ Bj ) = P(X = xi , Y = yj ) = P(X = xi )P(Y = yj ) = P(Ai )P(Bj )
Par la définition de l’espérance d’une v.a.d., nous avons pour la v.a.d. X · Y
X
E [XY ] = xi yj P(Ai ∩ Bj )
i,j
XX
= xi yj P(Ai )P(Bj )
i j
X X
= { xi P(Ai )}{ yj P(Bj )}
i j
= E XE Y.
20
Remarque 3.1. Nous verrons dans le chapitre 5 qu’une condition nécessaire et suffisante pour
que (3.8) soit vérifiée, est que les v.a. X et Y soient non corrélées.
Le moment d’ordre k, (k ∈ N∗ ), est défini par
X
µk = E [X k ] = xk p(x) (3.9)
x∈E
si la série est absolument convergente.

Le moment centré d’ordre k, (k ∈ N∗ ), est défini par
X
mk = E [(X − E X)k ] = (x − E X)k p(x) (3.10)
x∈E
Le moment absolu d’ordre k est défini par

X
E [|X|k ] = |x|k p(x) (3.11)
x∈E
Le moment centré d’ordre 2, m2 , est noté σ 2 (X) ou V ar(X) et il est appelé variance de la
v.a. X. La variance mesure le degré de dispersion des valeurs de la v.a. autour de sa moyenne.
La racine carrée de la variance est appelée écart-type.
Proposition 16 Soit X une v.a. à valeurs dans N, alors

X
EX = P(X ≥ n)
n≥1
Démonstration. Nous avons
X ∞ X
X ∞ k
XX X
P(X ≥ n) = P(X = k) = P(X = k) = kP(X = k) = E X.
n≥1 n=1 k=n k≥1 n=1 k≥1
3.4 Quelques lois usuelles discrètes

3.4.1 Loi de Dirac
La v.a. X suit une loi de Dirac, si l’ensemble de ses valeurs se réduit à une seule valeur de
probabilité non nulle, i.e. E = {a}, a ∈ R. Cette loi est notée par δa
½
1 si x = a
δa (x) =
0 si x 6= a
Nous avons : E X = a et V ar X = 0.
3.4.2 Loi de Bernoulli

La v.a. X suit une loi de Bernoulli de paramètre p (0 < p < 1), et on note : X∼ B(p), si elle
prend deux valeurs, soit 0 et 1 avec P(X = 1) = p et P(X = 0) = 1 − p.
L’événement {X = 1} est appelé succès et l’événement {X = 0} échec.
L’espérance de X est : E X = p et sa variance est : V ar X = σ 2 = p(1 − p).
21
3.4.3 Loi binomiale

Lorsque nous somme intéressés par le nombre des succès dans une suite finie d’expériences
de Bernoulli, cela est décrit par une v.a. binomiale. Le nombre des succès dans une suite de n
expériences de Bernoulli peut être : 0, 1, . . . , n. On dit qu’une v.a. Y suit une loi binomiale de
paramètre (n, p)∈ N∗ ×]0, 1[, et on note : Y ∼ b(n, p), si sa loi est donnée par
p(k) = P(Y = k) = Cnk pk (1 − p)n−k , (k = 0, 1, . . . , n) (3.12)
Si Y∼ b(n, p), alors elle peut être représentée par la somme de n v.a. de Bernoulli de pa-
ramètre p indépendantes, i.e.
Y = X1 + · · · + Xn (3.13)
avec Xi i.i.d.∼ B(p).

Nous avons : E Y = np et V ar Y = np(1 − p).
Remarque 3.2. Lorsque n =1, on retrouve la loi de Bernoulli.
3.4.4 Loi géométrique ou loi de Pascal

La loi géométrique est liée aux suites infinies d’expériences de Bernoulli indépendantes. La
réalisation d’une v.a. géométrique, dans une telle suite, désigne le premier instant de réalisation
d’un succès.
On dit que la v.a. Y suit une loi géométrique de paramètre p, (0 < p < 1) et on note :
Y ∼ G(p), si sa loi est donnée par
p(k) = P(Y = k) = p(1 − p)k−1 , (k ∈ N∗ ) (3.14)
Considérons une suite infinie de v.a. de Bernoulli : X1 , X2 , · · · i.i.d. ∼ B(p). Alors une v.a.
géométrique Y , définie relativement à cette suite, s’écrit comme suit
{Y = k} = {X1 = 0, . . . , Xk−1 = 0, Xk = 1}
L’espérance et la variance d’une v.a. géométrique sont : E Y = 1/p et V ar Y = (1 − p)/p2 .
3.4.5 Loi de Poisson

Une v.a. X suit une loi de Poisson de paramètre λ ∈ R∗+ , et on note : X ∼ P (λ), si sa loi est
donnée par
λk
p(k) = P(X = k) = e−λ , (k ∈ N) (3.15)
k!
L’espérance et la variance sont : E X = V ar X = λ.
Proposition 17 (Théorème de Poisson) Soit une suite de probabilités (pn , n ∈ N), telle
que pn → 0, et npn → λ, (λ > 0) lorsque n → ∞. Alors
b(n, pn ) → P (λ)
i.e. pour tout k = 0, 1, 2, ... nous avons : b(n, pn )(k) → P (λ)(k), lorsque n → ∞.
22
Démonstration. Pour k = 0 nous avons :

λ
b(n, pn )(0) = Cn0 p0n (1 − pn )n−0 = (1 − pn )n = (1 − + o(1/n))n → e−λ
n
Formons le rapport
b(n, pn )(k) (n − k + 1)pn λ
= → , n→∞
b(n, pn )(k − 1) k(1 − pn ) k
Par conséquent 1
λ λ
b(n, pn )(1) ∼ b(n, pn )(0) → e−λ
1 1!
λ λ2 −λ
b(n, pn )(2) ∼ b(n, pn )(1) → e
2 2!
Et par récurrence, nous obtenons le résultat énoncé.
λ λk −λ
b(n, pn )(k) ∼ b(n, pn )(k − 1) → e .
1 k!
¤
3.4.6 Loi binomiale négative

C’est la loi du nombre d’essais indépendants nécessaires pour obtenir m succès dans une
suite de Bernoulli i.i.d.
On dit que X suit une loi binomiale négative de paramètre (m, p) ∈ N∗ ×]0, 1[, et on note :
X ∼ bn(m, p), si sa loi est donnée par
½ m−1 m
Ck−1 p (1 − p)k−m si k ≥ m
p(k) = P(X = k) =
0 si k < m
Remarque 3.3. Lorsque m = 1, on retrouve la loi géométrique G(p).
Remarque 3.4. Une représentation interessante de X ∼ bn(m, p) est la suivante : X = Y1 +
· · · + Ym où Yi i.i.d. ∼ G(p).
Remarque
P 3.5. Si Z1 , . . . , Zn sont n v.a. indépendantes et si Zi ∼ bn(ri , p) alors : Z1 +· · ·+Zn ∼
bn( ni=1 ri , p).
3.4.7 Loi hypergéométrique

Dans une population de n éléments, dont n1 rouges et n2 = n − n1 noirs, on choisit r
éléments au hasard. Notons p(k) la probabilité qu’exactement k éléments ainsi choisis soient
rouges (k = 0, 1, . . . , n1 ∧ r). Le groupe de r éléments contient k éléments rouges et r − k
éléments noirs. Les rouges peuvent être choisis de Cnk1 façons différentes, et les noirs de Cnr−k
2
façons. Par conséquent, le nombre des choix possibles pour les rouges et les noirs est : Cnk1 Cnr−k
2
.
r
Le nombre de cas globalement possibles est : Cn . Soit X la v.a. désignant le nombre des éléments
rouges parmi les éléments choisis.
Par conséquent, la loi hypergéométrique est
Cnk1 Cnr−k
2
p(k) = P(X = k) = (3.16)
Cnr
Les moments de cette loi sont : E X = rn1 /n et V ar X = r(n − r)n1 n2 /n2 (n − 1).
1. On note un ∼ vn si un /vn → 1 lorsque n → ∞.
23
3.5 Fonction génératrice

Pour une v.a. discrète X, à valeurs dans N et de loi p = (pi ; i ∈ N), on définit la fonction
génératrice gX comme suit
∞
X
X
gX (s) = E [s ] = pi si (3.17)
i=0
Cette série converge absolument au moins pour −1 ≤ s ≤ 1, car gX (1) = 1.

Proposition 18 Nous avons :
1. E [X] = gX0 (1).
2. V ar(X) = gX 00 (1) + g 0 (1) − [g 0 (1)]2 .

X X
Dans le cas d’une variance infinie gX 00 (s) → ∞ lorsque s → 1.
Lois Fonctions génératrices

Bernoulli B(p) 1 − p + ps
binomiale b(n, p) (1 − p + p s)n
Poisson P (λ) e−λ+λ s
p
géométrique G(p) 1−(1−p)s
p
binomiale négative bn(m, p) ( 1−(1−p)s )m
3.6 Convolution et somme de deux variables aléatoires

Considérons deux suites numériques (an , n ≥ 0) et (bn , n ≥ 0), et définissons une troisième
suite (cn , n ≥ 0), dont le terme général est défini par
n
X
cn = ak bn−k (3.18)
k=0
pour tout n ∈ N.
Alors la suite (cn ) est appelée convolution de (an ) et (bn ), et on note
(cn ) = (an ) ∗ (bn )
Proposition 19 Soient deux v.a.d. X et Y , indépendantes, à valeurs dans N et de lois pX et
pY respectivement. Alors :
1. La loi de la somme X +Y est donnée par la convolution des deux lois, i.e. pX+Y = pX ∗pY .
2. La fonction génératrice de la somme X + Y est égale au produit des fonctions génératrices
de X et Y .
Démonstration. (1) Nous avons :
n
X
pX+Y (n) = P(X + Y = n) = P(X = k, Y = n − k)
k=0
Xn
= P(X = k)P(Y = n − k)
k=0
Xn
= pX (k)pY (n − k)
k=0
= pX ∗ pY (n)
24
(2) Nous pouvons écrire :
gX+Y (s) = E [sX+Y ] = E [sX · sY ] = E [sX ]E [sY ] = gX (s)gY (s)
¤
Chapitre 4
Variable aléatoire réelle et variable

aléatoire à densité
4.1 Introduction
La théorie de la v.a. discrète que nous venons d’exposer ne suffit pas à traiter rigoureusement
les deux cas suivants :
– les suites infinies des v.a. telles que le jeu de pile ou face,
– le choix au hasard d’un point sur un segment.
En effet, dans ces deux cas l’espace fondamental n’est pas dénombrable.
4.2 Loi d’une variable aléatoire réelle

Soit une v.a. réelle (v.a.r.) X, i.e. X : Ω → R. On appelle loi de la v.a.r. X, et on note PX ,
l’image de P par X, i.e., pour tout intervalle B de R, on a :
PX (B) = P(X −1 (B)) = P(X ∈ B) (4.1)
où X −1 (B) = {ω : X(ω) = x ∈ B}.
Remarque 4.1. La loi PX est une probabilité sur (R, B(R)), où B(R) est la σ-algèbre engendrée
par les intervalles de R, appelée σ-algèbre borélienne. C’est la plus petite σ-algèbre contenant
les intervalles de R. Une application mesurable définie sur (R, B(R)) et à valeurs dans (R, B(R))
est dite borélienne.
4.3 Fonction de répartition

Elle est définie, pour tout x ∈ R, par
FX (x) = PX (] − ∞, x]) = P(X ≤ x) (4.2)
Par conséquent, pour tout intervalle [a, b] de R, nous avons :
P(X ∈]a, b]) = FX (b) − FX (a) (4.3)
Elle vérifie les propriétés suivantes :

1. FX est croissante sur R ;
2. FX (−∞) = limx→−∞ FX (x) = 0, et FX (∞) = limx→∞ FX (x) = 1 ;
25
26
3. FX (·) est continue à droite, i.e. FX (x) = FX (x + 0).

Démonstration. Les deux premières propriétés étant évidentes, nous allons démontrer la
troisième. Soit une suite monotone de nombres réels (un ) telle que un ↓ 0. Nous avons FX (x +
un ) − FX (x) = PX (]x, x + un ]). D’autre part, en posant An =]x, x + un ], nous avons, pour tous
m, n ∈ N tels que m > n, Am ⊂ An , et par le théorème des suites d’événements monotones,
limn→∞ PX (An ) = PX (limn→∞ An ) = PX (∅) = 0.
Remarque 4.2. Dans certains ouvrages la fonction de répartition est définie par FX (x) =
P(X < x), ce qui implique sa continuité à gauche.
Proposition 20 Soit une v.a.r. X de f.r. F , alors

1. si x ∈ R est un point de continuité de F , P(X = x) = 0;
2. si a, b ∈ R, a ≤ b sont deux point de continuité de F ,
P(a < X < b) = P(a ≤ X < b) = P(a < X ≤ b) = P(a ≤ X ≤ b).
Démonstration.− 1. On a {X = x} = limn→∞ {x − 1/n < X ≤ x + 1/n}, d’où
P(X = x) = lim {F (x + 1/n) − F (x − 1/n)} = F (x) − F (x − 0) = 0.

n→∞
2. C’est une conséquence immédiate de (1) car
P(a ≤ X ≤ b) = P(a < X ≤ b) + P(X = a) = P(a < X ≤ b),
etc.
La f.r. inverse, F −1 , est définie comme suit

½
−1 inf{x : F (x) > y} si y < 1
F (y) =
+∞ si y = 1.
B Exemple 4.1.
4.4 Variable aléatoire absolument continue

Définition 8 On dit qu’une v.a.r. X (ou de manière équivalent, sa loi PX ) est absolument
continue, s’il existe une fonction fX : R −→ R+ telle que la loi PX soit donnée par la formule
suivante
Z
PX (B) = fX (x)dx (4.4)
B
pour tout intervalle B de R.
Remarque 4.3. Pour plus de précision, il faut souligner que fX est une application measurable
de (R, B(R)) dans (R, B(R)). La densité d’une v.a. est définie p.s., donc il peut y avoir plusieurs
fonctions qui peuvent être la densité d’une même v.a..
La fonction fX s’appelle la densité de probabilité de PX ou de la v.a. X. Elle vérifie les
propriétés suivantes :
27
1. Elle est positive, i.e. fX (x) ≥ 0 pour tout x ∈ R ;

R
2. R fX (x)dx = 1.
Remarque 4.4. Il faut noter que fX n’est pas une probabilité. En fait, elle peut prendre des
valeurs bien supérieures à 1.
Une interprétation de la densité est la suivante 1
P(x < X ≤ x + ∆x) = fX (x)∆x + o(∆x) (4.5)
ou
1
fX (x) = lim P(x < X ≤ x + ∆x) (4.6)
∆x→0 ∆x
Remarque 4.5. Nous verrons qu’à part les v.a. discrètes, il existe d’autres v.a. qui ne sont pas
absolument continues.
Si la v.a. X est absolument continue, alors
Z
FX (x) = fX (u)du (4.7)
]−∞,x]
Si x est un point de continuité de fX , alors nous avons :
d
fX (x) = FX (x) (4.8)
dx
B Exemple 4.2. Loi uniforme sur [0, 1].
Densité de probabilité, f Fonction de répartition, F
6 6
1 1
¡
¡
¡
¡
¡
- ¡ -
0 1 0 1
La densité de cette loi est : f (x) = 1[0,1] (x). A l’aide de la relation (4.7), la fonction de
répartition s’écrit comme suit

 0 si x<0
F (x) = x si 0≤x≤1

1 si x>1
Notons aussi que, par exemple, les fonctions : f1 (x) = 1]0,1[ (x), f2 (x) = 1]0,1] (x), f3 (x) =
1[0,1[ (x), etc., sont aussi de densités de la même f.r. F .
1. o(·) désigne une fonction telle que o(h)/h → 0 lorsque h → 0.

28
4.5 Intégrale de Riemann-Stieltjes

L’intégrale de Riemann-Stieltjes est une généralisation de l’intégrale de Riemann. Considérons
une fonction α croissante définie sur [a, b] ⊂ R et f une fonction définie sur le même intervalle.
Soit une partition de l’intervalle [a,b], Pn = {a = x0 ≤ x1 ≤ · · · ≤ xn−1 ≤ xn = b}.
Soient les deux sommes suivantes :
n
X
S(Pn ) = Mi ∆αi , (Mi = sup f (x), x ∈ [xi−1 , xi ]) (4.9)
i=1
n
X
s(Pn ) = mi ∆αi , (mi = inf f (x), x ∈ [xi−1 , xi ]) (4.10)
i=1
avec ∆αi = α(xi ) − α(xi−1 )

Si, lorsque la flèche de la partition maxi (xi − xi−1 ) tend vers 0, lorsque n tend vers l’infini,
les deux sommes ci-dessus tendent vers le même nombre I, alors on note
Z
I= f dα, (4.11)
[a,b]
que l’on appelle intégrale de Riemann-Stieltjes.

L’intégrale de Riemann-Stieltjes possède les propriétés habituelles (linéarité, additivité, conser-
vation des inégalités, etc.) de l’intégrale. Si α(x) = x pour tout x ∈ [a, b], nous obtenons
l’intégrale de Riemann. Si α possède une dérivée continue α0 , alors nous avons
Z Z
f dα = f (x)α0 (x)dx (4.12)
[a,b] [a,b]
L’intégrale de Riemann-Stieltjes suivante, lorsqu’elle existe,

Z +∞
f dα (4.13)
−∞
est définie par

Z b
lim f dα (4.14)
a→−∞
b→+∞ a
La proposition suivante est très importante pour le calcul des espérances.
Proposition 21 Soient g une fonction bornée sur [a, b], ξ un point de ]a, b[ et α(x) = 1(x − ξ).
Si g est continue au point ξ, alors
Z b
g dα = g(ξ) (4.15)
a
Proposition 22 Soient α une fonction monotone croissante sur [a, b], fn une suite de fonctions
Riemann-Stieltjes intégrables sur [a, b] pour tous n = 1, 2, ... telles que fn → f uniformément
sur [a, b]. Alors f est Riemann-Stieltjies intégrable sur [a, b] et
Z b Z b
fn dα → f dα, lorsque n → ∞.
a a
29
4.6 Espérance mathématique

Si F est la fonction de répartition de la v.a.r. X, alors l’espérance de X est définie par
l’intégrale de Riemann-Stieltjes suivante
Z
EX = xdF (x) (4.16)
R
Proposition 23 1. Dans le cas d’une v.a. à densité, l’intégrale ci-dessus s’écrit

Z
EX = xf (x)dx (4.17)
R
2. Dans le cas d’une v.a. discrète, nous obtenons la formule déjà connue
X
EX = xp(x) (4.18)
x
3. Dans le cas d’une v.a. mixte, de f.r. F de points de discontinuité x1 , x2 , ..., xr de sauts
p1 , p2 , ..., pr respectivement, nous avons
Xr r Z xi+1
X
0
EX = xi pi + xFac (x)dx (4.19)
i=1 i=0 xi
où x0 = −∞ , xr+1 = ∞,
Roù p(x) est la loi de X. Pour que l’espérance d’une v.a. à densité existe, il faut et il suffit que
R |x|f (x)dx < ∞.
B Exemple 4.3. Espérance d’une v.a. uniforme sur [0, 1].

On a : f (x) = 1[0,1] (x) et
Z Z 1
1
EX = x1[0,1] (x)dx = x dx =
R 0 2
Soit X une v.a.r. et ϕ une application continue de R dans R, alors ϕ ◦ X (i.e. pour tout
ω ∈ Ω, (ϕ ◦ X)(ω) = ϕ(X(ω))) est une v.a., et nous avons
Z
E [ϕ ◦ X] = ϕ(x)dF (x) (4.20)
R
B Exemple 4.4. Soit X ∼ U [0, 1] (loi uniforme sur [0, 1]) et ϕ(x) = x2 , (x ∈ R). Alors
Z Z 1
1
E [ϕ ◦ X] = x2 1[0,1] (x)dx = x2 dx = .
R 0 3
B Exemple 4.5. Calcul de l’espérance d’une v.a. X de f.r. donnée dans l’exemple 4.3.
Z 0 Z 1 Z 2 Z 3
1 1 3
E (X) = x · 0dx + x · dx + x · dx + x · dx
−∞ 0 5 1 10 2 10
Z +∞
1 1 1 3
+ x · 0dx + 0 · + 2 · +3· = .
3 5 10 10 2
Proposition 24 (Théorème fondamental) .
Pour que X ait pour densité de probabilité la fonction f, il faut et il suffit que, pour toute
application bornée ϕ,
Z
E [ϕ ◦ X] = ϕ(x)f (x)dx
R
30
4.7 Variance et moments

La variance est définie, comme dans le cas de la v.a. discrète, par
Z
V ar(X) = E [(X − E X) ] = (x − E X)2 dF (x)
2
(4.21)
R
De cette définition, nous déduisons la relation suivante qui est beaucoup plus utile en pratique
V ar(X) = E [X 2 ] − (E X)2 (4.22)
Nous en déduisons que V ar(X) < ∞ si, et seulement si, E [X 2 ] < ∞. Les v.a. possèdant des
variances sont appelées v.a. du deuxième ordre.
B Exemple 4.6. Variance de X ∼ U [0, 1]. On a déjà calculé : E X = 1/2 et E [X 2 ] = 1/3, donc
V ar(X) = 1/12.
Quelques propriétés de la variance :
1. V ar(aX + b) = a2 V ar(X), (a, b ∈ R) ;
2. si X et Y sont indépendantes 2 alors V ar(X + Y ) = V ar(X) + V ar(Y ) ;
(b−a)2
3. si a ≤ X ≤ b, alors V ar(X) ≤ 4 .
Proposition 25 L’espérance d’une v.a.r. X réalise le minimum de la fonction : x 7→ E (X −x)2 ,

c’est-à-dire que V ar(X) = minx∈R E (X − x)2 .
Démonstration. De l’identité (X − x)2 − (E X − x)2 = (X − E X)2 + 2(E X − x) · (X − E X),

on déduit E (X − x)2 = (E X − x)2 + V ar(X) ≥ 0, d’où le résultat.
¤
Les moments sont définis de la même façon que pour les v.a. discrètes :
Le moment d’ordre k, lorsque |x|k f (x) est sommable, est donné par
Z Z
k k
µk = E [X ] = x dF (x) = xk f (x)dx (4.23)
R R
Le moment centré d’ordre k est

Z Z
k k
mk = E [(X − E X) ] = (x − E X) dF (x) = (x − E X)k f (x)dx (4.24)
R R
Proposition 26 Si la v.a. X admet un moment d’ordre n, (n > 1), alors elle admet également
tous les moments d’ordre ≤ n.
B Exemple 4.7. Calcul de la variance d’une v.a. X de f.r. donnée dans l’exemple 4.3. Pour le
moment d’ordre 2, on a :
Z 0 Z 1 Z 2 Z 3
1 1 3
E (X 2 ) = x2 · 0dx + x2 · dx + x2 · dx + x2 · dx
−∞ 0 5 1 10 2 10
Z +∞
1 1 1 7
+ x2 · 0dx + 02 · + 22 · + 32 · = .
3 5 10 10 2
La variance de X s’écrit comme suit :
µ ¶2
2 7 2 3 5
V ar[X] = E [X ] − (E [X]) = − = .
2 2 4
2. On verra dans le ch.5 qu’il suffit que X et Y soient non corrélées
31
4.8 Médiane
Définition 9 On appelle médiane d’une v.a.r. X un nombre M réel tel que
P(X ≤ M ) ≥ 1/2 et P(X ≥ M ) ≥ 1/2.
Toute v.a.r. possède une médiane (au moins).

Une v.a.r. peut avoir plusieurs médianes. Si la f.r. F de X est continue et strictement crois-
sante, alors X admet une médiane unique M , et on a F (M ) = 1/2.
Proposition 27 -Définition. Si E | X |< ∞, alors l’expression E | X − M | prend la même

valeur pour toute médiane M , et elle est appelée écart moyen minimum ou écart médian de X.
4.9 Fonction du taux de hasard

Pour une v.a.r. X positive absolument continue de f.r. F et de densité f , nous pouvons
définir la fonction de hasard λ : R+ −→ R̄+ , par la formule suivante
f (x)
λ(x) = (4.25)
1 − F (x)
Lorsque X mesure la durée de vie d’un système ou d’un individu, la fonction de hasard
s’appelle fonction du taux de défaillance ou fonction du taux de mortalité ou fonction de risque,
et lorsque X mesure la durée de réparation d’un système, elle s’appelle fonction de taux de
réparation.
D’après la définition ci-dessus, on peut écrire
1
λ(x) = lim P(x < X ≤ x + h|X > x) (4.26)
h↓0 h
ou
P(x < X ≤ x + h|X > x) = λ(x)h + o(h) (4.27)
c’est-à-dire que pour un système mis en fonctionnement au temps x = 0, la quantité λ(x)h,

lorsque h → 0, donne approximativement la probabilité que le système tombe en panne dans
l’intervalle de temps ]x, x + h] sachant qu’il n’est pas tombé en panne dans [0, x].
Dans le cas où λ est une constante, alors X suit une loi exponentielle de paramètre λ et
réciproquement.
Pour les v.a.r. positives la fonction 1 − F (·), notée S(·) ou R(·), est appelée fonction de
survie ou fonction de fiabilité et joue un role très important dans les applications (Biostatistique,
Fiabilité, Maintenance,...).
De (4.26) nous déduisons que la fonction du taux de hasard et la fonction de fiabilité sont
liées par la relation suivante
Rx
R(x) = e− 0 λ(u)du
, (x ≥ 0). (4.28)
4.10 Inégalité de Bienaymé-Tchebichev

Cette inégalité a une grande importance en probabilités tant au point de vue théorique que
pratique.
32
Proposition 28 Soit une v.a.r. X de carré intégrable. Alors pour tout ε > 0, nous avons :
V ar(X)
P (|X − E X| ≥ ε) ≤ . (4.29)
ε2
Démonstration. Pour toute v.a.r. Y et tout ε > 0, nous avons clairement
Y2
1{|Y |≥ε} ≤ .
ε2
En intégrant les deux membres de cette inégalité, on obtient :
EY 2
P(|Y | ≥ ε) ≤ .
ε2
En posant Y = X − E X dans cette dernière inégalité, on obtient le résultat énoncé.
¤
Interprétation. Pour ² = kσ, (σ est l’écart-type de la v.a. X), en appliquant l’inégalité de
Bienaymé-Tchebichev, on a
1
P(| X − µ |≥ kσ) ≤ (4.30)
k2
Il y a donc une probabilité inférieure à 1/4 pour que X s’écarte de 2σ de sa moyenne ou une
probabilité inférieure à 1/9 pour que X s’écarte de 3σ de sa moyenne, etc.
4.11 Quelques lois usuelles

4.11.1 Loi uniforme
Une v.a. X suit une loi uniforme sur [a, b] ⊂ R, et on note X ∼ U [a, b], si sa densité est
donnée par ½ 1
f (x) = b−a si x ∈ [a, b]
0 sinon
La fonction de répartition est

 0 si x≤a
x−a
F (x) = b−a si a≤x≤b

1 si x≥b
a+b (b−a)2
L’espérance et la variance sont : E X = 2 et V ar X = 12 .
4.11.2 Loi normale ou loi de Gauss

a) Loi normale centrée réduite.
On dit qu’une v.a. Z suit une loi normale centrée réduite, et on note : Z ∼ N (0, 1), si sa densité
de probabilité est donnée, pour tout z ∈ R, par
1 z2
ϕ(z) = √ exp(− ). (4.31)
2π 2
Sa fonction de répartition est
Z z
1 u2
Φ(z) = √ e− 2 du. (4.32)
2π −∞
33
L’espérance et la variance sont : E X = 0 et V ar(X) = 1.

b)Loi normale générale.
Soit Z ∼ N (0, 1), (µ, σ) ∈ R × R+ et X = σZ + µ. Alors E X = µ et V ar X = σ 2 , et
X −µ x−µ
P(X ≤ x) = P( ≤ ) (4.33)
σ σ
Z x−µ
x−µ 1 σ u2
= P(Z ≤ )= √ e− 2 du. (4.34)
σ 2πσ −∞
z−µ
Par le changement de variable : u = σ ,on obtient
Z x
1 (u−µ)2
F (x) = √ e− 2σ2 du, (4.35)
2πσ −∞
et la densité est
1 (x−µ)2
f (x) = √ e− 2σ2 . (4.36)
2πσ
On note alors : X ∼ N (µ, σ 2 ).
4.11.3 Loi exponentielle

La v.a. X suit une loi exponentielle de paramètre λ ∈ R∗+ , et on note X ∼ E(λ), si sa densité
est donnée par
f (x) = λe−λx 1R+ (x). (4.37)
Fonction de répartition
½
1 − e−λx si x ≥ 0
F (x) =
0 si x < 0.
L’espérance et la variance de X sont : E X = 1/λ et V ar X = 1/λ2 .

La propriété : P(X > t + s | X > s) = P(X > t) met en évidence l’absence de mémoire de
la loi exponentielle et joue un rôle très important en probabilité car elle est liée aux systèmes
aléatoires markoviens.
4.11.4 Loi gamma

La v.a. X suit une loi gamma de paramètre (α, λ) ∈ R∗+ × R∗+ , et on note X ∼ γ(α, λ), si sa
densité est
(λx)α−1 −λx
f (x) = λe 1R+ (x) (4.38)
Γ(α)
où Γ(·) est la fonction eulérienne gamma définie par la formule suivante
Z ∞
Γ(a) = ta−1 e−t dt (a ∈ C) (4.39)
0
Remarque 4.6. Lorsque a ∈ N∗ , Γ(a) = (a − 1)!.

L’espérance et la variance de X sont : E X = αλ et V ar X = λα2 .
Si α ∈ N∗ , alors γ(α, λ) est appelée loi d’Erlang. Pour α = 1, nous retrouvons la loi expo-
nentielle de paramètre λ.
34
4.11.5 Loi du chi-deux

La v.a. X suit une loi du chi-deux, à n degrés de libertés, (n ∈ N∗ ), et on note X ∼ χ2 (n),
si X ∼ γ(n/2, 1/2).
Une v.a. X ∼ χ2 (n) est la somme des carrés de n v.a. normales centrées réduites et
indépendantes, i.e., si X ∼ χ2 (n), on a
X = Z12 + · · · + Zn2 Zi i.i.d. ∼ N (0, 1)
L’espérance et la variance sont : E X = n et V ar X = 2n.
4.11.6 Loi log-normale

La v.a. X suit une loi log-normale de paramètre (µ, σ 2 ) ∈ R+ × R+ , si X = eY et Y ∼
N (µ, σ 2 ), et sa densité est
1 (log x−µ)2
f (x) = √ e− 2σ2 1R+ (x) (4.40)
2πσx
2 /2 2 /2) 2
L’espérance et la variance sont : E X = eµ+σ et V ar X = e2(µ+σ − e2µ+σ .
4.11.7 Loi de Weibull

La v.a. X suit une loi de Weibull de paramètre (β, η) ∈ R∗+ × R∗+ , et on note X ∼ W (β, η),
si sa densité est
β x −( x )β
f (x) = ( )β−1 e η 1R+ (x) (4.41)
η η
La fonction de répartition est
(
−( x )β
F (x) = 1−e η si x ≥ 0
0 si x < 0
L’espérance et la variance sont : E X = ηΓ(1 + β1 ) et V ar X = η 2 [Γ(1 + β2 ) − (Γ(1 + β1 ))2 ].
4.12 Fonction génératrice des moments

La fonction génératrice des moments d’une v.a. réelle X, notée M (t), est définie par la
relation suivante
Z ½ P tx
e p(x) si X discrète
tX
M (t) = E [e ] = e dF (x) = R x tx
tx
(4.42)
R R e f (x)dx si X à densité
pour tout t ∈ R tel que M (t) < ∞. Elle est définie dans un certain intervalle contenant l’origine.
Son nom est dû à la formule suivante
dn
E [X n ] = M (n) (0) = n M (t)|t=0 , (4.43)
dt
que nous pouvons vérifier facilement.
B Exemple 4.8. Si X ∼ b(n, p), alors :

n
X
M (t) = E [etX ] = etk Cnk pk (1 − p)n−k = (1 − p + pet )n (4.44)
k=0
Par la formule (4.43), on a :

E X = M 0 (t)|t=0 = npet (1 − p + pet )n−1 |t=0 = np.
35
Lois Fonctions génératrices des moments

binomiale b(n, p) (1 − p + p et )n
t
Poisson P (λ) e−λ+λ e
pet
géométrique G(p) 1−(1−p)et
pet m
binomiale négative bn(m, p) ( 1−(1−p)e t)
tb
e −e ta
uniforme U (a, b) t(b−a)
µt+ 12 σ 2 t2
normale N (µ, σ 2 ) e
λ
exponentielle E(λ) λ−t
λ α
gamma γ(α, λ) ( λ−t )
Proposition 29 Si MX (t) est définie pour tout t dans [−t0 , t0 ], (t0 > 0), alors :
1. X possède des moments finis de tous ordres ;
P tk
2. MX (t) = ∞ k
k=0 k! E [X ].
Problème de moments : Sous quelles conditions une distribution de probabilité est-elle définie
de manière unique par ses moments ? Il n’existe pas de condition nécessaire et suffisante. En
revanche, nous avons différentes conditions suffisantes dont la plus simple exige que la fonction
génératrice des moments soit finie dans un voisinage de 0.
36
Chapitre 5
Convergences stochastiques et
théorèmes limites
5.1 Covariance de deux variables aléatoires

Dans les chapitres précédents, nous avons parlé exclusivement de v.a. scalaires. Dans ce
chapitre nous allons présenter d’abord deux v.a.r. conjointes ou simultanées X et Y et qui peut-
être généraliser ensuite à des vecteurs X = (X1 , X2 , . . . , Xn )0 1 à valeurs dans Rd .
Considérons, par exemple, deux v.a. conjointes discrètes. On dit que les v.a. X et Y à valeurs
dans E et F (au plus dénombrables) sont conjointes si
pXY (x, y) = P(X = x, Y = y) (x ∈ E, y ∈ F ) (5.1)
satisfait :
1. pXY (x, y) ≥ 0 pour tout (x, y) ∈ E × F ,
P
2. (x,y)∈E×F pXY (x, y) = 1.
La fonction pXY (·, ·) est appelée la loi conjointe de X et Y. Les probabilités définies par
X
P(Y = y) = pY (y) = pXY (x, y) (5.2)
x∈E
X
P(X = x) = pX (x) = pXY (x, y) (5.3)
y∈F
sont appelées lois marginales de Y et X respectivement. En fait, ce sont les lois de Y et de X

respectivement.
Si X et Y sont indépendantes alors pour tout x ∈ E et y ∈ F on a
pXY (x, y) = pX (x)pY (y) (5.4)
Fonction de répartition conjointe. Elle est définie comme suit
FXY (x, y) = P(X ≤ x, Y ≤ y) (5.5)
Définition 10 (Covariance) .
Soient deux v.a.r. X et Y du deuxième ordre (i.e. E X 2 < ∞ et E Y 2 < ∞). La covariance de X
et Y est définie par la relation suivante
Cov(X, Y ) = E [(X − E X)(Y − E Y )] (5.6)

1. X0 signifie transposé.
37
38
Propriétés :
1. Cov(X, Y ) = E [XY ] − E [X]E [Y ]
2. Cov(X, X) = V ar(X)
3. Cov(X, Y ) = Cov(Y, X)
4. Cov(aX + bY, Z) = a Cov(X, Z) + b Cov(Y, Z), (a, b ∈ R)
Remarque 5.1. De la première propriété nous déduisons que l’égalité E XY = E XE Y est
vérifiée, si, et seulement si, Cov(X, Y ) = 0.
Proposition 30 Si les v.a. X et Y sont indépendantes, alors Cov(X, Y ) = 0.
Remarque 5.2. Il faut noter que la réciproque de la proposition précedente est fausse en
général.
B Exemple 5.1. Soient deux v.a. X et Y . De la relation V ar(X + Y ) = E [(X + Y )2 ] − (E [X +

Y ])2 , nous déduisons V ar(X + Y ) = V ar(X) + V ar(Y ) + 2 Cov(X, Y ).
Définition 11 (Coefficient de corrélation linéaire) .

Il est défini par la relation suivante
Cov(X, Y )
ρXY = p (5.7)
V ar(X) · V ar(Y )
De l’inégalité de Cauchy-Schwarz, nous déduisons directement que : |ρXY | ≤ 1. Si | ρXY |= 1,

alors X et Y sont linéairement dépendantes avec probabilité 1.
5.2 Convergences stochastiques et théorèmes limites

Le problème dans cette partie est le suivant : étant donné un espace de probabilité (Ω, F, P)
sur lequel nous définissons :
– une v.a. X ;
– une suite de v.a. (Xn , n ∈ N)
dire si Xn , lorsque n → ∞, converge vers la v.a. X dans un sens à préciser.
Il y a plusieurs modes de convergence. Nous allons exposer les quatre les plus usuels. Par la
suite, ces quelques éléments de la topologie stochastique nous permettrons d’exposer les résultats
les plus remarquables de la théorie de probabilités que sont les lois des grands nombres et le
théorème de la limite centrale. Les lois des grands nombres sont liées à la théorie de l’ergodicité
qui étudie les conditions sous lesquelles la moyenne arithmétique des v.a. a une limite. L’étude
d’un grand nombre de phénomènes physiques est basée sur cette théorie : mélange de deux gaz
parfaits, turbulence, encéphalogramme d’un homme au repos, etc.
5.3 Types de convergences

Ici les v.a. Xn , n = 1, 2, ... et X sont définies sur le même espace de probabilité (Ω, F, P).
5.3.1 Convergence presque sûre

Définition 12 On dit que Xn , converge, lorsque n → ∞, vers la v.a. X presque sûrement (p.s.)
ou avec probabilité 1, si : P({ω : Xn (ω) −→ X(ω) lorsque n → ∞}) = 1, et on note :
p.s.
Xn −→ X.
39
5.3.2 Convergence en moyenne quadratique

Définition 13 On dit que Xn converge en moyenne quadratique, lorsque n → ∞, vers X, si
E [| Xn |2 ] < ∞ et E [| Xn − X |2 ] −→ 0, lorsque n → ∞, et on note
m.q.
Xn −→ X.
Remarque 5.3. La convergence en moyenne quadratique est un cas particulier de la convergence

dans Lp pour p = 2. Dans le cas géneral, on a E [| Xn − X |p ] −→ 0 et on note
Lp
Xn −→ X.
5.3.3 Convergence en probabilité

Définition 14 On dit que Xn converge en probabilité, lorsque n → ∞, vers X, si pout tout
²>0
P(| Xn − X |> ²) −→ 0 lorsque n → ∞
et on note
p
Xn −→ X
5.3.4 Convergence en loi

Notons Fn la fonction de répartition de Xn et F la fonction de répartition de X.
Définition 15 On dit que Xn converge en loi, lorsque n → ∞, vers X, si Fn −→ F en tout

point de continuité de F , et on note
L
Xn −→ X.
Proposition 31 Entre les quatre modes de convergence, ci-dessus, nous avons les implications
suivantes :
– La convergence presque sûre implique la convergence en probabilité qui implique la conver-
gence en loi.
– La convergence dans Lq implique la convergence dans Lp , si q > p ≥ 1 qui implique la
convergence en probabilité.
Remarque 5.4. Nous n’avons pas d’autres implications générales.
Proposition 32 (Critère de la fonction caractéristique) .

Soit (Xn ; n ∈ N) une suite de v.a. de fonctions caractéristiques (ϕn ; n ∈ N). Si la suite (ϕn )
converge simplement vers une fonction ϕ de R dans C, continue en 0, alors ϕ est une fonction
caractéristique et, de plus, (Xn ) converge en loi vers une v.a. dont la fonction caractéristique
est ϕ.
λ λ λ
Proposition 33 Si Xn −→ X et Yn −→ Y , alors Xn + Yn −→ X + Y pour λ = p.s., Lp et p.
Ce n’est pas vrai pour la convergence en loi.
L L
Proposition 34 Si Xn −→ X et si g est une application continue de R dans R, alors g(Xn ) −→
g(X).
40
5.4 Lois des grands nombres et théorème de la limite centrale

Les suites de v.a. que nous allons considérer ici sont formées de v.a. indépendantes et iden-
tiquement distribuées (équidistribuées), désignées par l’abréviation i.i.d.. Dans le paragraphe
précédent, nous avons défini des suites finies de type i.i.d. Nous définissons maintenant la même
notion mais pour les suites infinies.
Définition 16 (Suites i.i.d.)

Une suite de v.a. (Xn , n ≥ 1) définie sur l’espace de probabilité (Ω, F, P) est dite i.i.d. si toute
suite finie extraite de cette suite est de type i.i.d..
Notons Sn = X1 + · · · + Xn , ≥ 1.
Proposition 35 (Loi faible des grands nombres)

Soit une suite de v.a. (Xn , n ≥ 1) i.i.d. avec E |X1 | < ∞. Lorsque n → ∞, nous avons
Sn p
−→ E X1 . (5.8)
n
Proposition 36 (Loi forte des grands nombres)

Soit une suite de v.a. (Xn , n ≥ 1) i.i.d. Alors E |X1 | < ∞ est une condition nécessaire et
suffisante pour que la suite (Xn ) vérifie la loi forte des grands nombres, i.e., lorsque n → ∞,
nous avons
Sn p.s.
−→ E X1 . (5.9)
n
B Exemple 5.2. Pour une suite d’événements (An , n ≥ 1) indépendants et de même probabilité
1 Pn
p, la loi forte des grands nombres dit que les fréquences n k=1 1Ak convergent p.s. vers p lorsque
n → ∞. Ce résultat justifie l’estimation des probabilités par les fréquences.
B Exemple 5.3. La fonction de répartition empirique d’un n-échantillon est définie par
n
1X
Fn (x) = 1{Xi ≤x} . (5.10)
n
i=1
Par la loi forte des grands nombres nous obtenons directement, pour tout x ∈ R, lorsque n → ∞
p.s.
Fn (x) −→ E 1{X1 ≤x} = F (x). (5.11)
Proposition 37 (Théorème de la limite centrale (TLC))

Soit une suite de v.a. (Xn , n ≥ 1), i.i.d. avec espérance commune µ et variance commune σ 2
telle que 0 < σ 2 < ∞. Alors, lorsque n → ∞, nous avons
Sn − nµ L
√ −→ N (0, 1) (5.12)
σ n
B Exemple 5.4. (Théorème de De Moivre-Laplace). Soit (Xn , n ≥ 1), une suite de v.a. i.i.d.
avec Xn ∼ B(p), (0 < p < 1), alors µ = p et σ 2 = p(1 − p) > 0. Suivant la proposition 37, nous
avons
S − np L
p n −→ N (0, 1). (5.13)
np(1 − p)
41
B Exemple 5.5. L’application du TLC à la suite des fonctions empiriques Fn (·), lorsque n → ∞,
donne, pour tout x ∈ R,
√ L
n(Fn (x) − F (x)) −→ N (0, σ 2 (x)) (5.14)
avec σ 2 (x) = F (x)(1 − F (x)).
Proposition 38 (TLC pour des v.a. vectorielles)

Soit une suite de vecteurs aléatoires (Xn , n ≥ 1), i.i.d. à valeurs dans Rd de vecteur moyen
µ ∈ Rd , et de matrice de variances-covariances commune K. Alors, lorsque n → ∞, nous avons
1 L
√ (Sn − nµ) −→ Nd (0, K). (5.15)
n

Poly Probabilités

Transféré par

Droits d'auteur :

Formats disponibles

Poly Probabilités

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Poly Probabilités

Transféré par

Droits d'auteur :

Formats disponibles

Ecole Marocaine d’Ingénierie

Laboratoire de Mathématiques Appliquées

1 Expérience aléatoire et probabilité 5

2 Calcul élémentaire de probabilités 11

3 Variable aléatoire discrète 17

4 Variable aléatoire réelle et variable aléatoire à densité 25

5 Convergences stochastiques et théorèmes limites 37

Expérience aléatoire et probabilité

1.1 Expérience aléatoire

1.2 Espace fondamental

1.3 Evénement aléatoire

1.4 Opérations logiques sur les événements

B Exemple 1.4. (suite). Ac ∩ B c = {ω5 , ω6 , ω7 }.

B Exemple 1.5. (suite). A ∩ B = ∅.

B Exemple 1.6. (suite). A∪B = {ω1 , ω2 , ω3 , ω4 , ω8 }; A∪B c = B c = {ω1 , ω2 , ω3 , ω4 , ω5 , ω6 , ω7 }.

1.5 Fréquence et Probabilité

n(A1 ∪ ... ∪ Ak )/N = n(A1 )/N + · · · + n(Ak )/N (1.2)

1.6 Définition axiomatique de la probabilité

B Exemple 1.8. F = {∅, A, Ac , Ω} est la σ-algèbre de Bernoulli.

Proposition 1 Soient A et B deux événements d’une expérience Ω. Nous avons :

1.7 Calcul combinatoire des probabilités

Proposition 2 Le nombre de permutations de n objets distincts (n ∈ N∗ ) est :

2. Arrangements. Soit un ensemble S de n éléments et m un entier tel que 1 ≤ m ≤ n. Un

Proposition 4 Le nombre d’arrangements m à m d’un ensemble S de n ≥ m éléments est

3. Combinaisons. Les différentes façons de considérer m éléments d’un ensemble de n, (n ≥

Démonstration. Nous avons clairement Am m

1.8 Probabilité géométrique

Calcul élémentaire de probabilités

2.2 Probabilité conditionnelle

2.3 Indépendance stochastique

P(A ∩ B) = P(A)P(B) (2.2)

En comparant les relations (2.1) et (2.2) ci-dessus, on peut écrire

P(A|B) = P(A) (2.3)

Proposition 6 Si A et B sont deux événements indépendants, alors :

Ω = {abc, acb, bac, bca, cab, cba, aaa, bbb, ccc}

Ak = { la k-ième lettre est un a }, k = 1, 2, 3.

P(A1 ) = P({abc, acb, aaa}) = 3/9

P(A1 ∩ A2 ) = P(A1 )P(A2 )

P(A1 ∩ A2 ∩ A3 ) = P({aaa}) = 1/9

P(A1 ∩ A2 ∩ A3 ) 6= P(A1 )P(A2 )P(A3 )

Conclusion : les événements A1 , A2 et A3 ne sont pas indépendants.

Définition 4 (Indépendance conditionnelle) .

P(A1 ∩ · · · ∩ An |B) = P(A1 |B) · · · P(An |B)

on dit que les événements A1 , ..., An sont conditionnellement indépendants sachant B.

2.4 Expérience aléatoire composée

Tout événement d’une expérience peut se représenter soit comme un sous-ensemble A de Ω1 ,

Deux événements, A1 lié à la première expérience et A2 lié à la seconde expérience, sont

2.5 Formules remarquables

Proposition 7 (Théorème des probabilités totales) .

La deuxième égalité est valable si : P(Bk ) > 0, pour tout k ∈ I.

Proposition 8 (Formule de Poincaré) .

Proposition 9 (Formule de Bayes séquentielle) .

P(∩ni=1 Ai ) = P(A1 )P(A2 | A1 )P(A3 | A1 A2 ) · · · P(An | A1 A2 . . . An−1 )

Démonstration. Nous avons : P(A1 ∩ · · · ∩ An ) = P(An |A1 ∩ · · · ∩ An−1 ) × P(A1 ∩ · · · ∩ An−1 ) =

Proposition 10 (Formule de Bayes) .

Proposition 11 (Suites monotones d’événements) .

Proposition 12 (Inégalité de Boole) .

Variable aléatoire discrète

X(ω) = x + y, Y (ω) = x · y, Z(ω) = x − y