Chapitre 2 Variable Aleatoire

LES VARIABLES ALEATOIRES
GENERALITES
une variable aléatoire est généralement l'ensemble des résultats possibles
d'une expérience aléatoire (Exemple: un lancer de dé, un lancer d’un pièce de
monnaie, la source générant un signal binaire ,,,,etc).
Une variable aléatoire est une description numérique du résultat d'une

expérience statistique.
Les variables aléatoires sont généralement de nature discrètes ou continues.

Des fois elles peuvent être un mélange des deux.
Variable aléatoire X discrète

Une variable aléatoire qui ne peut prendre qu'un nombre fini ou dénombrable est dite
discrète;
Exemples:
•Une variable aléatoire représentant le nombre de voitures vendues chez un

concessionnaire particulier au cours d'une journée serait discrète,
•Les valeurs obtenues après des lancers de dé : X = « face du dé » : prend les
valeurs x = 1, 2, 3, 4, 5, 6 (dénombrables)
•…. etc
GENERALITES
Variable aléatoire X continue
Une variable aléatoire qui peut prendre n'importe quelle valeur dans un certain
intervalle de nombres réels est dit continu.
Exemples:
•Une variable aléatoire représentant le poids d'une personne en kilogrammes :

50kg<=X<=100kg
•La température exacte d’un four,
•La longueur exacte d’une pièce fabriquée
•La date et l'heure de réception d'un paiement.
GENERALITES
Variable aléatoire X mélange (continue et discrète simultanément)
Une variable aléatoire qui peut prendre en même temps des valeurs discrètes
et continues.
Exemple:
Un récepteur d’une chaine de transmission numérique, reçoit les données

numériques binaires émis par l’émetteur mais ‘’corrompues’’ par un bruit blanc
dû au canal qui est modélisé souvent comme étant une variable aléatoire
continue (Gaussien centré)
STATISTIQUES DES VARIABLES ALEATOIRES
Loi de probabilité d’une variable aléatoire X discrète
Pour une variable aléatoire discrète, X, la distribution de probabilité est définie

par une fonction de masse de probabilité, notée f(xi); où xi l’ensemble des
valeurs que la variable aléatoire discrète X peut prendre,
Cette fonction fournit la probabilité pour chaque valeur xi de la variable

aléatoire X.
Dans le développement de la fonction de probabilité pour une variable aléatoire

discrète, deux conditions doivent être satisfaites:
(1)f(xi ) doit être non négatif pour chaque valeur de la variable aléatoire,
1  f(xi )  0
(2) la somme des probabilités pour chaque valeur de la variable aléatoire doit
être égale à un.
Loi de probabilité d’une variable aléatoire X discrète
f(xi )
xi X
Densité de probabilité d’une variable aléatoire discrète
x  p(X  x )  p
i i i
n
 p 1
i
i 1
Loi de probabilité d’une variable aléatoire X continue
Une variable aléatoire continue peut prendre n'importe quelle valeur dans un
intervalle de valeurs réelle ou dans une collection d'intervalles.
Puisqu'il y a un nombre infini de valeurs dans n'importe quel intervalle, il n'est

pas significatif de parler de la probabilité que la variable aléatoire prenne une
valeur spécifique; au lieu de cela, la probabilité qu'une variable aléatoire
continue se trouve dans un intervalle donné est considérée.

b
P(a  X  b) = f (x)dx = P(X  b) - P(X  a)
a


avec f (x)dx  1

Fonction de répartition d’une variable aléatoire discrète/continue
Une fonction de répartition d’une variable aléatoire x est une fonction F(x) qui,
pour tout x, indique la probabilité pour que x soit inférieur ou égal à x1. Elle
correspond donc à la distribution cumulée,
v.a. discrète v.a. continue

x
F ( x)   f ( x )dx
F(k)= P(X≤k) 
1
0 ≤ F(x) ≤ 1
0
ESPERANCE MATHEMATIQUE
L’espérance, notée E(x) correspond à une moyenne pondérée
Variable aléatoire discrète

Soit X un va discrète qui prend des valeurs dans l'ensemble D et a comme
densité de probabilité f(xi). Alors l’espérance mathématique ou moyenne
statistique (ou d’ensemble) de X est:
Variable aléatoire continue

L’espérance mathématique (moyenne statistique) d'une va continue X avec
une fonction de densité de probabilité (pdf) f (x) est:
VARIANCE
La variance d'une variable aléatoire, notée Var(X) ou σ2, est une moyenne
pondérée des écarts au carré de la moyenne.
•Dans le cas discret, les poids sont donnés par la fonction de probabilité,
•Dans le cas continu, les poids sont donnés par la fonction de densité de
probabilité.
L'écart type, noté σ, est la racine carrée positive de la variance. Étant donné
que l'écart-type est mesuré dans les mêmes unités que la variable aléatoire et
que la variance est mesurée en unités au carré, l'écart-type est souvent la
mesure préférée.
Variable aléatoire discrète
Variable aléatoire continue

Exemple 1: Soit une source qui va émettre le mot suivant:
Alphabet Source = le mot ‘’annaba’’={a, n, n, a, b, a}
Les symboles générés par la source sont formés par 3 lettres de l’alphabet
français à savoir a, n et b, mais pas avec la même loi de probabilité, si on se
restreint à cet exemple basic.
La loi de probabilité est donc (pour ce cas de figure) :
P(‘’a’’)=1/2, P(‘’n’’)=1/3 et P(‘’b’’)=1/6
1- Tracer sa densité de probabilité

2- Sa fonction de répartition
3- Calculer son espérance mathématique, sa variance et son écart type
Exemple 2:
Soit un bloc d’images en niveaux de gris de taille 8 × 8 pixels
10 10 10 15 200 200 200 200
15 5 255 255 200 200 200 200
10 15 10 5 200 200 200 200
10 10 10 15 200 200 200 200
15 5 255 255 100 200 100 200
10 15 10 5 100 200 100 200
20 30 30 30 100 200 100 200
20 150 20 20 100 200 100 200
 Ces niveaux de gris sont normalement compris entre 0 et 255, ce qui justifie
le choix habituel d’un codage de taille fixe de 8 bits par pixel.
1- Tracer sa densité de probabilité

2- Sa fonction de répartition
3- Calculer son espérance mathématique, sa variance et son écart type
Propriétés de l’espérance mathématique
1.Propriété de l’addition :
E(X + Y) = E(X) + E(Y)
Démonstration:
2. Propriété de mise à l'échelle (Multiplication par une constante)
E(cX) = cE(X)
Propriétés de l’espérance mathématique
3. Propriété de linéarité :
A partir des deux propriétés précédentes nous pouvons généraliser la
propriété de linéarité de l’espérance mathématique
4.Inégalités de valeur absolue:
5.Multiplication
E (XY) = E (X) E (Y). Ici, X et Y doivent être indépendants.
6.Addition à une constante

E [X + a] = E [X] + a, où a est une constante
Propriétés de la variance
1.Propriété 1
2.Propriété 2: d’une manière générale nous avons
3.Propriété 3 : La variance d'une constante est de 0.

Propriétés de la variance
4. Propriété 4
V (a1X1 + a2 X2 +… + anXn) = a12 V (X1) + a22 V (X2) +… + an2 V (Xn).
1.Propriété 2: d’une manière générale nous avons
2.Propriété 3 : La variance d'une constante est de 0.

CAS DE DEUX VARIABLES ALEATOIRES DISCRETES
Considérons d'abord le cas dans lequel deux variables aléatoires sont

discrètes. C’est un cas très répondu surtout en télécommunications
numériques où les données discrètes de l’émission et celles reçus,
Nous allons donc étendre plusieurs des définitions que nous avons apprises
pour une variable aléatoire discrète, telle que la fonction de masse de
probabilité, la moyenne et la variance, au cas où nous ont deux variables
aléatoires discrètes.
Soit deux variables aléatoire X et Y chacune pouvant prendre une valeur dans
un ensemble de 4 valeurs possibles équiprobables (même probabilité pour les
4 valeurs) :
X = {1, 2, 3, 4} et Y = {1, 2, 3, 4}
Commençons par trouver la «distribution de probabilité conjointe
(x, y) désigne l'un des résultats possibles pour les deux variables
simultanément.
Si nous continuons à énumérer tous les résultats possibles, nous voyons

bientôt que le l’ensemble de possibilités conjointes S a 16 résultats possibles:
S = {(1,1) ; (1,2) ; (1,3) ; (1,4) ; (2,1) ; (2,2) ; (2,3) ; (2,4) ; (3,1) ; (3,2) ; (3,3) ;
(3,4) ; (4,1) ; (4,2) ; (4,3) ; (4,4) }
Comme X et Y sont équiprobables les deux et statistiquement indépendante

l’une de l’autre, nous devrions nous attendre à ce que chacun des 16 résultats
possibles soit équiprobable.
P(X=x,Y=y) = 1/16
La fonction de probabilité conjointe est

généralement notée f (x, y), puisse être définie
comme une formule, comme un graphique ou
comme un tableau.
Densité de probabilité Conjointe
Soit X et Y deux variables aléatoires discrètes, et soit S désignent le support

bidimensionnel de X et Y. Alors, la fonction f(x,y) = P(X=x,Y=y) est une
fonction de masse de probabilité conjointe si elle satisfait les trois conditions
suivantes:
Densité de probabilité marginale
Soit X une variable aléatoire discrète avec le support S1, et soit Y une variable
aléatoire discrète avec le support S2.
Soit X et Y la fonction de masse de probabilité conjointe avec le support S.
Alors, la fonction de probabilité de la va X seule, appelée fonction de

probabilité marginale de X, est définie par :
De même, la fonction de probabilité de la va Y seule, appelée fonction de

probabilité marginale de Y, est définie par :
Indépendance et dépendance de 2 va
Les variables aléatoires X et Y sont indépendantes si et seulement si:
P(X=x,Y=y) = P(X=x) × P(Y=y)

x  S1 et y  S2
Sinon, X et Y sont dits dépendants.
Soit maintenant, une fonction de probabilité conjointe f (x, y), et que nous
voulions trouver la moyenne statistique de X (notée E(X)).
On peut commencer par trouver d'abord la densité de probabilité marginale de

X, puis d'utiliser la définition de l’espérance E (X).
Alternativement, nous pourrions utiliser la définition suivante de la moyenne.
Où u(x,y) est fonction de ces deux

variables aléatoires,
Densité de probabilité conditionnelle
Dans les pages précédentes de ce cours, nous nous sommes intéressés au

comportement conjoint de deux variables aléatoires X et Y.
Nous allons maintenant examiner comment l'une des deux variables aléatoires,
disons Y, se comporte étant donné qu'une autre variable aléatoire, disons X,
s'est déjà comportée d'une certaine manière.
Fonction de masse de probabilité conditionnelle de X :

La fonction de probabilité conditionnelle de X, étant donné que Y = y, est
définie par:
A condition que fY(y) > 0
Fonction de masse de probabilité conditionnelle de Y :

La fonction de probabilité conditionnelle de Y, étant donné que X = x, est
définie par:
A condition que fX(x) > 0
Exemple:
Soit X une variable aléatoire discrète avec support S1 = {0,1}, et soit Y une
variable aléatoire discrète avec support S2 = {0, 1, 2}.
Supposons, sous forme tabulaire, que X et Y aient la distribution de probabilité

conjointe suivante f(x,y):
Quelle est la distribution conditionnelle de X sachant Y? Autrement dit,

qu'est-ce que g (x / y)?
Solution de l’exemple:
En utilisant la formule suivante : A condition que fY(y) > 0

Espérance et variance conditionnelles
Supposons que X et Y sont des variables aléatoires discrètes. Alors, la

moyenne conditionnelle de Y sachant X = x est définie comme:
Et, la moyenne conditionnelle de X sachant Y = y est définie comme:
La variance conditionnelle de Y sachant X = x:
La variance conditionnelle de X sachant Y = y:

CAS DE DEUX VARIABLES ALEATOIRES CONTINUES
Densité de probabilité Conjointe

Soit X et Y deux variables aléatoires continues, et soit S désigne le support
bidimensionnel de X et Y. Alors, la fonction f (x, y) est une fonction de densité
de probabilité conjointe si elle satisfait les trois suivantes conditions:
où {(X, Y) ∈ A} est un événement

dans le plan xy
Fonctions de densité de probabilité marginale

Les fonctions de densité de probabilité marginale des variables aléatoires
continues X et Y sont données respectivement par:
où S1 et S2 sont les supports respectifs de X et Y.

Fonction de masse de probabilité conditionnelle de X :

La fonction de probabilité conditionnelle de X, étant donné que Y = y, est
définie par:
A condition que fY(y) > 0
Fonction de masse de probabilité conditionnelle de Y :

La fonction de probabilité conditionnelle de Y, étant donné que X = x, est
définie par:
A condition que fX(x) > 0

Espérance et variance conditionnelles
Supposons que X et Y sont des variables aléatoires continues. Alors, la

moyenne conditionnelle de Y sachant X = x est définie comme:
La variance conditionnelle de Y sachant X = x:

RELATION ENTRE DEUX VARIABLES ALEATOIRES
CORRELATION ENTRE LES VARIABLES ALEATOIRES
Supposons qu'une expérience produise deux variables aléatoires, X et Y.
Que peut-on dire à propos de la relation entre elles?
L'une des meilleures façons de visualiser la relation possible est de tracer la paire (X,
Y) produite par plusieurs essais de l'expérience.
Un exemple d'échantillons corrélés est présenté à

droite
Un exemple typique en télécommunications où nous aurons besoin de connaitre la
relation entre deux variables aléatoires, X représentant les données émises et Y celle
représentant les données reçues.
Le canal étant hostile où il introduit des perturbations (bruits, interférences, effet

Doppler …. etc).
La comparaison entre ces deux variables, de point de vue corrélation, nous permet
d’évaluer le degré de perturbations introduites par le canal
CANAL
Source Codages Décodage
Source/Canal P(Y/X) Canal / Source
M C C’ M’
M : Message, variable aléatoire, délivré par la source sous forme d’un alphabet
original {m1, …., ml}
C : les mots de code sous forme d’un alphabet aléatoire {c1, …., cn}
C’ : les mots de code reçu avec présence d’erreurs {c’1, …., c’n}
M’ : les données reconstruites avec présence éventuelles d’une certaine perte
FONCTION DE DENSITE CONJOINTE
Le comportement conjoint de X et Y est entièrement capturé dans la distribution de
probabilité conjointe. Pour une distribution continue
• Cas de variables aléatoires continues
• Cas de variables aléatoires discrètes

FONCTION DE COVARIANCE ENTRE DEUX VARIABLES ALEATOIRES
La fonction de covariance est un nombre qui mesure la variation commune de X et Y.
Elle est définie comme :
La covariance est déterminée par la différence entre :

E [XY] et E [X] E [Y].
Si X et Y étaient statistiquement indépendants, alors E [XY] serait égal à E [X] E [Y] et

la covariance serait nulle.
La covariance d'une variable aléatoire avec elle-même est égale à sa variance.

cov [X, X] = E [(X − E [X])2] = var [X]
COEFFICIENT DE CORRELATION ENTRE DEUX VARIABLES
ALEATOIRES
La covariance peut être normalisée pour produire ce que l'on appelle le coefficient de
corrélation, ρ.
Le coefficient de corrélation est borné par −1≤ρ≤1.
Il aura la valeur ρ = 0 lorsque la covariance est nulle et la valeur ρ = ± 1 lorsque X et Y

sont parfaitement corrélés ou anti-corrélés.
ALEATOIRES
Exemple
Soit une variable aléatoire X qui indique le nombre de tasses de chocolat chaud
vendues quotidiennement dans un café local, et Y une variable aléatoire qui indique le
nombre de muffins aux pommes et à la cannelle vendus quotidiennement dans le même
café.
Ensuite, le gérant du café pourrait bénéficier de savoir si X et Y sont fortement corrélés

ou non.
Si les variables aléatoires sont fortement corrélées, le gestionnaire saurait alors s'assurer
que les deux sont disponibles un jour donné.
Si les variables aléatoires ne sont pas fortement corrélées, alors le gestionnaire saurait
qu'il serait normal que l'un des éléments soit disponible sans l'autre.
Le coefficient de corrélation est la mesure statistique qui va nous permettre de

ALEATOIRES
La fonction d'autocorrélation est très similaire à la fonction de covariance.
En effet, elle permet de comparer deux variables aléatoires X et Y mais en tenant aussi
compte de leurs moyennes statistiques (Espérance mathématique) ce qui fait la
différence avec la fonction de covariance (qui elle compare uniquement les fluctuations
des variables aléatoires sans leurs moyennes statistiques),
R (X, Y) = E [XY] = cov (X, Y) + E [X] E [Y]
Elle conserve les valeurs moyennes dans le calcul de la valeur.
Les variables aléatoires sont orthogonales si R (X, Y) = 0

FONCTION DE CORRELATION ENTRE DEUX VARIABLES ALEATOIRES
La fonction de corrélation est très similaire à la fonction de covariance.
En effet, elle permet de comparer deux variables aléatoires X et Y mais en tenant aussi
compte de leurs moyennes statistiques (Espérance mathématique) ce qui fait la
différence avec la fonction de covariance (qui elle compare uniquement les fluctuations
des variables aléatoires sans leurs moyennes statistiques),
R (X, Y) = E [XY] = cov (X, Y) + E [X] E [Y]
Elle conserve les valeurs moyennes dans le calcul de la valeur.
Les variables aléatoires sont orthogonales si R (X, Y) = 0

Dans cet exemple nous avons trois (03) exemples qui nous montrent les corrélations
possibles entre deux variables aléatoires X et Y :
1.Dans le premier exemple il y’a une corrélation positive
2.Dans le deuxième cas les deux variables ne sont pas corrélées
3.Dans le troisième exemple il y’a une corrélation mais négative
Non corrélation vs Indépendance

Entre deux variables aléatoires X et Y
CORRELATION, COVARIANCE et COEFFICIENT DE CORRELATION
INDEPENDANCE VS CORRELATION
L'indépendance entre deux variables aléatoires (VA) X et Y, devrait être

considérée comme disant qu’aucune des deux VA n'a un impact statistique sur
l'autre
Ainsi, les valeurs que l'un prendra probablement devraient être sans rapport
avec la valeur que l'autre prendra.
Exemple d’une variable aléatoire Gaussienne
1er cas : Indépendant Contours pxy(x,y).

(moyenne nulle)
Si X et Y sont
indépendants, alors les
ellipses de contour sont
alignées avec l'axe x ou y
2ème cas : Indépendant
(moyenne non nulle)
3ème cas : dépendant

Deux variables aléatoires X et Y sont indépendantes si :
Rappels :
La fonction de Densité de probabilité décrit ‘’complètement’’ la variable

aléatoire VR
Mais souvent nous avons besoin aussi de :
•L’espérance mathématique ou Moyenne d’ensemble, E[X], de la VA. Elle

Décrit le centre de gravité de la densité de probabilité
•Variance d’une VA qui décrit l’étalement ou propagation de la densité de

probabilité
•Corrélation d’une VA qui décrit un peu «l'inclinaison» de la densité de

probabilité conjointe
CORRELATION ET CONVARIANCE ENTRE N VARIABLES ALEATOIRES
Dans ce cas nous pouvons parler d’un vecteur aléatoires
Nous obtenons donc une matrice de corrélation, de N× N éléments, du vecteur

x composé des N VA :
Pareil pour la covariance qui devient alors une matrice de N× N éléments,

ENTROPIE D’UNE VARIABLE ALEATOIRE
Comme nous venons de le voir, chaque variable aléatoire M={m1, m2,........,

mK}, est régit par une probabilité d’apparition {P(m1), P(m2),........, P(mk)}. Ceci,
nous permet donc de définir les concepts de base de la théorie d’information à
savoir :
L’information associée à chaque symbole de la source est :
I  mk    log 2 P mk 
 L’entropie, qui représente la quantité d’information moyenne, d’une variable

aléatoire M est donnée par:
Comme nous pouvons le remarquer, cette quantité moyenne d’information

d’une va, qui est l’entropie, dépend essentiellement de la loi de probabilité P.
 L’entropie, qui représentée la quantité d’information moyenne, d’une va M

est donnée par:
H  M    P mk   log 2  P mk  
k
L’entropie d’une source représente donc la quantité d'information moyenne par
caractère de la va. Elle représente aussi une incertitude moyenne par
symbole. Elle peut exprimée en bit par symbole, c’est le cas de l’expression ci-
dessus, si nous travaillons en base 2 (log2).
Plus l'entropie d’une variable aléatoire (va) est grande, plus il y’a de
l’information délivrée par cette va et bien entendu l'incertitude est plus élevée.
On montre que pour une loi de probabilité équiprobable (m, P(mk)=p, et

p=1) nous aurons une entropie maximale égale à :
H  M    log 2  P mk     log 2  p 
Exemple 1 : Cas d’une va binaire (alphabet = 0 ou 1) avec : (P(0)=p et

P(1)=1-p), alors cette entropie sera:
H  M    p log 2  p   (1  p) log 2 1  p 
Si maintenant, nous allons représenter graphiquement cette entropie en

fonction de p, nous aurons:
H(M)
Comme nous l’avons énoncé plus haut,
cette entropie est maximale quand la loi
de probabilité est équiprobable, ici
p=0.5 (P(0)=P(1)=0.5.
On remarque aussi que cette entropie

est nulle pour p=0 et pour p=1
représentant respectivement une
certitude que la source n’émet que des
0 ou que des 1 (pas d’incertitude donc
pas d’information et l’entropie est donc
nulle)
Exemple 2 : Cas d’une va de k symboles {m1, m2,........, mK} équiprobables

{P(m1) = P(m2) = ,........, = P(mK) =1/K}, alors cette entropie sera:
K
1 1
H  M    log 2   
k 1 K K
1 1
  log 2   
K K
 log 2 K
Evidemment, cette entropie est maximale pour cette source compte tenu que la
loi de probabilité qui la régie est équiprobable.
Dans le cas d’une loi quelconque régissant une source de K éléments nous
avons:
H  M   log 2 K  H  M   1
REDONDANCE D’UNE VARIABLE ALEATOIRE
Comme nous venons de le voir pour une va M de longueur K, l’entropie où

quantité d’information moyenne délivrée par cette source est notée H(M).
Elle est maximale pour une loi de probabilité équiprobable :
H max  M   log 2 K
On définit la redondance de la va comme étant l'écart ou la différence entre la
valeur maximale possible (lorsque tous les symboles sont équiprobables) de
son entropie et son entropie réelle.
Re dondance  H max  M   H ( M )  log 2 K  H ( M )
Une va dont l’entropie est faible est plus redondante. Autrement dit, il y’a moins
d’incertitude et donc moins d’information délivrée par la va et par conséquence
trop de redondance.
ENTROPIE MUTUELLE
Supposons maintenant que nous avons deux va X et Y. Chacune possède

alors une entropie que l’on définit par H(X) et H(Y). On définit :
 I(X) et I(Y) : Information propre de X et de Y respectivement
H(X,Y) : Information conjointe ou entropie mutuelle
H(X/Y) : Informations partielle ou conditionnel de X sachant Y. Elle

représente l’ambigüité ou l’incertitude qui reste sur X pour Y connu.
H(Y/X) : Informations partielle ou conditionnel de Y sachant X. Elle

représente l’ambigüité ou l’incertitude qui reste sur Y pour X connu.
I(X,Y) : Information mutuelle ou quantité d’information de X réellement

apportée par Y
 I(X/Y) et I(Y/X) : Informations conditionnelles

ENTROPIE MUTUELLE
 si X et Y sont deux variables aléatoires indépendantes, on a :
H(X,Y) = H(X) + H(Y

H(X/Y) = H(X)
H(Y/X) = H(Y)
I(X,Y) = I(X)-I(X/Y)=0
 Sinon, une certaine dépendance entre X et Y :
H(X,Y) < H(X) + H(Y) < 2 H(X,Y)

H(X,Y) = H(X) + H(Y/X)
H(X,Y) = H(Y) + H(X/Y)
I(X,Y) = H(X) – H(X/Y) = H(Y) – H(Y/X) = H(X) + H(Y) – H(X,Y) > 0
I(X,Y) = I(X) – I(X/Y) > 0
ENTROPIE MUTUELLE
Pour mieux comprendre ces définitions et cette figure prenons le cas d’un
système de transmission sous sa forme la plus simple
source canal Récepteur
X={x1, x2, …, xK} Y={y1, y2, …, yK}
Si X et Y son complètement indépendantes alors la quantité d’information

de X réellement apportée par Y de X ou I(X,Y) = 0
Dans le cas plus réaliste cette quantité d’information dite mutuelle est
égale à H(X)–H(X/Y).
Donc H(X/Y) est l’incertitude ou erreurs dus aux imperfections du canal.
ENTROPIE MUTUELLE
ENTROPIE MUTUELLE
ENTROPIE MUTUELLE
EXEMPLES DE LOIS DE PROBABILITES DISCRETES
Loi binomiale
Deux des distributions de probabilité discrètes les plus utilisées sont :
•La loi de probabilité Binomiale

•La loi de probabilité de Poisson.
La fonction de probabilité binomiale (équation ci-dessous) fournit la probabilité

que x succès se produiront dans n essais d'une expérience binomiale.
n k n!
p(X  k)  C p q
k
n
k
avec C 
k
n
k!(n  k)!
Une variable Binomiale est donc une variable aléatoire X correspondant à la
somme de n variables de Bernoulli. Notée X : B(n,p)
Où X = nombre de succès au cours de n épreuves de Bernoulli identiques et
indépendantes,
55
Loi binomiale
Une expérience binomiale a quatre propriétés:
(1)elle consiste en une séquence de n essais identiques;

(2)deux résultats, succès ou échec, sont possibles pour chaque essai;
(3)la probabilité de succès d'un essai, notée p, ne change pas d'un essai à
l'autre;
(4)les essais sont indépendants.
Une famille qui a trois (03) enfant,

La naissance de chaque enfant garçon ou fille a la même probabilité p=0,5
3 enfant = n
B(3, 0,5) =
n!
p(X  k)  Ckn p k q n k avec Ckn  56
k!(n  k)!
Loi binomiale
Loi de probabilité d’une loi binomiale
Fonction de répartition d’une loi binomiale
Espérance mathématique d’une loi binomiale
E(X) = np
Variance d’une loi binomiale
V(X) = np(1-p)
57
Loi binomiale
Exemple:
Supposons que l'on sache que 10% des propriétaires d'automobiles de deux
ans ont eu des problèmes avec le système électrique de leur automobile. Pour
calculer la probabilité de trouver exactement 2 propriétaires qui ont eu des
problèmes de système électrique sur un groupe de 10 propriétaires, la fonction
de probabilité binomiale peut être utilisée en définissant n = 10, x = 2 et p = 0,1
dans l'équation suivante; dans ce cas, la probabilité est de 0,1937.
nk n!
p(X  k)  C p q
k
n
k
avec C 
k
n
k!(n  k)!
58
Loi binomiale
Exemple:
Un couple, tous deux porteurs d'une maladie récessive, souhaite avoir 5

enfants. Ils veulent connaître la probabilité qu'ils aient quatre enfants en bonne
santé
nk n!
p(X  k)  C p q
k
n
k
avec C 
k
n
k!(n  k)!
59
Loi binomiale
Exemple:
Répartition du nombre de filles dans les fratries de 4 enfants,

p: probabilité d’avoir une fille à chaque naissance = ½
X(Ω) = {0, 1, 2, 3, 4} Loi de probabilité B (4 ; 1/2)
n k n!
p(X  k)  C p q k
n
k
avec C  k
n
k!(n  k)!
X=0 GGGG q4 0.0625
X=1 FGGG, GFGG, GGFG, GGGF 4q3p 0.25
X=2 FFGG, FGFG, FGGF, GFFG, GFGF, GGFF 6q2p2 0.375
X=3 FFFG, FFGF, FGFF, GFFF 4qp3 0,25
X=4 FFFF p4 0,0625
somme = 1
60
Indépendance statistique p (G  G  G  G) = q.q.q.q = q4
Loi binomiale
Exemple:
Une famille de n enfants, quelle est la probabilité d’avoir x garçons?
B(2,0.5)= 0,52 0,50=0,25
B(7,0.5)?
n k n!
p(X  k)  C p q k
n
k
avec C  k
n
k!(n  k)! 61
Loi binomiale
Exemple:
Avec n=2: B(2,0.5)
x P(x)
0 0.25
1 0.5
2 0.25
62
Loi binomiale
Exemple:
Symétrique!!
63
Loi binomiale
Exemple:
Des rats sont conditionnés. Un passage a 25% d’être emprunté. 5 essais...
B(5,0.25)???
64
Loi binomiale
Exemple:
Dissymétrique!!!!
65
Loi binomiale
n
Espérance mathématique
E ( x )   P( xi )  xi
i 1
Pour la loi binomiale:

E ( x )  np
Exemple:
Quelle est l’espérance mathématique du nombre de garçons dans une famille
de 7 enfants?
E ( x )  np  7  0.5  3.5
66
Loi binomiale
Pour une distribution binomiale:
  npq
2
Exemple:
Quelle est la variance du nombre de garçons dans une famille de 7 enfants?
 2  7  0.5  0.5  1.75
67
Loi de Poisson
La distribution de probabilité de Poisson est souvent utilisée comme modèle du
nombre d'arrivées dans une installation au cours d'une période donnée.
Dans le cas d’une variable de Poisson,

Poisson les événements se produisent les uns
à la suite des autres, de façon aléatoire dans l’espace ou le temps.
 
k
Loi de probabilité: P(X  k)  e
k!
Elle est appelée loi de Poisson,
Poisson notée P(λ) k = 0, 1, 2, …, ∞
E(X) =  V(X) = 
Exemple: une variable aléatoire pourrait être définie comme le nombre
d'appels téléphoniques entrant dans un système de réservation d'une
compagnie aérienne pendant une période de 15 minutes. Si le nombre moyen
d'arrivées pendant un intervalle de 15 minutes est connu, la fonction de
probabilité de Poisson donnée par l'équation ci-dessus peut être utilisée pour
68
calculer la probabilité de x arrivées.
Loi de Poisson
Exemple: une variable aléatoire pourrait être définie comme le nombre
d'appels téléphoniques entrant dans un système de réservation d'une
compagnie aérienne pendant une période de 15 minutes. Si le nombre moyen
d'arrivées pendant un intervalle de 15 minutes est connu, la fonction de
probabilité de Poisson donnée par l'équation ci-dessus peut être utilisée pour
calculer la probabilité de x arrivées.
Supposons que le nombre moyen d'appels arrivant dans une période de 15

minutes soit de 10. Pour calculer la probabilité que 5 appels arrivent dans les
15 minutes suivantes, μ = 10 et x = 5 sont substitués dans ci dessus, ce qui
donne un probabilité de 0,0378.
 
k
Loi de probabilité: P(X  k)  e
k!
Elle est appelée loi de Poisson,
Poisson notée P(λ) k = 0, 1, 2, …, ∞
69
E(X) =  V(X) = 
Loi de Poisson
La loi de Poisson: distribution théorique discontinue qui dérive de la loi

binomiale.
Une des éventualités a une probabilité très faible.
Surtout utilisé lorsqu’on compte des individus ou des évènements distribués au

hasard dans le temps ou dans l’espace.
Loi binomiale tend vers Poisson si p diminue et n augmente. En pratique un

événement est rare si p<0.05. L’approximation est satisfaisante si n>50.
70
Loi de Poisson
Poisson démontre que :
n!
P( x )  qn x p x
( n  x )! x!
Tend vers:
np x np  x 
P( x )  e ou P( x )  e
x! x!
Avantage: un seul paramètre ()
71
EXEMPLES DE LOIS DE PROBABILITES CONTINUES
Loi normale
La distribution de probabilité continue la plus largement utilisée en statistique
est la distribution de probabilité normale.
Une variable aléatoire est une variable normale quand elle dépend d’un grand
nombre de causes indépendantes dont aucune n’est prépondérante.
1 x  2
1  ( )
Densité de probabilité: f (x)  e 2 
 2
Elle est appelée loi normale
Max en μ
Notée N (,)

E(X) =  V(X) = 2
f symétrique/μ 72
V. EXEMPLES DE LOIS DE PROBABILITES CONTINUES
Loi normale centrée réduite
X 
U

U ~ N(0,1)
(a) = P(U < a)

73
P ( a  X  b) ? a X  b
P(   )
  
X 
U
 a b
P( U  )
 
P ( a '  U  b' )
a b   ( b' )   ( a ' )
74
P(    )  
ε ~ N(0,1)
1-
/2 /2
 0 
75
Loi du 2 de Pearson
On appelle 2 à n degrés de liberté la variable aléatoire
définie par :   X1  X 2 ...  X i ....  X n avec X i ~ N (0,1)

2 2 2 2 2
E(  )  n
2
n
V (  n2 )  2n
76
Loi de Fisher-Snedecor
On appelle F à n et p degrés de liberté la variable aléatoir

U :  n etU n p 
2 2
V :
définie par : F  avec U ~  2 à n ddl et V ~  2 à p ddl
Vp
p
E(F ) 
n
p
p  2

p 2
(n  p  2)
V (Fp )  2
n
n ( p  2)( p  4)
77
Loi de Student
On appelle T à n degrés de liberté la variable aléatoire

U
définie par : T  avec U ~ N (0,1) et V ~  2 à n ddl
Vn
E(T) = 0
V(T) = n/n-2
78
Importance de la loi normale
Théorème central limite de Laplace
Toute somme de v.a. indépendantes de même loi est une

variable asymptotiquement normale.
X i  nE(X)
En particulier: Yn  i1
: N(0,1)
nV (X)
79
Relations entre lois
Lorsque n grand, p petit, np constant: B(n,p) -> P( = np)
Application du théorème centre limite
Lorsque n est grand, la loi binomiale, la loi de Poisson, la loi de

Student, la loi du χ 2, la loi de Fisher … tendent vers la loi
normale
80
ESTIMATION
Il est souvent intéressant de connaître les caractéristiques d'un grand groupe
d'éléments tels que les individus, les ménages, les bâtiments, les produits, les
pièces, les clients, etc.
Tous les éléments d'intérêt dans une étude particulière forment la population.
En raison du temps, du coût et d'autres considérations, les données ne

peuvent souvent pas être collectées auprès de chaque élément de la
population.
Dans de tels cas, un sous-ensemble de la population, appelé échantillon, est

utilisé pour fournir les données.
Les données de l'échantillon sont ensuite utilisées pour élaborer des

estimations des caractéristiques de l'ensemble de la population.
Le processus consistant à utiliser un échantillon pour faire des inférences sur

une population est appelé inférence statistique.
ESTIMATION
Des caractéristiques telles que la moyenne de la population, la variance de la
population et la proportion de la population sont appelées paramètres de la
population.
Les caractéristiques de l'échantillon telles que la moyenne de l'échantillon, la

variance de l'échantillon et la proportion de l'échantillon sont appelées
statistiques d'échantillon.
Il existe deux types d'estimations:
•le point
•l'intervalle.
ESTIMATION
Une estimation ponctuelle est une valeur d'une statistique d'échantillon qui est
utilisée comme une estimation unique d'un paramètre de population.
Aucune déclaration n'est faite sur la qualité ou la précision d'une estimation

ponctuelle.
Les statisticiens préfèrent les estimations d'intervalle parce que les estimations
d'intervalle sont accompagnées d'un énoncé concernant le degré de confiance
que l'intervalle contient le paramètre de population estimé.
Les estimations d'intervalle des paramètres de population sont appelées

intervalles de confiance.
ECHANTILLONNAGE ET DISTRIBUTION D’ECHANTILLONNAGE
Les méthodes d'inférence statistique, et d'estimation en particulier, reposent

sur la notion qu'un échantillon probabiliste a été prélevé.
La principale caractéristique d'un échantillon probabiliste est que chaque

élément de la population a une probabilité connue d'être inclus dans
l'échantillon.
Le type le plus fondamental est un simple échantillon aléatoire.
Pour une population de taille N, un échantillon aléatoire simple est un

échantillon sélectionné de telle sorte que chaque échantillon possible de taille n
ait la même probabilité d'être sélectionné.
Le fait de choisir les éléments de la population un par un afin que chaque

élément ait la même probabilité d'être sélectionné fournira un échantillon
aléatoire simple.
Des tableaux de nombres aléatoires, ou des nombres aléatoires générés par

ordinateur, peuvent être utilisés pour garantir que chaque élément a la même
probabilité d'être sélectionné.
ECHANTILLONNAGE ET DISTRIBUTION D’ECHANTILLONNAGE
Une distribution d'échantillonnage est une distribution de probabilité pour une

statistique d'échantillon.
La connaissance de la distribution d'échantillonnage est nécessaire pour

construire une estimation d'intervalle pour un paramètre de population.
C'est pourquoi un échantillon probabiliste est nécessaire; sans échantillon

probabiliste, la distribution d'échantillonnage ne peut pas être déterminée et
une estimation d'intervalle d'un paramètre ne peut pas être construite.
ESTIMATION D’UNE MOYENNE DE POPULATION
Le processus d'estimation par points et intervalles le plus fondamental implique

l'estimation d'une moyenne de population.
Supposons qu'il soit intéressant d'estimer la moyenne de la population, μ, pour

une variable quantitative.
Les données collectées à partir d'un échantillon aléatoire simple peuvent être
utilisées pour calculer la moyenne de l'échantillon, x̄, où la valeur de x̄ fournit
une estimation ponctuelle de μ.
Lorsque la moyenne de l'échantillon est utilisée comme estimation ponctuelle

de la moyenne de la population, on peut s'attendre à une certaine erreur en
raison du fait qu'un échantillon, ou un sous-ensemble de la population, est
utilisé pour calculer l'estimation ponctuelle.
La valeur absolue de la différence entre la moyenne de l'échantillon, x̄, et la

moyenne de la population, μ, écrite | x̄ - μ |, est appelée erreur
d'échantillonnage.
L'estimation d'intervalle incorpore un énoncé de probabilité concernant

l'ampleur de l'erreur d'échantillonnage.
La distribution d'échantillonnage de x̄ fournit la base d'une telle affirmation.
Les statisticiens ont montré que la moyenne de la distribution d'échantillonnage

de x̄ est égale à la moyenne de la population, μ, et que l'écart type est donné
par σ / Racine carrée de √n, où σ est l'écart-type de la population.
L'écart type d'une distribution d'échantillonnage est appelé l'erreur standard.
Pour les échantillons de grande taille, le théorème de la limite centrale indique

que la distribution d'échantillonnage de x̄ peut être approximée par une
distribution de probabilité normale.
En pratique, les statisticiens considèrent généralement que les échantillons de

taille 30 ou plus sont grands.
L'estimation d'intervalle incorpore un énoncé de probabilité concernant

l'ampleur de l'erreur d'échantillonnage.
La distribution d'échantillonnage de x̄ fournit la base d'une telle affirmation.
Les statisticiens ont montré que la moyenne de la distribution d'échantillonnage

de x̄ est égale à la moyenne de la population, μ, et que l'écart type est donné
par σ / Racine carrée de √n, où σ est l'écart-type de la population.
L'écart type d'une distribution d'échantillonnage est appelé l'erreur standard.
Pour les échantillons de grande taille, le théorème de la limite centrale indique

que la distribution d'échantillonnage de x̄ peut être approximée par une
distribution de probabilité normale.
En pratique, les statisticiens considèrent généralement que les échantillons de

taille 30 ou plus sont grands.
Dans le cas du grand échantillon, une estimation de l'intervalle de confiance à

95% pour la moyenne de la population est donnée par x̄ ± 1,96σ / Racine
carrée de √n.
Lorsque l'écart type de la population, σ, est inconnu, l'écart type de l'échantillon

est utilisé pour estimer σ dans la formule d'intervalle de confiance.
La quantité 1,96σ / Racine carrée de √n est souvent appelée marge d'erreur

pour l'estimation.
La quantité σ / Racine carrée de √n est l'erreur standard, et 1,96 est le nombre

d'erreurs standard à partir de la moyenne nécessaire pour inclure 95% des
valeurs dans une distribution normale.
L'interprétation d'un intervalle de confiance à 95% est que 95% des intervalles
construits de cette manière contiendront la moyenne de la population.
Ainsi, tout intervalle calculé de cette manière a une confiance de 95% pour
contenir la moyenne de la population.
En changeant la constante de 1,96 à 1,645, un intervalle de confiance de 90%
peut être obtenu.
Il convient de noter à partir de la formule pour une estimation d'intervalle qu'un

intervalle de confiance à 90% est plus étroit qu'un intervalle de confiance à
95% et, en tant que tel, a un degré de confiance légèrement plus faible
d'inclusion de la moyenne de la population.
Des niveaux de confiance plus faibles conduisent à des intervalles encore plus
étroits. En pratique, un intervalle de confiance de 95% est le plus utilisé.
En raison de la présence du terme n1 / 2 dans la formule pour une estimation

d'intervalle, la taille de l'échantillon affecte la marge d'erreur.
Des échantillons de plus grande taille entraînent de plus petites marges

d'erreur. Cette observation constitue la base des procédures utilisées pour
sélectionner la taille de l'échantillon.
Les tailles d'échantillon peuvent être choisies de telle sorte que l'intervalle de
confiance satisfasse toutes les exigences souhaitées concernant la taille de la
marge d'erreur.
La procédure que nous venons de décrire pour élaborer des estimations

d'intervalle d'une moyenne de population est basée sur l'utilisation d'un grand
échantillon.
Dans le cas du petit échantillon, c'est-à-dire où la taille de l'échantillon n est

inférieure à 30, la distribution t est utilisée pour spécifier la marge d'erreur et
construire une estimation de l'intervalle de confiance.
Par exemple, à un niveau de confiance de 95%, une valeur de la distribution t,

déterminée par la valeur de n, remplacerait la valeur de 1,96 obtenue à partir
de la distribution normale.
Les valeurs t seront toujours plus grandes, conduisant à des intervalles de

confiance plus larges, mais, à mesure que la taille de l'échantillon devient plus
grande, les valeurs t se rapprochent des valeurs correspondantes d'une
distribution normale.
Avec une taille d'échantillon de 25, la valeur t utilisée serait de 2,064, par
rapport à la valeur de distribution de probabilité normale de 1,96 dans le cas du
grand échantillon.
Les procédures d'estimation peuvent être étendues à deux populations pour des
études comparatives.
Par exemple, supposons qu'une étude soit menée pour déterminer les différences
entre les salaires versés à une population d'hommes et à une population de
femmes.
Deux échantillons aléatoires simples indépendants, l'un de la population d'hommes

et l'autre de la population de femmes, fourniraient deux moyennes
d'échantillonnage, x̄1 et x̄2.
La différence entre les deux moyennes d'échantillonnage, x̄ 1 - x̄2, serait utilisée

comme une estimation ponctuelle de la différence entre les deux moyennes de
population.
La distribution d'échantillonnage de x̄1 - x̄2 fournirait la base d'une estimation

d'intervalle de confiance de la différence entre les deux moyennes de population.
Pour les variables qualitatives, les estimations ponctuelles et d'intervalle de la

différence entre les proportions de population peuvent être construites en
considérant la différence entre les proportions de l'échantillon.
TESTS D’HYPOTHESES
Le test d'hypothèse est une forme d'inférence statistique qui utilise les données
d'un échantillon pour tirer des conclusions sur un paramètre de population ou
une distribution de probabilité de population.
Tout d'abord, une hypothèse provisoire est faite sur le paramètre ou la

distribution.
Cette hypothèse est appelée hypothèse nulle et est notée H0.
Une hypothèse alternative (notée Ha), qui est l'opposé de ce qui est énoncé
dans l'hypothèse nulle, est alors définie.
La procédure de test d'hypothèse consiste à utiliser des échantillons de

données pour déterminer si H0 peut être rejeté ou non.
Si H0 est rejeté, la conclusion statistique est que l'hypothèse alternative Ha est

vraie.
Par exemple, supposons qu'une station de radio sélectionne la musique qu'elle

joue en partant de l'hypothèse que l'âge moyen de son auditoire est de 30 ans.
Pour déterminer si cette hypothèse est valide, un test d'hypothèse pourrait être
conduit avec l'hypothèse nulle donnée comme H0: μ = 30 et l'hypothèse
alternative donnée comme Ha: μ ≠ 30.
Sur la base d'un échantillon d'individus du public d'écoute, l'échantillon l'âge

moyen, x̄, peut être calculé et utilisé pour déterminer s'il existe des preuves
statistiques suffisantes pour rejeter H0.
Sur le plan conceptuel, une valeur de la moyenne de l'échantillon qui est

«proche» de 30 est cohérente avec l'hypothèse nulle, tandis qu'une valeur de
la moyenne de l'échantillon qui n'est «pas proche» de 30 étaye l'hypothèse
alternative.
Ce qui est considéré comme «proche» et «pas proche» est déterminé en

utilisant la distribution d'échantillonnage de x̄. Idéalement, la procédure de test
d'hypothèse conduit à l'acceptation de H0 lorsque H0 est vrai et au rejet de H0
lorsque H0 est faux.
Malheureusement, comme les tests d'hypothèse sont basés sur des

informations d'échantillons, la possibilité d'erreurs doit être considérée. Une
erreur de type I correspond au rejet de H0 lorsque H0 est réellement vrai, et
une erreur de type II correspond à l'acceptation de H0 lorsque H0 est faux.
La probabilité de faire une erreur de type I est notée α et la probabilité de faire

une erreur de type II est notée β.
En utilisant la procédure de test d'hypothèse pour déterminer si l'hypothèse

nulle doit être rejetée, la personne effectuant le test d'hypothèse spécifie la
probabilité maximale admissible de commettre une erreur de type I, appelée
niveau de signification du test.
Les choix courants pour le niveau de signification sont α = 0,05 et α = 0,01.

Bien que la plupart des applications de test d'hypothèse contrôlent la
probabilité de commettre une erreur de type I, elles ne contrôlent pas toujours
la probabilité de commettre une erreur de type II.
Un graphique appelé courbe caractéristique de fonctionnement peut être

construit pour montrer comment les changements dans la taille de l'échantillon
affectent la probabilité de commettre une erreur de type II.
Un concept connu sous le nom de valeur p fournit une base pratique pour tirer
des conclusions dans les applications de test d'hypothèses.
La valeur p est une mesure de la probabilité des résultats de l'échantillon, en

supposant que l'hypothèse nulle est vraie; plus la valeur p est petite, moins les
résultats de l'échantillon sont probables.
Si la valeur p est inférieure à α, l'hypothèse nulle peut être rejetée; sinon,

l'hypothèse nulle ne peut être rejetée.
La valeur p est souvent appelée le niveau de signification observé pour le test.

Un test d'hypothèse peut être effectué sur les paramètres d'une ou plusieurs
populations ainsi que dans diverses autres situations.
Dans chaque cas, le processus commence par la formulation d'hypothèses

nulles et alternatives sur la population.
En plus de la moyenne de la population, des procédures de test d'hypothèses

sont disponibles pour les paramètres de population tels que les proportions, les
variances,
les écarts types et les médianes. Des tests d'hypothèse sont également
effectués dans l'analyse de régression et de corrélation pour déterminer si la
relation de régression et le coefficient de corrélation sont statistiquement
significatifs (voir ci-dessous Analyse de régression et de corrélation).
Un test d'ajustement fait référence à un test d'hypothèse dans lequel

l'hypothèse nulle est que la population a une distribution de probabilité
spécifique, telle qu'une distribution de probabilité normale.
Les méthodes statistiques non paramétriques impliquent également une variété

de procédures de test d'hypothèses.
METHODES BAYESIENNES
Les méthodes d'inférence statistique décrites précédemment sont souvent
appelées méthodes classiques.
Les méthodes bayésiennes (ainsi appelées d'après le mathématicien anglais

Thomas Bayes) fournissent des alternatives qui permettent de combiner des
informations antérieures sur un paramètre de population avec des informations
contenues dans un échantillon pour guider le processus d'inférence statistique.
Une distribution de probabilité préalable pour un paramètre d'intérêt est

spécifiée en premier.
Les informations de l'échantillon sont ensuite obtenues et combinées par une

application du théorème de Bayes pour fournir une distribution de probabilité
postérieure pour le paramètre.
La distribution postérieure fournit la base des inférences statistiques

concernant le paramètre.
Une caractéristique clé, et quelque peu controversée, des méthodes

bayésiennes est la notion de distribution de probabilité pour un paramètre de
population.
Selon les statistiques classiques, les paramètres sont des constantes et ne

peuvent pas être représentés comme des variables aléatoires.
Les partisans bayésiens soutiennent que, si une valeur de paramètre est

inconnue, il est alors logique de spécifier une distribution de probabilité qui
décrit les valeurs possibles du paramètre ainsi que leur probabilité.
L'approche bayésienne permet d'utiliser des données objectives ou une opinion

subjective pour spécifier une distribution a priori.
Avec l'approche bayésienne, différents individus peuvent spécifier différentes

distributions antérieures.
Les statisticiens classiques affirment que pour cette raison, les méthodes
bayésiennes souffrent d'un manque d'objectivité.
Les partisans bayésiens soutiennent que les méthodes classiques d'inférence

statistique ont une subjectivité intégrée (par le choix d'un plan
d'échantillonnage) et que l'avantage de l'approche bayésienne est que la
subjectivité est rendue explicite.
Les méthodes bayésiennes ont été largement utilisées dans la théorie de la

décision statistique.
Dans ce contexte, le théorème de Bayes fournit un mécanisme pour combiner

une distribution de probabilité a priori pour les états de la nature avec des
informations d’échantillon pour fournir une distribution de probabilité révisée
(postérieure) sur les états de la nature.
Ces probabilités postérieures sont ensuite utilisées pour prendre de meilleures

décisions.

Chapitre 2 Variable Aleatoire

Transféré par

Droits d'auteur :

Formats disponibles

Chapitre 2 Variable Aleatoire

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Chapitre 2 Variable Aleatoire

Transféré par

Droits d'auteur :

Formats disponibles

LES VARIABLES ALEATOIRES

Une variable aléatoire est une description numérique du résultat d'une

Les variables aléatoires sont généralement de nature discrètes ou continues.

Variable aléatoire X discrète

•Une variable aléatoire représentant le nombre de voitures vendues chez un

Variable aléatoire X continue

•Une variable aléatoire représentant le poids d'une personne en kilogrammes :

Variable aléatoire X mélange (continue et discrète simultanément)

Un récepteur d’une chaine de transmission numérique, reçoit les données

Loi de probabilité d’une variable aléatoire X discrète

Pour une variable aléatoire discrète, X, la distribution de probabilité est définie

Cette fonction fournit la probabilité pour chaque valeur xi de la variable

Dans le développement de la fonction de probabilité pour une variable aléatoire

Loi de probabilité d’une variable aléatoire X discrète

Puisqu'il y a un nombre infini de valeurs dans n'importe quel intervalle, il n'est

Fonction de répartition d’une variable aléatoire discrète/continue

v.a. discrète v.a. continue

L’espérance, notée E(x) correspond à une moyenne pondérée

Variable aléatoire discrète

Variable aléatoire continue

Variable aléatoire discrète

Variable aléatoire continue

Exemple 1: Soit une source qui va émettre le mot suivant:

Alphabet Source = le mot ‘’annaba’’={a, n, n, a, b, a}

La loi de probabilité est donc (pour ce cas de figure) :

P(‘’a’’)=1/2, P(‘’n’’)=1/3 et P(‘’b’’)=1/6

1- Tracer sa densité de probabilité

1- Tracer sa densité de probabilité

Propriétés de l’espérance mathématique

E(X + Y) = E(X) + E(Y)

2. Propriété de mise à l'échelle (Multiplication par une constante)

Propriétés de l’espérance mathématique

4.Inégalités de valeur absolue:

6.Addition à une constante

2.Propriété 2: d’une manière générale nous avons

3.Propriété 3 : La variance d'une constante est de 0.

V (a1X1 + a2 X2 +… + anXn) = a12 V (X1) + a22 V (X2) +… + an2 V (Xn).

1.Propriété 2: d’une manière générale nous avons

2.Propriété 3 : La variance d'une constante est de 0.

Considérons d'abord le cas dans lequel deux variables aléatoires sont

Commençons par trouver la «distribution de probabilité conjointe

Si nous continuons à énumérer tous les résultats possibles, nous voyons

Comme X et Y sont équiprobables les deux et statistiquement indépendante

La fonction de probabilité conjointe est

Densité de probabilité Conjointe

Soit X et Y deux variables aléatoires discrètes, et soit S désignent le support

Densité de probabilité marginale

Soit X et Y la fonction de masse de probabilité conjointe avec le support S.

Alors, la fonction de probabilité de la va X seule, appelée fonction de

De même, la fonction de probabilité de la va Y seule, appelée fonction de

Les variables aléatoires X et Y sont indépendantes si et seulement si:

P(X=x,Y=y) = P(X=x) × P(Y=y)

Sinon, X et Y sont dits dépendants.

On peut commencer par trouver d'abord la densité de probabilité marginale de

Alternativement, nous pourrions utiliser la définition suivante de la moyenne.

Où u(x,y) est fonction de ces deux

Densité de probabilité conditionnelle

Dans les pages précédentes de ce cours, nous nous sommes intéressés au

Fonction de masse de probabilité conditionnelle de X :

A condition que fY(y) > 0