Vectores Aleatorios
Vectores Aleatorios
Vectores Aleatorios
Hasta ahora hemos estudiado modelos de probabilidad para una única variable aleatoria.
Sin embargo, en muchos casos interesa construir modelos que involucren a más de una
variable. Consideraremos inicialmente el caso de vectores aleatorios bidimensionales y
luego extenderemos las definiciones y propiedades a vectores de dimensión mayor que 2.
p XY ( x, y ) = P( X = x , Y = y )
P(( X , Y ) ∈ A) = Σ Σ p XY ( x, y )
( x, y ) ∈ A
• p XY ( x, y ) ≥ 0 ∀ ( x, y)
• ∑∑ p
x y
XY ( x, y ) = 1
Ejemplos: 1) De una urna que contiene 6 bolillas blancas y 4 negras se extraen sin
reposición 3 bolillas. Se definen
Hallemos la función de probabilidad conjunta del vector (X,Y). Observemos que los
posibles valores de X son 0, 1, 2 y 3 , y los posibles valores de Y son 1 y 0. Podemos
resumir la información en una tabla de la forma siguiente:
X
0 1 2 3
Y 0 1/30 0 15/30 0
1 0 9/30 0 5/30
83
En efecto,
Definición: Sea (X,Y) un vector aleatorio discreto con función de probabilidad conjunta
pXY(x,y), las funciones de probabilidad marginal de X e Y están dadas por
p X ( x) = ∑ p XY ( x, y)
y
p Y ( y) = ∑ p XY ( x, y)
x
1 1
p X (0) = p XY ( 0,0) + p XY ( 0,1) = + 0=
30 30
9 9
p X (1) = p XY (1,0) + p XY (1,1) = 0 + =
30 30
15 15
p X (2) = p XY (2,0) + p XY (2,1) = +0=
30 30
5 5
p X (3) = p XY (3,0) + p XY (3,1) = 0 + =
30 30
Respecto a p Y ( y ),
1 15 16
p Y (0) = p XY (0,0) + p XY (1,0) + p XY (2 ,0 ) + p XY (3,0) = +0+ +0=
30 30 30
9 5 14
pY (1) = p XY (0 ,1) + p XY (1,1) + p XY ( 2,1) + p XY (3,1) = 0 + + 0 + =
30 30 30
Observemos que las funciones de probabilidad marginal se obtienen sumando sobre filas
o columnas las funciones de probabilidad conjunta contenidas en la tabla, de ahí su
nombre.
84
X pY ( y)
0 1 2 3
Y 0 1/30 0 15/30 0 16/30
1 0 9/30 0 5/30 14/30
p X (x) 1/30 9/30 15/30 5/30 1
Definición: Sea (X,Y) un vector aleatorio discreto con función de probabilidad conjunta
pXY(x,y), la función de distribución acumulada conjunta de (X,Y) está dada por
F XY ( x, y) = ∑ ∑ p XY (s, t ) ∀ ( x, y) ∈ ℜ 2
s ≤x t≤ y
P(( X , Y ) ∈ A) = ∫∫ f XY ( x, y ) dx dy ∀ A ⊆ ℜ2
A
En particular, si A = [a, b] × [c , d ] ,
b d
P(( X , Y ) ∈ A) = ∫ ∫ f XY ( x, y ) dy dx .
a c
• f XY ( x, y ) ≥ 0 ∀ ( x, y )
∞ ∞
• ∫ ∫f
−∞ −∞
XY ( x, y) dx dy = 1
Ejemplo: 1) Sea (X,Y) un vector aleatorio continuo con función de densidad conjunta
(
k x + y 2
f XY ( x , y ) =
) si 0 ≤ x ≤ 1, 0 ≤ y ≤ 1
0 en otro caso
85
a) Hallar el valor de la constante k.
∞ ∞ 1 1 1 1
1= ∫− ∞ -∫∞ XY
f ( x, y) dx dy = ∫0 ∫0 k ( x + y 2
) dx dy = k ∫0 ∫0 (x + y ) dx dy =
2
1 1
1
x2 2
1
1 y y3
= k + = k
1 1 5
= k ∫ + xy dy = k ∫ + y 2 dy = k +
0 2 0 0 2 2 3 0 2 3 6
6
y, por lo tanto, k = .
5
1 1
b) Calcular P 0 ≤ X ≤ , 0 ≤ Y ≤ .
4 4
1/ 4
6 1/ 4 x2
∫ ( )
1 1/4 1/ 4
1 6
P 0 ≤ X ≤ , 0 ≤ Y ≤ = ∫ x + y 2 dx dy = ∫ + x y 2 dy =
4 4 0 0
5 5 0 2 0
1/4
6 1/ 4 1 1 6 1 1 y3
=
6 1 1 1 6 1 1
= ∫ + y 2 dy = y + + ⋅ = + =
5 0 16 ⋅ 2 4 5 32 4 3 0 5 32 ⋅ 4 4 64 ⋅ 3 5 128 768
6 7 7
= ⋅ =
5 768 640
86
2) Sea (X,Y) un vector aleatorio continuo con función de densidad conjunta
f XY ( x, y ) = k ( x + 2 y) I T ( x , y ),
siendo T = {( x, y ) / 0 ≤ x ≤ 1, 0 ≤ y ≤ 1 − x}.
∞ ∞ 1
1− x 1
1 -x
a) 1= ∫−∞ −∫∞ XY
f (x, y) dx dy = ∫0 ∫0 k (x + 2y) dy dx =k ∫ ( xy + y 2 )
0
dx =
0
1
x2
( )
1 1
1
= k ∫ x(1 − x) + (1 − x ) dx = k ∫ (1 − x ) dx = k x −
2
= k ⇒ k = 2
0 0 2 0 2
1 1/2 1/ 2 1/ 2 1/2
1 2 1/2 x 1
b) P X ≤ ,Y ≤ = ∫ ∫0 2 ( x + 2 y ) dy dx = 2 ∫0 ( xy + y ) dx = 2 ∫ + dx =
2 2 0 0
0
2 4
1/ 2
x2 x 1 1 6 3
= 2 + = 2 + = =
4 40 16 8 16 8
87
1/2
1− x 1/ 2
1− x
c) P( X ≤ Y ) = ∫ ∫ 2( x + 2 y ) dy dx = 2 ∫ ( xy + y 2 ) dx =
x
0 x 0
1/2
1/ 2 x3
( )
1/ 2
x2
= 2 ∫ x (1 − x ) + (1 − x) 2 − x 2 − x 2 dx = 2 ∫ 1 − x − 2 x 2 dx = 2 x − − 2 =
0 0 2 3 0
1 1 1 14 7
= 2 − − = =
2 8 12 24 12
k si ( x, y ) ∈ A
( X , Y ) ~ U ( A) ⇔ f XY ( x, y ) =
0 si ( x , y) ∉ A
88
1
Es inmediato verificar que k = , pues
área ( A)
1 = ∫∫ k dx dy = k ∫∫ dx dy = k área( A) .
A A
área ( A ∩ B)
P (( X , Y ) ∈ B ) = ∀ B ⊂ ℜ2 .
área ( A)
Definición: Sea (X,Y) un vector aleatorio continuo con función de densidad conjunta
f XY ( x , y ) , la función de distribución acumulada conjunta de (X,Y) está dada por
x y
FXY ( x, y ) = ∫∫f
− ∞− ∞
XY ( s , t ) dt ds ∀ (x , y ) ∈ ℜ 2
f X (x ) = ∫f XY ( x, y ) dy
−∞
∞
f Y ( y) = ∫f
−∞
XY ( x, y ) dx
Ejemplos: 1) Sea (X,Y) un vector aleatorio continuo con función de densidad conjunta
6
(
f XY ( x , y ) = 5 x + y
2
) si 0 ≤ x ≤ 1, 0 ≤ y ≤ 1
0 en otro caso
Sea x ∈ [0,1] ,
1
6 y3
1
= x + .
6 6 1
f X ( x ) = ∫ ( x + y 2 ) dy = xy +
0 5 5 3 0 5 3
89
6 1
Entonces, f X ( x ) = x + I [0 ,1 ] ( x).
5 3
Sea y ∈ [0,1] ,
1
6 x2
1
6 6 1
f Y ( y ) = ∫ ( x + y 2 ) dx = + xy 2 = + y 2 .
0
5 5 2 0 5 2
61 2
Entonces, f Y ( y ) = + y I [0 ,1 ] ( y).
52
f XY ( x, y ) = 2 ( x + 2 y) I T ( x, y ),
siendo T = {( x, y ) / 0 ≤ x ≤ 1, 0 ≤ y ≤ 1 − x}.
Sea x ∈ [0,1] ,
1− x
∫ 2(x + 2 y ) dy = 2 (xy + y ) ( )
1− x
f X (x ) = = 2 x (1 − x) + (1 − x ) 2 = 2(1 − x).
2
0
0
Entonces, f X ( x ) = 2(1 − x ) I [0 ,1 ] ( x ).
Sea y ∈ [0,1] ,
1− y 1− y
x2 (1 − y ) 2
f Y ( y) = ∫ 2( x + 2 y ) dx = 2 + 2 xy = 2
2 0 2
+ 2(1 − y ) y = 1 + 2 y − 3 y 2 .
0
Entonces, f Y ( y ) = (1 + 2 y − 3 y ) I [0 ,1] ( y ).
2
Definición: Sea (X,Y) un vector aleatorio discreto con función de probabilidad conjunta
pXY(x,y) y marginales pX(x) y pY(y), y sea x tal que pX(x) > 0, la función de probabilidad
condicional de Y dado X = x está dada por
90
p XY ( x , y )
p Y | X = x ( y) = .
p X ( x)
Del mismo modo, sea y tal que pY(y) > 0, la función de probabilidad condicional de Y
dado Y = y está dada por
p XY ( x , y )
p X |Y = y ( x ) = .
p Y ( y)
Se puede verificar que, en efecto estas funciones son funciones de probabilidad ya que,
por ejemplo, p Y | X = x ( y) satisface
• p Y | X = x ( y) ≥ 0 para todo y
• ∑p
y
Y|X =x ( y) = 1
Respecto a la segunda,
p XY ( x , y ) 1 1
∑p y
Y|X =x ( y) = ∑
y p X ( x)
= ∑
p X ( x) y
p XY ( x , y ) = p ( x) = 1.
p X (x ) X
X pY(y)
2 3 4 5 6 7 8
0 0 0 1/16 2/16 3/16 2/16 1/16 9/16
Y 1 0 2/16 2/16 2/16 0 0 0 6/16
2 1/16 0 0 0 0 0 0 1/16
pX(x) 1/16 2/16 3/16 4/16 3/16 2/16 1/16 1
91
p XY (4,0) 1 / 16 1
p Y | X =4 (0) = = =
p X ( 4) 3 / 16 3
p ( 4,1) 2 / 16 2
p Y | X =4 (1) = XY = =
p X ( 4) 3 / 16 3
p ( 4, 2) 0
p Y | X =4 (2) = XY = =0
p X (4) 3 / 16
y 0 1 2
p Y | X =4 ( y ) 1/3 2/3 0
y 0 1 2
p Y | X =3 ( y ) 0 1 0
f XY ( x, y ) = 2 ( x + 2 y) I T ( x, y ),
1 1
siendo T = {( x, y ) / 0 ≤ x ≤ 1, 0 ≤ y ≤ 1 − x} , deseamos hallar P X ≤ Y ≤ .
2 4
1 1
P X ≤ , Y ≤
1 1 2 4
P X ≤ Y ≤ =
2 4 1
P Y ≤
4
Por un lado,
1/2
1 1 1/ 4 1/ 2 1/ 4
x2
P X ≤ , Y ≤ = ∫ ∫ 2( x + 2 y ) dx dy = 2 ∫ + 2 xy dy =
2 4 0 0 0 2 0
92
1/4
1/4
1 1 y2
= 2 + = .
1 1 1
=2∫
+ y dy = 2 y +
0 8 8 2 0 32 32 8
y, por otro
1 1/4 1/4 1 1 1 19
P Y ≤ = ∫ (1 + 2 y − 3 y 2 ) dy = ( y + y 2 − y 3 ) 0 = + − = .
4 0 4 16 64 64
Entonces,
1 1 1/ 8 8
P X ≤ Y ≤ = = .
2 4 19 / 64 19
1 1
¿Cómo calcularíamos P X ≤ | Y = ? Ahora no es aplicable directamente la definición
2 4
de probabilidad condicional porque P(Y = y ) = 0 ∀ y . Se requiere la siguiente
definición.
Definición: Sea (X,Y) un vector aleatorio continuo con función de densidad conjunta
fXY(x,y) y marginales fX(x) y fY(y), y sea x tal que fX(x) > 0, la función de densidad
condicional de Y dado X = x está dada por
f XY ( x, y)
f Y| X =x ( y) = .
f X ( x)
Del mismo modo, sea y tal que fY(y) > 0, la función de densidad condicional de Y dado
Y = y está dada por
f XY ( x , y )
f X |Y = y ( x) = .
f Y ( y)
Se puede verificar que, en efecto estas funciones son funciones de densidad ya que, por
ejemplo, f Y | X = x ( y ) satisface
• f Y | X = x ( y ) ≥ 0 para todo y
• ∫f
−∞
Y |X = x ( y ) dy = 1
93
Respecto a la segunda,
∞ ∞
f XY ( x, y) 1 ∞ 1
∫
−∞
f Y | X = x ( y ) dy = ∫−∞ f X ( x) dy = ∫
f X ( x) − ∞
f XY ( x, y ) dy =
f X ( x)
f X ( x ) = 1.
1 1 1/2
P X ≤ Y = = ∫ f X |Y =1 / 4 ( x ) dx
2 4 0
f XY ( x,1 / 4) 2( x + 2 / 4) I ( 0 ,3 / 4 ) ( x ) 32 1
f X |Y =1 / 4 ( x) = = = x + I (0 , 3 / 4 ) ( x ) .
f Y (1 / 4) 1 3 21 2
1+ −
2 16
Notemos que, dado Y = y, X toma valores en el intervalo (0,1-y). De ahí que, como
Y =1/4, X toma valores en el intervalo (0, ¾
) . Finalmente,
1/ 2
1 1 1 / 2 32 1 32 x 2 x 32 1 1 4
P X ≤ | Y = = ∫ x + dx = + = + = .
2 4 0 21 2 21 2 2 0 21 8 4 7
p XY ( x, y ) = p X ( x) pY ( y ) ∀ ( x, y )
f XY ( x, y ) = f X ( x) f Y ( y ) ∀ (x , y )
94
Si esta condición no se satisface, diremos que X e Y son dependientes.
X pY ( y)
0 1 2 3
Y 0 1/30 0 15/30 0 16/30
1 0 9/30 0 5/30 14/30
p X (x) 1/30 9/30 15/30 5/30 1
Claramente X e Y no son independientes ya que, por ejemplo,
1 14
p XY (0,1) = 0 ≠ ⋅ = p X (0) pY (1).
30 30
f XY ( x, y ) = f X ( x ) f Y ( y ) = λ e −λx λ e − λy I ( 0 , ∞ ) ( x ) I ( 0 , ∞ ) ( y ) =
= λ2 e − λ ( x+ y ) I ( 0 , ∞ ) ( x ) I (0 ,∞ ) ( y ).
Hemos visto que, dada una v.a. X y una función real h, h(X) también es una v.a. y que
para calcular su esperanza no necesitamos hallar la distribución de h(X) ya que se obtiene
a partir de la función de probabilidad puntual o de densidad de la v.a. X, según sea ésta
discreta o continua, en la forma
∞
E (h ( X )) = ∑ h( x ) p X ( x ) ó E( h( X )) = ∫ h ( x ) f X ( x ) dx
x −∞
E (h( X , Y ) ) = ∑∑ h( x, y) p XY ( x , y )
x y
95
siempre que esta esperanza exista.
∞ ∞
E (h( X , Y ) ) = ∫ ∫ h(x , y ) f XY ( x , y ) dx dy
− ∞− ∞
Sea h ( X , Y ) = aX + bY , entonces
∞ ∞ ∞ ∞
E (h ( X , Y )) = ∫ ∫ h( x, y ) f XY (x, y ) dx dy = ∫ ∫ (ax + by ) f XY ( x, y) dx dy =
−∞ − ∞ − ∞ −∞
∞ ∞ ∞ ∞
= a ∫ ∫ x f XY ( x , y ) dx dy + b ∫ ∫y f XY ( x, y ) dx dy =
−∞ − ∞ − ∞ −∞
∞
∞ ∞
∞
= a ∫ x ∫ f XY ( x, y) dy dx + b ∫ y ∫ f XY ( x, y) dx dy =
−∞ −∞ −∞ −∞
∞ ∞
= a ∫ x f X ( x ) dx + b ∫ y f Y ( y) dy = aE ( X ) + bE (Y )
−∞ −∞
Dem: Ejercicio.
Covarianza y correlación
96
∑∑ ( x − µ X )( y − µY ) p XY ( x, y )
x y
Cov( X , Y ) = E [( X − µ X )(Y − µY ) ] =
∞ ∞
∫ ∫ ( x − µX )( y − µY ) f XY ( x, y) dx dy
− ∞ −∞
Observación: Cov( X , X ) = V ( X ) .
Idea intuitiva: Si X e Y tienen una fuerte relación positiva, en el sentido que valores
grandes de X aparecen asociados con valores grandes de Y y valores pequeños de X
aparecen asociados con valores pequeños de Y, entonces la mayoría de los productos
( x − µX )( y − µY ) serán positivos y por lo tanto la covarianza será positiva. Por otra parte,
si X e Y tienen una fuerte relación negativa, en el sentido que valores grandes de X
aparecen asociados con valores pequeños de Y y valores pequeños de X aparecen
asociados con valores grandes de Y, entonces la mayoría de los productos
( x − µX )( y − µY ) serán negativos y por lo tanto la covarianza será negativa.
97
Cov(x,y) >0 Cov(x,y) <0
Cov(x,y) =0
Proposición: Cov( X , Y ) = E ( X Y ) − E ( X ) E (Y ).
Dem: Lo haremos sólo para el caso discreto. Para el caso continuo se demuestra en
forma similar. Denotemos E ( X ) = µX y E (Y ) = µY ,
Cov( X , Y ) = E [( X − µ X )(Y − µY ) ] = ∑ ∑ ( x − µX )( y − µY ) p XY ( x, y ) =
x y
98
= ∑∑ (xy − xµY − yµX + µX µY ) p XY ( x, y) =
x y
= ∑∑ xy p XY ( x, y) − µY ∑∑ x p XY ( x , y ) −µ X ∑ ∑ y p XY ( x, y ) + µ X µY ∑∑ p XY ( x , y ) =
x y x y x y x y
= E ( XY ) − µY ∑ x∑ p XY ( x , y ) −µ X ∑ y ∑ p XY ( x , y ) + µX µY =
x y y x
= E ( XY ) − µY ∑ x p X ( x) −µ X ∑ y p Y ( y) + µX µY =
x y
= E ( XY ) − µX µY − µ X µY + µX µY = E ( XY ) − µX µY
X pY ( y)
0 1 2 3
Y 0 1/30 0 15/30 0 16/30
1 0 9/30 0 5/30 14/30
p X (x) 1/30 9/30 15/30 5/30 1
3 1
3 1
Cov( X , Y ) = E ( X Y ) − E ( X ) E (Y ) = ∑ ∑ k j p XY ( k , j ) − ∑ k p X (k ) ∑ i pY (i )
k =0 j = 0 k =0 i =0
9 5 9 15 5 14 24 54 14 4
= 1⋅ + 3⋅ − 1 ⋅ +2⋅ + 3 ⋅ 1⋅ = − ⋅ =−
30 30 30 30 30 30 30 30 30 100
6
f XY ( x , y ) = 5 x + y
2
( ) si 0 ≤ x ≤ 1, 0 ≤ y ≤ 1
0 en otro caso
99
6 1 61 2
y marginales f X ( x ) = x + I [0 ,1] ( x ) y f Y ( y ) = + y I [0 ,1 ] ( y).
5 3 52
( ) ( )
1 1
6 611 2
E ( XY ) = ∫ ∫ xy x + y dx dy = ∫ ∫ x y + xy 3 dx dy =
2
0 0
5 500
1 1
6 1 x3 y x 2 y 3 6 1 y y3 6 y2 y4
= ∫ + dy = ∫ + dy = + =
5 0 3 2 0 5 03 2 5 6 8 0
6 1 1 6 7 7
= + = ⋅ =
5 6 8 5 24 20
1
6 x 3 x 2
1
6 1 6 1 x 6 1 3
E ( X ) = ∫ x x + dx = ∫ x 2 + dx = + = ⋅ =
0
5 3 5 06 3 5 3 6 0 5 2 5
1
6 y2 y 4
1
61 2 6 1 y 3 6 1 3
E (Y ) = ∫ y + y dy = ∫ + y dy = + = ⋅ =
0 52 5 02 5 4 4 0 5 2 5
Entonces,
7 3 3 1
Cov( X , Y ) = − ⋅ =− .
20 5 5 100
X pY ( y)
0 1 2 3 4
0 1/5 0 0 0 1/5 2/5
Y 3 0 1/5 0 1/5 0 2/5
4 0 0 1/5 0 0 1/5
p X (x) 1/5 1/5 1/5 1/5 1/5 1
100
Se observa que X e Y no son independientes ya que, por ejemplo,
1 2
p XY (2,3) = 0 ≠ p X (2) pY (3) = ⋅
5 5
1 1 1
E ( XY ) = 1 ⋅ 3 ⋅ + 2 ⋅4 ⋅ + 3⋅3⋅ = 4
5 5 5
1 1 1 1 1
E( X ) = 0 ⋅ +1 ⋅ + 2 ⋅ + 3 ⋅ + 4 ⋅ = 2
5 5 5 5 5
2 2 1
E (Y ) = 0 ⋅ + 3⋅ + 4 ⋅ = 2
5 5 5
Entonces, Cov( X , Y ) = 4 − 2 ⋅ 2 = 0.
Cov( X , Y )
ρ( X , Y ) =
σ X σY
ρ( aX + b, cY + d ) = sg ( ac) ρ( X , Y )
2) − 1 ≤ ρ( X , Y ) ≤ 1
Dem: 1)
101
Cov( aX + b, cY + d ) = E[(aX + b)( cY + d )] − E ( aX + b) E( cY + d ) =
= ac[E ( XY ) − E ( X ) E (Y ) ] = ac Cov( X , Y ).
σ aX + b = a σ X y σcY + d = c σY
y, por lo tanto
Cov( aX + b, cY + d ) ac Cov( X , Y )
ρ( aX + b, cY + d ) = = = sg( ac ) ρ( X , Y )
σaX + b σcY + d a c σ X σY
q (t ) = E[(Y − µY ) − t ( X − µ X )]2 = E [V − tW ]2
siendo V = Y − µY y W = X − µX .
Observemos que q (t ) ≥ 0 ∀ t .
Como
q (t ) = E[V − t W ]2 = E (V 2 ) − 2 t E (V W ) + t 2 E(W 2 )
es una función cuadrática en t que toma valores mayores o iguales que 0, su gráfico, o no
corta al eje t o lo corta en un solo punto. Es decir que la ecuación q (t ) = 0 tiene a lo
sumo una raíz y por lo tanto su discriminante es menor o igual que 0. (Recordemos que el
discriminante de una ecuación de segundo grado ax 2 + bx + c = 0 es b 2 − 4 ac ). En
nuestro caso, el discriminante es
y, por lo tanto,
4[E (V W )] − 4 E (V ) E (W ) ≤ 0 ⇔
[E (V W ) ]2 ≤1 ⇔
[E(( X − µX )(Y − µY ) )]2
] ≤1
2 2 2
E (V 2 ) E(W 2 ) [ ] [
E ( X − µ X ) 2 E (Y − µY ) 2
⇔ [ ρ( X , Y ) ]2 ≤ 1 ⇔ −1 ≤ ρ( X , Y ) ≤ 1.
102
3) Demostraremos las dos implicaciones.
E[V − t o W ] = 0 ,
2
P(V − t o W = E (V − t o W ) ) = P(V − t o W = 0) = 1
o sea,
P((Y − µY ) − t o ( X − µX ) = 0 ) = 1 ⇔ P(Y = t o X + µY − t o µX ) = 1 .
Cov( X , aX + b) E ( X ( aX + b) ) − E ( X ) E( aX + b)
ρ( X , Y ) = ρ( X , aX + b ) = = =
σX σ aX + b σX a σ X
=
( ) =
(
aE X 2 + bE( X ) − a[E ( X ) ]2 − bE ( X ) a E ( X 2 ) − E 2 ( X )
=
)a σ 2X
= ±1
a σ 2X a σ 2X a σ 2X
103