Vectores Aleatorios

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 21

Vectores aleatorios

Hasta ahora hemos estudiado modelos de probabilidad para una única variable aleatoria.
Sin embargo, en muchos casos interesa construir modelos que involucren a más de una
variable. Consideraremos inicialmente el caso de vectores aleatorios bidimensionales y
luego extenderemos las definiciones y propiedades a vectores de dimensión mayor que 2.

Definición: Sean X e Y v.a. discretas definidas sobre un espacio muestral S. La función


de probabilidad conjunta del par (X,Y), pXY(x,y) se define como

p XY ( x, y ) = P( X = x , Y = y )

El conjunto R XY = {( x, y ) / x ∈ R X , y ∈ RY } es el recorrido o rango del vector aleatorio (X,Y).

Dado cualquier conjunto A ⊂ ℜ 2 ,

P(( X , Y ) ∈ A) = Σ Σ p XY ( x, y )
( x, y ) ∈ A

Una función de probabilidad conjunta satisface:

• p XY ( x, y ) ≥ 0 ∀ ( x, y)

• ∑∑ p
x y
XY ( x, y ) = 1

Ejemplos: 1) De una urna que contiene 6 bolillas blancas y 4 negras se extraen sin
reposición 3 bolillas. Se definen

X: número de bolillas blancas extraídas

1 si el número de bolillas negras extraídas es par ó 0


Y =
0 si el número de bolillas negras extraídas es impar

Hallemos la función de probabilidad conjunta del vector (X,Y). Observemos que los
posibles valores de X son 0, 1, 2 y 3 , y los posibles valores de Y son 1 y 0. Podemos
resumir la información en una tabla de la forma siguiente:

X
0 1 2 3
Y 0 1/30 0 15/30 0
1 0 9/30 0 5/30

83
En efecto,

p XY (0,0) = P ( X = 0, Y = 0) equivale al suceso “se extraen 3 bolillas negras” y por lo tanto


tiene probabilidad 1/30.

p XY (0,1) = P( X = 0, Y = 1) equivale al suceso “se extraen 3 bolillas negras y el número de


bolillas negras es par” y por lo tanto tiene probabilidad 0.

De esta forma, se completa la tabla de probabilidades conjuntas.

2) Repetir el Ejemplo 1, suponiendo que las extracciones se realizan con reposición.

Definición: Sea (X,Y) un vector aleatorio discreto con función de probabilidad conjunta
pXY(x,y), las funciones de probabilidad marginal de X e Y están dadas por

p X ( x) = ∑ p XY ( x, y)
y
p Y ( y) = ∑ p XY ( x, y)
x

Ejemplos: 1) En el ejemplo presentado antes, hallemos las funciones de probabilidad


marginal. En primer lugar, hallemos p X (x) .

1 1
p X (0) = p XY ( 0,0) + p XY ( 0,1) = + 0=
30 30
9 9
p X (1) = p XY (1,0) + p XY (1,1) = 0 + =
30 30
15 15
p X (2) = p XY (2,0) + p XY (2,1) = +0=
30 30
5 5
p X (3) = p XY (3,0) + p XY (3,1) = 0 + =
30 30

Respecto a p Y ( y ),

1 15 16
p Y (0) = p XY (0,0) + p XY (1,0) + p XY (2 ,0 ) + p XY (3,0) = +0+ +0=
30 30 30
9 5 14
pY (1) = p XY (0 ,1) + p XY (1,1) + p XY ( 2,1) + p XY (3,1) = 0 + + 0 + =
30 30 30

Observemos que las funciones de probabilidad marginal se obtienen sumando sobre filas
o columnas las funciones de probabilidad conjunta contenidas en la tabla, de ahí su
nombre.

84
X pY ( y)
0 1 2 3
Y 0 1/30 0 15/30 0 16/30
1 0 9/30 0 5/30 14/30
p X (x) 1/30 9/30 15/30 5/30 1

Definición: Sea (X,Y) un vector aleatorio discreto con función de probabilidad conjunta
pXY(x,y), la función de distribución acumulada conjunta de (X,Y) está dada por

F XY ( x, y) = ∑ ∑ p XY (s, t ) ∀ ( x, y) ∈ ℜ 2
s ≤x t≤ y

Definición: Sean X e Y v.a. continuas definidas sobre un espacio muestral S. El vector


aleatorio (X,Y) es continuo si existe una función, denominada función de densidad
conjunta, f XY ( x , y ) : ℜ 2 → ℜ ≥0 , tal que

P(( X , Y ) ∈ A) = ∫∫ f XY ( x, y ) dx dy ∀ A ⊆ ℜ2
A

En particular, si A = [a, b] × [c , d ] ,
b d

P(( X , Y ) ∈ A) = ∫ ∫ f XY ( x, y ) dy dx .
a c

Una función de densidad conjunta satisface:

• f XY ( x, y ) ≥ 0 ∀ ( x, y )

∞ ∞

• ∫ ∫f
−∞ −∞
XY ( x, y) dx dy = 1

Ejemplo: 1) Sea (X,Y) un vector aleatorio continuo con función de densidad conjunta

(
k x + y 2
f XY ( x , y ) = 
) si 0 ≤ x ≤ 1, 0 ≤ y ≤ 1
0 en otro caso

85
a) Hallar el valor de la constante k.

∞ ∞ 1 1 1 1
 
1= ∫− ∞ -∫∞ XY
f ( x, y) dx dy = ∫0 ∫0 k ( x + y 2
) dx dy = k ∫0  ∫0 (x + y ) dx  dy =
2

1 1
1
 x2 2
1
1   y y3 
 = k  +  = k
1 1 5
= k ∫  + xy  dy = k ∫  + y 2  dy = k  +
0 2 0 0 2  2 3 0  2 3 6

6
y, por lo tanto, k = .
5

 1 1
b) Calcular P 0 ≤ X ≤ , 0 ≤ Y ≤  .
 4 4

1/ 4
6 1/ 4 x2 
∫ ( )
1  1/4 1/ 4
 1 6
P 0 ≤ X ≤ , 0 ≤ Y ≤  = ∫ x + y 2 dx dy = ∫  + x y 2  dy =
 4 4 0 0
5 5 0  2 0

1/4
6 1/ 4  1 1  6 1 1 y3 
 = 
6 1 1 1  6 1 1 
= ∫  + y 2 dy =  y + + ⋅ =  + =
5 0  16 ⋅ 2 4  5  32 4 3 0 5  32 ⋅ 4 4 64 ⋅ 3  5  128 768 

6 7 7
= ⋅ =
5 768 640

86
2) Sea (X,Y) un vector aleatorio continuo con función de densidad conjunta

f XY ( x, y ) = k ( x + 2 y) I T ( x , y ),

siendo T = {( x, y ) / 0 ≤ x ≤ 1, 0 ≤ y ≤ 1 − x}.

a) Hallar el valor de la constante k.


 1 1
b) Hallar P X ≤ , Y ≤ .
 2 2
c) Hallar P( X ≤ Y ).

∞ ∞ 1
 1− x  1
1 -x
a) 1= ∫−∞ −∫∞ XY
f (x, y) dx dy = ∫0  ∫0 k (x + 2y) dy dx =k ∫ ( xy + y 2 )
 0
dx =
 0

1
 x2 
( )
1 1
1
= k ∫ x(1 − x) + (1 − x ) dx = k ∫ (1 − x ) dx = k  x −
2
 = k ⇒ k = 2
0 0  2 0 2

1  1/2 1/ 2 1/ 2 1/2
 1 2 1/2 x 1
b) P X ≤ ,Y ≤  = ∫ ∫0 2 ( x + 2 y ) dy dx = 2 ∫0 ( xy + y ) dx = 2 ∫  + dx =
 2 2 0 0
0 
2 4

1/ 2
 x2 x   1 1 6 3
= 2 +  = 2 +  = =
 4 40  16 8  16 8

87
1/2
 1− x  1/ 2
1− x
c) P( X ≤ Y ) = ∫  ∫ 2( x + 2 y ) dy  dx = 2 ∫ ( xy + y 2 ) dx =
  x
0  x  0

1/2
 1/ 2   x3 
( )
1/ 2
x2
= 2 ∫ x (1 − x ) + (1 − x) 2 − x 2 − x 2  dx = 2 ∫ 1 − x − 2 x 2 dx = 2  x − − 2  =
0  0  2 3 0

1 1 1 14 7
= 2 − −  = =
 2 8 12  24 12

3) En este ejemplo presentaremos a la distribución Uniforme sobre una región, la cual


generaliza a la distribución Uniforme sobre un intervalo estudiada en el caso de variables
aleatorias. Diremos que el vector aleatorio tiene distribución Uniforme sobre una región
A ⊂ ℜ 2 si su densidad es constante sobre la región y 0 fuera de ella, es decir

k si ( x, y ) ∈ A
( X , Y ) ~ U ( A) ⇔ f XY ( x, y ) = 
0 si ( x , y) ∉ A

88
1
Es inmediato verificar que k = , pues
área ( A)

1 = ∫∫ k dx dy = k ∫∫ dx dy = k área( A) .
A A

También es inmediato verificar que

área ( A ∩ B)
P (( X , Y ) ∈ B ) = ∀ B ⊂ ℜ2 .
área ( A)

Definición: Sea (X,Y) un vector aleatorio continuo con función de densidad conjunta
f XY ( x , y ) , la función de distribución acumulada conjunta de (X,Y) está dada por

x y

FXY ( x, y ) = ∫∫f
− ∞− ∞
XY ( s , t ) dt ds ∀ (x , y ) ∈ ℜ 2

Definición: Sea (X,Y) un vector aleatorio continuo con función de densidad


conjunta f XY ( x , y ) , las funciones de densidad marginal de X e Y están dadas por

f X (x ) = ∫f XY ( x, y ) dy
−∞

f Y ( y) = ∫f
−∞
XY ( x, y ) dx

Ejemplos: 1) Sea (X,Y) un vector aleatorio continuo con función de densidad conjunta

 6
(
f XY ( x , y ) =  5 x + y
2
) si 0 ≤ x ≤ 1, 0 ≤ y ≤ 1
 0 en otro caso

Hallemos las funciones de densidad marginal.

Si x ∉ [0,1], f X ( x) = 0 pues para esos valores de x la densidad conjunta f XY ( x , y ) = 0 .

Sea x ∈ [0,1] ,

1
6 y3 
1
 =  x +  .
6 6 1
f X ( x ) = ∫ ( x + y 2 ) dy =  xy +
0 5 5 3 0 5 3

89
6 1
Entonces, f X ( x ) =  x +  I [0 ,1 ] ( x).
5 3

Si y ∉ [0,1], f Y ( y ) = 0 pues para esos valores de y la densidad conjunta f XY ( x, y ) = 0 .

Sea y ∈ [0,1] ,

1
6  x2 
1
6 6 1 
f Y ( y ) = ∫ ( x + y 2 ) dx =  + xy 2  =  + y 2  .
0
5 5 2  0 5 2 

61 2 
Entonces, f Y ( y ) =  + y  I [0 ,1 ] ( y).
52 

2) Sea (X,Y) un vector aleatorio continuo con función de densidad conjunta

f XY ( x, y ) = 2 ( x + 2 y) I T ( x, y ),

siendo T = {( x, y ) / 0 ≤ x ≤ 1, 0 ≤ y ≤ 1 − x}.

Si x ∉ [0,1], f X ( x) = 0 pues para esos valores de x la densidad conjunta f XY ( x , y ) = 0 .

Sea x ∈ [0,1] ,

1− x

∫ 2(x + 2 y ) dy = 2 (xy + y ) ( )
1− x
f X (x ) = = 2 x (1 − x) + (1 − x ) 2 = 2(1 − x).
2
0
0

Entonces, f X ( x ) = 2(1 − x ) I [0 ,1 ] ( x ).

Si y ∉ [0,1], f Y ( y ) = 0 pues para esos valores de y la densidad conjunta f XY ( x, y ) = 0 .

Sea y ∈ [0,1] ,

1− y 1− y
 x2   (1 − y ) 2 
f Y ( y) = ∫ 2( x + 2 y ) dx = 2  + 2 xy  = 2
 2 0  2
+ 2(1 − y ) y  = 1 + 2 y − 3 y 2 .

0

Entonces, f Y ( y ) = (1 + 2 y − 3 y ) I [0 ,1] ( y ).
2

Definición: Sea (X,Y) un vector aleatorio discreto con función de probabilidad conjunta
pXY(x,y) y marginales pX(x) y pY(y), y sea x tal que pX(x) > 0, la función de probabilidad
condicional de Y dado X = x está dada por

90
p XY ( x , y )
p Y | X = x ( y) = .
p X ( x)

Del mismo modo, sea y tal que pY(y) > 0, la función de probabilidad condicional de Y
dado Y = y está dada por

p XY ( x , y )
p X |Y = y ( x ) = .
p Y ( y)

Se puede verificar que, en efecto estas funciones son funciones de probabilidad ya que,
por ejemplo, p Y | X = x ( y) satisface

• p Y | X = x ( y) ≥ 0 para todo y

• ∑p
y
Y|X =x ( y) = 1

La primera condición se satisface ya que p X ( x ) > 0 y p XY ( x, y ) ≥ 0 ∀ x, y.

Respecto a la segunda,

p XY ( x , y ) 1 1
∑p y
Y|X =x ( y) = ∑
y p X ( x)
= ∑
p X ( x) y
p XY ( x , y ) = p ( x) = 1.
p X (x ) X

Ejemplo: Se arroja dos veces un tetraedro cuyas caras están numeradas 1, 2, 3 y 4. Se


definen las variables aleatorias

X: “suma de los puntos obtenidos”


Y: “número de ases”

Hallemos en primer lugar la función de probabilidad conjunta de (X,Y) y las funciones de


probabilidad marginal.

X pY(y)
2 3 4 5 6 7 8
0 0 0 1/16 2/16 3/16 2/16 1/16 9/16
Y 1 0 2/16 2/16 2/16 0 0 0 6/16
2 1/16 0 0 0 0 0 0 1/16
pX(x) 1/16 2/16 3/16 4/16 3/16 2/16 1/16 1

Obtengamos, por ejemplo, la función de probabilidad condicional de Y, dado X = 4

91
p XY (4,0) 1 / 16 1
p Y | X =4 (0) = = =
p X ( 4) 3 / 16 3
p ( 4,1) 2 / 16 2
p Y | X =4 (1) = XY = =
p X ( 4) 3 / 16 3
p ( 4, 2) 0
p Y | X =4 (2) = XY = =0
p X (4) 3 / 16

que, podemos resumir en la siguiente tabla:

y 0 1 2
p Y | X =4 ( y ) 1/3 2/3 0

En cambio, la función de probabilidad condicional de Y, dado X = 3, estará dada por

y 0 1 2
p Y | X =3 ( y ) 0 1 0

De la misma forma, pueden obtenerse todas las funciones de probabilidad condicional de


Y dado X = x, y las de X dado Y = y.

En cuanto al caso continuo, supongamos que en el Ejemplo 2) en el cual la densidad


conjunta estaba dada por

f XY ( x, y ) = 2 ( x + 2 y) I T ( x, y ),

 1 1
siendo T = {( x, y ) / 0 ≤ x ≤ 1, 0 ≤ y ≤ 1 − x} , deseamos hallar P X ≤ Y ≤  .
 2 4

 1 1
P X ≤ , Y ≤ 
 1 1 2 4
P X ≤ Y ≤  = 
 2 4  1
P Y ≤ 
 4

Por un lado,

1/2
 1 1  1/ 4 1/ 2 1/ 4
 x2 
P X ≤ , Y ≤  = ∫ ∫ 2( x + 2 y ) dx dy = 2 ∫  + 2 xy  dy =
 2 4 0 0 0  2 0

92
1/4
1/4
1  1 y2 
 = 2 +  = .
1 1 1
=2∫ 
 + y  dy = 2 y +
0 8  8 2 0  32 32  8

y, por otro

 1  1/4 1/4 1 1 1 19
P Y ≤  = ∫ (1 + 2 y − 3 y 2 ) dy = ( y + y 2 − y 3 ) 0 = + − = .
 4 0 4 16 64 64

Entonces,

 1 1  1/ 8 8
P X ≤ Y ≤  = = .
 2 4  19 / 64 19
 1 1
¿Cómo calcularíamos P X ≤ | Y =  ? Ahora no es aplicable directamente la definición
 2 4
de probabilidad condicional porque P(Y = y ) = 0 ∀ y . Se requiere la siguiente
definición.

Definición: Sea (X,Y) un vector aleatorio continuo con función de densidad conjunta
fXY(x,y) y marginales fX(x) y fY(y), y sea x tal que fX(x) > 0, la función de densidad
condicional de Y dado X = x está dada por

f XY ( x, y)
f Y| X =x ( y) = .
f X ( x)

Del mismo modo, sea y tal que fY(y) > 0, la función de densidad condicional de Y dado
Y = y está dada por

f XY ( x , y )
f X |Y = y ( x) = .
f Y ( y)

Se puede verificar que, en efecto estas funciones son funciones de densidad ya que, por
ejemplo, f Y | X = x ( y ) satisface

• f Y | X = x ( y ) ≥ 0 para todo y

• ∫f
−∞
Y |X = x ( y ) dy = 1

La primera condición se satisface ya que f X ( x) > 0 y f XY ( x, y ) ≥ 0 ∀ x, y.

93
Respecto a la segunda,

∞ ∞
f XY ( x, y) 1 ∞ 1

−∞
f Y | X = x ( y ) dy = ∫−∞ f X ( x) dy = ∫
f X ( x) − ∞
f XY ( x, y ) dy =
f X ( x)
f X ( x ) = 1.

Ejemplo: Volviendo al ejemplo 2 y a la pregunta que motivó esta definición,

 1 1  1/2
P X ≤ Y =  = ∫ f X |Y =1 / 4 ( x ) dx
 2 4 0

Hallemos la densidad condicional de X, dado Y=1/4.

f XY ( x,1 / 4) 2( x + 2 / 4) I ( 0 ,3 / 4 ) ( x ) 32  1
f X |Y =1 / 4 ( x) = = =  x +  I (0 , 3 / 4 ) ( x ) .
f Y (1 / 4) 1 3 21  2
1+ −
2 16

Notemos que, dado Y = y, X toma valores en el intervalo (0,1-y). De ahí que, como
Y =1/4, X toma valores en el intervalo (0, ¾
) . Finalmente,

1/ 2
 1 1  1 / 2 32  1 32  x 2 x  32  1 1  4
P X ≤ | Y =  = ∫  x +  dx =  +  =  +  = .
 2 4  0 21  2 21  2 2  0 21  8 4  7

Independencia de variables aleatorias

Definición: Sean X e Y dos variables aleatorias discretas, X e Y son independientes si y


sólo si

p XY ( x, y ) = p X ( x) pY ( y ) ∀ ( x, y )

Si esta condición no se satisface, diremos que X e Y son dependientes.

Observemos que si X e Y son independientes, las funciones de probabilidad condicional


coinciden con las correspondientes marginales.

Definición: Sean X e Y dos variables aleatorias continuas, X e Y son independientes si y


sólo si

f XY ( x, y ) = f X ( x) f Y ( y ) ∀ (x , y )

94
Si esta condición no se satisface, diremos que X e Y son dependientes.

Como en el caso discreto, si X e Y son independientes, las funciones de densidad


condicional coinciden con las correspondientes marginales.

Ejemplos: 1) Consideremos el primer ejemplo presentado para el caso discreto, cuya


función de probabilidad conjunta y sus funciones de probabilidad marginal están dadas
por:

X pY ( y)
0 1 2 3
Y 0 1/30 0 15/30 0 16/30
1 0 9/30 0 5/30 14/30
p X (x) 1/30 9/30 15/30 5/30 1
Claramente X e Y no son independientes ya que, por ejemplo,

1 14
p XY (0,1) = 0 ≠ ⋅ = p X (0) pY (1).
30 30

2) Sean X e Y v.a. independientes con distribución exponencial de parámetro λ,


entonces la función de densidad conjunta del vector (X, Y) estará dada por

f XY ( x, y ) = f X ( x ) f Y ( y ) = λ e −λx λ e − λy I ( 0 , ∞ ) ( x ) I ( 0 , ∞ ) ( y ) =

= λ2 e − λ ( x+ y ) I ( 0 , ∞ ) ( x ) I (0 ,∞ ) ( y ).

Esperanza de una función de dos variables aleatorias

Hemos visto que, dada una v.a. X y una función real h, h(X) también es una v.a. y que
para calcular su esperanza no necesitamos hallar la distribución de h(X) ya que se obtiene
a partir de la función de probabilidad puntual o de densidad de la v.a. X, según sea ésta
discreta o continua, en la forma

E (h ( X )) = ∑ h( x ) p X ( x ) ó E( h( X )) = ∫ h ( x ) f X ( x ) dx
x −∞

Un resultado similar se obtiene en el caso de una función real de un vector aleatorio.

Definición: Sean X e Y dos variables aleatorias discretas con función de probabilidad


conjunta p XY ( x, y) y sea h ( x, y ) : ℜ 2 → R , entonces h ( X , Y ) es una variable aleatoria y

E (h( X , Y ) ) = ∑∑ h( x, y) p XY ( x , y )
x y

95
siempre que esta esperanza exista.

Definición: Sean X e Y dos variables aleatorias continuas con función de densidad


conjunta f XY ( x , y ) y sea h ( x, y ) : ℜ 2 → R , entonces h ( X , Y ) es una variable aleatoria y

∞ ∞

E (h( X , Y ) ) = ∫ ∫ h(x , y ) f XY ( x , y ) dx dy
− ∞− ∞

siempre que esta esperanza exista.

Proposición: Sean X e Y dos v.a. discretas o continuas con función de probabilidad


conjunta o de densidad p XY ( x, y) ó f XY ( x , y ) respectivamente y sean a y b números
reales, entonces
E (aX + bY ) = aE ( X ) + bE (Y )
Dem: Haremos la demostración para el caso continuo. La demostración para el caso
discreto es similar.

Sea h ( X , Y ) = aX + bY , entonces

∞ ∞ ∞ ∞

E (h ( X , Y )) = ∫ ∫ h( x, y ) f XY (x, y ) dx dy = ∫ ∫ (ax + by ) f XY ( x, y) dx dy =
−∞ − ∞ − ∞ −∞

∞ ∞ ∞ ∞

= a ∫ ∫ x f XY ( x , y ) dx dy + b ∫ ∫y f XY ( x, y ) dx dy =
−∞ − ∞ − ∞ −∞


∞  ∞
∞ 
= a ∫ x  ∫ f XY ( x, y) dy  dx + b ∫ y  ∫ f XY ( x, y) dx  dy =
−∞  −∞  −∞  −∞ 

∞ ∞

= a ∫ x f X ( x ) dx + b ∫ y f Y ( y) dy = aE ( X ) + bE (Y )
−∞ −∞

como queríamos demostrar.

Proposición: Si X e Y son v.a. independientes, E ( XY ) = E ( X ) E (Y ).

Dem: Ejercicio.

Covarianza y correlación

Definición: Sean X e Y dos v.a. con esperanzas µX y µY respectivamente, la covarianza


entre X e Y se define como

96

 ∑∑ ( x − µ X )( y − µY ) p XY ( x, y )
 x y
Cov( X , Y ) = E [( X − µ X )(Y − µY ) ] = 
∞ ∞
 ∫ ∫ ( x − µX )( y − µY ) f XY ( x, y) dx dy
− ∞ −∞

según sean X e Y discretas o continuas.

Observación: Cov( X , X ) = V ( X ) .

Idea intuitiva: Si X e Y tienen una fuerte relación positiva, en el sentido que valores
grandes de X aparecen asociados con valores grandes de Y y valores pequeños de X
aparecen asociados con valores pequeños de Y, entonces la mayoría de los productos
( x − µX )( y − µY ) serán positivos y por lo tanto la covarianza será positiva. Por otra parte,
si X e Y tienen una fuerte relación negativa, en el sentido que valores grandes de X
aparecen asociados con valores pequeños de Y y valores pequeños de X aparecen
asociados con valores grandes de Y, entonces la mayoría de los productos
( x − µX )( y − µY ) serán negativos y por lo tanto la covarianza será negativa.

97
Cov(x,y) >0 Cov(x,y) <0

Cov(x,y) =0

Proposición: Cov( X , Y ) = E ( X Y ) − E ( X ) E (Y ).

Dem: Lo haremos sólo para el caso discreto. Para el caso continuo se demuestra en
forma similar. Denotemos E ( X ) = µX y E (Y ) = µY ,

Cov( X , Y ) = E [( X − µ X )(Y − µY ) ] = ∑ ∑ ( x − µX )( y − µY ) p XY ( x, y ) =
x y

98
= ∑∑ (xy − xµY − yµX + µX µY ) p XY ( x, y) =
x y

= ∑∑ xy p XY ( x, y) − µY ∑∑ x p XY ( x , y ) −µ X ∑ ∑ y p XY ( x, y ) + µ X µY ∑∑ p XY ( x , y ) =
x y x y x y x y

= E ( XY ) − µY ∑ x∑ p XY ( x , y ) −µ X ∑ y ∑ p XY ( x , y ) + µX µY =
x y y x

= E ( XY ) − µY ∑ x p X ( x) −µ X ∑ y p Y ( y) + µX µY =
x y

= E ( XY ) − µX µY − µ X µY + µX µY = E ( XY ) − µX µY

como queríamos demostrar.

Ejemplos: 1) Consideremos nuevamente el primer ejemplo presentado para el caso


discreto, cuya función de probabilidad conjunta y sus funciones de probabilidad marginal
están dadas por:

X pY ( y)
0 1 2 3
Y 0 1/30 0 15/30 0 16/30
1 0 9/30 0 5/30 14/30
p X (x) 1/30 9/30 15/30 5/30 1

y calculemos Cov (X,Y).

3 1
 3  1 
Cov( X , Y ) = E ( X Y ) − E ( X ) E (Y ) = ∑ ∑ k j p XY ( k , j ) −  ∑ k p X (k )  ∑ i pY (i ) 
k =0 j = 0  k =0  i =0 

9 5  9 15 5   14  24 54 14 4
= 1⋅ + 3⋅ − 1 ⋅ +2⋅ + 3 ⋅  1⋅  = − ⋅ =−
30 30  30 30 30   30  30 30 30 100

2) Consideremos nuevamente el primer ejemplo presentado para el caso continuo, es


decir un vector aleatorio (X,Y) con función de densidad conjunta

 6
f XY ( x , y ) =  5 x + y
2
( ) si 0 ≤ x ≤ 1, 0 ≤ y ≤ 1
 0 en otro caso

99
6 1 61 2 
y marginales f X ( x ) =  x +  I [0 ,1] ( x ) y f Y ( y ) =  + y  I [0 ,1 ] ( y).
5 3 52 

Calculemos Cov (X,Y). En primer lugar,

( ) ( )
1 1
6 611 2
E ( XY ) = ∫ ∫ xy x + y dx dy = ∫ ∫ x y + xy 3 dx dy =
2

0 0
5 500

1 1
6 1  x3 y x 2 y 3  6 1  y y3  6  y2 y4 
= ∫  +  dy = ∫  +  dy =  +  =
5 0 3 2 0 5 03 2  5 6 8 0

6  1 1 6 7 7
=  + = ⋅ =
5  6 8  5 24 20

Por otra parte,

1
6 x 3 x 2 
1
6 1 6 1 x 6 1 3
E ( X ) = ∫ x  x +  dx = ∫  x 2 +  dx =  +  = ⋅ =
0
5 3 5 06  3 5 3 6 0 5 2 5

1
6  y2 y 4 
1
61 2  6 1 y 3 6 1 3
E (Y ) = ∫ y  + y  dy = ∫  + y  dy =  +  = ⋅ =
0 52  5 02  5 4 4 0 5 2 5

Entonces,

7 3 3 1
Cov( X , Y ) = − ⋅ =− .
20 5 5 100

Propiedad: Si X e Y son v.a. independientes, Cov (X,Y) = 0. La recíproca no es cierta en


general.

Dem: Hemos visto que si X e Y son independientes, E ( XY ) = E ( X ) E (Y ) y por lo tanto es


inmediato que Cov (X,Y) = 0.

Para ejemplificar que la recíproca no es en general cierta, consideremos un vector


aleatorio discreto con la siguiente función de probabilidad conjunta

X pY ( y)
0 1 2 3 4
0 1/5 0 0 0 1/5 2/5
Y 3 0 1/5 0 1/5 0 2/5
4 0 0 1/5 0 0 1/5
p X (x) 1/5 1/5 1/5 1/5 1/5 1

100
Se observa que X e Y no son independientes ya que, por ejemplo,

1 2
p XY (2,3) = 0 ≠ p X (2) pY (3) = ⋅
5 5

Sin embargo, se puede verificar que Cov (X,Y) = 0. En efecto,

1 1 1
E ( XY ) = 1 ⋅ 3 ⋅ + 2 ⋅4 ⋅ + 3⋅3⋅ = 4
5 5 5

1 1 1 1 1
E( X ) = 0 ⋅ +1 ⋅ + 2 ⋅ + 3 ⋅ + 4 ⋅ = 2
5 5 5 5 5

2 2 1
E (Y ) = 0 ⋅ + 3⋅ + 4 ⋅ = 2
5 5 5

Entonces, Cov( X , Y ) = 4 − 2 ⋅ 2 = 0.

Observación: La covarianza depende de las unidades en que se expresan las variables


aleatorias. Este inconveniente puede salvarse standarizándolas. De este modo se obtiene
una medida de la fuerza de la relación entre las v.a. que no depende de sus unidades.

Definición: Sean X e Y dos v.a. con esperanzas µX y µY respectivamente y varianza


positiva, el coeficiente de correlación entre X e Y se define como

Cov( X , Y )
ρ( X , Y ) =
σ X σY

siendo σ X y σY los desvíos standard de X e Y respectivamente.

Proposición: 1) Sean a, b, c y d números reales y X e Y dos v.a. cualesquiera con


varianza positiva, entonces

ρ( aX + b, cY + d ) = sg ( ac) ρ( X , Y )

donde sg denota la función signo.

2) − 1 ≤ ρ( X , Y ) ≤ 1

3) ρ( X , Y ) = 1 ⇔ Y = aX + b con probabilidad 1, para ciertos valores reales a y b,


a ≠ 0 . Observemos que el coeficiente de correlación mide relación lineal entre las v.a.

Dem: 1)

101
Cov( aX + b, cY + d ) = E[(aX + b)( cY + d )] − E ( aX + b) E( cY + d ) =

= E [acXY + adX + bcY + bd ] − (aE ( X ) + b ) (cE (Y ) + d ) =

= acE( XY ) + adE ( X ) + bcE (Y ) + bd − [acE ( X ) E (Y ) + adE ( X ) + bcE (Y ) + bd ] =

= ac[E ( XY ) − E ( X ) E (Y ) ] = ac Cov( X , Y ).

Por otra parte

σ aX + b = a σ X y σcY + d = c σY

y, por lo tanto

Cov( aX + b, cY + d ) ac Cov( X , Y )
ρ( aX + b, cY + d ) = = = sg( ac ) ρ( X , Y )
σaX + b σcY + d a c σ X σY

como queríamos demostrar.

2) Consideremos la siguiente función real,

q (t ) = E[(Y − µY ) − t ( X − µ X )]2 = E [V − tW ]2

siendo V = Y − µY y W = X − µX .
Observemos que q (t ) ≥ 0 ∀ t .

Como

q (t ) = E[V − t W ]2 = E (V 2 ) − 2 t E (V W ) + t 2 E(W 2 )

es una función cuadrática en t que toma valores mayores o iguales que 0, su gráfico, o no
corta al eje t o lo corta en un solo punto. Es decir que la ecuación q (t ) = 0 tiene a lo
sumo una raíz y por lo tanto su discriminante es menor o igual que 0. (Recordemos que el
discriminante de una ecuación de segundo grado ax 2 + bx + c = 0 es b 2 − 4 ac ). En
nuestro caso, el discriminante es

4[E (V W )]2 − 4 E(V 2 ) E(W 2 )

y, por lo tanto,

4[E (V W )] − 4 E (V ) E (W ) ≤ 0 ⇔
[E (V W ) ]2 ≤1 ⇔
[E(( X − µX )(Y − µY ) )]2
] ≤1
2 2 2

E (V 2 ) E(W 2 ) [ ] [
E ( X − µ X ) 2 E (Y − µY ) 2

⇔ [ ρ( X , Y ) ]2 ≤ 1 ⇔ −1 ≤ ρ( X , Y ) ≤ 1.

102
3) Demostraremos las dos implicaciones.

(⇒ ) Si ρ 2 ( X , Y ) = 1 , y volviendo a la demostración de la propiedad anterior, existe t o tal


que q (t o ) = 0 , o sea tal que

E[V − t o W ] = 0 ,
2

Pero además E (V − t o W ) = 0 , pues V y W tienen esperanza igual a 0. Entonces la v.a.


V − t oW tiene varianza cero y por lo tanto es constante con probabilidad 1, es decir

P(V − t o W = E (V − t o W ) ) = P(V − t o W = 0) = 1

o sea,

P((Y − µY ) − t o ( X − µX ) = 0 ) = 1 ⇔ P(Y = t o X + µY − t o µX ) = 1 .

Entonces, Y = aX + b con probabilidad 1, siendo a = t o y b = µY − t o µX . Falta verificar


que a = t o ≠ 0 .

En efecto, si t o fuese igual a 0, ésto implicaría que E (V 2 ) = Var (Y ) = 0 .

(⇐) Sea Y = aX + b para ciertos valores a ≠ 0 y b. Entonces

Cov( X , aX + b) E ( X ( aX + b) ) − E ( X ) E( aX + b)
ρ( X , Y ) = ρ( X , aX + b ) = = =
σX σ aX + b σX a σ X

=
( ) =
(
aE X 2 + bE( X ) − a[E ( X ) ]2 − bE ( X ) a E ( X 2 ) − E 2 ( X )
=
)a σ 2X
= ±1
a σ 2X a σ 2X a σ 2X

como queríamos demostrar.

103

También podría gustarte