Fórmulas Estadística Inferencial PDF

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 32

FORMULAS EST-241 ESTADISTICA INFERENCIAL Arturo Calderón G.

Fórmulas sobre Probabilidad y Variable Aleatoria


1. Probabilidad

1.1 σ-álgebra de eventos

Dado un espacio muestral S y una familia A de subconjunto de S, esta familia


será llamada σ-álgebra de eventos si tiene las propiedades siguientes:

A1) Si A ∈ A ⇒ AC ∈ A
(A
A 2) ∅ ∈ A
(A
A3) Si A1 , A2 , L , Ak , L es cualquier sucesión numerable de eventos en A, enton-
(A

ces UA k ∈A
k =1

Propiedad 1 S ∈ Ad

Propiedad 2 Si A1 , A2 , L , AN es una sucesión finita de eventos en A, entonces


N

UA k ∈A
k =1

Propiedad 3 Si A1 , A2 , L , Ak , L es cualquier sucesión numerable de eventos en A,



entonces IA k ∈A
k =1

Propiedad 4 Si A1 , A2 , L , AN es una sucesión finita de eventos en A, entonces


N

IA k ∈A
k =1

A1) a (A
Una familia definida según (A A3), contiene a todos los eventos que po-
damos construir por unión e intersección de conjuntos, o sea A es “cerrada”
bajo estas operaciones.

1.2 Definición Axiomática de Probabilidad (Axiomas de Kolmogorov)


Sea S un espacio muestral asociado a un experimento aleatorio ε, y sea A una
σ-álgebra de eventos en S. Una probabilidad P definida sobre los eventos de S
es una función que a cada evento A de la σ-álgebra, le asigna un número real,
denotado P(A) y llamado Probabilidad de A, de modo que se satisfacen los
axiomas:

(1) 0 ≤ P ( A)
(2) P( S ) = 1
(3) Si A1, A2,... An,... es una sucesión de eventos mutuamente excluyentes,
entonces
∞ ∞
P (∪ Ai ) = ∑ P ( Ai )
i =1
i =1
Propiedades de la Probabilidad

Proposición 1: P (∅) = 0
Proposición 2: Si A1, A2,... AN es una sucesión de N eventos mutuamente exclu-
yentes, entonces
N N
P (∪ Ai ) = ∑ P ( Ai )
i =1
i =1

1
FORMULAS EST-241 ESTADISTICA INFERENCIAL Arturo Calderón G.
Proposición 3: P ( A) + P ( A ) = 1
C

Proposición 4: Si A y B son eventos arbitrarios, entonces:


P ( A ∪ B ) = P ( A) + P ( B ) − P ( A ∩ B )
Proposición 5: Si A y B son eventos tales que A ⊆ B , entonces:
P ( A) ≤ P (B)
Corolario: En el contexto de la proposición anterior, se cumple:

0 ≤ P ( A) ≤ P ( B ) ≤ 1

1.3 Probabilidad Geométrica


Sea un experimento aleatorio ε consistente en tomar un punto al azar de un
conjunto geométrico S que tiene una medida m( S ) y sea A un evento del
espacio muestral resultante. Si m( A) denota la medida de este evento,
entonces la probabilidad de A es:
m( A)
P ( A) =
m( S )
1.4 Reglas de Conteo

• Principio de la Multiplicación
Si una ‘operación’ A puede realizarse u ocurrir de a maneras diferentes y
otra ‘operación’ B puede realizarse de b maneras diferentes, entonces la
operación compuesta AXB consistente en realizar A primero y luego realizar B,
se puede realizar de (axb) maneras distintas.
• Principio de la Adición
Si una ‘operación’ A puede realizarse u ocurrir de a maneras diferentes y
otra ‘operación’ B puede realizarse de b maneras diferentes, siendo ambas
operaciones excluyentes, entonces la operación compuesta A ó B consistente en
realizar A o realizar B pero no ambas, se puede realizar de (a+b) maneras
distintas.

Permutaciones y Combinaciones

Factorial de un entero N ! = N × ( N − 1) × ( N − 2) × ... × 3 × 2 × 1. Adicionalmente definimos


0!= 1!

Proposición
El número total de Permutaciones de tamaño r tomadas de un conjunto con n
elementos distintos es: Prn = n! /( n − r )!

Proposición
El número total de de Combinaciones (subconjuntos) de tamaño r formadas a
partir de un conjunto con n elementos es C r = n! (n − r )! r!
n

∞ ∞
r 1
−1 < r < r ⇒ ∑r = ∑rk =
k
Serie geométrica: Si y
k =1 1− r k =0 1− r
n

Binomio de Newton: (a + b) n = ∑ C kn a k b n − k
k =0

P ( B ∩ A)
1.5 Probabilidad Condicional P (B | A) = = la probabilidad de B cuando S
P ( A)
se reduce al evento A.

Regla del Producto P ( A ∩ B ) = P ( B | A) P ( A) y P ( A ∩ B ∩ C ) = P (C | A ∩ B ) P ( B | A) P ( A)


2
FORMULAS EST-241 ESTADISTICA INFERENCIAL Arturo Calderón G.
1.6 Independencia Dos eventos A y B se dicen Independientes si y sólo se
cumple que P ( A ∩ B ) = P ( A) P ( B )

1.7 Probabilidad Total


Sean A1 , A 2 ,..., A N eventos mutuamente excluyentes, todos con probabilidad
positiva y tales que ∪ A j = S . Sea B otro evento de S. Entonces se cumple:
j

P (B ) = ∑ (B | A )P(A )
j
j j

1.8 Teorema de Bayes


En el contexto del Teorema de Probabilidad Total, si además P(B)>0, entonces
se cumple:
P (B | A k )P ( A k )
P ( Ak | B ) =
∑ P (B|A )P (A )
j
j j
∀ k

2. Variable Aleatoria

2.1 Definición Si S es un espacio muestral, una variable aleatoria X ,


definida sobre S , es una función cuyo dominio es S y cuyo rango es un
conjunto de números reales que denotaremos R X .

2.1.2 Clasificación
Según R X de una variable aleatoria X es Continua si R X es un intervalo y
X es Discreta Si R X es un conjunto finito o numerable
2.2 Función de Probabilidad PX (x)
Si X es v.a. discreta, la función de probabilidad de X , es PX ( x) = P ( X = x)

Propiedades de PX (x) .
(a) 0 ≤ PX ( x ) ≤ 1 ∀x
(b) ∑ P (x ) = 1
x∈R X
X donde x ∈ R X indica que la suma se hace sobre todos los x que

pertenecen a R X
(c) P( X ∈ A) = ∑ P (x )
X ∀A ⊆ R X
x∈A

2.3 Función de Densidad


Si X es una v.a. continua, una función de densidad de X, denotada f X ( x) , es
una función no negativa y continua, tal que para todo intervalo ]a, b] ⊆ R X ]
se cumple:
b

P (a < X ≤ b ) = ∫ f X ( x)dx
a
Propiedades.
(a) 0 ≤ f X ( x ) ∀x
+∞

(b) ∫f
−∞
X ( x)dx = ∫f
RX
X ( x)dx = 1

(c) P( X ∈ A) = ∫ f X ( x)dx
A

3
FORMULAS EST-241 ESTADISTICA INFERENCIAL Arturo Calderón G.
2.4 Función de Distribución Acumulativa
Si X es una v.a., se define la Función de Distribución Acumulativa de X ,
denotada FX , mediante FX ( x ) = P ( X ≤ x) ∀x real

Propiedades de FX(x)
(1) 0 ≤ FX (t ) ≤ 1 para todo t real.
(2) a < b ⇒ FX (a ) ≤ FX (b )
(3) FX es continua a la derecha (‘diestro continua’), ie.
FX (t ) = Lim+ Fx (t + h ) para todo t real
h →0

(4) Lim Fx (t ) = 0 y Lim Fx (t ) = 0


t →−∞ t →+∞

(5) P[a < X ≤ b] = FX (b ) − FX (a )


(6) P[ X = b ] = FX (b ) − Lim
+
Fx (b + h )
h→0

Propiedades adicionales:
(1) Si X es discreta, entonces F X (b) = ∑ PX ( x)
x j | x j ≤b
t
(2) Si X es continua, entonces ∫-∞
f X ( x )dx = FX (t ) para todo t real

• Si X es discreta con RX = { x1,x2,...,xN-1,xN...} donde x1<x2<...<xN-1<xN..


N
Entonces FX(xN) = ΣPX(xj) y también PX(xN) = FX(xN)- FX(xN-1)
j=1

• Si X es continua, entonces fX(x) = F’X(x)

2.5 Valor Esperado o Esperanza Matemática


Sea X variable aleatoria y H ( X ) una función de X :

∑ H ( x)P X ( x) si X es Discreta
E [H ( X )] = { x ∈ RX
+∞
∫−∞
H ( x ) f X ( x )dx si X es Continua

La Media Poblacional µ = µ X = E ( X )
La Varianza Poblacional σ 2 = σ X2 = V ( X ) := E[( X − µ X ) 2 ]

Desigualdad de Tchebychev
X v.a. con media µ X y desviación estándar σ X . Sea k una constante positiva
dada, entonces:
1
P[| X − µ X |< kσ X ] ≥ 1 − 2
k
Propiedad 1 E (c ) = c .
Propiedad 2 E [aH 1 ( X ) + bH 2 ( X )] = aE [H 1 ( X )] + bE [H 2 ( X )] .
Corolarios
(1) V ( X ) = E ( X 2 ) − µ X2 .
(2) Si Y = a + bX ∀X , entonces E (Y ) = a + bE ( X ) y V (Y ) = b 2V ( X ) .

Función Generatriz de Momentos M X (t ) = E (e )


tX

4
FORMULAS EST-241 ESTADISTICA INFERENCIAL Arturo Calderón G.
Propiedades
(1) M X
(k )
(0) = E ( X k ) , si existe el valor esperado

(2) X e Y variable aleatorias, entonces M X (t ) = M Y (t ) ⇔ FX = FY


Cálculo del valor esperado por desarrollo asintótico
Sea X v.a. con E ( X ) = µ y V ( X ) = σ 2 . Sea H ( X ) función al menos dos veces
diferenciable en X = µ . Entonces se cumplen:
H '' ( µ ) 2
a) E [ H ( X )] ≅ H ( µ ) + σ
2
b) [
V [ H ( X )] ≅ H ' ( µ ) σ 2 ]2

Fórmulas sobre las Principales Distribuciones


1. Distribución Binomial B ( x;n,p)

PX ( x) = P( X = x) = Cxn p x q n − x donde x = 0,1,2,L, n

E ( X ) = µ X = np ; V ( X ) = σ X2 = npq y M X (t ) = ( pet + q)n −∞<t <∞

Uso
X = # de veces que ocurre un determinado evento A sobre un total fijo de n
repeticiones u observaciones independientes de un experimento.
n

Binomio de Newton: (a + b) = ∑ C kn a k b n − k
n

k =0
2. Distribución Geométrica G ( x; p)

PX ( x ) = P( X = x ) = pq x −1 x = 1,2,3,L

pe t
E( X ) = µ X = 1/ p ; V(X ) = σ 2
= q/ p 2
y M X (t ) = t < − ln q .
X
1 − qe t
Uso
X = # de veces que se debe repetir un experimento hasta lograr que ocurra un
determinado suceso A por primera vez.
∞ ∞
r 1
−1< r <1 ⇒ ∑r = ∑r =
k k
Serie geométrica: Si y
k =1 1− r k =0 1− r
3. Distribución de Pascal o Binomial Negativa Bn( x; r , p )

PX ( x) = P( X = x) = Crx−−11 p r q x−r x = r, r + 1, r + 2,L

E( X ) = µ X = r / p y V ( X ) = σ X2 = rq / p 2 .
Uso
X = # de veces que se debe repetir un experimento hasta lograr que ocurra un
determinado suceso A por r-ésima vez.
5
FORMULAS EST-241 ESTADISTICA INFERENCIAL Arturo Calderón G.
4. Distribución Hipergeométrica H ( x; N , M , n)

CxM CnN−−xM
PX ( x) = P( X = x) = x = 0,1,..., n
CnN
M M N −M N −n
E( X ) = µ X = n y V ( X ) = σ X2 = n( )( )( ) . M X (t ) es poco útil.
N N N N −1
Uso
X = # de casos con una característica A de interés en una muestra de n
casos tomados al azar y sin reemplazo de una población de tamaño N de los
cuales M en total tienen esa característica.

5. Distribución de Poisson P ( x; λ )
e−λ λ x
PX ( x ) = x = 0,1,2,3,L
x!

E( X ) = µ X = λ ; V ( X ) = σ X2 = λ y M X (t ) = e λ ( e −1) − ∞ < t < ∞


t

Uso
• Si X ~ B ( x; n, p ) , n → ∞ y p → 0 ⇒ np → λ , entonces B( x;n,p ) ≅ P( x; λ ) .

• E evento que se presenta en puntos aleatorios del tiempo (o del espacio),


tal que:
(1) Para todo intervalo de longitud dt suficientemente pequeña, la
probabilidad de observar una vez E es proporcional a dt , i.e.:
P( E ocurre una vez en [t , t + dt[) = wdt ∀ t real (ϖ > 0 ).
(2) Para todo intervalo de longitud dt suficientemente pequeña, la
probabilidad de observar más de una vez E es nula i.e.:
P( E ocurre más de una vez en [t , t + dt[) = 0 .
(3) Intervalos disjuntos son independientes en relación a la ocurrencia de
E.

Si t > 0 es un valor dado y definimos X = # de veces que ocurre E en el


intervalo [0, t [ ⇒ X ~ P ( x; λ = wt ) donde w = tasa de ocurrencias de E por unidad
de tiempo.

6. Distribución Exponencial Exp( x; β )

f X ( x) = β e− β x x>0

β
E( X ) = µ X = 1 / β ; V ( X ) = σ X2 = 1 / β 2 y M X (t ) = ( ) t<β
β −t
Uso
• Como un modelo en general

• En un proceso de Poisson, si T := Tiempo que transcurre hasta que ocurre E


por primera vez, entonces T ∼ Exp(t; β = w) , donde w es la tasa de ocurrencias de
E por unidad.

6
FORMULAS EST-241 ESTADISTICA INFERENCIAL Arturo Calderón G.
7. Distribución Gamma Γ( x;α , β )
xα −1e− x / β
f X ( x) = α x>0
β Γ(α )
1 1
E ( X ) = µ X = αβ ; V ( X ) = σ X2 = αβ 2 y M X (t ) = si t<
β
α
(1 − β t )

Uso
• Como un modelo en general

• En un proceso de Poisson, si T := Tiempo que transcurre hasta que ocurre E


por k -ésima vez, entonces T ~ Γ( x;α = k , β = 1/ w)

Función matemática Gamma Γ ( p ) = ∫ y p −1e y dy p>0


0

(1) Γ( p) = ( p − 1)Γ( p − 1) p >1


1
(2) Γ( ) = π
2

8. Distribución Normal N ( µ , σ 2 )

e − ( x − µ ) / 2σ
2 2

f X ( x) = −∞ < x < ∞
2π σ
t2 2
tµ + σ
E( X ) = µ X = µ , V ( X ) = σ =σ M X (t ) = e −∞ < t < ∞
2 2 2
X y

Propiedad
X ~N ( µ , σ 2 ) e Y = a + bX ⇒ Y ~ N (a + bµ , b 2σ 2 )
Uso
• Como un modelo en general
• Teorema del Límite Central: X 1 , X 2 ,L , X n ,L variables aleatorias indepen-
n
dientes con medias µ1 , µ 2 ,L, µ n ,L y varianzas σ 12 ,σ 22 ,L ,σ n2 ,L y T := ∑ X j
j =1

donde el número n de sumandos es grande ( n ≥ 30 ), ⇒ T ~ N ( µ T , σ ) , donde 2


T
n n
µ T = ∑ µ j y σ T2= ∑ σ 2j
j =1 j =1

k − np
• X ~ B ( x;n,p) y n es "grande" ⇒ P( X ≤ k ) ≈ P( Z ≤ )
npq

9. Distribución Lognormal LogN ( µ , σ 2 )

e− (ln x − µ ) / 2σ
2 2

f X ( x) = x>0
x 2πσ
X ~ LogN ( µ , σ 2 ) ⇔ ln X ~ N ( µ , σ 2 )
1 t2 2
tµ + σ
σ =V (X ) = e 2 µ + 2σ 2 2 µ +σ 2
µ+ σ 2
µ X = E( X ) = e 2 ;
2
X −e y E( X ) = e
t 2

7
FORMULAS EST-241 ESTADISTICA INFERENCIAL Arturo Calderón G.
Uso
• Como un modelo en general
• Teorema del Límite Central para productos: W1 , W2 ,L , Wn ,L variables alea-
torias positivas e independientes tales que existe E (ln W j ) y V (ln W j ) ∀j y
n
sea W := ∏W
j =1
j donde el número n de factores es grande ( n ≥ 30 ), ⇒

n n
ln W ~N ( µ , σ 2 ) , donde µ = ∑ E (ln W j ) y σ 2 = ∑ V (ln W j )
j =1 j =1

10. Distribución Uniforme U ( x;α , β )

1
f X ( x) = α ≤x≤β
β−α

α+β (β − α ) 2
E( X ) = µX = ; V ( X ) = σ X2 = . M X (t ) es poco útil
2 12

Uso
• Como un modelo en general
• Se toma un punto al azar de [α , β ] y X = Valor obtenido ⇒ X ~ U ( x;α , β )
• Si Y ~ fY ( y ) y X := FY ( X ) ⇒ X ~ U ( x; 0,1)

11. Distribución beta Beta ( x; α , β )

Γ(α + β ) α −1
f X ( x) = x (1 − x) β −1 , 0 ≤ x ≤ 1
Γ(α )Γ( β )

α αβ
E( X ) = µ X = ; V ( X ) = σ X2 = . M X (t ) es poco útil
α +β (α + β ) (α + β + 1)
2

Uso
• Como un modelo para proporciones.

1 Γ(α ) Γ( β )
Función matemática Beta B (α , β ) = ∫ y α −1 (1 − y ) β −1 dy =
0
Γ(α + β )

8
FORMULAS EST-241 ESTADISTICA INFERENCIAL Arturo Calderón G.
Fórmulas sobre Vector Aleatorio Bidimensional
3.1 Definición y Clasificación

Definición
Un vector aleatorio ( X , Y ) es un vector cuyas componentes son variables
aleatorias X e Y definidas conjuntamente sobre el mismo espacio muestral.
El conjunto de posibles parejas ( X , Y ) se denota R XY y se llama Rango del
vector ( X , Y )

Clasificación
( X , Y ) se dice discreto si sus componentes son v.a. discretas
( X , Y ) se dice continuo si sus componentes son v.a. continuas
( X , Y ) es mixtos, si tiene una componente discreta y otra continua

3.2 Distribuciones Conjunta, Marginales y Condicionales

3.2.1 Caso discreto

Función de Probabilidad Conjunta


Si ( X , Y ) es vector aleatorio discreto, la función de probabilidad conjunta de
( X , Y ) , denotada PXY ( x, y ) , se define mediante:

PXY ( x, y ) = P[( X = x ) ∩ (Y = y )]
Propiedades
(a) PXY ( x, y ) ≥ 0
(b) ∑∑ PXY ( x, y ) = 1
x y

(c) P[( X , Y ) ∈ A] = ∑∑ PXY ( x, y)


( x , y )∈A

Función de Probabilidad Marginal


( X , Y ) v.a.d, con función de probabilidad conjunta PXY ( x, y ) , entonces
La Función de Probabilidad Marginal de X es PX ( x ) = ∑ PXY ( x, y )
y

La Función de Probabilidad Marginal de Y es PY ( y ) = ∑ PXY ( x, y )


x

Función de Probabilidad Condicional


Función de Probabilidad Condicional de Y dado que X = x , denotada PY | X ( y | x) es
PXY ( x, y )
con x valor dado tal que PX ( x) > 0
PY | X ( y | x) =
PX ( x)
Función de Probabilidad Condicional de X dado que Y = y , denotada PX |Y ( x | y ) es
PXY ( x, y )
PX |Y ( x | y ) = con y valor dado tal que PY ( y ) > 0
PY ( y )
3.2.2 Caso continuo

Función de Densidad Conjunta


Si ( X , Y ) es vector aleatorio continuo con rango R XY , la función de densidad
conjunta de ( X , Y ) , denotada f XY ( x, y ) es una función continua tal que cumple:
f XY ( x, y ) ≥ 0 ; ∫∫ f XY ( x, y ) = 1 y P[( X , Y ) ∈ A)] = ∫∫ f XY ( x, y ) ∀A ⊆ R XY
R2 A

9
FORMULAS EST-241 ESTADISTICA INFERENCIAL Arturo Calderón G.

Nota (Integrales dobles)


1) Recordemos que si una función f XY ( x, y ) es continua sobre una región A ⊂ R 2
dada por A = {( x, y ) | a ≤ x ≤ b, c ≤ y ≤ d } , entonces la integral doble ∫∫ f XY ( x, y )
A
se calcula como una integral iterada, primero sobre y luego sobre x , o
también en el orden inverso (Teorema de Fubini). Esto es:
b d
  
d b

∫∫A XY
f ( x , y ) = ∫a ∫c XY
f ( x , y ) dy 

dx = ∫  ∫ f XY ( x, y )dx dy .
c a 
2) También, si A ⊂ R se puede escribir como una región de fronteras defi-
2

nidas en términos de funciones, como A = {( x, y ) | a ≤ x ≤ b, h1 ( x) ≤ y ≤ h2 ( x)},


entonces:
b  h2 ( x ) 
∫∫ f XY ( x, y ) = ∫  ∫ f XY ( x, y )dy dx .
 h1 ( x )
A a  
3) Análogamente, si A ⊂ R 2 es A = {( x, y ) | g1 ( y ) ≤ x ≤ g 2 ( y ), c ≤ y ≤ d } , entonces:
d  g2 ( y ) 
∫∫ f XY ( x, y ) = ∫  ∫ f XY ( x, y )dx dy
 g1 ( y )
A c  
Nótese finalmente que aunque en la definición se integra sobre todo R 2 , en
la práctica la integral es sólo sobre R XY , pues fuera de R XY , f XY ( x, y ) = 0 .

Función de Densidad Condicional


Función de Densidad Condicional de Y dado que X = x , denotada f Y | X ( y | x) es
f XY ( x, y )
f Y |X ( y | x) = donde x es valor dado tal que f X ( x) > 0
f X ( x)
Función de Densidad Condicional de X dado que Y = y , denotada f X |Y ( x | y ) es
f XY ( x, y )
f X |Y ( x | y ) = donde y es valor dado tal que f Y ( y ) > 0
fY ( y)
3.2.3 Independencia
X e Y v.a. son independientes si:
PXY ( x, y ) = PX ( x) PY ( y ) ∀( x, y ) (caso discreto)
f XY ( x, y ) = f X ( x) f Y ( y ) ∀( x, y ) (caso continuo)

3.3 Valor Esperado

3.3.1 Definición
Si ( X , Y ) es vector aleatorio y H ( X , Y ) es una función de ( X , Y ) , se define el
Valor Esperado de H ( X , Y ) , denotado E[ H ( X , Y )] , mediante

 ∑∑ H ( x, y ) PXY ( x, y ) si ( X , Y ) es discreto
 x y
E[ H ( X ,Y )] = + ∞ + ∞
 ∫ ∫ H ( x, y ) f XY ( x, y )dxdy si ( X , Y ) es continuo
− ∞ − ∞

3.3.2 Casos Especiales


• µ X := E[ X ] y µ Y := E[Y ] (medias poblacionales)
• σ X2 ≡ V ( X ) := E[( X − µ X ) 2 ] y σ Y2 ≡ V (Y ) := E[(Y − µ Y ) 2 ] (varianzas poblacionales)

10
FORMULAS EST-241 ESTADISTICA INFERENCIAL Arturo Calderón G.
• σ XY ≡ Cov( X , Y ) := E[( X − µ X )(Y − µ Y )] (Covarianza entre X e Y ). Mide asociación
lineal entre X e Y

Interpretación de σ XY :
• σ XY > 0 X e Y están asociadas directamente.
• σ XY < 0 X e Y están asociadas inversamente.
• Si σ XY = 0 , no hay relación lineal entre X e Y , aunque puede haber una
relación no lineal

σ XY
Coeficiente de Correlación de Pearson ρ XY = , mide lo mismo que σ XY pero
σ Xσ Y
carece de unidades y está acotado entre –1 y 1

Propiedades de ρ XY
• 0 ≤| ρ XY |≤ 1
• ρ XY > 0 indica asociación directa o positiva entre X e Y
• ρ XY < 0 indica asociación inversa o negativa entre X e Y
• | ρ XY |= 1 ⇔ Existen constantes α y β tales que Y = α + βX
• | ρ XY |≅ 1 indica que entre X e Y hay asociación (lineal) 'fuerte'
• | ρ XY |≅ 0 indica que entre X e Y hay asociación (lineal) 'débil'

3.3.3 Propiedades del Valor Esperado

• E[C ] = C para toda constante C


• Si α 1 , α 2 , K , α n son constantes (o variables no aleatorias) y H 1 ( X , Y ), H 2 ( X , Y ),
n n
... H n ( X , Y ) son funciones de ( X , Y ) , entonces E[ ∑ α j H j ( X , Y )] =∑ α j E[ H j ( X , Y )]
j =1 j =1
• Si X e Y son independientes entonces E[ H ( X )G (Y )] = E[ H ( X )]E[G (Y )]
• Cov( X , Y ) = E[ XY ] − E[ X ]E[Y ]
• Si X e Y son independientes, entonces Cov( X , Y ) = 0
• Si W = αX + βY , donde α y β son constantes, entonces µW = E[W ] = αE[ X ] + βE[Y ]
y σ W2 = V [W ] = α 2V [ X ] + β 2V [Y ] + 2αβCov( X , Y )

Propiedad:
Sean T = ( X + Y ) y D = ( X − Y ) entonces:
• µT = µ X + µY y σ T2 = σ X2 + σ Y2 + 2 ρ XY σ X σ X
• µ D = µ X − µ Y y σ D2 = σ X2 + σ Y2 − 2 ρ XY σ X σ X

3.3.4 Esperanza Condicional E[Y | X ]

∑ H ( x, y ) PY | X ( y | x) si ( X , Y ) es discreto
 y
E[ H ( X , Y ) | X = x] =  + ∞
 ∫ H ( x, y ) f Y | X ( y | x ) si ( X , Y ) es continuo
 −∞

Casos especiales
• µ Y | X = E[Y | X = x] , es el valor esperado de Y en la distribución condicional
de Y dado X = x . También se llama Función de Regresión de Y sobre X y
11
FORMULAS EST-241 ESTADISTICA INFERENCIAL Arturo Calderón G.
suele ser una función de X que se usa para pronosticar el valor de Y
cuando se conoce el valor de X .
• σ Y2| X = V [Y | X = x ] = E[Y 2 | X = x] − ( E[Y | X = x]) 2 , es la varianza condicional y
mide la variación de Y alrededor de la función de regresión E[Y | X ] = ϕ ( X )

Propiedad
• E ( E[Y | X ]) = E[ϕ ( X )] = E[Y ]
• V (Y ) = E (V [Y | X ]) + V ( E[Y | X ])

3.3.5 Vector de Medias y Matriz de Varianza Covarianza

Vector de Medias y Matriz de Varianza-Covarianza


X X µ 
Sea   vector aleatorio columna, el vector de medias de   es µ =  X  y
Y  Y   µY 
X  σ 2 σ XY 
la matriz de varianza covarianza de   es Σ =  X 
2 
Y   σ XY σ Y 

Nota:
 X   E ( X )  X X 12 
Se puede definir en general E   :=   y si M =  11  es matriz
 Y   E (Y )   X 21 X 22 
 E ( X 11 ) E ( X 12 ) 
aleatoria, definimos E ( M ) =   .
 E ( X 21 ) E ( X 22 ) 
Propiedad
 σ 2 σ XY   X − E ( X )  
• Σ =  X  = E 
2 
( X − E ( X ), Y − E (Y ) )
 σ XY σ Y   Y − E (Y )  
 
X
• U 2 x1 =   vector aleatorio con vector de medias µU y matriz de varianza
Y 
 a11a12  b 
covarianza ΣU ; sean A2 x 2 =   y B2 x1 =  1  matrices dadas. Si
 a 21 a 22   b2 
W   a a12  X   b1 
definimos el vector V2 x1 = AU + B (o sea V2 x1 =   =  11   +   ),
 Z   a 21 a 22  Y   b2 
entonces el vector de medias de V es µV = AµU + B y su matriz de varianza
covarianza es ΣV = AΣU AT respectivamente.

12
FORMULAS EST-241 ESTADISTICA INFERENCIAL Arturo Calderón G.
3.4 Vector Aleatorio n-dimensional

Definición
Un vector cuyas componentes son n variables aleatorias definidas
conjuntamente
r
• Un vector aleatorio n-dimensional (fila) es de la forma X1xn = ( X 1 , X 2 ,..., X n )
• Un vector aleatorio n-dimensional (columna) es de la forma
r
X nx1 = ( X 1 , X 2 ,..., X n ) T .

Matriz aleatoria
Una matriz aleatoria M de orden n × m es una matriz M = M ij ( ) n×m
de nxm
variables aleatorias M ij i = 1,2,..., n j = 1,2,..., m definidas conjuntamente sobre el
mismo espacio muestral S .

Vector particionado
Cuando se tiene un vector aleatorio X nx1 = ( X 1 , X 2 ,..., X n ) T , a veces es útil se-
parar partes de él, por ejemplo X nx1 = ( X 1 , L , X p , X p +1 , L , X n ) T donde las primeras
p componentes forman un subvector X px1 = ( X 1 , L , X p ) T de orden px1 y el resto de
(n-p) componentes un subvector X ( n − p ) x1 = ( X p +1 , L , X n ) T . En este contexto se es-
cribe X nx1 = ( X 1 M X 2 ) T donde X 1 = ( X 1 , L , X p )T y X 2 = ( X p +1 , L , X n )T . O más explíci-
tamente, en formato de vector columna:

 X1 
 
 M 
 X  X   X1   X p +1 
 p   1    
X nx1 =  L  =  L  donde X 1 =  M  y X 2 =  M  .
X  X  X   X 
 p +1   2   p  n 
 M 
 X 
 n 

3.4.1 Distribuciones
Las nociones de distribución conjunta f X 1 X 2 KX n ( x1 , x 2 , K , x n ) ; distribuciones
marginales f X 1 ( x1 ), f X 2 ( x 2 ),..., f X n ( x n ) ; y condicionales f X i | X j ( xi | x j ) , son extensiones
directas del caso bivariado. En particular es importante:

Definición de Independencia.
X 1 , X 2 ,K, X n se dicen independientes si:
n
f X 1 X 2 KX n ( x1 , x 2 , K , x n ) = f X 1 ( x1 ) f X 2 ( x 2 ) K f X n ( x n ) ≡ ∏ fX j
(x j )
j =1
Nota
En verdad, se necesita que esta regla se cumpla con todos los subconjuntos de
componentes del vector, por ejemplo, debe cumplirse que
f X 1 X 2 ( x1 , x2 ) = f X1 ( x1 ) f X 2 ( x2 ); f X1 X 2 X 3 ( x1 , x 2 , x3 ) = f X 1 ( x1 ) f X 2 ( x 2 ) f X 3 ( x3 ); etc.

En términos de vector particionado se escribe

13
FORMULAS EST-241 ESTADISTICA INFERENCIAL Arturo Calderón G.
La función de distribución conjunta f X 1 X 2K X n ( x1 , x 2 , K , xn ) ≡ f X nx1 ( xnx1 ) ≡ f X 1 X 2 ( x1 , x2 ) ,
donde en la última expresión X 1 ∈ R p y X 2 ∈ R n − p son subvectores
La distribución marginal del subvector X 1 ∈ R p como
f X 1 ( x1 , K , x p ) ≡ f X px1 ( x px1 ) ≡ f X 1 ( x1 )
La distribución marginal del subvector X 2 ∈ R n − p como
f X 2 ( x p +1 , K , xn ) ≡ f X ( n − p ) x1 ( x( n − p ) x1 ) ≡ f X 2 ( x2 )
La distribución condicional del subvector X 1 ∈ R p , dado el subvector
f X 1 X 2 ( x1 , x 2 )
X 2 ∈ R n − p , como f X 1| X 2 ( x1 | x2 ) =
f X 2 ( x2 )
n− p
X1 ∈ R p
y X2 ∈R son independientes si f X 1 X 2 ( x1 , x 2 ) = f X 1 ( x1 ) f X 2 ( x2 ) ∀x1 ∀x 2

3.4.2 Valor Esperado


r
• Media Poblacional de la componente X de X µ j ≡ µ X j := E[ X j ]
j
r
• Varianza Poblacional de la componente X j de X σ 2j ≡ σ X2 j := V [ X j ] = E[( X j − µ j ) 2 ]
r
• Covarianza Poblacional entre las componentes X i y X i de X :
σ ij ≡ σ X i X j ≡ Cov( X i , X j ) := E[( X i − µi )( X j − µ j )]
σ ij
• Coeficiente de Correlación Lineal de Pearson entre X i y X i ρij ≡ ρ X i X j :=
σ iσ j
r
• Vector de Medias del vector (columna) X = ( X 1 , X 2 ,..., X n ) T :
 µ1 
 
µ 
µ Xr =  2 
M
 
 µ n  nx1
r
• Matriz de Varianza-covarianza del vector (columna) X = ( X 1 , X 2 ,..., X n )T :
 σ 12 σ 12 K σ 1n 
 
σ σ 22 K σ 2n 
Σ X = (σ ij )n×n =  21
M M L M 
 
σ L σ n2  nxn
 n1 σ n 2
n
• Varianza Total VT := tr ( Σ Xr ) = ∑ σ 2j
j =1

• Varianza Generalizada VG := Det (Σ Xr ) =| Σ Xr |


 X1 
 
• Vector de Medias del vector particionado X nx1 =  L  . Se define mediante
X 
 2
 E ( X 1 )   µ1   E( X1)   E ( X p +1 ) 
       
µ Xr = E ( X nx1 ) =  L  =  L  donde µ1 = E ( X 1 ) =  M  y µ 2 = E ( X 2 ) =  M 
 E ( X )  µ   E( X )  E( X )
 2   2  p   n− p 

14
FORMULAS EST-241 ESTADISTICA INFERENCIAL Arturo Calderón G.
 X1 
 
• Matriz de Varianza-covarianza del vector particionado X nx1 =L
X 
 2
 
 2
σ 1 σ 12 L σ 1 p 
  σ 1( p +1) L σ 1n 
  
 Σ11 Σ12  σ 2( p +1) L σ 2 n 
Σ X = (σ ij )n×n =   
donde Σ11 = σ 21 σ 2 L σ 2 p , Σ12 =
2  
 Σ 21 Σ 22  nxn    M M M 
 M M M  σ 
σ 2   p ( p +1) L σ pn 
 p1 σ p2 L σ p 

 
 σ ( p +1)1 L σ ( p +1) p   2
σ ( p +1)( p+1) σ ( p +1)( p +2 ) L σ ( p +1) n 

  
σ L σ ( p+2) p 
Σ 21 =  ( p + 2 )1 y Σ 22 =  σ ( p + 2 )( p +1) σ (2p +2 )( p + 2 ) L σ ( p + 2 ) n  . Nótese que Σ11 es
 M M M   
 σ   M M M 
 n1 L σ np 
 σ σ L σ 2 
 n ( p +1) n ( p+2) nn 

la matriz de varianza-covarianza de X 1 , Σ 22 la matriz de varianza-


covarianza de X 2 y Σ12 = Σ T21 es la matriz de covarianzas entre X 1 y X 2 .

Valor esperado de una matriz aleatoria


Sea M una matriz aleatoria de orden n × m , E (M ) = E ( M ij ) ( )
n×m
Propiedad
Si X n×1 es vector columna con vector de medias µ X y matriz de varianza
covarianza Σ X , entonces se cumple que Σ X = E ( X − µ X )( X − µ X ) . [ T
]
Propiedad
Si X 1 ∈ R p y X 2 ∈ R n − p son vectores aleatorios columna con vectores de medias
µ1 y µ 2 respectivamente, entonces la matriz de covarianza Σ12 satisface
Σ12 = E [( X 1 − µ1 )( X 2 − µ 2 ) T ] . Análogamente Σ 21 = E [( X 2 − µ 2 )( X 1 − µ1 ) T ]

Propiedad
Σ Xr es simétrica y semidefinida positiva, esto es Y T Σ Xr Y ≥ 0 para todo vector
no nulo Y ∈ R n

Proposición
r r r r r
Sea X vector aleatorio y sean H 1 ( X ), H 2 ( X ),..., H k ( X ) k funciones reales de X
(esto es H j : R n → R ). Sean α 1 , α 2 , L , α k constantes (o también variables pero no
k r k r
aleatorias), entonces se cumple E [ ∑α
j =1
j H j ( X )] = ∑ α j E[ H j ( X )]
j =1
Proposición
r r r r
Sea X vector aleatorio y sean H 1 ( X ), H 2 ( X ),..., H k ( X ) k funciones vectoriales de
r
X (esto es H j : R n → R m ). Sean α 1 , α 2 , L , α k constantes (o también variables,
k r k r
pero no aleatorias), entonces se cumple E [ ∑ α j H j ( X )] =∑ α j E[ H j ( X )]
j =1 j =1

15
FORMULAS EST-241 ESTADISTICA INFERENCIAL Arturo Calderón G.
Proposición
r r
Sea X vector aleatorio n-dimensional X 1 xn = ( X 1 , X 2 ,..., X n ) de componentes inde-
n n
pendientes entonces E[ ∏ H j ( X j )] = ∏ E[ H j ( X j )]
j =1 j =1
Corolario
r r
Sea X vector aleatorio n-dimensional X 1 xn = ( X 1 , X 2 ,..., X n ) tal que sus compo-
nentes son independientes, entonces se cumple σ ij = Cov( X i , X j ) = 0

Proposición
r r
Sea X vector aleatorio n-dimensional X1xn = ( X 1 , X 2 ,..., X n ) y sean α 1 , α 2 , L , α k
constantes (o también variables no aleatorias). Entonces:
n n n n
• E[ ∑ α j X j ] = ∑ α j E[ X j ] y V[ ∑ α j X j ] =∑ α 2j V [ X j ] + 2∑ α iα j Cov(X i , X j )
j =1 j =1 j =1 j =1 i< j
Corolario
n n
Si X 1 , X 2 ,..., X n son independientes, entonces E[ ∑ α j X j ] = ∑ α j E[ X j ] y
j =1 j =1
n n n n n n
V[ ∑ α j X j ] =∑ α 2j V [ X j ] . En particular E[∑ X j ] =∑ E[ X j ] y V[ ∑ X j]= ∑V [ X j ]
j =1 j =1 j =1 j =1 j =1 j =1
Nota:
n n
Si X 1 , X 2 ,..., X n son independientes, entonces E ( ∏ X j)= ∏ E( X j ) pero no ocurre lo
j =1 j =1
n n
mismo con las varianzas, esto es: V ( ∏ X j)≠ ∏V ( X j )
j =1 j =1
Proposición
Si Anxm es matriz constante (o no aleatoria) entonces E ( Anxm ) = Anxm

Proposición
Si Anxq es matriz de constante (o no aleatoria) y M qxm es matriz aleatoria
( ) ( )
entonces E Anxq M qxm = Anxq E M qxm . O en notación más simple E ( AM ) = AE (M ) .
Proposición
Si C pxm es matriz de constante (o no aleatoria) y M nxp es matriz aleatoria
( ) ( )
entonces E M nxp C pxm = E M nxp C pxm . O en notación más simple E (MC ) = E (M )C .
En general podemos escribir E ( AMC + B ) = AE (M )C + B donde A , B y C son
matrices no aleatorias y M es matriz aleatoria.

Proposición
r
Sea X nx1 vector columna con vector de medias µ Xr y matriz de varianza
r r r
covarianza Σ Xr . Sea Ymx1 otro vector tal que Ymx1 = Amxn X nx1 + Bmx1 donde Amxn y Bmx1
son no aleatorias. Entonces µYr = Aµ Xr + B y Σ Yr = AΣ Xr AT

Propiedad
r
Si X nx1 tiene componentes con distribución normal con vector de medias µ Xr y
r r r
matriz de varianza covarianza Σ Xr y Ymx1 = Amxn X + Bmx1 entonces Ymx1 tiene
componentes con distribución normal con µYr = Aµ Xr + B y Σ Yr = AΣ Xr AT

16
FORMULAS EST-241 ESTADISTICA INFERENCIAL Arturo Calderón G.
Fórmulas sobre Muestreo y Estadísticas
4.1.1 Población
Si X ~ f X ( x ) variable aleatoria con rango R X . La Población de X se define
como el conjunto {( x, f X ( x)) | x ∈ R X }.
4.1.2 Muestra Aleatoria
Si X es variable aleatoria, una muestra aleatoria de tamaño n (m.a.) es un
vector aleatorio n -dimensional ( X 1 , X 2 ,..., X n ) cuyas componentes representan el
proceso de repetir n veces, y de manera independiente, el experimento
aleatorio que genera a X , registrando los valores obtenidos.

Se cumple
• R X = R X j ; f X j ( x j ) = f X ( x j ) y F X j ( x j ) = FX ( x j ) ∀j
n
• f X1 X 2 K X n ( x1 , x 2 , K , x n ) = f X 1 ( x1 ) f X 2 ( x 2 ) K f X n ( x n ) = f X ( x1 ) f X ( x 2 ) K f X ( x n ) ≡ ∏ f X ( x j )
j =1

• X 1 , X 2 ,K, X n son independiente e idénticamente distribuidas, lo que se


denota i.i.d.

4.1.3 Estadística
Es una función h ( X 1 , X 2 ,..., X n ) que sólo depende de las componentes de la muestra
aleatoria ( X 1 , X 2 ,..., X n ) .

4.2 Propiedades de estadísticas importantes


n

∑X
j =1
j

• X := es la media muestral
n
n n

∑(X − X )2 ∑X − nX
2 2
j j
j =1 j =1
• S 2 := = es la varianza muestral
n −1 n −1
Propiedad 1
Si ( X 1 , X 2 ,..., X n ) es m.a. tomada de la población de una v.a. X con media µ y
σ2
varianza σ 2 , entonces E [ X ] = µ y V [ X ] =
n
Observación:
m2 k − ( m k ) 2
E ( M k ) = mk y V (M k )
n

Propiedad 2
E(S 2 ) = σ 2

Propiedad 3 (Ley de los Grandes Números para X )


Si ( X 1 , X 2 ,..., X n ) es m.a. tomada de la población de una v.a. X con media µ y
varianza σ 2 , entonces lim P (| X − µ |≤ ε ) = 1
n→∞

17
FORMULAS EST-241 ESTADISTICA INFERENCIAL Arturo Calderón G.
Propiedad 4 (Teorema Central del Límite para X )
Sea ( X 1 , X 2 ,..., X n ) m.a. tomada de la población de una v.a. X con media µ y
varianza σ 2
finitas, entonces si n es suficientemente grande (n ≥ 30) , se
X −µ X −µ
cumple que Z = = n( ) ~ N (0,1)
σ σ
n

4.3 Distribuciones Asociadas al Muestreo de una Distribución Normal


4.3.1 Distribución de X
Sea ( X 1 , X 2 ,..., X n ) m.a. tomada de la población de una v.a. X ~ N ( µ , σ 2 ) . En este
σ2
contexto se cumple que X ~ N ( µ , ) ∀n
n
4.3.2 Distribución asociada a S 2 .

Distribución Ji-Cuadrado χ 2 ( k ) y propiedades


k
Sea W v.a. con distribución Gamma Γ(α = , β = 2) donde k es entero positivo,
2
diremos entonces que W tiene distribución Ji-Cuadrado de parámetro k. Este
k
caso particular de la Gamma, se denota χ 2 ( k ) , i.e. χ 2 ( k ) ≡ Γ(α = , β = 2) . El
2
entero k es el único parámetro y se llama "Grados de libertad" de la dis-
tribución. Como se trata de un caso particular de la Gamma, tiene todas sus
propiedades:
k
−1
k w 2 e −w / 2
• f W (w) = Γ(α = , β = 2) = χ 2 ( k ) = k
W > 0
2 k
22 Γ( )
2
k
k k  1 2 1
• E [W ] = αβ = 2 = k , V [W ] = αβ 2 = 2 2 = 2k y M W (t ) =   si t <
2 2  1 − 2t  2

Propiedad 1 (Relación con la distribución normal estándar)


Si Z ~ N (0,1) y definimos W = Z 2 , entonces W ~ χ 2 ( k = 1)

Propiedad 2 (Propiedad Reproductiva)


Si W1 ~ χ 2 ( k1 ) y W2 ~ χ 2 ( k 2 ) son independientes entonces (W1 + W2 ) ~ χ 2 ( k = k 2 + k 2 )

Distribución asociada a S2
Si de una distribución normal N ( µ , σ 2 ) se toma una m.a. ( X 1 , X 2 ,..., X n ) de tamaño
n y W = (n − 1) S 2 / σ 2 , entonces W = (n − 1) S 2 / σ 2 ~ χ 2 (k = n − 1)

Distribución de S2
Si de una distribución normal N ( µ , σ 2 ) se toma una m.a. ( X 1 , X 2 ,..., X n ) de tamaño
n −1 2σ 2
n , entonces S 2 ~ Γ(α = ,β = )
2 n −1
Corolario:
2
 n − 1  2σ  2σ 4
2
 n − 1  2σ 
2
E [ S ] = αβ = 
2
 =σ 2
y V [ S 2
] = αβ 2
=   =
 2  n − 1   2  n − 1  n −1
18
FORMULAS EST-241 ESTADISTICA INFERENCIAL Arturo Calderón G.
4.4 Otras distribuciones importantes.

4.4.1 Distribución t de Student

Definición (Variable T de Student)


Sean Z ~ N (0,1) y W1 ~ χ 2 (k ) independientes. Se define la variable T , llamada
Z
variable t de Student, mediante: T =
W
k

Proposición (Distribución t de Student)


k +1
Γ( ) k +1
2 t2 − 2
La función de densidad de T es f T (t ) = (1 + ) −∞ <t <∞
k k
kπ Γ( )
2
siendo k parámetro de la distribución.

Propiedad
Si de una distribución normal N ( µ , σ 2 ) se toma una m.a. ( X 1 , X 2 ,..., X n ) de tamaño
( X − µ)
n y se define la variable t mediante t= entonces t ~ t (k = n − 1)
S
n
4.4.2 Distribución F de Fisher

Definición (Variable F )
Sean V con distribución χ 2 (k1 ) y W con distribución χ 2 (k 2 ) , variables inde-
V / k1
pendientes. Se define la variable F , mediante F = .
W / k2
Proposición (Distribución F de Fisher)
k1 + k 2 k1
Γ(
) k1 k2 2
−1
2 f
La función de densidad de F es g F ( f ) = k 2k 2 k1 + k2
, f >0
k1 k2 1 2
Γ( )Γ( ) (k1 + k 2 f ) 2
2 2
k1 es llamado "grados de libertad del numerador" y k 2 es llamado "grados de
libertad del denominador".
Notación: F ~ F (k1 , k 2 )

Propiedad
F tiene distribución F (k1 , k 2 ) si y sólo si 1 / F tiene distribución F (k 2 , k1 ) .
Propiedad
Sean Y1 con distribución N ( µ1 , σ 12 ) e Y1 con distribución N ( µ 2 , σ 22 ) y sean S12
y S 22 varianzas de respectivas muestras independientes de tamaños n y m .
S12 / σ 12
Entonces F := ~ F ( n − 1, m − 1) .
S 22 / σ 22
Propiedad
Si T ~ t ( k ) , entonces T 2 ~ F (1, k )

19
FORMULAS EST-241 ESTADISTICA INFERENCIAL Arturo Calderón G.
Fórmulas sobre Estimación Puntual
5.1 Definiciones básicas
Sea X ~ f X ( x; θ ) donde θ es parámetro o vector de parámetros de valor
desconocido.

Espacio Paramétrico Θ es el conjunto de valores posibles para θ

Espacio de Información Χ es el conjunto de todas las muestras posibles de


tamaño n ( X 1 , X 2 ,..., X n )

5.2 Estimador y Valor Estimado

Estimador
Un estimador de un parámetro θ es una estadística θˆ = θˆ( X 1 , X 2 ,..., X n ) cuyo valor
una vez tomada la m.a. se usa como aproximación de θ

Valor Estimado o Estimación


Es un valor particular del estimador θˆ = θˆ( X 1 , X 2 ,..., X n )

5.3 Propiedades de un Buen Estimador

5.3.1 Insesgamiento
θˆ se dice Insesgado si E (θˆ) = θ ∀θ ∈ Θ

5.3.2 Eficiencia
~
Sean θˆ y θˆ dos estimadores insesgados del mismo parámetro θ . Diremos que θˆ
~ ~
es más eficiente que θˆ si V (θˆ ) < V (θˆ )

Mejor Estimador Lineal Insesgado (MELI)


θˆ estimador de θ se dice Mejor Estimador Lineal Insesgado (MELI) de θ si:
n
(1) θˆ = ∑α j X j
j =1

(2) E [θˆ] = θ ∀θ ε Θ
(3) θˆ es de varianza mínima en relación a cualquier otro estimador lineal e
insesgado de θ

Construir el MELI equivale a resolver el Problema de optimización:


n n
Mín V ( ∑ α j X j ) s.a E ( ∑ α j X j ) = θ ∀θ ε Θ donde las incógnitas son las
αj
j =1 j =1

constantes α1,α2,...,αn.

5.3.3 Consistencia
Sea ( X 1 , X 2 ,..., X n ) m.a. de tamaño n y sea θˆ un estimador de θ. Diremos que θˆ
es Consistente si lim P(| θˆ − θ |≤ ε ) = 1 ∀ ε > 0
n→∞
En sentido estricto, como para cada n hay un estimador θˆ , debiera escribirse
θˆn y decirse que " θˆn = θˆ ( X 1 , X 2 ,..., X n ) es estimador consistente de θ si
lim P(| θˆn − θ |≤ ε ) = 1 ∀ ε > 0 "
n→∞

20
FORMULAS EST-241 ESTADISTICA INFERENCIAL Arturo Calderón G.
Proposición
Si θˆ es un estimador de θ tal que
(1) lim E (θˆ) = θ ( θˆ es "asintóticamente insesgado") y
n→∞
(2) lim V (θˆ) = 0 ( θˆ es "asintóticamente eficiente")
n→∞
Entonces θˆ un estimador consistente de θ.

Definición (Límite en Probabilidad)


Sea {Wn } una sucesión de variables aleatorias y sea C una constante. Se dice
que C es el límite en probabilidad de {Wn } , lo que se denota escribiendo
PlimWn = C , si lim P (| Wn − C |≤ ε ) = 1 ∀ ε > 0
n→∞

Propiedades:
Sean {Wn } y {V n } sucesiones tales que existen P lim Wn y P lim Vn entonces
1. P lim(Wn ± Vn ) = P lim Wn ± P lim Vn
2. P lim(Wn × Vn ) = P lim Wn × P lim Vn
3. P lim(Wn / Vn ) = P lim Wn / P lim Vn si P lim Vn ≠ 0

Proposición (Teorema de Slutsky)


Sea {Wn } sucesión tal que existe P lim Wn y sea g (t ) una función continua de
t . Entonces P lim g (Wn ) = g ( P lim Wn )

Nota: θˆ es estimador consistente de θ si y sólo si P lim θˆ = θ .

5.4 Métodos de Estimación

5.4.1 Método de Momentos

Definiciones Básicas
Sean X ~ f X ( x; θ ) una v.a. y θ = (θ1 , θ 2 ,..., θ p ) vector de parámetros por estimar. La
forma de f X ( x; θ ) no necesariamente es conocida.

Momentos Poblacionales
El k-ésimo momento poblacional mk se define mediante mk = E ( X k ) , si existe el
correspondiente valor esperado

Momentos Muestrales
Si ( X 1 , X 2 ,..., X n ) es m.a. tomada de la población de X , el k-ésimo momento
n

∑X
j =1
k
j

muestral, M k se define mediante M k =


n

Propiedad
M k es estimador insesgado de mk y si existe m2 k , además M k es estimador
Consistente de mk

21
FORMULAS EST-241 ESTADISTICA INFERENCIAL Arturo Calderón G.
Definición
Si mk es función de θ1 , θ 2 ,..., θ p , o sea mk = hk (θ1 , θ 2 ,..., θ p ) k = 1,2,..., p , de modo que
se cumple:

m1 = h1 (θ1 , θ 2 ,..., θ p )
m2 = h2 (θ1 , θ 2 ,..., θ p )
M
m p = h p (θ1 , θ 2 ,..., θ p )
Diremos que θˆ1 , θˆ2 ,... θˆp estimadores de θ1 , θ 2 ,..., θ p respectivamente, son estima-
dores obtenidos mediante el Método de Momentos, si son solución al sistema de
ecuaciones:

M 1 = h1 (θˆ1 , θˆ2 ,..., θˆp )


M 2 = h2 (θˆ1 , θˆ2 ,..., θˆp )
M
M p = h p (θˆ1 , θˆ2 ,..., θˆp )

5.4.2 Método de Máxima Verosimilitud

Función de Verosimilitud
Sea X ~ f X ( x; θ ) donde θ es parámetro o vector de parámetros de valor
desconocido, definimos la función de verosimilitud de θ , L(θ ) como la dis-
tribución conjunta de la muestra vista como función del parámetro θ . Es
n
decir L(θ ) = ∏ f X j ( x j ;θ ) θ ε Θ
j =1

Estimador de Máxima Verosimilitud


El estimador de θ obtenido por el Método de Máxima Verosimilitud, es el es-
timador θˆ que maximiza L(θ ) o sea θˆ es solución al problema:
Máx L(θ ) s.a θ ∈ Θ
θ
Nota:
L(θ ) y ln( L(θ )) tienen los mismos puntos críticos, pero ln( L(θ )) suele tener una
estructura más simple, por eso es común obtener el estimador MV de θ
maximizando ln( L(θ ) ) en lugar de L(θ ) . La función l (θ ) = ln( L(θ )) se llama
“función logverosimilitud”

5.4.3 Método de Mínimos Cuadrados

Supongamos a Y , X y ε tales que X es variable observable no aleatoria


("variable matemática"), Y es variable aleatoria observable y ε es variable
aleatoria no observable. Supongamos que estas variables están relacionadas
mediante la ecuación Y = ϕ ( X ; θ ) + ε , donde ϕ ( X ;θ ) es función bien especificada
(de forma conocida) y θ es un parámetro o vector de parámetros por estimar.
La función ϕ ( X ;θ ) puede considerarse una función de “enlace” entre la com-
ponente aleatoria Y del modelo y el residuo no sistemático y aleatorio ε .
También se dice que ϕ ( X ;θ ) es la “componente sistemática” del modelo y ε la
“componente aleatoria” del mismo.

22
FORMULAS EST-241 ESTADISTICA INFERENCIAL Arturo Calderón G.

Supuestos Clásicos
Dado el modelo Y = ϕ ( X ; θ ) + ε y una m.a. de n parejas de observaciones ( X 1 , Y1 ),
( X 2 , Y2 ),L, ( X n , Yn ) que satisfacen la correspondiente relación Y j = ϕ ( X j ;θ ) + ε j ,
asumiremos que:
(1) E (ε j ) = 0 ∀j
(2) V (ε j ) = σ 2 ∀j (Homogeneidad de varianzas u Homocedasticidad)
(3) Cov(ε i , ε j ) = 0 ∀i ≠ j (No autocorrelación)
(4) ϕ ( X ;θ ) es una función sin error de especificación (de forma conocida y
correcta)
(5) X j es variable no aleatoria o siéndolo tiene sus valores ya dados.

Definición (Estimador de Mínimos Cuadrados Ordinarios MCO o LS)


Bajo los supuestos (1) a (5), definimos el estimador θˆ obtenido mediante el
Método de Mínimos Cuadrados Ordinarios (MCO) como el valor θˆ que es solución
al problema:

[ ]
n
Mín Q (θ ) = ∑ Y j − ϕ ( X j ;θ ) s.a θ ∈ Θ
2

θ j =1

Modelo de Regresión Lineal sin intercepto Y j = θX j + ε j .


n
∑ X jY j
j =1
θˆ = n
es el estimador MCO de θ
∑X 2
j
j =1

Modelo de Regresión Lineal con intercepto Y j = α + βX j + ε j .


n
∑ X jY j − n X Y
j =1
Los estimadores MCO de β y α son respectivamente β̂ = n
y
∑X
2
2
j − nX
j =1

αˆ = Y − βˆ X

Fórmulas alternativas para β̂ y α̂


n n n
 
∑ X jY j − n X Y ∑ ( X j − X )Y j ∑ ( X j − X )(Y j −Y ) n

 (X j − X )


j =1 j =1 j =1
• β̂ = n
= n
= n
= ∑ n Y j
∑ X 2j − n X ∑( X j − X )2 ∑( X j − X )2 ∑ j
j =1  
2
( X − X )2

j =1 j =1 j =1  j =1 
n n
Y ∑ X 2 − X ∑ X jY j
j =1 j =1
• α̂ = n
∑ X 2j − n X
2

j =1

23
FORMULAS EST-241 ESTADISTICA INFERENCIAL Arturo Calderón G.
Proposición (Teorema de Gauss-Markov)
En el modelo Y j = α + βX j + ε j y bajo los supuestos clásicos, los estimadores MCO α̂ y β̂
son MELI de α y β respectivamente.

Observación: Mejor Estimador Lineal Afín


n
Un estimador de forma c0 + ∑c Y
j =1
j j (“función lineal afín”) donde c0 se convierte

en una incógnita más del problema. Por lo general en el MELI con una función
lineal afín, resulta que c0 =0 y por tanto es irrelevante la distinción entre
n n
función lineal ∑c Y
j =1
j j y función lineal afín c0 + ∑c Y
j =1
j j , pero para ciertos mo-

delos pueden presentarse diferencias y estimadores distintos.

5.4.4 Propiedades adicionales de estimadores


Invarianza
~
Sean θ ∈ R p y γ ∈ R q ( q ≤ p ) parámetros tales que γ = h(θ ) . Sean θ y γ~ estima-
dores de θ y γ respectivamente, obtenidos mediante un método M. Diremos que
~
el método M tiene la propiedad de invarianza si se cumple γ~ = h(θ )

Propiedad 1
En el contexto de la definición anterior, si la función γ = h(θ ) además tiene
inversa θ = h −1 (γ ) , entonces los métodos de Momentos, Máxima Verosimilitud y
Mínimos Cuadrados tienen la propiedad de invarianza.

Propiedad 2
En general, el método de Máxima Verosimilitud tiene la propiedad de
invarianza, esto es, si θ ∈ R p y γ ∈ R q ( q ≤ p ) son parámetros tales que
γ = h(θ ) y θ~MV y γ~MV son los estimadores máximo verosímiles de θ y
γ respectivamente, entonces se cumple que γ~MV = h(θ~MV )

Distribución Asintótica del Estimador Máximo Verosímil


Sea X v.a. con distribución f X ( x;θ ) con θ ε Θ y sea θˆ el estimador Máximo
verosímil de θ. Entonces, bajo las “condiciones de regularidad” R1 a R6,

R1: Si .
R2: no depende de .
R3: El verdadero valor de es “punto interior” del espacio paramétrico .
R4: es función tres veces diferenciable de (
R5:
R6: donde es una función definida en un entorno del
verdadero valor de :
Si el tamaño de muestra n es grande, θˆ tiene distribución normal: θˆ ~ N (θ ,σ θ2ˆ ) donde
−1
 ∂ 
σ θ2ˆ = nE[( ln f X ( x;θ )) 2 ] .
 ∂θ 

Corolario
Bajo las condiciones de regularidad, el estimador MV θˆ de θ es consistente y
asintóticamente insesgado.
24
FORMULAS EST-241 ESTADISTICA INFERENCIAL Arturo Calderón G.

Fórmulas sobre Intervalos de Confianza

6.1 Definición de Intervalos de Confianza

Sea θ un parámetro, sean L1 y L2 dos estadísticos y sea (1 − α ) una proba-


bilidad conocida. Diremos que [L1 , L2 ] es un Intervalo de Confianza (I.C.) para
θ al nivel de 100(1 − α )% de Confianza, si se cumple P( L1 ≤ θ ≤ L2 ) = 1 − α ∀θ ∈ Θ

Observación:
También se suele presentar el I.C. escribiendo lo siguiente:

L1 ≤ θ ≤ L2 100(1- α)% de Confianza

La construcción de un I.C. busca encontrar un intervalo que tenga alta pro-


α y que a la vez sea de longitud mínima.
babilidad 1-α

6.2 Metodología (Método de la Variable Base)

Sea X ~ f X ( x; θ ) y sea ( X 1 , X 2 ,..., X n ) m.a. tomada de la población de X . Dado un


nivel de confianza (1 − α ) , para construir un Intervalo de Confianza para θ :

(a) Determinar una variable base W = W ( X 1 , X 2 ,..., X n ;θ ) cuya estructura con-


tenga al parámetro θ pero cuya distribución g W ( w) no dependa de θ

(b) Buscar en la distribución de W dos valores a y b tales que:

P (W ( X 1 , X 2 ,..., X n ;θ ) ≤ a ) = α / 2 = P (W ( X 1 , X 2 ,..., X n ;θ ) > b) y por tanto se cumpla


P (a ≤ W ( X 1 , X 2 ,..., X n ;θ ) ≤ b) = 1 − α

(c) Dentro de la probabilidad anterior, despejar θ del interior del


intervalo, de modo que se cumpla:

P (a ≤ W ( X 1 , X 2 ,..., X n ;θ ) ≤ b) = P ( L1 ( X 1 , X 2 ,..., X n ; a, b) ≤ θ ≤ L2 ( X 1 , X 2 ,..., X n ; a, b)) = 1 − α

Entonces el Intervalo de Confianza para θ al nivel 100(1-α


α)% es

[L1 ( X 1 , X 2 ,..., X n ; a, b), L2 ( X 1 , X 2 ,..., X n ; a, b)]


y se escribe

L1 ( X 1 , X 2 ,..., X n ; a, b) ≤ θ ≤ L2 ( X 1 , X 2 ,..., X n ; a, b) al 100(1-α


α)% de Confianza

25
FORMULAS EST-241 ESTADISTICA INFERENCIAL Arturo Calderón G.
Fórmulas sobre Prueba o Contraste de Hipótesis
7.1 Elementos

Hipótesis Estadística
Es una afirmación acerca de la distribución poblacional asociada a una varia-
ble X . La denotamos mediante H .

Hipótesis Simple: Si H especifica totalmente la distribución de X


Hipótesis Compuesta: Si H no especifica totalmente la distribución de X

Contraste Estadístico o Prueba de Hipótesis


Un sistema de análisis a partir del cual se toma la decisión de aceptar ó
rechazar una hipótesis estadística H 0 , mediante el análisis de una(s)
muestra(s) aleatoria(s).

Hipótesis Planteada o Nula


Es aquella que se somete a prueba. La denotamos H 0 ,

Hipótesis Alterna
Es aquella que nos queda si se rechaza H 0 . Esta hipótesis se denotará H 1 .

Normalmente H1 es el complemento de H 0 , dentro del contexto de inves-


tigación.

Región Crítica
Denotada C , es un evento cuya ocurrencia conduce al rechazo de H0.

Error Tipo I
Es el error que se produce si se rechaza H 0 injustamente siendo verdadera)

Error Tipo II
Es el error que se produce si se acepta H 0 siendo falsa

Metodología general

Identificar un Tomar la
Asumir H0 como evento C muestra y
verdadera Muy poco probable si H0 ver si
es cierta ocurre C


Rechazar H0 ¿Ocurre C?

No

Aceptar H0

26
FORMULAS EST-241 ESTADISTICA INFERENCIAL Arturo Calderón G.
Dada una región crítica C , es posible cometer ó el Error I ó el Error II. La
probabilidad del Error I se denota α , y la probabilidad del Error II se
denota β , esto es:

α = P( ErrorI ) = P(C | H 0 es verdadera) . Esta probabilidad α se llama también


"Nivel de Significación del contraste" y mide el tamaño probabilístico de la
región crítica

β = P( ErrorII ) = P(C c | H 0 es falsa )

1 − β = 1 − P ( ErrorII ) = 1 − P (C c | H 0 es falsa ) se llama “Potencia o poder del


contraste”.

Nota:
(1) α es apropiado si es menor o igual que 0.05 (o no mayor que 5%)
(2) La región C se construye en términos de algún estadístico, llamado
“estadístico de contraste”.

Región Crítica Óptima


Una región crítica C se dice "óptima" si para un nivel α dado, minimiza la
probabilidad β . Las regiones críticas que figuran en los textos y/o paquetes
estadísticos son optimas.

Aunque α y β no son complementarios, sí se puede demostrar que dado un


tamaño de muestra n, α y β van en sentidos contrarios: O sea, si reducimos α
entonces β "crece". Por eso, si deseamos que ambas probabilidades sean
pequeñas, debemos hacer crecer el tamaño de muestra.

Se recomienda escribir la hipótesis de investigación como H 1 y su negación


como H 0 .

7.2 Hipótesis Simples vs Hipótesis Simples: Teorema de Neyman-Pearson

Sea X ~ f X ( x;θ ) y supongamos que sólo hay dos valores posibles para θ : θ = θ 0
o θ = θ1 y tenemos que decidir entre una de las posibilidades. Si escribimos
H 0 : θ = θ 0 y H 1 : θ = θ1 , estamos ante el caso de H 0 simple vs H 1 simple.

Supongamos ahora que el tamaño de muestra n es dado y que hemos fijado una
probabilidad α conocida para el Error I.

Teorema de Neyman-Pearson
En el contexto anterior, la Región Crítica Optima C , o sea aquella que
fijada la probabilidad α de Error I, minimiza la probabilidad β de Error
II, es de la forma:

 L(θ = θ1 ) 
C = ( X 1 , X 2 ,..., X n ) | ≥ k
 L(θ = θ 0 ) 

donde k satisface la ecuación

 L(θ = θ1 ) 
P ≥ k | H0 es verdadera  = α
 L(θ = θ 0 ) 

27
FORMULAS EST-241 ESTADISTICA INFERENCIAL Arturo Calderón G.
7.3 Hipótesis Simples vs Hipótesis Compuestas: Pruebas Uniformemente
Más Poderosas UMP

Sea X ~ f X ( x;θ ) y supongamos que deseamos contrastar H 0 : θ = θ 0 vs H 1 : θ ∈ ω


donde ω es un conjunto conocido de valores alternativos para θ . Estamos ante
el caso de H0 simple vs H1 compuesta.

Supongamos ahora que el tamaño de muestra n es dado y que hemos fijado una
probabilidad α conocida para el Error I.

Para esta situación no existe un teorema como el de Neyman-Pearson que nos


proporcione una región crítica C óptima que minimice la probabilidad β de
Error II, pues esto depende de cómo es ω

Hipótesis Pseudospimple: Se define mediante H 1 : θ = θ1 (θ1 ∈ ω )


En este contexto H 0 : θ = θ 0 vs H 1 : θ ∈ ω y H 0 : θ = θ 0 vs H 1 : θ = θ1
(θ1 ∈ ω ) son
equivalentes y podemos aplicar el T. de Neyman-Pearson al juego anterior,
donde θ1 es un valor genérico de ω . Sea C (θ1 ) la región crítica obtenida y
supongamos que su construcción es uniformemente válida para todo θ1 ∈ ω . En
este caso podemos garantizar que C es una región uniformemente óptima
(óptima en todas las circunstancias). Este tipo de región crítica se llama
Región Crítica Uniformemente Optima o Uniformemente Más Poderosa (UMP)

Región Crítica Uniformemente Optima (UMP)


Sea X ~ f X ( x;θ ) y sea el juego de hipótesis H 0 : θ = θ 0 vs H 1 : θ ∈ ω donde θ 0 y
ω son conocidos, siendo ω un conjunto de valores alternativos para θ .

Una región crítica C es Uniformemente Optima (o Uniformemente Más Poderosa)


si dado un Nivel α predeterminado y dado un tamaño de nuestra n , la Región
Crítica C satisface el Teorema de Neyman-Pearson para todo θ ∈ ω , no
dependiendo su forma del valor elegido de θ en ω.

Nota
• Si C es UMP, entonces P ( ErrorI ) = P (C | H 0 es verdadera) ≤ α y
β = P( ErrorII ) = P(C | H 0
c
es falsa ) es mínima ∀θ1 ∈ ϖ
• No siempre existe la R.C. UMP

28
FORMULAS EST-241 ESTADISTICA INFERENCIAL Arturo Calderón G.
7.4 Hipótesis Compuestas vs Hipótesis Compuestas: Test de Razón de
Verosimilitud

Este sistema de generar regiones críticas es bastante general y se aplica


cuando no podemos generar una región crítica UMP.

Sea X ~ f X ( x;θ ) sobre la cual tenemos la hipótesis nula H 0 : θ ∈ ω 0 vs la


hipótesis alterna H 1 : θ ∈ ω 0c (donde ω0 es un conjunto bien definido y ω0c es
su complemento.
) )
Sea θ0 el estimador MV de θ bajo H 0 : θ ∈ ω 0 o sea θ0 maximiza L(θ ) sobre
n
θ ∈ ω0 . La probabilidad de la m.a. bajo H0 es L(θ̂ 0 ) = ∏ f X (x j ; θ̂ 0 )
j=1
)
Sea θ el estimador MV de θ en general, o sea sobre θ ∈ ω 0 ∪ ω 0c . La proba-
n
bilidad de la m.a. es L(θ̂) = ∏f
j =1
X (x j ; θ̂)

Definición (Razón de verosimilitud)


L(θ̂ 0 )
El cociente o "razón de verosimilitud" es λ= . Se cumple que
L(θ̂)
L(θ̂ 0 )
0≤ ≤ 1.
L(θ̂)
Nota: Si H 0 : θ ∈ ω 0 es cierta, esperamos que λ ≅ 1

Definición (Región crítica de Razón de verosimilitud)


La región crítica de Razón de Verosimilitud C se define como el evento
L(θ̂ 0 ) L(θ̂ 0 )
C = {( X 1 , X 2 ,..., X n ) | λ = ≤ λ0 } tal que λ0 satisface P( ≤ λ0 | θ ∈ ω 0 ) = α
L(θ̂) L(θ̂)

Este test se llama "Test de Razón de Verosimilitud"

Propiedad
Si n es "grande" y H 0 : θ ∈ ω 0 es verdadera, entonces − 2 ln(λ ) ~ χ 2 (r ) donde r
es el número de parámetros especificado por H 0 : θ ∈ ω 0 . Esta propiedad puede
usarse para hallar el valor λ0 de determina la zona de rechazo en este test.

29
FORMULAS EST-241 ESTADISTICA INFERENCIAL Arturo Calderón G.
Fórmulas sobre Modelo de regresión lineal simple
8.1 Uso del modelo de regresión lineal simple
Cuando salvo variaciones aleatorias, una determinada variable cuantitativa X
condiciona a otra variable cuantitativa Y de modo que cambios en X inducen
cambios proporcionales en Y.

Geométricamente lo anterior equivale a que en un plano cartesiano XY, las


parejas de valores (X,Y) siguen una trayectoria rectilínea.
Algebraicamente la proporcionalidad equivale a que X e Y satisfacen la
ecuación Y = α + βX + ε donde α y β son constantes características o sea son
“parámetros” y es una variación aleatoria debida a que los agentes
económicos no siempre tienen el mismo comportamiento.

8.2 Supuestos y parámetros del modelo lineal simple


Dado el modelo Y j = α + βX j + ε j , evaluado en una muestra aleatoria de n parejas
( X 1 , Y1 ), ( X 2 , Y2 ), L , ( X n , Yn ) asumimos que:
(a) E (ε j ) = 0 ∀j
(b) V (ε j ) = σ 2 = constante ∀j
(c) ρ ε jε j ' = 0 ∀j ∀j '
(d) X es de valores predeterminados, medidos antes de registrar los valores
de Y .
Los supuestos implican que E(Y ) = α + βX y V (Y ) = σ 2

Parámetros del modelo


• La constante α , es el valor esperado o promedio de Y cuando X es cero.
• La constante β , llamada la “pendiente” de la recta mide en cuántas uni-
dades se espera que varíe Y cuando X aumenta en 1 unidad.
• σ 2 es la varianza del azar representado por el residuo aleatorio ε ; σ es
la variación promedio arriba o debajo de la recta Y = α + βX + ε { {
Efecto de X Efecto de azar
8.3 Los estimadores de mínimos cuadrados ordinarios (OLS)
Se obtienen aplicando el método de mínimos cuadrados a la función objetivo

[ ]2 que
n
Q (α , β ) = ∑ Y j − α − βX j generan las “ecuaciones normales”:
j =1

 n nX  α  nY 
    n 
 =  X Y 
n
2 
 n X ∑ X 
  ∑

j  β j j
 j =1   j =1 
 n nX  α  nY 
    n 
X j  β   ∑ X jY j  ⇔
=
n
• 2  
Los estimadores satisfacen  n X
 ∑  
 j =1   j =1 
n

∑X Y
j =1
j j − nXY
βˆ = n
; αˆ = Y − βˆ X
∑X − nX
2 2
j
j =1

Estos mismos estimadores se obtienen aplicando Máxima Verosimilitud, bajo el


supuesto adicional ε ~ N (0, σ 2 ) .
n

∑ εˆ 2
j
• La predicción de E (Y ) es Yˆ = αˆ + βˆX o Yˆj = αˆ + βˆX j ; εˆ j = Y j − Yˆj y σˆ 2 = S ε2 = j =1
,
n−2
30
FORMULAS EST-241 ESTADISTICA INFERENCIAL Arturo Calderón G.
• βˆ es una estimación y su "error de estimación” cuadrático es
σˆ 2
S β2ˆ1 = n
y el Error Estándar de estimación de βˆ es
∑X − nX
2 2
j
j =1

σˆ 2 σˆ 2
e.e.( βˆ ) ≡ S βˆ = = .
n
( n − 1) S X2
∑X − nX
2 2
j
j =1

8.4 Ajuste del Modelo


Se mide qué tan bien son representa el modelo a los datos.

• Con la correlación R = rYYˆ aunque no mide exactamente la coincidencia, pues


la correlación de Pearson mide asociación, no necesariamente coincidencia.
• Con el Coeficiente R2
∑ (Yˆ −Y)
n
2
j
SCR j =1 Variabilidad en Y generada por X
R2 = = n
=
SCT Variabilidad total en Y
∑ (Y
j =1
j − Y )2

R2 mide la proporción de la variabilidad total en Y que es "explicada" o


atribuible a las diferencias en la variable independiente X a través de la
regresión. Es la proporción de diferencias en Y que se deben a las diferen-
cias en X .
Equivalentemente 100R 2 % es el porcentaje de variabilidad (por extensión,
también se dice "% de la varianza") de Y explicada por el modelo.

Nota: Estimación de la correlación de Pearson ρ XY


Se puede probar que una estimación consistente de la correlación de Pearson
ρ XY entre dos variables aleatorias X e Y es
n n

∑ (Y j − Y )( X j − X )
j =1
∑X Yj =1
j j − nXY
ρˆ XY ≡ rXY = = .
(n − 1) S X SY (n − 1) S X SY
Relación entre rXY , βˆ y R
2

rXY SY
• β̂ =
SX
n
r S
• SCR = βˆ ∑ (Y j − Y )( X j − X ) = XY Y × rXY (n − 1)S X SY = rXY
2
(n − 1)SY2
j =1 S X
2
SCR rXY ( n − 1) S Y2
• R2 = = = rXY
2
,
SCT ( n − 1) S Y2

• SCE = SCT − SCR= (n − 1)SY2 [1 − rXY


2
]

8.5 Contrastes en el Análisis de Regresión.


Si asumimos ε j ~ N (0, σ 2 ) además de los supuestos clásicos, tenemos
Proposición 1
σ2
(a) βˆ ~ N ( β1 , σ ) donde
2
βˆ1
σ 2
βˆ1 = n

∑X − nX
2 2
j
j =1

(b) W = (n − 2)σˆ / σ ~ χ (n − 2) . Es decir SCE / σ ~ χ 2 (n − 2)


2 2 2 2

31
FORMULAS EST-241 ESTADISTICA INFERENCIAL Arturo Calderón G.
Proposición 2

( βˆ1 − β1 ) σˆ 2
t= ~ t (n − 2) donde S βˆ = n
S βˆ1 1

∑X − nX
2 2
j
j =1

8.5.1 Contraste general sobre β


Para contrastar H0 : β = b donde b es un valor hipotético predeterminado, con-
tra las distintas alternativas H 1 uni o bilaterales, alicando variantes del
Teorema de Neyman-Pearson se llega a:
( βˆ − β )
Como en general t = ~ t ( n − 2) , entonces si H0 : β1 = b es cierta, el estadís-
S βˆ1

tico t = ( β1 − b) ~ t (n − 2) y E (t ) = 0 . Entonces un valor de t muy alejado de cero es buena razón para


ˆ
S βˆ1
rechazar H 0 : β = b .
Considerando “muy alejados” de cero a los valores de t que tienen probabili-
dad menor que un nivel de significación α (no confundir con el intercepto del
modelo!) predeterminado, llegamos a:

Hipótesis Nula Hipótesis Alterna Rechazar H 0 si Tipo de contraste


H1 : β > b t > t1− α Unilateral derecho

H0 : β = b H1 : β < b t < −t1−α Unilateral izquierdo

H1 : β ≠ b | t |> t1−α / 2 Bilateral


t1−α y t1−α / 2 percentiles 1 − α y 1 − α / 2 de la tabla t de Student: t(k=n-2)

8.5.2 Contraste de coeficiente nulo H 0 : β = 0


H 0 : β = 0 equivale a decir que Y no depende de X . El estadístico de contraste es
t = βˆ / S βˆ 1
Hipótesis Nula Hipótesis Alterna Rechazar H 0 si Tipo de contraste
H1 : β > 0 t > t1− α Unilateral derecho

H0 : β = 0 H1 : β < 0 t < −t1−α Unilateral izquierdo

H1 : β ≠ 0 | t |> t1−α / 2 Bilateral


t1−α y t1−α / 2 percentiles 1 − α y 1 − α / 2 de la tabla t de Student: t(k=n-2)

Nota:
rXY SY
Como β̂ = y es posible pasar de un coeficiente a otro, entonces el con-
SX
traste de H 0 : β = 0 es equivalente al de H 0 : ρ XY = 0 y al de H 0 : R = 0
2

La consecuencia es que las hipótesis H 0 : β = 0 , H 0 : ρ XY = 0 y H 0 : R 2 = 0 son to-


das equivalentes.

32

También podría gustarte