Fórmulas Estadística Inferencial PDF

FORMULAS EST-241 ESTADISTICA INFERENCIAL Arturo Calderón G.
Fórmulas sobre Probabilidad y Variable Aleatoria

1. Probabilidad
1.1 σ-álgebra de eventos
Dado un espacio muestral S y una familia A de subconjunto de S, esta familia

será llamada σ-álgebra de eventos si tiene las propiedades siguientes:
A1) Si A ∈ A ⇒ AC ∈ A
(A
A 2) ∅ ∈ A
(A
A3) Si A1 , A2 , L , Ak , L es cualquier sucesión numerable de eventos en A, enton-
(A
∞
ces UA k ∈A
k =1
Propiedad 1 S ∈ Ad
Propiedad 2 Si A1 , A2 , L , AN es una sucesión finita de eventos en A, entonces

N
UA k ∈A
k =1
Propiedad 3 Si A1 , A2 , L , Ak , L es cualquier sucesión numerable de eventos en A,

∞
entonces IA k ∈A
k =1
Propiedad 4 Si A1 , A2 , L , AN es una sucesión finita de eventos en A, entonces

N
IA k ∈A
k =1
A1) a (A
Una familia definida según (A A3), contiene a todos los eventos que po-
damos construir por unión e intersección de conjuntos, o sea A es “cerrada”
bajo estas operaciones.
1.2 Definición Axiomática de Probabilidad (Axiomas de Kolmogorov)

Sea S un espacio muestral asociado a un experimento aleatorio ε, y sea A una
σ-álgebra de eventos en S. Una probabilidad P definida sobre los eventos de S
es una función que a cada evento A de la σ-álgebra, le asigna un número real,
denotado P(A) y llamado Probabilidad de A, de modo que se satisfacen los
axiomas:
(1) 0 ≤ P ( A)
(2) P( S ) = 1
(3) Si A1, A2,... An,... es una sucesión de eventos mutuamente excluyentes,
entonces
∞ ∞
P (∪ Ai ) = ∑ P ( Ai )
i =1
i =1
Propiedades de la Probabilidad
Proposición 1: P (∅) = 0
Proposición 2: Si A1, A2,... AN es una sucesión de N eventos mutuamente exclu-
yentes, entonces
N N
P (∪ Ai ) = ∑ P ( Ai )
i =1
i =1
1
Proposición 3: P ( A) + P ( A ) = 1
C
Proposición 4: Si A y B son eventos arbitrarios, entonces:

P ( A ∪ B ) = P ( A) + P ( B ) − P ( A ∩ B )
Proposición 5: Si A y B son eventos tales que A ⊆ B , entonces:
P ( A) ≤ P (B)
Corolario: En el contexto de la proposición anterior, se cumple:
0 ≤ P ( A) ≤ P ( B ) ≤ 1
1.3 Probabilidad Geométrica

Sea un experimento aleatorio ε consistente en tomar un punto al azar de un
conjunto geométrico S que tiene una medida m( S ) y sea A un evento del
espacio muestral resultante. Si m( A) denota la medida de este evento,
entonces la probabilidad de A es:
m( A)
P ( A) =
m( S )
1.4 Reglas de Conteo
• Principio de la Multiplicación
Si una ‘operación’ A puede realizarse u ocurrir de a maneras diferentes y
otra ‘operación’ B puede realizarse de b maneras diferentes, entonces la
operación compuesta AXB consistente en realizar A primero y luego realizar B,
se puede realizar de (axb) maneras distintas.
• Principio de la Adición
Si una ‘operación’ A puede realizarse u ocurrir de a maneras diferentes y
otra ‘operación’ B puede realizarse de b maneras diferentes, siendo ambas
operaciones excluyentes, entonces la operación compuesta A ó B consistente en
realizar A o realizar B pero no ambas, se puede realizar de (a+b) maneras
distintas.
Permutaciones y Combinaciones
Factorial de un entero N ! = N × ( N − 1) × ( N − 2) × ... × 3 × 2 × 1. Adicionalmente definimos

0!= 1!
Proposición
El número total de Permutaciones de tamaño r tomadas de un conjunto con n
elementos distintos es: Prn = n! /( n − r )!
Proposición
El número total de de Combinaciones (subconjuntos) de tamaño r formadas a
partir de un conjunto con n elementos es C r = n! (n − r )! r!
n
∞ ∞
r 1
−1 < r < r ⇒ ∑r = ∑rk =
k
Serie geométrica: Si y
k =1 1− r k =0 1− r
n
Binomio de Newton: (a + b) n = ∑ C kn a k b n − k
k =0
P ( B ∩ A)
1.5 Probabilidad Condicional P (B | A) = = la probabilidad de B cuando S
P ( A)
se reduce al evento A.
Regla del Producto P ( A ∩ B ) = P ( B | A) P ( A) y P ( A ∩ B ∩ C ) = P (C | A ∩ B ) P ( B | A) P ( A)

2
1.6 Independencia Dos eventos A y B se dicen Independientes si y sólo se
cumple que P ( A ∩ B ) = P ( A) P ( B )
1.7 Probabilidad Total

Sean A1 , A 2 ,..., A N eventos mutuamente excluyentes, todos con probabilidad
positiva y tales que ∪ A j = S . Sea B otro evento de S. Entonces se cumple:
j
P (B ) = ∑ (B | A )P(A )
j
j j
1.8 Teorema de Bayes

En el contexto del Teorema de Probabilidad Total, si además P(B)>0, entonces
se cumple:
P (B | A k )P ( A k )
P ( Ak | B ) =
∑ P (B|A )P (A )
j
j j
∀ k
2. Variable Aleatoria
2.1 Definición Si S es un espacio muestral, una variable aleatoria X ,

definida sobre S , es una función cuyo dominio es S y cuyo rango es un
conjunto de números reales que denotaremos R X .
2.1.2 Clasificación
Según R X de una variable aleatoria X es Continua si R X es un intervalo y
X es Discreta Si R X es un conjunto finito o numerable
2.2 Función de Probabilidad PX (x)
Si X es v.a. discreta, la función de probabilidad de X , es PX ( x) = P ( X = x)
Propiedades de PX (x) .
(a) 0 ≤ PX ( x ) ≤ 1 ∀x
(b) ∑ P (x ) = 1
x∈R X
X donde x ∈ R X indica que la suma se hace sobre todos los x que
pertenecen a R X
(c) P( X ∈ A) = ∑ P (x )
X ∀A ⊆ R X
x∈A
2.3 Función de Densidad

Si X es una v.a. continua, una función de densidad de X, denotada f X ( x) , es
una función no negativa y continua, tal que para todo intervalo ]a, b] ⊆ R X ]
se cumple:
b
P (a < X ≤ b ) = ∫ f X ( x)dx
a
Propiedades.
(a) 0 ≤ f X ( x ) ∀x
+∞
(b) ∫f
−∞
X ( x)dx = ∫f
RX
X ( x)dx = 1
(c) P( X ∈ A) = ∫ f X ( x)dx
A
3
2.4 Función de Distribución Acumulativa
Si X es una v.a., se define la Función de Distribución Acumulativa de X ,
denotada FX , mediante FX ( x ) = P ( X ≤ x) ∀x real
Propiedades de FX(x)
(1) 0 ≤ FX (t ) ≤ 1 para todo t real.
(2) a < b ⇒ FX (a ) ≤ FX (b )
(3) FX es continua a la derecha (‘diestro continua’), ie.
FX (t ) = Lim+ Fx (t + h ) para todo t real
h →0
(4) Lim Fx (t ) = 0 y Lim Fx (t ) = 0

t →−∞ t →+∞
(5) P[a < X ≤ b] = FX (b ) − FX (a )

(6) P[ X = b ] = FX (b ) − Lim
+
Fx (b + h )
h→0
Propiedades adicionales:
(1) Si X es discreta, entonces F X (b) = ∑ PX ( x)
x j | x j ≤b
t
(2) Si X es continua, entonces ∫-∞
f X ( x )dx = FX (t ) para todo t real
• Si X es discreta con RX = { x1,x2,...,xN-1,xN...} donde x1<x2<...<xN-1<xN..

N
Entonces FX(xN) = ΣPX(xj) y también PX(xN) = FX(xN)- FX(xN-1)
j=1
• Si X es continua, entonces fX(x) = F’X(x)
2.5 Valor Esperado o Esperanza Matemática

Sea X variable aleatoria y H ( X ) una función de X :
∑ H ( x)P X ( x) si X es Discreta
E [H ( X )] = { x ∈ RX
+∞
∫−∞
H ( x ) f X ( x )dx si X es Continua
La Media Poblacional µ = µ X = E ( X )
La Varianza Poblacional σ 2 = σ X2 = V ( X ) := E[( X − µ X ) 2 ]
Desigualdad de Tchebychev
X v.a. con media µ X y desviación estándar σ X . Sea k una constante positiva
dada, entonces:
1
P[| X − µ X |< kσ X ] ≥ 1 − 2
k
Propiedad 1 E (c ) = c .
Propiedad 2 E [aH 1 ( X ) + bH 2 ( X )] = aE [H 1 ( X )] + bE [H 2 ( X )] .
Corolarios
(1) V ( X ) = E ( X 2 ) − µ X2 .
(2) Si Y = a + bX ∀X , entonces E (Y ) = a + bE ( X ) y V (Y ) = b 2V ( X ) .
Función Generatriz de Momentos M X (t ) = E (e )

tX
4
Propiedades
(1) M X
(k )
(0) = E ( X k ) , si existe el valor esperado
(2) X e Y variable aleatorias, entonces M X (t ) = M Y (t ) ⇔ FX = FY

Cálculo del valor esperado por desarrollo asintótico
Sea X v.a. con E ( X ) = µ y V ( X ) = σ 2 . Sea H ( X ) función al menos dos veces
diferenciable en X = µ . Entonces se cumplen:
H '' ( µ ) 2
a) E [ H ( X )] ≅ H ( µ ) + σ
2
b) [
V [ H ( X )] ≅ H ' ( µ ) σ 2 ]2
Fórmulas sobre las Principales Distribuciones

1. Distribución Binomial B ( x;n,p)
PX ( x) = P( X = x) = Cxn p x q n − x donde x = 0,1,2,L, n
E ( X ) = µ X = np ; V ( X ) = σ X2 = npq y M X (t ) = ( pet + q)n −∞<t <∞
Uso
X = # de veces que ocurre un determinado evento A sobre un total fijo de n
repeticiones u observaciones independientes de un experimento.
n
Binomio de Newton: (a + b) = ∑ C kn a k b n − k
n
k =0
2. Distribución Geométrica G ( x; p)
PX ( x ) = P( X = x ) = pq x −1 x = 1,2,3,L
pe t
E( X ) = µ X = 1/ p ; V(X ) = σ 2
= q/ p 2
y M X (t ) = t < − ln q .
X
1 − qe t
Uso
X = # de veces que se debe repetir un experimento hasta lograr que ocurra un
determinado suceso A por primera vez.
∞ ∞
r 1
−1< r <1 ⇒ ∑r = ∑r =
k k
Serie geométrica: Si y
k =1 1− r k =0 1− r
3. Distribución de Pascal o Binomial Negativa Bn( x; r , p )
PX ( x) = P( X = x) = Crx−−11 p r q x−r x = r, r + 1, r + 2,L
E( X ) = µ X = r / p y V ( X ) = σ X2 = rq / p 2 .
Uso
X = # de veces que se debe repetir un experimento hasta lograr que ocurra un
determinado suceso A por r-ésima vez.
5
4. Distribución Hipergeométrica H ( x; N , M , n)
CxM CnN−−xM
PX ( x) = P( X = x) = x = 0,1,..., n
CnN
M M N −M N −n
E( X ) = µ X = n y V ( X ) = σ X2 = n( )( )( ) . M X (t ) es poco útil.
N N N N −1
Uso
X = # de casos con una característica A de interés en una muestra de n
casos tomados al azar y sin reemplazo de una población de tamaño N de los
cuales M en total tienen esa característica.
5. Distribución de Poisson P ( x; λ )
e−λ λ x
PX ( x ) = x = 0,1,2,3,L
x!
E( X ) = µ X = λ ; V ( X ) = σ X2 = λ y M X (t ) = e λ ( e −1) − ∞ < t < ∞

t
Uso
• Si X ~ B ( x; n, p ) , n → ∞ y p → 0 ⇒ np → λ , entonces B( x;n,p ) ≅ P( x; λ ) .
• E evento que se presenta en puntos aleatorios del tiempo (o del espacio),

tal que:
(1) Para todo intervalo de longitud dt suficientemente pequeña, la
probabilidad de observar una vez E es proporcional a dt , i.e.:
P( E ocurre una vez en [t , t + dt[) = wdt ∀ t real (ϖ > 0 ).
(2) Para todo intervalo de longitud dt suficientemente pequeña, la
probabilidad de observar más de una vez E es nula i.e.:
P( E ocurre más de una vez en [t , t + dt[) = 0 .
(3) Intervalos disjuntos son independientes en relación a la ocurrencia de
E.
Si t > 0 es un valor dado y definimos X = # de veces que ocurre E en el

intervalo [0, t [ ⇒ X ~ P ( x; λ = wt ) donde w = tasa de ocurrencias de E por unidad
de tiempo.
6. Distribución Exponencial Exp( x; β )
f X ( x) = β e− β x x>0
β
E( X ) = µ X = 1 / β ; V ( X ) = σ X2 = 1 / β 2 y M X (t ) = ( ) t<β
β −t
Uso
• Como un modelo en general
• En un proceso de Poisson, si T := Tiempo que transcurre hasta que ocurre E

por primera vez, entonces T ∼ Exp(t; β = w) , donde w es la tasa de ocurrencias de
E por unidad.
6
7. Distribución Gamma Γ( x;α , β )
xα −1e− x / β
f X ( x) = α x>0
β Γ(α )
1 1
E ( X ) = µ X = αβ ; V ( X ) = σ X2 = αβ 2 y M X (t ) = si t<
β
α
(1 − β t )
Uso
• En un proceso de Poisson, si T := Tiempo que transcurre hasta que ocurre E

por k -ésima vez, entonces T ~ Γ( x;α = k , β = 1/ w)
∞
Función matemática Gamma Γ ( p ) = ∫ y p −1e y dy p>0

0
(1) Γ( p) = ( p − 1)Γ( p − 1) p >1

1
(2) Γ( ) = π
2
8. Distribución Normal N ( µ , σ 2 )
e − ( x − µ ) / 2σ
2 2
f X ( x) = −∞ < x < ∞
2π σ
t2 2
tµ + σ
E( X ) = µ X = µ , V ( X ) = σ =σ M X (t ) = e −∞ < t < ∞
2 2 2
X y
Propiedad
X ~N ( µ , σ 2 ) e Y = a + bX ⇒ Y ~ N (a + bµ , b 2σ 2 )
Uso
• Teorema del Límite Central: X 1 , X 2 ,L , X n ,L variables aleatorias indepen-
n
dientes con medias µ1 , µ 2 ,L, µ n ,L y varianzas σ 12 ,σ 22 ,L ,σ n2 ,L y T := ∑ X j
j =1
donde el número n de sumandos es grande ( n ≥ 30 ), ⇒ T ~ N ( µ T , σ ) , donde 2

T
n n
µ T = ∑ µ j y σ T2= ∑ σ 2j
j =1 j =1
k − np
• X ~ B ( x;n,p) y n es "grande" ⇒ P( X ≤ k ) ≈ P( Z ≤ )
npq
9. Distribución Lognormal LogN ( µ , σ 2 )
e− (ln x − µ ) / 2σ
2 2
f X ( x) = x>0
x 2πσ
X ~ LogN ( µ , σ 2 ) ⇔ ln X ~ N ( µ , σ 2 )
1 t2 2
tµ + σ
σ =V (X ) = e 2 µ + 2σ 2 2 µ +σ 2
µ+ σ 2
µ X = E( X ) = e 2 ;
2
X −e y E( X ) = e
t 2
7
Uso
• Teorema del Límite Central para productos: W1 , W2 ,L , Wn ,L variables alea-
torias positivas e independientes tales que existe E (ln W j ) y V (ln W j ) ∀j y
n
sea W := ∏W
j =1
j donde el número n de factores es grande ( n ≥ 30 ), ⇒
n n
ln W ~N ( µ , σ 2 ) , donde µ = ∑ E (ln W j ) y σ 2 = ∑ V (ln W j )
j =1 j =1
10. Distribución Uniforme U ( x;α , β )
1
f X ( x) = α ≤x≤β
β−α
α+β (β − α ) 2
E( X ) = µX = ; V ( X ) = σ X2 = . M X (t ) es poco útil
2 12
Uso
• Se toma un punto al azar de [α , β ] y X = Valor obtenido ⇒ X ~ U ( x;α , β )
• Si Y ~ fY ( y ) y X := FY ( X ) ⇒ X ~ U ( x; 0,1)
11. Distribución beta Beta ( x; α , β )
Γ(α + β ) α −1
f X ( x) = x (1 − x) β −1 , 0 ≤ x ≤ 1
Γ(α )Γ( β )
α αβ
E( X ) = µ X = ; V ( X ) = σ X2 = . M X (t ) es poco útil
α +β (α + β ) (α + β + 1)
2
Uso
• Como un modelo para proporciones.
1 Γ(α ) Γ( β )
Función matemática Beta B (α , β ) = ∫ y α −1 (1 − y ) β −1 dy =
0
Γ(α + β )
8
Fórmulas sobre Vector Aleatorio Bidimensional
3.1 Definición y Clasificación
Definición
Un vector aleatorio ( X , Y ) es un vector cuyas componentes son variables
aleatorias X e Y definidas conjuntamente sobre el mismo espacio muestral.
El conjunto de posibles parejas ( X , Y ) se denota R XY y se llama Rango del
vector ( X , Y )
Clasificación
( X , Y ) se dice discreto si sus componentes son v.a. discretas
( X , Y ) se dice continuo si sus componentes son v.a. continuas
( X , Y ) es mixtos, si tiene una componente discreta y otra continua
3.2 Distribuciones Conjunta, Marginales y Condicionales
3.2.1 Caso discreto
Función de Probabilidad Conjunta

Si ( X , Y ) es vector aleatorio discreto, la función de probabilidad conjunta de
( X , Y ) , denotada PXY ( x, y ) , se define mediante:
PXY ( x, y ) = P[( X = x ) ∩ (Y = y )]
Propiedades
(a) PXY ( x, y ) ≥ 0
(b) ∑∑ PXY ( x, y ) = 1
x y
(c) P[( X , Y ) ∈ A] = ∑∑ PXY ( x, y)

( x , y )∈A
Función de Probabilidad Marginal

( X , Y ) v.a.d, con función de probabilidad conjunta PXY ( x, y ) , entonces
La Función de Probabilidad Marginal de X es PX ( x ) = ∑ PXY ( x, y )
y
La Función de Probabilidad Marginal de Y es PY ( y ) = ∑ PXY ( x, y )

x
Función de Probabilidad Condicional

Función de Probabilidad Condicional de Y dado que X = x , denotada PY | X ( y | x) es
PXY ( x, y )
con x valor dado tal que PX ( x) > 0
PY | X ( y | x) =
PX ( x)
Función de Probabilidad Condicional de X dado que Y = y , denotada PX |Y ( x | y ) es
PXY ( x, y )
PX |Y ( x | y ) = con y valor dado tal que PY ( y ) > 0
PY ( y )
3.2.2 Caso continuo
Función de Densidad Conjunta

Si ( X , Y ) es vector aleatorio continuo con rango R XY , la función de densidad
conjunta de ( X , Y ) , denotada f XY ( x, y ) es una función continua tal que cumple:
f XY ( x, y ) ≥ 0 ; ∫∫ f XY ( x, y ) = 1 y P[( X , Y ) ∈ A)] = ∫∫ f XY ( x, y ) ∀A ⊆ R XY
R2 A
9
Nota (Integrales dobles)

1) Recordemos que si una función f XY ( x, y ) es continua sobre una región A ⊂ R 2
dada por A = {( x, y ) | a ≤ x ≤ b, c ≤ y ≤ d } , entonces la integral doble ∫∫ f XY ( x, y )
A
se calcula como una integral iterada, primero sobre y luego sobre x , o
también en el orden inverso (Teorema de Fubini). Esto es:
b d
  
d b

∫∫A XY
f ( x , y ) = ∫a ∫c XY
f ( x , y ) dy 

dx = ∫  ∫ f XY ( x, y )dx dy .
c a 
2) También, si A ⊂ R se puede escribir como una región de fronteras defi-
2
nidas en términos de funciones, como A = {( x, y ) | a ≤ x ≤ b, h1 ( x) ≤ y ≤ h2 ( x)},

entonces:
b  h2 ( x ) 
∫∫ f XY ( x, y ) = ∫  ∫ f XY ( x, y )dy dx .
 h1 ( x )
A a  
3) Análogamente, si A ⊂ R 2 es A = {( x, y ) | g1 ( y ) ≤ x ≤ g 2 ( y ), c ≤ y ≤ d } , entonces:
d  g2 ( y ) 
∫∫ f XY ( x, y ) = ∫  ∫ f XY ( x, y )dx dy
 g1 ( y )
A c  
Nótese finalmente que aunque en la definición se integra sobre todo R 2 , en
la práctica la integral es sólo sobre R XY , pues fuera de R XY , f XY ( x, y ) = 0 .
Función de Densidad Condicional

Función de Densidad Condicional de Y dado que X = x , denotada f Y | X ( y | x) es
f XY ( x, y )
f Y |X ( y | x) = donde x es valor dado tal que f X ( x) > 0
f X ( x)
Función de Densidad Condicional de X dado que Y = y , denotada f X |Y ( x | y ) es
f XY ( x, y )
f X |Y ( x | y ) = donde y es valor dado tal que f Y ( y ) > 0
fY ( y)
3.2.3 Independencia
X e Y v.a. son independientes si:
PXY ( x, y ) = PX ( x) PY ( y ) ∀( x, y ) (caso discreto)
f XY ( x, y ) = f X ( x) f Y ( y ) ∀( x, y ) (caso continuo)
3.3 Valor Esperado
3.3.1 Definición
Si ( X , Y ) es vector aleatorio y H ( X , Y ) es una función de ( X , Y ) , se define el
Valor Esperado de H ( X , Y ) , denotado E[ H ( X , Y )] , mediante
 ∑∑ H ( x, y ) PXY ( x, y ) si ( X , Y ) es discreto
 x y
E[ H ( X ,Y )] = + ∞ + ∞
 ∫ ∫ H ( x, y ) f XY ( x, y )dxdy si ( X , Y ) es continuo
− ∞ − ∞
3.3.2 Casos Especiales

• µ X := E[ X ] y µ Y := E[Y ] (medias poblacionales)
• σ X2 ≡ V ( X ) := E[( X − µ X ) 2 ] y σ Y2 ≡ V (Y ) := E[(Y − µ Y ) 2 ] (varianzas poblacionales)
10
• σ XY ≡ Cov( X , Y ) := E[( X − µ X )(Y − µ Y )] (Covarianza entre X e Y ). Mide asociación
lineal entre X e Y
Interpretación de σ XY :
• σ XY > 0 X e Y están asociadas directamente.
• σ XY < 0 X e Y están asociadas inversamente.
• Si σ XY = 0 , no hay relación lineal entre X e Y , aunque puede haber una
relación no lineal
σ XY
Coeficiente de Correlación de Pearson ρ XY = , mide lo mismo que σ XY pero
σ Xσ Y
carece de unidades y está acotado entre –1 y 1
Propiedades de ρ XY
• 0 ≤| ρ XY |≤ 1
• ρ XY > 0 indica asociación directa o positiva entre X e Y
• ρ XY < 0 indica asociación inversa o negativa entre X e Y
• | ρ XY |= 1 ⇔ Existen constantes α y β tales que Y = α + βX
• | ρ XY |≅ 1 indica que entre X e Y hay asociación (lineal) 'fuerte'
• | ρ XY |≅ 0 indica que entre X e Y hay asociación (lineal) 'débil'
3.3.3 Propiedades del Valor Esperado
• E[C ] = C para toda constante C

• Si α 1 , α 2 , K , α n son constantes (o variables no aleatorias) y H 1 ( X , Y ), H 2 ( X , Y ),
n n
... H n ( X , Y ) son funciones de ( X , Y ) , entonces E[ ∑ α j H j ( X , Y )] =∑ α j E[ H j ( X , Y )]
j =1 j =1
• Si X e Y son independientes entonces E[ H ( X )G (Y )] = E[ H ( X )]E[G (Y )]
• Cov( X , Y ) = E[ XY ] − E[ X ]E[Y ]
• Si X e Y son independientes, entonces Cov( X , Y ) = 0
• Si W = αX + βY , donde α y β son constantes, entonces µW = E[W ] = αE[ X ] + βE[Y ]
y σ W2 = V [W ] = α 2V [ X ] + β 2V [Y ] + 2αβCov( X , Y )
Propiedad:
Sean T = ( X + Y ) y D = ( X − Y ) entonces:
• µT = µ X + µY y σ T2 = σ X2 + σ Y2 + 2 ρ XY σ X σ X
• µ D = µ X − µ Y y σ D2 = σ X2 + σ Y2 − 2 ρ XY σ X σ X
3.3.4 Esperanza Condicional E[Y | X ]
∑ H ( x, y ) PY | X ( y | x) si ( X , Y ) es discreto
 y
E[ H ( X , Y ) | X = x] =  + ∞
 ∫ H ( x, y ) f Y | X ( y | x ) si ( X , Y ) es continuo
 −∞
Casos especiales
• µ Y | X = E[Y | X = x] , es el valor esperado de Y en la distribución condicional
de Y dado X = x . También se llama Función de Regresión de Y sobre X y
11
suele ser una función de X que se usa para pronosticar el valor de Y
cuando se conoce el valor de X .
• σ Y2| X = V [Y | X = x ] = E[Y 2 | X = x] − ( E[Y | X = x]) 2 , es la varianza condicional y
mide la variación de Y alrededor de la función de regresión E[Y | X ] = ϕ ( X )
Propiedad
• E ( E[Y | X ]) = E[ϕ ( X )] = E[Y ]
• V (Y ) = E (V [Y | X ]) + V ( E[Y | X ])
3.3.5 Vector de Medias y Matriz de Varianza Covarianza
Vector de Medias y Matriz de Varianza-Covarianza

X X µ 
Sea   vector aleatorio columna, el vector de medias de   es µ =  X  y
Y  Y   µY 
X  σ 2 σ XY 
la matriz de varianza covarianza de   es Σ =  X 
2 
Y   σ XY σ Y 
Nota:
 X   E ( X )  X X 12 
Se puede definir en general E   :=   y si M =  11  es matriz
 Y   E (Y )   X 21 X 22 
 E ( X 11 ) E ( X 12 ) 
aleatoria, definimos E ( M ) =   .
 E ( X 21 ) E ( X 22 ) 
Propiedad
 σ 2 σ XY   X − E ( X )  
• Σ =  X  = E 
2 
( X − E ( X ), Y − E (Y ) )
 σ XY σ Y   Y − E (Y )  
 
X
• U 2 x1 =   vector aleatorio con vector de medias µU y matriz de varianza
Y 
 a11a12  b 
covarianza ΣU ; sean A2 x 2 =   y B2 x1 =  1  matrices dadas. Si
 a 21 a 22   b2 
W   a a12  X   b1 
definimos el vector V2 x1 = AU + B (o sea V2 x1 =   =  11   +   ),
 Z   a 21 a 22  Y   b2 
entonces el vector de medias de V es µV = AµU + B y su matriz de varianza
covarianza es ΣV = AΣU AT respectivamente.
12
3.4 Vector Aleatorio n-dimensional
Definición
Un vector cuyas componentes son n variables aleatorias definidas
conjuntamente
r
• Un vector aleatorio n-dimensional (fila) es de la forma X1xn = ( X 1 , X 2 ,..., X n )
• Un vector aleatorio n-dimensional (columna) es de la forma
r
X nx1 = ( X 1 , X 2 ,..., X n ) T .
Matriz aleatoria
Una matriz aleatoria M de orden n × m es una matriz M = M ij ( ) n×m
de nxm
variables aleatorias M ij i = 1,2,..., n j = 1,2,..., m definidas conjuntamente sobre el
mismo espacio muestral S .
Vector particionado
Cuando se tiene un vector aleatorio X nx1 = ( X 1 , X 2 ,..., X n ) T , a veces es útil se-
parar partes de él, por ejemplo X nx1 = ( X 1 , L , X p , X p +1 , L , X n ) T donde las primeras
p componentes forman un subvector X px1 = ( X 1 , L , X p ) T de orden px1 y el resto de
(n-p) componentes un subvector X ( n − p ) x1 = ( X p +1 , L , X n ) T . En este contexto se es-
cribe X nx1 = ( X 1 M X 2 ) T donde X 1 = ( X 1 , L , X p )T y X 2 = ( X p +1 , L , X n )T . O más explíci-
tamente, en formato de vector columna:
 X1 
 
 M 
 X  X   X1   X p +1 
 p   1    
X nx1 =  L  =  L  donde X 1 =  M  y X 2 =  M  .
X  X  X   X 
 p +1   2   p  n 
 M 
 X 
 n 
3.4.1 Distribuciones
Las nociones de distribución conjunta f X 1 X 2 KX n ( x1 , x 2 , K , x n ) ; distribuciones
marginales f X 1 ( x1 ), f X 2 ( x 2 ),..., f X n ( x n ) ; y condicionales f X i | X j ( xi | x j ) , son extensiones
directas del caso bivariado. En particular es importante:
Definición de Independencia.
X 1 , X 2 ,K, X n se dicen independientes si:
n
f X 1 X 2 KX n ( x1 , x 2 , K , x n ) = f X 1 ( x1 ) f X 2 ( x 2 ) K f X n ( x n ) ≡ ∏ fX j
(x j )
j =1
Nota
En verdad, se necesita que esta regla se cumpla con todos los subconjuntos de
componentes del vector, por ejemplo, debe cumplirse que
f X 1 X 2 ( x1 , x2 ) = f X1 ( x1 ) f X 2 ( x2 ); f X1 X 2 X 3 ( x1 , x 2 , x3 ) = f X 1 ( x1 ) f X 2 ( x 2 ) f X 3 ( x3 ); etc.
En términos de vector particionado se escribe
13
La función de distribución conjunta f X 1 X 2K X n ( x1 , x 2 , K , xn ) ≡ f X nx1 ( xnx1 ) ≡ f X 1 X 2 ( x1 , x2 ) ,
donde en la última expresión X 1 ∈ R p y X 2 ∈ R n − p son subvectores
La distribución marginal del subvector X 1 ∈ R p como
f X 1 ( x1 , K , x p ) ≡ f X px1 ( x px1 ) ≡ f X 1 ( x1 )
La distribución marginal del subvector X 2 ∈ R n − p como
f X 2 ( x p +1 , K , xn ) ≡ f X ( n − p ) x1 ( x( n − p ) x1 ) ≡ f X 2 ( x2 )
La distribución condicional del subvector X 1 ∈ R p , dado el subvector
f X 1 X 2 ( x1 , x 2 )
X 2 ∈ R n − p , como f X 1| X 2 ( x1 | x2 ) =
f X 2 ( x2 )
n− p
X1 ∈ R p
y X2 ∈R son independientes si f X 1 X 2 ( x1 , x 2 ) = f X 1 ( x1 ) f X 2 ( x2 ) ∀x1 ∀x 2
3.4.2 Valor Esperado

r
• Media Poblacional de la componente X de X µ j ≡ µ X j := E[ X j ]
j
r
• Varianza Poblacional de la componente X j de X σ 2j ≡ σ X2 j := V [ X j ] = E[( X j − µ j ) 2 ]
r
• Covarianza Poblacional entre las componentes X i y X i de X :
σ ij ≡ σ X i X j ≡ Cov( X i , X j ) := E[( X i − µi )( X j − µ j )]
σ ij
• Coeficiente de Correlación Lineal de Pearson entre X i y X i ρij ≡ ρ X i X j :=
σ iσ j
r
• Vector de Medias del vector (columna) X = ( X 1 , X 2 ,..., X n ) T :
 µ1 
 
µ 
µ Xr =  2 
M
 
 µ n  nx1
r
• Matriz de Varianza-covarianza del vector (columna) X = ( X 1 , X 2 ,..., X n )T :
 σ 12 σ 12 K σ 1n 
 
σ σ 22 K σ 2n 
Σ X = (σ ij )n×n =  21
M M L M 
 
σ L σ n2  nxn
 n1 σ n 2
n
• Varianza Total VT := tr ( Σ Xr ) = ∑ σ 2j
j =1
• Varianza Generalizada VG := Det (Σ Xr ) =| Σ Xr |

 X1 
 
• Vector de Medias del vector particionado X nx1 =  L  . Se define mediante
X 
 2
 E ( X 1 )   µ1   E( X1)   E ( X p +1 ) 
       
µ Xr = E ( X nx1 ) =  L  =  L  donde µ1 = E ( X 1 ) =  M  y µ 2 = E ( X 2 ) =  M 
 E ( X )  µ   E( X )  E( X )
 2   2  p   n− p 
14
 X1 
 
• Matriz de Varianza-covarianza del vector particionado X nx1 =L
X 
 2
 
 2
σ 1 σ 12 L σ 1 p 
  σ 1( p +1) L σ 1n 
  
 Σ11 Σ12  σ 2( p +1) L σ 2 n 
Σ X = (σ ij )n×n =   
donde Σ11 = σ 21 σ 2 L σ 2 p , Σ12 =
2  
 Σ 21 Σ 22  nxn    M M M 
 M M M  σ 
σ 2   p ( p +1) L σ pn 
 p1 σ p2 L σ p 
 
 σ ( p +1)1 L σ ( p +1) p   2
σ ( p +1)( p+1) σ ( p +1)( p +2 ) L σ ( p +1) n 

  
σ L σ ( p+2) p 
Σ 21 =  ( p + 2 )1 y Σ 22 =  σ ( p + 2 )( p +1) σ (2p +2 )( p + 2 ) L σ ( p + 2 ) n  . Nótese que Σ11 es
 M M M   
 σ   M M M 
 n1 L σ np 
 σ σ L σ 2 
 n ( p +1) n ( p+2) nn 
la matriz de varianza-covarianza de X 1 , Σ 22 la matriz de varianza-

covarianza de X 2 y Σ12 = Σ T21 es la matriz de covarianzas entre X 1 y X 2 .
Valor esperado de una matriz aleatoria

Sea M una matriz aleatoria de orden n × m , E (M ) = E ( M ij ) ( )
n×m
Propiedad
Si X n×1 es vector columna con vector de medias µ X y matriz de varianza
covarianza Σ X , entonces se cumple que Σ X = E ( X − µ X )( X − µ X ) . [ T
]
Propiedad
Si X 1 ∈ R p y X 2 ∈ R n − p son vectores aleatorios columna con vectores de medias
µ1 y µ 2 respectivamente, entonces la matriz de covarianza Σ12 satisface
Σ12 = E [( X 1 − µ1 )( X 2 − µ 2 ) T ] . Análogamente Σ 21 = E [( X 2 − µ 2 )( X 1 − µ1 ) T ]
Propiedad
Σ Xr es simétrica y semidefinida positiva, esto es Y T Σ Xr Y ≥ 0 para todo vector
no nulo Y ∈ R n
Proposición
r r r r r
Sea X vector aleatorio y sean H 1 ( X ), H 2 ( X ),..., H k ( X ) k funciones reales de X
(esto es H j : R n → R ). Sean α 1 , α 2 , L , α k constantes (o también variables pero no
k r k r
aleatorias), entonces se cumple E [ ∑α
j =1
j H j ( X )] = ∑ α j E[ H j ( X )]
j =1
Proposición
r r r r
Sea X vector aleatorio y sean H 1 ( X ), H 2 ( X ),..., H k ( X ) k funciones vectoriales de
r
X (esto es H j : R n → R m ). Sean α 1 , α 2 , L , α k constantes (o también variables,
k r k r
pero no aleatorias), entonces se cumple E [ ∑ α j H j ( X )] =∑ α j E[ H j ( X )]
j =1 j =1
15
Proposición
r r
Sea X vector aleatorio n-dimensional X 1 xn = ( X 1 , X 2 ,..., X n ) de componentes inde-
n n
pendientes entonces E[ ∏ H j ( X j )] = ∏ E[ H j ( X j )]
j =1 j =1
Corolario
r r
Sea X vector aleatorio n-dimensional X 1 xn = ( X 1 , X 2 ,..., X n ) tal que sus compo-
nentes son independientes, entonces se cumple σ ij = Cov( X i , X j ) = 0
Proposición
r r
Sea X vector aleatorio n-dimensional X1xn = ( X 1 , X 2 ,..., X n ) y sean α 1 , α 2 , L , α k
constantes (o también variables no aleatorias). Entonces:
n n n n
• E[ ∑ α j X j ] = ∑ α j E[ X j ] y V[ ∑ α j X j ] =∑ α 2j V [ X j ] + 2∑ α iα j Cov(X i , X j )
j =1 j =1 j =1 j =1 i< j
Corolario
n n
Si X 1 , X 2 ,..., X n son independientes, entonces E[ ∑ α j X j ] = ∑ α j E[ X j ] y
j =1 j =1
n n n n n n
V[ ∑ α j X j ] =∑ α 2j V [ X j ] . En particular E[∑ X j ] =∑ E[ X j ] y V[ ∑ X j]= ∑V [ X j ]
j =1 j =1 j =1 j =1 j =1 j =1
Nota:
n n
Si X 1 , X 2 ,..., X n son independientes, entonces E ( ∏ X j)= ∏ E( X j ) pero no ocurre lo
j =1 j =1
n n
mismo con las varianzas, esto es: V ( ∏ X j)≠ ∏V ( X j )
j =1 j =1
Proposición
Si Anxm es matriz constante (o no aleatoria) entonces E ( Anxm ) = Anxm
Proposición
Si Anxq es matriz de constante (o no aleatoria) y M qxm es matriz aleatoria
( ) ( )
entonces E Anxq M qxm = Anxq E M qxm . O en notación más simple E ( AM ) = AE (M ) .
Proposición
Si C pxm es matriz de constante (o no aleatoria) y M nxp es matriz aleatoria
( ) ( )
entonces E M nxp C pxm = E M nxp C pxm . O en notación más simple E (MC ) = E (M )C .
En general podemos escribir E ( AMC + B ) = AE (M )C + B donde A , B y C son
matrices no aleatorias y M es matriz aleatoria.
Proposición
r
Sea X nx1 vector columna con vector de medias µ Xr y matriz de varianza
r r r
covarianza Σ Xr . Sea Ymx1 otro vector tal que Ymx1 = Amxn X nx1 + Bmx1 donde Amxn y Bmx1
son no aleatorias. Entonces µYr = Aµ Xr + B y Σ Yr = AΣ Xr AT
Propiedad
r
Si X nx1 tiene componentes con distribución normal con vector de medias µ Xr y
r r r
matriz de varianza covarianza Σ Xr y Ymx1 = Amxn X + Bmx1 entonces Ymx1 tiene
componentes con distribución normal con µYr = Aµ Xr + B y Σ Yr = AΣ Xr AT
16
Fórmulas sobre Muestreo y Estadísticas
4.1.1 Población
Si X ~ f X ( x ) variable aleatoria con rango R X . La Población de X se define
como el conjunto {( x, f X ( x)) | x ∈ R X }.
4.1.2 Muestra Aleatoria
Si X es variable aleatoria, una muestra aleatoria de tamaño n (m.a.) es un
vector aleatorio n -dimensional ( X 1 , X 2 ,..., X n ) cuyas componentes representan el
proceso de repetir n veces, y de manera independiente, el experimento
aleatorio que genera a X , registrando los valores obtenidos.
Se cumple
• R X = R X j ; f X j ( x j ) = f X ( x j ) y F X j ( x j ) = FX ( x j ) ∀j
n
• f X1 X 2 K X n ( x1 , x 2 , K , x n ) = f X 1 ( x1 ) f X 2 ( x 2 ) K f X n ( x n ) = f X ( x1 ) f X ( x 2 ) K f X ( x n ) ≡ ∏ f X ( x j )
j =1
• X 1 , X 2 ,K, X n son independiente e idénticamente distribuidas, lo que se

denota i.i.d.
4.1.3 Estadística
Es una función h ( X 1 , X 2 ,..., X n ) que sólo depende de las componentes de la muestra
aleatoria ( X 1 , X 2 ,..., X n ) .
4.2 Propiedades de estadísticas importantes

n
∑X
j =1
j
• X := es la media muestral
n
n n
∑(X − X )2 ∑X − nX
2 2
j j
j =1 j =1
• S 2 := = es la varianza muestral
n −1 n −1
Propiedad 1
Si ( X 1 , X 2 ,..., X n ) es m.a. tomada de la población de una v.a. X con media µ y
σ2
varianza σ 2 , entonces E [ X ] = µ y V [ X ] =
n
Observación:
m2 k − ( m k ) 2
E ( M k ) = mk y V (M k )
n
Propiedad 2
E(S 2 ) = σ 2
Propiedad 3 (Ley de los Grandes Números para X )

Si ( X 1 , X 2 ,..., X n ) es m.a. tomada de la población de una v.a. X con media µ y
varianza σ 2 , entonces lim P (| X − µ |≤ ε ) = 1
n→∞
17
Propiedad 4 (Teorema Central del Límite para X )
Sea ( X 1 , X 2 ,..., X n ) m.a. tomada de la población de una v.a. X con media µ y
varianza σ 2
finitas, entonces si n es suficientemente grande (n ≥ 30) , se
X −µ X −µ
cumple que Z = = n( ) ~ N (0,1)
σ σ
n
4.3 Distribuciones Asociadas al Muestreo de una Distribución Normal

4.3.1 Distribución de X
Sea ( X 1 , X 2 ,..., X n ) m.a. tomada de la población de una v.a. X ~ N ( µ , σ 2 ) . En este
σ2
contexto se cumple que X ~ N ( µ , ) ∀n
n
4.3.2 Distribución asociada a S 2 .
Distribución Ji-Cuadrado χ 2 ( k ) y propiedades

k
Sea W v.a. con distribución Gamma Γ(α = , β = 2) donde k es entero positivo,
2
diremos entonces que W tiene distribución Ji-Cuadrado de parámetro k. Este
k
caso particular de la Gamma, se denota χ 2 ( k ) , i.e. χ 2 ( k ) ≡ Γ(α = , β = 2) . El
2
entero k es el único parámetro y se llama "Grados de libertad" de la dis-
tribución. Como se trata de un caso particular de la Gamma, tiene todas sus
propiedades:
k
−1
k w 2 e −w / 2
• f W (w) = Γ(α = , β = 2) = χ 2 ( k ) = k
W > 0
2 k
22 Γ( )
2
k
k k  1 2 1
• E [W ] = αβ = 2 = k , V [W ] = αβ 2 = 2 2 = 2k y M W (t ) =   si t <
2 2  1 − 2t  2
Propiedad 1 (Relación con la distribución normal estándar)

Si Z ~ N (0,1) y definimos W = Z 2 , entonces W ~ χ 2 ( k = 1)
Propiedad 2 (Propiedad Reproductiva)

Si W1 ~ χ 2 ( k1 ) y W2 ~ χ 2 ( k 2 ) son independientes entonces (W1 + W2 ) ~ χ 2 ( k = k 2 + k 2 )
Distribución asociada a S2
Si de una distribución normal N ( µ , σ 2 ) se toma una m.a. ( X 1 , X 2 ,..., X n ) de tamaño
n y W = (n − 1) S 2 / σ 2 , entonces W = (n − 1) S 2 / σ 2 ~ χ 2 (k = n − 1)
Distribución de S2
n −1 2σ 2
n , entonces S 2 ~ Γ(α = ,β = )
2 n −1
Corolario:
2
 n − 1  2σ  2σ 4
2
 n − 1  2σ 
2
E [ S ] = αβ = 
2
 =σ 2
y V [ S 2
] = αβ 2
=   =
 2  n − 1   2  n − 1  n −1
18
4.4 Otras distribuciones importantes.
4.4.1 Distribución t de Student
Definición (Variable T de Student)

Sean Z ~ N (0,1) y W1 ~ χ 2 (k ) independientes. Se define la variable T , llamada
Z
variable t de Student, mediante: T =
W
k
Proposición (Distribución t de Student)

k +1
Γ( ) k +1
2 t2 − 2
La función de densidad de T es f T (t ) = (1 + ) −∞ <t <∞
k k
kπ Γ( )
2
siendo k parámetro de la distribución.
Propiedad
( X − µ)
n y se define la variable t mediante t= entonces t ~ t (k = n − 1)
S
n
4.4.2 Distribución F de Fisher
Definición (Variable F )
Sean V con distribución χ 2 (k1 ) y W con distribución χ 2 (k 2 ) , variables inde-
V / k1
pendientes. Se define la variable F , mediante F = .
W / k2
Proposición (Distribución F de Fisher)
k1 + k 2 k1
Γ(
) k1 k2 2
−1
2 f
La función de densidad de F es g F ( f ) = k 2k 2 k1 + k2
, f >0
k1 k2 1 2
Γ( )Γ( ) (k1 + k 2 f ) 2
2 2
k1 es llamado "grados de libertad del numerador" y k 2 es llamado "grados de
libertad del denominador".
Notación: F ~ F (k1 , k 2 )
Propiedad
F tiene distribución F (k1 , k 2 ) si y sólo si 1 / F tiene distribución F (k 2 , k1 ) .
Propiedad
Sean Y1 con distribución N ( µ1 , σ 12 ) e Y1 con distribución N ( µ 2 , σ 22 ) y sean S12
y S 22 varianzas de respectivas muestras independientes de tamaños n y m .
S12 / σ 12
Entonces F := ~ F ( n − 1, m − 1) .
S 22 / σ 22
Propiedad
Si T ~ t ( k ) , entonces T 2 ~ F (1, k )
19
Fórmulas sobre Estimación Puntual
5.1 Definiciones básicas
Sea X ~ f X ( x; θ ) donde θ es parámetro o vector de parámetros de valor
desconocido.
Espacio Paramétrico Θ es el conjunto de valores posibles para θ
Espacio de Información Χ es el conjunto de todas las muestras posibles de

tamaño n ( X 1 , X 2 ,..., X n )
5.2 Estimador y Valor Estimado
Estimador
Un estimador de un parámetro θ es una estadística θˆ = θˆ( X 1 , X 2 ,..., X n ) cuyo valor
una vez tomada la m.a. se usa como aproximación de θ
Valor Estimado o Estimación

Es un valor particular del estimador θˆ = θˆ( X 1 , X 2 ,..., X n )
5.3 Propiedades de un Buen Estimador
5.3.1 Insesgamiento
θˆ se dice Insesgado si E (θˆ) = θ ∀θ ∈ Θ
5.3.2 Eficiencia
~
Sean θˆ y θˆ dos estimadores insesgados del mismo parámetro θ . Diremos que θˆ
~ ~
es más eficiente que θˆ si V (θˆ ) < V (θˆ )
Mejor Estimador Lineal Insesgado (MELI)

θˆ estimador de θ se dice Mejor Estimador Lineal Insesgado (MELI) de θ si:
n
(1) θˆ = ∑α j X j
j =1
(2) E [θˆ] = θ ∀θ ε Θ
(3) θˆ es de varianza mínima en relación a cualquier otro estimador lineal e
insesgado de θ
Construir el MELI equivale a resolver el Problema de optimización:

n n
Mín V ( ∑ α j X j ) s.a E ( ∑ α j X j ) = θ ∀θ ε Θ donde las incógnitas son las
αj
j =1 j =1
constantes α1,α2,...,αn.
5.3.3 Consistencia
Sea ( X 1 , X 2 ,..., X n ) m.a. de tamaño n y sea θˆ un estimador de θ. Diremos que θˆ
es Consistente si lim P(| θˆ − θ |≤ ε ) = 1 ∀ ε > 0
n→∞
En sentido estricto, como para cada n hay un estimador θˆ , debiera escribirse
θˆn y decirse que " θˆn = θˆ ( X 1 , X 2 ,..., X n ) es estimador consistente de θ si
lim P(| θˆn − θ |≤ ε ) = 1 ∀ ε > 0 "
n→∞
20
Proposición
Si θˆ es un estimador de θ tal que
(1) lim E (θˆ) = θ ( θˆ es "asintóticamente insesgado") y
n→∞
(2) lim V (θˆ) = 0 ( θˆ es "asintóticamente eficiente")
n→∞
Entonces θˆ un estimador consistente de θ.
Definición (Límite en Probabilidad)

Sea {Wn } una sucesión de variables aleatorias y sea C una constante. Se dice
que C es el límite en probabilidad de {Wn } , lo que se denota escribiendo
PlimWn = C , si lim P (| Wn − C |≤ ε ) = 1 ∀ ε > 0
n→∞
Propiedades:
Sean {Wn } y {V n } sucesiones tales que existen P lim Wn y P lim Vn entonces
1. P lim(Wn ± Vn ) = P lim Wn ± P lim Vn
2. P lim(Wn × Vn ) = P lim Wn × P lim Vn
3. P lim(Wn / Vn ) = P lim Wn / P lim Vn si P lim Vn ≠ 0
Proposición (Teorema de Slutsky)

Sea {Wn } sucesión tal que existe P lim Wn y sea g (t ) una función continua de
t . Entonces P lim g (Wn ) = g ( P lim Wn )
Nota: θˆ es estimador consistente de θ si y sólo si P lim θˆ = θ .
5.4 Métodos de Estimación
5.4.1 Método de Momentos
Definiciones Básicas
Sean X ~ f X ( x; θ ) una v.a. y θ = (θ1 , θ 2 ,..., θ p ) vector de parámetros por estimar. La
forma de f X ( x; θ ) no necesariamente es conocida.
Momentos Poblacionales
El k-ésimo momento poblacional mk se define mediante mk = E ( X k ) , si existe el
correspondiente valor esperado
Momentos Muestrales
Si ( X 1 , X 2 ,..., X n ) es m.a. tomada de la población de X , el k-ésimo momento
n
∑X
j =1
k
j
muestral, M k se define mediante M k =

n
Propiedad
M k es estimador insesgado de mk y si existe m2 k , además M k es estimador
Consistente de mk
21
Definición
Si mk es función de θ1 , θ 2 ,..., θ p , o sea mk = hk (θ1 , θ 2 ,..., θ p ) k = 1,2,..., p , de modo que
se cumple:
m1 = h1 (θ1 , θ 2 ,..., θ p )
m2 = h2 (θ1 , θ 2 ,..., θ p )
M
m p = h p (θ1 , θ 2 ,..., θ p )
Diremos que θˆ1 , θˆ2 ,... θˆp estimadores de θ1 , θ 2 ,..., θ p respectivamente, son estima-
dores obtenidos mediante el Método de Momentos, si son solución al sistema de
ecuaciones:
M 1 = h1 (θˆ1 , θˆ2 ,..., θˆp )

M 2 = h2 (θˆ1 , θˆ2 ,..., θˆp )
M
M p = h p (θˆ1 , θˆ2 ,..., θˆp )
5.4.2 Método de Máxima Verosimilitud
Función de Verosimilitud
Sea X ~ f X ( x; θ ) donde θ es parámetro o vector de parámetros de valor
desconocido, definimos la función de verosimilitud de θ , L(θ ) como la dis-
tribución conjunta de la muestra vista como función del parámetro θ . Es
n
decir L(θ ) = ∏ f X j ( x j ;θ ) θ ε Θ
j =1
Estimador de Máxima Verosimilitud

El estimador de θ obtenido por el Método de Máxima Verosimilitud, es el es-
timador θˆ que maximiza L(θ ) o sea θˆ es solución al problema:
Máx L(θ ) s.a θ ∈ Θ
θ
Nota:
L(θ ) y ln( L(θ )) tienen los mismos puntos críticos, pero ln( L(θ )) suele tener una
estructura más simple, por eso es común obtener el estimador MV de θ
maximizando ln( L(θ ) ) en lugar de L(θ ) . La función l (θ ) = ln( L(θ )) se llama
“función logverosimilitud”
5.4.3 Método de Mínimos Cuadrados
Supongamos a Y , X y ε tales que X es variable observable no aleatoria

("variable matemática"), Y es variable aleatoria observable y ε es variable
aleatoria no observable. Supongamos que estas variables están relacionadas
mediante la ecuación Y = ϕ ( X ; θ ) + ε , donde ϕ ( X ;θ ) es función bien especificada
(de forma conocida) y θ es un parámetro o vector de parámetros por estimar.
La función ϕ ( X ;θ ) puede considerarse una función de “enlace” entre la com-
ponente aleatoria Y del modelo y el residuo no sistemático y aleatorio ε .
También se dice que ϕ ( X ;θ ) es la “componente sistemática” del modelo y ε la
“componente aleatoria” del mismo.
22
Supuestos Clásicos
Dado el modelo Y = ϕ ( X ; θ ) + ε y una m.a. de n parejas de observaciones ( X 1 , Y1 ),
( X 2 , Y2 ),L, ( X n , Yn ) que satisfacen la correspondiente relación Y j = ϕ ( X j ;θ ) + ε j ,
asumiremos que:
(1) E (ε j ) = 0 ∀j
(2) V (ε j ) = σ 2 ∀j (Homogeneidad de varianzas u Homocedasticidad)
(3) Cov(ε i , ε j ) = 0 ∀i ≠ j (No autocorrelación)
(4) ϕ ( X ;θ ) es una función sin error de especificación (de forma conocida y
correcta)
(5) X j es variable no aleatoria o siéndolo tiene sus valores ya dados.
Definición (Estimador de Mínimos Cuadrados Ordinarios MCO o LS)

Bajo los supuestos (1) a (5), definimos el estimador θˆ obtenido mediante el
Método de Mínimos Cuadrados Ordinarios (MCO) como el valor θˆ que es solución
al problema:
[ ]
n
Mín Q (θ ) = ∑ Y j − ϕ ( X j ;θ ) s.a θ ∈ Θ
2
θ j =1
Modelo de Regresión Lineal sin intercepto Y j = θX j + ε j .

n
∑ X jY j
j =1
θˆ = n
es el estimador MCO de θ
∑X 2
j
j =1
Modelo de Regresión Lineal con intercepto Y j = α + βX j + ε j .

n
∑ X jY j − n X Y
j =1
Los estimadores MCO de β y α son respectivamente β̂ = n
y
∑X
2
2
j − nX
j =1
αˆ = Y − βˆ X
Fórmulas alternativas para β̂ y α̂

n n n
 
∑ X jY j − n X Y ∑ ( X j − X )Y j ∑ ( X j − X )(Y j −Y ) n

 (X j − X )


j =1 j =1 j =1
• β̂ = n
= n
= n
= ∑ n Y j
∑ X 2j − n X ∑( X j − X )2 ∑( X j − X )2 ∑ j
j =1  
2
( X − X )2

j =1 j =1 j =1  j =1 
n n
Y ∑ X 2 − X ∑ X jY j
j =1 j =1
• α̂ = n
∑ X 2j − n X
2
j =1
23
Proposición (Teorema de Gauss-Markov)
En el modelo Y j = α + βX j + ε j y bajo los supuestos clásicos, los estimadores MCO α̂ y β̂
son MELI de α y β respectivamente.
Observación: Mejor Estimador Lineal Afín

n
Un estimador de forma c0 + ∑c Y
j =1
j j (“función lineal afín”) donde c0 se convierte
en una incógnita más del problema. Por lo general en el MELI con una función
lineal afín, resulta que c0 =0 y por tanto es irrelevante la distinción entre
n n
función lineal ∑c Y
j =1
j j y función lineal afín c0 + ∑c Y
j =1
j j , pero para ciertos mo-
delos pueden presentarse diferencias y estimadores distintos.
5.4.4 Propiedades adicionales de estimadores

Invarianza
~
Sean θ ∈ R p y γ ∈ R q ( q ≤ p ) parámetros tales que γ = h(θ ) . Sean θ y γ~ estima-
dores de θ y γ respectivamente, obtenidos mediante un método M. Diremos que
~
el método M tiene la propiedad de invarianza si se cumple γ~ = h(θ )
Propiedad 1
En el contexto de la definición anterior, si la función γ = h(θ ) además tiene
inversa θ = h −1 (γ ) , entonces los métodos de Momentos, Máxima Verosimilitud y
Mínimos Cuadrados tienen la propiedad de invarianza.
Propiedad 2
En general, el método de Máxima Verosimilitud tiene la propiedad de
invarianza, esto es, si θ ∈ R p y γ ∈ R q ( q ≤ p ) son parámetros tales que
γ = h(θ ) y θ~MV y γ~MV son los estimadores máximo verosímiles de θ y
γ respectivamente, entonces se cumple que γ~MV = h(θ~MV )
Distribución Asintótica del Estimador Máximo Verosímil

Sea X v.a. con distribución f X ( x;θ ) con θ ε Θ y sea θˆ el estimador Máximo
verosímil de θ. Entonces, bajo las “condiciones de regularidad” R1 a R6,
R1: Si .
R2: no depende de .
R3: El verdadero valor de es “punto interior” del espacio paramétrico .
R4: es función tres veces diferenciable de (
R5:
R6: donde es una función definida en un entorno del
verdadero valor de :
Si el tamaño de muestra n es grande, θˆ tiene distribución normal: θˆ ~ N (θ ,σ θ2ˆ ) donde
−1
 ∂ 
σ θ2ˆ = nE[( ln f X ( x;θ )) 2 ] .
 ∂θ 
Corolario
Bajo las condiciones de regularidad, el estimador MV θˆ de θ es consistente y
asintóticamente insesgado.
24
Fórmulas sobre Intervalos de Confianza
6.1 Definición de Intervalos de Confianza
Sea θ un parámetro, sean L1 y L2 dos estadísticos y sea (1 − α ) una proba-

bilidad conocida. Diremos que [L1 , L2 ] es un Intervalo de Confianza (I.C.) para
θ al nivel de 100(1 − α )% de Confianza, si se cumple P( L1 ≤ θ ≤ L2 ) = 1 − α ∀θ ∈ Θ
Observación:
También se suele presentar el I.C. escribiendo lo siguiente:
L1 ≤ θ ≤ L2 100(1- α)% de Confianza
La construcción de un I.C. busca encontrar un intervalo que tenga alta pro-

α y que a la vez sea de longitud mínima.
babilidad 1-α
6.2 Metodología (Método de la Variable Base)
Sea X ~ f X ( x; θ ) y sea ( X 1 , X 2 ,..., X n ) m.a. tomada de la población de X . Dado un

nivel de confianza (1 − α ) , para construir un Intervalo de Confianza para θ :
(a) Determinar una variable base W = W ( X 1 , X 2 ,..., X n ;θ ) cuya estructura con-

tenga al parámetro θ pero cuya distribución g W ( w) no dependa de θ
(b) Buscar en la distribución de W dos valores a y b tales que:
P (W ( X 1 , X 2 ,..., X n ;θ ) ≤ a ) = α / 2 = P (W ( X 1 , X 2 ,..., X n ;θ ) > b) y por tanto se cumpla

P (a ≤ W ( X 1 , X 2 ,..., X n ;θ ) ≤ b) = 1 − α
(c) Dentro de la probabilidad anterior, despejar θ del interior del

intervalo, de modo que se cumpla:
P (a ≤ W ( X 1 , X 2 ,..., X n ;θ ) ≤ b) = P ( L1 ( X 1 , X 2 ,..., X n ; a, b) ≤ θ ≤ L2 ( X 1 , X 2 ,..., X n ; a, b)) = 1 − α
Entonces el Intervalo de Confianza para θ al nivel 100(1-α

α)% es
[L1 ( X 1 , X 2 ,..., X n ; a, b), L2 ( X 1 , X 2 ,..., X n ; a, b)]

y se escribe
L1 ( X 1 , X 2 ,..., X n ; a, b) ≤ θ ≤ L2 ( X 1 , X 2 ,..., X n ; a, b) al 100(1-α

α)% de Confianza
25
Fórmulas sobre Prueba o Contraste de Hipótesis
7.1 Elementos
Hipótesis Estadística
Es una afirmación acerca de la distribución poblacional asociada a una varia-
ble X . La denotamos mediante H .
Hipótesis Simple: Si H especifica totalmente la distribución de X

Hipótesis Compuesta: Si H no especifica totalmente la distribución de X
Contraste Estadístico o Prueba de Hipótesis

Un sistema de análisis a partir del cual se toma la decisión de aceptar ó
rechazar una hipótesis estadística H 0 , mediante el análisis de una(s)
muestra(s) aleatoria(s).
Hipótesis Planteada o Nula

Es aquella que se somete a prueba. La denotamos H 0 ,
Hipótesis Alterna
Es aquella que nos queda si se rechaza H 0 . Esta hipótesis se denotará H 1 .
Normalmente H1 es el complemento de H 0 , dentro del contexto de inves-

tigación.
Región Crítica
Denotada C , es un evento cuya ocurrencia conduce al rechazo de H0.
Error Tipo I
Es el error que se produce si se rechaza H 0 injustamente siendo verdadera)
Error Tipo II
Es el error que se produce si se acepta H 0 siendo falsa
Metodología general
Identificar un Tomar la
Asumir H0 como evento C muestra y
verdadera Muy poco probable si H0 ver si
es cierta ocurre C
Sí
Rechazar H0 ¿Ocurre C?
No
Aceptar H0
26
Dada una región crítica C , es posible cometer ó el Error I ó el Error II. La
probabilidad del Error I se denota α , y la probabilidad del Error II se
denota β , esto es:
α = P( ErrorI ) = P(C | H 0 es verdadera) . Esta probabilidad α se llama también

"Nivel de Significación del contraste" y mide el tamaño probabilístico de la
región crítica
β = P( ErrorII ) = P(C c | H 0 es falsa )
1 − β = 1 − P ( ErrorII ) = 1 − P (C c | H 0 es falsa ) se llama “Potencia o poder del

contraste”.
Nota:
(1) α es apropiado si es menor o igual que 0.05 (o no mayor que 5%)
(2) La región C se construye en términos de algún estadístico, llamado
“estadístico de contraste”.
Región Crítica Óptima

Una región crítica C se dice "óptima" si para un nivel α dado, minimiza la
probabilidad β . Las regiones críticas que figuran en los textos y/o paquetes
estadísticos son optimas.
Aunque α y β no son complementarios, sí se puede demostrar que dado un

tamaño de muestra n, α y β van en sentidos contrarios: O sea, si reducimos α
entonces β "crece". Por eso, si deseamos que ambas probabilidades sean
pequeñas, debemos hacer crecer el tamaño de muestra.
Se recomienda escribir la hipótesis de investigación como H 1 y su negación

como H 0 .
7.2 Hipótesis Simples vs Hipótesis Simples: Teorema de Neyman-Pearson
Sea X ~ f X ( x;θ ) y supongamos que sólo hay dos valores posibles para θ : θ = θ 0
o θ = θ1 y tenemos que decidir entre una de las posibilidades. Si escribimos
H 0 : θ = θ 0 y H 1 : θ = θ1 , estamos ante el caso de H 0 simple vs H 1 simple.
Supongamos ahora que el tamaño de muestra n es dado y que hemos fijado una
probabilidad α conocida para el Error I.
Teorema de Neyman-Pearson
En el contexto anterior, la Región Crítica Optima C , o sea aquella que
fijada la probabilidad α de Error I, minimiza la probabilidad β de Error
II, es de la forma:
 L(θ = θ1 ) 
C = ( X 1 , X 2 ,..., X n ) | ≥ k
 L(θ = θ 0 ) 
donde k satisface la ecuación
 L(θ = θ1 ) 
P ≥ k | H0 es verdadera  = α
 L(θ = θ 0 ) 
27
7.3 Hipótesis Simples vs Hipótesis Compuestas: Pruebas Uniformemente
Más Poderosas UMP
Sea X ~ f X ( x;θ ) y supongamos que deseamos contrastar H 0 : θ = θ 0 vs H 1 : θ ∈ ω

donde ω es un conjunto conocido de valores alternativos para θ . Estamos ante
el caso de H0 simple vs H1 compuesta.
Supongamos ahora que el tamaño de muestra n es dado y que hemos fijado una
probabilidad α conocida para el Error I.
Para esta situación no existe un teorema como el de Neyman-Pearson que nos

proporcione una región crítica C óptima que minimice la probabilidad β de
Error II, pues esto depende de cómo es ω
Hipótesis Pseudospimple: Se define mediante H 1 : θ = θ1 (θ1 ∈ ω )

En este contexto H 0 : θ = θ 0 vs H 1 : θ ∈ ω y H 0 : θ = θ 0 vs H 1 : θ = θ1
(θ1 ∈ ω ) son
equivalentes y podemos aplicar el T. de Neyman-Pearson al juego anterior,
donde θ1 es un valor genérico de ω . Sea C (θ1 ) la región crítica obtenida y
supongamos que su construcción es uniformemente válida para todo θ1 ∈ ω . En
este caso podemos garantizar que C es una región uniformemente óptima
(óptima en todas las circunstancias). Este tipo de región crítica se llama
Región Crítica Uniformemente Optima o Uniformemente Más Poderosa (UMP)
Región Crítica Uniformemente Optima (UMP)

Sea X ~ f X ( x;θ ) y sea el juego de hipótesis H 0 : θ = θ 0 vs H 1 : θ ∈ ω donde θ 0 y
ω son conocidos, siendo ω un conjunto de valores alternativos para θ .
Una región crítica C es Uniformemente Optima (o Uniformemente Más Poderosa)

si dado un Nivel α predeterminado y dado un tamaño de nuestra n , la Región
Crítica C satisface el Teorema de Neyman-Pearson para todo θ ∈ ω , no
dependiendo su forma del valor elegido de θ en ω.
Nota
• Si C es UMP, entonces P ( ErrorI ) = P (C | H 0 es verdadera) ≤ α y
β = P( ErrorII ) = P(C | H 0
c
es falsa ) es mínima ∀θ1 ∈ ϖ
• No siempre existe la R.C. UMP
28
7.4 Hipótesis Compuestas vs Hipótesis Compuestas: Test de Razón de
Verosimilitud
Este sistema de generar regiones críticas es bastante general y se aplica

cuando no podemos generar una región crítica UMP.
Sea X ~ f X ( x;θ ) sobre la cual tenemos la hipótesis nula H 0 : θ ∈ ω 0 vs la

hipótesis alterna H 1 : θ ∈ ω 0c (donde ω0 es un conjunto bien definido y ω0c es
su complemento.
) )
Sea θ0 el estimador MV de θ bajo H 0 : θ ∈ ω 0 o sea θ0 maximiza L(θ ) sobre
n
θ ∈ ω0 . La probabilidad de la m.a. bajo H0 es L(θ̂ 0 ) = ∏ f X (x j ; θ̂ 0 )
j=1
)
Sea θ el estimador MV de θ en general, o sea sobre θ ∈ ω 0 ∪ ω 0c . La proba-
n
bilidad de la m.a. es L(θ̂) = ∏f
j =1
X (x j ; θ̂)
Definición (Razón de verosimilitud)

L(θ̂ 0 )
El cociente o "razón de verosimilitud" es λ= . Se cumple que
L(θ̂)
L(θ̂ 0 )
0≤ ≤ 1.
L(θ̂)
Nota: Si H 0 : θ ∈ ω 0 es cierta, esperamos que λ ≅ 1
Definición (Región crítica de Razón de verosimilitud)

La región crítica de Razón de Verosimilitud C se define como el evento
L(θ̂ 0 ) L(θ̂ 0 )
C = {( X 1 , X 2 ,..., X n ) | λ = ≤ λ0 } tal que λ0 satisface P( ≤ λ0 | θ ∈ ω 0 ) = α
L(θ̂) L(θ̂)
Este test se llama "Test de Razón de Verosimilitud"
Propiedad
Si n es "grande" y H 0 : θ ∈ ω 0 es verdadera, entonces − 2 ln(λ ) ~ χ 2 (r ) donde r
es el número de parámetros especificado por H 0 : θ ∈ ω 0 . Esta propiedad puede
usarse para hallar el valor λ0 de determina la zona de rechazo en este test.
29
Fórmulas sobre Modelo de regresión lineal simple
8.1 Uso del modelo de regresión lineal simple
Cuando salvo variaciones aleatorias, una determinada variable cuantitativa X
condiciona a otra variable cuantitativa Y de modo que cambios en X inducen
cambios proporcionales en Y.
Geométricamente lo anterior equivale a que en un plano cartesiano XY, las

parejas de valores (X,Y) siguen una trayectoria rectilínea.
Algebraicamente la proporcionalidad equivale a que X e Y satisfacen la
ecuación Y = α + βX + ε donde α y β son constantes características o sea son
“parámetros” y es una variación aleatoria debida a que los agentes
económicos no siempre tienen el mismo comportamiento.
8.2 Supuestos y parámetros del modelo lineal simple

Dado el modelo Y j = α + βX j + ε j , evaluado en una muestra aleatoria de n parejas
( X 1 , Y1 ), ( X 2 , Y2 ), L , ( X n , Yn ) asumimos que:
(a) E (ε j ) = 0 ∀j
(b) V (ε j ) = σ 2 = constante ∀j
(c) ρ ε jε j ' = 0 ∀j ∀j '
(d) X es de valores predeterminados, medidos antes de registrar los valores
de Y .
Los supuestos implican que E(Y ) = α + βX y V (Y ) = σ 2
Parámetros del modelo

• La constante α , es el valor esperado o promedio de Y cuando X es cero.
• La constante β , llamada la “pendiente” de la recta mide en cuántas uni-
dades se espera que varíe Y cuando X aumenta en 1 unidad.
• σ 2 es la varianza del azar representado por el residuo aleatorio ε ; σ es
la variación promedio arriba o debajo de la recta Y = α + βX + ε { {
Efecto de X Efecto de azar
8.3 Los estimadores de mínimos cuadrados ordinarios (OLS)
Se obtienen aplicando el método de mínimos cuadrados a la función objetivo
[ ]2 que
n
Q (α , β ) = ∑ Y j − α − βX j generan las “ecuaciones normales”:
j =1
 n nX  α  nY 
    n 
 =  X Y 
n
2 
 n X ∑ X 
  ∑

j  β j j
 j =1   j =1 
 n nX  α  nY 
    n 
X j  β   ∑ X jY j  ⇔
=
n
• 2  
Los estimadores satisfacen  n X
 ∑  
 j =1   j =1 
n
∑X Y
j =1
j j − nXY
βˆ = n
; αˆ = Y − βˆ X
∑X − nX
2 2
j
j =1
Estos mismos estimadores se obtienen aplicando Máxima Verosimilitud, bajo el

supuesto adicional ε ~ N (0, σ 2 ) .
n
∑ εˆ 2
j
• La predicción de E (Y ) es Yˆ = αˆ + βˆX o Yˆj = αˆ + βˆX j ; εˆ j = Y j − Yˆj y σˆ 2 = S ε2 = j =1
,
n−2
30
• βˆ es una estimación y su "error de estimación” cuadrático es
σˆ 2
S β2ˆ1 = n
y el Error Estándar de estimación de βˆ es
∑X − nX
2 2
j
j =1
σˆ 2 σˆ 2
e.e.( βˆ ) ≡ S βˆ = = .
n
( n − 1) S X2
∑X − nX
2 2
j
j =1
8.4 Ajuste del Modelo

Se mide qué tan bien son representa el modelo a los datos.
• Con la correlación R = rYYˆ aunque no mide exactamente la coincidencia, pues

la correlación de Pearson mide asociación, no necesariamente coincidencia.
• Con el Coeficiente R2
∑ (Yˆ −Y)
n
2
j
SCR j =1 Variabilidad en Y generada por X
R2 = = n
=
SCT Variabilidad total en Y
∑ (Y
j =1
j − Y )2
R2 mide la proporción de la variabilidad total en Y que es "explicada" o

atribuible a las diferencias en la variable independiente X a través de la
regresión. Es la proporción de diferencias en Y que se deben a las diferen-
cias en X .
Equivalentemente 100R 2 % es el porcentaje de variabilidad (por extensión,
también se dice "% de la varianza") de Y explicada por el modelo.
Nota: Estimación de la correlación de Pearson ρ XY

Se puede probar que una estimación consistente de la correlación de Pearson
ρ XY entre dos variables aleatorias X e Y es
n n
∑ (Y j − Y )( X j − X )
j =1
∑X Yj =1
j j − nXY
ρˆ XY ≡ rXY = = .
(n − 1) S X SY (n − 1) S X SY
Relación entre rXY , βˆ y R
2
rXY SY
• β̂ =
SX
n
r S
• SCR = βˆ ∑ (Y j − Y )( X j − X ) = XY Y × rXY (n − 1)S X SY = rXY
2
(n − 1)SY2
j =1 S X
2
SCR rXY ( n − 1) S Y2
• R2 = = = rXY
2
,
SCT ( n − 1) S Y2
• SCE = SCT − SCR= (n − 1)SY2 [1 − rXY

2
]
8.5 Contrastes en el Análisis de Regresión.

Si asumimos ε j ~ N (0, σ 2 ) además de los supuestos clásicos, tenemos
Proposición 1
σ2
(a) βˆ ~ N ( β1 , σ ) donde
2
βˆ1
σ 2
βˆ1 = n
∑X − nX
2 2
j
j =1
(b) W = (n − 2)σˆ / σ ~ χ (n − 2) . Es decir SCE / σ ~ χ 2 (n − 2)

2 2 2 2
31
Proposición 2
( βˆ1 − β1 ) σˆ 2
t= ~ t (n − 2) donde S βˆ = n
S βˆ1 1
∑X − nX
2 2
j
j =1
8.5.1 Contraste general sobre β

Para contrastar H0 : β = b donde b es un valor hipotético predeterminado, con-
tra las distintas alternativas H 1 uni o bilaterales, alicando variantes del
Teorema de Neyman-Pearson se llega a:
( βˆ − β )
Como en general t = ~ t ( n − 2) , entonces si H0 : β1 = b es cierta, el estadís-
S βˆ1
tico t = ( β1 − b) ~ t (n − 2) y E (t ) = 0 . Entonces un valor de t muy alejado de cero es buena razón para

ˆ
S βˆ1
rechazar H 0 : β = b .
Considerando “muy alejados” de cero a los valores de t que tienen probabili-
dad menor que un nivel de significación α (no confundir con el intercepto del
modelo!) predeterminado, llegamos a:
Hipótesis Nula Hipótesis Alterna Rechazar H 0 si Tipo de contraste

H1 : β > b t > t1− α Unilateral derecho
H0 : β = b H1 : β < b t < −t1−α Unilateral izquierdo
H1 : β ≠ b | t |> t1−α / 2 Bilateral

t1−α y t1−α / 2 percentiles 1 − α y 1 − α / 2 de la tabla t de Student: t(k=n-2)
8.5.2 Contraste de coeficiente nulo H 0 : β = 0

H 0 : β = 0 equivale a decir que Y no depende de X . El estadístico de contraste es
t = βˆ / S βˆ 1
Hipótesis Nula Hipótesis Alterna Rechazar H 0 si Tipo de contraste
H1 : β > 0 t > t1− α Unilateral derecho
H0 : β = 0 H1 : β < 0 t < −t1−α Unilateral izquierdo
H1 : β ≠ 0 | t |> t1−α / 2 Bilateral

t1−α y t1−α / 2 percentiles 1 − α y 1 − α / 2 de la tabla t de Student: t(k=n-2)
Nota:
rXY SY
Como β̂ = y es posible pasar de un coeficiente a otro, entonces el con-
SX
traste de H 0 : β = 0 es equivalente al de H 0 : ρ XY = 0 y al de H 0 : R = 0
2
La consecuencia es que las hipótesis H 0 : β = 0 , H 0 : ρ XY = 0 y H 0 : R 2 = 0 son to-

das equivalentes.
32

Fórmulas Estadística Inferencial PDF

Cargado por

Copyright:

Formatos disponibles

Fórmulas Estadística Inferencial PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Fórmulas Estadística Inferencial PDF

Cargado por

Copyright:

Formatos disponibles

FORMULAS EST-241 ESTADISTICA INFERENCIAL Arturo Calderón G.

Fórmulas sobre Probabilidad y Variable Aleatoria

1.1 σ-álgebra de eventos

Dado un espacio muestral S y una familia A de subconjunto de S, esta familia

Propiedad 2 Si A1 , A2 , L , AN es una sucesión finita de eventos en A, entonces

Propiedad 3 Si A1 , A2 , L , Ak , L es cualquier sucesión numerable de eventos en A,

Propiedad 4 Si A1 , A2 , L , AN es una sucesión finita de eventos en A, entonces

1.2 Definición Axiomática de Probabilidad (Axiomas de Kolmogorov)

Proposición 4: Si A y B son eventos arbitrarios, entonces:

1.3 Probabilidad Geométrica

Factorial de un entero N ! = N × ( N − 1) × ( N − 2) × ... × 3 × 2 × 1. Adicionalmente definimos

Regla del Producto P ( A ∩ B ) = P ( B | A) P ( A) y P ( A ∩ B ∩ C ) = P (C | A ∩ B ) P ( B | A) P ( A)

1.7 Probabilidad Total

1.8 Teorema de Bayes

2.1 Definición Si S es un espacio muestral, una variable aleatoria X ,

2.3 Función de Densidad

(4) Lim Fx (t ) = 0 y Lim Fx (t ) = 0

(5) P[a < X ≤ b] = FX (b ) − FX (a )

• Si X es discreta con RX = { x1,x2,...,xN-1,xN...} donde x1<x2<...<xN-1<xN..

• Si X es continua, entonces fX(x) = F’X(x)

2.5 Valor Esperado o Esperanza Matemática

Función Generatriz de Momentos M X (t ) = E (e )

(2) X e Y variable aleatorias, entonces M X (t ) = M Y (t ) ⇔ FX = FY

Fórmulas sobre las Principales Distribuciones

PX ( x) = P( X = x) = Cxn p x q n − x donde x = 0,1,2,L, n

E ( X ) = µ X = np ; V ( X ) = σ X2 = npq y M X (t ) = ( pet + q)n −∞<t <∞

PX ( x) = P( X = x) = Crx−−11 p r q x−r x = r, r + 1, r + 2,L

E( X ) = µ X = λ ; V ( X ) = σ X2 = λ y M X (t ) = e λ ( e −1) − ∞ < t < ∞

• E evento que se presenta en puntos aleatorios del tiempo (o del espacio),

Si t > 0 es un valor dado y definimos X = # de veces que ocurre E en el

6. Distribución Exponencial Exp( x; β )

• En un proceso de Poisson, si T := Tiempo que transcurre hasta que ocurre E

• En un proceso de Poisson, si T := Tiempo que transcurre hasta que ocurre E

Función matemática Gamma Γ ( p ) = ∫ y p −1e y dy p>0

(1) Γ( p) = ( p − 1)Γ( p − 1) p >1

donde el número n de sumandos es grande ( n ≥ 30 ), ⇒ T ~ N ( µ T , σ ) , donde 2

9. Distribución Lognormal LogN ( µ , σ 2 )

10. Distribución Uniforme U ( x;α , β )

11. Distribución beta Beta ( x; α , β )

3.2 Distribuciones Conjunta, Marginales y Condicionales

3.2.1 Caso discreto

Función de Probabilidad Conjunta

(c) P[( X , Y ) ∈ A] = ∑∑ PXY ( x, y)

Función de Probabilidad Marginal

La Función de Probabilidad Marginal de Y es PY ( y ) = ∑ PXY ( x, y )

Función de Probabilidad Condicional

Función de Densidad Conjunta

Nota (Integrales dobles)

nidas en términos de funciones, como A = {( x, y ) | a ≤ x ≤ b, h1 ( x) ≤ y ≤ h2 ( x)},

Función de Densidad Condicional

3.3 Valor Esperado

3.3.2 Casos Especiales

3.3.3 Propiedades del Valor Esperado

• E[C ] = C para toda constante C

3.3.4 Esperanza Condicional E[Y | X ]

3.3.5 Vector de Medias y Matriz de Varianza Covarianza

Vector de Medias y Matriz de Varianza-Covarianza

En términos de vector particionado se escribe

3.4.2 Valor Esperado