Fórmulas Estadística Inferencial PDF
Fórmulas Estadística Inferencial PDF
Fórmulas Estadística Inferencial PDF
A1) Si A ∈ A ⇒ AC ∈ A
(A
A 2) ∅ ∈ A
(A
A3) Si A1 , A2 , L , Ak , L es cualquier sucesión numerable de eventos en A, enton-
(A
∞
ces UA k ∈A
k =1
Propiedad 1 S ∈ Ad
UA k ∈A
k =1
IA k ∈A
k =1
A1) a (A
Una familia definida según (A A3), contiene a todos los eventos que po-
damos construir por unión e intersección de conjuntos, o sea A es “cerrada”
bajo estas operaciones.
(1) 0 ≤ P ( A)
(2) P( S ) = 1
(3) Si A1, A2,... An,... es una sucesión de eventos mutuamente excluyentes,
entonces
∞ ∞
P (∪ Ai ) = ∑ P ( Ai )
i =1
i =1
Propiedades de la Probabilidad
Proposición 1: P (∅) = 0
Proposición 2: Si A1, A2,... AN es una sucesión de N eventos mutuamente exclu-
yentes, entonces
N N
P (∪ Ai ) = ∑ P ( Ai )
i =1
i =1
1
FORMULAS EST-241 ESTADISTICA INFERENCIAL Arturo Calderón G.
Proposición 3: P ( A) + P ( A ) = 1
C
0 ≤ P ( A) ≤ P ( B ) ≤ 1
• Principio de la Multiplicación
Si una ‘operación’ A puede realizarse u ocurrir de a maneras diferentes y
otra ‘operación’ B puede realizarse de b maneras diferentes, entonces la
operación compuesta AXB consistente en realizar A primero y luego realizar B,
se puede realizar de (axb) maneras distintas.
• Principio de la Adición
Si una ‘operación’ A puede realizarse u ocurrir de a maneras diferentes y
otra ‘operación’ B puede realizarse de b maneras diferentes, siendo ambas
operaciones excluyentes, entonces la operación compuesta A ó B consistente en
realizar A o realizar B pero no ambas, se puede realizar de (a+b) maneras
distintas.
Permutaciones y Combinaciones
Proposición
El número total de Permutaciones de tamaño r tomadas de un conjunto con n
elementos distintos es: Prn = n! /( n − r )!
Proposición
El número total de de Combinaciones (subconjuntos) de tamaño r formadas a
partir de un conjunto con n elementos es C r = n! (n − r )! r!
n
∞ ∞
r 1
−1 < r < r ⇒ ∑r = ∑rk =
k
Serie geométrica: Si y
k =1 1− r k =0 1− r
n
Binomio de Newton: (a + b) n = ∑ C kn a k b n − k
k =0
P ( B ∩ A)
1.5 Probabilidad Condicional P (B | A) = = la probabilidad de B cuando S
P ( A)
se reduce al evento A.
P (B ) = ∑ (B | A )P(A )
j
j j
2. Variable Aleatoria
2.1.2 Clasificación
Según R X de una variable aleatoria X es Continua si R X es un intervalo y
X es Discreta Si R X es un conjunto finito o numerable
2.2 Función de Probabilidad PX (x)
Si X es v.a. discreta, la función de probabilidad de X , es PX ( x) = P ( X = x)
Propiedades de PX (x) .
(a) 0 ≤ PX ( x ) ≤ 1 ∀x
(b) ∑ P (x ) = 1
x∈R X
X donde x ∈ R X indica que la suma se hace sobre todos los x que
pertenecen a R X
(c) P( X ∈ A) = ∑ P (x )
X ∀A ⊆ R X
x∈A
P (a < X ≤ b ) = ∫ f X ( x)dx
a
Propiedades.
(a) 0 ≤ f X ( x ) ∀x
+∞
(b) ∫f
−∞
X ( x)dx = ∫f
RX
X ( x)dx = 1
(c) P( X ∈ A) = ∫ f X ( x)dx
A
3
FORMULAS EST-241 ESTADISTICA INFERENCIAL Arturo Calderón G.
2.4 Función de Distribución Acumulativa
Si X es una v.a., se define la Función de Distribución Acumulativa de X ,
denotada FX , mediante FX ( x ) = P ( X ≤ x) ∀x real
Propiedades de FX(x)
(1) 0 ≤ FX (t ) ≤ 1 para todo t real.
(2) a < b ⇒ FX (a ) ≤ FX (b )
(3) FX es continua a la derecha (‘diestro continua’), ie.
FX (t ) = Lim+ Fx (t + h ) para todo t real
h →0
Propiedades adicionales:
(1) Si X es discreta, entonces F X (b) = ∑ PX ( x)
x j | x j ≤b
t
(2) Si X es continua, entonces ∫-∞
f X ( x )dx = FX (t ) para todo t real
∑ H ( x)P X ( x) si X es Discreta
E [H ( X )] = { x ∈ RX
+∞
∫−∞
H ( x ) f X ( x )dx si X es Continua
La Media Poblacional µ = µ X = E ( X )
La Varianza Poblacional σ 2 = σ X2 = V ( X ) := E[( X − µ X ) 2 ]
Desigualdad de Tchebychev
X v.a. con media µ X y desviación estándar σ X . Sea k una constante positiva
dada, entonces:
1
P[| X − µ X |< kσ X ] ≥ 1 − 2
k
Propiedad 1 E (c ) = c .
Propiedad 2 E [aH 1 ( X ) + bH 2 ( X )] = aE [H 1 ( X )] + bE [H 2 ( X )] .
Corolarios
(1) V ( X ) = E ( X 2 ) − µ X2 .
(2) Si Y = a + bX ∀X , entonces E (Y ) = a + bE ( X ) y V (Y ) = b 2V ( X ) .
4
FORMULAS EST-241 ESTADISTICA INFERENCIAL Arturo Calderón G.
Propiedades
(1) M X
(k )
(0) = E ( X k ) , si existe el valor esperado
Uso
X = # de veces que ocurre un determinado evento A sobre un total fijo de n
repeticiones u observaciones independientes de un experimento.
n
Binomio de Newton: (a + b) = ∑ C kn a k b n − k
n
k =0
2. Distribución Geométrica G ( x; p)
PX ( x ) = P( X = x ) = pq x −1 x = 1,2,3,L
pe t
E( X ) = µ X = 1/ p ; V(X ) = σ 2
= q/ p 2
y M X (t ) = t < − ln q .
X
1 − qe t
Uso
X = # de veces que se debe repetir un experimento hasta lograr que ocurra un
determinado suceso A por primera vez.
∞ ∞
r 1
−1< r <1 ⇒ ∑r = ∑r =
k k
Serie geométrica: Si y
k =1 1− r k =0 1− r
3. Distribución de Pascal o Binomial Negativa Bn( x; r , p )
E( X ) = µ X = r / p y V ( X ) = σ X2 = rq / p 2 .
Uso
X = # de veces que se debe repetir un experimento hasta lograr que ocurra un
determinado suceso A por r-ésima vez.
5
FORMULAS EST-241 ESTADISTICA INFERENCIAL Arturo Calderón G.
4. Distribución Hipergeométrica H ( x; N , M , n)
CxM CnN−−xM
PX ( x) = P( X = x) = x = 0,1,..., n
CnN
M M N −M N −n
E( X ) = µ X = n y V ( X ) = σ X2 = n( )( )( ) . M X (t ) es poco útil.
N N N N −1
Uso
X = # de casos con una característica A de interés en una muestra de n
casos tomados al azar y sin reemplazo de una población de tamaño N de los
cuales M en total tienen esa característica.
5. Distribución de Poisson P ( x; λ )
e−λ λ x
PX ( x ) = x = 0,1,2,3,L
x!
Uso
• Si X ~ B ( x; n, p ) , n → ∞ y p → 0 ⇒ np → λ , entonces B( x;n,p ) ≅ P( x; λ ) .
f X ( x) = β e− β x x>0
β
E( X ) = µ X = 1 / β ; V ( X ) = σ X2 = 1 / β 2 y M X (t ) = ( ) t<β
β −t
Uso
• Como un modelo en general
6
FORMULAS EST-241 ESTADISTICA INFERENCIAL Arturo Calderón G.
7. Distribución Gamma Γ( x;α , β )
xα −1e− x / β
f X ( x) = α x>0
β Γ(α )
1 1
E ( X ) = µ X = αβ ; V ( X ) = σ X2 = αβ 2 y M X (t ) = si t<
β
α
(1 − β t )
Uso
• Como un modelo en general
8. Distribución Normal N ( µ , σ 2 )
e − ( x − µ ) / 2σ
2 2
f X ( x) = −∞ < x < ∞
2π σ
t2 2
tµ + σ
E( X ) = µ X = µ , V ( X ) = σ =σ M X (t ) = e −∞ < t < ∞
2 2 2
X y
Propiedad
X ~N ( µ , σ 2 ) e Y = a + bX ⇒ Y ~ N (a + bµ , b 2σ 2 )
Uso
• Como un modelo en general
• Teorema del Límite Central: X 1 , X 2 ,L , X n ,L variables aleatorias indepen-
n
dientes con medias µ1 , µ 2 ,L, µ n ,L y varianzas σ 12 ,σ 22 ,L ,σ n2 ,L y T := ∑ X j
j =1
k − np
• X ~ B ( x;n,p) y n es "grande" ⇒ P( X ≤ k ) ≈ P( Z ≤ )
npq
e− (ln x − µ ) / 2σ
2 2
f X ( x) = x>0
x 2πσ
X ~ LogN ( µ , σ 2 ) ⇔ ln X ~ N ( µ , σ 2 )
1 t2 2
tµ + σ
σ =V (X ) = e 2 µ + 2σ 2 2 µ +σ 2
µ+ σ 2
µ X = E( X ) = e 2 ;
2
X −e y E( X ) = e
t 2
7
FORMULAS EST-241 ESTADISTICA INFERENCIAL Arturo Calderón G.
Uso
• Como un modelo en general
• Teorema del Límite Central para productos: W1 , W2 ,L , Wn ,L variables alea-
torias positivas e independientes tales que existe E (ln W j ) y V (ln W j ) ∀j y
n
sea W := ∏W
j =1
j donde el número n de factores es grande ( n ≥ 30 ), ⇒
n n
ln W ~N ( µ , σ 2 ) , donde µ = ∑ E (ln W j ) y σ 2 = ∑ V (ln W j )
j =1 j =1
1
f X ( x) = α ≤x≤β
β−α
α+β (β − α ) 2
E( X ) = µX = ; V ( X ) = σ X2 = . M X (t ) es poco útil
2 12
Uso
• Como un modelo en general
• Se toma un punto al azar de [α , β ] y X = Valor obtenido ⇒ X ~ U ( x;α , β )
• Si Y ~ fY ( y ) y X := FY ( X ) ⇒ X ~ U ( x; 0,1)
Γ(α + β ) α −1
f X ( x) = x (1 − x) β −1 , 0 ≤ x ≤ 1
Γ(α )Γ( β )
α αβ
E( X ) = µ X = ; V ( X ) = σ X2 = . M X (t ) es poco útil
α +β (α + β ) (α + β + 1)
2
Uso
• Como un modelo para proporciones.
1 Γ(α ) Γ( β )
Función matemática Beta B (α , β ) = ∫ y α −1 (1 − y ) β −1 dy =
0
Γ(α + β )
8
FORMULAS EST-241 ESTADISTICA INFERENCIAL Arturo Calderón G.
Fórmulas sobre Vector Aleatorio Bidimensional
3.1 Definición y Clasificación
Definición
Un vector aleatorio ( X , Y ) es un vector cuyas componentes son variables
aleatorias X e Y definidas conjuntamente sobre el mismo espacio muestral.
El conjunto de posibles parejas ( X , Y ) se denota R XY y se llama Rango del
vector ( X , Y )
Clasificación
( X , Y ) se dice discreto si sus componentes son v.a. discretas
( X , Y ) se dice continuo si sus componentes son v.a. continuas
( X , Y ) es mixtos, si tiene una componente discreta y otra continua
PXY ( x, y ) = P[( X = x ) ∩ (Y = y )]
Propiedades
(a) PXY ( x, y ) ≥ 0
(b) ∑∑ PXY ( x, y ) = 1
x y
9
FORMULAS EST-241 ESTADISTICA INFERENCIAL Arturo Calderón G.
3.3.1 Definición
Si ( X , Y ) es vector aleatorio y H ( X , Y ) es una función de ( X , Y ) , se define el
Valor Esperado de H ( X , Y ) , denotado E[ H ( X , Y )] , mediante
∑∑ H ( x, y ) PXY ( x, y ) si ( X , Y ) es discreto
x y
E[ H ( X ,Y )] = + ∞ + ∞
∫ ∫ H ( x, y ) f XY ( x, y )dxdy si ( X , Y ) es continuo
− ∞ − ∞
10
FORMULAS EST-241 ESTADISTICA INFERENCIAL Arturo Calderón G.
• σ XY ≡ Cov( X , Y ) := E[( X − µ X )(Y − µ Y )] (Covarianza entre X e Y ). Mide asociación
lineal entre X e Y
Interpretación de σ XY :
• σ XY > 0 X e Y están asociadas directamente.
• σ XY < 0 X e Y están asociadas inversamente.
• Si σ XY = 0 , no hay relación lineal entre X e Y , aunque puede haber una
relación no lineal
σ XY
Coeficiente de Correlación de Pearson ρ XY = , mide lo mismo que σ XY pero
σ Xσ Y
carece de unidades y está acotado entre –1 y 1
Propiedades de ρ XY
• 0 ≤| ρ XY |≤ 1
• ρ XY > 0 indica asociación directa o positiva entre X e Y
• ρ XY < 0 indica asociación inversa o negativa entre X e Y
• | ρ XY |= 1 ⇔ Existen constantes α y β tales que Y = α + βX
• | ρ XY |≅ 1 indica que entre X e Y hay asociación (lineal) 'fuerte'
• | ρ XY |≅ 0 indica que entre X e Y hay asociación (lineal) 'débil'
Propiedad:
Sean T = ( X + Y ) y D = ( X − Y ) entonces:
• µT = µ X + µY y σ T2 = σ X2 + σ Y2 + 2 ρ XY σ X σ X
• µ D = µ X − µ Y y σ D2 = σ X2 + σ Y2 − 2 ρ XY σ X σ X
∑ H ( x, y ) PY | X ( y | x) si ( X , Y ) es discreto
y
E[ H ( X , Y ) | X = x] = + ∞
∫ H ( x, y ) f Y | X ( y | x ) si ( X , Y ) es continuo
−∞
Casos especiales
• µ Y | X = E[Y | X = x] , es el valor esperado de Y en la distribución condicional
de Y dado X = x . También se llama Función de Regresión de Y sobre X y
11
FORMULAS EST-241 ESTADISTICA INFERENCIAL Arturo Calderón G.
suele ser una función de X que se usa para pronosticar el valor de Y
cuando se conoce el valor de X .
• σ Y2| X = V [Y | X = x ] = E[Y 2 | X = x] − ( E[Y | X = x]) 2 , es la varianza condicional y
mide la variación de Y alrededor de la función de regresión E[Y | X ] = ϕ ( X )
Propiedad
• E ( E[Y | X ]) = E[ϕ ( X )] = E[Y ]
• V (Y ) = E (V [Y | X ]) + V ( E[Y | X ])
Nota:
X E ( X ) X X 12
Se puede definir en general E := y si M = 11 es matriz
Y E (Y ) X 21 X 22
E ( X 11 ) E ( X 12 )
aleatoria, definimos E ( M ) = .
E ( X 21 ) E ( X 22 )
Propiedad
σ 2 σ XY X − E ( X )
• Σ = X = E
2
( X − E ( X ), Y − E (Y ) )
σ XY σ Y Y − E (Y )
X
• U 2 x1 = vector aleatorio con vector de medias µU y matriz de varianza
Y
a11a12 b
covarianza ΣU ; sean A2 x 2 = y B2 x1 = 1 matrices dadas. Si
a 21 a 22 b2
W a a12 X b1
definimos el vector V2 x1 = AU + B (o sea V2 x1 = = 11 + ),
Z a 21 a 22 Y b2
entonces el vector de medias de V es µV = AµU + B y su matriz de varianza
covarianza es ΣV = AΣU AT respectivamente.
12
FORMULAS EST-241 ESTADISTICA INFERENCIAL Arturo Calderón G.
3.4 Vector Aleatorio n-dimensional
Definición
Un vector cuyas componentes son n variables aleatorias definidas
conjuntamente
r
• Un vector aleatorio n-dimensional (fila) es de la forma X1xn = ( X 1 , X 2 ,..., X n )
• Un vector aleatorio n-dimensional (columna) es de la forma
r
X nx1 = ( X 1 , X 2 ,..., X n ) T .
Matriz aleatoria
Una matriz aleatoria M de orden n × m es una matriz M = M ij ( ) n×m
de nxm
variables aleatorias M ij i = 1,2,..., n j = 1,2,..., m definidas conjuntamente sobre el
mismo espacio muestral S .
Vector particionado
Cuando se tiene un vector aleatorio X nx1 = ( X 1 , X 2 ,..., X n ) T , a veces es útil se-
parar partes de él, por ejemplo X nx1 = ( X 1 , L , X p , X p +1 , L , X n ) T donde las primeras
p componentes forman un subvector X px1 = ( X 1 , L , X p ) T de orden px1 y el resto de
(n-p) componentes un subvector X ( n − p ) x1 = ( X p +1 , L , X n ) T . En este contexto se es-
cribe X nx1 = ( X 1 M X 2 ) T donde X 1 = ( X 1 , L , X p )T y X 2 = ( X p +1 , L , X n )T . O más explíci-
tamente, en formato de vector columna:
X1
M
X X X1 X p +1
p 1
X nx1 = L = L donde X 1 = M y X 2 = M .
X X X X
p +1 2 p n
M
X
n
3.4.1 Distribuciones
Las nociones de distribución conjunta f X 1 X 2 KX n ( x1 , x 2 , K , x n ) ; distribuciones
marginales f X 1 ( x1 ), f X 2 ( x 2 ),..., f X n ( x n ) ; y condicionales f X i | X j ( xi | x j ) , son extensiones
directas del caso bivariado. En particular es importante:
Definición de Independencia.
X 1 , X 2 ,K, X n se dicen independientes si:
n
f X 1 X 2 KX n ( x1 , x 2 , K , x n ) = f X 1 ( x1 ) f X 2 ( x 2 ) K f X n ( x n ) ≡ ∏ fX j
(x j )
j =1
Nota
En verdad, se necesita que esta regla se cumpla con todos los subconjuntos de
componentes del vector, por ejemplo, debe cumplirse que
f X 1 X 2 ( x1 , x2 ) = f X1 ( x1 ) f X 2 ( x2 ); f X1 X 2 X 3 ( x1 , x 2 , x3 ) = f X 1 ( x1 ) f X 2 ( x 2 ) f X 3 ( x3 ); etc.
13
FORMULAS EST-241 ESTADISTICA INFERENCIAL Arturo Calderón G.
La función de distribución conjunta f X 1 X 2K X n ( x1 , x 2 , K , xn ) ≡ f X nx1 ( xnx1 ) ≡ f X 1 X 2 ( x1 , x2 ) ,
donde en la última expresión X 1 ∈ R p y X 2 ∈ R n − p son subvectores
La distribución marginal del subvector X 1 ∈ R p como
f X 1 ( x1 , K , x p ) ≡ f X px1 ( x px1 ) ≡ f X 1 ( x1 )
La distribución marginal del subvector X 2 ∈ R n − p como
f X 2 ( x p +1 , K , xn ) ≡ f X ( n − p ) x1 ( x( n − p ) x1 ) ≡ f X 2 ( x2 )
La distribución condicional del subvector X 1 ∈ R p , dado el subvector
f X 1 X 2 ( x1 , x 2 )
X 2 ∈ R n − p , como f X 1| X 2 ( x1 | x2 ) =
f X 2 ( x2 )
n− p
X1 ∈ R p
y X2 ∈R son independientes si f X 1 X 2 ( x1 , x 2 ) = f X 1 ( x1 ) f X 2 ( x2 ) ∀x1 ∀x 2
14
FORMULAS EST-241 ESTADISTICA INFERENCIAL Arturo Calderón G.
X1
• Matriz de Varianza-covarianza del vector particionado X nx1 =L
X
2
2
σ 1 σ 12 L σ 1 p
σ 1( p +1) L σ 1n
Σ11 Σ12 σ 2( p +1) L σ 2 n
Σ X = (σ ij )n×n =
donde Σ11 = σ 21 σ 2 L σ 2 p , Σ12 =
2
Σ 21 Σ 22 nxn M M M
M M M σ
σ 2 p ( p +1) L σ pn
p1 σ p2 L σ p
σ ( p +1)1 L σ ( p +1) p 2
σ ( p +1)( p+1) σ ( p +1)( p +2 ) L σ ( p +1) n
σ L σ ( p+2) p
Σ 21 = ( p + 2 )1 y Σ 22 = σ ( p + 2 )( p +1) σ (2p +2 )( p + 2 ) L σ ( p + 2 ) n . Nótese que Σ11 es
M M M
σ M M M
n1 L σ np
σ σ L σ 2
n ( p +1) n ( p+2) nn
Propiedad
Σ Xr es simétrica y semidefinida positiva, esto es Y T Σ Xr Y ≥ 0 para todo vector
no nulo Y ∈ R n
Proposición
r r r r r
Sea X vector aleatorio y sean H 1 ( X ), H 2 ( X ),..., H k ( X ) k funciones reales de X
(esto es H j : R n → R ). Sean α 1 , α 2 , L , α k constantes (o también variables pero no
k r k r
aleatorias), entonces se cumple E [ ∑α
j =1
j H j ( X )] = ∑ α j E[ H j ( X )]
j =1
Proposición
r r r r
Sea X vector aleatorio y sean H 1 ( X ), H 2 ( X ),..., H k ( X ) k funciones vectoriales de
r
X (esto es H j : R n → R m ). Sean α 1 , α 2 , L , α k constantes (o también variables,
k r k r
pero no aleatorias), entonces se cumple E [ ∑ α j H j ( X )] =∑ α j E[ H j ( X )]
j =1 j =1
15
FORMULAS EST-241 ESTADISTICA INFERENCIAL Arturo Calderón G.
Proposición
r r
Sea X vector aleatorio n-dimensional X 1 xn = ( X 1 , X 2 ,..., X n ) de componentes inde-
n n
pendientes entonces E[ ∏ H j ( X j )] = ∏ E[ H j ( X j )]
j =1 j =1
Corolario
r r
Sea X vector aleatorio n-dimensional X 1 xn = ( X 1 , X 2 ,..., X n ) tal que sus compo-
nentes son independientes, entonces se cumple σ ij = Cov( X i , X j ) = 0
Proposición
r r
Sea X vector aleatorio n-dimensional X1xn = ( X 1 , X 2 ,..., X n ) y sean α 1 , α 2 , L , α k
constantes (o también variables no aleatorias). Entonces:
n n n n
• E[ ∑ α j X j ] = ∑ α j E[ X j ] y V[ ∑ α j X j ] =∑ α 2j V [ X j ] + 2∑ α iα j Cov(X i , X j )
j =1 j =1 j =1 j =1 i< j
Corolario
n n
Si X 1 , X 2 ,..., X n son independientes, entonces E[ ∑ α j X j ] = ∑ α j E[ X j ] y
j =1 j =1
n n n n n n
V[ ∑ α j X j ] =∑ α 2j V [ X j ] . En particular E[∑ X j ] =∑ E[ X j ] y V[ ∑ X j]= ∑V [ X j ]
j =1 j =1 j =1 j =1 j =1 j =1
Nota:
n n
Si X 1 , X 2 ,..., X n son independientes, entonces E ( ∏ X j)= ∏ E( X j ) pero no ocurre lo
j =1 j =1
n n
mismo con las varianzas, esto es: V ( ∏ X j)≠ ∏V ( X j )
j =1 j =1
Proposición
Si Anxm es matriz constante (o no aleatoria) entonces E ( Anxm ) = Anxm
Proposición
Si Anxq es matriz de constante (o no aleatoria) y M qxm es matriz aleatoria
( ) ( )
entonces E Anxq M qxm = Anxq E M qxm . O en notación más simple E ( AM ) = AE (M ) .
Proposición
Si C pxm es matriz de constante (o no aleatoria) y M nxp es matriz aleatoria
( ) ( )
entonces E M nxp C pxm = E M nxp C pxm . O en notación más simple E (MC ) = E (M )C .
En general podemos escribir E ( AMC + B ) = AE (M )C + B donde A , B y C son
matrices no aleatorias y M es matriz aleatoria.
Proposición
r
Sea X nx1 vector columna con vector de medias µ Xr y matriz de varianza
r r r
covarianza Σ Xr . Sea Ymx1 otro vector tal que Ymx1 = Amxn X nx1 + Bmx1 donde Amxn y Bmx1
son no aleatorias. Entonces µYr = Aµ Xr + B y Σ Yr = AΣ Xr AT
Propiedad
r
Si X nx1 tiene componentes con distribución normal con vector de medias µ Xr y
r r r
matriz de varianza covarianza Σ Xr y Ymx1 = Amxn X + Bmx1 entonces Ymx1 tiene
componentes con distribución normal con µYr = Aµ Xr + B y Σ Yr = AΣ Xr AT
16
FORMULAS EST-241 ESTADISTICA INFERENCIAL Arturo Calderón G.
Fórmulas sobre Muestreo y Estadísticas
4.1.1 Población
Si X ~ f X ( x ) variable aleatoria con rango R X . La Población de X se define
como el conjunto {( x, f X ( x)) | x ∈ R X }.
4.1.2 Muestra Aleatoria
Si X es variable aleatoria, una muestra aleatoria de tamaño n (m.a.) es un
vector aleatorio n -dimensional ( X 1 , X 2 ,..., X n ) cuyas componentes representan el
proceso de repetir n veces, y de manera independiente, el experimento
aleatorio que genera a X , registrando los valores obtenidos.
Se cumple
• R X = R X j ; f X j ( x j ) = f X ( x j ) y F X j ( x j ) = FX ( x j ) ∀j
n
• f X1 X 2 K X n ( x1 , x 2 , K , x n ) = f X 1 ( x1 ) f X 2 ( x 2 ) K f X n ( x n ) = f X ( x1 ) f X ( x 2 ) K f X ( x n ) ≡ ∏ f X ( x j )
j =1
4.1.3 Estadística
Es una función h ( X 1 , X 2 ,..., X n ) que sólo depende de las componentes de la muestra
aleatoria ( X 1 , X 2 ,..., X n ) .
∑X
j =1
j
• X := es la media muestral
n
n n
∑(X − X )2 ∑X − nX
2 2
j j
j =1 j =1
• S 2 := = es la varianza muestral
n −1 n −1
Propiedad 1
Si ( X 1 , X 2 ,..., X n ) es m.a. tomada de la población de una v.a. X con media µ y
σ2
varianza σ 2 , entonces E [ X ] = µ y V [ X ] =
n
Observación:
m2 k − ( m k ) 2
E ( M k ) = mk y V (M k )
n
Propiedad 2
E(S 2 ) = σ 2
17
FORMULAS EST-241 ESTADISTICA INFERENCIAL Arturo Calderón G.
Propiedad 4 (Teorema Central del Límite para X )
Sea ( X 1 , X 2 ,..., X n ) m.a. tomada de la población de una v.a. X con media µ y
varianza σ 2
finitas, entonces si n es suficientemente grande (n ≥ 30) , se
X −µ X −µ
cumple que Z = = n( ) ~ N (0,1)
σ σ
n
Distribución asociada a S2
Si de una distribución normal N ( µ , σ 2 ) se toma una m.a. ( X 1 , X 2 ,..., X n ) de tamaño
n y W = (n − 1) S 2 / σ 2 , entonces W = (n − 1) S 2 / σ 2 ~ χ 2 (k = n − 1)
Distribución de S2
Si de una distribución normal N ( µ , σ 2 ) se toma una m.a. ( X 1 , X 2 ,..., X n ) de tamaño
n −1 2σ 2
n , entonces S 2 ~ Γ(α = ,β = )
2 n −1
Corolario:
2
n − 1 2σ 2σ 4
2
n − 1 2σ
2
E [ S ] = αβ =
2
=σ 2
y V [ S 2
] = αβ 2
= =
2 n − 1 2 n − 1 n −1
18
FORMULAS EST-241 ESTADISTICA INFERENCIAL Arturo Calderón G.
4.4 Otras distribuciones importantes.
Propiedad
Si de una distribución normal N ( µ , σ 2 ) se toma una m.a. ( X 1 , X 2 ,..., X n ) de tamaño
( X − µ)
n y se define la variable t mediante t= entonces t ~ t (k = n − 1)
S
n
4.4.2 Distribución F de Fisher
Definición (Variable F )
Sean V con distribución χ 2 (k1 ) y W con distribución χ 2 (k 2 ) , variables inde-
V / k1
pendientes. Se define la variable F , mediante F = .
W / k2
Proposición (Distribución F de Fisher)
k1 + k 2 k1
Γ(
) k1 k2 2
−1
2 f
La función de densidad de F es g F ( f ) = k 2k 2 k1 + k2
, f >0
k1 k2 1 2
Γ( )Γ( ) (k1 + k 2 f ) 2
2 2
k1 es llamado "grados de libertad del numerador" y k 2 es llamado "grados de
libertad del denominador".
Notación: F ~ F (k1 , k 2 )
Propiedad
F tiene distribución F (k1 , k 2 ) si y sólo si 1 / F tiene distribución F (k 2 , k1 ) .
Propiedad
Sean Y1 con distribución N ( µ1 , σ 12 ) e Y1 con distribución N ( µ 2 , σ 22 ) y sean S12
y S 22 varianzas de respectivas muestras independientes de tamaños n y m .
S12 / σ 12
Entonces F := ~ F ( n − 1, m − 1) .
S 22 / σ 22
Propiedad
Si T ~ t ( k ) , entonces T 2 ~ F (1, k )
19
FORMULAS EST-241 ESTADISTICA INFERENCIAL Arturo Calderón G.
Fórmulas sobre Estimación Puntual
5.1 Definiciones básicas
Sea X ~ f X ( x; θ ) donde θ es parámetro o vector de parámetros de valor
desconocido.
Estimador
Un estimador de un parámetro θ es una estadística θˆ = θˆ( X 1 , X 2 ,..., X n ) cuyo valor
una vez tomada la m.a. se usa como aproximación de θ
5.3.1 Insesgamiento
θˆ se dice Insesgado si E (θˆ) = θ ∀θ ∈ Θ
5.3.2 Eficiencia
~
Sean θˆ y θˆ dos estimadores insesgados del mismo parámetro θ . Diremos que θˆ
~ ~
es más eficiente que θˆ si V (θˆ ) < V (θˆ )
(2) E [θˆ] = θ ∀θ ε Θ
(3) θˆ es de varianza mínima en relación a cualquier otro estimador lineal e
insesgado de θ
constantes α1,α2,...,αn.
5.3.3 Consistencia
Sea ( X 1 , X 2 ,..., X n ) m.a. de tamaño n y sea θˆ un estimador de θ. Diremos que θˆ
es Consistente si lim P(| θˆ − θ |≤ ε ) = 1 ∀ ε > 0
n→∞
En sentido estricto, como para cada n hay un estimador θˆ , debiera escribirse
θˆn y decirse que " θˆn = θˆ ( X 1 , X 2 ,..., X n ) es estimador consistente de θ si
lim P(| θˆn − θ |≤ ε ) = 1 ∀ ε > 0 "
n→∞
20
FORMULAS EST-241 ESTADISTICA INFERENCIAL Arturo Calderón G.
Proposición
Si θˆ es un estimador de θ tal que
(1) lim E (θˆ) = θ ( θˆ es "asintóticamente insesgado") y
n→∞
(2) lim V (θˆ) = 0 ( θˆ es "asintóticamente eficiente")
n→∞
Entonces θˆ un estimador consistente de θ.
Propiedades:
Sean {Wn } y {V n } sucesiones tales que existen P lim Wn y P lim Vn entonces
1. P lim(Wn ± Vn ) = P lim Wn ± P lim Vn
2. P lim(Wn × Vn ) = P lim Wn × P lim Vn
3. P lim(Wn / Vn ) = P lim Wn / P lim Vn si P lim Vn ≠ 0
Definiciones Básicas
Sean X ~ f X ( x; θ ) una v.a. y θ = (θ1 , θ 2 ,..., θ p ) vector de parámetros por estimar. La
forma de f X ( x; θ ) no necesariamente es conocida.
Momentos Poblacionales
El k-ésimo momento poblacional mk se define mediante mk = E ( X k ) , si existe el
correspondiente valor esperado
Momentos Muestrales
Si ( X 1 , X 2 ,..., X n ) es m.a. tomada de la población de X , el k-ésimo momento
n
∑X
j =1
k
j
Propiedad
M k es estimador insesgado de mk y si existe m2 k , además M k es estimador
Consistente de mk
21
FORMULAS EST-241 ESTADISTICA INFERENCIAL Arturo Calderón G.
Definición
Si mk es función de θ1 , θ 2 ,..., θ p , o sea mk = hk (θ1 , θ 2 ,..., θ p ) k = 1,2,..., p , de modo que
se cumple:
m1 = h1 (θ1 , θ 2 ,..., θ p )
m2 = h2 (θ1 , θ 2 ,..., θ p )
M
m p = h p (θ1 , θ 2 ,..., θ p )
Diremos que θˆ1 , θˆ2 ,... θˆp estimadores de θ1 , θ 2 ,..., θ p respectivamente, son estima-
dores obtenidos mediante el Método de Momentos, si son solución al sistema de
ecuaciones:
Función de Verosimilitud
Sea X ~ f X ( x; θ ) donde θ es parámetro o vector de parámetros de valor
desconocido, definimos la función de verosimilitud de θ , L(θ ) como la dis-
tribución conjunta de la muestra vista como función del parámetro θ . Es
n
decir L(θ ) = ∏ f X j ( x j ;θ ) θ ε Θ
j =1
22
FORMULAS EST-241 ESTADISTICA INFERENCIAL Arturo Calderón G.
Supuestos Clásicos
Dado el modelo Y = ϕ ( X ; θ ) + ε y una m.a. de n parejas de observaciones ( X 1 , Y1 ),
( X 2 , Y2 ),L, ( X n , Yn ) que satisfacen la correspondiente relación Y j = ϕ ( X j ;θ ) + ε j ,
asumiremos que:
(1) E (ε j ) = 0 ∀j
(2) V (ε j ) = σ 2 ∀j (Homogeneidad de varianzas u Homocedasticidad)
(3) Cov(ε i , ε j ) = 0 ∀i ≠ j (No autocorrelación)
(4) ϕ ( X ;θ ) es una función sin error de especificación (de forma conocida y
correcta)
(5) X j es variable no aleatoria o siéndolo tiene sus valores ya dados.
[ ]
n
Mín Q (θ ) = ∑ Y j − ϕ ( X j ;θ ) s.a θ ∈ Θ
2
θ j =1
αˆ = Y − βˆ X
j =1
23
FORMULAS EST-241 ESTADISTICA INFERENCIAL Arturo Calderón G.
Proposición (Teorema de Gauss-Markov)
En el modelo Y j = α + βX j + ε j y bajo los supuestos clásicos, los estimadores MCO α̂ y β̂
son MELI de α y β respectivamente.
en una incógnita más del problema. Por lo general en el MELI con una función
lineal afín, resulta que c0 =0 y por tanto es irrelevante la distinción entre
n n
función lineal ∑c Y
j =1
j j y función lineal afín c0 + ∑c Y
j =1
j j , pero para ciertos mo-
Propiedad 1
En el contexto de la definición anterior, si la función γ = h(θ ) además tiene
inversa θ = h −1 (γ ) , entonces los métodos de Momentos, Máxima Verosimilitud y
Mínimos Cuadrados tienen la propiedad de invarianza.
Propiedad 2
En general, el método de Máxima Verosimilitud tiene la propiedad de
invarianza, esto es, si θ ∈ R p y γ ∈ R q ( q ≤ p ) son parámetros tales que
γ = h(θ ) y θ~MV y γ~MV son los estimadores máximo verosímiles de θ y
γ respectivamente, entonces se cumple que γ~MV = h(θ~MV )
R1: Si .
R2: no depende de .
R3: El verdadero valor de es “punto interior” del espacio paramétrico .
R4: es función tres veces diferenciable de (
R5:
R6: donde es una función definida en un entorno del
verdadero valor de :
Si el tamaño de muestra n es grande, θˆ tiene distribución normal: θˆ ~ N (θ ,σ θ2ˆ ) donde
−1
∂
σ θ2ˆ = nE[( ln f X ( x;θ )) 2 ] .
∂θ
Corolario
Bajo las condiciones de regularidad, el estimador MV θˆ de θ es consistente y
asintóticamente insesgado.
24
FORMULAS EST-241 ESTADISTICA INFERENCIAL Arturo Calderón G.
Observación:
También se suele presentar el I.C. escribiendo lo siguiente:
25
FORMULAS EST-241 ESTADISTICA INFERENCIAL Arturo Calderón G.
Fórmulas sobre Prueba o Contraste de Hipótesis
7.1 Elementos
Hipótesis Estadística
Es una afirmación acerca de la distribución poblacional asociada a una varia-
ble X . La denotamos mediante H .
Hipótesis Alterna
Es aquella que nos queda si se rechaza H 0 . Esta hipótesis se denotará H 1 .
Región Crítica
Denotada C , es un evento cuya ocurrencia conduce al rechazo de H0.
Error Tipo I
Es el error que se produce si se rechaza H 0 injustamente siendo verdadera)
Error Tipo II
Es el error que se produce si se acepta H 0 siendo falsa
Metodología general
Identificar un Tomar la
Asumir H0 como evento C muestra y
verdadera Muy poco probable si H0 ver si
es cierta ocurre C
Sí
Rechazar H0 ¿Ocurre C?
No
Aceptar H0
26
FORMULAS EST-241 ESTADISTICA INFERENCIAL Arturo Calderón G.
Dada una región crítica C , es posible cometer ó el Error I ó el Error II. La
probabilidad del Error I se denota α , y la probabilidad del Error II se
denota β , esto es:
Nota:
(1) α es apropiado si es menor o igual que 0.05 (o no mayor que 5%)
(2) La región C se construye en términos de algún estadístico, llamado
“estadístico de contraste”.
Sea X ~ f X ( x;θ ) y supongamos que sólo hay dos valores posibles para θ : θ = θ 0
o θ = θ1 y tenemos que decidir entre una de las posibilidades. Si escribimos
H 0 : θ = θ 0 y H 1 : θ = θ1 , estamos ante el caso de H 0 simple vs H 1 simple.
Supongamos ahora que el tamaño de muestra n es dado y que hemos fijado una
probabilidad α conocida para el Error I.
Teorema de Neyman-Pearson
En el contexto anterior, la Región Crítica Optima C , o sea aquella que
fijada la probabilidad α de Error I, minimiza la probabilidad β de Error
II, es de la forma:
L(θ = θ1 )
C = ( X 1 , X 2 ,..., X n ) | ≥ k
L(θ = θ 0 )
L(θ = θ1 )
P ≥ k | H0 es verdadera = α
L(θ = θ 0 )
27
FORMULAS EST-241 ESTADISTICA INFERENCIAL Arturo Calderón G.
7.3 Hipótesis Simples vs Hipótesis Compuestas: Pruebas Uniformemente
Más Poderosas UMP
Supongamos ahora que el tamaño de muestra n es dado y que hemos fijado una
probabilidad α conocida para el Error I.
Nota
• Si C es UMP, entonces P ( ErrorI ) = P (C | H 0 es verdadera) ≤ α y
β = P( ErrorII ) = P(C | H 0
c
es falsa ) es mínima ∀θ1 ∈ ϖ
• No siempre existe la R.C. UMP
28
FORMULAS EST-241 ESTADISTICA INFERENCIAL Arturo Calderón G.
7.4 Hipótesis Compuestas vs Hipótesis Compuestas: Test de Razón de
Verosimilitud
Propiedad
Si n es "grande" y H 0 : θ ∈ ω 0 es verdadera, entonces − 2 ln(λ ) ~ χ 2 (r ) donde r
es el número de parámetros especificado por H 0 : θ ∈ ω 0 . Esta propiedad puede
usarse para hallar el valor λ0 de determina la zona de rechazo en este test.
29
FORMULAS EST-241 ESTADISTICA INFERENCIAL Arturo Calderón G.
Fórmulas sobre Modelo de regresión lineal simple
8.1 Uso del modelo de regresión lineal simple
Cuando salvo variaciones aleatorias, una determinada variable cuantitativa X
condiciona a otra variable cuantitativa Y de modo que cambios en X inducen
cambios proporcionales en Y.
[ ]2 que
n
Q (α , β ) = ∑ Y j − α − βX j generan las “ecuaciones normales”:
j =1
n nX α nY
n
= X Y
n
2
n X ∑ X
∑
j β j j
j =1 j =1
n nX α nY
n
X j β ∑ X jY j ⇔
=
n
• 2
Los estimadores satisfacen n X
∑
j =1 j =1
n
∑X Y
j =1
j j − nXY
βˆ = n
; αˆ = Y − βˆ X
∑X − nX
2 2
j
j =1
∑ εˆ 2
j
• La predicción de E (Y ) es Yˆ = αˆ + βˆX o Yˆj = αˆ + βˆX j ; εˆ j = Y j − Yˆj y σˆ 2 = S ε2 = j =1
,
n−2
30
FORMULAS EST-241 ESTADISTICA INFERENCIAL Arturo Calderón G.
• βˆ es una estimación y su "error de estimación” cuadrático es
σˆ 2
S β2ˆ1 = n
y el Error Estándar de estimación de βˆ es
∑X − nX
2 2
j
j =1
σˆ 2 σˆ 2
e.e.( βˆ ) ≡ S βˆ = = .
n
( n − 1) S X2
∑X − nX
2 2
j
j =1
∑ (Y j − Y )( X j − X )
j =1
∑X Yj =1
j j − nXY
ρˆ XY ≡ rXY = = .
(n − 1) S X SY (n − 1) S X SY
Relación entre rXY , βˆ y R
2
rXY SY
• β̂ =
SX
n
r S
• SCR = βˆ ∑ (Y j − Y )( X j − X ) = XY Y × rXY (n − 1)S X SY = rXY
2
(n − 1)SY2
j =1 S X
2
SCR rXY ( n − 1) S Y2
• R2 = = = rXY
2
,
SCT ( n − 1) S Y2
∑X − nX
2 2
j
j =1
31
FORMULAS EST-241 ESTADISTICA INFERENCIAL Arturo Calderón G.
Proposición 2
( βˆ1 − β1 ) σˆ 2
t= ~ t (n − 2) donde S βˆ = n
S βˆ1 1
∑X − nX
2 2
j
j =1
Nota:
rXY SY
Como β̂ = y es posible pasar de un coeficiente a otro, entonces el con-
SX
traste de H 0 : β = 0 es equivalente al de H 0 : ρ XY = 0 y al de H 0 : R = 0
2
32