Apuntes EstMat
Apuntes EstMat
Apuntes EstMat
Estadı́stica Matemática
Ernesto Barrios Zamudio
3 de enero de 2024
Versión 0.34
Índice
Prefacio 3
1. Introducción 4
1.1. Deducción e Inferencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
3. Distribuciones Muestrales 21
3.1. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
4. Resultados Lı́mite 27
4.1. Modos de convergencia de variables aleatorias . . . . . . . . . . . . . . . . . 27
4.2. Otros resultados lı́mite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
4.3. Ley de los grandes números . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
4.4. Teorema central del lı́mite . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4.5. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
5. Estimadores 35
5.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
5.2. Principios de estimación puntual . . . . . . . . . . . . . . . . . . . . . . . . 37
5.3. Estimación de parámetros . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
5.4. El método de momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
5.5. El método de máxima verosimilitud . . . . . . . . . . . . . . . . . . . . . . 44
5.6. Principio de Invarianza de EMV . . . . . . . . . . . . . . . . . . . . . . . . 51
5.7. Teorı́a de grandes muestras para EMV . . . . . . . . . . . . . . . . . . . . . 51
5.8. Cota inferior de Cramér-Rao . . . . . . . . . . . . . . . . . . . . . . . . . . 56
5.9. Estadı́sticos suficientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
1
Apuntes para Estadı́stica Matemática 2
7. Contraste de Hipótesis 79
7.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
7.2. Definiciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
7.3. Lema de Neyman–Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
7.4. Hipótesis compuestas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
7.4.1. Pruebas uniformemente más potentes . . . . . . . . . . . . . . . . . 93
7.4.2. Pruebas dos colas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
7.4.3. Pruebas de hipótesis e intervalos de confianza . . . . . . . . . . . . . 94
7.5. Cociente de verosimilitud generalizado (CVG) . . . . . . . . . . . . . . . . . 96
7.5.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
7.5.2. CVG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
7.5.3. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
7.5.4. Distribución asintótica del cociente de verosimilitudes generalizado
(CVG) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
7.5.5. Prueba Ji-cuadrada para bondad de ajuste . . . . . . . . . . . . . . 101
7.6. Bondad de Ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
7.6.1. Gráficas de Probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . 103
7.6.2. Función de distribución empı́rica . . . . . . . . . . . . . . . . . . . . 105
7.6.3. Prueba Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . . . . 107
7.7. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
Referencias 110
Prefacio
Las condiciones en que continuamos este año 2021 ha motivado el trabajo. La imposibi-
lidad de compartir mis notas personales por su desorden me llevó a hacer manuscritos con
la mayorı́a del material del temario de Cálculo de Probabilidades I. En paralelo, comencé
a pasar las notas a una presentación más formal usando LATEX. La mayorı́a de las gráficas
están hechas con R y algunos de los dibujos con LATEX mismo o Mayura. Este documento
es el resultado.
Estas apuntes son precisamente eso, unos apuntes o notas para apoyar el curso Estadı́sti-
ca Matemática que ofrezco anualmente en ITAM.
Las notas de apoyo para el curso de Cálculo de Probabilidades I y II las encuentra en
Barrios (2024a) y Barrios (2024b).
Durante el curso es mi responsabilidad motivar y ligar los distintos temas y en este
sentido las notas son de apoyo al desarrollo teórico y técnico de los mismos. No se pretende
que los temas sean autocontenidos ni son una versión muy preliminar de algo más elaborado
y formal. No es material para ser referenciado.
Cualquier error que identifique, comentario y/o sugerencia serán bienvenido. Dirı́jalo a Er-
nesto Barrios <ebarrios at itam.mx>.
1. Introducción
¿Qué es la estadı́stica?1
Esta pregunta se planteó en fecha tan temprana como 1898 –refiriéndose a la
Royal Statistical Society– y desde entonces se ha vuelto a plantear muchas veces.
La persistencia de la pregunta y la variedad de respuestas que se le han dado a
lo largo de los años son por sı́ mismas un fenómeno notable.Tomadas en conjun-
to, indican que la persistente perplejidad se debe a que la estadı́stica no es una
materia única. La estadı́stica ha cambiado radicalmente desde sus primeros dı́as
hasta la actualidad, yendo de ser una profesión que reivindicaba una objetividad
tan extrema que los estadı́sticos sólo reunirı́an datos –sin analizarlos–, hasta ser
una profesión que busca asociarles con los cientı́ficos en todas las etapas de la
investigación, desde la planeación hasta el análisis. Igualmente, la estadı́stica
presenta diferentes rostros de las diferentes ciencias: en algunas aplicaciones,
aceptamos los modelos cientı́ficos como si provinieran de la teorı́a matemáti-
ca; en otras, construimos un modelo que pueda adquirir luego un estatus tan
sólido como cualquier construcción newtoniana. En algunas situaciones somos
planificadores activos y analistas pasivos; en otras, somos lo opuesto. Con tantas
caras, y con las consiguientes dificultades para mantener el equilibrio y evitar
tropiezos, no debe sorprender que la pregunta sobre qué es la estadı́stica haya
surgido una y otra vez, siempre que se enfrenta un nuevo reto, sean ls estadı́sti-
cas económicas de la década de 1830, sean las cuestiones biológicas de la de los
1930 o las preguntas imprecisamente planteadas sobre big data en los tiempos
que corren.
Dada la gran variedad de preguntas, aproximaciones e interpretaciones estadı́sti-
cas, ¿acaso no existe un núcleo duro de la ciencia de la estadı́stica? Si nos de-
dicamos de manera central a trabajar en tantas ciencias diferentes, desde el
estudio de ls polı́ticas públicas hasta la validación del descubrimiento del bosón
de Higgs, y si a veces se nos considera como un simple personal técnico, ¿real-
mente podemos asumirnos, en un sentido razonable, como practicantes de una
disciplina unificada, incluso una ciencia por mérito propio? . . . Intentaré formu-
lar siete principios, siete pilares que en el pasado han sostenido nuestra disciplina
de diferentes maneras y que prometen hacerlo también en el futuro. Cada uno
de ellos fue revolucionario cuando se presentó, y que cada uno se mantiene como
un avance conceptual importante y profundo.
Estadı́stica descriptiva
Resumen
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
Descripción
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
Universo o Población
General
Inducción
Deducción
(inferencia)
Particular
Figura 2: Deducción–Inducción.
P(A ∩ B)
PA (B) = , para todoB ∈ S
P(A)
Inferencia
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
Muestra
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
Universo o Población
convertirı́a en cosa de ingenio ad hoc. Por supuesto, dicho ingenio no debe ser
subestimado y de hecho, uno de los papeles de la teorı́a es asimilar, generalizar
y quizás modificar y mejorar los frutos de ese ingenio.
Mucho de la teorı́a tiene que ver con indicar la incertidumbre involucrada en
las conclusiones del análisis estadı́stico y la valoración los méritos relativos a los
diferentes métodos de análisis, lo que es importante aún en un nivel de meras
aplicaciones para tener una comprensión de las fortalezas y limitaciones de tales
discusiones. Esto tiene que ver con temas un poco más filosóficos relacionados
con la naturaleza de la probabilidad. Una razón final, y muy buena, porque el
estudio de la teorı́a es en sı́ interesante.
Inferencia estadı́stica
Ejemplo : Considere una moneda y se pregunta por las posibilidades de que en un lanza-
miento caiga águila. (
1 águila
X=
0 sol
Supone que P(X = 1) = p y que P(X = 0) = q = 1 − p. Entonces, se está asociando
X ∼ Ber(p) ¿Qué se puede decir del valor de p? Para responderlo de manera objetiva
podemos lanzar varias veces la moneda y suponer que cada lanzamiento es independiente
de los otros en el sentido de que el resultado de un lanzamiento no influye ni se ve afectado
por la salida de los otros. Luego, si además suponemos que la probabilidad no cambia
entre lanzamientos. El procedimiento lo podrı́amos modelar como una sucesión de ensayos
Bernoulli, {Xi }, donde Xi = representa la salida del i-ésimo lanzamiento, entonces, se puede
pensar a {Xi } como una sucesión de variables aleatorias independientes e idénticamente
distribuidas (v.a.i.i.d.).
Si se considera lanzar n veces la moneda, X1 , . . . , Xn son v.a.i.i.d. y en este caso repre-
senta una muestra aleatoria (m. a.) de tamaño n.
H0 : µX = µY vs. H1 : µX > µY
En palabras: la hipótesis nula H0 supone que no hay diferencia entre ellas y ellos, mientras
que la hipótesis alternativa H1 supone que ellas obtienen calificaciones más altas que ellos.
Ahora bien, para intentar responder la pregunta de manera objetiva se tomarı́an mues-
tras aleatorias de ambas poblaciones, X y Y , y por ejemplo, se compararı́an los promedios
D̄ = X̄ − Ȳ . ¿La diferencia es importante? ¿Qué tanto? Note que siempre corre el ries-
go de concluir en error. Por ejemplo, declarar que aunque las muestras sugirieran que no
hay diferencia entre los dos grupos, en realidad ellas tienen calificaciones más altas que
ellos. O bien, concluir que ellas son mejores porque se observó que D̄ > 0, pero eso no es
generalizado.
El tipo de preguntas que se presentan en el ejemplo anterior y bajo diferentes escenarios
y distribuciones también son tema del la inferencia estadı́stica y se abordarán en la segunda
parte del curso.
1.2. Ejercicios
Refiérase a la Lista de Ejercicios 1.
Textos de apoyo
Chihara and Hesterberg (2019); Mood, Graybill, and Boes (1974); Wackerly, Men-
denhall III, and Scheaffer (2008).
i) Si A ∈ S, entonces AC ∈ S.
ii) Si A1 , A2 , · · · ∈ S, entonces ∪∞
i=1 Ai ∈ S.
P(AC ) = 1 − P(A).
P(∅) = 0.
P(A\B) = P(A) − P(A ∩ B).
P(A ∪ B) = P(A) + P(B) − P(A ∩ B).
Probabilidad condicional.
Si (Ω, S, P) es un espacio de probabilidad y A ∈ S tal que P(A) > 0, se define
P(A ∩ B)
PA (B) = = P(B|A), para todo B ∈ S
P(A)
A1 , A2 , . . . se dicen
Q eventos mutuamente independientes si para todo n se cumple
que P(∩ni=1 Ai ) = ni=1 P(Ai ).
Regla de Bayes. Sea {Ai } una partición de Ω. Entonces, para todo evento B,
P(B|Ak )P(Ak )
P(Ak |B) = P
j=1 P(B|Aj )P(Aj )
m(t) = E[etX ]
2.4. Desigualdades
Markov: Sea X una v. a. positiva. Entonces, para todo k > 0,
E[X]
P(X ≥ k) ≤
k
2 . Entonces, para todo ϵ > 0,
Chabyshev: Sea X una v. a. con media µX y varianza σX
2
σX
P(|X − µX | ≥ ϵ) ≤
ϵ2
Jensen: Sea X v. a. y h función convexa, entonces
E[h((X)] ≥ h E[X]
Distribuciones condicionales.
Sea X = (X1 , . . . , Xn ) con f. p. a. conjunta F . X se dice que es de componentes
independientes X1 , . . . , Xn , si y solo si, para todo x = (x1 , . . . , xn ) y t = (t1 , . . . , xn ),
f (u, x2 )
donde h(u) = f (u|x2 ) = . En esta definición, la función f (·|x2 ) se dice la
f2 (x2 )
función de densidad condicional de X1 dado X2 = x2 .
Regla de Bayes
f (x|y)fY (y)
f (y|x) = R
R f (x|v)fY (v)dv
cov(X, Y ) σXY
ρXY = corr(X, Y ) = p =
var(X)var(Y ) σX σY
Basta que una se cumpla para que las otras dos también se cumplan.
2.6. Transformaciones
Teorema de transformación. Sea X v. a. con f. d. p. fX y g una función con
inversa h = g −1 diferenciable y tal que dh
dy ̸= 0. Si Y = g(X) es una variable aleatoria.
Entonces, fY , la f. d. p. de Y está dada por
dh
fY (y) = fX (h(y))
dy
donde |Jh| denota el valor absoluto del determinante de la matriz jacobiana (∂hi /∂yj ).
Ejemplos
√
Sean Z ∼ N(0, 1) y Y ∼ χ2n independientes. Defina T = nZY −1/2 y U = Y .
√
i) Defina T = nZY −1/2 , U = Y y utilice el teorema de transformación para
encontrar la f. d. p. conjunta de (T, U ).
ıii) Encuentre la distribución marginal de T . Muestre que la f. d. p. de T está
dada por
Γ( n+1 ) n+1
fT (t) = √ 2 n (1 + t2 /n) 2 , para todo t ∈ R
nπΓ( 2 )
Pn
Sean X1 , . . . , Xn , . . . , v.a.i.i.d.’s con Xi ∼ Ber(p). Entonces, i=1 Xi ∼ Bin(n, p).
Pn
Solución: X ∼ Ber(p), mX (t) = 1 + pet . Entonces, Sn = i=1 Xi tiene un
n
f. g. m. dada por mSn (t) = q + pet , que corresponde a la f. g. m. de una
distribución Bernoulli parámetros n y p. Se concluye del teorema de unicidad
que Sn ∼ Ber(n, p).
Pn
SeanPX 1 , . . . , Xn , . . . , v. a.’s independientes con Xi ∼ Po(λi ). Entonces, i=1 Xi ∼
Po( ni=1 λi ).
t Pn
Solución: X ∼ Po(λi ), mi (t) = ePλ(e −1) . Entonces, Sn = i=1 Xi tiene un f.
t n
g. m. dada por mSn (t) = e(e −1)P i=1 λi , que corresponde a la f. g. m. de una
n
distribución Poisson
Pn parámetro i=1 λi . Se concluye del teorema de unicidad
que Sn ∼ Po( i=1 λi ).
Pn
Sean
Pn X 1 , . . . ,
Pn X n , . . . , v. a.’s independientes con Xi ∼ N(µ i , σi
2 ). Entonces,
i=1 Xi ∼
N( i=1 µi , i=1 σi ). 2
estadı́stico f. d. p. f. p. a. n
mı́n X(1) f1 (x) = nf (x)[1 − F (x)]n−1 F1 (x) = 1 − 1 − F (x)
n−1 n
máx X(n) fn (x) = nf (x) F (x) Fn (x) = F (x)
Ejercicios :
Sea U = (U1 , . . . , Un ) una m. a. de U ∼ Unif(a, b). Encuentre la distribución de
U(n) = máx{U1 , . . . , Un }.
U(k) ∼ Beta(k, n + 1 − k)
Proposición : Sea X una variable aleatoria con k-ésimo momento finito, k > 2 y sea h
una función k veces diferenciable, entonces
σ2 µ(3) µ(k−1) 1
E[h(X)] = h(µ) + h(2) (µ) + h(3) (µ) + · · · + h(k−1) (µ) + E[h(k) (ξ)(X − µ)k ]
2 3! (k − 1)! k!
h(1) h(2)
E[h(X)] = h(0) (µ) + (µ)E[(X − µ)] + (µ)E[(X − µ)2 ] + · · ·
1! 2!
h(k−1) 1
+ (µ)E[(X − µ)k−1 ] + E[h(k) (ξ)(X − µ)k ]
(k − 1)! k!
y se sigue el resultado.
2 . Si la función h es
Corolario : Sea X una variable aleatoria con media µX y varianza σX
al menos dos veces diferenciable,
h(2) (µX ) 2
E[h(X)] ≈ h(µX ) + σX
2
Demostración: Tome k = 2 en la proposición anterior.
2
σX
E[h(X)] = h(µX ) + h′′ (µX ) + Residuo
2
2 . Si la función h es
Corolario : Sea X una variable aleatoria con media µX y varianza σX
al menos dos veces diferenciable,
2 2
var[h(X)] ≈ h′ (µX ) σX
′
Demostración: Sea H = h2 , H ′ = 2hh , H ′′ = 2hh′′ + 2(h′ )2 . Entonces, se sigue del corolario
anterior que
σ2
E[H(X)] ≈ H(µX ) + H ′′ (µX ) X
2
h 2
2 i σ X
= h2 (µX ) + 2h(µX )h′′ (µx ) + 2 h′ (µX )
2
2 y h
Teorema : Método Delta Sea X una variable aleatoria con media µX , varianza σX
una función dos veces diferenciable. Entonces,
h(2) (µX ) 2
E[h(X)] ≈ h(µX ) + 2 σX
2 2
var[h(X)] ≈ h′ (µX ) σX
√
Ejemplo : Sea U ∼ Unif(0, 1), h(x) = X. Considere Y = h(X). Mediante el método
delta aproxime µY , σY2 y σY .
2 = 1/12 = 0.0833 y σ = 0.2887.
Solución: X ∼ Unif(0, 1), entonces µX = 0.5, σX X
1√
x3/2
Z
TEI 1 2
E[Y ] = xdx = = = 0.667
0 3/2 0 3
1 √ x3/2
Z
TEI 1 1
E[Y 2 ] = ( x)2 dx = = = 0.5
0 3/2 0 2
" −3/2 #
σ 2 √ 1 1 0.0833
µY ≈ h(µX ) + h′′ (µX ) X = 0.5 + − = 0.7022
2 4 2 2
2
′
2 2 1
σY2 ≈ h (µX ) σX = (0, 5)−1/2 0.0833 = 0.0589
2
σY ≈ 0.2427
2.9. Ejercicios
Refiérase a la Lista de Ejercicios 2, problemas 15-18.
Textos de apoyo
Blitzstein and Hwang (2014); Hoel, Port, and Stone (1971); Mood, Graybill, and Boes
(1974).
3. Distribuciones Muestrales
Definición : Z se dice que sigue una distribución normal estándar y se denota por
Z ∼ N(0, 1) si tiene f. d. p. dada por
1 1 2
ϕ(z) = √ e− 2 z , para todo z ∈ R
2π
Definición : Sea Z ∼ N(0, 1), µ ∈ R y σ > 0. Entonces X = µ + σZ, se dice que sigue
una distribución normal con media µ y varianza σ 2 , y se denota por X ∼ N(µ, σ 2 ). X
tiene f. d. p. dada por
2
1 −1 x−µ
f (x) = √ e 2 σ
, para todo x ∈ R
2πσ
λα α−1 −λy
f (y) = y e , para y > 0
Γ(α)
Z
Definición : Sean Z ∼ N(0, 1) y Y ∼ χ2n independientes. Defina T = p . Entonces, T
Y /n
tiene una f. d. p. dada por
Γ( n+1 ) n+1
fT (t) = √ 2 n (1 + t2 /n)− 2 , para todo t ∈ R
nπΓ( 2 )
con el uso del cambio de variable u = x/z y B(α1 , α2 ) denota la función Beta3 La función
fZ corresponde a la f. d. p. de una distribución Gamma con parámetro de forma (α1 + α2 )
y parámetro tasa λ.
R1 Γ(α1 )Γ(α2 )
3
B(α1 , α2 ) = 0
uα1 −1 (1 − u)α2 −1 du = Γ(α1 +α2 )
.
n2 w)
2
χ2n1 /n1
Definición : Sean Xi ∼ χ2ni independientes y defina W = . Entonces F tiene un
χ2n2 /n2
f. d. p. dada por el corolario anterior y se dice que sigue la distribución F con n1 y n2
grados de libertad. Se denota W ∼ Fn1 ,n2 ≡ F (n1 , n2 ).
= (n − 1)σ 2
pero
X X X
tT D = ti (Xi − X) =
ti Xi − X ti
X X X
= ti Xi − ntX = ti Xi − t Xi
X
= (ti − t)Xi
Ası́,
X Xs X
sX + ti (Xi − X) = + (ti − t̄) Xi = ai Xi
n
donde ai = ns + (ti − t̄). Ahora, note que (ti − t̄) = ti − nt̄ = 0, luego
P P
X Xs X
ai = + (ti − t̄) = s + (ti − t̄) = s
n
2 X 2
X
2
Xs s sX X
2 s2 X
ai = + (ti − t̄) = + 2 (ti − t̄) + (t i − t̄) = + (ti − t̄)2
n n2 n n
Además,
T
P
m(X,D) (s, t) = mX (a) = E[ea X ] = E[e ai Xi ]
ind Xi′ s Y Y 1 2 2
= E[eai Xi ] = eµai + 2 ai σ
( )
X σ2 X 2
= exp µ ai + ai
2
" #
2
σ s 2 X
= exp µs + + (ti − t̄)2
2 n
( ) ( )
1 σ2 2 σ2 X 2
= exp µs + s · exp (ti − t̄)
2 n 2
= mX (s) · mD (t)
1 2 2
1
Xi ∼ N(µ, σ 2 /n), por lo que su f. g. m. es mX (s) = eµs+ 2 s σ /n
P
Note que X = n . Por
σ2
−t̄)2
P
(ti
lo que mD (t) = e 2 .
X −µ
Proposición : X = (X, . . . , Xn ), m. a. de X ∼ N(µ, σ 2 ). Entonces, √ ∼ tn−1 .
S/ n
Demostración:
X−µ
√
X −µ N(0, 1)
σ/ n
√ =q ≡q ∼ tn−1
S/ n n−1 2
S /(n − 1) χ2 /(n − 1)
σ 2 n−1
Proposición : Sean Xn1 = (X1 , . . . , Xn1 ) m. a. X ∼ N(µ1 , σ12 ) y Yn2 = (Y1 , . . . , Yn2 ) m. a.
de Y ∼ N(µ2 , σ22 ) independientes. Entonces,
2
SX σ12
∼ F (n1 − 1, n2 − 1)
SY2 σ22
= S12 = n11−1 ni=1
2 1 Pn2
(Xi −X)2 , SY2 = S22 = )2 . Luego,
P 1
Demostración: Sea SX n1 −1 i=1 (Yi −Y
ni −1 2
σi2
Si ∼ χ2ni −1 , i = 1, 2 independientes. Entonces,
n1 −1 2
σ12
S1 /(n1 − 1)
n2 −1 2 ∼ F (n1 − 1, n2 − 1)
σ22
S2 /(n2 − 1)
S12 σ12
Por lo tanto, ∼ F (n1 − 1, n2 − 1).
S22 σ22
3.1. Ejercicios
Refiérase a la Lista de Ejercicios 3, problemas 1–15.
Textos de apoyo
Blitzstein and Hwang (2014); Hoel, Port, and Stone (1971); Mood, Graybill, and Boes
(1974); Wackerly, Mendenhall III, and Scheaffer (2008).
4. Resultados Lı́mite
4.1. Modos de convergencia de variables aleatorias
Sea (Ω, S, P) un espacio de probabilidad (EP) y sean X y X1 , X2 , . . . variables aleatorias
definidas sobre ese EP. A continuación se presentan distintos modos de convergencia de
sucesiones de va’s. Las definiciones fueron tomadas de Roussas (1997).
Definición : Se dice que {Xn } converge casi seguramente o que converge con pro-
cs cp1
babilidad 1 a X y se denota por Xn −→ X, o bien, Xn −→ X, si para “casi todo” ω ∈ Ω 4 ,
Xn (ω) −→ X(ω).
cs
Esto es, Xn −→ X, si ∀ ϵ > 0 y ∀ ω ∈ Ω\D, ∃ N (ω, ϵ), tal que
| Xn (ω) − X(ω) |< ϵ, n>N
El tipo de convergencia casi segura se le conoce también como convergencia fuerte.
P
Definición : Se dice que {Xn } converge
en probabilidad a X y se denota por Xn −→ X,
si para todo ϵ > 0, P | Xn − X |> ϵ −→ 0.
Esto es, si ∀ ϵ > 0 y δ > 0, ∃ N (ϵ, δ), tal que
P | Xn − X |> ϵ < δ, n > N
Note que la convergencia en probabilidad implica que P | Xn − X |≤ ϵ −→ 1. El tipo de
convergencia en probabilidad se le conoce también como convergencia débil.
Definición : Se
mc dice que {X n } converge en media cuadrática a X y se denota por
Xn −→ X, si E | Xn − X |2 −→ 0.
Esto es, si ∀ ϵ > 0 ∃ N (ϵ), tal que
h i
E | Xn − X |2 < ϵ, n > N
D
Definición : Se dice que {Xn } converge en distribución a X y se denota por Xn −→ X,
si Fn (x) −→ F (x) para todo x ∈ C(F ), puntos de continuidad de F , la f. p. a. de X y las
Fn ’s las correspondientes de Xn .
Esto es, si ∀ ϵ > 0 y todo x ∈ C(F ), ∃ N (ϵ, x), tal que
| FX (x) − F (x) |< ϵ, n>N
Note que convergencia en distribución no implica la convergencia de las correspondientes
f. d. p. ó f. m. p.. Considere por ejemplo,
0
si x < 1 − 1/n
Fn (x) = 1/2 si 1 − 1/n ≤ x < 1 + 1/n
1 si x ≥ 1 + 1/n
Entonces, Fn (x) −→ F (x) = 1[1,∞) (x), que es la función de distribución que asigna toda la
probabilidad al punto x = 1. Sin embargo, para todo x ∈ R,
1 1
fn (x) = 1{1− 1 ,1+ 1 } (x) −→ f (x) = 1{1} (x)
2 n n 2
que no es f. d. p..
ii. Si para todo t ∈ R, {φn (t)} converge a una función g(t), continua en t = 0, entonces, g
es una función caracterı́stica, y si F es la correspondiente f. p. a. entonces, Fn (x) −→
F (x), para todo x ∈ C(F ),
Teorema de mapeo continuo. Sea {Xn } y X v. a.’s y g una función continua. Entonces,
P P
i. Si Xn −→ X, entonces g(Xn ) −→ g(X).
D D
ii. Si Xn −→ X, entonces, g(Xn ) −→ g(X).
ii. Versión débil (LDGN). Sean las Xn v. a.’s con media finita µ. Entonces,
P
X̄n −→ µ
Demostración:
ii. La demostración se sigue del inciso anterior pues convergencia casi segura implica la
convergencia en probabilidad. Sin embargo, si además supone que las v. a.’s tienen
varianza σ 2 finita , su demostración sigue de la desigualdad de Chebyshev. A saber,
sea ϵ > 0,
2
σX̄ σ 2 /n
P | X̄n − µ |≥ ϵ ≤ 2n = 2 −→ 0
ϵ ϵ
pues E[X̄n ] = µ y var(X̄n ) = σ 2 /n.
Notas:
E[Sn ] −→ ±∞ ; E[X̄n ] −→ µ
var(Sn ) −→ +∞ ; var(X̄n ) −→ 0
Note al crecer n, en el caso de la suma Sn , ésta “explota”, mientras que la media muestral
X̄n , se “colapsa” en el sentido que converge a la constante µ.
La versión del teorema central del lı́mite que aquı́ se presenta es conocida como de
Lindberg-Lévy.
Teorema central de lı́mite (TCL) Sean Sn y X̄n como antes. Entonces, para las variables
n −nµX √n −µ
estandarizadas Zn = S√ 2
= X̄ 2
X
, se tiene que
nσX σX /n
D
Zn −→ Z ∼ N(0, 1)
Demostración: Sin pérdida de generalidad suponga que las propias Xi ’s ya son estandariza-
das, E[Xi ] = 0 y var(Xi ) = 1 y suponga que X tiene función generadora de momentos mX
finita. Entonces,
i). L(0) = 0.
d m′ (t)
ii). L′ (0) = log(mX (0)) = X =0
dt mX (t)
t=0
2
mX (t)m′′X (t) − m′X (t)
′′ d2 1(1) − 02
iii). L (0) = 2 log(mX (0)) = = = 1
dt m2X (t) 1
t=0
√
√ n √ √ L(t/ n)
log(m√ nX̄n (t)) = log mX (t/ n) = n log(mX (t/ n)) = nL(t/ n) =
1/n
√ √
L(t/ n) L′ (t/ n)(− 12 n−3/2 )t
lı́m = lı́m , Regla de L’Hopital
n→∞ 1/n n→∞ −n−2
√
L′ (t/ n)t
= lı́m
n→∞ 2n−1/2
√
L′′ (t/ n)(− 12 n−3/2 )t2
= lı́m , Regla de L’Hopital
n→∞ −n−3/2
t2 √
= lı́m L′′ (t/ n)
2 n→∞
y por continuidad
2 /2
m√nX̄n (t) −→ et
que corresponde a la f. g. m. de Z ∼ N(0, 1). Se sigue del teorema de continuidad de Lévy
que
√ X̄ D
nX̄n = √ −→ Z ∼ N(0, 1)
1/ n
El teorema se concluye considerando Wi = µX + σX Xi .
Distribucion Original
600
frecuencia
0 200
n=5 n = 20
250
100 200
frecuencia
frecuencia
100 0
0.2 0.4 0.6 0.8 1.0 0.5 0.6 0.7 0.8 0.9
x x
n = 50 n = 100
100 200 300
150
frecuencia
frecuencia
50 0
0.55 0.60 0.65 0.70 0.75 0.80 0.85 0.65 0.70 0.75 0.80
x x
X̄n − µ · ·
Zn = √ ∼ N(0, 1), o bien, X̄n ∼ N(µ, σ 2 /n)
σ/ n
¿Qué tan grande debe ser n para que la aproximación sea “razonable”? Dependerá de la
distribución de los miembros de la muestra. Para distribuciones más o menos simétricas, una
aproximación razonable se logra con n ≥ 30. Distribuciones sesgadas requerirán de n ≥ 70
a más. Los promedios de la distribución Beta(0.5,0,6) de la figura 8 parecen distribuidos
normal aún para tamaños de muestra n = 5.
Distribucion Original
400
frecuencia
200 0
n=5 n = 20
200 400
100 200
frecuencia
frecuencia
0
0.0 0.2 0.4 0.6 0.8 0.2 0.3 0.4 0.5 0.6 0.7
x x
n = 50 n = 100
250
frecuencia
frecuencia
150
100
0 50
0
0.3 0.4 0.5 0.6 0.35 0.40 0.45 0.50 0.55 0.60
x x
Solución: Se sigue del teorema central del lı́mite que para n grande,
X̄n − µ ·
Zn = √ ∼ N(0, 1)
σ/ n
Entonces,
P | X̄n − µ |≥ c = 1 − P −c ≤ X̄n − µ ≤ c
!
−c X̄n − µ c
=1−P √ ≤ √ ≤ √
σ/ n σ/ n σ/ n
" #
c −c
= 1 − P Zn ≤ √ − P Zn ≤ √
σ/ n σ/ n
" #
TCL c −c
≈ =1− Φ √ −Φ √
σ/ n σ/ n
−c
= 2Φ √
σ/ n
Ejemplo : Se toma una muestra aleatoria de tamaño n para determinar el porcentaje que
votará por el candidato X.
Sean X1 , X2 , . . . v.a.i.i.d.’s Xi ∼ Ber(p). Luego, E[X] = p = µX y var(X) = p(1 − p) =
2
σX ≤ 1/4.
a). Si n = 900,
!
TCL −0.025
P | X̄n − p |≥ 0.025 ≈ 2Φ 1
√ = 2Φ(−1.50) = 2(0.067) = 0.1336
2 / 900
b). P | X̄n − p |≥ c = 0.01. Determine c si n = 900.
−c
2Φ √ = 0.01
σ/ n
√
c = −z.005 σ/ n
1 √
= 2.576 · / 900 0.005 0.005
2 z0.005 z0.995 = 2.576
= 0.043
√ 2.576 1
n= · = 51.517 y por lo tanto n ≈ 2654
.025 2
E. Barrios Estadı́stica Matemática versión 0.34
Apuntes para Estadı́stica Matemática 34
4.5. Ejercicios
Refiérase a la Lista de Ejercicios 4, problemas 1–19.
Textos de apoyo
Blitzstein and Hwang (2014); Hoel, Port, and Stone (1971); Mood, Graybill, and Boes
(1974); Wackerly, Mendenhall III, and Scheaffer (2008).
5. Estimadores
5.1. Introducción
En esta sección se presenta la manera de asociar “leyes de probabilidad” a observacio-
nes.
El problema es ¿cómo se sabe que λ = 3? La más de las veces no se sabe y hay que
estimarlo de los datos.
Una vez estimados los parámetros se debe revisar qué tan bien la distribución estimada
ajusta los datos. (Pruebas de bondad de ajuste.)
n Observados Esperados χ2
0−2 18 12.2 2.76
3 28 27.0 0.04
4 56 56.5 0.01
5 105 94.9 1.07
6 126 132.7 0.34
7 146 159.1 1.08
8 164 166.9 0.05
9 161 155.6 0.19
10 123 130.6 0.44
11 101 99.7 0.02
12 74 69.7 0.27
13 53 45.0 1.42
14 23 27.0 0.59
15 15 15.1 0.00
16 9 7.9 0.15
17+ 5 7.1 0.62
1207 1207 9.05
P
El promedio observado de emisiones por intervalo de 10 segundos fue λ̂ = ki ni /N =
8.392 6
Note que las frecuencias observadas en los N = 1207 intervalos serán distintas si se
volviese a observar otros tantos intervalos. Es la misma situación al lanzar 20 veces una
moneda. Dos series de 20 volados no tienen porque tener la misma secuencia de águilas
y soles. Una segunda sucesión de intervalos seguramente tendrı́a un número promedio de
emisiones distinto, digamos λ̂2 . Luego, dependiendo de la serie de observaciones tendrı́amos
distintos valores correspondientes a λ. Entonces, a su vez, λ es una variable aleatoria y su
distribución se conoce como distribución muestral.
Ahora, la pregunta es ¿cómo evaluar la calidad del ajuste? Es decir, observados las
N = 1207 intervalos, ¿su distribución se parece efectivamente a la de una distribución
Poisson? Si la respuesta la creyésemos afirmativa, entonces para un valor de emisiones
elegido k, en N ensayos se esperarı́an ek = N πk . Intuitivamente pareciera que una medida
de la bondad del ajuste pudiera ser
n
X (oi − ei )2
S= (1)
ei
i=1
donde el ı́ndice i se refiere al número de “casilla” donde se comparan los valores esperados
ei con los valores observados oi .
Note que si la distribución del número de emisiones X fuese efectivamente Poisson con
λ = 8.392, entonces, por ejemplo p4 = P(X = 4) = 0.047 y en N = 1207 realizaciones
esperarı́amos e4 = N p4 = 1257(.047) = 56.6 emisiones. Los conteos esperados y correspon-
dientes sumandos de la expresión (1) se muestran en la tabla 1.
Se puede mostrar, no en este curso, que bajo ciertas condiciones, el estadı́stico S
(función de la muestra que no depende de parámetros desconocidos) de la expresión (1)
sigue asintóticamente una distribución χ2n−1 . Si λ no se conoce y hubiera que estimarlo,
entonces S ∼ χ2n−k−1 , donde n es el número de casillas donde se compara lo esperado con
lo estimado (n = 16) y k es el número de parámetros estimados de la muestra (k = 1).
En nuestro ejemplo, S = 9.047, que, si suponemos que sigue una distribución χ2ν , con
ν = 16 − 1 − 1 = 14, P(χ214 ≥ 9.047) = 0.828. Esta última probabilidad se interpreta como
la probabilidad de ver el estadı́stico observado o algo más extremo. En nuestro ejemplo, con
el valor-p de 0.82, concluimos que no es extraño lo observado y aceptarı́amos el modelo
de la distribución Poisson con λ = 8.392. Por otro lado, si por ejemplo, consideramos
que λ = 8.75, el correspondiente estadı́stico S = 30.186 con un valor-p de 0.007, que se
interpretarı́a como que la probabilidad de observar S = 30.186 o algo mayor es un evento de
probabilidad de apenas 0.7 %, lo que harı́a sospechar sobre la validez del modelo propuesto,
a saber, X ∼ Po(8.75). La figura 9 muestra las frecuencias observadas y esperadas para los
dos casos mencionados anteriormente. La figura 10 presenta la función de densidad de la
distribución χ214 y localiza los estadı́sticos observados y correspondientes valores-p.
6
Resultado λ̂ = 8.392, tomado del libro de texto. Nuestros cálculos arrojan λ̃ = 8.370.
Distribución Muestral
observados
esperados
150100
frecuencia
50
0
0 5 10 15 20
n
Figura 9: Observaciones.
Distribución χ214
0.08
0.06
densidad
0.040.02
0.829
0.007
0.00
9.0374 30.19
0 10 20 30 40
x
Figura 10: Densidad χ214 indicando los valores de los estadı́sticos observados y sus corres-
pondientes valores-p, S = 9.034(0.829) y S = 8.75(0.007) correspondientes a los parámetros
λ̂ = 8.392 y λ̃ = 8.750, respectivamente.
Probabilidad. Supone que el modelo es conocido y uno se pregunta por las proba-
bilidades de ciertos eventos.
Modelos estadı́sticos.
X ∼ f , con f. d. p., f. m. p., f. p. a. o función de distribución, representan el modelo
(distribución) estadı́stico. Aunque se supone que X es observable, no siempre lo es pero aún
ası́ se puede hablar del modelo.
En muchos casos el modelo (distribución) depende de parámetros θ (univariado) ó θ
(vector de parámetros). Se supone por ejemplo que θ ∈ Θ ⊆ R (θ ∈ Θ ⊆∈ Rk ), con Θ el
espacio de parámetros.
Si X ∼ f (x; θ), entonces
R
Pθ (A) = A f (x; θ)dx;
R
Eθ [X] = R xf (x; θ)dx;
etcétera.
Los modelos pueden ser indexados por un vector de parámetros finito y en ese caso se dice
que es un modelo paramétrico. Si no es posible se dice modelo no paramétrico con Θ
de dimensión infinita.
Si para un modelo y parámetro θ dado corresponde una distribución Fθ , podrı́a ser
que θ2 ̸= θ1 pero que Fθ1 = Fθ2 , por lo que podrı́a tener un problema de estimación.
Supondremos que si Fθ1 = Fθ2 =⇒ θ1 = θ2 . Esto es, el modelo es identificable. Parámetros
de modelos identificables se dicen estimables.
Ejemplos.
X = (X1 , . . . , Xn ) m. a. de X ∼ Po(λ).
λx e−λ
f (x; λ) = , λ ∈ Λ = R+ espacio de parámetros
x!
Ajuste empı́rico Las observaciones son aproximadas mediante una ley sin teorı́a que
respalde tal aproximación. Por ejemplo, usar la distribución Gamma para aproximar
la precipitación pluvial.
Definición : Suponga que X sea modelada por la f. d. p. f (x; θ), donde θ = (θ1 , . . . , θk ),
es un vector de parámetros. θ ∈ Θ = {θ : θ es un valor factible}, es el espacio de paráme-
tros.
Ejemplo :
X ∼ N(µ, σ 2 ). θ = (µ, σ) ∈ R × R+ = Θ.
Definición : Sea X = (X1 , . . . , Xn ) una muestra aleatoria de X ∼ f (x; θ). Sea θ̃ = θ̃(X)
un estimador del parámetro θ. Se define el error cuadrático medio de θ̃ por
h i
ECM(θ̃) = E (θ̃ − θ)2
θ θ θ
Proposición : Sea X una muestra aleatoria de X ∼ f (x; θ). Para todo estimador θ̃ de θ,
se tiene que
ECM(θ̃) = var(θ̃) + sesgo2 (θ̃)
Demostración:
Definición : Sea θ̃1 , θ̃2 , . . . una sucesión de estimadores de θ. Se dice que {θ̃n } es un
estimador consistente de θ si
P
θ̃n −→ θ
Esto es, si para todo ϵ > 0, se tiene que P(|θ̃n − θ| > ϵ) → 0. En general, θ̃n = θ̃(Xn ), donde
Xn = (X1 , . . . , Xn ) es una m. a. de tamaño n.
Demostración: ECM(θ̃n ) = var(θ̃n ) + sesgo2 (θ̃n ) −→ 0, entonces cada uno de los sumandos
se va a cero por ser ambas cantidades positivas.
Comparación de estimadores
Una manera de comparar estimadores es mediante el error cuadrático medio. Se prefiere
θ̃1 sobre θ̃2 si ECM(θ̃1 ) < ECM(θ̃2 ). Si ambos estimadores son insesgados, tal comparación
se reduce a elegir aquel estimador con menor varianza.
Definición : Sean θ̃1 y θ̃2 dos estimadores insesgados de θ, Se define la eficiencia de θ̃2
relativa a θ̃1 por
var(θ̃1 )
eff(θ̃2 , θ̃1 ) =
var(θ̃2 )
Se dice que θ̃2 es más eficiente que θ̃1 , si eff(θ̃2 , θ̃1 ) > 1.
En ocasiones las varianzas son de la forma
c1 c2
var(θ̃1 (Xn )) = ; var(θ̃2 (Xn )) =
n n
En este caso, la eficiencia se define como el cociente entre los tamaños de muestra para
hacer que ambas varianzas sean iguales.
i) Eθ [Tn∗ ] = τ (θ).
ii) varθ (Tn∗ ) ≤ varθ (Tn ), para todo Tn , estimador insesgado de τ (θ).
Teorema (CICR): Sea θ un parámetro, τ una función real diferenciable y τ (θ) un paráme-
tro definido en términos de θ por τ = τ (θ). Sea Tn = T (Xn ) un estimador insesgado de τ .
Entonces, bajo condiciones de regularidad 7
′ 2
τ (θ)
varθ (Tn ) ≥ 2 (2)
∂
nEθ ∂θ log f (X; θ)
La igualdad se cumple si y solo si existe una función, digamos K(θ, n) tal que
∂
log f (Xn ; θ) = K(θ; n) T (Xn ) − τ (θ) (3)
∂θ
La expresión (2) se conoce como la desigualdad de Cramér-Rao y el lado derecho de la
desigualdad como la cota inferior de Cramér-Rao (CICR).
f (x; λ) = λe−λx
∂
∂λ ℓ(λ; x) = λ1 − x.
2
∂
∂λ ℓ(λ; x) = λ12 − 2 λx + x2 .
2
E ∂
∂λ ℓ(λ; X) = 1
λ2
− 2 1/λ 1
λ + ( λ2 +
1
λ2
) = 1
λ2
Por otro lado, sea τ (λ) = 1/λ. Entonces, τ ′ (λ) = −1/λ2 y (τ ′ (λ))2 = 1/λ4 , por lo que la
desigualdad de Cramér-Rao queda
1/λ4 1
var(Tn ) ≥ 2
=
n/λ nλ2
1/λ2
Se tiene también que var(Tn ) = var(X̄n ) = var(X)/n = n . Esto es, se alcanza la CICR.
Finalmente, note que
n n
∂ X ∂ X 1
log f (Xn ; θ) = log f (Xi ; θ) = n/λ − Xi = −n X̄n −
∂λ ∂λ λ
i=1 i=1
Encuentre las expresiones que relacionen los momentos teóricos con los parámetros a
estimar. Exprese los parámetros en términos de los momentos.
Calcule los momentos muestrales de bajo orden que sean necesarios en el punto ante-
rior.
Sustituya los momentos muestrales en las expresiones del primer punto. El resultado
son los estimadores de momentos (emm).
de X ∼ N(µ, σ 2P
Ejemplo : Sea Xn = (X1 , . . . , Xn ) una m. a.P ).
Entonces, µ1 = µ y µ2 = µ2 + σ 2 . m1 = n Xi y m2 = n1
1
Xi2 . Entonces,
µ̃ = m1 = X̄.
1 1
σ̃ 2 = m2 − m21 = Xi2 − X̄ 2 = (Xi − X̄)2 .
P P
n n
√
Note que µ̃ = X̄ es un estimador insesgado de µ con un error estándar ee(X̄) = σ/ n.
Por otro lado, si σ̃ 2 = n−1 2 2 2 n−1 2
n S , con S la varianza muestral, entonces E[σ̃ ] = n E[S ] =
n−1 2 2 2
n σ , por lo que σ̃ es un estimador sesgado de la varianza σ . Su error estándar
s
σ2 p
2 n−1 2
ee(σ̃ ) = var S = 2(n − 1)
n n
n−1 2 σ4
pues S ∼ χ2n−1 , por lo que var(S 2 ) = (n−1)2
2(n − 1).
σ2
Ejemplo : Sea Un = (U1 , . . . , Un ), una m. a. de U ∼ Unif(0, θ), con θ > 0.
θ 1 P
Entonces, µ1 = E[U ] = 2 . m1 = n Ui = Ū . Y por lo tanto, θ̃emm = 2Ū , lo que puede
dar lugar a estimaciones absurdas si, por ejemplo, U(n) > 2Ū = θ̃.
Ejercicio8 : El ángulo θ en que un electrón es emitido se puede modelar mediante un f. d.
p. dada por
1 + αx
f (x; α) = 1(−1,1) (x)
2
para algún |α| ≤ 1 y donde x = cos θ. Consideraciones fı́sicas sugieren que |α| < 1/3.
Xn = (X1 , . . . , Xn ) una m. a. de X. Muestre que α̃emm = 3X̄.
m1 ≡ µ1 = E[Y ] = αβ
m2 ≡ µ2 = E[Y 2 ] = αβ 2 + α2 β 2 = αβ 2 (1 + α)
m21 Ȳ 2 m2 − m21 σ̃ 2
α̃emm = 2 = 2 y β̃emm = =
m2 − m1 σ̃ m1 Ȳ
αemm βemm
3000
3000
2500
2500
2000
1500 2000
frecuencias
frecuencias
1000 1500
1000
500
500
2.014 ~ 0.444
β
0
0
1.6 2.32 3.04 0.28 0.42 0.57
2 4 6 8 0.0 0.5 ~ 1.0 1.5
~
α β
Esta manera de estimación por simulación (Monte Carlo) de muestras se conoce como
bootstrap. Uno de varios métodos de remuestreo. La figura 12 muestra los histogramas de
las estimaciones α̃ y β̃ para una simulación de N = 10, 000 muestras de tamaño n = 30 de
una distribución Ga(α = 2.01, β = 0.44).
Nota: Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una población X ∼ f (x; θ), con
θ ∈ Θ. Dada la realización x = (x1 , . . . , xn ), por independencia queda la función de
verosimilitud L como
Yn
L(θ; x) = f (x; θ) = f (xi ; θ)
i=1
Para cada realización X = x, L(θ; x) es una función real Con dominio en el espacio de
parámetros Θ.
Si la muestra x es aleatoria,
n
X
ℓ(θ; x) = log L(θ; x) = log f (xi ; θ)
i=1
∂ℓ 1X
= xi − n
∂λ λ
En este caso, se puede maximizar el log de la verosimilitud ℓ derivando (con respecto a λ) e
igualando a cero para resolver con λ̂emv = X̄, que en este ejemplo coincide con el estimador
del parámetro λ por el método de momentos λ̃emm . Luego, se tiene que
Notas:
L(θ, t) = f (t; θ)
Y
= f (ti ; θ)
1 P
= θ−n e− θ ti
1X
ℓ(θ; t) = −n log θ − ti
θ
∂ℓ −n 1 X
= + 2 ti
∂θ θ θ
Nuevamente, igualando la derivada a cero y resolviendo para θ, se tiene que
n
1X
θ̂emv = ti = t̄
n
i=1
Ejemplo : Sea U = (U1 , . . . , Un ) una m. a. de U ∼ Unif(0, θ), para algún θ > 0. Luego,
f (u; θ) = 1θ 1(0,θ) (u) y se sigue que
Y n
Y
−n
L(θ, u) = f (ui ; θ) = θ 1(0,θ) (ui )
i=1
Note que (
θ−n si, 0 < ui < θ, para todo i = 1, . . . , n
L(θ, u) =
0 en caso contrario
Luego, la función de verosimilitud L será mayor mientras más chico sea θ pero siempre y
cuando sea mayor que todos los ui ’s. Entonces, θ̂emv = U(n) pues
( )
máx{U1 , . . . , Un } = arg sup L(θ; u)
θ>0
funciones suaves en θ ∈ Θ conjunto abierto por lo que derivando e igualando a cero permite
la localización del máximo.
∂ℓ 2 X
=− 2 (xi − µ)(−1) = 0 =⇒ µ̂ = x̄
∂µ 2σ
∂ℓ n 1 X 1X
=− + 3 (xi − µ̂)2 = 0 =⇒ σ̂ 2 = (xi − µ̂)2
∂σ σ σ n
2 = n1 (Xi − X̄)2 = n−1 2
P
Note que µ̂emv = X̄ es un estimador insesgado de µ, pero σ̂emv n S es
2 n−1 2 2
sesgado pues E[σ̂ ] = n σ . Además, la distribución muestral de µ̂ es N(µ, σ /n) mientras
2
que σ̂ 2 ∼ σn χ2n−1 .
1 1
Qn m. a. de U ∼ Unif(θ − 2 , θ + 2 ). La
Ejemplo : Considere ahora U = (U1 , . . . , Un ) una
función de verosimilitud está dada por L(θ; U ) = i=1 1(θ− 1 ,θ+ 1 ) (Ui ). Luego,
2 2
(
1 si θ − 12 ≤ ui ≤ θ + 12 , i = 1, . . . , n
L(θ, u) =
0 en caso contrario
µ = µβ = m1
σ 2 = αβ 2 = m2 − m21
X X
ℓ(p; x) = log n! − log xi ! + xi log pi
10
Mood, Graybill, and Boes (1974).
máx ℓ(p; x)
p
X
sujeto a pi = 1
∂L(p; λ) Xi ∂L(p; λ) X
= + λ = 0, = pi − 1 = 0
∂pi pi ∂λ
con solución
Xi Xi
p̂i = P = , i = 1, . . . , k
Xj n
En este caso, para determinar el error estándar del estimador se usarı́a bootstrap.
11
Rice (2007).
Datos censurados12
Sea T = (T1 , . . . , Tn ) una muestra aleatoria de T ∼ Exp(λ). λ es el parámetro tasa
de la distribución tal que E[T ] = 1/λ. Suponga por ejemplo que T denota el tiempo de
procesamiento de un trabajo industrial con un tiempo medio de 1/λ.
Y
L(λ; t) = λe−λti
X
ℓ(λ; t) = n log λ − λ ti
∂ℓ(λ; t) n X
= − ti
∂λ λ
Nuevamente, igualando a cero al derivada del log de la verosimilitud y resolviendo se tiene
n
λ̂emv = P = 1/t̄
ti
Suponga ahora que los trabajos que se observaron hasta un tiempo τ fueron los primeros
m y lo único que se sabe de los últimos n − m es que duraron más de τ . En este caso, la
función de verosimilitud queda
m
Y n
Y
L(λ; t) = f (ti ; λ) P(Tj > τ )
i=1 j=m+1
Pm n−m
= λm e−λ i=1 ti
1 − F (τ )
Pm h in−m
= λm e−λ i=1 ti e−λτ
m
X
ℓ(λ; t) = m log λ − λ ti − λτ (n − m)
i=1
m
∂ℓ(λ : t) m X
= − ti + τ (n − m)
∂λ λ
i=1
12
Garthwaite, Jolliffe, and Jones (2002).
Proposición : Sea θ̂ = (θˆ1 , . . . , θˆk ), con θ̂j = θ̂j (X) un estimador de máxima verosimilitud
del vector de parámetros θ de f (x; θ). Sea τ (θ) = (τ1 (θ), . . . , τr (θ)). Entonces, el estimador
de máxima verosimilitud de τ (θ) es τ̂ = τ (θ̂) = (τ1 (θ̂), . . . , τr (θ̂)).
Demostración: Sea θ̂ = (θ̂1 , . . . , θ̂k ) un emv de θ. Entonces,
M (τ , x) = sup L(θ; x)
{θ:τ (θ)=τ )}
≤ sup L(θ; x)
{θ∈Θ}
= L(θ̂; x)
= sup L(θ; x)
{θ:τ (θ)=τ (θ)}
= M (τ (θ̂); x)
∂ℓ(θ; x) n 1 X
= + xi
∂θ θ 1−θ
1
De donde se puede ver que el estimador de máxima verosimilitud es θ̂ = .
X̄n + 1
Ahora bien, se sigue del teorema central del lı́mite que
1−θ
X̄n − θ D
q −→ Z ∼ N(0, 1)
1−θ
nθ2
por lo que,
√
·
n X̄n − (θ−1 − 1) ∼ N 0, θ−2 (1 − θ)
Considere ahora h(x) = 1/(1 + x), luego h′ (x) = −1/(1 + x)2 . Se sigue del método delta
que var(h(X)) = (h′ (µX ))2 σX
2 , por lo que
2
σX̄ 1−θ
n θ2 2
var(h(X̄n )) = = 4 = θ (1 − θ)/n
(1 + µX̄n )4
1−θ
n 1+ θ
Por lo tanto, puesto que θ̂n = h(X̄n ) se sigue del teorema del mapeo continuo que para n
grande
√ √
·
n(θ̂n − θ) = n h(X̄n ) − h(θ−1 − 1) ∼ N 0, θ2 (1 − θ)
o bien, para n grande se tiene
·
θ̂n ∼ N(θ, θ2 (1 − θ)/n)
En general, bajo ciertas condiciones razonables los estimadores de máxima verosimilitud
son estimadores consistentes.
En esta sección se presentará también el concepto de varianza asintótica y se mostrará
que para muestras grandes los estimadores de máxima verosimilitud se distribuyen aproxi-
madamente de manera normal.
Las demostraciones formales de los resultados antes mencionados son muy técnicas.
Aquı́ se presentarán versiones heurı́sticas y poco detalladas para los casos univariados y
trabajando con muestras aleatorias (v.a.i.i.d.). Vea por ejemplo Rice (2007) y Knight (2000).
Para mayor formalidad y detalle consulte Casella and Berger (2002), Dudewicz and Mishra
(1988) o Bickel and Doksum (1977).
Sean,
Xn = (X1 , . . . , Xn ) una muestra aleatoria de tamaño n de una población X ∼ f (x; θ)
con θ ∈ Θ.
Q
L(θ; x) = f (xi ; θ), la función de verosimilitud.
P
ℓ(θ; x) = log L(θ, x) = log f (xi ; θ) la función log de la verosimilitud.
Sea θ0 el verdadero (y desconocido) valor del parámetro θ. Se mostrará que θ̂n = θ̂(Xn ) =
θ̂emv es un estimador consistente. Esto es,
P
θ̂n −→ θ0
Consistencia
Número de Información
Lema : Sea I(θ) el número de información de Fisher, entonces, bajo condiciones de regu-
laridad se tiene " #
∂2
I(θ) = −E log f (X; θ)
∂θ2
Z
R ∂
Demostración: Recuerde que R f (x; θ)dx = 1, luego f (x; θ)dx = 0. Note además que
∂θ R
∂ ∂
f (x; θ) = log f (x; θ) f (x; θ) (6)
∂θ ∂θ
∂ 1 ∂
pues log f (x; θ) = f (x; θ). Entonces,
∂θ f (x; θ) ∂θ
Z Z
∂ cr ∂
0= f (x; θ)dx = log f (x; θ) f (x; θ)dx
∂θ R R ∂θ
Distribución asintótica
Entonces,
√ n−1/2 ℓ′ (θ0 )
n(θ̂ − θ0 ) ≈
I(θ0 )
De donde,
√
E[ n(θ̂ − θ0 )] ≈ 0
√ 1
var n(θ̂ − θ0 ) ≈ 2 I(θ0 )
I (θ0 )
1
var θ̂ − θ0 ≈
nI(θ0 )
p p n−1/2 ℓ′ (θ0 , X) D
nI(θ0 )(θ̂ − θ0 ) = − I(θ0 ) −1 ′′ −→ Z ∼ N(0, 1)
n ℓ (θ0 ; X)
Note, cuando E[ℓ′′ (θ0 )] es grande, en promedio ℓ(θ) cambia rápidamente en vecindad de
θ0 y la varianza del estimador θ̂ es pequeña. O bien, “La información sobre θ contenida en
L(θ; X) es grande”.
Existe el resultado equivalente para el caso multivariado. El vector θ̂n es distribuido
asintóticamente normal con E[θ̂n ] → θ0 y cov(θn ) → n1 I−1 (θ0 ), donde
" # " #
∂ ∂ ∂2
I(θ0 ) ij = E log f (X; θ) log f (X; θ) = −E log(X; θ)
∂θi ∂θj ∂θi ∂θj
Lema : Z
∂ Y
f (xi ; θ)dx = 0
Rn ∂θ
Demostración:
Z Z Y
∂ Y cr ∂ ∂
f (xi ; θ)dx = f (xi ; θ)dx = [1] = 0
Rn ∂θ ∂θ Rn ∂θ
Lema :
∂ Y Y ∂ Y
f (xi ; θ) = f (xi ; θ) log f (xj ; θ)
∂θ ∂θ
Demostración:
La igualdad se cumple si y solo si existe una función, digamos K(θ; n) tal que
X ∂
log f (xi ; θ) = K(θ; n) T (xn ) − τ (θ)
∂θ
Demostración:
∂
τ ′ (θ) = τ (θ)
∂θ
∂
= Eθ [Tn ]
∂θ
Z
∂
= T (x)f (x; θ)dx + 0
∂θ Rn
Z Z Y
cr ∂ Y ∂
= T (x) f (xi ; θ) dx − τ (θ) f (xi ; θ) dx
Rn ∂θ ∂θ Rn
Z
∂ Y
= T (x) − τ (θ) f (xi ; θ)dx
Rn ∂θ
Z
∂ Y Y
= T (x) − τ (θ) log f (xj ; θ) f (xi ; θ)dx
Rn ∂θ
" #
∂ Y
= Eθ T (X) − τ (θ) log f (Xi ; θ)
∂θ
O bien,
2
τ ′ (θ)
var(T (X)) ≥ 2
∂ Q
Eθ ∂θ log f (Xj ; θ)
Definición : Sea X una muestra aleatoria de X ∼ f (x; θ). T (X) se dice estadı́stico
auxiliar (ancilliary statistic) de θ si su distribución es independiente de θ. Esto es, si para
todo θ ∈ Θ, la distribución de T es la misma.
Definición : Sea X una muestra aleatoria de X ∼ f (x; θ). Un estadı́stico S(X) se dice
estadı́stico suficiente para el parámetro θ (puede ser un vector) si y solo si la distribución
condicional de X dado S = s no depende de θ para cualquier valor de S(x) = s.
Equivalentemente15 , S(X) es un estadı́stico suficiente si y solo si, para todo S(x) = s,
fijo con f. d. p. fS , Q
f (xi ; θ)
= h(x)
fS (s; θ)
y donde h(x) no depende de θ. Como consecuencia, si T (X) es otro estadı́stico, dado S(x),
no hay manera que T pueda ser usado para hacer inferencia sobre θ, pues h(x) no depende
de ella.
Note que trivialmente la muestra misma (X1 , . . . , Xn ) o la muestra ordenada (X(1) , . . . , X(n) )
son estadı́sticos suficientes.
Principio de Suficiencia16
Si T (X) es un estadı́stico suficiente de θ, entonces la inferencia sobre θ deberá
depender de X solo a través de T . Esto es, si x y y son dos muestras tales que
T (x) = T (y), entonces la inferencia sobre θ es indistinta si se basa en x o y.
x S = s T = t f (x|s) f (x|t)
1−p
(0, 0, 0) 0 0 1 1+p
1 1−p
(0, 0, 1) 1 1 3 1+2p
1 p
(0, 1, 0) 1 0 3 1+p
1 p
(1, 0, 0) 1 0 3 1+p
1 p
(0, 1, 1) 2 1 3 1+2p
1 p
(1, 0, 1) 2 1 3 1+2p
1 p
(1, 1, 0) 2 1 3 1+2p
(1, 1, 1) 3 2 1 1
para todo S(x) = s fijo y la función h no depende de θ. S y θ pueden ambos ser vectores.
Demostración:
18
Rice (2007), Hogg and Craig (1978).
fX (x; θ) = Pθ (X = x)
X
= Pθ (X = x, S = s)
s
= Pθ (X = x, S = S(x))
= Pθ (S = S(x))P(X = x|S = S(x))
= g(S(x); θ)h(x)
Pθ (X = x)
Pθ (X = x|S = s) =
Pθ (S = s)
g(S(x); θ)h(x)
=P
S(y)=s g(S(y); θ)h(y)
h(x)
=P
S(y)=s h(y)
Caso continuo: Suponga X v. a. continua con f. d. p. f (x; θ), θ ∈ Θ y tal que acep-
ta la factorización (7) para todo s = S(x) fijo. Defina y1 = s(x) = G1 (x), y2 =
G2 (x), . . . , yn = Gn (x)), con la transformación inversa H = (H1 , . . . , Hn ), tal que
xi = Hi (y). Se sigue del teorema de transformación que
fY (y; θ) = fX H(y); θ |JH(y)|
h(x)
f (X; θ) = fS (s(x); θ)
I(s(x))
donde T (x) = xi y h(x) = 1. Se sigue del teorema de factorización que T (Xn ) = ni=1 Xi
P P
es un estadı́stico suficiente para
P θ.
Note: Puesto que T = Xi es un estadı́stico suficiente para θ, la maximización de
f (x; θ) = g(T (x); θ)h(x) es a través de la función g(t, θ). Luego,
g(t; θ) = θt (1 − θ)n−t
log g(t, θ) = t log θ + (n − t) log(1 − θ)
∂ t n−t
log g = −
∂θ θ 1−θ
Igualando a cero la derivada y despejando para θ se concluye que
Pn
t Xi
θ̂emv = = i=1 = X̄
n n
P 2 P
Por lo tanto, S(X) = S1 (X), S2 (X) = Xi , Xi es un estadı́stico suficiente conjunto
para θ = (µ, σ).
donde yi = u(i) , i = 1, . . . , n, son los estadı́sticos de orden. Luego, T (Un ) = (U(1) , U(n) ), es
un estadı́stico suficiente conjunto para θ = (θ1 , θ2 ).
Note que si θ1 = θ y θ2 = θ + 1, T (Un ) = (U(1) , U(n) ), sigue siendo un estadı́stico
suficiente conjunto. Sin embargo, si θ1 = 0 y θ2 = θ, entonces, T (Un ) = U(n) es un estadı́stico
suficiente por él mismo.
El estudio de las distribuciones paramétricas con estadı́sticos suficientes T con la misma
dimensión que el espacio parametral Θ independiente del tamaño de la muestra llevó a
la construcción de la familia exponencial 19 . Muchas de las distribuciones más comunes
pertenecen a esta familia, como las distribuciones Poisson, Normal, Gamma, etc.
Ejercicio : Muestre que las distribuciones Poisson, geométrica y binomial negativa son
miembros de la familia exponencial de un parámetro.
19
Rice (2007).
Ejercicio : Muestre que las distribuciones N(µ, σ 2 ) y Ga(α, β) son miembros de la familia
exponencial de 2 parámetros y encuentre correspondientes estadı́sticos suficientes.
Proposición : Sea Xn = (X1 , . . . , Xn ) una muestra aleatoria de X ∼ f (x; θ), θ̂n = θ̂(xn ),
un estimador de máxima verosimilitud, solución de
∂ ∂ X
log L(θ; xn ) = log f (xi ; θ) = 0
∂θ ∂θ
Si Tn = T (Xn ) es un estimador insesgado de τ (θ) cuya varianza alcanza la CICR, entonces
Tn = τ (θ̂n ).
Demostración: Se sigue del Teorema de Cramér-Rao y la definición de estimadores de máxi-
ma verosimilitud que si Tn alcanza la cota,
∂
0= log L(θ; xn ) = K(θ; n) T (xn ) − τ (θ)
∂θ
Lo que dice que bajo condiciones de regularidad los EMV son UMVUE.
cuya varianza alcanza la cota. Por lo que la cota no es muy útil para encontrar UMVUE
salvo en los casos de la familia exponencial de un solo parámetro. Se mostrará la ventaja
de los estimadores insesgados función de estadı́sticos suficientes.
a menos que var(T |S) = 0, que serı́a el caso solamente si T es una función de S, lo que
implicarı́a que Tb = T .
Notas:
Puesto que E[T |S] es función del estadı́stico suficiente S, Rao–Blackwell justifica el
uso de estimadores basados en estadı́sticos suficientes cuando existen. Si un estimador
no es función de un estadı́stico suficiente, éste se puede mejorar.
Si T estimador de τ es ya función del estadı́stico suficiente S, entonces Tb = E[T |S] =
T.
En la práctica, se intenta condicionar en estadı́sticos suficientes minimales.
El hecho de “mejorar” la precisión de un estadı́stico mediante el proceso de Rao–
Blackwell, no lo hace necesariamente UMVUE.
T1 = 1 T1 = 0
T (θ)θn−1 = 0
para todo θ. Entonces, se debe tener que T (θ) = 0, para todo θ > 0.
Teorema24 Si T es un estadı́stico suficiente completo entonces es suficiente minimal pero
no viceversa.
Determinar si un estadı́stico o familia es completa puede ser una tarea muy técnica y
no fácil. Sin embargo hay casos donde se puede asegurar la completez. Tal es el caso de la
familia exponencial.
Teorema25 Sea X = (X1 , . . . , Xn ) una muestra aleatoria de X ∼ f (x; θ), con θ ∈ Θ un
intervalo. Si f ∈ FExp , esto es si
5.11. Ejercicios
Refiérase a la Lista de Ejercicios 5.
Textos de apoyo.
Casella and Berger (2002); Knight (2000); Mood, Graybill, and Boes (1974); Rice (2007);
Wackerly, Mendenhall III, and Scheaffer (2008).
o bien, estandarizando
X̄n − µ
Zn = √ ∼ N(0, 1)
σ/ n
por lo que si zp denota el p-ésimo cuantil de la distribución normal estándar, se tiene que
para 0 < α < 1 pequeño,
P (zα/2 ≤ Z ≤ z1−α/2 ) = 1 − α
0.95
que para α = 0.05, 1−α = 0.95, z0.025 =
−1.96 y z0.975 = 1.96 0.025 0.025
Note que en este caso, por simetrı́a de distribución normal, el intervalo anterior se podrı́a
√
representar como (X̄ ± z1−α/2 σ/ n).
Si σ no es conocida los lı́mites del intervalo serı́an desconocidos aunque la probabilidad
de cobertura seguirı́a siendo válida.
P T1 ≤ τ (θ) ≤ T2 = γ, con 0 < γ < 1 y que no depende de θ. El intervalo (T1 , T2 ) se dice
un intervalo de 100γ % de confianza para τ (θ). γ es el nivel de confianza, T1 y T2 los lı́mites
de confianza inferior y superior.
Si xn = (x1 , . . . , xn ) es la muestra observada y ti = Ti (xn ), (t1 , t2 ) constituye un inter-
valo de 100γ % de confianza para τ (θ).
En ocasiones interesa nada más uno de los lı́mites del intervalo, por ejemplo, quizás un
intervalo de confianza para el parámetro desviación estándar, el lı́mite inferior no resulta
de interés por saber que éste no será menor que cero. Luego se podrı́an tener intervalos
de la forma T1 ≤ τ (θ) , o bien, (τ (θ) ≤ T2 ). En esos casos, T1 y T2 se dicen lı́mites de
confianza inferior y superior, respectivamente.
Nota: Si (T1 , T2 ) constituye un intervalo del 100γ % de confianza para τ (θ) y g es una
función estrictamente monótona, se puede construir un intervalo de confianza para g(τ ),
por ejemplo, si la función g es estrictamente creciente,
P g(T1 ) ≤ g(τ ) ≤ g(T2 ) = γ
Ejemplo : Sea Xn = (X1 , . . . , Xn ) una m. a. de X ∼ N(µ, 7). Luego, (X̄n − µ) ∼ N(0, 7/n)
no depende de µ. Y
X̄n − µ
Q= p ∼ N(0, 1)
7/n
Q también es una cantidad pivotal para µ.
Notas:
2. Para γ fijo, podrı́a haber un número infinito de parejas q1 , q2 para los cuales P (q1 ≤ Q ≤ q2 ) =
γ. La siguiente figura ilustra dos casos (q1 , q2 ) y (r1 , r2 ), de tales parejas.
γ
fQ
q1 r1 q2 r2
X̄n − θ
Q= √ ∼ N(0, 1)
1/ n
Q es una cantidad pivotal. Sea 0 < γ < 1, q1 , q2 tales que
γ = P (q1 ≤ Q ≤ q2 )
√ √
γ = P X̄n − q2 / n ≤ θ ≤ X̄n − q1 / n
√ √
La longitud del intervalo es ℓ = q2 / n − q1 / n = √1n (q2 − q1 ) y ℓ es mı́nimo si q2 = −q1
con γ = Φ(q2 ) − Φ(q1 ).
Más formalmente, se buscan q1 y q2 de manera que
dL 1 dq2
=√ −1 =0
dq1 n dq1
1 Φ(q1 )
=0
n Φ(q2 ) − 1
γ = P (q1 ≤ Q ≤ q2 )
√ √
= P X̄n − q2 σ/ n ≤ θ ≤ X̄n + q2 σ/ n
γ=1−α
α 2 α 2
q1 q2
Figura 14: Intervalo (q1 , q2 ) de 100γ % de confianza para la cantidad pivotal Q con colas
del mismo peso de probabilidad.
(X̄ − Ȳ ) − θ
Q= q 2 ∼ N(0, 1)
σ1 σ22
n1 + n2
(n1 + n2 − 2)Sp2 1 h 2 2
i
2
= (n 1 − 1)S 1 + (n 2 − 1)S 2 ∼ χn1 +n2 −2
σ2 σ2
e independiente de X̄ y de Ȳ . Entonces, si θ = µ1 − µ2 ,
(X̄ − Ȳ ) − θ
r ∼ N(0, 1)
2 1 1
σ n1 + n2
Sea entonces
D−θ ·
Q= ∼ tν ∗
SD
con 2
2 ∗ S12 /n1 + S22 /n2
SD = S12 /n1 + S22 /n2 y ν = (S12 /n1 )2 (S22 /n2 )2
n1 −1 + n2 −1
Finalmente,
D ± t(1 − α/2; ν ∗ )SD
constituye un intervalo de confianza (aproximada) de 100(1 − α) % para θ = µ1 − µ2 .
Finalmente, !
S12 /S22 S12 /S22
,
F (1 − α/2; n1 − 1, n2 − 1) F (α/2; n1 − 1, n2 − 1)
donde D̄ = n1 ni=1 Di , SD
P 2 = 1
Pn 2
n−1 i=1 (Di − D̄)
Note que si las componentes X1 y X2 están asociadas positivamente (σ12 > 0) la varianza
de la diferencia D = X1 − X2 es menor que si las componentes fuesen independientes, lo
que resultará en intervalos de confianza más estrechos, preferibles en la práctica. Pensar por
ejemplo, el muestreo de manera de tener componentes asociadas positivamente es área del
diseño de experimentos estadı́stico.
por lo que q
X̄n − Ȳm ± z1−α/2 X̄n (1 − X̄n )/n + Ȳm (1 − Ȳm )/m
constituye un intervalo de confianza de nivel 100(1 − α) % para la diferencia de proporciones
θ = p1 − p2 .
Luego, √
X̄n ± z1−α/2 Sn / n
constituye un intervalo de confianza de nivel (1 − α) aproximado para la media µ.
θ̂ − θ θ̂n − θ ·
qn =p ∼ N(0, 1)
var(θ̂n ) 1/nI(θ)
de (1 − α1 ) de confianza y I2 para σ 2
(n − 1)S 2 /χ21−α2 /2; n−1 , (n − 1)S 2 /χ2α2 /2; n−1 ≡ (σinf
2 2
, σsup )
X̄ − µ (n − 1)S 2
Q1 = √ y Q2 =
σ/ n σ2
1 − α1 = P (ℓ1 ≤ Q1 ≤ u1 ) y 1 − α2 = P (ℓ2 ≤ Q2 ≤ u2 )
σ2 σ2
σ2sup σ2sup
σ2inf σ2inf
µinf µsup
µ X µ
≥ 1 − (α1 + α2 )
1−α 2
θ2
1−α
1−α 1−α 2
1−α
θ1
Figura 16: Regiones de confianza. El panel de la izquierda muestra el producto cruz de los
intervalos de confianza marginales de µ y σ 2 . El panel de la derecha muestra la región de
confianza conjunta para (µ, σ 2 ).
6.7. Ejercicios
Refiérase a la Lista de Ejercicios 6.
Textos de apoyo.
Casella and Berger (2002); Knight (2000); Mood, Graybill, and Boes (1974); Rice (2007);
Wackerly, Mendenhall III, and Scheaffer (2008).
7. Contraste de Hipótesis
7.1. Introducción
El siguiente ejemplo ha sido tomado de Rice (2007). Con él se introducen varios elemen-
tos de las pruebas o contraste de hipótesis.
Considere dos monedas m0 y m1 con correspondientes probabilidad de águila p0 y p1 ,
respectivamente. Se elije una de las dos monedas y se lanza 10 veces. Con base en el número
observado de águilas usted decide cuál de las monedas fue lanzado. Sea X el número obser-
vadas de águilas en los 10 lanzamientos. Entonces, X ∼ Bin(n, p) con n = 10. Suponga que
p0 = 0.5 y p1 = 0.7.
Considere ahora x, el número observado de águilas. Entonces, la correspondiente vero-
similitud de la moneda mi es L(pi ; x) = f (x; pi ), i = 0, 1 y el cociente de verosimilitudes
(CV), también conocido como razón de verosimilitud (RV) se define como
L(p0 , x) f (x; p0 )
CV(x) = =
L(p1 ; x) f (x; p1 )
Tabla 2: Probabilidades del número de águilas en los 10 lanzamientos para las dos monedas
y el correspondiente cociente de verosimilitudes CV.
x 0 1 2 3 4 5 6 7 8 9 10
m0 0.0010 0.0098 0.0439 0.1172 0.2051 0.2461 0.2051 0.1172 0.0439 0.0098 0.0010
m1 0.0000 0.0001 0.0014 0.0090 0.0368 0.1029 0.2001 0.2668 0.2335 0.1211 0.0282
CV 165.3817 70.8779 30.3762 13.0184 5.5793 2.3911 1.0248 0.4392 0.1882 0.0807 0.0346
Razón de Verosimilitud
150
100
LR(p0, p1)
50 0
0 2 4 6 8 10
x
Sea Hi la hipótesis que supone que la moneda mi fue lanzada. Para este ejemplo se
ilustran elementos con un “enfoque bayesiano”.
Se tiene información previa (a priori ) y no hay razón para suponer que las monedas
7.2. Definiciones
Ejemplo : Por ser una temporada de escasez de agua se quiere reducir el consumo en
cierta comunidad y para este fin se dio una campaña de carteles a lo largo de 4 semanas. Se
cree que con ella haya disminuido en promedio de 3000 a 2500 litros por mes por persona.
Se desea verificar la efectividad de la campaña.
Suponga que el consumo mensual de agua por persona es razonablemente modelado por
la distribución normal. Luego, sea X la variable aleatoria (v. a.) que denota el consumo
de agua por persona con X ∼ N(µ, σ 2 ), y en este ejemplo considere que la varianza σ 2 es
conocida. Entonces, se desea contrastar las hipótesis
Condición de H0
Verdadera Falsa
√
Rechazar H0 Error Tipo I
√
No rechazar H0 Error Tipo II
Para continuar con el ejemplo, el consumo mensual de agua por persona X ∼ N(µ, σ 2 ),
con σ conocida. Se toma una muestra de tamaño n X = (X1 , . . . , Xn ).
Z c
c − µ0
α = P(R|H0 verdadera) = P0 (X̄ ≤ c) = fX̄ (x)dx = Φ √
−∞ σ/ n
donde fX̄ denota la función de densidad del estadı́stico de prueba X̄ ∼ N(µ0 , σ 2 /n) bajo
la suposición de que la hipótesis nula H0 es verdadera. La distribución del estadı́stico de
prueba suponiendo válida la hipótesis nula H0 se conoce como la distribución nula del
estadı́stico. Por otro lado, se tiene que
Z ∞
C ∗ c − µ1
β = P(R |H0 falsa) = P1 (X̄ > c) = fX̄ (x)dx = 1 − Φ √
c σ/ n
α β
µ1 cα µ0
n1
n2
α β
µ1 c µ0
2.671−2.5
mientras que β = 1 − Φ √
1/ 40
= 1 − Φ(1.081) = 0.140. Compárense con los errores de
0.05 y 0.196, respectivamente cuando n = 25.
Otro concepto importante en la teorı́a de las pruebas de hipótesis es la potencia de
la prueba, En estas notas se considerará la potencia de una prueba como la probabilidad
de rechazar la hipótesis nula H0 y se denotará por K. Ası́, uno habları́a de la potencia de
prueba bajo H0 o bien bajo H1 . En el ejemplo, la potencia de la prueba se define como
K(µi ) = Pi (R). luego, idealmente se desearı́a K(µ0 ) = 0, y K(µ1 ) = 1. Pero la región de
rechazo es R = {x : x̄ ≤ c}, por lo que para n = 25 y c = 2.671, se tiene K(3.0) = 0.05 y
K(µ1 ) = 0.804.
Más formalmente, se incluyen algunas de las definiciones antes presentadas para después
incluir el lema de Neyman–Pearson, fundamental en el origen y el desarrollo de la Estadı́stica
Matemática. Varias de las siguientes definiciones son adaptadas de texto de Mood, Graybill,
and Boes (1974).
Definición : En estas notas, una población de interés es definida por una caracterı́stica de
la misma, llamada población estadı́stica que es representada o modelada mediante una
distribución de probabilidad.
Ası́, el consumo de agua de cierta comunidad X quedó representada por una variable
aleatoria X distribuida normalmente N(µ, σ 2 ).
Definición : Se dice que Υ es una prueba aleatorizada si para decidir sobre la hipótesis
H, además del procedimiento resultado en la muestra aleatoria, la conclusión se basa también
en el resultado de algún experimento aleatorio no relacionado con el procedimiento original.
Si, en el ejemplo inicial de decidir sobre qué moneda fue lanzada, suponga que la regla de
decisión definida por la prueba Υ, fuese: aceptar H0 : p = 0.5 si X < 6; aceptar H1 : p = 0.7,
si X > 6; y si X = 6, lanzar un dado honesto y favorecer H0 si la cara muestra un número
par y a H1 si es impar.
Las pruebas aleatorizadas son rara vez empleadas, pues dos personas podrı́a concluir
sobre la hipótesis H de manera contraria a partir de la misma muestra aleatoria debido al
Definición : Sea Υ una prueba estadı́stica para H0 . Si rechaza H0 cuando ésta es correcta
se dice que se comente el error tipo I. Por otro lado, Si no se rechaza H0 cuando ésta es
falsa se comete el error tipo II.
1−β
α
0
µ1 µ µ0
Figura 20: Función potencia K para el ejemplo del consumo mensual de agua. La prueba
muestra una potencia de α y 1 − β para los valores de la media µ0 = 3.0 y µ1 = 2.5,
respectivamente.
La figura 20 muestra las probabilidades de errores α(µ0 ) y β(µ1 ) para el ejemplo del consumo
de agua.
α = sup P(R|θ)
θ∈Θ0
n=25
n=30
n=40
n=50
α
0
µ1 µ µ0
Figura 21: Función potencia K del ejemplo del consumo mensual de agua para distintos
tamaños de muestra n y significancia común α.
α β
correspondientes valores-p. Note que aquellos estadı́sticos x̄ menores al valor crı́tico α0.05 =
2.671, que llevarı́an a rechazar la hipótesis H0 con una significancia del 5 %, tiene valores-p
menores 0.05. Es aparente que la evidencia en contra de H0 de x̄ = 2.15 (1.07 × 10−5 ) es
más clara que la que presenta x̄ = 2.65 (0.040). Es común reportar en textos y artı́culos el
valor−p de los estadı́sticos observados en paréntesis inmediatamente después o debajo de
la cantidad. Esto se ilustra en la figura 22.
Note que para determinar el valor−p no se necesita conocer la hipótesis alternativa. De
hecho, tampoco se requiere de un nivel de significancia de la prueba definido. En cierta
forma, el valor−p indica el respaldo de los datos a la hipótesis nula. Quien tome la decisión
de rechazarla o no considerará el riesgo que desea correr.
En los últimos años ha habido mucha controversia sobre el uso, o mal uso, del valor−p.
Personalmente creo que son unos indicadores, función de la distribución nula y la muestra
observada, útiles por lo informativos, pero mal empleados y abusados. Su interpretación es
la misma, independientemente de la hipótesis bajo consideración y estadı́stico de prueba
empleado. Pero no dice nada de si, por ejemplo, lo apropiado de la hipótesis para propósito
del estudio, si los datos son obtenidos por experimentación, cómo se llevó este último a cabo,
si los supuestos fueron verificados y se satisfacen, etcétera. Hay mucho escrito al respecto
que vale la pena revisar. En un inicio, puede acudir a Bastian (2013).
Finalmente, para terminar esta sección se presenta el siguiente teorema que refuerza la
importancia de los estadı́sticos suficientes en la inferencia estadı́stica.
Teorema : Sean X una muestra aleatoria de X ∼ f (x; θ), con θ ∈ Θ y T (X) un estadı́stico
suficiente para θ. Entonces, para cualquier prueba estadı́stica Υ con potencia KΥ (θ) existe
una prueba Υ∗ con estadı́stico de prueba T con la misma potencia, esto es, KΥ∗ (θ) = KΥ (θ),
para todo θ ∈ Θ.
Demostración: refiérase al teorema IX.1.1 p.408 de Mood, Graybill, and Boes (1974).
puesto que, si
Ahora, tomando integrales a ambos lados de la expresión (13), se sigue del teorema del
estadı́stico inconsciente (tei) se tiene
Luego,
0 ≤ E0 [d∗ (X)] − E0 [d(X)] ≤ c E1 [d∗ (X)] − E1 [d(X)]
y por lo tanto,
K1 d(X) ≤ K1 d∗ (X)
Ejemplo : Considere el ejemplo del consumo mensual medio de agua, las hipótesis simples,
H0 : µ = µ0 vs. H1 : µ = µ1 (< µ0 ). Sea Xn una m. a. de X ∼ N(µ, σ 2 ), con σP conocida.
Entonces, la f. d. p. conjunta del v. a. X es f (x; µ, σ) = (2π)−n/2 σ −n exp{− 2σ1 2 ni=1 (xi −
con c∗ = n1 σ 2 log c − n(µ20 − µ21 ) . Luego, la prueba con mayor potencia para contrastar las
Ejercicio : (Hogg and Craig (1978)) Se desea contrastar las hipótesis H0 : f = f0 vs.
H1 : f = f1 , donde
x+1
e−1 1
f0 (x) = 1{0,1,2,... } (x) y f1 (x) = 1{0,1,2,... } (x)
x! 2
Sea X = (X1 , . . . , Xn ) es una muestra aleatoria de X ∼ f ,
1. Muestre que la mejor región de rechazo para el contraste de las hipótesis es de la
forma
Xn n
X
R = x : log 2 · xi − log xi ! < c∗
i=1 i=1
Ejemplo : Considere la población Y ∼ Exp(λ), tal que E[Y ] = 1/λ. Se desea contrastar
las hipótesis H0 : λ = λ0 vs. H1 : λ = λ1 (< λ0 ). Por encontrar la prueba significancia α más
potente.
Sea Yn una muestra aleatoria de Y ∼ Exp(λ) de tamaño n. Luego, se sigue del lema de
Neyman-Pearson
f0 (y)
CV = ≤c
f1 (y)
P
λn0 e−λ0 yi
P ≤c
λn1 e−λ1 yi
X
n log(λ0 /λ1 ) − (λ0 − λ1 ) yi ≤ log c
log c − n log(λ0 /λ1 )
ȳ ≥ −
λ0 − λ1
Entonces la prueba más potente de significancia α tiene una región de rechazo de la forma
Rα = {y : ȳ >Pcα }, tal que α = P(Rα |H0 ) = P0 (Ȳn > cα ). Note que el estadı́stico de
prueba Ȳ = n1 Yi es suficiente para el parámetro λ y rechazará la hipótesis nula para
valores grandes, lo que sugiere una media poblacional µ grande que corresponde a valores
de λ pequeños.
Por otro lado verifique que Si Y ∼ Exp(λ) entonces 2λ Yi ∼ χ22n . Por lo que la región
P
1
de rechazo de significancia α de más potencia tiene un valor crı́tico cα = χ2 (1 − α; 2n),
2nλ0
siendo el último término el cuantil 1 − α de la distribución χ22n .
Ası́, con λ1 < λ0 , para el contraste de hipótesis
H0 : λ = λ0 vs. H1 : λ = λ1
K(λ) = Pλ (R) = Pλ (Ȳ > cα ) = P(2nλȲ > 2nλcα ) = P(W > 2nλcα )
donde W ∼ χ22n . Luego, K(λ0 ) = P(W > 2nλ0 cα ) = P(W > 2(20)(2)0.697) = 0.05 y
K(λ1 ) = P(W > 2nλ1 cα ) = P(W > 2(20)(1)0.697) = 0.926. Calculando K(λ) para varios
valores de λ en [0.5, 2.5] se tiene la función potencia que se muestra en la figura 23.
Pruebas aleatorizadas
Considere el modelo X ∼ Po(λ). Se desean contrastar las hipótesis
H0 : λ = λ0 = 1 vs. H1 : λ = λ 1 = 5
Función potencia
1.0
0.926
0.8
0.6
K(λ)
0.4
0.2
0.050
0.0
0.5 1.0 1.5 2.0 2.5
Figura 23: Función potencia de la prueba de hipótesis del ejemplo de la distribución expo-
nencial
.
f (x; λ0 )
¯ ≤ c0
f (x; λ1 )
P
x Q
e−λ0 λ0 i / xi !
P
x Q
≤ c0
e−λ1 λ1 i / xi !
X
−n(λ0 − λ1 ) + log(λ0 /λ1 ) xi ≤ c1
X
xi ≥ c2
P P
Esto es, se define la región de rechazo R = { Xi ≥ 4} ∪ { Xi = 3, Y = 1}. Y en tal caso,
la significancia de la prueba es
X X
P0 (R) = P0 Xi ≥ 4 + P0 Xi = 3, Y = 1
X X
= P0 Xi ≥ 4 + P0 Xi = 3 P0 (Y = 1)
= 0.019 + 0.061(0.508)
= 0.05
El recurso anterior se conoce como una prueba aleatorizada. Note que mediante el pro-
cedimiento anterior se puede llegar a decisiones contrarias aún bajo los mismos datos (in-
formación), lo que sugiere el uso de los valores-p que no están ligados a la significancia de
la prueba.
ii) KΥ∗ (θ) ≥ KΥ (θ), para todo θ ∈ Θ1 y para toda prueba Υ de significancia α.
Esto es, la probabilidad de rechazar H0 cuando ésta es falsa es mayor o igual a la probabilidad
de rechazarla cuando es verdadera.
α 2 α 2
c1 µ0 c2
que la PUMP para la hipótesis H1 : µ > µ0 , la región es {X̄ > c}. Luego, no existe una
prueba uniformemente más potente para cuando la hipótesis alternativa es H1 : µ ̸= µ0 .
Considere entonces la región de rechazo R = {X̄ ≤ c1 } ∪ {X̄ ≥ c2 }. En tal caso, la
significancia de la prueba es
Si la hipótesis nula no se verifica y se supone que le media real puede igualmente estar a la
izquierda o derecha de µ0 , una opción es asignar el mismo peso (probabilidades) a las colas.
Luego, si la significancia es α, cada una de las colas seria con probabilidad α/2. La figura
24 muestra la región de rechazo R. Los valores crı́ticos serı́an
√ √
c1 = µ0 + zα/2 σ/ n y c2 = µ0 + z1−α/2 σ/ n
√
Si la prueba es de√significancia α = 0.05, entonces c1 = 3.0 − 1.96(1)/ 25 = 2.671 y
c2 = 3.0 + 1.96(1)/ 25 = 3.329.
Ejemplo : Recupere el ejemplo del consumo de agua. Sea X = (X1 , . . . , Xn ) una muestra
aleatoria de X ∼ N(µ, σ 2 ), con σ conocida. Se desea contrastar las hipótesis
H0 : µ = µ 0 v. a. H1 : µ ̸= µ0
Como se vio anteriormente una “buena prueba” serı́a una prueba de dos colas con la región
de rechazo R =n{X̄ > c1 } ∪ {X̄ < c2 }, yosi las colas son del mismo peso (probabilidad) en
√
las colas, R = |X̄ − µ0 | > z1−α/2 σ/ n define una región de rechazo de significancia α.
Sea,
n √ o
A = RC = X : |X̄ − µ0 | ≤ z1−α/2 σ/ n
n √ √ o
= X : X̄ − z1−α/2 σ/ n ≤ µ0 ≤ X̄ + z1−α/2 σ/ n
√
por lo que fija X̄, µ : µ ∈ X̄ ± z1−α/2 σ/ n constituye una región de confianza 1 − α
para µ. En palabras, la región de confianza para µ la constituye todos los µ0 para los cuales
X̄ aceptarı́a la hipótesis H0 : µ = µ0 .
Sea θ un parámetro de la familia de distribuciones de probabilidad. Se tiene θ ∈ Θ
espacio parametral sea X = (X1 , . . . , Xn ) una muestra aleatoria de X ∼ f (x; θ).
Teorema : Suponga que para cada θ0 ∈ Θ, existe una prueba de significancia α para
H0 : θ = θ0 . Sea A(θ0 ) = {X : se acepta H0 : θ = θ0 }. Entonces el conjunto
la hipótesis
C(X) = θ : X ∈ A(θ) constituye una región de confianza 1 − α para θ.
Demostración: Como A es la región de aceptación de la prueba de nivel α, P0 X ∈ A(θ0 ) =
1 − α. Luego,
P0 θ0 ∈ C(X) = P0 X : θ0 ∈ C(X)
= P0 X : X ∈ C(θ)
=1−α
Teorema : Suponga que C(X) es ua región de confianza de 1 − α para θ. Esto es, para
todo θ0 , P0 θ0 ∈ C(X) = 1 − α. Entonces, la región de aceptación H0 : θ = θ0 de nivel α
es A(θ0 ) = X : θ0 ∈ C(X) .
Demostración: La prueba es de nivel α puesto que
P0 X ∈ A(θ0 ) = P0 θ0 ∈ C(X) = 1 − α
Sea el espacio nulo Θ0 = (0, σ 2 ) : σ > 0 . Si θ0 = (0, σ 2 ), entonces las hipótesis se pueden
presentar como
H0 : θ ∈ Θ0 vs. H1 : θ ∈ Θ1
con Θ1 = Θ \ Θ0 . Para esto, sea X = (X1 , . . . , Xn ) una muestra aleatoria de X. La función
de verosimilitud
−n/2 −n 1 X 2
L(θ; x) = f (x; θ) = (2π) σ exp − 2 (xi − µ)
2σ
como cociente de verosimilitudes que podrı́a tomar valores en todo R+ . Por razones técnicas
se extiende el denominador a todo Θ. Luego, se define el cociente
n 1 X 2
ℓ(θ; x) = − log(2π) − n log σ − 2 xi
2 2σ
∂ℓ n 2 X 2
=− + 3 xi
∂σ σ 2σ
que igualando a cero, se sigue que σ̂02 = n1
P 2
xi . Por lo que
X −n/2 !n/2
ne−1
−n/2 1 2 n
L(θ0 ; x) = (2π) xi exp − =
2π x2i
P
n 2
∂ℓ
≡0 ⇒ µ̂ = x̄ !n/2
∂µ ne−1
y L(θ̂; x) =
2π (xi − x̄)2
P
∂ℓ 2 1X
≡0 ⇒ σ̂ = (xi − x̄)2
∂σ n
Luego,
!n/2 !n/2
(Xi − X̄)2 (Xi − X̄)2
P P
L(θ̂0 ; X)
Λ(X) = = P 2 =
(Xi − X̄)2 + nX̄ 2
P
L(θ̂; X) Xi
Entonces,
n/2
1
Λ(X) = 2
< λ
1+ P nX̄
(Xi −X̄)2
Λ(X) ≤ λ
nX̄ 2
(λ−n/2 − 1) ≤ P
(Xi − X̄)2
r √
n − 1 −n/2 |X̄| n
(λ − 1) ≤ q
n 1 P
(Xi − X̄)2
n−1
√
nX̄
Bajo H0 , el estadı́stico T (X) = q ∼ tn−1
1 P 2
n−1 (X i − X̄)
Finalmente, la región de rechazo de tamaño α, queda
√
n|X̄|
Rα = X : q > t(1−α/2; n−1)
1 P 2
n−1 (X i − X̄)
7.5.2. CVG
Sea X = (X1 , . . . , Xn ) una muestra aleatoria de X ∼ f (x; θ) con θ ∈ Θ = Θ0 ∪ Θ1 .
Considere el contraste de hipótesis
H0 : θ ∈ Θ0 vs. H1 : θ ∈ Θ1
Notas:
1. Λ(X) es el estadı́stico de prueba.
2. 0 ≤ Λ(X) ≤ 1.
4. CVG no siempre es la mejor prueba pero en general será una buena prueba.
7.5.3. Ejemplo
Tomado de Mood, Graybill, and Boes (1974).
Considere el modelo X ∼ f (x; θ) = θe−θx 1R+ (x), con θ > 0. Se desea contrastar las
hipótesis
H0 : θ ≤ θ0 vs. H1 : θ > θ0
Solución: Se considera el espacio parametral Θ = {θ : θ > 0} y el espacio nulo Θ0 = {θ ≤
θ0 } ⊂ Θ. Sea Xn = (X1 , . . . , Xn ) una muestra aleatoria de tamaño n de X ∼ f . Luego,
P n
L(θ; x) = θn e−θ xi
; ℓ(θ; x) = n log θ − nθx̄; ℓ′ (θ; x) = − nx̄
θ
i) L(θ̂; x) = (x̄e)−n
(
(x̄e)−n si 1/x̄ ≤ θ0
ii) sup L(θ; x) =
θ∈Θ0 θ0n e−nθ0 x̄ si 1/x̄ > θ0
Entonces,
1 si x̄ ≥ 1/θ0
Λ(x) =
θ0n e−nθ0 x̄
si x̄ < 1/θ0
(x̄e)−n
Por
lo que se rechaza
n H0 si x̄ < 1/θ0 y (θ0 x̄)n e−n(θ0 x̄−1) < λ0 . O bien, rechace H0 si θ0 x̄ < 1
y θ0 x̄/eθ0 x̄−1 < λ0 .
0 y0 1 y
Entonces, la regla de decisión es: rechazar H0 si y < 1 y h(y) = y n e−(y−1) < λ0 . Equiva-
lentemente,
Pn si y < y0 y y < 1, o bien, si x̄ < 1/θ0 y x̄ < y0 /θ0 . Recuerde, si X ∼ Exp(θ),
1 1 2
i=1 Xi ∼ 2θ Ga(α = 2n/2, β = 2) ≡ 2θ χ2n . Luego, si la prueba es de significancia α,
2
α = P0 (X̄ < y0 /θ0 ), por lo que y0 = χ (α; 2n). Por lo tanto, la región de rechazo para esta
prueba H0 : θ < θ0 vs. H1 : θ > θ0 y de significancia α es,
( )
χ2 (α; 2n)
Rα = Xn : X̄ <
2nθ0
2
Los correspondientes valores-p, son el resultado de resolver la ecuación x̄ = χ 2nθ (p;2n)
0
. Por
lo que, el P χ240 ≤ 0.35(2)(20)(2) = 0.077 y P χ240 ≤ 0.42(2)(20)(2) = 0.248, son los
correspondientes valores-p. Esto es, 0.35 (0.077) y 0.42 (0.248), valores menor y mayor que el
valor crı́tico c = 0.363, correspondiente a la significancia de 0.10. La siguiente tabla muestra
distintos valores del estadı́stico de prueba X̄, los valores-p respectivos y las respectivas
decisiones considerando un nivel de significancia α = 0.10.
x̄ 0.29 0.31 0.35 0.363 0.39 0.42
valor-p (0.016) (0.029) (0.077) (0.10) (0.161) (0.248)
Decisión Rechazar H0 Aceptar H0
Note que mientras más chicos los valores-p, mayor serı́a la evidencia asociada en contra de
la hipótesis nula H0 .
Ahora bien, para calcular la potencia de la prueba para distintos valores de θ, recuerde
La siguiente tabla muestra la potencia de la prueba para varios valores del parámetro θ. La
figura muestra la función potencia correspondiente.
Función potencia
1.0
0.97
θ K(θ) 0.8
1.0 0.0001 0.68
0.6
1.5 0.0084
K(θ)
Finalmente, note una vez más que encontrar la distribución nula de Λ(X) puede ser difı́cil,
sino es que imposible. Pero en ocasiones como en este ejemplo, es posible resolver el caso.
Teorema (H0 simple) Considere el modelo X ∼ f (x; θ), con θ ∈ Θ, subconjunto abierto
de R. Se desea contrastar las hipótesis H0 : θ = θ0 vs. H1 : θ ̸= θ0 .
Sea Xn = (X1 , . . . , Xn ) una muestra aleatoria de X ∼ f (x; θ). Sea θ̂n = θ̂(Xn ) el
estimador máxima verosimilitud de θ. Suponga que f satisface las condiciones de regularidad
(CR) enunciadas en la sección de estimación. Entonces, bajo H0 ,
D
−2 log Λ(Xn ) −→ χ21
Demostración: Note que la expansión por Taylor de ℓ(θ; x) = log L(θ; x) alrededor de θ̂ es
1
ℓ(θ; x) = ℓ(θ̂; x) + ℓ′ (θ̂; x)(θ − θ̂) + ℓ′′ (θ∗ ; x)(θ − θ̂)2
2
E. Barrios Estadı́stica Matemática versión 0.34
Apuntes para Estadı́stica Matemática 100
D
−2 log Λ(Xn ) −→ χ21
Ejemplo : Considere los modelos independientes X ∼ N(µ1 , σ12 ) y Y ∼ N(µ2 , σ22 ). Se desea
contrastar las hipótesis H0 : µ1 = µ2 v. a. H1 : µ1 ̸= µ2 , pero no se conocen las varianzas.
Para efectos del ejemplo, se define el vector de parámetros θ = (µ1 −µ2 , µ2 , σ1 , σ2 ). Considere
entonces el espacio parametral Θ = {θ = (µ1 − µ2 , µ2 , σ2 , σ2 ) : µi ∈ R, σi ∈ R+ , i = 1, 2},
Θ0 = {θ = (0, µ2 , σ1 , σ2 )} ⊂ Θ y Θ1 = Θ \ Θ0 . Luego, las hipótesis pueden plantearse
H0 : θ ∈ Θ0 vs. H1 : θ ∈ Θ1
El estadı́stico de prueba es
sup L(θ; X, Y )
θ∈Θ0 L(θ̂0 ; X, Y )
Λ(X, Y ) = =
sup L(θ; X, Y ) L(θ̂; X, Y )
θ∈Θ
donde θ̂ es el emv de θ ∈ Θ0 . Por otro lado, recuerde que sin restricciones sobre θ, los emv
xj
de las pj ’s es p̂j = . Por lo que el cociente de verosimilitud generalizado (CVG) es
n
n
p1 (θ̂)x1 · · · pk (θ̂)xk k
!xj
x1 · · · xk Y pj (θ̂)
Λ(X) = =
n p̂j
p̂x1 1 · · · p̂xk j=1
x1 · · · xk
y puesto que xj = np̂k , se tiene que
k
!np̂j
X pj (θ̂)
−2 log Λ(X) = −2 log
p̂j
j=1
!
X np̂j (θ̂)
= −2 np̂j log
np̂j
k
!
X Oj
=2 Oj log (15)
Ej
j=1
X X (p̂j − pj (θ̂))2
−2 log Λ(X) = 2n (p̂j − pj (θ̂)) + n + ···
pj (θ̂)
2
k
X xj − npj (θ̂)
≈
i=1 npj (θ̂)
Por lo que no se rechaza la hipótesis H0 con una significancia del 5 %. Pero note, el estadı́stico
observado 0.032 es bastante menor que el valor crı́tico 3.84. Esto se ve reflejado en su
correspondiente valor-p de 0.857.
Por otro lado, si se calcula el estadı́stico de prueba (15) derivado del CVG
" #
342
−2 log Λ(X) = −2 342 log + · · · = 0.0325 (0.857)
340.6
Finalmente, note que el cociente de verosimilitudes es Λ(X) = 0.9839, apoyando claramente
la hipótesis nula.
2.55 2.20 2.62 1.71 3.63 2.33 4.74 3.73 3.70 2.98 3.46 2.70
2.34 3.23 3.42 2.17 3.26 4.70 3.04 2.12 2.53 3.15 3.20 1.98
3.07 3.69 3.69 3.77 3.72 3.22 3.30 3.05 4.10 3.82 3.50 3.45
3.37 3.90 3.82 3.13 1.93 2.20 4.36 3.52 4.27 4.51 3.81 6.02
3.07 2.81
Suponga X1 , . . . , Xn una muestra aleatoria de una distribución uniforme [0, 1]. Sean Yj =
j
X(j) , los correspondiente estadı́sticos de orden. Entonces, se sabe26 que E[X(j) ] = , lo
n+1
1 n
que sugiere graficar la muestra ordenada {X(i) } contra los valores esperados n+1 , · · · , n+1 .
La gráfica seguirá mas o menos una lı́nea recta como lo muestra el panel de la izquierda de
la figura 25. En el panel de la derecha se muestra la gráfica de la muestra ordenada de una
distribución triangular (suma de uniformes) contra los cuantiles de la distribución uniforme.
El evidente la separación de los puntos a la lı́nea recta, sugiriendo que la distribución
uniforme no ajusta razonablemente los datos triangulares.
Ahora bien, el teorema de transformación integral27 afirma que si la variable aleatoria
X tiene una función de distribución F , continua estrictamente creciente, entonces F (X) ∼
j j
Unif[0, 1] y se podrı́a graficar Yj = F (X(j) ) contra n+1 , o bien, X(j) vs. F −1 ( n+1 ). El panel
−1 j
izquierdo de la figura 26 muestra la gráfica de X(j) contra F ( n+1 ) de una distribución
gamma. Nótese nuevamente que los puntos siguen una lı́nea recta, que no en el panel
de la derecha, puntos simulados también de una distribución gamma pero de distintos
j
parámetros que la de la izquierda. Ambas gráficas tiene el mismo eje horizontal, F −1 ( n+1 ),
correspondiente a la distribución de la izquierda.
26
Cálculo de Probabilidades II.
27
Cálculo de Probabilidades II.
uniforme triangular
1.0
0.8
0.8
0.6
0.6
x(i)
x(i)
0.4
0.4
0.2
0.2
0.0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
cuantiles uniforme cuantiles uniforme
Figura 25: Datos simulados de: a) distribución uniforme; b) distribución triágular. Eje
horizontal en cuantiles uniformes [0, 1].
gamma gamma
14
20
10
15
8
x(i)
x(i)
10
6
4
5
2
0
0 2 4 6 8 10 12 0 2 4 6 8 10 12
cuantiles gamma cuantiles gamma
Figura 26: Datos simulados de: a) distribución gamma; b) distribución gamma distintos
parámetros. Eje horizontal en cuantiles de la distribución con los parámetros del panel
izquierdo.
En algunos casos, la distribución F (x) = G x−µ σ , con µ y σ llamados parámetros de
localización
y escala, como es el caso de la distribución normal. Si X ∼ N(µ, σ), FX =
x−µ
Φ σ , donde Φ es la función de distribución de la normal estándar. Luego, se puede
X(j) − µ
−1 j −1 j
graficar vs. G , o bien, X(j) vs. µ + σG . El panel izquierdo
σ n+1 n+1
de la gráfica 27 muestra datos normales (N(−3, 22 )) contra los correspondientes cuantiles. El
panel de la derecha muestra los mismos datos graficados con la función qqnorm del lenguaje
R. Note que la escala del eje horizontal corresponde a los cuantiles del la distribución
normal estándar. Si los puntos siguen más o menos una lı́nea recta se pueden suponer que
la distribución normal describe razonablemente los datos.
La figura 28 muestra la gráfica cuantil-cuantil normal de los datos simulados del consumo
mensual de agua, del principio de esta sección. Los puntos siguen más o menos una lı́nea
recta (exhibida) por lo que se podrı́a suponer que siguen una distribución normal. Por otro
lado, al mostrar los cuantiles de la distribución normal estándar en el eje horizontal, de la
gráfica se puede estimar la media y la desviación estándar de la distribución origen de los
2
Sample Quantiles
0
0
−2
−2
x(i)
−4
−4
−6
−6
−8 −6 −4 −2 0 2 −2 −1 0 1 2
cuantiles normal Theoretical Quantiles
Figura 27: Datos simulados de distribución normal. Panel izquierdo es construido con los
cuantiles correspondientes. Panel derecho obtenido con la función qqnorm de R.
datos.
4.0
4.0
Sample Quantiles
3.5
3.15
3.0
2.5
2.3
2.0
−2 −1 0 1 2
Theoretical Quantiles
Figura 28: Gráfica cuantil-cuantil normal de los datos simulados del consumo mensual de
agua.
A saber, localice las abscisas -1, 0 y 1 sobre la recta que ajusta los datos y proyéctelos
sobre la escala vertical. Los valores son aproximadamente 2.3, 3.15 y 4.0. La media de la
normal estándar es 0, la media estimada de la distribución será µ̃ = 3.15. Entre ±1 se tiene
2 veces la desviación estándar de la distribución estándar, luego σ̃ = (4.0 − 2.3)/2 = 0.85.
Note que:
E. Barrios Estadı́stica Matemática versión 0.34
Apuntes para Estadı́stica Matemática 106
De hecho, puesto Fn es una media muestral. se sigue del Teorema Central de Lı́mite que
· 1
Fn (x) ∼ N F (x), F (x)(1 − F (x))
n
Además, se sigue del corolario anterior que para x fijo, Fn (x) es un estimador insesgado y
consistente (ecm) de F (x).
Las propiedades anteriores son para cualquier función de distribución F .
Para la estimación de F y no solo de F (x), se ha de ver la distancia de Fn (x) a F (x)
para todo x ∈ R.
Teorema de Glivenko-Cantelli .
!
P sup Fn (x) − F (x) −→ 0 =1
−∞<x<∞
Proposición :
1
cov(Fn (x), Fn (y)) = F (x)[1 − F (y)], x≤y
n
Demostración: Sea x < y, luego
1 X 1 X
cov Fn (x), Fn (y) = cov 1(∞,x) (Xi ), 1(−∞,y) (Xj )
n n
i j
2 X X
1
= cov 1(−∞,x) (Xi ), 1(−∞,x) (Xj )
n
i j
2 X
1
= cov 1(−∞,x) (Xi ), 1(−∞,y) (Xj )
n
i
1
= cov 1(−∞,x) (X1 ), 1(−∞,y) (X1 )
n
1h i
= E[1(−∞,x) (X)1(−∞,y) (X)] − E[1(−∞,x) (X)] · E[1(−∞,y) (X)]
n
1
= Fn (x) − F (x)F (y)
n
1
= F (x)[1 − F (y)]
n
Corolario :
var(Fn (y) − Fn (x)) = var(Fn (y)) + var(Fn (x)) − 2cov Fn (y), Fn (x)
1
= [F (y) − F (x)][1 − F (y) + F (x)]
n
Corolario : Fn (y) − Fn (x) es un estimador consistente cuadrático medio de (F (y) −
F (x)).
1
Proposición : Si B ∈ B(R), entonces, Pn (B) = n 1B (Xi ) es un estimador insesgado y
consistente (cuadrático medio) de P(X ∈ B).
Demostración: Note que
X
1 1
var(Pn (X ∈ B)) = var 1B (Xi ) = P(X ∈ B)[1 − P(X ∈ B)]
n n
Notas:
√
1. La distribución no depende de F , es decir, la distribución de nDn es libre de dis-
tribución, (“no paramétrica”). Lo que hace a Dn muy práctica para las pruebas de
bondad de ajuste.
2. EL resultado se debe a Andrey Kolmogorov (1933). Tablas de la distribución H se
deben a Nicolai Smirnov (1948).
3. Su uso para pruebas de bondad de ajuste:
H0 : F = F0 vs. H1 : F ̸= F0
√
Bajo H0 , sea Kn = K(Xn ) = supx∈R |Fn (x) − F (x)| ∼ H, la distribución de nDn . Si
H0 es falsa, Fn tendera a la verdadera F y no a F0 y por lo tanto supx∈R |F n(x)−F0 (x)|
tenderá a ser grande. Luego, una regla de decisión razonable (región de rechazo de
tamaño α) serı́a
( )
Rα = Xn : Kn := sup |Fn (x) − F (x)| > cα
x∈R
Ejemplo :
El siguiente arreglo presenta 40 observaciones que se dice representa una muestra alea-
toria de una distribución uniforme en [0, 1].
0.178 0.550 0.797 0.576 0.255 0.618 0.517 0.598 0.556 0.599
0.621 0.518 0.419 0.292 0.479 0.609 0.631 0.734 0.107 0.792
0.487 0.401 0.619 0.510 0.506 0.462 0.651 0.542 0.205 0.534
0.287 0.503 0.257 0.301 0.085 0.207 0.667 0.582 0.252 0.837
La gráfica 30 ilustra de la muestra ordenada contra los cuantiles teóricos (lı́nea recta).
La máxima distancia de los datos a la recta es 0.233, correspondiente a la observación 36.
Luego, Kn = máx1≤k≤40 {|x(k) − k/n|} = |0.667 − 0.90| = 0.233.
La prueba de hipótesis con significancia α tiene como región de rechazo Rα = {X :
Kn (X) > c(α, n)}. Luego, para α = 0.05 y n = 40, c = .165 menor que 0.23, por lo que se
rechaza H0 con una significancia del 5 %.
28
? (?).
F Kn
0
x(1) x(n)
distribución uniforme
1.0 0.8
Kn = 0.233
muestra ordenada
0.4 0.6
0.2
0.0
7.7. Ejercicios
Refiérase a la Lista de Ejercicios 7.
Textos de apoyo.
Bickel and Doksum (1977); Casella and Berger (2002); Dudewicz and Mishra (1988);
Knight (2000); Mood, Graybill, and Boes (1974); Rice (2007); Rincón (2019); Wackerly,
Mendenhall III, and Scheaffer (2008).
Referencias
Barrios, E. (2024a). Apuntes para el curso de Cálculo de Probabilidades I. https://
gente.itam.mx/ebarrios/docs/apuntes_CP1.pdf. (3 de enero de 2024).
Barrios, E. (2024b). Apuntes para el curso de Cálculo de Probabilidades II. https://
gente.itam.mx/ebarrios/docs/apuntes_CP2.pdf. (3 de enero de 2024).
Bastian, H. (2013). Statistical Significance and Its Part in Scien-
ce Downfalls. https://absolutelymaybe.plos.org/2013/11/11/
statistical-significance-and-its-part-in-science-downfalls. (Consul-
tado: 11/07/2022).
Bickel, P. and K. Doksum (1977). Mathematical Statistics. Englewood Cliffs, NJ: Prentice
Hall.
Blitzstein, J. K. and J. Hwang (2014). Intorduction to Probability. Boca Raton, FL: CRC
Press.
Casella, G. and R. L. Berger (2002). Statistical Inference (2nd ed.). Pacific Gove, CA:
Duxbury.
Chihara, L. and T. Hesterberg (2019). Mathematical Statistics with R (2 ed.). Hoboken,
NJ: Wiley.
Cox, D. R. (2006). Principles of Statistical Inference. Cambridge: Cambridge University
Press.
Dudewicz, E. J. and S. N. Mishra (1988). Modern Mathematical Statistics. New York,
N.Y.: Wiley.
Garthwaite, P., I. Jolliffe, and B. Jones (2002). Statistical Inference. Oxford, UK: Oxford
University Press.
Hoel, P. G., S. C. Port, and C. J. Stone (1971). Introduction to Probability Theory. Boston:
Houghton Miffling Company.
Hogg, R. V. and A. T. Craig (1978). Introduction to Mathematical Statistics (4 ed.). New
York: Macmillan Publishing Co., Inc.
Knight, K. (2000). Mathematical Statistics. Boca Raton, Florida: Chapman & Hall/CRC.
Mood, A. M., F. A. Graybill, and D. C. Boes (1974). Introduction to the Theory of
Statistics (3rd ed.). Singapore: McGraw-Hill.
Rice, J. S. (2007). Mathematical Statistics and Data Analysis (3rd ed.). Belmont, Cali-
fornia: Brooks/Cole: Cengage Learning.
Rincón, L. (2019). Una introducción a la estadı́stica inferencial. CDMX: Universidad
Nacional Autónoma de México.
Roussas, G. G. (1997). A Course in Mathematical Statistics (2nd ed.). San Diego, CA.:
Academic Press.
Stigler, S. (2016). The Seven Pillars of Statistical Wisdom. Cambridge, MA.: Harvard
University Press.
Stigler, S. (2017). Los siete pilares de la sabidurı́a estadı́stica. CDMX, México: Libros
Grano de Sal. AME.
Tukey, J. (2020). Exploratory Data Analysis (1 ed.). Hoboken, N.J.: Pearson Education.
Wackerly, D. D., W. Mendenhall III, and R. L. Scheaffer (2008). Mathematical Statistics
with Applications (7 ed.). Australia: Thomson.