Apuntes EstMat

Apuntes para el curso de
Estadı́stica Matemática
Ernesto Barrios Zamudio
3 de enero de 2024
Versión 0.34
Índice
Prefacio 3
1. Introducción 4
1.1. Deducción e Inferencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2. Elementos de Cálculo de Probabilidades I y II 10

2.1. Espacios de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2. Variables aleatorias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.3. Momentos de una variable aleatoria . . . . . . . . . . . . . . . . . . . . . . 12
2.4. Desigualdades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.5. Vectores aleatorios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.6. Transformaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.7. Estadı́sticos de orden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.8. Método Delta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.9. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3. Distribuciones Muestrales 21
3.1. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
4. Resultados Lı́mite 27
4.1. Modos de convergencia de variables aleatorias . . . . . . . . . . . . . . . . . 27
4.2. Otros resultados lı́mite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
4.3. Ley de los grandes números . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
4.4. Teorema central del lı́mite . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4.5. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
5. Estimadores 35
5.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
5.2. Principios de estimación puntual . . . . . . . . . . . . . . . . . . . . . . . . 37
5.3. Estimación de parámetros . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
5.4. El método de momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
5.5. El método de máxima verosimilitud . . . . . . . . . . . . . . . . . . . . . . 44
5.6. Principio de Invarianza de EMV . . . . . . . . . . . . . . . . . . . . . . . . 51
5.7. Teorı́a de grandes muestras para EMV . . . . . . . . . . . . . . . . . . . . . 51
5.8. Cota inferior de Cramér-Rao . . . . . . . . . . . . . . . . . . . . . . . . . . 56
5.9. Estadı́sticos suficientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
1
Apuntes para Estadı́stica Matemática 2
5.10. Estimadores insesgados uniformes de varianza mı́nima . . . . . . . . . . . . 64

5.11. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
6. Intervalos y Regiones de Confianza 68

6.1. Intervalos de confianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
6.2. Cantidad pivotal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
6.3. Muestreo de una población normal . . . . . . . . . . . . . . . . . . . . . . . 70
6.3.1. Intervalo de confianza para la media conocida la varianza . . . . . . 70
6.3.2. Intervalo de confianza para la media desconocida la varianza . . . . 71
6.3.3. Intervalo de confianza para la varianza . . . . . . . . . . . . . . . . . 71
6.4. Comparación de poblaciones normales por intervalos de confianza . . . . . . 72
6.4.1. Comparación de medias, varianzas conocidas. . . . . . . . . . . . . . 72
6.4.2. Comparación de medias, varianzas iguales desconocidas. . . . . . . . 72
6.4.3. Comparación de medias con varianzas desconocidas . . . . . . . . . 73
6.4.4. Comparación de varianzas. . . . . . . . . . . . . . . . . . . . . . . . 74
6.4.5. Observaciones pareadas. . . . . . . . . . . . . . . . . . . . . . . . . . 74
6.5. Poblaciones no normales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
6.5.1. Intervalos de confianza para proporciones. . . . . . . . . . . . . . . . 75
6.5.2. Intervalos de confianza para la media . . . . . . . . . . . . . . . . . . 75
6.5.3. Intervalos de confianza por medio de EMV . . . . . . . . . . . . . . 76
6.6. Regiones de confianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
6.6.1. Población normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
6.6.2. Intervalos de Bonferroni . . . . . . . . . . . . . . . . . . . . . . . . . 77
6.7. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
7. Contraste de Hipótesis 79
7.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
7.2. Definiciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
7.3. Lema de Neyman–Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
7.4. Hipótesis compuestas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
7.4.1. Pruebas uniformemente más potentes . . . . . . . . . . . . . . . . . 93
7.4.2. Pruebas dos colas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
7.4.3. Pruebas de hipótesis e intervalos de confianza . . . . . . . . . . . . . 94
7.5. Cociente de verosimilitud generalizado (CVG) . . . . . . . . . . . . . . . . . 96
7.5.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
7.5.2. CVG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
7.5.3. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
7.5.4. Distribución asintótica del cociente de verosimilitudes generalizado
(CVG) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
7.5.5. Prueba Ji-cuadrada para bondad de ajuste . . . . . . . . . . . . . . 101
7.6. Bondad de Ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
7.6.1. Gráficas de Probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . 103
7.6.2. Función de distribución empı́rica . . . . . . . . . . . . . . . . . . . . 105
7.6.3. Prueba Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . . . . 107
7.7. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
Referencias 110
E. Barrios Estadı́stica Matemática versión 0.34

Prefacio
Las condiciones en que continuamos este año 2021 ha motivado el trabajo. La imposibi-
lidad de compartir mis notas personales por su desorden me llevó a hacer manuscritos con
la mayorı́a del material del temario de Cálculo de Probabilidades I. En paralelo, comencé
a pasar las notas a una presentación más formal usando LATEX. La mayorı́a de las gráficas
están hechas con R y algunos de los dibujos con LATEX mismo o Mayura. Este documento
es el resultado.
Estas apuntes son precisamente eso, unos apuntes o notas para apoyar el curso Estadı́sti-
ca Matemática que ofrezco anualmente en ITAM.
Las notas de apoyo para el curso de Cálculo de Probabilidades I y II las encuentra en
Barrios (2024a) y Barrios (2024b).
Durante el curso es mi responsabilidad motivar y ligar los distintos temas y en este
sentido las notas son de apoyo al desarrollo teórico y técnico de los mismos. No se pretende
que los temas sean autocontenidos ni son una versión muy preliminar de algo más elaborado
y formal. No es material para ser referenciado.
Cualquier error que identifique, comentario y/o sugerencia serán bienvenido. Dirı́jalo a Er-
nesto Barrios <ebarrios at itam.mx>.
Ciudad de México, 28 de julio de 2022

1. Introducción
¿Qué es la estadı́stica?1
Esta pregunta se planteó en fecha tan temprana como 1898 –refiriéndose a la
Royal Statistical Society– y desde entonces se ha vuelto a plantear muchas veces.
La persistencia de la pregunta y la variedad de respuestas que se le han dado a
lo largo de los años son por sı́ mismas un fenómeno notable.Tomadas en conjun-
to, indican que la persistente perplejidad se debe a que la estadı́stica no es una
materia única. La estadı́stica ha cambiado radicalmente desde sus primeros dı́as
hasta la actualidad, yendo de ser una profesión que reivindicaba una objetividad
tan extrema que los estadı́sticos sólo reunirı́an datos –sin analizarlos–, hasta ser
una profesión que busca asociarles con los cientı́ficos en todas las etapas de la
investigación, desde la planeación hasta el análisis. Igualmente, la estadı́stica
presenta diferentes rostros de las diferentes ciencias: en algunas aplicaciones,
aceptamos los modelos cientı́ficos como si provinieran de la teorı́a matemáti-
ca; en otras, construimos un modelo que pueda adquirir luego un estatus tan
sólido como cualquier construcción newtoniana. En algunas situaciones somos
planificadores activos y analistas pasivos; en otras, somos lo opuesto. Con tantas
caras, y con las consiguientes dificultades para mantener el equilibrio y evitar
tropiezos, no debe sorprender que la pregunta sobre qué es la estadı́stica haya
surgido una y otra vez, siempre que se enfrenta un nuevo reto, sean ls estadı́sti-
cas económicas de la década de 1830, sean las cuestiones biológicas de la de los
1930 o las preguntas imprecisamente planteadas sobre big data en los tiempos
que corren.
Dada la gran variedad de preguntas, aproximaciones e interpretaciones estadı́sti-
cas, ¿acaso no existe un núcleo duro de la ciencia de la estadı́stica? Si nos de-
dicamos de manera central a trabajar en tantas ciencias diferentes, desde el
estudio de ls polı́ticas públicas hasta la validación del descubrimiento del bosón
de Higgs, y si a veces se nos considera como un simple personal técnico, ¿real-
mente podemos asumirnos, en un sentido razonable, como practicantes de una
disciplina unificada, incluso una ciencia por mérito propio? . . . Intentaré formu-
lar siete principios, siete pilares que en el pasado han sostenido nuestra disciplina
de diferentes maneras y que prometen hacerlo también en el futuro. Cada uno
de ellos fue revolucionario cuando se presentó, y que cada uno se mantiene como
un avance conceptual importante y profundo.
i. Agregación. El valor de la reducción dirigida o la compresión de los datos.

ii. Medición de la Información. El decreciente valor de un creciente número
de datos.
iii. Verosimilitud. Cómo poner una varita de medir probabilı́stica a lo que
hacemos.
iv. Intercomparación. Cómo usar la variación interna en los datos para ayudar
en el punto anterior.
v. Regresión. Hacer preguntas desde distintas perspectivas puede conducir a
respuestas reveladoramente diferentes.
vi. Diseño. El papel esencial de la planeación de las observaciones.
vii. Residuos. Cómo todas esas ideas pueden usarse para explorar y comparar
explicaciones rivales en la ciencia.
1
Cita tomada de Stigler (2016), Stigler (2017)

Estadı́stica descriptiva
Resumen
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxx
Descripción
xxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxx
Universo o Población
Figura 1: Estadı́stica descriptiva
En el libro de Chihara and Hesterberg (2019) se señala la liga https://www.bts.gov/

topics/airlines-and-airports/quick-links-popular-air-carrier-statistics don-
de encontrará estadı́sticas (información). ¿Cómo describir de manera eficiente la información
incluida en ese sitio? ¿Gráficas, tablas, dashboards? Su respuesta es tema de investigación
y desarrollo de la estadı́stica descriptiva o el análisis exploratorio de datos. Vea por
ejemplo Tukey (2020).
1.1. Deducción e Inferencia
General
Inducción
Deducción
(inferencia)
Particular
Figura 2: Deducción–Inducción.
Construcción del conocimiento (entre otras).
Deducción. Pasar de lo general a lo particular. por ejemplo, la deducción lógica

matemática.
Ejemplo : A partir de principios (axiomas) concluir para casos particulares. Si

(Ω, S, P) es un espacio de probabilidad y A ∈ S, con P(A) > 0, se puede construir la

medida PA definida por
P(A ∩ B)
PA (B) = , para todoB ∈ S
P(A)
que es una medida de probabilidad.
Inferencia. Pasar de lo particular a lo general. A partir de una muestra se pretende

“aprender” sobre la población.
Hay varias aproximaciones a la inferencia. En este curso nos interesa la inferencia
estadı́stica, y dentro de ésta hay dos enfoques principales: la inferencia frecuentista
y la inferencia bayesiana. En este curso trabajaremos principalmente la inferencia
frecuentista y muy brevemente se mencionarán algunos puntos de la inferencia
bayesiana.
Inferencia
xxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxx
Muestra
xxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxx
Universo o Población
Figura 3: Inferencia estadı́stica
Principios de la inferencia estadı́stica2

La mayorı́a del trabajo estadı́stico tiene que ver con proveer e implementar
métodos para el estudio del diseño, el análisis y la interpretación de los datos.
La teorı́a estadı́stica en principio tiene que ver con los conceptos generales basa-
dos en todos los aspectos de tal trabajo, y desde esta perspectiva la teorı́a formal
de la inferencia estadı́stica no es mas que una parte de esa teorı́a completa. De
hecho, desde el punto de vista de las aplicaciones individuales, podrı́a parecer
una parte muy pequeña. Es probable que la preocupación sea más concentrada
en ver si los modelos han sido formulados razonablemente para atender las pre-
guntas más fructı́feras o bien, si los datos están sujetos a errores no apreciados
o contaminados y especialmente especı́fico de la materia, en las interpretaciones
del análisis y su relación con otros conocimientos en el área.
Y aún ası́ la teorı́a formal es importante por varias razones. Sin una estructura
sistemática los métodos estadı́sticos para el análisis de los datos se convierte
en una colección de trucos que son difı́ciles de asimilar e interrelacionar entre
ellos. El desarrollo de nuevos métodos apropiados para los nuevos problemas se
2
Cox (2006)

convertirı́a en cosa de ingenio ad hoc. Por supuesto, dicho ingenio no debe ser
subestimado y de hecho, uno de los papeles de la teorı́a es asimilar, generalizar
y quizás modificar y mejorar los frutos de ese ingenio.
Mucho de la teorı́a tiene que ver con indicar la incertidumbre involucrada en
las conclusiones del análisis estadı́stico y la valoración los méritos relativos a los
diferentes métodos de análisis, lo que es importante aún en un nivel de meras
aplicaciones para tener una comprensión de las fortalezas y limitaciones de tales
discusiones. Esto tiene que ver con temas un poco más filosóficos relacionados
con la naturaleza de la probabilidad. Una razón final, y muy buena, porque el
estudio de la teorı́a es en sı́ interesante.
Inferencia estadı́stica
Figura 4: Modelación estadı́stica. El modelo es representado por la variable aleatoria X y

sus leyes de probabilidades.
Ejemplo : Considere una moneda y se pregunta por las posibilidades de que en un lanza-
miento caiga águila. (
1 águila
X=
0 sol
Supone que P(X = 1) = p y que P(X = 0) = q = 1 − p. Entonces, se está asociando
X ∼ Ber(p) ¿Qué se puede decir del valor de p? Para responderlo de manera objetiva
podemos lanzar varias veces la moneda y suponer que cada lanzamiento es independiente
de los otros en el sentido de que el resultado de un lanzamiento no influye ni se ve afectado
por la salida de los otros. Luego, si además suponemos que la probabilidad no cambia
entre lanzamientos. El procedimiento lo podrı́amos modelar como una sucesión de ensayos
Bernoulli, {Xi }, donde Xi = representa la salida del i-ésimo lanzamiento, entonces, se puede
pensar a {Xi } como una sucesión de variables aleatorias independientes e idénticamente
distribuidas (v.a.i.i.d.).
Si se considera lanzar n veces la moneda, X1 , . . . , Xn son v.a.i.i.d. y en este caso repre-
senta una muestra aleatoria (m. a.) de tamaño n.

Si (Ω, S, P) representa un espacio de probabilidad (EP) donde está definida la variable

aleatoria X,
X : Ω −→ R
ω 7−→ X(ω) = x
X(ω) = x se conoce com una realización de la v. a. X. En este caso, si Xn = (X1 , . . . , Xn )

representa una m. a. de tamaño n de la población X, para ω ∈ Ω, Xn (ω) = X1 (ω), . . . , Xn (ω) =
(x1 , . . . , xn ), representa lo que se dice como la muestra observada.
En este ejemplo de la moneda, si el interés es “decir algo” sobre p, es posible colectar
la información que se obtiene del lanzamiento
Pn n veces, Xn y por ejemplo resumirla con
el número total de águilas, Sn = X
i=1 i es el número de águilas en n lanzamientos.
Note que Sn es a su vez una variable aleatoria que depende de las n salidas individuales.
Sn depende exclusivamente de la muestra Xn . Sn se dice que es un estadı́stico(a) y
sn = Sn (ω) = ni=1 Xi (ω) = ni=1 xi , se dice el estadı́stico observado.
P P
Definición : Se dice que S = S(X) es un estadı́stico si es función de la muestra (Xn ) y

que no depende de parámetros desconocidos.
Ejemplo : Dada la muestra Xn = (X1 , . . . , Xn ), el promedio X̄ = n1 ni=1 Xi , X̃ =

P
mediana{X1 , .P . . , Xn } y el rango R = máx{Xi } − mı́n{Xi }, son ejemplos de estadı́sticos.
Por otro lado, ni=1 (Xi −µ)2 no es un estadı́stico pues depende del parámetro µ desconocido.
Si supone que Xn es una muestra aleatoria de Xi ∼ Ber(p), entonces Sn = ni=1 Xi ∼
P
Bin(n, p). La distribución del estadı́stico Sn se dice la distribución muestral de Sn , en
este caso Bin(n, p).
Recordar, si Xi ∼ Ber(p), entonces E[Xi ] = p y var(Xi ) = p(1−p). Sea X̄n = n1 ni=1 Xi ,
P
entonces E[X̄n ] = p y var(X̄n ) = p(1 − p)/n, por lo que serı́a razonablePaproximar el
verdadero (pero desconocido) valor de p por el observado x̄n = X̄n (ω) = n1 ni=1 xi . X̄, es
un estadı́stico pues es función de la muestra y además es un estimador de p y x̄n es una
estimación de p.
Note que siendo que var(X̄n ) = p(1 − p)/n, a mayor tamaño de muestra n, menor la
dispersión (varianza) del estimador. De hecho, se tiene que por la ley de los grandes números
P
(LGN), X̄n → p, cuando n → ∞. Luego, el promedio (media muestral ) X̄n , es un excelente
estimador del parámetro (media poblacional ) µ.
Ejemplo : Considere la población de estudiantes y más en particular en el peso W de los

estudiantes varones. Ω denota la población de estudiantes y W (ω) el peso en kilogramos
del estudiante ω ∈ Ω. Se supone que W ∼ N(µ, σ 2 ), es el modelo a utilizar y sea θ = (µ, σ)
el vector de parámetros de la distribución normal y θ ∈ R × R+ = Θ es el espacio de
parámetros o parametral.
Suponga que por experiencia se puede suponer que σ = 5 kg. y se desea estimar la
media de la población (el parámetro) µ. Para esto, se toma una m. a. de tamaño n, Wn =
(W1 , . . . , Wn ) de W ∼ N(θ). Sean
n
X 1
Sn = Wi y W̄n = Sn
n
i=1
Entonces, E[W̄n ] = µ y var(W̄n ) = σ 2 /n. Luego, serı́a razonable estimar el parámetro µ

P
mediante W̄n . Como en el ejemplo anterior, note que por LGN se tiene que W̄n → µ,
cuando n → ∞.
Por otro lado, siendo la distribución normal simétrica alrededor de la media, µ también
localiza a la mediana de la distribución, por lo que un estimador alternativo del parámetros

serı́a el estadı́stico mediana, W̃n = mediana{W1 , . . . , Wn } y w̃n = mediana{w1 , . . . , wn }

una estimación de µ.
Note que si la muestra seleccionada incluyese un valor atipico (outlier ), digamos, wi∗ ,
más alto que µ + 5σ, esto se reflejarı́a en un mayor valor de w̄n , sobrestimando el valor del
parámetro µ. Por otro lado, la mediana muestral W̃n no se verı́a afectada por wi∗ . Que un
estimador sea “poco sensible” se dice que es robusto. En este ejemplo, W̃ es un estimador
de µ robusto a valores atı́picos.
Un problema es que a diferencia de W̄ , no conocemos la distribución muestral de W̃ .
No conocemos su media ni su varianza. Luego, no se puede decir nada sobre su “punterı́a”
(media) ni de su “precisión” (varianza). Sin embargo, podrı́amos ganar cierta idea por medio
de ejercicios de simulación y bootstrap (inferencia por computadora).
Los ejemplos anteriores presentan el problema de estimación de parámetros, lo que

da lugar a:
distribuciones muestrales; métodos de estimación; propiedades de los estimadores;

comparación de estimadores; estimación puntual; estimación por intervalos.
Ejemplo : ¿Quienes sacan mejor calificación en los cursos de Cálculo de Probabilidades,

ellas o ellos?
Para abordar el problema se considera el siguiente modelo: Sean X y Y variables alea-
torias independientes que representan las calificaciones de las mujeres y de los hombres
respectivamente y sean µX y µY las medias de las correspondientes distribuciones. Luego
la pregunta se pudiera plantear con las siguientes hipótesis
H0 : µX = µY vs. H1 : µX > µY
En palabras: la hipótesis nula H0 supone que no hay diferencia entre ellas y ellos, mientras
que la hipótesis alternativa H1 supone que ellas obtienen calificaciones más altas que ellos.
Ahora bien, para intentar responder la pregunta de manera objetiva se tomarı́an mues-
tras aleatorias de ambas poblaciones, X y Y , y por ejemplo, se compararı́an los promedios
D̄ = X̄ − Ȳ . ¿La diferencia es importante? ¿Qué tanto? Note que siempre corre el ries-
go de concluir en error. Por ejemplo, declarar que aunque las muestras sugirieran que no
hay diferencia entre los dos grupos, en realidad ellas tienen calificaciones más altas que
ellos. O bien, concluir que ellas son mejores porque se observó que D̄ > 0, pero eso no es
generalizado.
El tipo de preguntas que se presentan en el ejemplo anterior y bajo diferentes escenarios
y distribuciones también son tema del la inferencia estadı́stica y se abordarán en la segunda
parte del curso.
1.2. Ejercicios
Refiérase a la Lista de Ejercicios 1.
Textos de apoyo
Chihara and Hesterberg (2019); Mood, Graybill, and Boes (1974); Wackerly, Men-
denhall III, and Scheaffer (2008).

2. Elementos de Cálculo de Probabilidades I y II

2.1. Espacios de probabilidad
Figura 5: Experimento aleatorio E arroja salidas impredecibles ω. El espacio muestral Ω es

el conjunto de todas las posibles resultados ω. El conjunto A de salidas de interés denota
un evento.
Experimento aleatorio E, del que no es posible adelantar la salida.
Espacio muestral Ω. Conjunto de posibles salidas del ω del experimento aleatorio.
Familia de eventos S. σ-álgebra de subconjuntos de Ω, tales que:
i) Si A ∈ S, entonces AC ∈ S.
ii) Si A1 , A2 , · · · ∈ S, entonces ∪∞
i=1 Ai ∈ S.
Espacio medible (Ω, S).
Conjuntos borelianos de R, B(R). σ-álgebra de subconjuntos de R generada por

los intervalos (a, b].
Medida de probabilidad sobre el espacio medible (Ω, S), es una función P : S → R,

tal que,
K1 : P(A) ≥ 0, para todo A ∈ S.

K2 : P(Ω) = 1.
P∞
K3 : Si A1 , A2 , · · · ∈ S, tales que Ai ∩ Aj = ∅, entonces P ∪∞
i=1 Ai = i=1 P(Ai ).
Las propiedades K1 , K2 , K3 anteriores se dicen los axiomas de probabilidad o de

Kolmogorov.
A partir de los axiomas se derivan una serie de propiedades como:
P(AC ) = 1 − P(A).
P(∅) = 0.
P(A\B) = P(A) − P(A ∩ B).
P(A ∪ B) = P(A) + P(B) − P(A ∩ B).

Probabilidad condicional.
Si (Ω, S, P) es un espacio de probabilidad y A ∈ S tal que P(A) > 0, se define
P(A ∩ B)
PA (B) = = P(B|A), para todo B ∈ S
P(A)
PA (B) = P(B|A) se dice probabilidad condicional de B dado A y es una medida

de probabilidad pues satisface los axiomas de Kolmogorov.
Regla de la multiplicación. P(A ∩ B) = P(A|B)P(B).
A y B se dicen eventos independientes si P(A ∩ B) = P(A)P(B).
A1 , A2 , . . . se dicen
Q eventos mutuamente independientes si para todo n se cumple
que P(∩ni=1 Ai ) = ni=1 P(Ai ).
Sean A1 , A2 , · · · ∈ S. {Ai }, se dice una partición de Ω si: i) Ai ∩Aj = ∅; ii) ∪i Ai = Ω.
Teorema de Probabilidad Total. Sea {Ai } una partición de Ω. Entonces, para

todo evento B, X
P(B) = P(B|Aj )P(Aj )
j=1
Regla de Bayes. Sea {Ai } una partición de Ω. Entonces, para todo evento B,
P(B|Ak )P(Ak )
P(Ak |B) = P
j=1 P(B|Aj )P(Aj )
2.2. Variables aleatorias

Sea (Ω, S, P) un EP. La función real X con dominio en Ω se dice variable aleatoria
a.) si para todo x ∈ R, la preimagen de x es un evento. Esto es, si para todo x ∈ R,
(v.
ω ∈ Ω : X(ω) = x ∈ S.
Sea X una v. a. definida en (Ω, S, P). Se define su función de probabilidad acu-

mulada o función de distribución por F (x) = P(X ≤ x), para todo x ∈ R.
Sea X v. a. con función de distribución F . Entonces, F satisface:
0 ≤ F (t) ≤ 1, para todo t ∈ R.

F es no decreciente.
F (−∞) = 0, F (+∞) = 1.
F es continua por la derecha.
Para a < b, P(a < X ≤ b) = F (b) − F (a).
P(X = x) = F (x+ ) − F (x− ).
P
Sea X v. a. y SX = {x1 , x2 , . . . } tal que P(X = xi ) > 0 y xi ∈SX P(X = xi ) = 1, X
se dice que es una variable aleatoria discreta con soporte SX .
P
Si A ∈ B(R), P(X ∈ A) = xi ∈A P(X = xi ).
R x f. p. a. F . Si existe una función h no negativa tal que para todo x ∈ R,

Sea X v. a. con
P(X ≤ x) = −∞ h(u)du, X se dice que es una variable aleatoria (absolutamente)
continua y h su función de densidad de probabilidades.

Sea X v. a. con f. d. p. f . El conjunto SX = {x ∈ R : f (x) > 0} se dice el soporte

de la distribución.
Sea X v. a. continua con f. p. a. F y f. d. p. f . Entonces, , para toda t ∈ R,
Rt
F (t) = −∞ f (x)dx.
dF (x)
f (t) = dx x=t .
Cuantiles de una distribución.

Sea X v. a. continua con función de distribución F y sea 0 < p < 1. Se define xp , el
p-ésimo cuantil de la distribución como aquel tal que p = F (xp ).
primer cuartil x.25 = q1 p = 0.25

mediana x.50 = xmed p = 0.50
tercer cuartil x.75 = q3 p = 0.75
Rango R = q3 − q1
2.3. Momentos de una variable aleatoria

Sea X v. a. con función de probabilidades f y soporte SX . Se define el valor esperado
de X por ( P
x ∈S xi f (Xi ) caso discreto
E[X] = R i x
R xf (x)dx caso continuo
siempre que la suma o integral sean absolutamente finitas.
Teorema del estadı́stico inconsciente(TEI). Sea X v. a. con función de probabi-
lidad f y g una función tal que g(X) es una v. a.. Entonces,
( P
x ∈S g(xi )f (xi ) caso discreto
E[g(X)] = R i x
R g(x)f (x)dx caso continuo
siempre que la suma o integral sean absolutamente finitas.
Se define el r-ésimo momento de X por E[X r ], siempre que este exista.
Sea X v. a. con r-ésimo momento finito. Entonces X tiene k-ésimo momento finito,
para todo k ≤ r, pero no para r + 1 necesariamente.
Sea X v. a. con media µ = E[X]. Se define la varianza de X por
var(X) = E[(X − µ)2 ] = E[X 2 ] − E2 [X]
Representación de los momentos. Sea X con cuarto momento finito.
r E[(X − µ)r ] definición interpretación

∗1 µ media localización
2 σ2 varianza dispersión
3 η sesgo asimetrı́a de la densidad
4 κ curtosis densidad plana o picuda
Se define la función generadora de momentos (f. g. m.) de X por
m(t) = E[etX ]
para toda t siempre que la suma o integral exista en una vecindad de 0,

Se define la función caracterı́stica de X por

φ(t) = E[eitX ]
√
con i = −1. La función caracterı́stica siempre existe.
Si X tiene f. g. m. m y f. c. φ, entonces φ(t) = m(it).
Sea X v. a. con f. g. m. m diferenciable. Entonces, para r = 1, 2, . . . ,
dr m(t)
E[X r ] =
dtr t=0
Teorema de unicidad de f. g. m.. Sean X y Y v. a.’s con f. g. m. mX y mY , y

funciones de distribución FX y FY , respectivamente. Si mX (t) = mY (t) para toda t
entonces, FX (w) = FY (w), para todo w punto de continuidad de F .
Sea X v. a. con f. g. m. mX (t) y a, b ∈ R, entonces
ma+bX (t) = eat mX (bt)
2.4. Desigualdades
Markov: Sea X una v. a. positiva. Entonces, para todo k > 0,
E[X]
P(X ≥ k) ≤
k
2 . Entonces, para todo ϵ > 0,
Chabyshev: Sea X una v. a. con media µX y varianza σX
2
σX
P(|X − µX | ≥ ϵ) ≤
ϵ2
Jensen: Sea X v. a. y h función convexa, entonces

E[h((X)] ≥ h E[X]
2.5. Vectores aleatorios

Sea (Ω, S, P) un EP. X = (X1 , . . . , Xn ) es un vector aleatorio si para todo x =
(x1 , . . . , xn ) ∈ Rn , {ω ∈ Ω : X(ω) = x} ∈ S.
Sea X = (X1 , . . . , Xn ). Se define la f. p. a. conjunta de X por F (x) = P(X1 ≤
x1 , . . . , Xn ≤ xn ), para todo x ∈ Rn . En este contexto, Fi (x) = P(Xi ≤ x) se dice la
f. p. a. marginal de Xi .
Sea X v. a. con f. p. a. conjunta F . Si existe una función h no negativa tal que para
todo x = (x1 , . . . , xn ) ∈ Rn ,
Z x1 Z xn
F (x) = ··· h(x)dx1 · · · dxn
−∞ −∞
h se dice una función de densidad de probabilidad conjunta de X.

Sea X v. a. con f. p. a. conjunta F y f. d. p. conjunta f . Entonces,
∂n
f (x) = F (x)
∂x1 · · · ∂xn
Sea X = (X1 , . . . , Xn ) v. a. con f. d. p. conjunta f y fi la correspondiente función
marginal de Xi . Entonces,
Z ∞ Z ∞
fi (x) = ··· f (x1 , . . . , xn ) dx1 · · · dxi−1 dxi+1 · · · dxn
−∞ −∞

Distribuciones condicionales.
Sea X = (X1 , . . . , Xn ) con f. p. a. conjunta F . X se dice que es de componentes
independientes X1 , . . . , Xn , si y solo si, para todo x = (x1 , . . . , xn ) y t = (t1 , . . . , xn ),
F (x) = F1 (x1 ) · · · Fn (xn ).

f (x) = f1 (x1 ) · · · fn (xn ).
Basta que una se cumpla para que se cumpla la otra.
Sea (X1 , X2 ) un vector aleatorio con f. d. p. conjunta f y marginales fi . Entonces,

Z x1
P(X1 ≤ x1 |X2 = x2 ) = h(u)du
−∞
f (u, x2 )
donde h(u) = f (u|x2 ) = . En esta definición, la función f (·|x2 ) se dice la
f2 (x2 )
función de densidad condicional de X1 dado X2 = x2 .
Teorema de Probabilidad Total (TPT) Sea (X, Y ) un vector aleatorios con f. d.

p. conjunta f , marginales fX , fY y condicional f (x|y). Entonces,
Z
fX (x) = f (x|y)fY (y)dy
R
Regla de Bayes
f (x|y)fY (y)
f (y|x) = R
R f (x|v)fY (v)dv
Teorema del estadı́stico inconsciente. Sea X = (X1 , . . . , Xn ) un v. a. y sea

g : Rn → R, una función tal que Y = g(X) es una variable aleatoria. Entonces,
Z
E[Y ] = E[g(X)] = g(x)f (x)dx
Rn
Esperanza condicional. Sea (X, Y ) un v. a., entonces

Z
E[Y |X = x] = yf (y|x)dy
R
Esperanza total. Sea (X, Y ) un v. a., entonces
E[Y ] = E[E[Y |X]]

var(Y ) = var(E[Y |X]) + E[var(Y |X)]
Esperanza y covarianza de un vector aleatorio.

Sea (X, Y ) un v. a.. Se define la covarianza entre X y Y por
σXY = cov(X, Y ) = E[(X − µX )(Y − µY )] = E[XY ] − E[X] E[Y ]
y la correlación lineal entre X y Y por
cov(X, Y ) σXY
ρXY = corr(X, Y ) = p =
var(X)var(Y ) σX σY

Sea X = (X1 , . . . , Xn )T , se definen el vector de medias y la matriz de covarianzas

por µ = (µ1 , . . . , µn )T y Σ = (σij ). Explı́citamente,
 
  σ12 σ12 · · · σ1n
µ1
 σ12 σ22 · · · σ2n 
 
 . 
E[X] =   ..  = µ Σ=  .. .. .. .. 

 . . . . 

µn
σ1n σ2n · · · σn2
donde µi = E[Xi ] y σij = cov(Xi , Xj ).
Función generadora de momentos.

Sea X = (X1 , . . . , Xn ) un v. a.. Se define la función generadora de momentos
T
conjunta por m(t) = E[et X ] y mi (t) = E[etXi ] las correspondientes f. g. m. margi-
nales.
Sea X = (X1 , X2 ) un v. a. con f. g. m. conjunta m12 (t1 , t2 ) y marginales mi (ti ).

Entonces, m1 (t) = m12 (t, 0).
Sea X = (X1 , . . . , Xn ) con f. p. a. conjunta F , f. d. p. conjunta f y f. g. m. conjunta

m. X se dice que es de componentes independientes X1 , . . . , Xn , si y solo si, para
todo x = (x1 , . . . , xn ) y t = (t1 , . . . , xn ),
F (x) = F1 (x1 ) · · · Fn (xn ).

f (x) = f1 (x1 ) · · · fn (xn ).
m(t) = m1 (t1 ) · · · mn (tn ).
Basta que una se cumpla para que las otras dos también se cumplan.
Sean X1 y X2 v. a.’s independientes con f. g. m. mi , respectivamente. Entonces,
mX1 +X2 (t) = m1 (t1 ) · m2 (t)
Teorema de unicidad: Si X1 y X2 tienen f. g. m. y es la misma, entonces tienen

la misma ley de probabilidades. Esto es, si m1 (t) = m2 (t), para toda t, entonces
F1 (x) = F2 (x), para todo punto de continuidad x.
2.6. Transformaciones
Teorema de transformación. Sea X v. a. con f. d. p. fX y g una función con
inversa h = g −1 diferenciable y tal que dh
dy ̸= 0. Si Y = g(X) es una variable aleatoria.
Entonces, fY , la f. d. p. de Y está dada por
dh
fY (y) = fX (h(y))
dy
Teorema de transformación integral.
Sea X v. a. continua con función de distribución FX . Entonces

U = FX (X) ∼ Unif(0, 1).
−1
Sea X con f. p. a. FX invertible, U ∼ Unif(0, 1). Entonces, Y = FX (U ) ∼ X.

Figura 6: Funciones de densidad y generadora de momentos de algunas leyes de probabilidad

discretas y continuas.
Teorema de transformación. Sea X = (X1 , . . . , Xn )T con f. d. p. conjunta fX y

sea la función g : Rn → Rn uno-a-uno tal que h = g −1 con |Jh| ̸= 0. Sea Y = g(X).
Entonces,
fY (y) = fX (h(y))|Jh|

donde |Jh| denota el valor absoluto del determinante de la matriz jacobiana (∂hi /∂yj ).
Ejemplos
√
Sean Z ∼ N(0, 1) y Y ∼ χ2n independientes. Defina T = nZY −1/2 y U = Y .
√
i) Defina T = nZY −1/2 , U = Y y utilice el teorema de transformación para
encontrar la f. d. p. conjunta de (T, U ).
ıii) Encuentre la distribución marginal de T . Muestre que la f. d. p. de T está
dada por
Γ( n+1 ) n+1
fT (t) = √ 2 n (1 + t2 /n) 2 , para todo t ∈ R
nπΓ( 2 )
Pn
Sean X1 , . . . , Xn , . . . , v.a.i.i.d.’s con Xi ∼ Ber(p). Entonces, i=1 Xi ∼ Bin(n, p).
Pn
Solución: X ∼ Ber(p), mX (t) = 1 + pet . Entonces, Sn = i=1 Xi tiene un
n
f. g. m. dada por mSn (t) = q + pet , que corresponde a la f. g. m. de una
distribución Bernoulli parámetros n y p. Se concluye del teorema de unicidad
que Sn ∼ Ber(n, p).
Pn
SeanPX 1 , . . . , Xn , . . . , v. a.’s independientes con Xi ∼ Po(λi ). Entonces, i=1 Xi ∼
Po( ni=1 λi ).
t Pn
Solución: X ∼ Po(λi ), mi (t) = ePλ(e −1) . Entonces, Sn = i=1 Xi tiene un f.
t n
g. m. dada por mSn (t) = e(e −1)P i=1 λi , que corresponde a la f. g. m. de una
n
distribución Poisson
Pn parámetro i=1 λi . Se concluye del teorema de unicidad
que Sn ∼ Po( i=1 λi ).
Pn
Sean
Pn X 1 , . . . ,
Pn X n , . . . , v. a.’s independientes con Xi ∼ N(µ i , σi
2 ). Entonces,
i=1 Xi ∼
N( i=1 µi , i=1 σi ). 2
Solución: X ∼ N(µi , σi2 ), mi (t) = exp{µP 1 2 2

Entonces, Sn = ni=1 Xi
P
i t + 2 σi t }.P
tiene un f. g. m. dada por mSn (t) = exp{t ni=1 µi , 12 t2 Pni=1 σi2 }, que corresponde P 2
a la f. g. m. de una distribución normal con media P P µ2 i y varianza σi . Se
concluye del teorema de unicidad que Sn ∼ N( µi , σi ).
Recuerde que Y ∼ Gamma(α, β), con parámetro de forma α y parámetro
de escala β, entonces E[Y ] = αβ, var(Y ) = αβ 2 y f. g. m. mY (t) = (1 − βt)−α ,
para t < 1/β.
Y ∼ Gamma( n2 , 2) se dice que sigue una distribución ji-cuadrada con n grados
de libertad y se denota por Y ∼ χ2n .
Sean Y1 , . . . , Yn , . . . , v. a.’s independientes que siguen una distribución Gamma
con parámetros de forma αi P y parámetro de escala
P común β. Luego, E[Yi ] = αi β
y var(Yi ) = αi β 2 . Entonces, ni=1 Yi ∼ Gamma( ni=1 αi , β).
Sean Y1 , . . . , Yn , . . . , v. a.’s independientes con Yi ∼ χ2νi . Entonces, ni=1 Yi ∼
P
χ2P νi .
Sea Z ∼ N(0, 1), entonces Y = Z 2 ∼ χ21 .
Solución: Z
TEI 2
mY (t) = E[e ] =tY
etz ϕ(z)dz = (1 − 2t)−1/2
R+
donde ϕ es la f. d. p. de la distribución normal estándar. La función (1 − 2t)−1/2

constituye la f. g. m. de Gamma(1/2, 2) ≡ χ21 . La conclusión se sigue del Teorema
de Unicidad de las f. g. m..
Ejercicios: Lista 01, problemas 2–14.

2.7. Estadı́sticos de orden

Sea X = (X1 , . . . , Xn ) una muestra aleatoria (v.a.i.i.d.’s) de una población X ∼ f . Esto
es, Xi tiene una f. d. p. f . Se define Yi = X(i) el i-ésimo estadı́stico de orden. Entonces,
Y1 ≤ Y2 ≤ · · · ≤ Yn , y si Y = (Y1 , . . . , Yn ) y x = (x1 , . . . , xn ),
n
Y
fY (x) = n! f (xi )
i=1
estadı́stico f. d. p. f. p. a. n
mı́n X(1) f1 (x) = nf (x)[1 − F (x)]n−1 F1 (x) = 1 − 1 − F (x)
n−1 n
máx X(n) fn (x) = nf (x) F (x) Fn (x) = F (x)
La f. p. a. y la f. d. p. conjuntas del (X(1) , X(n) ) son

n n
F1n (x, y) = F (y) − F (y) − F (x)
n−2
f1n (x, y) = n(n − 1)f (x)f (y) F (y) − F (x)
Sea R = máx{Xi } − mı́n{Xi } el rango de la muestra, entonces

Z ∞
n−2
fR (r) = n(n − 1) f (u)f (r + u) F (r + u) − F (u) du
−∞
Ejercicios :
Sea U = (U1 , . . . , Un ) una m. a. de U ∼ Unif(a, b). Encuentre la distribución de
U(n) = máx{U1 , . . . , Un }.
Sea T = (T1 , . . . , Tn ) una m. a. de T ∼ Exp(θ). Encuentre la distribución de T(1) =

mı́n{T1 , . . . , Tn }.
Sea U = (U1 , . . . , Un ) una m. a. de U ∼ Unif(0, 1). Muestre que sus estadı́sticos de

orden siguen distribuciones beta. A saber
U(k) ∼ Beta(k, n + 1 − k)
2.8. Método Delta

Vea Dudewicz and Mishra (1988).
Proposición : Sea X una variable aleatoria y suponga que su función generadora de

momentos mX (t) existe para todo |t| < T , para algún T > 0. Entonces, X tiene todos sus
momentos finitos µk = E[X k ] y mX (t) se puede expandir alrededor de t = 0. A saber,
E[X] E[X 2 ] 2 E[X k ] k

mX (t) = 1 + t+ t + ··· + t + O(tk )
1! 2! k!
O(tk )
donde lı́m = 0.
t→∞ tk
Proposición : Sea X una variable aleatoria con k-ésimo momento finito, k > 2 y sea h
una función k veces diferenciable, entonces
σ2 µ(3) µ(k−1) 1
E[h(X)] = h(µ) + h(2) (µ) + h(3) (µ) + · · · + h(k−1) (µ) + E[h(k) (ξ)(X − µ)k ]
2 3! (k − 1)! k!

donde µ(r) = E[(X − µ)r ], r = 3, 4, . . . y ξ se encuentra en una vecindad de µ.

Demostración: Puesto que h es k-veces diferenciable, por el Teorema de Taylor con residuo
y expandiendo al rededor de µ,
k−1 (r)
X h (µ) h(k)
h(x) = (x − µ)r + (ξ)(x − µ)k
r! k!
r=0
donde ξ está entre x y µ.

Ahora, evaluando la expresión anterior en la v. a. X y tomando valores esperados
h(1) h(2)
E[h(X)] = h(0) (µ) + (µ)E[(X − µ)] + (µ)E[(X − µ)2 ] + · · ·
1! 2!
h(k−1) 1
+ (µ)E[(X − µ)k−1 ] + E[h(k) (ξ)(X − µ)k ]
(k − 1)! k!
y se sigue el resultado.
2 . Si la función h es
Corolario : Sea X una variable aleatoria con media µX y varianza σX
al menos dos veces diferenciable,
h(2) (µX ) 2
E[h(X)] ≈ h(µX ) + σX
2
Demostración: Tome k = 2 en la proposición anterior.
2
σX
E[h(X)] = h(µX ) + h′′ (µX ) + Residuo
2
2 . Si la función h es
Corolario : Sea X una variable aleatoria con media µX y varianza σX
al menos dos veces diferenciable,
2 2
var[h(X)] ≈ h′ (µX ) σX
′
Demostración: Sea H = h2 , H ′ = 2hh , H ′′ = 2hh′′ + 2(h′ )2 . Entonces, se sigue del corolario
anterior que
σ2
E[H(X)] ≈ H(µX ) + H ′′ (µX ) X
2
h 2
2 i σ X
= h2 (µX ) + 2h(µX )h′′ (µx ) + 2 h′ (µX )
2
var(h(X)) = E[h2 (X)] − E2 [h(X)]

" #2
σ 2
2
≈ h2 (µX ) + σ 2 h(µX )h′′ (µX ) + σX
2
h′ (µX ) − h(µX ) − h′′ (µX ) X

2
2 σ 4 2
2
= σX h′′ (µX ) + X h′′ (µX )
|4 {z }
4 )
O(σX
2 2
≈ h′ (µX ) σX
2 y h
Teorema : Método Delta Sea X una variable aleatoria con media µX , varianza σX
una función dos veces diferenciable. Entonces,

h(2) (µX ) 2
E[h(X)] ≈ h(µX ) + 2 σX
2 2
var[h(X)] ≈ h′ (µX ) σX
√
Ejemplo : Sea U ∼ Unif(0, 1), h(x) = X. Considere Y = h(X). Mediante el método
delta aproxime µY , σY2 y σY .
2 = 1/12 = 0.0833 y σ = 0.2887.
Solución: X ∼ Unif(0, 1), entonces µX = 0.5, σX X
1√
x3/2
Z
TEI 1 2
E[Y ] = xdx = = = 0.667
0 3/2 0 3
1 √ x3/2
Z
TEI 1 1
E[Y 2 ] = ( x)2 dx = = = 0.5
0 3/2 0 2
var(Y ) = E[Y 2 ] = E[ Y ] = 0.50 − (0.667)2 = 0.0556

σY = 0.2357
Y mediante el método delta

1 1
h(x) = x1/2 ; h′ (x) = x−1/2 ; h′′ (x) = − x−3/2
2 4
" −3/2 #
σ 2 √ 1 1 0.0833
µY ≈ h(µX ) + h′′ (µX ) X = 0.5 + − = 0.7022
2 4 2 2
2
′
2 2 1
σY2 ≈ h (µX ) σX = (0, 5)−1/2 0.0833 = 0.0589
2
σY ≈ 0.2427
Ejercicio : Repita el ejemplo para X ∼ Unif(1, 2).
2.9. Ejercicios
Refiérase a la Lista de Ejercicios 2, problemas 15-18.
Textos de apoyo
Blitzstein and Hwang (2014); Hoel, Port, and Stone (1971); Mood, Graybill, and Boes
(1974).

3. Distribuciones Muestrales
Definición : Z se dice que sigue una distribución normal estándar y se denota por
Z ∼ N(0, 1) si tiene f. d. p. dada por
1 1 2
ϕ(z) = √ e− 2 z , para todo z ∈ R
2π
Definición : Sea Z ∼ N(0, 1), µ ∈ R y σ > 0. Entonces X = µ + σZ, se dice que sigue
una distribución normal con media µ y varianza σ 2 , y se denota por X ∼ N(µ, σ 2 ). X
tiene f. d. p. dada por
2
1 −1 x−µ
f (x) = √ e 2 σ
, para todo x ∈ R
2πσ
Definición : Y ∼ Gamma( n2 , 2) se dice que sigue una distribución ji-cuadrada con n

grados de libertad y se denota por Y ∼ χ2n . Su f. d. p. está dada por
λα α−1 −λy
f (y) = y e , para y > 0
Γ(α)
Z
Definición : Sean Z ∼ N(0, 1) y Y ∼ χ2n independientes. Defina T = p . Entonces, T
Y /n
tiene una f. d. p. dada por
Γ( n+1 ) n+1
fT (t) = √ 2 n (1 + t2 /n)− 2 , para todo t ∈ R
nπΓ( 2 )
Se dice que T sigue la distribución t-Student con n grados de libertad y se denota

T ∼ tn .
Sumas, productos y concientes de variables aleatorias

Sea X = (X1 , X2 ) v. a. con f. d. p. conjunta f12 y marginales fi . Entonces,
Z ∞
fX1 +X2 (z) = f12 (x, z − x)dx
−∞
Z ∞
1
fX1 ·X2 (z) = f12 (x, z/x)dx
−∞ |x|
Z ∞
fX2 /X1 (z) = |x|f12 (x, zx)dx
−∞
Si además las Xi ’s son independientes

Z ∞
fX1 +X2 (z) = f1 (x)f2 (z − x)dx
−∞
Z ∞
1
fX1 ·X2 (z) = f1 (x)f2 (z/x)dx
−∞ |x|
Z ∞
fX2 /X1 (z) = |x|f1 (x)f2 (zx)dx
−∞

Ejemplo : Sean X1 y X2 v. a.’s independientes con Xi ∼ Gamma(αi , λ), i = 1, 2. Utilice

la f. d. p. de las suma de v. a.’s para mostrar que X1 + X2 ∼ Gamma(α1 + α2 , λ).
Solución: Para esto, sea Z = X + Y .
fZ (z) = 0 para z < 0. Sea pues, z ≥ 0,
Z z
fZ (z) = fX (x)fY (z − x)dx
0
Z z α1
λ λ α2
= xα1 −1 e−λx (z − x)α2 −1 e−λ(z−x) dx
0 Γ(α 1 ) Γ(α 2 )
λα1 +α2 e−λz z α1 −1
Z
= x (z − x)α2 −1 dx
Γ(α1 )Γ(α2 ) 0
λα1 +α2 e−λz 1
Z
= (zu)α1 −1 (z − zu)α2 −1 zdu ; u = x/z
Γ(α1 )Γ(α2 ) 0
λα1 +α2 e−λz α1 +α2 −1 1 α1 −1
Z
= z u (1 − u)α2 −1 du
Γ(α1 )Γ(α2 ) 0
λα1 +α2 e−λz α1 +α2 −1
= z · B(α1 , α2 )
Γ(α1 )Γ(α2 )
λα1 +α2
= z α1 +α2 −1 e−λz
Γ(α1 + α2 )
con el uso del cambio de variable u = x/z y B(α1 , α2 ) denota la función Beta3 La función
fZ corresponde a la f. d. p. de una distribución Gamma con parámetro de forma (α1 + α2 )
y parámetro tasa λ.
Ejemplo : Sean X1 , X2 v. a.’s independientes con Xi ∼ Gamma(αi , β). Determine la

función de densidad de Z = X2 /X1 .
Solución: Z = X2 /X1 , entonces el soporte de Z es R+ . Sea pues z > 0.
Z ∞
fZ (z) = xf1 (x)f2 (zx)dx
0
Z ∞ α1 −1 −x/β
x e (zx)α2 −1 e−zx/β
= x α1 · dx
0 β Γ(α1 ) β α2 Γ(α2 )
z α2 −1 1 ∞
Z
− 1+z x
= α1 +α2 Kxα1 +α2 −1 e β dx
β Γ(α1 )Γ(α2 ) K 0
Γ(α1 + α2 ) z α2 −1
=
Γ(α1 )Γ(α2 ) (1 + z)α1 +α2
α +α
(1 + z)/β 1 2
donde K = es la constante normalizadora de la función de densidad de
Γ(α1 + α2 )
una distribución Gamma con parámetro de forma α1 + α2 y (1 + z)/β como parámetro tasa.
Por lo tanto,
Γ(α1 + α2 ) z α2 −1
fX2 /X1 (z) = 1 (z)
Γ(α1 )Γ(α2 ) (1 + z)α1 +α2 (0,∞)
Corolario : Sean Xi ∼ χ2ni , v. a.’s independientes para i = 1, 2. Entonces, X1 /X2 tiene f.

d. p. dada por
n1
Γ( n1 +n
2 )
2
w 2 −1
fX1 /X2 (w) = 1(0,∞) (w)
Γ( n21 )Γ( n22 ) (1 + w) n1 +n
2
2
R1 Γ(α1 )Γ(α2 )
3
B(α1 , α2 ) = 0
uα1 −1 (1 − u)α2 −1 du = Γ(α1 +α2 )
.

Demostración: Recuerde que si Xi ∼ χ2ni , entonces Xi ∼ Gamma(ni /2, 2) y aplique el

ejemplo anterior.
X1 /n1
Corolario : Sean Xi ∼ χ2ni , v. a.’s independientes para i = 1, 2. Entonces, W =
X2 /n2
tiene f. d. p. dada por
n1 /2 n1
Γ( n1 +n −1

2 )
2
n1 w 2
fW (w) = 1(0,∞) (w)
Γ( n21 )Γ( n22 ) n2 (1 + n1
n1 +n2
n2 w)
2
χ2n1 /n1
Definición : Sean Xi ∼ χ2ni independientes y defina W = . Entonces F tiene un
χ2n2 /n2
f. d. p. dada por el corolario anterior y se dice que sigue la distribución F con n1 y n2
grados de libertad. Se denota W ∼ Fn1 ,n2 ≡ F (n1 , n2 ).
Ejercicios : Lista 01, problemas 15–24.

X −µ
Definición : Sea X v. a. con media µ y varianza σ 2 . Entonces, Z := tiene media
σ
cero y varianza 1. Es decir,
X −µ
Z= =⇒ E[Z] = 0 y var(Z) = 1
σ
La definición de Z es la estandarización de la v. a. X. Se dice que Z es una v. a. estan-
darizada. De ahı́ que N (0, 1) se diga normal estándar.
Definición : Sea Xn = (X1 , . . . , Xn ), una muestra aleatoria de X con µ = E[X] y σ 2 =

n
1 2 1 X
var(X). Sean Sn = X1 + · · · + Xn , X n = Sn y S = (Xi − X)2 , entonces
n n−1
i=1
estadı́stico notación media varianza

Suma: Sn E[Sn ] = nµ var(Sn ) = nσ 2
Media muestral: X E[X n ] = µ var(X n ) = σ 2 /n
Varianza muestral: S2 E[S 2 ] = σ 2
Note que (n − 1)S 2 = ni=1 (Xi − X̄)2 . Luego,
P
 
h i Xn
E (n − 1)S 2 = E  (Xi − X̄)2 
i=1
 
n
2
X
= E (Xi − µ) + (µ − X̄)
i=1
 
Xn n
X n
X
= E  (Xi − µ)2 + (µ − X̄)2 − 2(X̄ − µ) (Xi − µ)
i=1 i=1 i=1
 
Xn
= E  (Xi − µ)2 + n(X̄ − µ)2 − 2(X̄ − µ) · n(X̄ − µ)
i=1
n
X h i h i
= E (Xi − µ)2 − nE (X̄ − µ)2
i=1
= nσ − nσ 2 /n
2
= (n − 1)σ 2

Por lo tanto, E[S 2 ] = σ 2 .
Resultado : Sea Xn = (X1 , . . . , Xn ), una muestra aleatoria de X ∼ N(µ, σ 2 ). Entonces,

n
1 X
(Xi − µ)2 ∼ χ2n
σ2
i=1
Resultado : Sea Xn = (X1 , . . . , Xn ), una m. a. de X ∼ N(µ, σ 2 ). Entonces, X y D =

(X1 − X, . . . , Xn − X) son independientes.
Demostración: Recordar que la f. g. m. conjunta de X esta dada por
h T i h P i
mX (t) = E et X = E e ti Xi
Luego, la f. g. m. conjunta de (X, D) es

n o n X o
m(X,D) (s, t) = E exp sX + tT D = E exp sX + ti (X − X)
pero
X X X
tT D = ti (Xi − X) =
ti Xi − X ti
X X X
= ti Xi − ntX = ti Xi − t Xi
X
= (ti − t)Xi
Ası́,
X Xs X
sX + ti (Xi − X) = + (ti − t̄) Xi = ai Xi
n
donde ai = ns + (ti − t̄). Ahora, note que (ti − t̄) = ti − nt̄ = 0, luego
P P
X Xs X
ai = + (ti − t̄) = s + (ti − t̄) = s
n
2 X 2
X
2
Xs s sX X
2 s2 X
ai = + (ti − t̄) = + 2 (ti − t̄) + (t i − t̄) = + (ti − t̄)2
n n2 n n
Además,
T
P
m(X,D) (s, t) = mX (a) = E[ea X ] = E[e ai Xi ]
ind Xi′ s Y Y 1 2 2
= E[eai Xi ] = eµai + 2 ai σ
( )
X σ2 X 2
= exp µ ai + ai
2
 " #
 2
σ s 2 X 
= exp µs + + (ti − t̄)2
 2 n 
( ) ( )
1 σ2 2 σ2 X 2
= exp µs + s · exp (ti − t̄)
2 n 2
= mX (s) · mD (t)
donde los factores dependen exclusivamente de s y t respectivamente, por lo que X y D

son independientes.

1 2 2
1
Xi ∼ N(µ, σ 2 /n), por lo que su f. g. m. es mX (s) = eµs+ 2 s σ /n
P
Note que X = n . Por
σ2
−t̄)2
P
(ti
lo que mD (t) = e 2 .
Corolario : X = (X, . . . , Xn ), m. a. de X ∼ N(µ, σ 2 ). Entonces, X y S 2 , media y varianza

muestrales, son independientes.
1 P
Demostración: S 2 = n−1 (Xi − X)2 es una función continua de D, independiente de X
por la proposición anterior. Luego, X y S 2 son independientes.
n−1 2
Resultado : X = (X, . . . , Xn ), m. a. de X ∼ N(µ, σ 2 ). Entonces S ∼ χ2n−1 .
σ2
Demostración:
X xi − µ 2 1 X
W = (Xi − µ)2
=
σ σ2
1 Xh i2
= 2 (Xi − X) + (X − µ)
σ
1 X n 2 X
= 2 (Xi − X)2 + 2 (X − µ)2 + 2 (X − µ) (Xi − X)
σ σ σ
!2
n−1 2 X −µ
= S + √
σ2 σ/ n
=: U + V
Entonces, por proposición anterior U y V son v. a.’s independientes. Entonces, mW (t) =
mU (t)mV (t), por lo que
mW (t) (1 − 2t)−n/2
mU (t) = = = (1 − 2t)−(n−1)/2
mV (t) (1 − 2t)−1/2
n−1
que corresponde a la f. g. m. de una distribución Gamma con α = 2 y β = 2. Se sigue
del teorema de unicidad que (n−1)
σ2
S 2 ∼ χ2n−1 .
X −µ
Proposición : X = (X, . . . , Xn ), m. a. de X ∼ N(µ, σ 2 ). Entonces, √ ∼ tn−1 .
S/ n
Demostración:

X−µ
√
X −µ N(0, 1)
σ/ n
√ =q ≡q ∼ tn−1
S/ n n−1 2
S /(n − 1) χ2 /(n − 1)
σ 2 n−1
ya que el numerador y el denominador son independientes como ya se mostró.
Proposición : Sean Xn1 = (X1 , . . . , Xn1 ) m. a. X ∼ N(µ1 , σ12 ) y Yn2 = (Y1 , . . . , Yn2 ) m. a.
de Y ∼ N(µ2 , σ22 ) independientes. Entonces,
2
SX σ12
∼ F (n1 − 1, n2 − 1)
SY2 σ22
= S12 = n11−1 ni=1
2 1 Pn2
(Xi −X)2 , SY2 = S22 = )2 . Luego,
P 1
Demostración: Sea SX n1 −1 i=1 (Yi −Y
ni −1 2
σi2
Si ∼ χ2ni −1 , i = 1, 2 independientes. Entonces,
n1 −1 2
σ12
S1 /(n1 − 1)
n2 −1 2 ∼ F (n1 − 1, n2 − 1)
σ22
S2 /(n2 − 1)
S12 σ12
Por lo tanto, ∼ F (n1 − 1, n2 − 1).
S22 σ22

3.1. Ejercicios
Refiérase a la Lista de Ejercicios 3, problemas 1–15.
Textos de apoyo
(1974); Wackerly, Mendenhall III, and Scheaffer (2008).

4. Resultados Lı́mite
4.1. Modos de convergencia de variables aleatorias
Sea (Ω, S, P) un espacio de probabilidad (EP) y sean X y X1 , X2 , . . . variables aleatorias
definidas sobre ese EP. A continuación se presentan distintos modos de convergencia de
sucesiones de va’s. Las definiciones fueron tomadas de Roussas (1997).
Definición : Se dice que {Xn } converge casi seguramente o que converge con pro-
cs cp1
babilidad 1 a X y se denota por Xn −→ X, o bien, Xn −→ X, si para “casi todo” ω ∈ Ω 4 ,
Xn (ω) −→ X(ω).
cs
Esto es, Xn −→ X, si ∀ ϵ > 0 y ∀ ω ∈ Ω\D, ∃ N (ω, ϵ), tal que
| Xn (ω) − X(ω) |< ϵ, n>N
El tipo de convergencia casi segura se le conoce también como convergencia fuerte.
P
Definición : Se dice que {Xn } converge
en probabilidad a X y se denota por Xn −→ X,
si para todo ϵ > 0, P | Xn − X |> ϵ −→ 0.
Esto es, si ∀ ϵ > 0 y δ > 0, ∃ N (ϵ, δ), tal que

P | Xn − X |> ϵ < δ, n > N

Note que la convergencia en probabilidad implica que P | Xn − X |≤ ϵ −→ 1. El tipo de
convergencia en probabilidad se le conoce también como convergencia débil.
Definición : Se
mc dice que {X n } converge en media cuadrática a X y se denota por
Xn −→ X, si E | Xn − X |2 −→ 0.
Esto es, si ∀ ϵ > 0 ∃ N (ϵ), tal que
h i
E | Xn − X |2 < ϵ, n > N
D
Definición : Se dice que {Xn } converge en distribución a X y se denota por Xn −→ X,
si Fn (x) −→ F (x) para todo x ∈ C(F ), puntos de continuidad de F , la f. p. a. de X y las
Fn ’s las correspondientes de Xn .
Esto es, si ∀ ϵ > 0 y todo x ∈ C(F ), ∃ N (ϵ, x), tal que
| FX (x) − F (x) |< ϵ, n>N
Note que convergencia en distribución no implica la convergencia de las correspondientes
f. d. p. ó f. m. p.. Considere por ejemplo,

 0
 si x < 1 − 1/n
Fn (x) = 1/2 si 1 − 1/n ≤ x < 1 + 1/n
 1 si x ≥ 1 + 1/n

Entonces, Fn (x) −→ F (x) = 1[1,∞) (x), que es la función de distribución que asigna toda la
probabilidad al punto x = 1. Sin embargo, para todo x ∈ R,
1 1
fn (x) = 1{1− 1 ,1+ 1 } (x) −→ f (x) = 1{1} (x)
2 n n 2
que no es f. d. p..
Proposición : Relación entre los modos de convergencia

4
Xn (ω) −→ X(ω) para “casi todo” ω ∈ Ω, si la convergencia se da en todo ω ∈ Ω, excepto quizá para
aquellos ω ∈ D pero tal que P (D) = 0.

a). Convergencia en probabilidad implica convergencia en distribución pero no viceversa.

P D
Xn −→ X =⇒ Xn −→ X.
b). Convergencia casi segura implica convergencia en probabilidad pero no viceversa.

cs P
Xn −→ X =⇒ Xn −→ X.
c). Convergencia media cuadrática implica convergencia en probabilidad pero no vicever-

mc P
sa. Xn −→ X =⇒ Xn −→ X.
d). Convergencia casi segura no implica convergencia cuadrática media ni viceversa.
4.2. Otros resultados lı́mite

Teorema de continuidad de Lévy. Sea {Fn } una sucesión de funciones de distribución
y F una f. p. a.. Sean {φn } y φ las correspondientes funciones caracterı́sticas. Entonces,
i. Si Fn (x) −→ F (x), x ∈ C(F ), puntos de continuidad de F , entonces, φn (t) −→ φ(t),
para todo t ∈ R.
ii. Si para todo t ∈ R, {φn (t)} converge a una función g(t), continua en t = 0, entonces, g
es una función caracterı́stica, y si F es la correspondiente f. p. a. entonces, Fn (x) −→
F (x), para todo x ∈ C(F ),
Teorema de mapeo continuo. Sea {Xn } y X v. a.’s y g una función continua. Entonces,
P P
i. Si Xn −→ X, entonces g(Xn ) −→ g(X).
D D
ii. Si Xn −→ X, entonces, g(Xn ) −→ g(X).
Proposición : Sean {Xn }, {Yn }, X y Y , v. a.’s. Entonces,

P P P
i. Si Xn −→ X y Yn −→ Y , entonces Xn + Yn −→ X + Y .
cm mc mc
ii. Si Xn −→ X y Yn −→ Y , entonces Xn + Yn −→ X + Y .
P P P
iii. Si Xn −→ X y Yn −→ Y , entonces Xn Yn −→ XY .
Teorema de Slutsky. Sean {Xn }, {Yn }, X y Y , v. a.’s y c una constante. Entonces,

P P P
i. Si Xn −→ X y Yn −→ c, entonces Xn + Yn −→ c + X
D D D
ii. Si Xn −→ X y Yn −→ c, entonces Xn Yn −→ cX
D D D
Nota: no necesariamente se tiene que si Xn −→ X y Yn −→ Y , entonces Xn + Yn −→ X + Y
4.3. Ley de los grandes números

X1 +···+Xn
Sean X1 , X2 , . . . v.a.i.i.d.’s, Sn = X1 + · · · + Xn y X̄n = n = n1 Sn .
Ley de los grandes números (LGN).
i. Versión fuerte (LFGN). Sean las Xn ’s con media finita µ. Entonces,
cs
X̄n −→ µ
cs
Y viceversa, si X¯n −→ c, para alguna constante finita c, entonces, E[X] es finita y
E[X] = c.

ii. Versión débil (LDGN). Sean las Xn v. a.’s con media finita µ. Entonces,
P
X̄n −→ µ
Demostración:
i. De un nivel más elevado que el presente curso . . .
ii. La demostración se sigue del inciso anterior pues convergencia casi segura implica la
convergencia en probabilidad. Sin embargo, si además supone que las v. a.’s tienen
varianza σ 2 finita , su demostración sigue de la desigualdad de Chebyshev. A saber,
sea ϵ > 0,
2
σX̄ σ 2 /n
P | X̄n − µ |≥ ϵ ≤ 2n = 2 −→ 0
ϵ ϵ
pues E[X̄n ] = µ y var(X̄n ) = σ 2 /n.
Notas:
1. La constante ϵ puede verse como la precisión deseada en la aproximación de X̄n a µ.

La aproximación es buena para n suficientemente grande.
σ2

2. P | X̄n − µ |≥ ϵ ≤ nϵ 2
3. Considere que X1 , X2 , . . . son v.a.i.i.d. con X ∼ Ber(p). Entonces, E[X] = p y

var(X) = p(1 − p). Luego, E[X̄n ] = p y var(X̄n ) = p(1 − p)/n, por lo que para
toda 0 < p < 1,
p(1 − p) 1
P | X̄n − p |≥ ϵ ≤ 2
≤
nϵ 4nϵ2
pues la varianza es máxima cuando p = 1/2. Esto es, para toda p, p(1−p) ≤ 12 (1− 12 ) =
1
4.

4. Considere dados ϵ, δ > 0 y suponga que se desea que P | X̄n − µ |≥ ϵ ≤ δ. Se tiene
entonces que
p(1 − p) p(1 − p)
P | X̄n − µ |≥ ϵ ≤ 2
≤ δ =⇒ n ≥
nϵ δϵ2
esto es, la condición P | X̄n − µ |≥ ϵ ≤ δ se satisface para n ≥ p(1−p)

δϵ2
.
En el caso de máxima incertidumbre p = 1/2. se tiene n ≥ 1/4δϵ2 .
5. Si ϵ = 0.05 y δ = 0.10, entonces δϵ2 = 2.5 × 10−4 , por lo que

1
n≥ = 1000
4(2.5 × 10−4 )
Si por alguna razón se espera que p ≈ 0.30, p(1 − p) = 0.21 y

0.2
n≥ = 840
2.5 × 10−4
y si p ≈ 0.15, entonces n ≥ 510.

4.4. Teorema central del lı́mite

2 finita.
Sean X1 , X2 , . . . v.a.i.i.d.’s con media común µX y varianza σX
Recordar,
n
X
Sn = Xi X̄n = Sn /n
i=1
E[X̄n ] = µX
E[Sn ] = nµX 2
2 var(X̄n ) = σX /n
var(Sn ) = nσX
Luego, cuando n −→ ∞, se sigue que
E[Sn ] −→ ±∞ ; E[X̄n ] −→ µ
var(Sn ) −→ +∞ ; var(X̄n ) −→ 0
Note al crecer n, en el caso de la suma Sn , ésta “explota”, mientras que la media muestral
X̄n , se “colapsa” en el sentido que converge a la constante µ.
La versión del teorema central del lı́mite que aquı́ se presenta es conocida como de
Lindberg-Lévy.
Teorema central de lı́mite (TCL) Sean Sn y X̄n como antes. Entonces, para las variables
n −nµX √n −µ
estandarizadas Zn = S√ 2
= X̄ 2
X
, se tiene que
nσX σX /n
D
Zn −→ Z ∼ N(0, 1)
Demostración: Sin pérdida de generalidad suponga que las propias Xi ’s ya son estandariza-
das, E[Xi ] = 0 y var(Xi ) = 1 y suponga que X tiene función generadora de momentos mX
finita. Entonces,
i). mX (0) = E[e0·X ] = 1.

d
ii). m′X (0) = mX (t)|t=0 = E[X] = 0
dt
d2
iii). m′′X (0) = mX (t)|t=0 = var(X) = 1
dt2
Se tiene también que
n
i). mSn (t) = mX (t) , por ser v.a.i.i.d..
n
ii). mX̄n (t) = mX (t/n) .
√ n
iii). m√nX̄n (t) = mX (t/ n) .
Sea ahora L(t) = log(mX (t)). Entonces,
i). L(0) = 0.
d m′ (t)
ii). L′ (0) = log(mX (0)) = X =0
dt mX (t)
t=0
2
mX (t)m′′X (t) − m′X (t)

′′ d2 1(1) − 02
iii). L (0) = 2 log(mX (0)) = = = 1
dt m2X (t) 1
t=0

√
√ n √ √ L(t/ n)
log(m√ nX̄n (t)) = log mX (t/ n) = n log(mX (t/ n)) = nL(t/ n) =
1/n
√ √
L(t/ n) L′ (t/ n)(− 12 n−3/2 )t
lı́m = lı́m , Regla de L’Hopital
n→∞ 1/n n→∞ −n−2
√
L′ (t/ n)t
= lı́m
n→∞ 2n−1/2
√
L′′ (t/ n)(− 12 n−3/2 )t2
= lı́m , Regla de L’Hopital
n→∞ −n−3/2
t2 √
= lı́m L′′ (t/ n)
2 n→∞
pues L′′ (0) = 1. Por lo tanto,

√
L(t/ n) t2
log(m√nX̄n (t)) = −→
1/n 2
y por continuidad
2 /2
m√nX̄n (t) −→ et
que corresponde a la f. g. m. de Z ∼ N(0, 1). Se sigue del teorema de continuidad de Lévy
que
√ X̄ D
nX̄n = √ −→ Z ∼ N(0, 1)
1/ n
El teorema se concluye considerando Wi = µX + σX Xi .
Distribucion Original
600
frecuencia
0 200
0.0 0.2 0.4 0.6 0.8 1.0

x
n=5 n = 20
250
100 200
frecuencia
frecuencia
100 0
0.2 0.4 0.6 0.8 1.0 0.5 0.6 0.7 0.8 0.9
x x
n = 50 n = 100
100 200 300
150
frecuencia
frecuencia
50 0
0.55 0.60 0.65 0.70 0.75 0.80 0.85 0.65 0.70 0.75 0.80
x x
Figura 7: Teorema central de lı́mite. Los valores de X̄n se va distribuyendo a manera

de “campana” al rededor de µ conforme crece el tamaño de muestra n. En el panel central
se muestra el histograma de la distribución original Beta(1.3,0.5).

La figura 7 muestra el histograma de promedios al considerar muestras de tamaño n =

5, 20, 50, 100. Al aumentar el tamaño de la muestra el histograma se acerca más a una curva
“normal”. El histograma del panel superior representa la distribución original de las Xi ’s,
en este caso, de una distribución Beta.
Nota: En la práctica, basta que el tamaño de la muestra n sea “suficientemente grande”

para que la aproximación normal sea razonable. Esto es, si Xn = (X1 , . . . , Xn ), y X̄n =
1
n (X + · · · + Xn ), para n suficientemente grande se tiene que
X̄n − µ · ·
Zn = √ ∼ N(0, 1), o bien, X̄n ∼ N(µ, σ 2 /n)
σ/ n
¿Qué tan grande debe ser n para que la aproximación sea “razonable”? Dependerá de la
distribución de los miembros de la muestra. Para distribuciones más o menos simétricas, una
aproximación razonable se logra con n ≥ 30. Distribuciones sesgadas requerirán de n ≥ 70
a más. Los promedios de la distribución Beta(0.5,0,6) de la figura 8 parecen distribuidos
normal aún para tamaños de muestra n = 5.
Distribucion Original
400
frecuencia
200 0
0.0 0.2 0.4 0.6 0.8 1.0

x
n=5 n = 20
200 400
100 200
frecuencia
frecuencia
0
0.0 0.2 0.4 0.6 0.8 0.2 0.3 0.4 0.5 0.6 0.7
x x
n = 50 n = 100
250
frecuencia
frecuencia
150
100
0 50
0
0.3 0.4 0.5 0.6 0.35 0.40 0.45 0.50 0.55 0.60
x x
Figura 8: Teorema central de lı́mite. En el panel central superior se muestra el histo-

grama de la distribución original Beta(0.5, 0.6).
Ejemplo : El tiempo de vida de unas lámparas se distribuye exponencial con tiempo

medio de vida de 10 dı́as. Tan pronto fallan son reemplazadas por otras idénticas. ¿Cuál es
la probabilidad de que se necesiten más de 50 lámparas en un año?
Solución: X ∼ Exp(θ = 10). Sn = X1 + · · · + Xn .

365 − 50(10) TCL
P (S50 < 365) = P Zn < √ ≈ Φ(−1.91) = 0.028
10 50

Ejemplo : Sea X1 , X2 , . . . v.a.i.i.d.’s con media µ y varianza σ 2 . Sean Sn = X1 + · · · + Xn ,

X̄n = n1 Sn . Aproxime P | X̄n − µ |≥ c .

Solución: Se sigue del teorema central del lı́mite que para n grande,
X̄n − µ ·
Zn = √ ∼ N(0, 1)
σ/ n
Entonces,

P | X̄n − µ |≥ c = 1 − P −c ≤ X̄n − µ ≤ c
!
−c X̄n − µ c
=1−P √ ≤ √ ≤ √
σ/ n σ/ n σ/ n
" #
c −c
= 1 − P Zn ≤ √ − P Zn ≤ √
σ/ n σ/ n
" #
TCL c −c
≈ =1− Φ √ −Φ √
σ/ n σ/ n

−c
= 2Φ √
σ/ n
Ejemplo : Se toma una muestra aleatoria de tamaño n para determinar el porcentaje que
votará por el candidato X.
Sean X1 , X2 , . . . v.a.i.i.d.’s Xi ∼ Ber(p). Luego, E[X] = p = µX y var(X) = p(1 − p) =
2
σX ≤ 1/4.
a). Si n = 900,
!
TCL −0.025
P | X̄n − p |≥ 0.025 ≈ 2Φ 1
√ = 2Φ(−1.50) = 2(0.067) = 0.1336
2 / 900

b). P | X̄n − p |≥ c = 0.01. Determine c si n = 900.

−c
2Φ √ = 0.01
σ/ n
√
c = −z.005 σ/ n
1 √
= 2.576 · / 900 0.005 0.005
2 z0.005 z0.995 = 2.576
= 0.043
Note que por simetrı́a al rededor de 0, z0.005 = −2.576 = −z0.995 .

c). Determine n de manera que P | X̄n − p |≥ 0.025 = 0.01.

P |X̄n −p|
√
σ/ n
≥ 0.025
√
σ/ n
= 0.01.
.025
Por otro lado, z.995 = 2.576 = 1 √
/ n
. Ası́,
2
√ 2.576 1
n= · = 51.517 y por lo tanto n ≈ 2654
.025 2
4.5. Ejercicios
Refiérase a la Lista de Ejercicios 4, problemas 1–19.
Textos de apoyo
(1974); Wackerly, Mendenhall III, and Scheaffer (2008).

5. Estimadores
5.1. Introducción
En esta sección se presenta la manera de asociar “leyes de probabilidad” a observacio-
nes.
Muchas distribuciones dependen de pocos parámetros, que cuando se conocen sus

valores las distribuciones quedan completamente determinadas. Por ejemplo, si N ∼
Po(λ) y se sabe que λ = 3, entonces la distribución está totalmente definida.
El problema es ¿cómo se sabe que λ = 3? La más de las veces no se sabe y hay que
estimarlo de los datos.
Una vez estimados los parámetros se debe revisar qué tan bien la distribución estimada
ajusta los datos. (Pruebas de bondad de ajuste.)
En esta sección se verán ciertos métodos de estimación y algunas de sus propiedades.
Ejemplo: Ajuste de datos Poisson5

La tabla 1 muestra la emisión de partı́culas radioactivas en intervalos de 10 segundos.
N = 1207 intervalos (independientes). 18 de ellos tuvieron 0, 1 o 2 emisiones; 28 de ellos
tuvieron 3 emisiones; 56 tuvieron 4; . . . 5 intervalos tuvieron 17 o más emisiones.
Tabla 1: Número de intervalos observados y estimados con un número n de partı́culas

emitidas.
n Observados Esperados χ2
0−2 18 12.2 2.76
3 28 27.0 0.04
4 56 56.5 0.01
5 105 94.9 1.07
6 126 132.7 0.34
7 146 159.1 1.08
8 164 166.9 0.05
9 161 155.6 0.19
10 123 130.6 0.44
11 101 99.7 0.02
12 74 69.7 0.27
13 53 45.0 1.42
14 23 27.0 0.59
15 15 15.1 0.00
16 9 7.9 0.15
17+ 5 7.1 0.62
1207 1207 9.05
Si supone que la emisión de partı́culas sigue aproximadamente un distribución Poisson

con λ, el número medio de emisiones por intervalo (de 10 segundos), entonces la probabilidad
de tener k emisiones es
λk e−λ
πk = P (X = k) = k = 0, 1, 2, . . .
k!
5
Rice (2007).

P
El promedio observado de emisiones por intervalo de 10 segundos fue λ̂ = ki ni /N =
8.392 6
Note que las frecuencias observadas en los N = 1207 intervalos serán distintas si se
volviese a observar otros tantos intervalos. Es la misma situación al lanzar 20 veces una
moneda. Dos series de 20 volados no tienen porque tener la misma secuencia de águilas
y soles. Una segunda sucesión de intervalos seguramente tendrı́a un número promedio de
emisiones distinto, digamos λ̂2 . Luego, dependiendo de la serie de observaciones tendrı́amos
distintos valores correspondientes a λ. Entonces, a su vez, λ es una variable aleatoria y su
distribución se conoce como distribución muestral.
Ahora, la pregunta es ¿cómo evaluar la calidad del ajuste? Es decir, observados las
N = 1207 intervalos, ¿su distribución se parece efectivamente a la de una distribución
Poisson? Si la respuesta la creyésemos afirmativa, entonces para un valor de emisiones
elegido k, en N ensayos se esperarı́an ek = N πk . Intuitivamente pareciera que una medida
de la bondad del ajuste pudiera ser
n
X (oi − ei )2
S= (1)
ei
i=1
donde el ı́ndice i se refiere al número de “casilla” donde se comparan los valores esperados
ei con los valores observados oi .
Note que si la distribución del número de emisiones X fuese efectivamente Poisson con
λ = 8.392, entonces, por ejemplo p4 = P(X = 4) = 0.047 y en N = 1207 realizaciones
esperarı́amos e4 = N p4 = 1257(.047) = 56.6 emisiones. Los conteos esperados y correspon-
dientes sumandos de la expresión (1) se muestran en la tabla 1.
Se puede mostrar, no en este curso, que bajo ciertas condiciones, el estadı́stico S
(función de la muestra que no depende de parámetros desconocidos) de la expresión (1)
sigue asintóticamente una distribución χ2n−1 . Si λ no se conoce y hubiera que estimarlo,
entonces S ∼ χ2n−k−1 , donde n es el número de casillas donde se compara lo esperado con
lo estimado (n = 16) y k es el número de parámetros estimados de la muestra (k = 1).
En nuestro ejemplo, S = 9.047, que, si suponemos que sigue una distribución χ2ν , con
ν = 16 − 1 − 1 = 14, P(χ214 ≥ 9.047) = 0.828. Esta última probabilidad se interpreta como
la probabilidad de ver el estadı́stico observado o algo más extremo. En nuestro ejemplo, con
el valor-p de 0.82, concluimos que no es extraño lo observado y aceptarı́amos el modelo
de la distribución Poisson con λ = 8.392. Por otro lado, si por ejemplo, consideramos
que λ = 8.75, el correspondiente estadı́stico S = 30.186 con un valor-p de 0.007, que se
interpretarı́a como que la probabilidad de observar S = 30.186 o algo mayor es un evento de
probabilidad de apenas 0.7 %, lo que harı́a sospechar sobre la validez del modelo propuesto,
a saber, X ∼ Po(8.75). La figura 9 muestra las frecuencias observadas y esperadas para los
dos casos mencionados anteriormente. La figura 10 presenta la función de densidad de la
distribución χ214 y localiza los estadı́sticos observados y correspondientes valores-p.
6
Resultado λ̂ = 8.392, tomado del libro de texto. Nuestros cálculos arrojan λ̃ = 8.370.

Distribución Muestral
observados
esperados
150100
frecuencia
50
0
0 5 10 15 20
n
Figura 9: Observaciones.
Distribución χ214
0.08
0.06
densidad
0.040.02
0.829
0.007
0.00
9.0374 30.19
0 10 20 30 40
x
Figura 10: Densidad χ214 indicando los valores de los estadı́sticos observados y sus corres-
pondientes valores-p, S = 9.034(0.829) y S = 8.75(0.007) correspondientes a los parámetros
λ̂ = 8.392 y λ̃ = 8.750, respectivamente.
5.2. Principios de estimación puntual

De manera muy somera se puede suponer que
Probabilidad. Supone que el modelo es conocido y uno se pregunta por las proba-
bilidades de ciertos eventos.

Estadı́stica. A partir de la salida de un experimento (observación, muestreo) se desea

conocer los valores de los parámetros o el modelo (de distribución) mismo.
Modelos estadı́sticos.
X ∼ f , con f. d. p., f. m. p., f. p. a. o función de distribución, representan el modelo
(distribución) estadı́stico. Aunque se supone que X es observable, no siempre lo es pero aún
ası́ se puede hablar del modelo.
En muchos casos el modelo (distribución) depende de parámetros θ (univariado) ó θ
(vector de parámetros). Se supone por ejemplo que θ ∈ Θ ⊆ R (θ ∈ Θ ⊆∈ Rk ), con Θ el
espacio de parámetros.
Si X ∼ f (x; θ), entonces
R
Pθ (A) = A f (x; θ)dx;
R
Eθ [X] = R xf (x; θ)dx;
varθ (X) = Eθ [X 2 ] − E2θ [X].
etcétera.
Los modelos pueden ser indexados por un vector de parámetros finito y en ese caso se dice
que es un modelo paramétrico. Si no es posible se dice modelo no paramétrico con Θ
de dimensión infinita.
Si para un modelo y parámetro θ dado corresponde una distribución Fθ , podrı́a ser
que θ2 ̸= θ1 pero que Fθ1 = Fθ2 , por lo que podrı́a tener un problema de estimación.
Supondremos que si Fθ1 = Fθ2 =⇒ θ1 = θ2 . Esto es, el modelo es identificable. Parámetros
de modelos identificables se dicen estimables.
Ejemplos.
X = (X1 , . . . , Xn ) m. a. de X ∼ Po(λ).
λx e−λ
f (x; λ) = , λ ∈ Λ = R+ espacio de parámetros
x!
X m. a. de X ∼ F , continua pero desconocida. En este caso, el espacio de parámetros

serı́a el espacio de funciones continuas que no pueden ser indexadas por parámetros.
Luego el modelo es no paramétrico.
X una m. a. de X ∼ F , con f. d. p. f tal que f (x − θ) desconocida pero que satisface

f (x) = f (−x). El problema es no paramétrico pero depende también de θ por lo que
se dice semi-paramétrico.
X = (X1 , . . . , Xn ) v. a.’s independientes normales con E[Xi ] = β0 + β1 ti + β2 si ,

i = 1, . . . , n. si , ti conocidas. var(Xi ) = σ 2 . Θ = {(β0 , β1 , β2 , σ 2 ) : βi ∈ R, σ 2 > 0}, el
espacio de parámetros. El modelo (la parametrización) es identificable si y solo si los
vectores z0 = 1, z1 = t, z2 = s son linealmente independientes.
5.3. Estimación de parámetros

Suponer que una población X puede ser modelada mediante una ley de probabilidades
puede darse por distintas razones:
Razonamiento teórico. La teorı́a dice que la variable observada X puede distribuirse
de acuerdo a cierta ley. Por ejemplo, la distribución del error o variación modelada
por la normal de acuerdo a Teorema Central del Lı́mite.

Razonamiento empı́rico. La teorı́a dice que la variable observada puede aproxi-

marse razonablemente mediante cierta ley. Por ejemplo, la distribución Poisson en la
emisión de partı́culas radioactivas.
Ajuste empı́rico Las observaciones son aproximadas mediante una ley sin teorı́a que
respalde tal aproximación. Por ejemplo, usar la distribución Gamma para aproximar
la precipitación pluvial.
Recuerde, si X = (X1 , . . . , Xn ) es una muestra aleatoria de tamaño n de la población X,

S = S(X) es un estadı́stico si S es función de la muestra que no depende de parámetros
desconocidos.
Se supone que la población de interés X es modelada mediante la distribución pa-
ramétrica f (x, θ), donde θ = (θ1 , . . . θk ), es el vector de parámetros. Se ha visto que un
estimador θ̃ es en general un estadı́stico que aproxima el valor del parámetro θ, usual-
mente desconocido.
Definición : Suponga que X sea modelada por la f. d. p. f (x; θ), donde θ = (θ1 , . . . , θk ),
es un vector de parámetros. θ ∈ Θ = {θ : θ es un valor factible}, es el espacio de paráme-
tros.
Ejemplo :
X ∼ N(µ, σ 2 ). θ = (µ, σ) ∈ R × R+ = Θ.
Y ∼ Gamma(α, β). θ = (α, β) ∈ R+ × R+ = Θ.
Definición : Un estimador θ̃ es una regla, generalmente función de la muestra X, que

aproxima el valor real, pero desconocido, del vector de parámetros θ. Decimos que θ̃(X)
es un estimador del parámetro θ y θ̃(X) tiene una distribución nombrada como la distri-
bución muestral. Dada la muestra observada x = (x1 , . . . , xn ), θ̃(x) se dice que es una
estimación de θ.
Definición : Sea X ∼ f (x; θ) y suponga el parámetro θ univariado y θ̃(X) estimador de

θ. Se define el sesgo del estimador θ̃ por
sesgo(θ̃; θ) = Bias(θ̃; θ) = B(θ̃; θ) = E[θ̃ − θ]

h i
Se dice que θ̃ es un estimador insesgado si B(θ̃) = 0, o bien, E θ̃(X) = θ.
Definición : La desviación estándar de un estimador se conoce como error estándar del

estimador. q
ee(θ̃) = var(θ̃)
El error estándar de un estimador es una medida de lo preciso (variable) del estimador.
La figura 11 muestra el caso de un estimador preciso pero sesgado (panel izquierdo); un
estimador insesgado pero impreciso (panel central) y el caso de un estimador ideal: insesgado
y preciso.
Definición : Sea X = (X1 , . . . , Xn ) una muestra aleatoria de X ∼ f (x; θ). Sea θ̃ = θ̃(X)
un estimador del parámetro θ. Se define el error cuadrático medio de θ̃ por
h i
ECM(θ̃) = E (θ̃ − θ)2

sesgado impreciso ideal
θ θ θ
Figura 11: Estimadores. El panel de la derecha muestra estimaciones de un estimador del

parámetro θ ideal: insesgado y preciso.
Proposición : Sea X una muestra aleatoria de X ∼ f (x; θ). Para todo estimador θ̃ de θ,
se tiene que
ECM(θ̃) = var(θ̃) + sesgo2 (θ̃)
Demostración:
ECM(θ̃) = E[(θ̃ − θ)2 ]

n o2
= E (θ̃ − Eθ̃) + (Eθ̃ − θ))
= E[(θ̃ − Eθ̃)2 ] + E[(Eθ̃ − θ)2 ] + 2(Eθ̃ − θ)E[θ̃ − Eθ̃]

= var(θ̃) + sesgo2 (θ̃)
pues el E[θ̃ − Eθ̃] = 0 y E[(Eθ̃ − θ)2 ] = sesgo2 (θ̃).
Definición : Sea θ̃1 , θ̃2 , . . . una sucesión de estimadores de θ. Se dice que {θ̃n } es un
estimador consistente de θ si
P
θ̃n −→ θ
Esto es, si para todo ϵ > 0, se tiene que P(|θ̃n − θ| > ϵ) → 0. En general, θ̃n = θ̃(Xn ), donde
Xn = (X1 , . . . , Xn ) es una m. a. de tamaño n.
Definición : {θ̃n } se dice consistente en error cuadrático medio si

ECM(θ̃n ) = E[(θ̃ − θ)2 ] −→ 0
Esto es, si para todo ϵ > 0 ECM(θ̃n ) < ϵ, para n > N (ϵ).
Proposición : Si {θ̃n } es consistente en error cuadrático medio, entonces var(θ̃n ) → 0 y

sesgo(θ̃) → 0.
Demostración: ECM(θ̃n ) = var(θ̃n ) + sesgo2 (θ̃n ) −→ 0, entonces cada uno de los sumandos
se va a cero por ser ambas cantidades positivas.
Proposición : Si {θ̃n } es consistente en error cuadrático medio, entonces es consistente.

Lo contrario no es necesariamente cierto.
Demostración: Se sigue de la desigualdad de Chebyshev,
var(θ̃ − θ)
n
P |θ̃n − θ| ≥ ϵ ≤ −→ 0
ϵ2
Comparación de estimadores
Una manera de comparar estimadores es mediante el error cuadrático medio. Se prefiere
θ̃1 sobre θ̃2 si ECM(θ̃1 ) < ECM(θ̃2 ). Si ambos estimadores son insesgados, tal comparación
se reduce a elegir aquel estimador con menor varianza.
Definición : Sean θ̃1 y θ̃2 dos estimadores insesgados de θ, Se define la eficiencia de θ̃2
relativa a θ̃1 por
var(θ̃1 )
eff(θ̃2 , θ̃1 ) =
var(θ̃2 )
Se dice que θ̃2 es más eficiente que θ̃1 , si eff(θ̃2 , θ̃1 ) > 1.
En ocasiones las varianzas son de la forma
c1 c2
var(θ̃1 (Xn )) = ; var(θ̃2 (Xn )) =
n n
En este caso, la eficiencia se define como el cociente entre los tamaños de muestra para
hacer que ambas varianzas sean iguales.
Definición : Sea Xn = (X1 , . . . , Xn ) una muestra aleatoria de X ∼ f (x; θ), un estimador

Tn∗ = T ∗ (Xn ) del parámetro τ (θ) se dice que es un estimador insesgado de varianza
mı́nima (UMVUE, uniformly minimum-variance unbiased estimator ), si y solo si,
i) Eθ [Tn∗ ] = τ (θ).
ii) varθ (Tn∗ ) ≤ varθ (Tn ), para todo Tn , estimador insesgado de τ (θ).
Cota inferior de Cramér-Rao.
Teorema (CICR): Sea θ un parámetro, τ una función real diferenciable y τ (θ) un paráme-
tro definido en términos de θ por τ = τ (θ). Sea Tn = T (Xn ) un estimador insesgado de τ .
Entonces, bajo condiciones de regularidad 7
′ 2
τ (θ)
varθ (Tn ) ≥ 2 (2)
∂
nEθ ∂θ log f (X; θ)
La igualdad se cumple si y solo si existe una función, digamos K(θ, n) tal que
∂
log f (Xn ; θ) = K(θ; n) T (Xn ) − τ (θ) (3)
∂θ
La expresión (2) se conoce como la desigualdad de Cramér-Rao y el lado derecho de la
desigualdad como la cota inferior de Cramér-Rao (CICR).
Ejemplo : Sea Xn = (X1 , . . . , Xn ), una m. a. de X ∼ Exp(λ). Luego, E[X] = 1/λ = τ y

considere Tn = T (Xn ) = X̄n estimador insesgado de τ . Por mostrar que Tn alcanza la cota
inferior de Cramér-Rao.
f (x; λ) = λe−λx
Sea ℓ(λ; x) = log f (x; λ) = log λ − λx.

7
Condiciones apropiadas de suavidad, de acuerdo a Rice (2007).

∂
∂λ ℓ(λ; x) = λ1 − x.
2
∂
∂λ ℓ(λ; x) = λ12 − 2 λx + x2 .
2
E ∂
∂λ ℓ(λ; X) = 1
λ2
− 2 1/λ 1
λ + ( λ2 +
1
λ2
) = 1
λ2
Por otro lado, sea τ (λ) = 1/λ. Entonces, τ ′ (λ) = −1/λ2 y (τ ′ (λ))2 = 1/λ4 , por lo que la
desigualdad de Cramér-Rao queda
1/λ4 1
var(Tn ) ≥ 2
=
n/λ nλ2
1/λ2
Se tiene también que var(Tn ) = var(X̄n ) = var(X)/n = n . Esto es, se alcanza la CICR.
Finalmente, note que
n n
∂ X ∂ X 1
log f (Xn ; θ) = log f (Xi ; θ) = n/λ − Xi = −n X̄n −
∂λ ∂λ λ
i=1 i=1
con K(λ, n) = −n y (T (Xn ) − τ (λ)) = (X̄n − 1/λ) de la expresión (3).
5.4. El método de momentos

Sea X ∼ f (x; θ). Recuerde que el r-ésimo momento de X (o de la distribución de X) es
µr = E[X r ], siempre que el valor esperado exista.
Suponga Xn = (X1 , . . . , Xn ) una muestra aleatoria de la población X. Se define el
n
1X r
r-ésimo momento muestral por mr = Xi
n
i=1
En este caso, parecerı́a intuitivo ver a mr como un estimador de µr . Si, por ejemplo,
k = 2 y se tiene el vector de parámetros θ = (θ1 , θ2 ) y θi = hi (µ1 , µ2 ), i = 1, 2. Entonces,
por el método de momentos se estimarı́a
θ̃1 = h1 (m1 , m2 ) y θ̃2 = h2 (m1 , m2 )
Resumiendo: la estimación de parámetros por el método de momentos involucra el prin-

cipio de sustitución de acuerdo a Knight (2000):
Encuentre las expresiones que relacionen los momentos teóricos con los parámetros a
estimar. Exprese los parámetros en términos de los momentos.
Calcule los momentos muestrales de bajo orden que sean necesarios en el punto ante-
rior.
Sustituya los momentos muestrales en las expresiones del primer punto. El resultado
son los estimadores de momentos (emm).
Ejemplo : Sea Xn = (X1 , P . . . , Xn ) una m. a. de X ∼ Po(λ).

µ1 = E[X] = λ; m1 = n ni=1 Xi = X̄n . Entonces, λ̃emm = X̄.
1
Note que el estimador λ̃ es insesgado puesp E[λ̃] = E[X̄] = λ. Además, var(λ)

p = var(X̄) =
λ/n. Finalmente, su error estándar, ee(λ̃) = λ/n estimado a su vez por X̄/n.
de X ∼ N(µ, σ 2P
Ejemplo : Sea Xn = (X1 , . . . , Xn ) una m. a.P ).
Entonces, µ1 = µ y µ2 = µ2 + σ 2 . m1 = n Xi y m2 = n1
1
Xi2 . Entonces,

µ̃ = m1 = X̄.
1 1
σ̃ 2 = m2 − m21 = Xi2 − X̄ 2 = (Xi − X̄)2 .
P P
n n
√
Note que µ̃ = X̄ es un estimador insesgado de µ con un error estándar ee(X̄) = σ/ n.
Por otro lado, si σ̃ 2 = n−1 2 2 2 n−1 2
n S , con S la varianza muestral, entonces E[σ̃ ] = n E[S ] =
n−1 2 2 2
n σ , por lo que σ̃ es un estimador sesgado de la varianza σ . Su error estándar
s
σ2 p

2 n−1 2
ee(σ̃ ) = var S = 2(n − 1)
n n
n−1 2 σ4
pues S ∼ χ2n−1 , por lo que var(S 2 ) = (n−1)2
2(n − 1).
σ2
Ejemplo : Sea Un = (U1 , . . . , Un ), una m. a. de U ∼ Unif(0, θ), con θ > 0.
θ 1 P
Entonces, µ1 = E[U ] = 2 . m1 = n Ui = Ū . Y por lo tanto, θ̃emm = 2Ū , lo que puede
dar lugar a estimaciones absurdas si, por ejemplo, U(n) > 2Ū = θ̃.
Ejercicio8 : El ángulo θ en que un electrón es emitido se puede modelar mediante un f. d.
p. dada por
1 + αx
f (x; α) = 1(−1,1) (x)
2
para algún |α| ≤ 1 y donde x = cos θ. Consideraciones fı́sicas sugieren que |α| < 1/3.
Xn = (X1 , . . . , Xn ) una m. a. de X. Muestre que α̃emm = 3X̄.
Proposición : Los estimadores por el método de momentos son estimadores consistentes.

Sea θ̃n = θ̃(Xn ) el estimador por el método de momentos del parámetro θ. Entonces, bajo
condiciones razonables
P
θ̃n −→ θ
Esto es, para todo ϵ > 0, P(|θ̃n − θ| > ϵ) → 0.
Demostración: Se basa en la Ley de los Grandes Números y el teorema del mapeo continuo.
Ejemplo : Considere la m. a. Y = (Y1 , . . . , Yn ) de Y ∼ Ga(α, β), con α y β los parámetros

de forma y escala respectivamente. Entonces,
m1 ≡ µ1 = E[Y ] = αβ
m2 ≡ µ2 = E[Y 2 ] = αβ 2 + α2 β 2 = αβ 2 (1 + α)
Resolviendo el sistema para α y β,
m21 Ȳ 2 m2 − m21 σ̃ 2
α̃emm = 2 = 2 y β̃emm = =
m2 − m1 σ̃ m1 Ȳ
El problema ahora serı́a determinar la distribución (muestral) de los estimadores α̃ y β̃.

Una manera de evaluar (aproximar) a su vez el sesgo y el error estándar de los estima-
dores es mediante la simulación Monte Carlo.
8
Rice (2007).

αemm βemm
3000
3000
2500
2500
2000
1500 2000
frecuencias
frecuencias
1000 1500
1000
500
500
2.014 ~ 0.444
β
0
0
1.6 2.32 3.04 0.28 0.42 0.57
2 4 6 8 0.0 0.5 ~ 1.0 1.5
~
α β
Figura 12: Histogramas de estimaciones de los parámetros de forma α y escala β, de

una distribución gamma por el método de momentos. Los intervalos están centrados en el
promedio de estimaciones y son de amplitud 2 desviaciones estándar.
A saber, en este ejemplo se simula una gran cantidad (N ) de muestras aleatorias de

una distribución Gamma del mismo tamaño n de la muestra original Y y de parámetros de
forma α̃emm y de escala β̃emm .
Sean pues Y1 , . . . , YN , las N muestras simuladas. Por ejemplo, la j-ésima muestra serı́a
Yj = (Yj1 , . . . , Yjn ) Y con base en esta muestra se obtendrı́an las correspondientes estima-
ciones α̃j y β̃j . Finalmente, si definimos µ̄ y σ̄ 2 como la media y varianza de los estimadores.
Ası́,
N N
1 X 1 X
µ̄α̃ = α̃j µ̄β̃ = β̃j
N N
j=1 j=1
N N
1 X 1 X
σ̄α̃2 = (α̃j − µ̄α̃ )2 σ̄β̃2 = (β̃j − µ̄β̃ )2
N N
j=1 j=1
Esta manera de estimación por simulación (Monte Carlo) de muestras se conoce como
bootstrap. Uno de varios métodos de remuestreo. La figura 12 muestra los histogramas de
las estimaciones α̃ y β̃ para una simulación de N = 10, 000 muestras de tamaño n = 30 de
una distribución Ga(α = 2.01, β = 0.44).
Nota: La consistencia de los estimadores θ̃ se justifica por

P
Sθ̃ = ee(θ̃) −→ σ(θ̃) = stdev(θ̃) = h(θ̃)
Sθ̃ P
Esto es, lı́m = 1 cuando σ(θ) es una función continua h de θ, pues θ̃ −→ θ, por LGN
n→∞ ee(θ̃)
P
y σ(θ̃) −→ σ(θ) por el teorema del mapeo continuo.
5.5. El método de máxima verosimilitud

Ejemplo9 : Suponga una urna con bolas blancas y negras en una proporción entre ellas
de 3 a 1, pero no se sabe cuál es más numerosa. Para determinarlo se llevan a cabo n
9
Mood, Graybill, and Boes (1974).

extracciones independientes con reemplazo. Si X denota el número de bolas negras en las

n extracciones, X ∼ Bin(n, p) con p = 1/4 ó p = 3/4. Para n = 3 se construye la siguiente
tabla de probabilidades:
p 0 1 2 3
3/4 1/64 9/64 27/64 27/64 1
1/4 27/64 27/64 9/64 1/64 1
Por ejemplo, P(X = 1; p = 3/4) = 9/64, mientras que P(X = 1; p = 1/4) = 27/64.
Si en las tres extracciones salen 0 ó 1 bola negra uno se inclinarı́a por p̂ = 1/4 por
tener asociadas las probabilidades más altas. Igualmente uno se inclinarı́a por p̂ = 3/4 si el
número de negras fuera 2 ó 3.
Definición : Sea X = (X1 , . . . , Xn ) un vector aleatorio (muestra) con función de densidad

conjunta f (x; θ), con θ ∈ Θ. Se define la función de verosimilitud L, como la función de
θ dado x igual a la función de densidad conjunta f (x), dado θ . Esto es,
L(θ; x) = f (x; θ), θ∈Θ
Nota: Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una población X ∼ f (x; θ), con
θ ∈ Θ. Dada la realización x = (x1 , . . . , xn ), por independencia queda la función de
verosimilitud L como
Yn
L(θ; x) = f (x; θ) = f (xi ; θ)
i=1
Para cada realización X = x, L(θ; x) es una función real Con dominio en el espacio de
parámetros Θ.
Definición : Suponga x = (x1 , . . . , xn ), una muestra observada de X ∼ f (x; θ) se define

θ̂emv , el estimador de máxima verosimilitud de θ por
( )
θ̂emv = arg sup L(θ; x)
θ∈Θ
Un estimador de máxima verosimilitud (EMV) de θ, es un estadı́stico S(X) = θ̂emv ,

si sobre θ ∈ Θ, sup L(θ, X) = L S(X), X .
Definición : Sea x = (x1 , . . . , xn ) una muestra observada de X ∼ f (x; θ). Se define la

función log de verosimilitud por
ℓ(θ; x) = log L(θ; x)
Si la muestra x es aleatoria,
n
X
ℓ(θ; x) = log L(θ; x) = log f (xi ; θ)
i=1
Nota: Si θ̂(x) maximiza la función de verosimilitud L, por monotonı́a creciente de la función

logaritmo θ̂ también maximiza la función log de verosimilitud ℓ.

Ejemplo : Considere X = (X1 , . . . , Xn ) una m. a. de X ∼ Po(λ). Entonces f (x; λ) =

e−λ
λx , x = 0, 1, 2, . . . y
x!
L(λ, x) = f (x; λ)
Y
= f (xi ; λ)
P Y
xi −nλ
=λ e / xi !
X X
ℓ(λ; x) = log λ xi − nλ − log xi !
∂ℓ 1X
= xi − n
∂λ λ
En este caso, se puede maximizar el log de la verosimilitud ℓ derivando (con respecto a λ) e
igualando a cero para resolver con λ̂emv = X̄, que en este ejemplo coincide con el estimador
del parámetro λ por el método de momentos λ̃emm . Luego, se tiene que
L(x̄; x) ≥ L(λ; x), para todo λ > 0
Notas:
1. No siempre se puede obtener el estimador de máxima verosimilitud por derivación,

por ejemplo, cuando la función no es diferenciable o debido al espacio de parámetros.
2. Los estimadores de máxima verosimilitud no son necesariamente insesgados.
3. Los estimadores de máxima verosimilitud no son únicos necesariamente.
Ejemplo : Sea T = (T1 , . . . , Tn ) una m. a. de T ∼ Exp(θ), donde θ = E[T ] para algún

θ > 0. Luego f (t; θ) = 1θ e−t/θ 1R+ (t). Entonces,
L(θ, t) = f (t; θ)
Y
= f (ti ; θ)
1 P
= θ−n e− θ ti
1X
ℓ(θ; t) = −n log θ − ti
θ
∂ℓ −n 1 X
= + 2 ti
∂θ θ θ
Nuevamente, igualando la derivada a cero y resolviendo para θ, se tiene que
n
1X
θ̂emv = ti = t̄
n
i=1
Nota: En este caso, si T ∼ Exp(λ), con E[T ] = θ = 1/λ. Entonces,

1
λ̂emv =
θ̂emv
por el principio de invarianza de los estimadores de máxima verosimilitud y que se verá
más adelante.

Ejemplo : Sea U = (U1 , . . . , Un ) una m. a. de U ∼ Unif(0, θ), para algún θ > 0. Luego,
f (u; θ) = 1θ 1(0,θ) (u) y se sigue que
Y n
Y
−n
L(θ, u) = f (ui ; θ) = θ 1(0,θ) (ui )
i=1
Note que (
θ−n si, 0 < ui < θ, para todo i = 1, . . . , n
L(θ, u) =
0 en caso contrario
Luego, la función de verosimilitud L será mayor mientras más chico sea θ pero siempre y
cuando sea mayor que todos los ui ’s. Entonces, θ̂emv = U(n) pues
( )
máx{U1 , . . . , Un } = arg sup L(θ; u)
θ>0
En este caso, la maximización de la función de verosimilitud no fue por derivación y no

ayudarı́a el uso del log de la verosimilitud. Por otro lado, note que la distribución muestral
del estimador corresponde a la del n-ésimo estadı́stico de orden, el máximo de la muestra.
Ejemplo : Considere X = (X1 , . . . , Xn ) una m. a. de X ∼ N(µ, σ 2 ). Sea θ = (µ, σ) ∈ Θ =

R × R+ . Luego, la función de verosimilitud y log de la verosimilitud están dadas por
n
1 1 2
e− 2σ2 (xi −µ)
Y
L(θ, x) = √
i=1
2πσ
n
n 1 X
ℓ(θ; x) = − log(2π) − n log σ − 2 (xi − µ)2
2 2σ
i=1
funciones suaves en θ ∈ Θ conjunto abierto por lo que derivando e igualando a cero permite
la localización del máximo.
∂ℓ 2 X
=− 2 (xi − µ)(−1) = 0 =⇒ µ̂ = x̄
∂µ 2σ
∂ℓ n 1 X 1X
=− + 3 (xi − µ̂)2 = 0 =⇒ σ̂ 2 = (xi − µ̂)2
∂σ σ σ n
2 = n1 (Xi − X̄)2 = n−1 2
P
Note que µ̂emv = X̄ es un estimador insesgado de µ, pero σ̂emv n S es
2 n−1 2 2
sesgado pues E[σ̂ ] = n σ . Además, la distribución muestral de µ̂ es N(µ, σ /n) mientras
2
que σ̂ 2 ∼ σn χ2n−1 .
1 1
Qn m. a. de U ∼ Unif(θ − 2 , θ + 2 ). La
Ejemplo : Considere ahora U = (U1 , . . . , Un ) una
función de verosimilitud está dada por L(θ; U ) = i=1 1(θ− 1 ,θ+ 1 ) (Ui ). Luego,
2 2
(
1 si θ − 12 ≤ ui ≤ θ + 12 , i = 1, . . . , n
L(θ, u) =
0 en caso contrario
Entonces, la función es máxima si para todo i = 1, . . . , n, θ − 12 ≤ ui ≤ θ + 21 . Esto es, si y

solo si θ ≤ ui + 21 y ui − 12 ≤ θ, y esto ocurre si y solo si u(n) − 12 ≤ θ ≤ u(1) + 12 . Luego, el
estimador θ̂emv será todo valor de θ en el intervalo (U(n) − 21 , U(1) + 12 ). Se concluye que los
estimadores de máxima verosimilitud no son necesariamente únicos.
Ejemplo : Considere Y = (Y1 , . . . , Yn ) una muestra aleatoria de una población modelada

mediante una distribución gamma con parámetro de forma α, β parámetro de escala y

λ = 1/β parámetro tasa. Entonces, por ejemplo, el vector de parámetros es θ = (α, β) en

el espacio de parametral Θ = R+ × R+ .
1
Luego, f (y; θ) = α y α−1 e−y/β 1R+ (y) con E[Y ] = αβ y var(Y ) = αβ 2 .
β Γ(α)
Sea mr = n1 ni=1 Yir , el r-ésimo momento muestral. Luego,
P
µ = µβ = m1
σ 2 = αβ 2 = m2 − m21
y resolviendo para α y β se tienen los estimadores por el método de momentos

m21 m2 − m21
α̃emm = y β̃emm =
m2 − m21 m1
Ahora bien,
n
Y 1
L(θ, y) = y α−1 e−yj /β
β Γ(α) j
α
j=1
α−1
− β1
Y P
yj
= β −nα Γ−n (α) yj e
X 1X
ℓ(α, β; y) = −nα log β − n log Γ(α) + (α − 1) log yj − yi
β
Derivando la función log de la verosimilitud e igualando a cero se tiene el siguiente sistema
∂ℓ Γ′ (α) X
= −n log β − n + log yj = 0 (4)
∂α Γ(α)
∂ℓ nα 1 X
=− + 2 yj = 0 (5)
∂β β β
Ȳ
De la ecuación (5) se sigue que β̂emv = , mientras que de la ecuación (4) se tiene la
α̂
siguiente ecuación
Γ′ (α) X
−n log Ȳ + n log α − n + log Yj = 0
Γ(α)
cuya solución arrojarı́a α̂, el estimador de máxima verosimilitud del parámetro de forma.
Note que la ecuación anterior no tiene una solución analı́tica, por lo que no hay una
expresión cerrada para α̂emv , pero se puede resolver numéricamente y se dispondrı́an ası́ de
estimaciones de α y consecuentemente para β.
√ √
Ejercicio 10 :. Sea X = (X1 , . . . , Xn ) una muestra aleatoria de X ∼ Unif(µ− 3σ, µ+ 3σ).
Encontrar los estimadores por el método de momentos y por el de máxima verosimilitud
del vector de parámetros θ = (µ, σ) ∈ Θ = R × R+ .
Ejemplo : Suponga que X = (X1 , . . . , Xk ) es una muestra aleatoria de tamaño n de una

población X ∼ Multinomial(n; p1 , . . . , pk ). Entonces,

n
f (x; p) = px1 · · · pxk k
x1 · · · xk 1
donde n = ki=1 xi y 1 = ki=1 pi . Entonces, la función log de la verosimilitud

P P
X X
ℓ(p; x) = log n! − log xi ! + xi log pi
10

NotePque maximizar ℓ(p; x) sobre el espacio de parámetros impone la restricción pi ≥ 0 y

que pi = 1. Luego, se ha de resolver el problema
máx ℓ(p; x)
p
X
sujeto a pi = 1
Para esto, se puede construir el lagrangiano

X X X
L(p; λ) = log n! − log xi ! + xi log pi + λ pi − 1
con λ como el multiplicador de Lagrange y que da lugar al sistema
∂L(p; λ) Xi ∂L(p; λ) X
= + λ = 0, = pi − 1 = 0
∂pi pi ∂λ
con solución
Xi Xi
p̂i = P = , i = 1, . . . , k
Xj n
Modelo de Equilibrio de Hardy-Weinberg11

De acuerdo con la Ley de Hardy-Weinberg, si las frecuencias de los genotipos están en
equilibrio, los genotipos AA, Aa, y aa, ocurren con una frecuencia mostrada en la tabla
g AA Aa aa
f (1 − θ) 2 2θ(1 − θ) θ2
En una muestra aleatoria (Hong Kong, población china, 1937) se encontró la siguiente
distribución en el tipo de sangre:
g M MN N Total
f 342 500 187 1029
Interesa
q el parámetro θ. Para esto se tienen varias formas de estimarlo. Por ejemplo,
187
θ̃ = 1029 = 0.4263. Sin embargo, parecerı́a que este procedimiento ignora la información
de las otras celdas.
Alternativamente, si asumimos el modelo multinomial, X ∼ Multinomial(n, p).
X X
ℓ(θ, x) = log n! − log xi ! + xi log pi
X
= log n! − log xi ! + x1 log(1 − θ)2 + x2 log 2θ(1 − θ) + x3 log θ2
= K + (2x1 + x2 ) log(1 − θ) + (x2 + 2x3 ) log θ + x2 log 2
∂ℓ(θ, x) −1 1
= (2x1 + x2 ) + (x2 + 2x3 )
∂θ 1−θ θ
Que igualando la derivada del log de la verosimilitud a cero y resolviendo para θ
x2 + 2x3 x2 + 2x3 500 + 2(187)

θ̂emv = = = = 0.4247
2x1 + 2x2 + 2x3 2n 2(1029)
En este caso, para determinar el error estándar del estimador se usarı́a bootstrap.
11
Rice (2007).

Datos censurados12
Sea T = (T1 , . . . , Tn ) una muestra aleatoria de T ∼ Exp(λ). λ es el parámetro tasa
de la distribución tal que E[T ] = 1/λ. Suponga por ejemplo que T denota el tiempo de
procesamiento de un trabajo industrial con un tiempo medio de 1/λ.
Y
L(λ; t) = λe−λti
X
ℓ(λ; t) = n log λ − λ ti
∂ℓ(λ; t) n X
= − ti
∂λ λ
Nuevamente, igualando a cero al derivada del log de la verosimilitud y resolviendo se tiene
n
λ̂emv = P = 1/t̄
ti
Suponga ahora que los trabajos que se observaron hasta un tiempo τ fueron los primeros
m y lo único que se sabe de los últimos n − m es que duraron más de τ . En este caso, la
función de verosimilitud queda
m
Y n
Y
L(λ; t) = f (ti ; λ) P(Tj > τ )
i=1 j=m+1
Pm n−m
= λm e−λ i=1 ti

1 − F (τ )
Pm h in−m
= λm e−λ i=1 ti e−λτ
m
X
ℓ(λ; t) = m log λ − λ ti − λτ (n − m)
i=1
 
m
∂ℓ(λ : t) m  X
= − ti + τ (n − m)
∂λ λ
i=1
Igualando a cero y despejando para λ se tiene

m
λ̂emv = Pm
T
i=1 i + τ (n − m)
12
Garthwaite, Jolliffe, and Jones (2002).

5.6. Principio de Invarianza de EMV

Con el apoyo de Mood, Graybill, and Boes (1974) y Dudewicz and Mishra (1988).
Sea X = (X1 , . . . , Xn ) muestra aleatoria de X ∼ f (x; θ), θ ∈ Θ ⊆ R y sea τ = τ (θ) ∈

T ⊆ R una transformación de θ.
Proposición : Sea θ̂ = θ̂(x) un estimador de máxima verosimilitud (emv) del parámetro θ

de f (x; θ) con θ ∈ Θ ⊆ R. Si el parámetro τ = τ (θ) es una función invertible de θ, entonces
el emv de τ es τ̂ = τ (θ̂).
Demostración:
L(τ̂ , x) = sup L(τ ; x) = sup L(θ; x) = L(θ̂; x)
{τ ∈T } {θ:τ (θ)=τ }
La propiedad se puede extender a un vector de parámetros θ y una función no necesaria-

mente uno-a-uno. Por ejemplo, sea σ 2 la varianza de una distribución Bernoulli parámetro
de éxito p. Entonces, σ 2 = p(1 − p) que no es función uno-a-uno de p, pero como se ha visto,
p̂ = X̄ y el emv es σ̂ 2 = x̄(1 − x̄).
Considere ahora θ = (θ1 , . . . , θk ) ∈ Θ ⊆ Rk y sea τ (θ) = (τ1 (θ), . . . , τr (θ)) ∈ T ⊆
Rr , 1 ≤ r ≤ k. Sea M (τ ; x) = sup L(θ; x). El estimador de máxima verosimilitud
{θ:τ (θ)=τ }
τ̂ maximiza la función de verosimilitud inducida por τ , M (τ ; x). Esto es, τ̂ es tal que
M (τ̂ ; x) ≥ M (τ ; x), para todo τ ∈ T .
Proposición : Sea θ̂ = (θˆ1 , . . . , θˆk ), con θ̂j = θ̂j (X) un estimador de máxima verosimilitud
del vector de parámetros θ de f (x; θ). Sea τ (θ) = (τ1 (θ), . . . , τr (θ)). Entonces, el estimador
de máxima verosimilitud de τ (θ) es τ̂ = τ (θ̂) = (τ1 (θ̂), . . . , τr (θ̂)).
Demostración: Sea θ̂ = (θ̂1 , . . . , θ̂k ) un emv de θ. Entonces,
M (τ , x) = sup L(θ; x)
{θ:τ (θ)=τ )}
≤ sup L(θ; x)
{θ∈Θ}
= L(θ̂; x)
= sup L(θ; x)
{θ:τ (θ)=τ (θ)}
= M (τ (θ̂); x)
Resumiendo: si θ̂ es un emv de θ y τ = τ (θ), entonces τ̂ = τ (θ̂) es un emv de τ .
Ejemplo : Sea X una m. a. de X ∼ N(µ, σ 2 ). θ = E[X 2 ] = µ2 + σ 2 . Entonces, el emv de

θ es
1X
θ̂ = X̄ + (Xi − X̄)2
n
5.7. Teorı́a de grandes muestras para EMV
Ejemplo : Considere Xn = (X1 , . . . , Xn ) una m. a. de X ∼ Geom(θ) con θ ∈ Θ = (0, 1) y

f. m. p. dada por
f (x; θ) = θ(1 − θ)x 1{0,1,...,} (x)

con E[X] = (1 − θ)/θ = θ−1 − 1 y var(X) = (1 − θ)/θ2 = θ−2 (1 − θ). Entonces,

P
L(θ, x) = θn (1 − θ) xi
X
ℓ(θ; x) = n log θ + xi log(1 − θ)
∂ℓ(θ; x) n 1 X
= + xi
∂θ θ 1−θ
1
De donde se puede ver que el estimador de máxima verosimilitud es θ̂ = .
X̄n + 1
Ahora bien, se sigue del teorema central del lı́mite que
 
1−θ
 X̄n − θ  D
 q  −→ Z ∼ N(0, 1)
1−θ
nθ2
por lo que,
√
·

n X̄n − (θ−1 − 1) ∼ N 0, θ−2 (1 − θ)
Considere ahora h(x) = 1/(1 + x), luego h′ (x) = −1/(1 + x)2 . Se sigue del método delta
que var(h(X)) = (h′ (µX ))2 σX
2 , por lo que
2
σX̄ 1−θ
n θ2 2
var(h(X̄n )) = = 4 = θ (1 − θ)/n
(1 + µX̄n )4

1−θ
n 1+ θ
Por lo tanto, puesto que θ̂n = h(X̄n ) se sigue del teorema del mapeo continuo que para n
grande
√ √
·

n(θ̂n − θ) = n h(X̄n ) − h(θ−1 − 1) ∼ N 0, θ2 (1 − θ)
o bien, para n grande se tiene
·
θ̂n ∼ N(θ, θ2 (1 − θ)/n)
En general, bajo ciertas condiciones razonables los estimadores de máxima verosimilitud
son estimadores consistentes.
En esta sección se presentará también el concepto de varianza asintótica y se mostrará
que para muestras grandes los estimadores de máxima verosimilitud se distribuyen aproxi-
madamente de manera normal.
Las demostraciones formales de los resultados antes mencionados son muy técnicas.
Aquı́ se presentarán versiones heurı́sticas y poco detalladas para los casos univariados y
trabajando con muestras aleatorias (v.a.i.i.d.). Vea por ejemplo Rice (2007) y Knight (2000).
Para mayor formalidad y detalle consulte Casella and Berger (2002), Dudewicz and Mishra
(1988) o Bickel and Doksum (1977).
Sean,
Xn = (X1 , . . . , Xn ) una muestra aleatoria de tamaño n de una población X ∼ f (x; θ)
con θ ∈ Θ.
Q
L(θ; x) = f (xi ; θ), la función de verosimilitud.
P
ℓ(θ; x) = log L(θ, x) = log f (xi ; θ) la función log de la verosimilitud.
Sea θ0 el verdadero (y desconocido) valor del parámetro θ. Se mostrará que θ̂n = θ̂(Xn ) =
θ̂emv es un estimador consistente. Esto es,
P
θ̂n −→ θ0

Condiciones de Regularidad (CR)

Las condiciones de regularidad son en general condiciones de suavidad de las fun-
ciones relacionadas a la función de verosimilitud. Entre ellas está el permitir intercambiar
el orden de integración y derivación. Dependiendo del resultado es la necesidad de apelar a
una o varias de las condiciones o supuestos que a continuación se enuncian.
i) El espacio parametral Θ es un subconjuntos abierto de R.
ii) El soporte de la densidad f (x; θ) no depende del parámetro θ.

∂
iii) log f (x; θ) existe para todo x y para todo θ.
∂θ
Z Y n Z n
∂ ∂ Y
iv) f (xi ; θ) dx = f (xi ; θ) dx
∂θ Rn Rn ∂θ
i=1 i=1
Z n Z n
∂ Y ∂ Y
v) t(x) f (xi ; θ) dx = t(x) f (xi ; θ) dx
∂θ Rn Rn ∂θ
i=1 i=1
" 2 #
∂
vi) 0 < Eθ log f (X; θ) < ∞, para todo θ ∈ Θ
∂θ
Consistencia
Teorema : Bajo condiciones apropiadas de suavidad (cr) sobre f , los estimadores de

máxima verosimilitud (emv) a partir de una muestra aleatoria (v.a.i.i.d.’s) son consistentes.
Demostración: Considere maximizar
1 1X
ℓ(θ; X) = log f (X; θ)
n n
Se sigue de la ley de los grandes números
1X P
log f (Xi ; θ) −→ E log f (X; θ0 )
n
R
con E[log f (X; θ)] = R log f (x; θ) · f (x; θ0 )dx. Luego, se puede pensar que para “n grande”,
el valor de θ que maximiza ℓ(θ; X), θ̂n , esté cerca de θ0 , aquel que maximiza E[log f (X : θ)].
Ahora bien, para maximizar E[log f (X; θ)], se toma derivada
Z
∂ ∂
E log f (X; θ0 ) = log f (x; θ)f (x; θ0 )dx
∂θ ∂θ R
Z
cr ∂
= log f (x; θ) f (x; θ0 )dx
∂θ
ZR
1 ∂
= f (x; θ) f (x; θ0 )dx
f (x; θ) ∂θ
ZR
∂
= f (x; θ)dx
R ∂θ
Z
cr ∂
= f (x; θ)dx
∂θ R
=0
con la penúltima lı́nea cuando θ = θ0 , lo que muestra que θ0 es un punto estacionario de ℓ

y posiblemente correspondiente a un máximo.

Definición : Se define la función score S por

∂ ∂
S(θ; x) = log f (x; θ) = ℓ(θ; x)
∂θ ∂θ
Proposición : Bajo condiciones de regularidad (cr) se tiene que

∂
E[S(θ; X)] = E log f (X; θ) = 0
∂θ
Demostración:
Z
∂ ∂
E log f (X : θ) = log f (x; θ)f (x; θ)dx
∂θ ∂θ
ZR
1 ∂
= f (x; θ) f (x; θ)dx
f (x; θ) ∂θ
ZR
∂
= f (x; θ)dx
R ∂θ
Z
∂
= f (x; θ)dx
∂θ R
=0
Número de Información
Definición : Se define la varianza de la función score como el número de información

(de Fisher). " 2 #
∂
I(θ) = var(S(θ; X)) = E log f (X; θ)
∂θ
Lema : Sea I(θ) el número de información de Fisher, entonces, bajo condiciones de regu-
laridad se tiene " #
∂2
I(θ) = −E log f (X; θ)
∂θ2
Z
R ∂
Demostración: Recuerde que R f (x; θ)dx = 1, luego f (x; θ)dx = 0. Note además que
∂θ R

∂ ∂
f (x; θ) = log f (x; θ) f (x; θ) (6)
∂θ ∂θ
∂ 1 ∂
pues log f (x; θ) = f (x; θ). Entonces,
∂θ f (x; θ) ∂θ
Z Z
∂ cr ∂
0= f (x; θ)dx = log f (x; θ) f (x; θ)dx
∂θ R R ∂θ
Tomando segunda derivada y empleando (6) se tiene

Z Z " 2 # Z 2
∂ ∂ ∂ ∂
0= log f (x; θ) f (x; θ)dx = 2
log f (x; θ) f (x; θ)dx+ log f (x; θ) f (x; θ)dx
∂θ R ∂θ R ∂θ R ∂θ
Ası́, se concluye que " #

∂2
I(θ) = −E log f (X : θ)
∂θ2

Distribución asintótica
Teorema : Sea Xn = (X1 , . . . , Xn ), una muestra aleatoria de X ∼ f (x; θ), con θ ∈ Θ, si

θ̂n = θ̂(Xn ) es el emv del parámetro θ0 . Entonces, bajo condiciones de regularidad se tiene
que
p D
nI(θ0 ) (θ̂n − θ0 ) −→ Z ∼ N(0, 1)
Esto es, los estimadores de máxima verosimilitud se distribuyen asintóticamente normal. El
estimador θ̂n se dice asintóticamente insesgado y se define la varianza asintótica del
1
estimador θ̂ por .
nI(θ0 )
Demostración: Considere la función log de verosimilitud ℓ(θ; X) = log L(θ; X). Entonces,
puesto que θ̂ corresponde a un máximo de ℓ(θ), se sigue que
0 = ℓ′ (θ̂) ≈ ℓ′ (θ0 ) + ℓ′′ (θ0 )(θ̂ − θ0 )
al expandir la función score ℓ′ alrededor del verdadero valor θ0 . Se sigue que

√ n−1/2 ℓ′ (θ0 )
n(θ̂ − θ0 ) ≈ −
n−1 ℓ′′ (θ0 )
Considere el numerador:
h i 1
E n−1/2 ℓ′ (θ0 , X) = √ E S(θ, X) = 0

n
1
var(n−1/2 ℓ′ (θ0 , X)) =

var S(θ, X) = I(θ0 )
n
Considere ahora el denominador, se sigue de la LGN,
" #
1 ′′ 1 X ∂2 P ∂ 2
ℓ (θ0 ; , X) = log f (Xi ; θ0 ) −→ E log f (X; θ) = −I(θ0 )
n n ∂θ2 ∂θ2
Entonces,
√ n−1/2 ℓ′ (θ0 )
n(θ̂ − θ0 ) ≈
I(θ0 )
De donde,
√
E[ n(θ̂ − θ0 )] ≈ 0
√ 1
var n(θ̂ − θ0 ) ≈ 2 I(θ0 )
I (θ0 )
1
var θ̂ − θ0 ≈
nI(θ0 )
Finalmente, note que ℓ′ (θ0 ; X) = ∂

P P
S(θ; Xi ) = ∂θ log f (Xi ; θ), por lo que se sigue del
D
TCL que n/I(θ0 )ℓ′ (θ; X) −→ Z ∼ N(0, 1), y por el teorema de Slutsky,
p
p p n−1/2 ℓ′ (θ0 , X) D
nI(θ0 )(θ̂ − θ0 ) = − I(θ0 ) −1 ′′ −→ Z ∼ N(0, 1)
n ℓ (θ0 ; X)
Corolario : θ̂n , estimador de máxima verosimilitud del parámetro θ0 . Entonces,

· 1
θ̂n ∼ N θ0 ,
nI(θ0 )

Definición : Se define la varianza asintótica de θ̂ por

1 1
v.a.(θ̂) = = ′′
nI(θ0 ) E[ℓ (θ0 , X)]
Note, cuando E[ℓ′′ (θ0 )] es grande, en promedio ℓ(θ) cambia rápidamente en vecindad de
θ0 y la varianza del estimador θ̂ es pequeña. O bien, “La información sobre θ contenida en
L(θ; X) es grande”.
Existe el resultado equivalente para el caso multivariado. El vector θ̂n es distribuido
asintóticamente normal con E[θ̂n ] → θ0 y cov(θn ) → n1 I−1 (θ0 ), donde
" # " #
∂ ∂ ∂2
I(θ0 ) ij = E log f (X; θ) log f (X; θ) = −E log(X; θ)
∂θi ∂θj ∂θi ∂θj
5.8. Cota inferior de Cramér-Rao

En esta sección se revisa y demuestra la desigualdad de Cramér-Rao. Para esto se
presentan los siguientes resultados.
Lema : Z
∂ Y
f (xi ; θ)dx = 0
Rn ∂θ
Demostración:
Z Z Y
∂ Y cr ∂ ∂
f (xi ; θ)dx = f (xi ; θ)dx = [1] = 0
Rn ∂θ ∂θ Rn ∂θ
Lema :
∂ Y Y ∂ Y
f (xi ; θ) = f (xi ; θ) log f (xj ; θ)
∂θ ∂θ
Demostración:
∂ Y ∂ log Q f (xi ;θ)

f (xi ; θ) = e
∂θ ∂θ
Q ∂ Y
= elog f (xi ;θ) · log f (xj ; θ)
∂θ
Y ∂ Y
= f (xi ; θ) log f (xj ; θ)
∂θ
Teorema : Desigualdad de Cauchy-Schwarz Sea X y Y dos variables aleatorias con

varianza finita. Entonces,
E2 [XY ] ≤ E[X 2 ]E[Y 2 ]
cumpliéndose la igualdad si y solo si P(Y = 0) = 1, o bien, P(X = cY ) = 1, para alguna
constante c.
Teorema : Desigualdad de Cramér-Rao Sea Xn = (X1 , . . . , Xn ) una muestra aleatoria

de X ∼ f (x; θ). Sea Tn = T (Xn ) un estimador insesgado de τ = τ (θ), τ , función real
diferenciable de θ. Entonces, bajo ciertas condiciones de regularidad (cr),
′ 2
τ (θ)
varθ (Tn ) ≥ 2
∂
nEθ ∂θ log f (X; θ)

La igualdad se cumple si y solo si existe una función, digamos K(θ; n) tal que
X ∂
log f (xi ; θ) = K(θ; n) T (xn ) − τ (θ)
∂θ
Demostración:
∂
τ ′ (θ) = τ (θ)
∂θ
∂
= Eθ [Tn ]
∂θ
Z
∂
= T (x)f (x; θ)dx + 0
∂θ Rn
Z Z Y
cr ∂ Y ∂
= T (x) f (xi ; θ) dx − τ (θ) f (xi ; θ) dx
Rn ∂θ ∂θ Rn
Z
∂ Y
= T (x) − τ (θ) f (xi ; θ)dx
Rn ∂θ
Z
∂ Y Y
= T (x) − τ (θ) log f (xj ; θ) f (xi ; θ)dx
Rn ∂θ
" #
∂ Y
= Eθ T (X) − τ (θ) log f (Xi ; θ)
∂θ
Se sigue de la desigualdad de Cauchy-Schwarz que

" 2 #
′ 2 h 2 i ∂ Y
τ (θ) ≤ Eθ T (X) − τ (θ) Eθ log f (Xj ; θ)
∂θ
O bien,
2
τ ′ (θ)

var(T (X)) ≥ 2
∂ Q
Eθ ∂θ log f (Xj ; θ)
Pero, se tiene que,

" 2 # " 2 #
∂ Y X ∂
Eθ log f (Xj ; θ) = Eθ log f (Xj ; θ)
∂θ ∂θ
" #
X ∂ ∂
= Eθ log f (Xi ; θ) log f (Xj ; θ)
∂θ ∂θ
i,j
" 2 #
X ∂
= Eθ log f (Xi ; θ)
∂θ
i
" 2 #
∂
= nEθ log f (Xi ; θ)
∂θ

pues Xi y Xj son independientes. Además,

Z
∂ ∂
Eθ log f (X; θ) = log f (x; θ) f (x; θ)dx
∂θ R ∂θ
Z
∂
= f (x; θ)dx
R ∂θ
Z
∂
= f (x; θ)dx
∂θ R
=0
En la desigualdad de Cauchy-Schwarz se da la igualdad si y solo si una de las v. a.’s es
múltiplo de la otra con probabilidad 1. En este caso, se requiere que
∂ Y
log f (xj ; θ) ∝ T (xn ) − τ (θ)
∂θ
O bien, que exista una constante K = K(θ; n) tal que
∂ Y
log f (xj ; θ) = K(θ, n) T (x) − τ (θ)
∂θ
De la desigualdad de Cramér-Rao se sigue:
Si la varianza del estimador es cercana a la CICR es estimador insesgado es “bueno”.
Si la varianza del estimador alcanza la CICR entonces el estimador es UMVUE.
Ejemplo13 : Sea X = (X1 , . . . , Xn ) una m. a. de X ∼ Po(λ). Luego,

λx e−λ
f (x; λ) = x! , x = 0, 1, 2, . . . .
∂ ∂ x
log f (x; λ) = (−λ + x log λ − log x!) = −1 +
∂λ ∂λ λ
Entonces,
" 2 # " #
∂ 2X X2
Eλ log f (X; λ) = Eλ 1 − + 2
∂λ λ λ
1
=1−2+ (λ + λ2 )
λ2
= 1/λ
por lo que el denominador de la cota de Cramer-Rao es n/λ.
Por otro lado, si τ = τ (λ) = P(X = 0) = e−λ , y Tn = T (Xn ), estimador insesgado de τ ,
se sigue de la desigualdad de Cramér-Rao,
h i2
e−λ 1
var(Tn ) ≥ = λe−2λ
n/λ n
Note, si Tn = T (Xn ) = n1 ni=1 1{0} (Xi ) entonces E[Tn ] = n1 ni=1 P(Xi = 0) = e−λ = τ .
P P
Esto es, Tn es un estimador insesgado de τ , y
1 −λ
var(Tn ) = e (1 − e−λ )
n
que ciertamente es mayor que la cota inferior de Cramér-Rao, λe−2λ /n!. Más adelante se
encontrará un UMVUE para τ .
13
Mood, Graybill, and Boes (1974)

5.9. Estadı́sticos suficientes

A principios del los años 1920’s Ronald A. Fisher estudiaba la estimación de σ 2 de una
población normal con base en una muestra aleatoria X. Comparó la inferencia sobre σ
basado en los estadı́sticos14
X X
T1 (X) = |Xi − X̄| y T2 (X) = (Xi − X̄)2
Fisher mostró que la distribución de T1 |T2 = t no dependı́a de σ mientras que la de T2 |T1 = t,

sı́ dependı́a de σ. Concluyó que T2 (X) capturaba toda la información sobre σ contenida en
la muestra mientras que T1 (X) no.
Suponga X una muestra aleatoria de X ∼ f (x; θ), θ ∈ Θ y sea T (X) un estadı́stico. Para
todo t sea At = {x ∈ X : T (x) = t}. Los At forman una partición de X. Considere ahora
la distribución de X en el conjunto At (condicional de X dado T = t). Si tal distribución
es independiente de θ, X no tiene información de θ en At , X es un estadı́stico auxiliar en
At . Si lo anterior se cumple para todo At , T (X) tiene la misma información sobre θ que
X. La misma idea se presenta en el siguiente principio.
Definición : Sea X una muestra aleatoria de X ∼ f (x; θ). T (X) se dice estadı́stico
auxiliar (ancilliary statistic) de θ si su distribución es independiente de θ. Esto es, si para
todo θ ∈ Θ, la distribución de T es la misma.
Ejercicio : Sea U = (U1 , . . . , Un ) una muestra aleatoria de U ∼ Unif(µ−θ, µ+θ). Entonces,

el rango muestral R(U ) = U(n) − U(1) , es un estadı́stico auxiliar para µ.
Definición : Sea X una muestra aleatoria de X ∼ f (x; θ). Un estadı́stico S(X) se dice
estadı́stico suficiente para el parámetro θ (puede ser un vector) si y solo si la distribución
condicional de X dado S = s no depende de θ para cualquier valor de S(x) = s.
Equivalentemente15 , S(X) es un estadı́stico suficiente si y solo si, para todo S(x) = s,
fijo con f. d. p. fS , Q
f (xi ; θ)
= h(x)
fS (s; θ)
y donde h(x) no depende de θ. Como consecuencia, si T (X) es otro estadı́stico, dado S(x),
no hay manera que T pueda ser usado para hacer inferencia sobre θ, pues h(x) no depende
de ella.
Note que trivialmente la muestra misma (X1 , . . . , Xn ) o la muestra ordenada (X(1) , . . . , X(n) )
son estadı́sticos suficientes.
Principio de Suficiencia16
Si T (X) es un estadı́stico suficiente de θ, entonces la inferencia sobre θ deberá
depender de X solo a través de T . Esto es, si x y y son dos muestras tales que
T (x) = T (y), entonces la inferencia sobre θ es indistinta si se basa en x o y.
Ejemplo17 : Considere X3 = (X1 , X2 , X3 ), m. a. de X ∼ Ber(p). Considere los estadı́sticos

14
Knight (2000).
15
Hogg and Craig (1978).
16
Casella and Berger (2002).
17

S(X) = X1 + X2 + X3 y T (X) = X1 X2 + X3 . Se tiene por ejemplo que
fX|S ((0, 1, 0)|S = 1) = P(X1 = 0, X2 = 1, X3 = 0|S = 1)

P(X1 = 0, X2 = 1, X3 = 0, S = 1)
=
P(S = 1)
(1 − p)p(1 − p)
= 3

2
1 p(1 − p)
1
=
3
mientras que
fX|T (0, 1, 0|T = 0) = P(X1 = 0, X2 = 1, X3 = 0|T = 0)

P(X1 = 0, X2 = 1, X3 = 0, T = 0)
=
P(T = 0)
p(1 − p)2
=
(1 − p)3 + 2p(1 − p)2
p
=
1+p
De esta forma se obtiene la tabla
x S = s T = t f (x|s) f (x|t)
1−p
(0, 0, 0) 0 0 1 1+p
1 1−p
(0, 0, 1) 1 1 3 1+2p
1 p
(0, 1, 0) 1 0 3 1+p
1 p
(1, 0, 0) 1 0 3 1+p
1 p
(0, 1, 1) 2 1 3 1+2p
1 p
(1, 0, 1) 2 1 3 1+2p
1 p
(1, 1, 0) 2 1 3 1+2p
(1, 1, 1) 3 2 1 1
En el ejemplo anterior note que la distribución de X dado S = X1 +X2 +X3 no dependen

del parámetro p mientras que la distribución condicionada en T (X) = X1 X2 +X3 sı́ depende
de p. S es un estadı́stico suficiente para p, T no lo es.
Teorema Factorización Neyman–Fisher 18 Sea X = (X1 , . . . , Xn ) una muestra con

función de densidad conjunta f (x; θ), θ ∈ Θ, Entonces, S = S(X) es un estadı́stico suficiente
para θ, si y solo si, se tienen g y h, funciones no negativas tales que
fX (x; θ) = g(S(x); θ)h(x) (7)
para todo S(x) = s fijo y la función h no depende de θ. S y θ pueden ambos ser vectores.
Demostración:
18
Rice (2007), Hogg and Craig (1978).

Caso discreto: Suponga que S es un estadı́stico suficiente. Entonces,
fX (x; θ) = Pθ (X = x)
X
= Pθ (X = x, S = s)
s
= Pθ (X = x, S = S(x))
= Pθ (S = S(x))P(X = x|S = S(x))
= g(S(x); θ)h(x)
pues S es un estadı́stico suficiente por lo que P(X = x|S = S(x)) es independiente

de θ.
Suponga ahora que fX (x; θ) = g(S(x); θ)h(x). Entonces, para S(x) = s,
Pθ (X = x)
Pθ (X = x|S = s) =
Pθ (S = s)
g(S(x); θ)h(x)
=P
S(y)=s g(S(y); θ)h(y)
h(x)
=P
S(y)=s h(y)
que no depende de θ. Si S(x) ̸= s, Pθ (X = x|S = s) = 0. En cualquier caso,

Pθ (X = x|S = s) es independiente de θ, por lo que S es suficiente.
Caso continuo: Suponga X v. a. continua con f. d. p. f (x; θ), θ ∈ Θ y tal que acep-
ta la factorización (7) para todo s = S(x) fijo. Defina y1 = s(x) = G1 (x), y2 =
G2 (x), . . . , yn = Gn (x)), con la transformación inversa H = (H1 , . . . , Hn ), tal que
xi = Hi (y). Se sigue del teorema de transformación que

fY (y; θ) = fX H(y); θ |JH(y)|
Se sigue de (7) que la f. d. p. marginal de S = Y1

Z

fS (s; θ) = fX H(y); θ |JH(y)|dy2 · · · dyn
Rn−1 Z

= g(s; θ) h H(y )|JH(y)|dy2 · · · dyn (8)
Rn−1
Considere ahora la función h, para s = y1 = G1 (x) fijo, h no depende de θ, tampoco

JH ni los lı́mites de integración, por lo que la integral en (8) depende solamente de
s, digamos I(s), por lo que
fS (s; θ) = g(s; θ))I(s)
Ahora, si I(s) = 0, entonces fS (s; θ) = 0, y si I(s) > 0, g(s; θ) = g(s(x); θ) =
fX (s(x); θ)/I(s(x)), y la factorización queda
h(x)
f (X; θ) = fS (s(x); θ)
I(s(x))
y el cociente no depende de θ. Luego, S(X) es un estadı́stico suficiente para θ de

acuerdo con la definición alternativa.
Y viceversa, si S es un estadı́stico suficiente para θ, la factorización se construye
tomando a fS como la función g en la expresión (7).

Ejemplo : Sea X = (X1 , . . . , Xn ) una m. a. de X ∼ Ber(θ). Luego

Y
f (x; θ) = f (xi ; θ)
Y
= θxi (1 − θ)1−xi
P P
= θ xi (1 − θ)n− xi
" P xi #
θ
= (1 − θ)n · 1
1−θ
= g(T (x); θ) · h(x)
donde T (x) = xi y h(x) = 1. Se sigue del teorema de factorización que T (Xn ) = ni=1 Xi
P P
es un estadı́stico suficiente para
P θ.
Note: Puesto que T = Xi es un estadı́stico suficiente para θ, la maximización de
f (x; θ) = g(T (x); θ)h(x) es a través de la función g(t, θ). Luego,
g(t; θ) = θt (1 − θ)n−t
log g(t, θ) = t log θ + (n − t) log(1 − θ)
∂ t n−t
log g = −
∂θ θ 1−θ
Igualando a cero la derivada y despejando para θ se concluye que
Pn
t Xi
θ̂emv = = i=1 = X̄
n n
Ejemplo : Sea X = (X1 , . . . , Xn ) una m. a. de X ∼ N(µ, σ 2 ). Sea el vector de parámetros

θ = (µ, σ) ∈ Θ = R × R+ . Entonces,
Y
f (x : θ) = f (xi ; θ)

−n/2 −n 1 X 2
= (2π) σ exp − 2 (xi − µ)
2σ
i
−n/2 −n 1 hX 2 X
2
= (2π) σ exp − 2 xi − 2µ xi + nµ
2σ
i
−n/2 −n 1 h 2
= (2π) σ exp − 2 S1 (x) − 2µS2 (x) + nµ · |{z}
1
2σ
| {z } h(x)
g(T (x);θ)
P 2 P
Por lo tanto, S(X) = S1 (X), S2 (X) = Xi , Xi es un estadı́stico suficiente conjunto
para θ = (µ, σ).
Definición : Sea X = (X1 , . . . , Xn ) una muestra aleatoria de X ∼ f (x; θ), θ = (θ1 , . . . , θk ) ∈

Θ ⊆ Rk . El estadı́stico T = T (X) = (T1 (X), . . . , Tr (X)) es un estadı́stico suficiente
conjunto para θ si y solo si
f (x; θ) = g(T (x), θ) h(x)
donde h es una función no negativa que no depende de θ y g es una función no negativa de

depende de x solamente a través de T (x) = t.

Ejemplo : Sea Un = (U1 , . . . , Un ) una m. a. de U ∼ Unif(θ1 , θ2 ). Entonces, con θ = (θ1 , θ2 ),

1
la f. d. p. es f (u; θ) = θ2 −θ 1
1 (θ1 ,θ2 )
(u) y la conjunta puede escribirse como
f (un ; θ) = (θ2 − θ1 )−n 1(θ1 ,yn ) (y1 )1(y1 ,θ2 ) (yn )
donde yi = u(i) , i = 1, . . . , n, son los estadı́sticos de orden. Luego, T (Un ) = (U(1) , U(n) ), es
un estadı́stico suficiente conjunto para θ = (θ1 , θ2 ).
Note que si θ1 = θ y θ2 = θ + 1, T (Un ) = (U(1) , U(n) ), sigue siendo un estadı́stico
suficiente conjunto. Sin embargo, si θ1 = 0 y θ2 = θ, entonces, T (Un ) = U(n) es un estadı́stico
suficiente por él mismo.
El estudio de las distribuciones paramétricas con estadı́sticos suficientes T con la misma
dimensión que el espacio parametral Θ independiente del tamaño de la muestra llevó a
la construcción de la familia exponencial 19 . Muchas de las distribuciones más comunes
pertenecen a esta familia, como las distribuciones Poisson, Normal, Gamma, etc.
Definición : X ∼ f (x; θ), θ ∈ Θ ⊆ R, f se dice miembro de la familia o clase exponen-

cial de un parámetro si para todo θ ∈ Θ,

f (x; θ) = exp c(θ)T (x) + d(θ) + S(x) 1SX (x) (9)
para funciones c, d, T y S, apropiadas y donde SX es el soporte de la distribución que no

depende de θ.
Proposición : Sea Xn = (X1 , . . . , Xn ) una muestra aleatoria de X ∼ f (x; θ) miembro de

la familia exponencial. Entonces,
 
 Xn Xn Y n
f (xn ; θ) = exp c(θ) T (xi ) + nd(θ) + S(xi ) 1SX (xi )
 
i=1 i=1 i=1
   
 X  X Y
= exp c(θ) T (xi ) + nd(θ) exp S(xi ) 1SX (xi )
   
i i i
| {z } | {z }
g(T (xn );θ) h(xn )
P
por lo que es claro que Tn = T (Xn ) = T (Xi ) es un estadı́stico suficiente para θ.
Ejemplo : Xn = (X1 , . . . , Xn ) es una m. a. de X ∼ Ber(θ). Entonces,

θ
f (x; θ) = θx (1 − θ)1−x 1{0,1} (x) = exp x log + log(1 − θ) 1{0,1} (x)
1−θ
θ
Por lo que comparando con (9), se tiene: c(θ) = log 1−θ , T (x) = x, d(θ) = log(1 − θ) y
S(x) = 0. Luego, la distribución Bernoulli es miembro de la familia exponencial.
Ejercicio : Muestre que las distribuciones Poisson, geométrica y binomial negativa son
miembros de la familia exponencial de un parámetro.
Definición : X ∼ f (x; θ), θ = (θ1 , . . . , θk ) ∈ Θ ⊆ Rk , f se dice miembro de la familia o

clase exponencial de m-parámetros si para todo θ ∈ Θ,
 
X m 
f (x; θ) = exp cj (θ)Tj (x) + d(θ) + S(x) 1SX (x) (10)
 
j=1
19
Rice (2007).

para funciones cj , d, Tj y S, apropiadas y donde SX es el soporte de la distribución que no

depende del vector de parámetros θ.
Nota: m y k no tienen porque ser iguales, aunque en muchos casos lo es.
Los parámetros ϕj = cj (θ) se conocen como los parámetros naturales o canónicos
de la distribución.
Proposición : Sea Xn = (X1 , . . . , Xn ) una muestra aleatoria de X ∼ f (x; θ) como en la

definición anterior. Entonces,
 
X m Xn Xn Y n
f (xn ; θ) = exp cj (θ) Tj (xi ) + nd(θ) + S(xi ) 1SX (xi )
 
j=1 i=1 i=1 i=1
   
X m Xn  X n Y n
= exp cj (θ) Tj (xi ) + nd(θ) exp S(xi ) 1SX (xi )
   
j=1 i=1 i=1 i=1
| {z } | {z }
g(T (x);θ) h(x)
Pn Pn
Por lo que Tn = T (Xn ) = i=1 T1 (Xi ), . . . , i=1 Tm (Xi ) es un estadı́stico suficiente
conjunto para el vector de parámetros θ = (θ1 , . . . , θk ).
Ejercicio : Muestre que las distribuciones N(µ, σ 2 ) y Ga(α, β) son miembros de la familia
exponencial de 2 parámetros y encuentre correspondientes estadı́sticos suficientes.
Ejercicio : Considere Xn = (X1 , . . . , Xn ), una m. a. de X ∼ N(θ, θ2 ), θ ∈ Θ = R+ .

Muestre que f (x; θ) es miembro de la familia exponencial de dos parámetros a pesar de que
el espacio parametral Θ es unidimensional.
5.10. Estimadores insesgados uniformes de varianza mı́nima

20
Si un estimador insesgado alcanza la cota de Cramér-Rao (CICR), éste es un estimador
insesgado uniforme de varianza mı́nima (UMVUE). Existen sin embargo estimadores que
no alcanzan la cota pero son UMVUE. El detalle es que la CICR puede ser muy restrictiva.
Proposición : Sea Xn = (X1 , . . . , Xn ) una muestra aleatoria de X ∼ f (x; θ), θ̂n = θ̂(xn ),
un estimador de máxima verosimilitud, solución de
∂ ∂ X
log L(θ; xn ) = log f (xi ; θ) = 0
∂θ ∂θ
Si Tn = T (Xn ) es un estimador insesgado de τ (θ) cuya varianza alcanza la CICR, entonces
Tn = τ (θ̂n ).
Demostración: Se sigue del Teorema de Cramér-Rao y la definición de estimadores de máxi-
ma verosimilitud que si Tn alcanza la cota,
∂
0= log L(θ; xn ) = K(θ; n) T (xn ) − τ (θ)
∂θ
Lo que dice que bajo condiciones de regularidad los EMV son UMVUE.
Nota: Si Tn = T (Xn ) es un estimador insesgado de τ (θ) cuya varianza alcanza la CICR

entonces, f (x; θ) es un miembro de la familia exponencial (FExp ).Y viceversa, si f ∈ FExp ,
entonces existe un estimador insesgado de τ (θ), digamos, T (Xn ) cuya varianza alcanza la
CICR. De hecho, existe solamente una función (y transformaciones lineales de ella) para
20

cuya varianza alcanza la cota. Por lo que la cota no es muy útil para encontrar UMVUE
salvo en los casos de la familia exponencial de un solo parámetro. Se mostrará la ventaja
de los estimadores insesgados función de estadı́sticos suficientes.
Teorema de Rao-Blackwell21 Sea X = (X1 , . . . , Xn ) una muestra aleatoria de X ∼

f (x; θ), θ ∈ Θ y T = T (X) un estimador de τ (θ) con varianza finita varθ (T ) < ∞ para
todo θ. Suponga S = S(X) un estadı́stico suficiente para θ y defina Tb = E[T |S]. Entonces,
h i h i
Eθ (Tb − τ (θ))2 ≤ Eθ (T − τ (θ))2 , para todo θ ∈ Θ
h i
Demostración: Recuerde que E[Tb] = E E T |S = E[T ], por lo que comparar ECMs de los
estimadores se reduce a comparar sus varianzas.
var(T ) = var(E[T |S]) + E[var(T |S)]

= var(Tb) + E[var(T |S)]
≥ var(Tb)
a menos que var(T |S) = 0, que serı́a el caso solamente si T es una función de S, lo que
implicarı́a que Tb = T .
Notas:
Puesto que E[T |S] es función del estadı́stico suficiente S, Rao–Blackwell justifica el
uso de estimadores basados en estadı́sticos suficientes cuando existen. Si un estimador
no es función de un estadı́stico suficiente, éste se puede mejorar.
Si T estimador de τ es ya función del estadı́stico suficiente S, entonces Tb = E[T |S] =
T.
En la práctica, se intenta condicionar en estadı́sticos suficientes minimales.
El hecho de “mejorar” la precisión de un estadı́stico mediante el proceso de Rao–
Blackwell, no lo hace necesariamente UMVUE.
Definición : Un estadı́stico suficiente se dice minimal si y solo si éste es función de

cualquier otro estadı́stico suficiente.
Ejemplo22 : Se tiene una sucesión de ensayos Bernoulli con parámetro de éxito p. Considere
n = 4 ensayos y las siguientes tres particiones del espacio, inducidas por los correspondientes
estadı́sticos:
T1 : Salida del primer ensayo. Partición muy burda, gruesa.
T2 : Número de éxitos: Suficiente minimal para p.
T3 : T3 = (T1 , T2 ). Partición suficiente más fina de lo necesario.
La figura 13 ilustra el espacio muestral y las particiones Ti .

21
Rice (2007).
22
Garthwaite, Jolliffe, and Jones (2002).

T1 = 1 T1 = 0
T2 = 4 eeee efee feee ffee T2 = 2
eeef efef feef ffef

T2 = 3 T2 = 1
eefe effe fefe fffe
T2 = 2 eeff efff feff ffff T2 = 0
T3= (T1 , T2)

Figura 13: Particiones inducidas por los estadı́sticos T1 , T2 y T3 .
Definición : Sea X = (X1 , . . . , Xn ) una muestra aleatoria

de X ∼ f (x; θ), con θ ∈ Θ y
sea T = T (X) un estadı́stico. La familia de densidades fT (t; θ) : θ ∈ Θ se dice completa
si y solo si Eθ [S(T )] = 0, para todo θ ∈ Θ implica que Pθ (S(T ) = 0) = 1, para todo θ ∈ Θ
y todo estadı́stico S(T ). En este caso se dice que T es un estadı́stico completo.
Alternativamente, T es un estadı́stico completo si y solo si el único estimador insesgado
del 0, función de T es S tal que P(S = 0) = 1.
Ejemplo23 : Sea Xn = (X1 , . . . , Xn ) una m. a. de X ∼ Unif(0, θ), θ ∈ Θ = R+ . Sea
Yn = X(n) = máx{Xi }. Entonces Yn es un estadı́stico completo. Esto es, por mostrar que si
Eθ [T (Yn )] ≡ 0, para todo θ > 0, entonces Pθ (T (Yn ) = 0) = 1, para todo θ > 0.
En efecto, Sea fn la f. d. p. de Yn . Luego, si para todo θ > 0
Z Z θ Z θ
−n n−1 n
Eθ [T (Yn )] = T (y)fn (y)dy = T (y)θ ny dy = n T (y)y n−1 dy ≡ 0
R 0 θ 0
diferenciando ambos lados de la integral de la derecha con respecto a θ, se tiene que
T (θ)θn−1 = 0
para todo θ. Entonces, se debe tener que T (θ) = 0, para todo θ > 0.
Teorema24 Si T es un estadı́stico suficiente completo entonces es suficiente minimal pero
no viceversa.
Determinar si un estadı́stico o familia es completa puede ser una tarea muy técnica y
no fácil. Sin embargo hay casos donde se puede asegurar la completez. Tal es el caso de la
familia exponencial.
Teorema25 Sea X = (X1 , . . . , Xn ) una muestra aleatoria de X ∼ f (x; θ), con θ ∈ Θ un
intervalo. Si f ∈ FExp , esto es si
f (x; θ) = exp{c(θ)T (x) + d(θ) + S(x)}1SX (x)

P
Entonces, T (X) = T (Xi ) es un estadı́stico completo minimal.
¯
23
Mood, Graybill, and Boes (1974) Ejemplo VII.5-33.
24
Knight (2000).
25

Teorema de Lehmann–Scheffé Sea X = (X1 , . . . , Xn ) una muestra aleatoria de X ∼

f (x; θ). Si S(X) es un estadı́stico suficiente completo y Tb = Tb(S) un estimador insesgado
de τ (θ), entonces es UMVUE de τ .
Demostración: Se sigue de la completez de S y del teorema de Rao–Blackwell. A saber, sea
Te(S) cualquier otro estadı́stico insesgado de τ función de S. Entonces, Eθ [Tb − Te] ≡ 0, para
todo θ ∈ Θ. Por la completez de S, se sigue que Pθ (Tb − Te = 0) = 1, para todo θ ∈ Θ. Ası́,
hay solamente un estimador insesgado de τ función de S. Sea T cualquier otro estimador
insesgado de τ . Entonces, Tb debe ser igual al E[T |S] puesto que E[T |S] es un estimador
insesgado de τ que depende de S. Se sigue del teorema de Rao–Blackwell que
varθ (Tb) ≤ varθ (T ), para todo θ ∈ Θ
Se concluye que Tb es UMVUE de τ (θ).
5.11. Ejercicios
Textos de apoyo.
Casella and Berger (2002); Knight (2000); Mood, Graybill, and Boes (1974); Rice (2007);
Wackerly, Mendenhall III, and Scheaffer (2008).

6. Intervalos y Regiones de Confianza

6.1. Intervalos de confianza
Considere una población modelada por N(µ, σ 2 ), suponiendo σ dada. Para conocer (es-
timar ) el parámetro µ, se toma una muestra aleatoria Xn = (X1 , . . . , Xn ) de X ∼ N(µ, σ 2 ).
Se sabe que en este caso
n
1X
X̄n = Xi ∼ N(µ, σ 2 /n)
n
1=1
o bien, estandarizando
X̄n − µ
Zn = √ ∼ N(0, 1)
σ/ n
por lo que si zp denota el p-ésimo cuantil de la distribución normal estándar, se tiene que
para 0 < α < 1 pequeño,
P (zα/2 ≤ Z ≤ z1−α/2 ) = 1 − α
0.95
que para α = 0.05, 1−α = 0.95, z0.025 =
−1.96 y z0.975 = 1.96 0.025 0.025
z0.025 = − 1.96 z0.975 = 1.96
Luego, se tiene que P(−2 ≤ Zn ≤ 2) = 0.954 y

√
P X̄n − 2σ/ n ≤ µ ≤ X̄n + 2σ = 0.945
√
Note que los lı́mites del intervalo para µ arriba son: LI(X̄n ) = X̄n − 2σ/ n y LS(X̄n ) =
√
X̄n + 2σ/ n, lı́mites inferior y superior respectivamente son ambos estadı́sticos,
función de
la muestra, y por lo tanto aleatorios. Luego, el intervalo LI(X̄n ), LS(X̄n ) es un intervalo
aleatorio que con 95 % de probabilidad incluye al parámetro µ.
Ahora bien,observada la muestra xn = (x1 , . . . , xn ), sea x̄n = n1
P
xi , y el intervalo
LI(x̄n ), LS(x̄n ) es un intervalo determinı́stico que contiene o no al parámetro µ, por
lo que decir que tiene una probabilidad aproximada del 95 % es incorrecto. Si se repitiese
el experimento varias veces, es decir, la toma de otras muestras del mismo tamaño, se
esperarı́a que 100(1 − α) % de ellos incluya al parámetro µ. En este sentido, dada la muestra
observada xn = (x1 , . . . , xn ) se “confı́a” que el intervalo LI(xn ), LS(xn ) contenga a µ con
una cobertura de probabilidad o nivel de confianza (1 − α) que corresponde a la probabilidad
de que el intervalo aleatorio contenga a µ, el parámetro estimado.
Dada la muestra aleatoria xn = (x1 , . . . , xn ), LI(xn ), LS(xn ) se dice intervalo de
confianza con un nivel de confianza del (1 − α), o bien, un intervalo de 100(1 − α) %
de confianza.
Ası́, el proceso de inferencia es intervalo de confianza. A saber,
√ √
X̄ − zα/2 σ/ n, X̄ + z1−α/2 σ/ n
Note que en este caso, por simetrı́a de distribución normal, el intervalo anterior se podrı́a
√
representar como (X̄ ± z1−α/2 σ/ n).
Si σ no es conocida los lı́mites del intervalo serı́an desconocidos aunque la probabilidad
de cobertura seguirı́a siendo válida.
Definición : Sea Xn = (X1 , . . . , Xn ) una muestra aleatoria de X ∼ f (x; θ), θ ∈ Θ

desconocida. Sean T1 = T1 (Xn ), T2 = T2 (Xn ) estadı́sticos tales que T1 < T2 para los cuales


P T1 ≤ τ (θ) ≤ T2 = γ, con 0 < γ < 1 y que no depende de θ. El intervalo (T1 , T2 ) se dice
un intervalo de 100γ % de confianza para τ (θ). γ es el nivel de confianza, T1 y T2 los lı́mites
de confianza inferior y superior.
Si xn = (x1 , . . . , xn ) es la muestra observada y ti = Ti (xn ), (t1 , t2 ) constituye un inter-
valo de 100γ % de confianza para τ (θ).
En ocasiones interesa nada más uno de los lı́mites del intervalo, por ejemplo, quizás un
intervalo de confianza para el parámetro desviación estándar, el lı́mite inferior no resulta
de interés por saber que éste no será menor que cero. Luego se podrı́an tener intervalos
de la forma T1 ≤ τ (θ) , o bien, (τ (θ) ≤ T2 ). En esos casos, T1 y T2 se dicen lı́mites de
confianza inferior y superior, respectivamente.
Nota: Si (T1 , T2 ) constituye un intervalo del 100γ % de confianza para τ (θ) y g es una
función estrictamente monótona, se puede construir un intervalo de confianza para g(τ ),
por ejemplo, si la función g es estrictamente creciente,

P g(T1 ) ≤ g(τ ) ≤ g(T2 ) = γ
6.2. Cantidad pivotal

Sea Xn = (X1 , . . . , Xn ) una muestra aleatoria de X ∼ f (x; θ). θ ∈ Θ. Sea Q = Q(Xn ; θ).
Si Q sigue una distribución que no depende de θ, Q se dice cantidad pivotal.
Ejemplo : Sea Xn = (X1 , . . . , Xn ) una m. a. de X ∼ N(µ, 7). Luego, (X̄n − µ) ∼ N(0, 7/n)
no depende de µ. Y
X̄n − µ
Q= p ∼ N(0, 1)
7/n
Q también es una cantidad pivotal para µ.
Método de construcción de IC mediante cantidades pivotales

Si Q = Q(Xn ; θ) es una cantidad pivotal con f. d. p. fQ , entonces para γ fijo, existen q1
y q2 que dependen de γ tales que P (q1 ≤ Q ≤ q2 ) = γ.
Ahora, si para todo Xn , q1 ≤ Q(Xn ; θ) ≤ q2 si y solo si T1 (Xn ) ≤ τ (θ) ≤ T2 (Xn ), para
funciones Ti que no dependen de θ, (T1 , T2 ) constituye un intervalo de confianza para τ (θ).
Notas:
1. q1 y q2 no dependen de θ pues no lo hace fQ , su f. d. p..
2. Para γ fijo, podrı́a haber un número infinito de parejas q1 , q2 para los cuales P (q1 ≤ Q ≤ q2 ) =
γ. La siguiente figura ilustra dos casos (q1 , q2 ) y (r1 , r2 ), de tales parejas.
γ
fQ
q1 r1 q2 r2
3. Distintos q1 y q2 producirán distintos t1 y t2 .

4. Un criterio para elegir t1 y t2 es que la longitud (media) t2 − t1 sea mı́nima.
5. Lo importante en el uso de las cantidades pivotales es que puedan ser “invertidas”.

Es decir, {q1 ≤ Q ≤ q2 } si y solo si {t1 ≤ τ (θ) ≤ t2 } para toda xn , de ahı́ el nombre
de cantidad pivotal.
6.3. Muestreo de una población normal

6.3.1. Intervalo de confianza para la media conocida la varianza
Sea Xn = (X1 , . . . , Xn ) una muestra aleatoria de X ∼ N(θ, 1).
X̄n − θ
Q= √ ∼ N(0, 1)
1/ n
Q es una cantidad pivotal. Sea 0 < γ < 1, q1 , q2 tales que
γ = P (q1 ≤ Q ≤ q2 )
√ √
γ = P X̄n − q2 / n ≤ θ ≤ X̄n − q1 / n
√ √
La longitud del intervalo es ℓ = q2 / n − q1 / n = √1n (q2 − q1 ) y ℓ es mı́nimo si q2 = −q1
con γ = Φ(q2 ) − Φ(q1 ).
Más formalmente, se buscan q1 y q2 de manera que
mı́n √1 (q2 − q1 ) (11)

q1 ,q2 n
R q2
s.a. q1 ϕ(z)dz = γ (12)
Se sigue de la restricción (12), derivando con respecto a q1 ,

dq2
ϕ(q2 ) = − ϕ(q1 ) = 0
dq1

dL 1 dq2
=√ −1 =0
dq1 n dq1

1 Φ(q1 )
=0
n Φ(q2 ) − 1
Por lo tanto Φ(q1 ) = Φ(q2 ), por lo que q1 = q2 , ó q1 = −q2 .
Ejercicio : Sea Xn = (X1 , . . . , X − n) una m. a. de X ∼ N(θ, σ 2 ), σ conocida. Verifique

que
X̄n − θ
Q= √ ∼ N(0, 1)
σ/ n
es una cantidad pivotal tal que
γ = P (q1 ≤ Q ≤ q2 )
√ √
= P X̄n − q2 σ/ n ≤ θ ≤ X̄n + q2 σ/ n
donde q1 = −q2 y q2 = z1−α/2 , con γ = 1 − α. Ası́,

√ √
X̄n − z1−α/2 σ/ n, X̄n + z1−α/2 σ/ n
El intervalo anterior constituye un intervalo de confianza para la media, conocida la

varianza.

6.3.2. Intervalo de confianza para la media desconocida la varianza

Considere nuevamente Xn una muestra aleatoria de X ∼ N(θ, σ 2 ), pero ahora σ no es
conocida. De cualquier modo se tiene que
X̄n − θ
√ ∼ N(0, 1)
σ/ n
( )
X̄n − θ
pero no sirve como cantidad pivotal pues depende de σ desconocida. Luego, q1 ≤ √ ≤ q2
σ/ n
no serı́a posible “invertirse”. Por otro lado, recuerde que
−θ
X̄n√
σ/ n X̄n − θ
Q= q = √ ∼ tn−1
1 Pn
− X̄n )2 /(n − 1) S/ n
σ2 i=1 (Xi
1 Pn
donde S 2 = n−1 2
i=1 (Xi − X̄n ) es la varianza muestral.
Entonces, γ = P (t1 ≤ Q ≤ t2 ). Nuevamente, por simetrı́a de la densidad de la distribu-
ción t, el intervalo (t1 , t2 ) es de longitud mı́nima si t1 = −t2 . Luego,
γ = P (t1 ≤ Q ≤ t2 )
√ √
= P X̄n − t2 S/ n ≤ θ ≤ X̄n − t1 S/ n
√ √
= P X̄n − t(1 − α/2; n − 1)S/ n ≤ θ ≤ X̄n + t(1 − α/2; n − 1)S/ n
donde t(p; ν) representa el p-ésimo quantil de la distribución t-Student con ν grados de
libertad. Por lo que
√ √
X̄n − t1−α/2;n−1 S/ n, X̄n + t1−α/2;n−1 S/ n
constituye un intervalo de confianza para la media de la distribución normal, desconocida
la varianza.
6.3.3. Intervalo de confianza para la varianza

Sea Xn = (X1 , . . . , Xn ) unaPmuestra aleatoria de X ∼ N(µ, σ 2 ). Sea θ = (µ, σ 2 )
desconocida. Considere Q = σ12 ni=1 (Xi − X̄)2 . Recordar Q = n−1 σ2
S 2 ∼ χ2n−1 , donde
1 n
S 2 = n−1 2
P
i=1 (Xi − X̄) es la varianza muestral. Luego, Q es una cantidad pivotal y
( )
σ2

n−1 2 1 1
q1 ≤ S ≤ q2 ⇐⇒ ≤ ≤
σ2 q2 (n − 1)S 2 q1
por lo que !
(n − 1)S 2 (n − 1)S 2
P ≤ σ2 ≤ =γ
q2 q1
y donde qi ’s representarı́an cuantiles apropiados de la distribución χ2n−1 .
A diferencia de los casos anteriores, encontrar el intervalo de longitud mı́nima no tiene
solución analı́tica y habrı́a que encontrarlo por medio de algún método numérico.
Una manera empı́rica de proceder es elegir las colas del intervalo inicial para Q del
mismo peso. Por ejemplo, si se desea un intervalo de 100γ % de confianza. Las colas serı́an
de probabilidad (1 − γ)/2 cada una. Si γ = 1 − α, la colas serı́an de probabilidad α/2.
Refierase a la figura 14
Entonces, el intervalo de nivel γ de confianza para la varianza σ 2 estarı́a dado por
 
2 2
 (n − 1)S , (n − 1)S 
χ21−α/2; n−1 χ2α/2; n−1
donde χ2p;ν representa el p-ésimo cuantil de la distribución χ2 con ν grados de libertad.

γ=1−α
α 2 α 2
q1 q2
Figura 14: Intervalo (q1 , q2 ) de 100γ % de confianza para la cantidad pivotal Q con colas
del mismo peso de probabilidad.
6.4. Comparación de poblaciones normales por intervalos de confianza

Suponga que se tienen dos poblaciones modeladas por X ∼ N(µX , σX 2 ) y Y ∼ N(µ , σ 2 )
Y Y
y se desea compararlas a partir de sus medias y varianzas. Se consideraran los casos cuando
las poblaciones son o no independientes.
6.4.1. Comparación de medias, varianzas conocidas.

Considere X y Y poblaciones independientes y sean Xn1 = (X1 , . . . , Xn1 ) una muestra
aleatoria de X ∼ N(µ1 , σ12 ) y Yn2 = (Y1 , . . . , Yn2 ) una muestra aleatoria de Y ∼ N(µ2 , σ22 ) .
Sea θ = µ1 − µ2 . Se desea construir un intervalo de confianza para θ. Note que si el
intervalo incluye al cero, éste serı́a un valor posible para θ, lo que implicarı́a en el proceso
de inferencia que µ1 =P µ2 .
Entonces, X̄ = n11 ni=1 Xi ∼ N(µ1 , σ12 /n1 ) y Ȳ = n12 nj=1 Yj ∼ N(µ2 , σ22 /n2 ) indepen-
1
P 2
dientes por lo que si θ = µ1 − µ2 ,
(X̄ − Ȳ ) − θ
Q= q 2 ∼ N(0, 1)
σ1 σ22
n1 + n2
opera como cantidad pivotal y siguiendo el procedimiento de antes, un intervalo de 100γ %

de confianza para la diferencia de medias θ es
s
σ12 σ22
(X̄ − Ȳ ) ± z1−α/2 +
n1 n2
con γ = 1 − α y z1−α/2 el cuantil 1 − α/2 de la distribución normal estándar.
6.4.2. Comparación de medias, varianzas iguales desconocidas.

En este caso, X ∼ N(µ1 , σ 2 ) y Y ∼ N(µ2 , σ 2 ) independientes. Recuerde que (ni −
1)Si2 /σ 2 ∼ χ2ni −1 , donde S12 y S22 son las varianzas muestrales para X y Y , independientes.
Luego, Pn1 Pn2
2 2
2 i=1 (Xi − X̄) + j=1 (Yj − Ȳ ) (n1 − 1)S12 + (n2 − 1)S22
Sp = =
n1 + n2 − 2 n1 + n2 − 2
es un estimador insesgado de la varianza común σ 2 con
(n1 + n2 − 2)Sp2 1 h 2 2
i
2
= (n 1 − 1)S 1 + (n 2 − 1)S 2 ∼ χn1 +n2 −2
σ2 σ2

e independiente de X̄ y de Ȳ . Entonces, si θ = µ1 − µ2 ,
(X̄ − Ȳ ) − θ
r ∼ N(0, 1)
2 1 1
σ n1 + n2
Se sigue de la independencia del numerador y denominador que

(X̄−Ȳ )−θ
r
σ 2 n1 + n1
(X̄ − Ȳ ) − θ 1 2
Q= q =q 2 2
∼ tn1 +n2 −2
Sp n11 + n12 (n1 −1)S1 +(n2 −1)S2
2σ
/(n1 + n2 − 2)
Por lo que Q es una cantidad pivotal y p = 1 − α/2 y ν = n1 + n2 − 2

r
1 1
(X̄ − Ȳ ) ± tp;ν Sp +
n1 n2
constituye un intervalo de 100(1 − α) % de confianza para θ = µ1 − µ2 . Nuevamente, si el

cero está incluido en el intervalo anterior, se concluye que no hay evidencia en los datos de
que las medias sean distintas.
Ejercicio : Considere X y Y poblaciones independientes. Sean X = (X1 , . . . , Xm ) y

Y = (Y1 , . . . , Yn ) muestras aleatorias de X ∼ N(µ1 , σ 2 ) y Y ∼ N(µ2 , kσ 2 ), respectivamente
con la constante k > 0 conocida y σ desconocida. Construya un intervalo del 100(1 − α) %
de confianza para la diferencia de medias θ = µ1 − µ2 .
6.4.3. Comparación de medias con varianzas desconocidas

Considere nuevamente las poblaciones X ∼ N(µ1 , σ12 ) y Y ∼ N(µ2 , σ22 ) independientes y
el problema de construir un intervalo de confianza para la diferencia de medias θ = µ1 − µ2 ,
pero con ambas varianzas desconocidas.
El problema, conocido como de Behrens–Fisher es que no se conoce el parámetro
ρ = σ1 /σ2 (vea el ejercicio anterior), por lo que se desconoce la distribución exacta de
S12 S22
+ .
n1 n2
Hay varias aproximaciones a la solución práctica del problema. A saber, por razona-
mientos fiduciarios, bayesianos y frecuentistas. En estas notas presentamos la solución fre-
cuentista debida a Welch y Satterthwaite.
Sean Xn1 = (X1 , . . . , Xn1 ) y Yn2 = (Y1 , . . . , Yn2 ) muestras aleatorias de X ∼ N(µ1 , σ12 )
y Y ∼ N(µ2 , σ22 ) independientes. Considere el estadı́stico D = X̄ − Ȳ = µ bD . Entonces,
σ 2 σ 2 D − µD
2
E[D] = θ = µ1 − µ2 y var(D) = 1 + 2 = σD . Luego, ∼ N(0, 1), pero ¿cómo
n1 n2 σD
estimar σD ?
i) Si n1 y n2 son suficientemente grandes, se sigue del Teorema Central de Lı́mite y el

Teorema de Slutsky que
D − µD ·
∼ N(0, 1)
SD
2 S12 S22
donde SD = + .
n1 n2
Si n1 y n2 son pequeños, se puede usar la aproximación de Welch–Satterthwaite
basada en la corrección del método de momentos. A saber, si Y1 , . . . , Yk son v. a.’s

independientes con Yi ∼ χ2νi y a1 , . . . , ak constantes conocidas, entonces

2
ai Si2
P
X 1 ·
ai Yi ∼ χ2ν , donde ν = P a2
ν 2
νi S i
i
Sea entonces
D−θ ·
Q= ∼ tν ∗
SD
con 2
2 ∗ S12 /n1 + S22 /n2
SD = S12 /n1 + S22 /n2 y ν = (S12 /n1 )2 (S22 /n2 )2
n1 −1 + n2 −1
Finalmente,
D ± t(1 − α/2; ν ∗ )SD
constituye un intervalo de confianza (aproximada) de 100(1 − α) % para θ = µ1 − µ2 .
6.4.4. Comparación de varianzas.

Sean Xn1 = (X1 , . . . , Xn1 ) y Yn2 = (Y1 , . . . , Yn2 ) muestras aleatorias de poblaciones
X ∼ N(µ1 , σ12 ) y Y ∼ N(µ2 , σ22 ) independientes, respectivamente. Por construir un intervalo
de confianza para θ = σ12 /σ22 .
n1 − 1 2
Sean S12 = ni=1 (Xi − X̄)2 /(n1 − 1) y S22 = nj=1 (Yj − Ȳ )2 /(n2 − 1). Luego,
P 1 P 2
S1 ∼
σ12
n2 − 1 2
χ2n1 −1 y S2 ∼ χ2n2 −1 independientes por lo que
σ22
n1 −1 2
σ12
S1 /(n1 − 1) 1 S12
Q= n2 −1 2 = ∼ Fν1 ;ν2
S2 /(n2 − 1) θ S22
σ22
con ν1 = n1 − 1 y ν2 = n2 − 1. Se sigue entonces que para q1 y q2 se tiene que

!
S12 /S22 S12 /S22
γ = P (q1 ≤ Q ≤ q2 ) = P ≤θ≤ =1−α
q2 q1
Finalmente, !
S12 /S22 S12 /S22
,
F (1 − α/2; n1 − 1, n2 − 1) F (α/2; n1 − 1, n2 − 1)
constituye un intervalos de 100(1 − α) % de confianza para θ = σ12 /σ22 .
6.4.5. Observaciones pareadas.

Considere ahora X = (X1 , . . . , Xn ) una muestra aleatoria de X ∼ N2 (µ, Σ), con
" # " # !
X1i µ1 σ12 σ12
Xi = , µ= y Σ=
X2i µ2 σ12 σ22
Se desea construir un intervalo de confianza para θ = µ1 − µ2 .

Para i ̸= j, las observaciones Xi y Xj son independientes, pero sus componentes X1i
y X2i no lo son salvo que σ12 = 0. Considere entonces Di = X1i − X2i , i = 1, . . . , n, la
muestra aleatoria de D ∼ N1 (µD , σD2 ), con µ = µ − µ y σ 2 = σ 2 + σ 2 − 2σ . Luego, se
D 1 2 D 1 2 12

puede construir un intervalo de confianza para θ = µD , considerando σD desconocida como

se hizo anteriormente. Entonces,
√ √
D̄ − t1−α/2;n−1 SD / n, D̄ + t1−α/2;n−1 SD / n
donde D̄ = n1 ni=1 Di , SD
P 2 = 1
Pn 2
n−1 i=1 (Di − D̄)
Note que si las componentes X1 y X2 están asociadas positivamente (σ12 > 0) la varianza
de la diferencia D = X1 − X2 es menor que si las componentes fuesen independientes, lo
que resultará en intervalos de confianza más estrechos, preferibles en la práctica. Pensar por
ejemplo, el muestreo de manera de tener componentes asociadas positivamente es área del
diseño de experimentos estadı́stico.
6.5. Poblaciones no normales

6.5.1. Intervalos de confianza para proporciones.
La aproximación a la distribución binomial por la distribución normal y que se muestra
en el curso de Cálculo de Probabilidades I se justifica por la distribución de la suma de
v.a.i.i.d.’s y el Teorema Central del Lı́mite. De manera relacionada se construye un intervalo
de confianza para proporciones o probabilidades de éxito de una distribución Bernoulli
(binomial)
Considere Xn = (X1 , . . . , Xn ) una muestra aleatoria de una población X ∼ Ber(p) y
D
sea X̄n = n1 ni=1 Xi . Por lo que, del teorema central del lı́mite √ X̄n −p −→ Z ∼ N(0, 1).
P
p(1−p)/n
P
Por otro lado, en la sección de teoremas lı́mite se vio que X̄n −→ p. Entonces, para n
·
suficientemente grande se sigue del TCL y del teorema de Slutsky que √ X̄n −p ∼
X̄n (1−X̄n )/n
N (0, 1). Ası́, q
X̄n ± z1−α/2 X̄n (1 − X̄)n )/n
constituye un intervalo de confianza de nivel (1 − α) para el parámetro p, la probabilidad
de éxito o proporción de una población Bernoulli.
Considere ahora que se tiene una segunda población Y ∼ Ber(p2 ), independiente de
X ∼ Ber(p1 ) y sea Ym = (Y1 , . . . , Ym ) una muestra aleatoria de ella. Se desea construir un
intervalo de confianza para el parámetro θ = p1 − p2 , diferencia de proporciones. Entonces,
·
como antes, √ Ȳm −p2 ∼ N (0, 1) y para m y n grandes se tiene
Ȳm (1−Ȳm )/m

X̄n − Ȳm − (p1 − p2 ) ·
p ∼ N (0, 1)
X̄n (1 − X̄n )/n + Ȳm (1 − Ȳm )/m
por lo que q

X̄n − Ȳm ± z1−α/2 X̄n (1 − X̄n )/n + Ȳm (1 − Ȳm )/m
constituye un intervalo de confianza de nivel 100(1 − α) % para la diferencia de proporciones
θ = p1 − p2 .
6.5.2. Intervalos de confianza para la media

Considere Xn = (X1 , . . . , Xn ) una muestra aleatoria de una población X con media
µ = E[X] y varianza σ 2 = var(X). Sean X̄n = n1 ni=1 Xi y Sn2 = n−1 1 Pn 2
P
j=1 (Xj − X̄n ) .
D 2 P
−µ
X̄n√ Sn
Entonces, se ha visto ya que σ/ n
−→ Z ∼ N(0, 1) y σ2 −→ 1. Por lo que nuevamente por

el teorema de Slutsky se tiene que

−µ
X̄n√
σ/ n X̄n − µ D
q = √ −→ N(0, 1)
2
Sn Sn / n
σ2
Luego, √
X̄n ± z1−α/2 Sn / n
constituye un intervalo de confianza de nivel (1 − α) aproximado para la media µ.
6.5.3. Intervalos de confianza por medio de EMV

Considere Xn = (X1 , . . . , Xn ) una muestra aleatoria de una población X y θ parámetro
de la distribución de X. Sea θ̂n = θ̂(Xn ) el estimador por máxima verosimilitud (EMV).
Luego, por la distribución asintótica de θ̂n
θ̂ − θ θ̂n − θ ·
qn =p ∼ N(0, 1)
var(θ̂n ) 1/nI(θ)
Por lo que un intervalo de nivel aproximado de confianza (1 − α) estarı́a dado por

p
θ̂ ± z1−α/2 / nI(θ)
Ejemplo : Considere X = (X1 , . . . , Xn ) una m. a. de X ∼ Po(λ). Entonces, f (x; λ) =

λx e−λ /x! 1N0 (x). Se ha visto que X̄ = λ̂emv y
L(λ; x) = λx e−λ /x!

ℓ(λ; x) = x log λ − λ − log x!
∂ℓ x
=− −1
∂λ λ
∂2ℓ x
= 2
∂λ2 λ
Por lo que " #
∂ 2 ℓ(λ; X)

X 1
−E 2
= −E − 2 = = I(λ)
∂λ λ λ
Ası́, un intervalo de confianza aproximado de 100(1 − α) % para λ serı́a
q q
λ̂ ± z1−α/2 / n/λ̂, o bien, X̄ ± z1−α/2 X̄/n
6.6. Regiones de confianza

6.6.1. Población normal
Con el apoyo de Mood, Graybill, and Boes (1974).
Considere Xn = (X1 , . . . , Xn ) una muestra aleatoria de una población X ∼ N(µ, σ 2 ).
Se han construido ya los intervalos marginales I1 para µ
√ √
X̄ − t1−α1 /2; n−1 S/ n, X̄ + t1−α1 /2; n−1 S/ n ≡ (µinf , µsup )
de (1 − α1 ) de confianza y I2 para σ 2

(n − 1)S 2 /χ21−α2 /2; n−1 , (n − 1)S 2 /χ2α2 /2; n−1 ≡ (σinf
2 2
, σsup )

de (1 − α2 ) de confianza. Sin embargo, la región de confianza R = I1 × I2 para el vector

de parámetros θ = (µ, σ 2 ) es menor a la confianza γ = (1 − α1 )(1 − α2 ) pues no son
independientes. Vea el panel de la izquierda de la figura 15.
Por otro lado, si se consideran las cantidades pivotales
X̄ − µ (n − 1)S 2
Q1 = √ y Q2 =
σ/ n σ2
que sı́ son independientes, se tiene que
1 − α1 = P (ℓ1 ≤ Q1 ≤ u1 ) y 1 − α2 = P (ℓ2 ≤ Q2 ≤ u2 )
por lo que la región

( )
2 X̄ − µ (n − 1)S 2
R= θ = (µ, σ ) ℓ1 ≤ √ ≤ u1 , ℓ2 ≤ ≤ u2
σ/ n σ2
que se muestra en el panel de la derecha de la figura 15 tiene una confianza conjunta de

γ = (1 − α1 )(1 − α2 ).
σ2 σ2
σ2sup σ2sup
σ2inf σ2inf
µinf µsup
µ X µ
Figura 15: Regiones de confianza R. El panel de la izquierda muestra el producto I1 × I2 de

los intervalos de confianza marginales de µ y σ 2 . El panel de la derecha muestra la región
de confianza conjunta para θ = (µ, σ 2 ).
6.6.2. Intervalos de Bonferroni

Los intervalos de Bonferroni ofrecen una manera práctica de construir intervalos de
confianza marginales de manera que la confianza conjunta sea al menos la deseada.
Sea θ = (θ1 , θ2 ) un vector de parámetros y Ci un intervalo de (1 − αi ) de confianza para
C

θi , con i = 1, 2. Sean los eventos Ei = {θi ∈ Ci }, luego 1 − α1 = P (Ei ) y Ei = θi ∈ / Ci .
Ası́,
C
C C
P (E1 ∩ E2 ) = P E1 ∪ E2

C C C C
= 1 − P E1 + P E2 − P E1 ∩ E2
≥ 1 − (α1 + α2 )

Entonces, si para cada uno de los θi se construye un intervalo de (1 − α/2) de confianza, la

confianza conjunta es de al menos
P (E1 ∩ E2 ) ≥ 1 − (α/2 + α/2) = 1 − α
Esta situación se ilustra en la figura 16.
1−α 2
θ2
1−α
1−α 1−α 2
1−α
θ1
Figura 16: Regiones de confianza. El panel de la izquierda muestra el producto cruz de los
intervalos de confianza marginales de µ y σ 2 . El panel de la derecha muestra la región de
confianza conjunta para (µ, σ 2 ).
6.7. Ejercicios
Textos de apoyo.
Casella and Berger (2002); Knight (2000); Mood, Graybill, and Boes (1974); Rice (2007);
Wackerly, Mendenhall III, and Scheaffer (2008).

7. Contraste de Hipótesis
7.1. Introducción
El siguiente ejemplo ha sido tomado de Rice (2007). Con él se introducen varios elemen-
tos de las pruebas o contraste de hipótesis.
Considere dos monedas m0 y m1 con correspondientes probabilidad de águila p0 y p1 ,
respectivamente. Se elije una de las dos monedas y se lanza 10 veces. Con base en el número
observado de águilas usted decide cuál de las monedas fue lanzado. Sea X el número obser-
vadas de águilas en los 10 lanzamientos. Entonces, X ∼ Bin(n, p) con n = 10. Suponga que
p0 = 0.5 y p1 = 0.7.
Considere ahora x, el número observado de águilas. Entonces, la correspondiente vero-
similitud de la moneda mi es L(pi ; x) = f (x; pi ), i = 0, 1 y el cociente de verosimilitudes
(CV), también conocido como razón de verosimilitud (RV) se define como
L(p0 , x) f (x; p0 )
CV(x) = =
L(p1 ; x) f (x; p1 )
Por ejemplo, si Pi (x) = P(X = x; p = pi ) = 10

x 10−x , entonces P (2) = 0.0439,
x pi (1 − pi ) 0
P1 (2) = 0.0014 y CV(2) = 30.2762. Luego si CV(2) = 30.38 resulta razonable interpretarlo
que favorece a la moneda m0 mientras que CV(7) = 0.44 favorecerı́a a m1 . La tabla 2
muestra las probabilidades P(X = x; pi ) y el correspondiente cociente de verosimilitudes.
Éste último se presenta en la figura 17.
Tabla 2: Probabilidades del número de águilas en los 10 lanzamientos para las dos monedas
y el correspondiente cociente de verosimilitudes CV.
x 0 1 2 3 4 5 6 7 8 9 10
m0 0.0010 0.0098 0.0439 0.1172 0.2051 0.2461 0.2051 0.1172 0.0439 0.0098 0.0010
m1 0.0000 0.0001 0.0014 0.0090 0.0368 0.1029 0.2001 0.2668 0.2335 0.1211 0.0282
CV 165.3817 70.8779 30.3762 13.0184 5.5793 2.3911 1.0248 0.4392 0.1882 0.0807 0.0346
Razón de Verosimilitud
150
100
LR(p0, p1)
50 0
0 2 4 6 8 10
x
Figura 17: Ejemplo de las monedas. Cociente de verosimilitudes.
Sea Hi la hipótesis que supone que la moneda mi fue lanzada. Para este ejemplo se
ilustran elementos con un “enfoque bayesiano”.
Se tiene información previa (a priori ) y no hay razón para suponer que las monedas

son distintas y deshonestas

1
π0 = P(H0 ) = P(H1 ) = π1 =
2
Después de observar el número de águilas X en los 10 lanzamientos, las probabilidades

posteriores (posteriori )
P(X|Hi )P(Hi )
P(Hi |X) =
P(X)
Luego, el cociente de verosimilitud CV,
P(H0 |X) P(H0 ) P(X|H0 ) π0

= = CV(X)
P(H1 |X) P(H1 ) P(X|H1 ) π1
donde los πi ’s son las probabilidades iniciales y CV denota el cociente de verosimili-

tudes.
En el ejemplo, CV es una función monótona en X. Si las probabilidades iniciales son

iguales X ≤ 6 favorece a H0 y X ≥ 7 favorece a H1 .
Si se ha de decidir entre H0 y H1 con base en lo observado, serı́a razonable preferir

aquella hipótesis con probabilidad posterior P(Hi |X) mayor. Es decir, favorece a H0
P(H0 |X)
si ≥ c, donde el valor crı́tico c depende de las probabilidades iniciales y el
P(H1 |X)
cociente de verosimilitudes.
Suponga que c = 1, entonces sea acepta H0 si X ≤ 6 y se rechaza H0 si X ≥ 7.

H0 se dice la hipótesis nula y generalmente representa el status quo, en este ejemplo
π0 = π1 = 1/2. H1 se dice la hipótesis alternativa que muchas veces se interesa mostrar
su validez a partir de los datos.
En esta situación se pueden cometer errores de dos tipos:
I : Rechazar H0 cuando ésta es verdadera (p = π0 ).

II : Aceptar H0 cuando ésta es falsa (p = π1 ).
Las correspondientes probabilidades de error:
α = P(Error tipo I) = P(Rechazar H0 |H0 verdadera) = P0 (X ≥ 7) = 0.1719

β = P(Error tipo II) = P(Aceptar H0 |H0 falsa) = P0 (X ≤ 6) = 0.3504
Los contrastes o pruebas de hipótesis estadı́sticas son procedimientos formales para

distinguir entre distribuciones.
7.2. Definiciones
Ejemplo : Por ser una temporada de escasez de agua se quiere reducir el consumo en
cierta comunidad y para este fin se dio una campaña de carteles a lo largo de 4 semanas. Se
cree que con ella haya disminuido en promedio de 3000 a 2500 litros por mes por persona.
Se desea verificar la efectividad de la campaña.
Suponga que el consumo mensual de agua por persona es razonablemente modelado por
la distribución normal. Luego, sea X la variable aleatoria (v. a.) que denota el consumo

de agua por persona con X ∼ N(µ, σ 2 ), y en este ejemplo considere que la varianza σ 2 es
conocida. Entonces, se desea contrastar las hipótesis
H0 : µ = 3 m3 /mes vs. H1 : µ = 2.5 m3 /mes
o bien: H0 : µ = µ0 = 3.0 vs. H1 : µ = µ1 = 2.5. Las hipótesis definen completamente las

distribuciones involucradas, X ∼ N(3.0, σ 2 ) y X ∼ N(2.5, σ 2 ), pues en el ejemplo se supone
σ conocida. Cuando las hipótesis definen completamente la distribución se dicen hipótesis
simples, en caso contrario, por ejemplo, H0 : µ < 3, X ∼ N(µi , σ 2 ), pero σ desconocida,
etcétera, se dicen hipótesis compuestas.
Para decidir sobre la veracidad de las hipótesis de manera objetiva se toma una muestra
aleatoria (m. a.) Xn = (X1 , . . . , Xn ), paraPuna n fija y, en este ejemplo, se decide rechazar
la hipótesis H0 si para cierta c, X̄ = n1 ni=1 Xi ≤ c lo que define la región de rechazo
R = {Xn : X̄ ≤ c}. Note que R = {Xn : X̄ ≤ c} ⊆ {Xn : Xn = (X1 , . . . , Xn )} = X , el
espacio muestral.
Para tener una idea de la sensibilidad del estadı́stico X̄ para detectar desviaciones, la
tabla 3 muestra las probabilidades P(X̄n ≤ x), para distintos valores de x y tamaños de
muestra n. Por ejemplo, si X ∼ N(3.0, 1), aproximadamente 31 de cada 100 observaciones
caerı́an a la izquierda de 2.5, pero del promedio de 10 observaciones, solo en 6 ocasiones
caerı́an a la izquierda y si la muestra fuese de 25 observaciones, solamente 0.6 % de los casos
carı́an a la izquierda.
√
Tabla 3: Probabilidades acumuladas por la izquierda de x del promedio X̄n ∼ N(3.0, 1/ n),
para n = 1, 5, 10, 25, 50.
P(X̄n ≤ x)
x 1 5 10 25 50
3.0 0.500 0.50000 0.50000 0.50000 0.50000
2.8 0.421 0.32736 0.26354 0.15866 0.07865
2.5 0.309 0.13178 0.05692 0.00621 0.00020
2.3 0.242 0.05876 0.01343 0.00023 0.00000
2.0 0.159 0.01267 0.00078 0.00000 0.00000
En el resto de la nota se evitará el uso del subı́ndice n para la muestra X o la media

X̄, salvo que se quiera enfatizar la dependencia con el tamaño de muestra.
Ası́, en este ejemplo se tiene el estadı́stico de prueba X̄ y el valor crı́tico c que

define la región de rechazo R = {X ∈ X : X̄ ≤ c} o regla de decisión para rechazar
la hipótesis nula H0 en favor de la hipótesis alternativa H1 . Las definiciones anteriores
quedan ilustradas en la siguiente figura.
Rechazo de H0 Aceptación de H0
x̄ ≤ c x̄ > c
-
| {z } c | {z } x̄
Pi (R) Pi (A)
donde Pi (·), denota la probabilidad de rechazar ó aceptar H0 suponiendo que la hipótesis

Hi es verdadera.
Aunque no es regla, se acostumbra establecer en la hipótesis nula lo común, la situación
actual o el status quo para que sea la muestra, la evidencia en los datos lo que lleve a su
rechazo en favor de la hipótesis alternativa H1 . Como el rechazo de H0 depende del valor
del estadı́stico de prueba que a su vez depende de la muestra observada, es posible, que
aún bajo las mismas condiciones en ocasiones se rechace la hipótesis nula pero otras veces
no, lo que no implica que se demuestre la validez de H0 . Es decir, que no se rechace la

hipótesis no implica haber demostrado su veracidad. La inferencia estadı́stica no sigue las

reglas de la lógica formal o matemática. Ası́, no es costumbre “aceptar la hipótesis nula”,
que se entenderı́a como aceptar su validez, en todo caso “no se rechaza H0 ”.
Entonces, como la decisión de rechazar o no la hipótesis nula H0 depende del estadı́stico
de prueba y que a su vez depende de la muestra, es posible cometer errores: rechazar H0
cuando ésta es verdadera, o no rechazarla cuando es falsa. Si se consideran las hipótesis
simples H0 : µ = µ0 vs. H1 : µ = µ1 , éstas y las decisiones que se pueden tomar pueden
representarse en la siguiente tabla
Condición de H0
Verdadera Falsa
√
Rechazar H0 Error Tipo I
√
No rechazar H0 Error Tipo II
Rechazar H0 cuando ésta es falsa, o no es rechazada cuando la hipótesis es verdade-

ra son la decisiones correctas. En caso contrario, rechazar H0 cuando ésta es correcta o
no rechazarla cuando es falsa son decisiones erróneas pero de naturaleza distinta por sus
consecuencias potenciales.
Rechazar la hipótesis nula H0 cuando ésta es válida se conoce como error tipo I,
mientras que aceptar H0 cuando es falsa se dice que se comete un error tipo II. La
probabilidad de cometer el error tipo I y el tipo II se acostumbran denotar por α y β,
respectivamente.
α = P(Error tipo I) = P(Rechazar H0 |H0 verdadera)

β = P(Error tipo II) = P(Aceptar H0 |H0 falsa)
Para continuar con el ejemplo, el consumo mensual de agua por persona X ∼ N(µ, σ 2 ),
con σ conocida. Se toma una muestra de tamaño n X = (X1 , . . . , Xn ).
Z c
c − µ0
α = P(R|H0 verdadera) = P0 (X̄ ≤ c) = fX̄ (x)dx = Φ √
−∞ σ/ n
donde fX̄ denota la función de densidad del estadı́stico de prueba X̄ ∼ N(µ0 , σ 2 /n) bajo
la suposición de que la hipótesis nula H0 es verdadera. La distribución del estadı́stico de
prueba suponiendo válida la hipótesis nula H0 se conoce como la distribución nula del
estadı́stico. Por otro lado, se tiene que
Z ∞
C ∗ c − µ1
β = P(R |H0 falsa) = P1 (X̄ > c) = fX̄ (x)dx = 1 − Φ √
c σ/ n
donde fX̄ ∗ denota la f. d. p. de X̄ bajo el supuesto de que H es verdadera, esto es, X̄ ∼

1
N(µ1 , σ 2 ).
Suponga que en el problema de consumo mensual de agua la desviación estándar es de
σ = 1.0 m3 y que el tamaño de la muestra es de n = 25 observaciones. Suponga también
que el valor crı́tico fuera c = 2.7. Luego, la regla de decisión queda definida como: rechazar
H0P: µ = 3.0 si X̄ ≤ 2.75. Luego, la región de rechazo es R = {X = (X1 , . . . , X25 ) :
1 25
n i=1 Xi ≤ 2.75}. Entonces, las probabilidades de error serı́an,
!
2.7 − 3.0
α=Φ √ = Φ(−1.5) = 0.067
1.0/ 25

2.7 − 2.5
β =1−Φ = 1 − Φ(1.0) = 0.159
1/5

Note que las probabilidades de error tipo I y II no son complementarias, es decir, no

tienen que sumar 1. La figura 18 ilustra los errores en el ejemplo del consumo mensual de
agua.
La probabilidad α del error tipo I es la medida o tamaño de la región de rechazo R
suponiendo válida la hipótesis nula H0 y en tal sentido α se conoce como el tamaño de la
prueba o la significancia de la prueba.
α β
µ1 cα µ0
Figura 18: Contraste de hipótesis. Probabilidades de error tipo I y II.
En el ejemplo, la localización del valor crı́tico define la región de rechazo y en consecuen-

cia las probabilidades de error, por lo que su determinación debe considerar las probabilida-
des de error consecuentes. En la figura 18 es claro que al disminuir un error necesariamente
aumenta el otro. En general, en la práctica se predetermina la significancia de la prueba α
o probabilidad de error tipo I o riesgos que se aceptan correr. Ası́, si determinara
que en el
c−µ 0
ejemplo, se desea una prueba de significancia del 5 %, entonces, α = Φ σ/ n implica que
√
c−3.0
z0.05 = √
1/ 25
= −1.644, por lo que, si α = 0.05, cα = 2.671. Esto es, la región de rechazo
de tamaño α queda dada definida por Rα = {X̄ ≤ cα } de manera que α = P0 (Rα ) y en
el ejemplo, P(X̄ ≤ 2.671|µ= 3.0) = 0.05. Pero ahora, la correspondiente probabilidad del
α −µ
error tipo II es β = 1 − Φ cσ/√ 1 = 0.196.
n
Para disminuir simultáneamente las probabilidades de los errores la única manera es
aumentando el tamaño de la muestra. Esto se ilustra en la figura 19 Si en el ejemplo, se
n1
n2
α β
µ1 c µ0
Figura 19: Disminución simultánea de las probabilidades de error tipo I y II aumentando

el tamaño de la muestra, n1 < n2 .
tomara en su lugar una muestra de tamaño n = 40, utilizando

el mismo valor crı́tico de

c = 2.671, los correspondientes errores serı́an α = Φ 2.671−3.0
√
1/ 40
= Φ(−2.081) = 0.019,


2.671−2.5
mientras que β = 1 − Φ √
1/ 40
= 1 − Φ(1.081) = 0.140. Compárense con los errores de
0.05 y 0.196, respectivamente cuando n = 25.
Otro concepto importante en la teorı́a de las pruebas de hipótesis es la potencia de
la prueba, En estas notas se considerará la potencia de una prueba como la probabilidad
de rechazar la hipótesis nula H0 y se denotará por K. Ası́, uno habları́a de la potencia de
prueba bajo H0 o bien bajo H1 . En el ejemplo, la potencia de la prueba se define como
K(µi ) = Pi (R). luego, idealmente se desearı́a K(µ0 ) = 0, y K(µ1 ) = 1. Pero la región de
rechazo es R = {x : x̄ ≤ c}, por lo que para n = 25 y c = 2.671, se tiene K(3.0) = 0.05 y
K(µ1 ) = 0.804.
Más formalmente, se incluyen algunas de las definiciones antes presentadas para después
incluir el lema de Neyman–Pearson, fundamental en el origen y el desarrollo de la Estadı́stica
Matemática. Varias de las siguientes definiciones son adaptadas de texto de Mood, Graybill,
and Boes (1974).
Definición : En estas notas, una población de interés es definida por una caracterı́stica de
la misma, llamada población estadı́stica que es representada o modelada mediante una
distribución de probabilidad.
Ası́, el consumo de agua de cierta comunidad X quedó representada por una variable
aleatoria X distribuida normalmente N(µ, σ 2 ).
Definición : La inferencia sobre la población X usualmente se basa en la información

colectada de una muestra aleatroria (m. a.) de X, entendiendo ésta como una colección
de variables aleatorias independientes e idénticamente distribuidas a X, aquı́ denotada por
X = (X1 , . . . , Xn ). Si se deseara hacer explı́cito el tamaño de la muestra, se usará el
subı́ndice n, Xn .
Definición : Una hipótesis estadı́stica H es una aseveración o conjetura sobre la distri-

bución de la variable o vector aleatorio X representando el modelo de la población.
Por ejemplo, suponer que la moneda lanzada es la moneda justa, con la probabilidad
del águila p = 1/2. O bien, suponer que el consumo medio mensual de agua es de µ = 3 m3 .
Definición : Se dice que una hipótesis estadı́stica es simple si define completamente a

distribución de X. En caso contrario se dice que es una hipótesis compuesta.
Por ejemplo, H : µ = 3 m3 representa una hipótesis simple pues suponiendo válido H,
se tendrı́a que el consumo mensual de agua es X ∼ N(3, 1), considerando σ = 1 conocida.
Si no se conociera σ o se estableciera que X ∼ N(µ, σ 2 ), para µ ≥ 3, éstas serı́an hipótesis
compuestas.
Definición : Una prueba estadı́stica Υ es una regla o procedimiento empleado para

decidir sobre la validez o no de la hipótesis H. Anteriormente, se distinguı́an la pruebas
estadı́sticas como pruebas aleatorizadas o no-aleatorizadas.
Definición : Se dice que Υ es una prueba aleatorizada si para decidir sobre la hipótesis
H, además del procedimiento resultado en la muestra aleatoria, la conclusión se basa también
en el resultado de algún experimento aleatorio no relacionado con el procedimiento original.
Si, en el ejemplo inicial de decidir sobre qué moneda fue lanzada, suponga que la regla de
decisión definida por la prueba Υ, fuese: aceptar H0 : p = 0.5 si X < 6; aceptar H1 : p = 0.7,
si X > 6; y si X = 6, lanzar un dado honesto y favorecer H0 si la cara muestra un número
par y a H1 si es impar.
Las pruebas aleatorizadas son rara vez empleadas, pues dos personas podrı́a concluir
sobre la hipótesis H de manera contraria a partir de la misma muestra aleatoria debido al

resultado aleatorio del experimento complementario. Más adelante se verá un ejemplo de

tales pruebas.
Definición : Una prueba no aleatorizada Υ, es una regla de decisión sobre la hipótesis

H definida a partir de un estadı́stico (de prueba) T = T (Xn ) y una región de rechazo
de manera que si la muestra aleatoria X es tal que si T (X) satisface cierta condición C
la hipótesis H es rechazada. Esto es, la región de rechazo es R = {X ∈ X : T (X) ∈ C ⇒
rechazar H}.
En el contraste de monedas, la hipótesis H : p = 1/2, el estadı́stico de prueba T es el
número de águilas en los 10 lanzamientos y la regla de decisión es rechazar H si T ≥ 7. O
bien, en el ejemplo de consumo de agua, para decidir sobre la hipótesis H : µ = 3.0,P a partir
de la muestra X = (X1 , . . . , Xn ), el estadı́stico de prueba es el promedio T (X) = n1 ni=1 Xi
y la region de rechazo es R = {X : T (X) < c}, para algún c, definido como valor crı́tico.
Definición : Sea Υ una prueba estadı́stica para H0 . Si rechaza H0 cuando ésta es correcta
se dice que se comente el error tipo I. Por otro lado, Si no se rechaza H0 cuando ésta es
falsa se comete el error tipo II.
Definición : Sea Υ una prueba para la hipótesis H0 . Se define la potencia de la prueba,

K(θ), como la probabilidad de rechazar H0 , cuando la distribución ha sido parametrizada
por θ.
Esto es, si X ∼ f (x; θ), con θ ∈ Θ = Θ0 ∪ Θ1 , donde Θ0 denota los posibles valores de θ
bajo la hipótesis H0 . Sea Υ la prueba definida por el estadı́stico de prueba T (X) y la región
de rechazo R. Entonces, la potencia de la prueba Υ es
Z
K(θ) = P(R|θ) = f (x; θ)dx, para θ ∈ Θ
R
Si se considera nuevamente el ejemplo del consumo mensual de agua, X ∼ N(µ, σ 2 ), con

σ = 1 y n = 25. El estadı́stico de prueba es T (X) = X̄ y R = {X̄ < 2.671}. Entonces,

c−µ
K(µ) = P(X̄ < c|µ) = Φ √ = Φ 5(2.671 − µ)
σ/ n
La función potencia K del ejemplo de consumo de agua se muestra en la figura 20.
1−β
α
0
µ1 µ µ0
Figura 20: Función potencia K para el ejemplo del consumo mensual de agua. La prueba
muestra una potencia de α y 1 − β para los valores de la media µ0 = 3.0 y µ1 = 2.5,
respectivamente.

La función potencia juega un papel muy relevante en la comparación y definición de

pruebas estadı́sticas. Idealmente, se quisieran pruebas con potencia 0 bajo H0 y 1 cuando
ésta no se cumple. Ası́, se prefieren las pruebas con mayor potencia.
Notación: Sea K(θ) la potencia de la prueba Υ para la hipótesis H0 . La probabilidad de
los errores tipo I y II se acostumbran a denotar por
α(θ) = P(Rechazar H0 |H0 verdadera) = K0 (θ)

β(θ) = P(No rechazar H0 |H0 falsa) = 1 − K0 (θ)
La figura 20 muestra las probabilidades de errores α(µ0 ) y β(µ1 ) para el ejemplo del consumo
de agua.
Definición : Sea Υ una prueba de la hipótesis H0 : θ ∈ Θ0 , donde Θ = Θ0 ∪ Θ1 es el

espacio parametral (Θ0 ∩ Θ1 = ∅). Sea R la correspondiente región de rechazo de H0 . Se
define el tamaño de la prueba o tamaño de la región crı́tica por
α = sup P(R|θ)
θ∈Θ0
Algunos texto se refieren al tamaño de la región crı́tica como la significancia de la prueba

α.
Suponga queen el ejemplo sobre consumo de agua se considera la hipótesis H0 : µ ≥ 3.0,
1 Pn
Θ0 = {θ ≥ 3.0} y la prueba Υ con el estadı́stico de prueba X̄ = n 1i=1 Xi y la región
de rechazo R = {X̄ ≤ c}. Entonces, como se puede ver en la figura 20,

c−µ
K(µ) = P(R|µ) = Φ √
σ/ n
que alcanza el supremo en el extremo µ = 3.0 ∈ Θ0 . Ası́, la significancia de la prueba Υ es

α. Con n = 25, si c = 2.70, la significancia de la prueba es α = 0.0.067. Si en su lugar, se
considera el valor crı́tico de c = 2.67, la significancia serı́a de α = 0.05.
Note que la significancia de una prueba es la probabilidad de cometer el error de tipo
I. Otra manera de ver las significancia serı́a como el riesgo de cometer el error tipo I. En
la práctica toda prueba tiene asociado tal riesgo. Luego, la manera formal de proceder
en una prueba de hipótesis estadı́stica es fijar de antemano el riesgo (significancia) que se
acepta correr, determinar el estadı́stico de prueba y regla de decisión correspondiente y
llevar a cabo el experimento (observación, procedimiento, etc.). Una vez que se determina
el valor del estadı́stico concluir si se rechaza o no la hipótesis nula. En este contexto, no
es válido (¿ético?) cambiar la decisión después de obtener el estadı́stico. En algunos casos,
pruebas aleatorizadas y pruebas secuenciales, se pueden no tomar la decisión final sobre H0
después de observar el estadı́stico de prueba, pero el procedimiento fue ası́ establecido en
un principio.
Por otro lado, como se comentó anteriormente, aumentando el tamaño de la muestra se
reduce las probabilidades de los errores. Igualmente, la potencia de una prueba se puede
aumentar con muestras de mayor tamaño. La figura 21 muestra la función potencia K para
pruebas de significancia α = 0.05 y distintos tamaños de muestra en el ejemplo del consumo
mensual de agua.
Definición : Sea Υ una prueba de significancia para la hipótesis H0 . Se define la distri-

bución nula del estadı́stico de prueba T a su distribución suponiendo la hipótesis nula
verdadera.
En el ejemplo, para una muestra aleatoria Xn , la distribución nula de T = X̄ es
N(µ0 , σ 2 /n), que para σ = 1 y n = 25, T ∼ N(3.0, 1/25).

n=25
n=30
n=40
n=50
α
0
µ1 µ µ0
Figura 21: Función potencia K del ejemplo del consumo mensual de agua para distintos
tamaños de muestra n y significancia común α.
Definición : Sea x = (x1 , . . . , xn ) la muestra observada. Entonces, t = T (x) ∈ R y se le

dice el estadı́stico observado.
Dada H0 : µ = 3.0, y una muestra de tamaño 25, la prueba de significancia 0.05 tiene
la región de rechazo R = {X̄ ≤ 2.671}. Luego, un estadı́stico observado t = 2.73 llevarı́a a
no rechazar la H0 con una significancia de 5 %. Si por el contrario, se observara t = 2.63, se
concluirı́a que se rechaza la hipótesis con una significancia del 5 %. Pero igual se rechazarı́a
con t = 2.24. Si bien los dos últimos estadı́sticos observados llevan a la misma conclusión:
rechazar H0 al 5 % de significancia, pareciera que la información en contra de la hipótesis
es más evidente cuando t = 2.24 que t = 2.63. Una manera de valor al diferencia entre las
dos observaciones en mediante el valor−p.
α β
µ1 = 2.5 c0.05 = 2.67 µ0 = 3 x

2.15 2.32 2.48 2.65 2.82 2.98 3.15
(1.07e−05) (0.000317) (0.00489) (0.0401) (0.18) (0.467) (0.773)
Figura 22: Estadı́sticos de prueba (x̄) observados y sus correspondientes valores-p.
Definición : Se define el valor−p del estadı́stico observado t = T (x) como la probabilidad

de obtener t o algo más extremo en contra de la hipótesis H0 suponiendo ésta verdadera.
En el ejemplo, x̄ = 2.7 tiene el valor−p de 0.067 y si x̄ = 2.671, el valor−p es del 5 %. La
figura 22 muestra distintos ejemplos de estadı́sticos y debajo de ellos, entre paréntesis, los

correspondientes valores-p. Note que aquellos estadı́sticos x̄ menores al valor crı́tico α0.05 =
2.671, que llevarı́an a rechazar la hipótesis H0 con una significancia del 5 %, tiene valores-p
menores 0.05. Es aparente que la evidencia en contra de H0 de x̄ = 2.15 (1.07 × 10−5 ) es
más clara que la que presenta x̄ = 2.65 (0.040). Es común reportar en textos y artı́culos el
valor−p de los estadı́sticos observados en paréntesis inmediatamente después o debajo de
la cantidad. Esto se ilustra en la figura 22.
Note que para determinar el valor−p no se necesita conocer la hipótesis alternativa. De
hecho, tampoco se requiere de un nivel de significancia de la prueba definido. En cierta
forma, el valor−p indica el respaldo de los datos a la hipótesis nula. Quien tome la decisión
de rechazarla o no considerará el riesgo que desea correr.
En los últimos años ha habido mucha controversia sobre el uso, o mal uso, del valor−p.
Personalmente creo que son unos indicadores, función de la distribución nula y la muestra
observada, útiles por lo informativos, pero mal empleados y abusados. Su interpretación es
la misma, independientemente de la hipótesis bajo consideración y estadı́stico de prueba
empleado. Pero no dice nada de si, por ejemplo, lo apropiado de la hipótesis para propósito
del estudio, si los datos son obtenidos por experimentación, cómo se llevó este último a cabo,
si los supuestos fueron verificados y se satisfacen, etcétera. Hay mucho escrito al respecto
que vale la pena revisar. En un inicio, puede acudir a Bastian (2013).
Finalmente, para terminar esta sección se presenta el siguiente teorema que refuerza la
importancia de los estadı́sticos suficientes en la inferencia estadı́stica.
Teorema : Sean X una muestra aleatoria de X ∼ f (x; θ), con θ ∈ Θ y T (X) un estadı́stico
suficiente para θ. Entonces, para cualquier prueba estadı́stica Υ con potencia KΥ (θ) existe
una prueba Υ∗ con estadı́stico de prueba T con la misma potencia, esto es, KΥ∗ (θ) = KΥ (θ),
para todo θ ∈ Θ.
Demostración: refiérase al teorema IX.1.1 p.408 de Mood, Graybill, and Boes (1974).

7.3. Lema de Neyman–Pearson

Con el apoyo de Mood, Graybill, and Boes (1974) y Rice (2007).
Teorema de Neyman-Pearson (1933) Sea X = (X1 , . . . , Xn ) una muestra aleatoria

de X ∼ f . Sean Hi hipótesis simples con fi (x), i = 0, 1, las correspondientes funciones
de densidad conjunta completamente definidas. Sea Υ∗ la prueba que define la región de
rechazo de tamaño α, R = {x : f0 (x)/f1 (x) ≤ c}. Entonces, cualquier otra prueba Υ de
significancia menor o igual a α tiene una potencia menor o igual a que aquella basada en el
cociente de verosimilitudes f0 (x)/f1 (x).
Demostración: Sea X una m. a. de X ∼ f y las hipótesis simples H0 : f = f0 y H1 : f = f1
que se desean contrastar. Sea d la regla o función de decisión tal que
(
0 si se acepta H0
d(X) =
1 si se rechaza H0
Entonces, d(X) ∼ Ber(p), con p = E[d(X)] = P(d(X) = 1) = P(Rechazar H0 ). Luego,
α = P(R|H0 ) = P0 (R) = E0 [d(X)] = K0 (d(X))
y K1 (d(X)) = P1 (R) = E1 [d(X)].

Sea ahora d∗ (X) la regla de decisión definida por Υ∗ del problema tal que, d∗ (X) = 1,
si f0 (X) ≤ cf1 (X) con α = E0 [d∗ (X)] y sea Υ cualquier otra prueba con regla de decisión
d(X) tal que E0 [d(X)] ≤ E0 [d∗ (X)] = α. Por mostrar que K1 (d(X)) ≤ K1 (d∗ (X)), esto es
K1 (d(X)) = E1 [d(X)] ≤ E1 [d∗ (X)] = K1 (d∗ (X))
para esto, note que
d(X) cf1 (X) − f0 (X) ≤ d∗ (X) cf1 (X) − f0 (X)

(13)
puesto que, si
i) Si d∗ (X) = 1, es porque f0 (X) ≤ cf1 (X)

ii) Si d∗ (X) = 0, es porque f0 (X) > cf1 (X)
Ahora, tomando integrales a ambos lados de la expresión (13), se sigue del teorema del
estadı́stico inconsciente (tei) se tiene
cE1 [d(X)] − E0 [d(X)] ≤ cE1 [d∗ (X)] − E0 [d∗ (X)] (14)
Luego,
0 ≤ E0 [d∗ (X)] − E0 [d(X)] ≤ c E1 [d∗ (X)] − E1 [d(X)]

y por lo tanto,
K1 d(X) ≤ K1 d∗ (X)

En palabras: en el contraste de un par de hipótesis simples, la prueba de significancia α

basada en el cociente de verosimilitudes es la de mayor potencia entre todas las pruebas de
significancia menor o igual α.
Ejemplo : Considere el ejemplo del consumo mensual medio de agua, las hipótesis simples,
H0 : µ = µ0 vs. H1 : µ = µ1 (< µ0 ). Sea Xn una m. a. de X ∼ N(µ, σ 2 ), con σP conocida.
Entonces, la f. d. p. conjunta del v. a. X es f (x; µ, σ) = (2π)−n/2 σ −n exp{− 2σ1 2 ni=1 (xi −

µ)2 }. Luego, de acuerdo al lema de Neyman-Pearson, el cociente de verosimilitudes f0 /f1 ≤ c

da lugar a
f (x; µ0 )
≤c
f (x; µ1 )
Pn
(2π)−n/2 σ −n exp{− 2σ1 2 (xi − µ0 )2 }
Pi=1
n ≤c
(2π)−n/2 σ −n exp{− 2σ1 2 i=1 (xi − µ1 )2 }
1 n X o
− 2 −2(µ0 − µ1 ) xi + n(µ2o − µ21 ) ≤ log c
2σ
n(µ0 − µ1 )x̄ − n(µ20 − µ21 ) ≤ σ 2 log c
x̄ ≤ c∗
con c∗ = n1 σ 2 log c − n(µ20 − µ21 ) . Luego, la prueba con mayor potencia para contrastar las

hipótesis H0 : µ = µ0 vs. H1 : µ = µ1 (< µ0 ), induce una región de rechazo R∗ = {X : X̄ ≤

c∗ }, como se habı́a propuesto anteriormente. Note que X̄ es un estadı́stico suficiente para
µ. Finalmente, si la prueba se desea de tamaño α, se ha de elegir cα tal que Rα = {X̄ ≤ cα }
de manera que α = P0 (Rα ).
Una muestra observada que lleve a x̄ = 2.4 tiene un valor−p de Φ 5 ∗ (2.4 − 3.0) =
0.0013. Por lo que uno concluirı́a en rechazar la hipótesis H0 : µ = 3.0, aún con una
significancia del 0.5 %.
Ejercicio : Recupere el ejemplo inicial del lanzamiento de monedas. Muestre que R =

{X : X > c} es la región de rechazo determinada por el lema de Neyman-Pearson. Si el
valor crı́tico es c = 6, determine la significancia de la prueba α y la probabilidad de error
tipo II β. Determine la significancia de la prueba. Calcule la potencia de la prueba K(p),
para p = 0.5 y p = 0.7.
Ejercicio : (Hogg and Craig (1978)) Se desea contrastar las hipótesis H0 : f = f0 vs.
H1 : f = f1 , donde
x+1
e−1 1
f0 (x) = 1{0,1,2,... } (x) y f1 (x) = 1{0,1,2,... } (x)
x! 2
Sea X = (X1 , . . . , Xn ) es una muestra aleatoria de X ∼ f ,
1. Muestre que la mejor región de rechazo para el contraste de las hipótesis es de la
forma  
 Xn n
X 
R = x : log 2 · xi − log xi ! < c∗
 
i=1 i=1
con c∗ = log c0 −n log(2e−1 ) y donde c0 viene del cociente de verosimilitudes CV(x) =

f0 (x)
f1 (x) < c0 .
2. Para c0 = 1 y n = 1, determine R del inciso anterior.
3. Calcule la significancia de la prueba.
4. Calcule β, la probabilidad del error tipo II.
5. Grafique K, la función potencia de la prueba.
Ejemplo : Considere la población Y ∼ Exp(λ), tal que E[Y ] = 1/λ. Se desea contrastar
las hipótesis H0 : λ = λ0 vs. H1 : λ = λ1 (< λ0 ). Por encontrar la prueba significancia α más
potente.

Sea Yn una muestra aleatoria de Y ∼ Exp(λ) de tamaño n. Luego, se sigue del lema de
Neyman-Pearson
f0 (y)
CV = ≤c
f1 (y)
P
λn0 e−λ0 yi
P ≤c
λn1 e−λ1 yi
X
n log(λ0 /λ1 ) − (λ0 − λ1 ) yi ≤ log c
log c − n log(λ0 /λ1 )
ȳ ≥ −
λ0 − λ1
Entonces la prueba más potente de significancia α tiene una región de rechazo de la forma
Rα = {y : ȳ >Pcα }, tal que α = P(Rα |H0 ) = P0 (Ȳn > cα ). Note que el estadı́stico de
prueba Ȳ = n1 Yi es suficiente para el parámetro λ y rechazará la hipótesis nula para
valores grandes, lo que sugiere una media poblacional µ grande que corresponde a valores
de λ pequeños.
Por otro lado verifique que Si Y ∼ Exp(λ) entonces 2λ Yi ∼ χ22n . Por lo que la región
P
1
de rechazo de significancia α de más potencia tiene un valor crı́tico cα = χ2 (1 − α; 2n),
2nλ0
siendo el último término el cuantil 1 − α de la distribución χ22n .
Ası́, con λ1 < λ0 , para el contraste de hipótesis
H0 : λ = λ0 vs. H1 : λ = λ1
la mejor región de rechazo de significancia α es

1 2
Rα = Yn : Ȳ > χ (1 − α; 2n)
2nλ0
Si por ejemplo, λ0 = 2 y λ1 = 1, considerando muestras de tamaño n = 20, para una
prueba de significancia α = 0.05 el valor crı́tico es c = 0.697. Y si, el promedio observado
fuese ȳ = 0.65 (< c), se concluirı́a que no se rechaza la hipótesis H0 : λ = 2, con una
el valor-p de ȳ = 0.65, el estadı́stico observado, es P0 (Ȳ ≥
significancia del 5 %. Más aún,
0.65) = P 2nλ0 Ȳ > 80(0.65) = 0.0968. O bien, si el (promedio) estadı́stico observado
fuese
ȳ = 0.76, el correspondiente valor-p es P0 (Ȳ ≥ 0.76) = P 2nλ0 Ȳ > 80(0.75) = 0.0185, lo
que llevarı́a a rechazar la H0 con una significancia del 5 %. Finalmente, note que si la
media observada fuese de 0.89, el correspondiente valor-p es de 0.0017. Ambos estadı́sticos
observados, ȳ20 = 0.76, 0.89 llevan a rechazar H0 con una significancia del 5 %, pero ȳ =
0.89, con un valor-p más pequeño, se concluirı́a que hay más evidencia en contra de la
hipótesis nula.
Para graficar la potencia de la prueba recuerde que ésta es la probabilidad de rechazar
la hipótesis nula H0 . Entonces,
K(λ) = Pλ (R) = Pλ (Ȳ > cα ) = P(2nλȲ > 2nλcα ) = P(W > 2nλcα )
donde W ∼ χ22n . Luego, K(λ0 ) = P(W > 2nλ0 cα ) = P(W > 2(20)(2)0.697) = 0.05 y
K(λ1 ) = P(W > 2nλ1 cα ) = P(W > 2(20)(1)0.697) = 0.926. Calculando K(λ) para varios
valores de λ en [0.5, 2.5] se tiene la función potencia que se muestra en la figura 23.
Pruebas aleatorizadas
Considere el modelo X ∼ Po(λ). Se desean contrastar las hipótesis
H0 : λ = λ0 = 1 vs. H1 : λ = λ 1 = 5

Función potencia
1.0
0.926
0.8
0.6
K(λ)
0.4
0.2
0.050
0.0
0.5 1.0 1.5 2.0 2.5
Figura 23: Función potencia de la prueba de hipótesis del ejemplo de la distribución expo-
nencial
.
Pn de tamaño n = 10 y se define la región de rechazo R = {X

Para esto se toman muestras :
T (X) ≥ 3}, con T (X) = i=1 Xi el estadı́stico de prueba. Entonces, R es la mejor prueba
para el contraste de las hipótesis.
En efecto, se sigue del lema de Neyman-Pearson que
f (x; λ0 )
¯ ≤ c0
f (x; λ1 )
P
x Q
e−λ0 λ0 i / xi !
P
x Q
≤ c0
e−λ1 λ1 i / xi !
X
−n(λ0 − λ1 ) + log(λ0 /λ1 ) xi ≤ c1
X
xi ≥ c2
puesto que λ0 /λ1 < 1. P

T = Xi ∼ Po(nλ0 ), por lo que la significancia de
La distribución nula del estadı́sticoP
la prueba con región de rechazo R = { Xi ≥ 3} es
X
α = P0 (R) = 1 − P0 Xi ≤ 2 = 0.080
P P
mientras que si se considerase la región R = { Xi ≥ 4}, la significancia serı́a de P0 ( Xi ≥
4) = 0.019.
Si se deseara una prueba de significancia del 5 % exactamente se podrı́a recurrir al
siguiente procedimiento:
0.05 − 0.019
i) Construya la variable aleatoria Y ∼ Ber(p), con p = = 0.508., indepen-
0.080 − 0.19
diente de las X’s.
P P
ii) Rechace H0 si Xi ≥ 4 ó Xi = 3 y Y = 1.
P
iii) Acepte H0 si Xi ≤ 2.

P P
Esto es, se define la región de rechazo R = { Xi ≥ 4} ∪ { Xi = 3, Y = 1}. Y en tal caso,
la significancia de la prueba es
X X
P0 (R) = P0 Xi ≥ 4 + P0 Xi = 3, Y = 1
X X
= P0 Xi ≥ 4 + P0 Xi = 3 P0 (Y = 1)
= 0.019 + 0.061(0.508)
= 0.05
El recurso anterior se conoce como una prueba aleatorizada. Note que mediante el pro-
cedimiento anterior se puede llegar a decisiones contrarias aún bajo los mismos datos (in-
formación), lo que sugiere el uso de los valores-p que no están ligados a la significancia de
la prueba.
7.4. Hipótesis compuestas

7.4.1. Pruebas uniformemente más potentes
Recupere el ejemplo del consumo mensual de agua. Para contrastar las hipótesis H0 :
µ = µ0 vs. H1 : µ = µ1 (< µ0 ), se encontró Υ∗ , la mejor prueba de significancia α, con
una región de rechazo Rα = {X̄ < cα }. Se ha visto también que si la hipótesis nula fuese
H0 : µ ≥ µ0 , Υ∗ seguirı́a siendo la mejor prueba de significancia α. Por otro lado, note que
para todo µ∗1 < µ0 fijo, la región de rechazo sigue siendo la misma y Υ∗ sigue siendo la
mejor prueba de significancia α, y es en este sentido que se dice que Υ∗ es uniformemente
(µ < µ0 ) más potente.
Más formalmente, sea X ∼ f (x; θ), con θ ∈ Θ = Θ0 ∪ Θ1 , Θ1 = Θ \ Θ0 .
Definición : Una prueba Υ∗ para el contraste de hipótesis H0 : θ ∈ Θ0 vs. H1 : θ ∈ Θ1 se

dice que es una prueba uniformemente más potente (PUMP) de significancia α si y
solo si:
i) α = supθ∈Θ0 KΥ∗ (θ).
ii) KΥ∗ (θ) ≥ KΥ (θ), para todo θ ∈ Θ1 y para toda prueba Υ de significancia α.
Ejemplo : Como se comentó anteriormente, en el ejemplo de consumo de agua, si la

hipótesis alternativa fuese H1 : µ < µ0 , la prueba Υ∗ , con región de rechazo Rα = {X̄ < cα },
es PUMP de significancia α.
El caso anterior como el presentado para el modelo exponencial, ambos ejemplos son
PUMP pero también resultan ser uniformemente más potentes al variar α.
Definición : Una prueba Υ para contrastar las hipótesis H0 : θ ∈ Θ0 vs. H1 : θ ∈ Θ1 se

dice insesgada si
sup KΥ (θ) ≤ ı́nf KΥ (θ)
θ∈Θ0 θ∈Θ1
Esto es, la probabilidad de rechazar H0 cuando ésta es falsa es mayor o igual a la probabilidad
de rechazarla cuando es verdadera.
7.4.2. Pruebas dos colas

Suponga que en el ejemplo del consumo mensual de agua, la hipótesis nula es H0 : µ = µ0
nuevamente pero la alternativa es ahora H1 : µ ̸= µ0 . La región de rechazo {X̄ < c}
corresponde a la PUMP para el contraste con hipótesis alternativa H1 : µ < µ0 , mientras

α 2 α 2
c1 µ0 c2
Figura 24: Ejemplo consumo de agua. Prueba de dos colas.
que la PUMP para la hipótesis H1 : µ > µ0 , la región es {X̄ > c}. Luego, no existe una
prueba uniformemente más potente para cuando la hipótesis alternativa es H1 : µ ̸= µ0 .
Considere entonces la región de rechazo R = {X̄ ≤ c1 } ∪ {X̄ ≥ c2 }. En tal caso, la
significancia de la prueba es
P0 (R) = P0 (X̄ ≤ c1 ) + P0 (X̄ ≥ c2 )
Si la hipótesis nula no se verifica y se supone que le media real puede igualmente estar a la
izquierda o derecha de µ0 , una opción es asignar el mismo peso (probabilidades) a las colas.
Luego, si la significancia es α, cada una de las colas seria con probabilidad α/2. La figura
24 muestra la región de rechazo R. Los valores crı́ticos serı́an
√ √
c1 = µ0 + zα/2 σ/ n y c2 = µ0 + z1−α/2 σ/ n
√
Si la prueba es de√significancia α = 0.05, entonces c1 = 3.0 − 1.96(1)/ 25 = 2.671 y
c2 = 3.0 + 1.96(1)/ 25 = 3.329.
7.4.3. Pruebas de hipótesis e intervalos de confianza

Basado en Rice (2007).
Ejemplo : Recupere el ejemplo del consumo de agua. Sea X = (X1 , . . . , Xn ) una muestra
aleatoria de X ∼ N(µ, σ 2 ), con σ conocida. Se desea contrastar las hipótesis
H0 : µ = µ 0 v. a. H1 : µ ̸= µ0
Como se vio anteriormente una “buena prueba” serı́a una prueba de dos colas con la región
de rechazo R =n{X̄ > c1 } ∪ {X̄ < c2 }, yosi las colas son del mismo peso (probabilidad) en
√
las colas, R = |X̄ − µ0 | > z1−α/2 σ/ n define una región de rechazo de significancia α.
Sea,
n √ o
A = RC = X : |X̄ − µ0 | ≤ z1−α/2 σ/ n
n √ √ o
= X : X̄ − z1−α/2 σ/ n ≤ µ0 ≤ X̄ + z1−α/2 σ/ n
√

por lo que fija X̄, µ : µ ∈ X̄ ± z1−α/2 σ/ n constituye una región de confianza 1 − α
para µ. En palabras, la región de confianza para µ la constituye todos los µ0 para los cuales
X̄ aceptarı́a la hipótesis H0 : µ = µ0 .
Sea θ un parámetro de la familia de distribuciones de probabilidad. Se tiene θ ∈ Θ
espacio parametral sea X = (X1 , . . . , Xn ) una muestra aleatoria de X ∼ f (x; θ).

Teorema : Suponga que para cada θ0 ∈ Θ, existe una prueba de significancia α para
H0 : θ = θ0 . Sea A(θ0 ) = {X : se acepta H0 : θ = θ0 }. Entonces el conjunto
la hipótesis
C(X) = θ : X ∈ A(θ) constituye una región de confianza 1 − α para θ.

Demostración: Como A es la región de aceptación de la prueba de nivel α, P0 X ∈ A(θ0 ) =
1 − α. Luego,

P0 θ0 ∈ C(X) = P0 X : θ0 ∈ C(X)

= P0 X : X ∈ C(θ)
=1−α
Entonces, la región C(X) es de nivel de confianza 1 − α. En palabras, una región de con-

fianza 1 − α para θ consiste en todos aquellos θ0 para los que X no rechazarı́a H0 con una
significancia α.
Teorema : Suponga que C(X) es ua región de confianza de 1 − α para θ. Esto es, para
todo θ0 , P0 θ0 ∈ C(X) = 1 − α. Entonces, la región de aceptación H0 : θ = θ0 de nivel α
es A(θ0 ) = X : θ0 ∈ C(X) .
Demostración: La prueba es de nivel α puesto que

P0 X ∈ A(θ0 ) = P0 θ0 ∈ C(X) = 1 − α
Esto es, la hipótesis H0 : θ = θ0 no se rechaza con significancia α. Si θ0 está en la región

de confianza 1 − α.
Regresando al ejemplo, el intervalo del 95 % de confianza para µ está dado por (X̄ ±
1.96/5), por lo que si el intervalo incluye µ = 3.0 se acepta la hipótesis nula H0 : µ = 3.0,
con una significancia del 5 %. Si por ejemplo, el promedio observado fuese x̄ = 3.51, éste da
lugar al intervalo del 95 % confianza (3.12, 3.90), que por no contener µ0 = 3.0, se rechazarı́a
la hipótesis H0 con una significancia del 5 %.

7.5. Cociente de verosimilitud generalizado (CVG)

7.5.1. Introducción
Considere el modelo X ∼ N(µ, σ 2 ). Sea θ = (µ, σ 2 ) ∈ Θ = (µ, σ 2 ) : ∞ < µ < ∞, σ > 0 .

Se desea contrastar las hipótesis
H0 : µ = 0, σ > 0 vs. H1 : µ ̸= 0, σ > 0
Sea el espacio nulo Θ0 = (0, σ 2 ) : σ > 0 . Si θ0 = (0, σ 2 ), entonces las hipótesis se pueden

presentar como
H0 : θ ∈ Θ0 vs. H1 : θ ∈ Θ1
con Θ1 = Θ \ Θ0 . Para esto, sea X = (X1 , . . . , Xn ) una muestra aleatoria de X. La función
de verosimilitud

−n/2 −n 1 X 2
L(θ; x) = f (x; θ) = (2π) σ exp − 2 (xi − µ)
2σ
y bajo H0 , L(θ0 ; x) = (2π)−n/2 σ −n exp{− 2σ1 2

P 2
xi }. Pero, como σ no está especificada no
es posible aplicar el lema de Neyman–Pearson al cociente de verosimilitudes.
Suponga sin embargo que en cada caso, numerador y denominador, se tienen “buenas
muestras” viniendo de distribuciones con parámetros en Θ0 y de Θ1 respectivamente. Ésto
ofrecerı́a funciones de verosimilitud “altas”. De hecho, se podrı́an pensar en
supθ∈Θ0 L(θ; X)
supθ1 ∈Θ1 L(θ; X)
como cociente de verosimilitudes que podrı́a tomar valores en todo R+ . Por razones técnicas
se extiende el denominador a todo Θ. Luego, se define el cociente
supθ∈Θ0 L(θ; X) L(θ̂0 ; X)

Λ(X) = =
supθ∈Θ L(θ; X) L(θ̂; X)
Notar que 0 ≤ Λ(X) ≤ 1, para todo X ∈ X .
Regresando al ejemplo, bajo H0 , en Θ0 , ℓ(θ; x) = − n2 log(2π) − n log σ − 1
x2i
P
2σ 2
n 1 X 2
ℓ(θ; x) = − log(2π) − n log σ − 2 xi
2 2σ
∂ℓ n 2 X 2
=− + 3 xi
∂σ σ 2σ
que igualando a cero, se sigue que σ̂02 = n1
P 2
xi . Por lo que
X −n/2 !n/2
ne−1

−n/2 1 2 n
L(θ0 ; x) = (2π) xi exp − =
2π x2i
P
n 2
En el caso general sobre Θ,
∂ℓ
≡0 ⇒ µ̂ = x̄ !n/2
∂µ ne−1
y L(θ̂; x) =
2π (xi − x̄)2
P
∂ℓ 2 1X
≡0 ⇒ σ̂ = (xi − x̄)2
∂σ n
Luego,
!n/2 !n/2
(Xi − X̄)2 (Xi − X̄)2
P P
L(θ̂0 ; X)
Λ(X) = = P 2 =
(Xi − X̄)2 + nX̄ 2
P
L(θ̂; X) Xi

Entonces,
 n/2
1
Λ(X) =  2
 < λ
1+ P nX̄
(Xi −X̄)2
Ahora bien, si H0 : µ = 0, σ > 0 vs. H1 : µ ̸= 0, σ > 0, valores X̄ cercanos a cero apoyarı́an

nX̄ 2
H0 y se observarı́an Λ(X) cercanos a 1. Por otro lado, si H1 : µ ̸= 0, σ > 0, P ̸= 0
(Xi − X̄)2
y la muestra se opone a H0 , con Λ(X) pequeña. Ası́, con una región de rechazo de tamaño
α, Rα = {X : 0 ≤ Λ(X) ≤ cα }. En este ejemplo se tiene
Λ(X) ≤ λ
nX̄ 2
(λ−n/2 − 1) ≤ P
(Xi − X̄)2
r √
n − 1 −n/2 |X̄| n
(λ − 1) ≤ q
n 1 P
(Xi − X̄)2
n−1
√
nX̄
Bajo H0 , el estadı́stico T (X) = q ∼ tn−1
1 P 2
n−1 (X i − X̄)
Finalmente, la región de rechazo de tamaño α, queda
 
 √ 
 n|X̄| 
Rα = X : q > t(1−α/2; n−1)
1 P 2

 n−1 (X i − X̄) 

7.5.2. CVG
Sea X = (X1 , . . . , Xn ) una muestra aleatoria de X ∼ f (x; θ) con θ ∈ Θ = Θ0 ∪ Θ1 .
Considere el contraste de hipótesis
H0 : θ ∈ Θ0 vs. H1 : θ ∈ Θ1
Sea L(θ; x) = f (x; θ), la función de verosimilitud. Se define el cociente de verosimilitud

generalizado (CVG)
sup L(θ; X)
θ∈Θ0 L(θ̂0 ; X)
Λ(X) = =
sup L(θ; X) L(θ̂; X)
θ∈Θ
Notas:
1. Λ(X) es el estadı́stico de prueba.
2. 0 ≤ Λ(X) ≤ 1.
3. La región de rechazo es R = {X : Λ(X) ≤ c0 }.
4. CVG no siempre es la mejor prueba pero en general será una buena prueba.
5. CVG no necesariamente coincide con la derivada del lema de Neyma-Pearson si las

hipótesis son simples.
6. No siempre es fácil encontrar sup L(θ; x).

θ∈Θ
7. No siempre es fácil determinar la distribución nula de Λ(X).

7.5.3. Ejemplo
Tomado de Mood, Graybill, and Boes (1974).
Considere el modelo X ∼ f (x; θ) = θe−θx 1R+ (x), con θ > 0. Se desea contrastar las
hipótesis
H0 : θ ≤ θ0 vs. H1 : θ > θ0
Solución: Se considera el espacio parametral Θ = {θ : θ > 0} y el espacio nulo Θ0 = {θ ≤
θ0 } ⊂ Θ. Sea Xn = (X1 , . . . , Xn ) una muestra aleatoria de tamaño n de X ∼ f . Luego,
P n
L(θ; x) = θn e−θ xi
; ℓ(θ; x) = n log θ − nθx̄; ℓ′ (θ; x) = − nx̄
θ
de donde, el emv θ̂ = 1/X̄. Luego,
i) L(θ̂; x) = (x̄e)−n
(
(x̄e)−n si 1/x̄ ≤ θ0
ii) sup L(θ; x) =
θ∈Θ0 θ0n e−nθ0 x̄ si 1/x̄ > θ0
Entonces, 


 1 si x̄ ≥ 1/θ0

Λ(x) =
θ0n e−nθ0 x̄
si x̄ < 1/θ0


 (x̄e)−n

Por
lo que se rechaza
n H0 si x̄ < 1/θ0 y (θ0 x̄)n e−n(θ0 x̄−1) < λ0 . O bien, rechace H0 si θ0 x̄ < 1
y θ0 x̄/eθ0 x̄−1 < λ0 .
Sea ahora, y = θ0 x̄. Note ahora que

h(y) = y n e−n(y−1) tiene un máximo
en y = 1, como se muestra en la figura λ0
de la derecha.
0 y0 1 y
Entonces, la regla de decisión es: rechazar H0 si y < 1 y h(y) = y n e−(y−1) < λ0 . Equiva-
lentemente,
Pn si y < y0 y y < 1, o bien, si x̄ < 1/θ0 y x̄ < y0 /θ0 . Recuerde, si X ∼ Exp(θ),
1 1 2
i=1 Xi ∼ 2θ Ga(α = 2n/2, β = 2) ≡ 2θ χ2n . Luego, si la prueba es de significancia α,
2
α = P0 (X̄ < y0 /θ0 ), por lo que y0 = χ (α; 2n). Por lo tanto, la región de rechazo para esta
prueba H0 : θ < θ0 vs. H1 : θ > θ0 y de significancia α es,
( )
χ2 (α; 2n)
Rα = Xn : X̄ <
2nθ0
Si por ejemplo, X ∼ Exp(θ) y de desea contrastar H0 : θ ≤ 2.0 v. a. H1 : θ > 2.0. Una

prueba de significancia del 10 % considerando muestras de tamaño n = 20, tendrı́a un valor
2
crı́tico de c0.10 = χ (0.10; 2·20)
2(20)(2) = 29.05
80 = 0.363. Por lo tanto,

R0.10 = X20 : X̄ < 0.363
Luego, en muestras de tamaño 20, promedios de 0.35 llevarı́an a rechazar H0 : θ ≤ 2.0

con una significancia del 10 %, mientras que si x̄ = 0.42 no se rechazarı́a la hipótesis.

2
Los correspondientes valores-p, son el resultado de resolver la ecuación x̄ = χ 2nθ (p;2n)
0
. Por
lo que, el P χ240 ≤ 0.35(2)(20)(2) = 0.077 y P χ240 ≤ 0.42(2)(20)(2) = 0.248, son los

correspondientes valores-p. Esto es, 0.35 (0.077) y 0.42 (0.248), valores menor y mayor que el
valor crı́tico c = 0.363, correspondiente a la significancia de 0.10. La siguiente tabla muestra
distintos valores del estadı́stico de prueba X̄, los valores-p respectivos y las respectivas
decisiones considerando un nivel de significancia α = 0.10.
x̄ 0.29 0.31 0.35 0.363 0.39 0.42
valor-p (0.016) (0.029) (0.077) (0.10) (0.161) (0.248)
Decisión Rechazar H0 Aceptar H0
Note que mientras más chicos los valores-p, mayor serı́a la evidencia asociada en contra de
la hipótesis nula H0 .
Ahora bien, para calcular la potencia de la prueba para distintos valores de θ, recuerde
K(θ) = Pθ (Rα ) = Pθ (X̄ < cα )

Pn 1 2
y que i=1 Xi ∼ 2θ χ2n . Por lo que se tiene que
X X
K(θ) = Pθ Xi ≤ ncα = P 2θ Xi ≤ 2nθcα = P χ22n ≤ 2nθcα
La siguiente tabla muestra la potencia de la prueba para varios valores del parámetro θ. La
figura muestra la función potencia correspondiente.
Función potencia
1.0
0.97
θ K(θ) 0.8
1.0 0.0001 0.68
0.6
1.5 0.0084
K(θ)
2.0 0.1000 0.4

3.0 0.6782
0.2
4.0 0.9680 0.1
5.0 0.9988 0.0
1 2 3 4 5
Finalmente, note una vez más que encontrar la distribución nula de Λ(X) puede ser difı́cil,
sino es que imposible. Pero en ocasiones como en este ejemplo, es posible resolver el caso.
7.5.4. Distribución asintótica del cociente de verosimilitudes generalizado (CVG)

Con el apoyo de Casella and Berger (2002) y Knight (2000).
Teorema (H0 simple) Considere el modelo X ∼ f (x; θ), con θ ∈ Θ, subconjunto abierto
de R. Se desea contrastar las hipótesis H0 : θ = θ0 vs. H1 : θ ̸= θ0 .
Sea Xn = (X1 , . . . , Xn ) una muestra aleatoria de X ∼ f (x; θ). Sea θ̂n = θ̂(Xn ) el
estimador máxima verosimilitud de θ. Suponga que f satisface las condiciones de regularidad
(CR) enunciadas en la sección de estimación. Entonces, bajo H0 ,
D
−2 log Λ(Xn ) −→ χ21
Demostración: Note que la expansión por Taylor de ℓ(θ; x) = log L(θ; x) alrededor de θ̂ es
1
ℓ(θ; x) = ℓ(θ̂; x) + ℓ′ (θ̂; x)(θ − θ̂) + ℓ′′ (θ∗ ; x)(θ − θ̂)2
2
donde θ∗ está entre θ y θ̂. Entonces,
−2 log(Λ(X)) = −2ℓ(θ0 ; X) + 2ℓ(θ̂; X)

′ 1 ′′ ∗ 2
= −2 ℓ(θ̂; X) + ℓ (θ̂; X)(θ0 − θ̂) + ℓ (θ ; X)(θ0 − θ̂) + 2ℓ(θ̂; X)
2
= −ℓ′′ (θ∗ ; X)(θ̂ − θ0 )2 ; pues ℓ′ (θ̂; X) = 0
 
n
1 X
= n(θ̂ − θ0 )2 − ℓ′′ (θ∗ ; Xi )
n
i=1
≈ n(θ̂ − θ0 )2 −Eθ0 [ℓ′′ (θ∗ ; X)] ;

por LGN
= n(θ̂ − θ0 )2 I(θ0 )
 2
√
 n(θ̂ − θ0 ) 
= q 
var(θ̂)
√
D
Y como se mostró ya, √n(θ̂−θ0 ) −→ N(0, 1), se sigue que
var(θ̂)
D
−2 log Λ(Xn ) −→ χ21
Teorema . Considere el modelo X ∼ f (x; θ), con θ = (θ1 , . . . , θk ) ∈ Θ, subconjunto

abierto de Rk . Se desea probar la hipótesis H0 : θ1 = θ10 , . . . , θr = θr0 , con r ≤ k.
Suponga que se satisfacen las condiciones de regularidad (CR). Si θ̂n , el estimador
√ ·
máximo verosimilitud de θ, satisface que n(θ̂n − θ0 ) ∼ Nk 0, I−1 (θ) . Entonces, bajo H0 ,
el estadı́stico del cociente de verosimilitud generalizado, Λ(Xn ) sigue una distribución χ2r .
Esto es,
D
−2 log Λ(Xn ) −→ χ2r
En palabras, r es la diferencia en el número de parámetros libres de cada hipótesis.
Ejemplo : Considere los modelos independientes X ∼ N(µ1 , σ12 ) y Y ∼ N(µ2 , σ22 ). Se desea
contrastar las hipótesis H0 : µ1 = µ2 v. a. H1 : µ1 ̸= µ2 , pero no se conocen las varianzas.
Para efectos del ejemplo, se define el vector de parámetros θ = (µ1 −µ2 , µ2 , σ1 , σ2 ). Considere
entonces el espacio parametral Θ = {θ = (µ1 − µ2 , µ2 , σ2 , σ2 ) : µi ∈ R, σi ∈ R+ , i = 1, 2},
Θ0 = {θ = (0, µ2 , σ1 , σ2 )} ⊂ Θ y Θ1 = Θ \ Θ0 . Luego, las hipótesis pueden plantearse
H0 : θ ∈ Θ0 vs. H1 : θ ∈ Θ1
Solución: Como se discutió anteriormente, desconociendo las varianzas el problema, conocido

como Beherens–Fisher, no tiene una solución al desconocerse la distribución exacta. Una
solución serı́a construir un intervalo de confianza para θ1 , utilizando la aproximación de
Welch o Satterwhite, como se comentó en la sección anterior.
Alternativamente, se puede emplear la prueba del cociente de verosimilitud generali-
zado. Para esto, se consideran las muestras aleatorias X = (X1 , . . . , Xn1 ) de X y Y =
(Y1 , . . . , Yn2 ) de Y . La función de verosimilitud
L(θ; x, y) = f (x; µ1 , σ1 ) · f (y; µ2 , σ2 )

( )
1 X 1 X
= (2π)(n1 +n2 )/2 σ1−n1 σ2−n2 exp − 2 (xi − µ1 )2 − 2 (yj − µ2 )2
2σ1 2σ2

El estadı́stico de prueba es
sup L(θ; X, Y )
θ∈Θ0 L(θ̂0 ; X, Y )
Λ(X, Y ) = =
sup L(θ; X, Y ) L(θ̂; X, Y )
θ∈Θ
Para determinar maximizar L(θ; x, y) en Θ0 se requerirá de un método numérico por la

restricción impuesta por la hipótesis H0 .
De acuerdo a los teoremas presentados anteriormente,
D
−2 log Λ(X, Y ) −→ χ2ν
·
En este caso, ν = 4 − 3 = 1, luego −2 log Λ(X, Y ) ∼ χ21 . Luego, dada las muestras x y y,
se calcula −2 log Λ(x, y) y determina su valor−p de acuerdo a la distribución χ21 y se toma
la decisión sobre H0 .
7.5.5. Prueba Ji-cuadrada para bondad de ajuste

Con el apoyo de Rice (2007).
Sean {ℓi } sujetos que son asignados a una y solo una de k categorı́as C1 , . . . , Ck , ex-
clusivas y exhaustivas, de manera que todo ℓ queda clasificado en una solo una Cj . Sea
pj = P(ℓ ∈ Cj ) ≥ 0, para todo j = 1, . . . , k y por lo que 1 = p1 · · · + pk .
Sea Θ ⊂ Rr el espacio de parámetros tales que pj = pj (θ), para θ ∈ Θ. Sean Θ0 ⊂ Θ el
espacio nulo y Θ1 = Θ \ Θ0 . Se desea contrastar las hipótesis
H0 : θ ∈ Θ0 vs. H1 : θ ∈ Θ1
Para esto, considere n sujetos ℓ’s independientes y sea X = (X1 , . . . , Xk ) con Xj el número
de sujetos que fueron clasificados Cj . Luego, n = X1 + · · · + Xk . X sigue una distribución
multinomial de parámetros n y p1 , . . . , pk . Entonces, la función de verosimilitud de p es

n
L(p; x) = f (x, p) = px1 1 · · · pxk k
x1 · · · xk
Se sigue del principio de invarianza de los estimadores de máxima verosimilitud que
sup L(p; x) = L(p(θ̂); x)
p∈H0
donde θ̂ es el emv de θ ∈ Θ0 . Por otro lado, recuerde que sin restricciones sobre θ, los emv
xj
de las pj ’s es p̂j = . Por lo que el cociente de verosimilitud generalizado (CVG) es
n

n
p1 (θ̂)x1 · · · pk (θ̂)xk k
!xj
x1 · · · xk Y pj (θ̂)
Λ(X) = =
n p̂j
p̂x1 1 · · · p̂xk j=1
x1 · · · xk
y puesto que xj = np̂k , se tiene que
k
!np̂j
X pj (θ̂)
−2 log Λ(X) = −2 log
p̂j
j=1
!
X np̂j (θ̂)
= −2 np̂j log
np̂j
k
!
X Oj
=2 Oj log (15)
Ej
j=1

donde Oj = np̂j y Ej = npj (θ̂).

Ahora, puesto que 1 = p1 + · · · + pk , se tienen k − 1 parámetros libres. Si bajo H0
las pj (θ̂) dependen del espacio nulo Θ0 , de dimensión m, esto es, dim(Θ0 ) = m, entonces,
−2 log Λ(X) ∼ χ2k−1−m .
Por otro lado, existe el estadı́stico X2 de Pearson (Karl), con
2
k
X xj − npj (θ̂) D
X2 = −→ χ2k−1−m (16)
j=1 npj (θ̂)
bajo H0 . Entonces, bajo la hipótesis H0 , el cociente de verosimilitudes generalizado y el

estadı́stico X2 de Pearson son asintóticamente equivalentes.
En efecto, si H0 es verdadero y n es “grande”, p̂j ≈ pj (θ̂) y expandiendo por Taylor
−2 log Λ(X) al rededor de pj (θ̂),
X X (p̂j − pj (θ̂))2
−2 log Λ(X) = 2n (p̂j − pj (θ̂)) + n + ···
pj (θ̂)
2
k
X xj − npj (θ̂)
≈
i=1 npj (θ̂)
pues la primera suma es aproximadamente cero, xj = np̂j e ignorando términos de mayor

grado.
En la práctica es más común el uso del estadı́stico X2 de Pearson pues su fácil de calcular
y pocas veces requiere de computadora.
Ejemplo : Modelo de equilibrio de Hardy-Weinberg

Recupere el ejemplo de la Ley Hardy-Weinberg visto en la sección de estimadores. De acuer-
do al modelo, si las frecuencias de los genotipos están en equilibrio, los genotipos AA, Aa,
y aa, ocurren con una frecuencia mostrada en la tabla
g AA Aa aa
f (1 − θ) 2 2θ(1 − θ) θ2
En la siguiente tabla se muestra la distribución en el tipo de sangre de 1029 personas,
probabilidades estimadas, y la cantidad esperada de acuerdo al modelo
genotipo M MN N Total
Oj 342 500 187 1029
pj (θ̂) 0.331 0.489 0.180 1.0
Ej 340.6 502.8 185.6 1029
Como fue ya discutido, a partir de la muestra, el emv θ̂ = 0.4247. Con ella, se estiman
las probabilidades pj (θ̂) y los correspondientes observaciones esperadas npj (θ̂). Por ejemplo,
para el genoma AA, p1 (θ̂) = (1 − 0.4247)2 = 0.331 y E1 = 1029(0.331) = 340.6.
Se considera la hipótesis nula H0 de que el modelo multinomial propuesto es adecuado,
mientras que la alternativa H1 es que las probabilidades siguen alguna otra relación. Se
desean contrastar las hipótesis con una prueba de significancia α. El estadı́stico X2 de
Pearson sigue aproximadamente una distribución χ2 con 1 (= 3 categorı́as -1 -estimación
de θ) grado de libertad. Luego, la correspondiente región de rechazo será Rα = {X : X2 >
χ2 (1 − α; 1)}. Que si la significancia es α = 0.05, entonces R0.05 = {X2 ≥ 3.841}. Ahora
bien, de (16),
(342 − 340.6)2 (500 − 502.8)2 (187 − 185.6)2

X2 = + + = 0.0325 (0.857)
340.6 502.8 185.6

Por lo que no se rechaza la hipótesis H0 con una significancia del 5 %. Pero note, el estadı́stico
observado 0.032 es bastante menor que el valor crı́tico 3.84. Esto se ve reflejado en su
correspondiente valor-p de 0.857.
Por otro lado, si se calcula el estadı́stico de prueba (15) derivado del CVG
" #
342
−2 log Λ(X) = −2 342 log + · · · = 0.0325 (0.857)
340.6
Finalmente, note que el cociente de verosimilitudes es Λ(X) = 0.9839, apoyando claramente
la hipótesis nula.
Ejemplo : Recupere el ejemplo de ajuste de datos Poisson visto al principio de la sección

de Estimadores. Ahı́ se presenta otro ejemplo de la prueba χ2 de bondad de ajuste y aunque
no es nombrado, el estadı́stico X 2 de Pearson y el valor-p.
7.6. Bondad de Ajuste

7.6.1. Gráficas de Probabilidad
Con el apoyo de Rice (2007).
Las gráficas de probabilidades son usadas para pruebas visuales de bondad del ajuste
por las distribuciones de probabilidad. Refiérase nuevamente al ejemplo de los datos Poisson
de emisión de partı́culas del principio de la sección de Estimadores. ¿Se pueden conside-
rar los datos generados por una distribución Poisson? O bien, suponga que los siguientes
datos (simulados) representan una muestra del consumo mensual de agua de 50 alumnos.
¿Qué distribución siguen éstos datos? Suponer que la distribución normal aproxima razo-
nablemente a las observaciones, ¿se cumple? Este es el problema de qué tan bien el modelo
(distribución) ajusta los datos.
2.55 2.20 2.62 1.71 3.63 2.33 4.74 3.73 3.70 2.98 3.46 2.70
2.34 3.23 3.42 2.17 3.26 4.70 3.04 2.12 2.53 3.15 3.20 1.98
3.07 3.69 3.69 3.77 3.72 3.22 3.30 3.05 4.10 3.82 3.50 3.45
3.37 3.90 3.82 3.13 1.93 2.20 4.36 3.52 4.27 4.51 3.81 6.02
3.07 2.81
Suponga X1 , . . . , Xn una muestra aleatoria de una distribución uniforme [0, 1]. Sean Yj =
j
X(j) , los correspondiente estadı́sticos de orden. Entonces, se sabe26 que E[X(j) ] = , lo
n+1
1 n
que sugiere graficar la muestra ordenada {X(i) } contra los valores esperados n+1 , · · · , n+1 .
La gráfica seguirá mas o menos una lı́nea recta como lo muestra el panel de la izquierda de
la figura 25. En el panel de la derecha se muestra la gráfica de la muestra ordenada de una
distribución triangular (suma de uniformes) contra los cuantiles de la distribución uniforme.
El evidente la separación de los puntos a la lı́nea recta, sugiriendo que la distribución
uniforme no ajusta razonablemente los datos triangulares.
Ahora bien, el teorema de transformación integral27 afirma que si la variable aleatoria
X tiene una función de distribución F , continua estrictamente creciente, entonces F (X) ∼
j j
Unif[0, 1] y se podrı́a graficar Yj = F (X(j) ) contra n+1 , o bien, X(j) vs. F −1 ( n+1 ). El panel
−1 j
izquierdo de la figura 26 muestra la gráfica de X(j) contra F ( n+1 ) de una distribución
gamma. Nótese nuevamente que los puntos siguen una lı́nea recta, que no en el panel
de la derecha, puntos simulados también de una distribución gamma pero de distintos
j
parámetros que la de la izquierda. Ambas gráficas tiene el mismo eje horizontal, F −1 ( n+1 ),
correspondiente a la distribución de la izquierda.
26
Cálculo de Probabilidades II.
27
Cálculo de Probabilidades II.

uniforme triangular
1.0
0.8
0.8
0.6
0.6
x(i)
x(i)
0.4
0.4
0.2
0.2
0.0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
cuantiles uniforme cuantiles uniforme
Figura 25: Datos simulados de: a) distribución uniforme; b) distribución triágular. Eje
horizontal en cuantiles uniformes [0, 1].
gamma gamma
14
20
10
15
8
x(i)
x(i)
10
6
4
5
2
0
0 2 4 6 8 10 12 0 2 4 6 8 10 12
cuantiles gamma cuantiles gamma
Figura 26: Datos simulados de: a) distribución gamma; b) distribución gamma distintos
parámetros. Eje horizontal en cuantiles de la distribución con los parámetros del panel
izquierdo.

En algunos casos, la distribución F (x) = G x−µ σ , con µ y σ llamados parámetros de
localización
y escala, como es el caso de la distribución normal. Si X ∼ N(µ, σ), FX =
x−µ
Φ σ , donde Φ es la función de distribución de la normal estándar. Luego, se puede
X(j) − µ

−1 j −1 j
graficar vs. G , o bien, X(j) vs. µ + σG . El panel izquierdo
σ n+1 n+1
de la gráfica 27 muestra datos normales (N(−3, 22 )) contra los correspondientes cuantiles. El
panel de la derecha muestra los mismos datos graficados con la función qqnorm del lenguaje
R. Note que la escala del eje horizontal corresponde a los cuantiles del la distribución
normal estándar. Si los puntos siguen más o menos una lı́nea recta se pueden suponer que
la distribución normal describe razonablemente los datos.
La figura 28 muestra la gráfica cuantil-cuantil normal de los datos simulados del consumo
mensual de agua, del principio de esta sección. Los puntos siguen más o menos una lı́nea
recta (exhibida) por lo que se podrı́a suponer que siguen una distribución normal. Por otro
lado, al mostrar los cuantiles de la distribución normal estándar en el eje horizontal, de la
gráfica se puede estimar la media y la desviación estándar de la distribución origen de los

normal Normal Q−Q Plot
2
Sample Quantiles
0
0
−2
−2
x(i)
−4
−4
−6
−6
−8 −6 −4 −2 0 2 −2 −1 0 1 2
cuantiles normal Theoretical Quantiles
Figura 27: Datos simulados de distribución normal. Panel izquierdo es construido con los
cuantiles correspondientes. Panel derecho obtenido con la función qqnorm de R.
datos.
Normal Q−Q Plot

4.5
4.0
4.0
Sample Quantiles
3.5
3.15
3.0
2.5
2.3
2.0
−2 −1 0 1 2
Theoretical Quantiles
Figura 28: Gráfica cuantil-cuantil normal de los datos simulados del consumo mensual de
agua.
A saber, localice las abscisas -1, 0 y 1 sobre la recta que ajusta los datos y proyéctelos
sobre la escala vertical. Los valores son aproximadamente 2.3, 3.15 y 4.0. La media de la
normal estándar es 0, la media estimada de la distribución será µ̃ = 3.15. Entre ±1 se tiene
2 veces la desviación estándar de la distribución estándar, luego σ̃ = (4.0 − 2.3)/2 = 0.85.
7.6.2. Función de distribución empı́rica

Sea X = (X1 , . . . , Xn ) una muestra aleatoria de X ∼ F y sean Y = (Y1 , . . . , Yn ) los
correspondientes estadı́sticos de orden, Yj = X(j) , para j = 1, . . . , n.
Definición : Se define la función de distribución empı́rica (f.d.e.; e.c.d.f. por empirical

cumulative distribution function) por
n n
1 1X 1X
Fn (x) = máx{i : Yi ≤ x} = 1{Xi ≤x} (x) = 1(−∞,x) (Xi )
n n n
i=1 i=1
Note que:
Para x ∈ R fijo, Fn (x) es un estadı́stico (función de la muestra que no depende de

parámetros desconocidos).
Fn se distribuye como el promedio de n ensayos Bernoulli (Binomial/n).
Teorema : Fn (x) denota la función de distribución empı́rica de una muestra aleatoria de

Bernoulli’s tamaño n, entonces,

k n k n−k
P Fn (x) = = F (x) 1 − F (x) , k = 0, . . . , n
n k
P
Demostración: Sean Zi = 1(−∞,x] (Xi ). Entonces, Zi ∼ Ber(F (x)), por lo que Zi ∼
Bin(n, F (x)) y Fn (x) = n1
P
Zi .
1 P
Corolario : X = (X1 , . . . , Xn ) una muestra aleatoria de X ∼ F . Fn (x) = n 1(−∞,x] (Xi ).
Entonces,
i) E[Fn (x)] = F (x)
ii) var(Fn (X)) = n1 F (x) 1 − F (x)

De hecho, puesto Fn es una media muestral. se sigue del Teorema Central de Lı́mite que

· 1
Fn (x) ∼ N F (x), F (x)(1 − F (x))
n
Además, se sigue del corolario anterior que para x fijo, Fn (x) es un estimador insesgado y
consistente (ecm) de F (x).
Las propiedades anteriores son para cualquier función de distribución F .
Para la estimación de F y no solo de F (x), se ha de ver la distancia de Fn (x) a F (x)
para todo x ∈ R.
Teorema de Glivenko-Cantelli .
!
P sup Fn (x) − F (x) −→ 0 =1
−∞<x<∞
La convergencia casi segura (cp1) de Fn (x) a F (x) es uniforme en x.

Sea Dn = supx∈R Fn (x) − F (x) . Entonces, Dn es aleatorio y mide la distancia de Fn a
F y el Teorema de Glivenko-Cantelli indica que P(Dn → 0) = 1. En particular, la función
de probabilidad acumulada de Dn , FDn tiene toda su masa en cero. ¿Qué pasa con F√nDn ?
El Teorema de Glivenko-Cantelli dice que la convergencia casi segura de Fn (x) a F (x)
es uniforme en x. Si x < y, ¿cómo es la estimación de F (y) − F (x) = P(x < X ≤ y)?
Proposición :
1
cov(Fn (x), Fn (y)) = F (x)[1 − F (y)], x≤y
n
Demostración: Sea x < y, luego

 
1 X 1 X
cov Fn (x), Fn (y) = cov  1(∞,x) (Xi ), 1(−∞,y) (Xj )
n n
i j
2 X X
1
= cov 1(−∞,x) (Xi ), 1(−∞,x) (Xj )
n
i j
2 X
1
= cov 1(−∞,x) (Xi ), 1(−∞,y) (Xj )
n
i
1
= cov 1(−∞,x) (X1 ), 1(−∞,y) (X1 )
n
1h i
= E[1(−∞,x) (X)1(−∞,y) (X)] − E[1(−∞,x) (X)] · E[1(−∞,y) (X)]
n
1
= Fn (x) − F (x)F (y)
n
1
= F (x)[1 − F (y)]
n
Corolario :

var(Fn (y) − Fn (x)) = var(Fn (y)) + var(Fn (x)) − 2cov Fn (y), Fn (x)
1
= [F (y) − F (x)][1 − F (y) + F (x)]
n

Corolario : Fn (y) − Fn (x) es un estimador consistente cuadrático medio de (F (y) −
F (x)).
1
Proposición : Si B ∈ B(R), entonces, Pn (B) = n 1B (Xi ) es un estimador insesgado y
consistente (cuadrático medio) de P(X ∈ B).
Demostración: Note que
X
1 1
var(Pn (X ∈ B)) = var 1B (Xi ) = P(X ∈ B)[1 − P(X ∈ B)]
n n
7.6.3. Prueba Kolmogorov-Smirnov

Con base en Mood, Graybill, and Boes (1974).
Recordar que Fn (x) sigue se distribuye asintóticamente normal.
√ D
n Fn (x) − F (x) −→ N(0, F (x)(1 − F (x)))
√
El siguiente teorema establece la distribución lı́mite de nDn definido anteriormente.
Teorema : Sea Xn = (X1 , . . . , Xn ) una muestra aleatoria de X ∼ F , continua. Sea

Dn = D(Xn ) = sup |Fn (x) − F (x)|
x∈R
√
Entonces, la distribución asintótica de nDn está dada por
H(x) := lı́m F√nDn (x)
n→∞
√
= lı́m P( nDn ≤ x)
x→∞
 
∞
2 2
X
= 1 − 2 (−1)j−1 e2j x  1R+ (x)
j=1

Notas:
√
1. La distribución no depende de F , es decir, la distribución de nDn es libre de dis-
tribución, (“no paramétrica”). Lo que hace a Dn muy práctica para las pruebas de
bondad de ajuste.
2. EL resultado se debe a Andrey Kolmogorov (1933). Tablas de la distribución H se
deben a Nicolai Smirnov (1948).
3. Su uso para pruebas de bondad de ajuste:
H0 : F = F0 vs. H1 : F ̸= F0
√
Bajo H0 , sea Kn = K(Xn ) = supx∈R |Fn (x) − F (x)| ∼ H, la distribución de nDn . Si
H0 es falsa, Fn tendera a la verdadera F y no a F0 y por lo tanto supx∈R |F n(x)−F0 (x)|
tenderá a ser grande. Luego, una regla de decisión razonable (región de rechazo de
tamaño α) serı́a
( )
Rα = Xn : Kn := sup |Fn (x) − F (x)| > cα
x∈R
con el valor crı́tico cα = H(1 − α; n), disponible en tablas.

La prueba anterior se conoce como la prueba de bondad de ajuste de Kolmogorov-
Smirnov (KS). KS valora que “tan bien” un conjunto de datos es ajustado por la distri-
bución F0 . El ajuste “se mide” mediante el estadı́stico de Kolmogorov
Dn = D(X) = sup |Fn (x) − F (x)|
x∈R
El teorema indica la distribución asintótica de Dn . Hay tablas de probabilidad acumulada
de Hn para distintos tamaños de muestra n28 .
Notas:
1. La distribución de Hn supone F0 conocida, luego H0 es simple. Si hay necesidad de
estimar algún parámetro la distribución ya no es válida.
2. La adaptación de KS a F0 ≡ N(µ, σ 2 ) con θ = (µ, σ) desconocida se debe a H. Lilliefors
(1967).
3. La figura 29 muestra un ejemplo de una distribución nula, la empı́rica y dónde se da
la máxima Dn que define el estadı́stico Kn observado.
Ejemplo :
El siguiente arreglo presenta 40 observaciones que se dice representa una muestra alea-
toria de una distribución uniforme en [0, 1].
0.178 0.550 0.797 0.576 0.255 0.618 0.517 0.598 0.556 0.599
0.621 0.518 0.419 0.292 0.479 0.609 0.631 0.734 0.107 0.792
0.487 0.401 0.619 0.510 0.506 0.462 0.651 0.542 0.205 0.534
0.287 0.503 0.257 0.301 0.085 0.207 0.667 0.582 0.252 0.837
La gráfica 30 ilustra de la muestra ordenada contra los cuantiles teóricos (lı́nea recta).
La máxima distancia de los datos a la recta es 0.233, correspondiente a la observación 36.
Luego, Kn = máx1≤k≤40 {|x(k) − k/n|} = |0.667 − 0.90| = 0.233.
La prueba de hipótesis con significancia α tiene como región de rechazo Rα = {X :
Kn (X) > c(α, n)}. Luego, para α = 0.05 y n = 40, c = .165 menor que 0.23, por lo que se
rechaza H0 con una significancia del 5 %.
28
? (?).

F Kn
0
x(1) x(n)
Figura 29: Funciones de distribución, teórica (continua) y empı́rica (escalonada). Se muestra

el estadı́stico Kn observado.
distribución uniforme
1.0 0.8
Kn = 0.233
muestra ordenada
0.4 0.6
0.2
0.0
0.0 0.2 0.4 0.6 0.8 1.0

cuantiles teóricos
Figura 30: Funciones de distribución, teórica (continua) y empı́rica (escalonada). Se muestra

el estadı́stico Kn observado.
7.7. Ejercicios
Textos de apoyo.
Bickel and Doksum (1977); Casella and Berger (2002); Dudewicz and Mishra (1988);
Knight (2000); Mood, Graybill, and Boes (1974); Rice (2007); Rincón (2019); Wackerly,
Mendenhall III, and Scheaffer (2008).

Referencias
Barrios, E. (2024a). Apuntes para el curso de Cálculo de Probabilidades I. https://
gente.itam.mx/ebarrios/docs/apuntes_CP1.pdf. (3 de enero de 2024).
Barrios, E. (2024b). Apuntes para el curso de Cálculo de Probabilidades II. https://
gente.itam.mx/ebarrios/docs/apuntes_CP2.pdf. (3 de enero de 2024).
Bastian, H. (2013). Statistical Significance and Its Part in Scien-
ce Downfalls. https://absolutelymaybe.plos.org/2013/11/11/
statistical-significance-and-its-part-in-science-downfalls. (Consul-
tado: 11/07/2022).
Bickel, P. and K. Doksum (1977). Mathematical Statistics. Englewood Cliffs, NJ: Prentice
Hall.
Blitzstein, J. K. and J. Hwang (2014). Intorduction to Probability. Boca Raton, FL: CRC
Press.
Casella, G. and R. L. Berger (2002). Statistical Inference (2nd ed.). Pacific Gove, CA:
Duxbury.
Chihara, L. and T. Hesterberg (2019). Mathematical Statistics with R (2 ed.). Hoboken,
NJ: Wiley.
Cox, D. R. (2006). Principles of Statistical Inference. Cambridge: Cambridge University
Press.
Dudewicz, E. J. and S. N. Mishra (1988). Modern Mathematical Statistics. New York,
N.Y.: Wiley.
Garthwaite, P., I. Jolliffe, and B. Jones (2002). Statistical Inference. Oxford, UK: Oxford
University Press.
Hoel, P. G., S. C. Port, and C. J. Stone (1971). Introduction to Probability Theory. Boston:
Houghton Miffling Company.
Hogg, R. V. and A. T. Craig (1978). Introduction to Mathematical Statistics (4 ed.). New
York: Macmillan Publishing Co., Inc.
Knight, K. (2000). Mathematical Statistics. Boca Raton, Florida: Chapman & Hall/CRC.
Mood, A. M., F. A. Graybill, and D. C. Boes (1974). Introduction to the Theory of
Statistics (3rd ed.). Singapore: McGraw-Hill.
Rice, J. S. (2007). Mathematical Statistics and Data Analysis (3rd ed.). Belmont, Cali-
fornia: Brooks/Cole: Cengage Learning.
Rincón, L. (2019). Una introducción a la estadı́stica inferencial. CDMX: Universidad
Nacional Autónoma de México.
Roussas, G. G. (1997). A Course in Mathematical Statistics (2nd ed.). San Diego, CA.:
Academic Press.
Stigler, S. (2016). The Seven Pillars of Statistical Wisdom. Cambridge, MA.: Harvard
University Press.
Stigler, S. (2017). Los siete pilares de la sabidurı́a estadı́stica. CDMX, México: Libros
Grano de Sal. AME.
Tukey, J. (2020). Exploratory Data Analysis (1 ed.). Hoboken, N.J.: Pearson Education.
Wackerly, D. D., W. Mendenhall III, and R. L. Scheaffer (2008). Mathematical Statistics
with Applications (7 ed.). Australia: Thomson.

Apuntes EstMat

Cargado por

Copyright:

Formatos disponibles

Apuntes EstMat

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Apuntes EstMat

Cargado por

Copyright:

Formatos disponibles

Apuntes para el curso de

2. Elementos de Cálculo de Probabilidades I y II 10

5.10. Estimadores insesgados uniformes de varianza mı́nima . . . . . . . . . . . . 64

6. Intervalos y Regiones de Confianza 68

E. Barrios Estadı́stica Matemática versión 0.34

Ciudad de México, 28 de julio de 2022

E. Barrios Estadı́stica Matemática versión 0.34

i. Agregación. El valor de la reducción dirigida o la compresión de los datos.

E. Barrios Estadı́stica Matemática versión 0.34

Figura 1: Estadı́stica descriptiva

En el libro de Chihara and Hesterberg (2019) se señala la liga https://www.bts.gov/

1.1. Deducción e Inferencia

Construcción del conocimiento (entre otras).

Deducción. Pasar de lo general a lo particular. por ejemplo, la deducción lógica

Ejemplo : A partir de principios (axiomas) concluir para casos particulares. Si

E. Barrios Estadı́stica Matemática versión 0.34

medida PA definida por

que es una medida de probabilidad.

Inferencia. Pasar de lo particular a lo general. A partir de una muestra se pretende

Figura 3: Inferencia estadı́stica

Principios de la inferencia estadı́stica2

E. Barrios Estadı́stica Matemática versión 0.34

Figura 4: Modelación estadı́stica. El modelo es representado por la variable aleatoria X y

E. Barrios Estadı́stica Matemática versión 0.34

Si (Ω, S, P) representa un espacio de probabilidad (EP) donde está definida la variable

X(ω) = x se conoce com una realización de la v. a. X. En este caso, si Xn = (X1 , . . . , Xn )

Definición : Se dice que S = S(X) es un estadı́stico si es función de la muestra (Xn ) y

Ejemplo : Dada la muestra Xn = (X1 , . . . , Xn ), el promedio X̄ = n1 ni=1 Xi , X̃ =

Ejemplo : Considere la población de estudiantes y más en particular en el peso W de los

Entonces, E[W̄n ] = µ y var(W̄n ) = σ 2 /n. Luego, serı́a razonable estimar el parámetro µ

E. Barrios Estadı́stica Matemática versión 0.34

serı́a el estadı́stico mediana, W̃n = mediana{W1 , . . . , Wn } y w̃n = mediana{w1 , . . . , wn }

Los ejemplos anteriores presentan el problema de estimación de parámetros, lo que

distribuciones muestrales; métodos de estimación; propiedades de los estimadores;

Ejemplo : ¿Quienes sacan mejor calificación en los cursos de Cálculo de Probabilidades,

E. Barrios Estadı́stica Matemática versión 0.34

2. Elementos de Cálculo de Probabilidades I y II

Figura 5: Experimento aleatorio E arroja salidas impredecibles ω. El espacio muestral Ω es

Experimento aleatorio E, del que no es posible adelantar la salida.

Espacio muestral Ω. Conjunto de posibles salidas del ω del experimento aleatorio.

Familia de eventos S. σ-álgebra de subconjuntos de Ω, tales que:

Espacio medible (Ω, S).

Conjuntos borelianos de R, B(R). σ-álgebra de subconjuntos de R generada por

Medida de probabilidad sobre el espacio medible (Ω, S), es una función P : S → R,

K1 : P(A) ≥ 0, para todo A ∈ S.

Las propiedades K1 , K2 , K3 anteriores se dicen los axiomas de probabilidad o de

A partir de los axiomas se derivan una serie de propiedades como:

E. Barrios Estadı́stica Matemática versión 0.34

PA (B) = P(B|A) se dice probabilidad condicional de B dado A y es una medida

Regla de la multiplicación. P(A ∩ B) = P(A|B)P(B).

A y B se dicen eventos independientes si P(A ∩ B) = P(A)P(B).

Sean A1 , A2 , · · · ∈ S. {Ai }, se dice una partición de Ω si: i) Ai ∩Aj = ∅; ii) ∪i Ai = Ω.

Teorema de Probabilidad Total. Sea {Ai } una partición de Ω. Entonces, para

2.2. Variables aleatorias

Sea X una v. a. definida en (Ω, S, P). Se define su función de probabilidad acu-

Sea X v. a. con función de distribución F . Entonces, F satisface:

 0 ≤ F (t) ≤ 1, para todo t ∈ R.

R x f. p. a. F . Si existe una función h no negativa tal que para todo x ∈ R,

E. Barrios Estadı́stica Matemática versión 0.34

0 ≤ F (t) ≤ 1, para todo t ∈ R.

F (x) = F1 (x1 ) · · · Fn (xn ).

E[Y ] = E[E[Y |X]]

F (x) = F1 (x1 ) · · · Fn (xn ).

Sea X v. a. continua con función de distribución FX . Entonces