Apuntes EstMat

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 110

Apuntes para el curso de

Estadı́stica Matemática
Ernesto Barrios Zamudio

3 de enero de 2024
Versión 0.34

Índice
Prefacio 3

1. Introducción 4
1.1. Deducción e Inferencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2. Elementos de Cálculo de Probabilidades I y II 10


2.1. Espacios de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2. Variables aleatorias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.3. Momentos de una variable aleatoria . . . . . . . . . . . . . . . . . . . . . . 12
2.4. Desigualdades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.5. Vectores aleatorios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.6. Transformaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.7. Estadı́sticos de orden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.8. Método Delta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.9. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

3. Distribuciones Muestrales 21
3.1. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

4. Resultados Lı́mite 27
4.1. Modos de convergencia de variables aleatorias . . . . . . . . . . . . . . . . . 27
4.2. Otros resultados lı́mite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
4.3. Ley de los grandes números . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
4.4. Teorema central del lı́mite . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4.5. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

5. Estimadores 35
5.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
5.2. Principios de estimación puntual . . . . . . . . . . . . . . . . . . . . . . . . 37
5.3. Estimación de parámetros . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
5.4. El método de momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
5.5. El método de máxima verosimilitud . . . . . . . . . . . . . . . . . . . . . . 44
5.6. Principio de Invarianza de EMV . . . . . . . . . . . . . . . . . . . . . . . . 51
5.7. Teorı́a de grandes muestras para EMV . . . . . . . . . . . . . . . . . . . . . 51
5.8. Cota inferior de Cramér-Rao . . . . . . . . . . . . . . . . . . . . . . . . . . 56
5.9. Estadı́sticos suficientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

1
Apuntes para Estadı́stica Matemática 2

5.10. Estimadores insesgados uniformes de varianza mı́nima . . . . . . . . . . . . 64


5.11. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

6. Intervalos y Regiones de Confianza 68


6.1. Intervalos de confianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
6.2. Cantidad pivotal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
6.3. Muestreo de una población normal . . . . . . . . . . . . . . . . . . . . . . . 70
6.3.1. Intervalo de confianza para la media conocida la varianza . . . . . . 70
6.3.2. Intervalo de confianza para la media desconocida la varianza . . . . 71
6.3.3. Intervalo de confianza para la varianza . . . . . . . . . . . . . . . . . 71
6.4. Comparación de poblaciones normales por intervalos de confianza . . . . . . 72
6.4.1. Comparación de medias, varianzas conocidas. . . . . . . . . . . . . . 72
6.4.2. Comparación de medias, varianzas iguales desconocidas. . . . . . . . 72
6.4.3. Comparación de medias con varianzas desconocidas . . . . . . . . . 73
6.4.4. Comparación de varianzas. . . . . . . . . . . . . . . . . . . . . . . . 74
6.4.5. Observaciones pareadas. . . . . . . . . . . . . . . . . . . . . . . . . . 74
6.5. Poblaciones no normales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
6.5.1. Intervalos de confianza para proporciones. . . . . . . . . . . . . . . . 75
6.5.2. Intervalos de confianza para la media . . . . . . . . . . . . . . . . . . 75
6.5.3. Intervalos de confianza por medio de EMV . . . . . . . . . . . . . . 76
6.6. Regiones de confianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
6.6.1. Población normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
6.6.2. Intervalos de Bonferroni . . . . . . . . . . . . . . . . . . . . . . . . . 77
6.7. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

7. Contraste de Hipótesis 79
7.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
7.2. Definiciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
7.3. Lema de Neyman–Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
7.4. Hipótesis compuestas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
7.4.1. Pruebas uniformemente más potentes . . . . . . . . . . . . . . . . . 93
7.4.2. Pruebas dos colas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
7.4.3. Pruebas de hipótesis e intervalos de confianza . . . . . . . . . . . . . 94
7.5. Cociente de verosimilitud generalizado (CVG) . . . . . . . . . . . . . . . . . 96
7.5.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
7.5.2. CVG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
7.5.3. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
7.5.4. Distribución asintótica del cociente de verosimilitudes generalizado
(CVG) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
7.5.5. Prueba Ji-cuadrada para bondad de ajuste . . . . . . . . . . . . . . 101
7.6. Bondad de Ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
7.6.1. Gráficas de Probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . 103
7.6.2. Función de distribución empı́rica . . . . . . . . . . . . . . . . . . . . 105
7.6.3. Prueba Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . . . . 107
7.7. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109

Referencias 110

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 3

Prefacio
Las condiciones en que continuamos este año 2021 ha motivado el trabajo. La imposibi-
lidad de compartir mis notas personales por su desorden me llevó a hacer manuscritos con
la mayorı́a del material del temario de Cálculo de Probabilidades I. En paralelo, comencé
a pasar las notas a una presentación más formal usando LATEX. La mayorı́a de las gráficas
están hechas con R y algunos de los dibujos con LATEX mismo o Mayura. Este documento
es el resultado.
Estas apuntes son precisamente eso, unos apuntes o notas para apoyar el curso Estadı́sti-
ca Matemática que ofrezco anualmente en ITAM.
Las notas de apoyo para el curso de Cálculo de Probabilidades I y II las encuentra en
Barrios (2024a) y Barrios (2024b).
Durante el curso es mi responsabilidad motivar y ligar los distintos temas y en este
sentido las notas son de apoyo al desarrollo teórico y técnico de los mismos. No se pretende
que los temas sean autocontenidos ni son una versión muy preliminar de algo más elaborado
y formal. No es material para ser referenciado.

Cualquier error que identifique, comentario y/o sugerencia serán bienvenido. Dirı́jalo a Er-
nesto Barrios <ebarrios at itam.mx>.

Ciudad de México, 28 de julio de 2022

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 4

1. Introducción
¿Qué es la estadı́stica?1
Esta pregunta se planteó en fecha tan temprana como 1898 –refiriéndose a la
Royal Statistical Society– y desde entonces se ha vuelto a plantear muchas veces.
La persistencia de la pregunta y la variedad de respuestas que se le han dado a
lo largo de los años son por sı́ mismas un fenómeno notable.Tomadas en conjun-
to, indican que la persistente perplejidad se debe a que la estadı́stica no es una
materia única. La estadı́stica ha cambiado radicalmente desde sus primeros dı́as
hasta la actualidad, yendo de ser una profesión que reivindicaba una objetividad
tan extrema que los estadı́sticos sólo reunirı́an datos –sin analizarlos–, hasta ser
una profesión que busca asociarles con los cientı́ficos en todas las etapas de la
investigación, desde la planeación hasta el análisis. Igualmente, la estadı́stica
presenta diferentes rostros de las diferentes ciencias: en algunas aplicaciones,
aceptamos los modelos cientı́ficos como si provinieran de la teorı́a matemáti-
ca; en otras, construimos un modelo que pueda adquirir luego un estatus tan
sólido como cualquier construcción newtoniana. En algunas situaciones somos
planificadores activos y analistas pasivos; en otras, somos lo opuesto. Con tantas
caras, y con las consiguientes dificultades para mantener el equilibrio y evitar
tropiezos, no debe sorprender que la pregunta sobre qué es la estadı́stica haya
surgido una y otra vez, siempre que se enfrenta un nuevo reto, sean ls estadı́sti-
cas económicas de la década de 1830, sean las cuestiones biológicas de la de los
1930 o las preguntas imprecisamente planteadas sobre big data en los tiempos
que corren.
Dada la gran variedad de preguntas, aproximaciones e interpretaciones estadı́sti-
cas, ¿acaso no existe un núcleo duro de la ciencia de la estadı́stica? Si nos de-
dicamos de manera central a trabajar en tantas ciencias diferentes, desde el
estudio de ls polı́ticas públicas hasta la validación del descubrimiento del bosón
de Higgs, y si a veces se nos considera como un simple personal técnico, ¿real-
mente podemos asumirnos, en un sentido razonable, como practicantes de una
disciplina unificada, incluso una ciencia por mérito propio? . . . Intentaré formu-
lar siete principios, siete pilares que en el pasado han sostenido nuestra disciplina
de diferentes maneras y que prometen hacerlo también en el futuro. Cada uno
de ellos fue revolucionario cuando se presentó, y que cada uno se mantiene como
un avance conceptual importante y profundo.

i. Agregación. El valor de la reducción dirigida o la compresión de los datos.


ii. Medición de la Información. El decreciente valor de un creciente número
de datos.
iii. Verosimilitud. Cómo poner una varita de medir probabilı́stica a lo que
hacemos.
iv. Intercomparación. Cómo usar la variación interna en los datos para ayudar
en el punto anterior.
v. Regresión. Hacer preguntas desde distintas perspectivas puede conducir a
respuestas reveladoramente diferentes.
vi. Diseño. El papel esencial de la planeación de las observaciones.
vii. Residuos. Cómo todas esas ideas pueden usarse para explorar y comparar
explicaciones rivales en la ciencia.
1
Cita tomada de Stigler (2016), Stigler (2017)

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 5

Estadı́stica descriptiva

Resumen

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
Descripción
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
Universo o Población

Figura 1: Estadı́stica descriptiva

En el libro de Chihara and Hesterberg (2019) se señala la liga https://www.bts.gov/


topics/airlines-and-airports/quick-links-popular-air-carrier-statistics don-
de encontrará estadı́sticas (información). ¿Cómo describir de manera eficiente la información
incluida en ese sitio? ¿Gráficas, tablas, dashboards? Su respuesta es tema de investigación
y desarrollo de la estadı́stica descriptiva o el análisis exploratorio de datos. Vea por
ejemplo Tukey (2020).

1.1. Deducción e Inferencia

General

Inducción
Deducción
(inferencia)

Particular

Figura 2: Deducción–Inducción.

Construcción del conocimiento (entre otras).

Deducción. Pasar de lo general a lo particular. por ejemplo, la deducción lógica


matemática.

Ejemplo : A partir de principios (axiomas) concluir para casos particulares. Si


(Ω, S, P) es un espacio de probabilidad y A ∈ S, con P(A) > 0, se puede construir la

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 6

medida PA definida por

P(A ∩ B)
PA (B) = , para todoB ∈ S
P(A)

que es una medida de probabilidad.

Inferencia. Pasar de lo particular a lo general. A partir de una muestra se pretende


“aprender” sobre la población.
Hay varias aproximaciones a la inferencia. En este curso nos interesa la inferencia
estadı́stica, y dentro de ésta hay dos enfoques principales: la inferencia frecuentista
y la inferencia bayesiana. En este curso trabajaremos principalmente la inferencia
frecuentista y muy brevemente se mencionarán algunos puntos de la inferencia
bayesiana.

Inferencia
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
Muestra
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
Universo o Población

Figura 3: Inferencia estadı́stica

Principios de la inferencia estadı́stica2


La mayorı́a del trabajo estadı́stico tiene que ver con proveer e implementar
métodos para el estudio del diseño, el análisis y la interpretación de los datos.
La teorı́a estadı́stica en principio tiene que ver con los conceptos generales basa-
dos en todos los aspectos de tal trabajo, y desde esta perspectiva la teorı́a formal
de la inferencia estadı́stica no es mas que una parte de esa teorı́a completa. De
hecho, desde el punto de vista de las aplicaciones individuales, podrı́a parecer
una parte muy pequeña. Es probable que la preocupación sea más concentrada
en ver si los modelos han sido formulados razonablemente para atender las pre-
guntas más fructı́feras o bien, si los datos están sujetos a errores no apreciados
o contaminados y especialmente especı́fico de la materia, en las interpretaciones
del análisis y su relación con otros conocimientos en el área.
Y aún ası́ la teorı́a formal es importante por varias razones. Sin una estructura
sistemática los métodos estadı́sticos para el análisis de los datos se convierte
en una colección de trucos que son difı́ciles de asimilar e interrelacionar entre
ellos. El desarrollo de nuevos métodos apropiados para los nuevos problemas se
2
Cox (2006)

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 7

convertirı́a en cosa de ingenio ad hoc. Por supuesto, dicho ingenio no debe ser
subestimado y de hecho, uno de los papeles de la teorı́a es asimilar, generalizar
y quizás modificar y mejorar los frutos de ese ingenio.
Mucho de la teorı́a tiene que ver con indicar la incertidumbre involucrada en
las conclusiones del análisis estadı́stico y la valoración los méritos relativos a los
diferentes métodos de análisis, lo que es importante aún en un nivel de meras
aplicaciones para tener una comprensión de las fortalezas y limitaciones de tales
discusiones. Esto tiene que ver con temas un poco más filosóficos relacionados
con la naturaleza de la probabilidad. Una razón final, y muy buena, porque el
estudio de la teorı́a es en sı́ interesante.

Inferencia estadı́stica

Figura 4: Modelación estadı́stica. El modelo es representado por la variable aleatoria X y


sus leyes de probabilidades.

Ejemplo : Considere una moneda y se pregunta por las posibilidades de que en un lanza-
miento caiga águila. (
1 águila
X=
0 sol
Supone que P(X = 1) = p y que P(X = 0) = q = 1 − p. Entonces, se está asociando
X ∼ Ber(p) ¿Qué se puede decir del valor de p? Para responderlo de manera objetiva
podemos lanzar varias veces la moneda y suponer que cada lanzamiento es independiente
de los otros en el sentido de que el resultado de un lanzamiento no influye ni se ve afectado
por la salida de los otros. Luego, si además suponemos que la probabilidad no cambia
entre lanzamientos. El procedimiento lo podrı́amos modelar como una sucesión de ensayos
Bernoulli, {Xi }, donde Xi = representa la salida del i-ésimo lanzamiento, entonces, se puede
pensar a {Xi } como una sucesión de variables aleatorias independientes e idénticamente
distribuidas (v.a.i.i.d.).
Si se considera lanzar n veces la moneda, X1 , . . . , Xn son v.a.i.i.d. y en este caso repre-
senta una muestra aleatoria (m. a.) de tamaño n.

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 8

Si (Ω, S, P) representa un espacio de probabilidad (EP) donde está definida la variable


aleatoria X,
X : Ω −→ R
ω 7−→ X(ω) = x

X(ω) = x se conoce com una realización de la v. a. X. En este caso, si Xn = (X1 , . . . , Xn ) 


representa una m. a. de tamaño n de la población X, para ω ∈ Ω, Xn (ω) = X1 (ω), . . . , Xn (ω) =
(x1 , . . . , xn ), representa lo que se dice como la muestra observada.
En este ejemplo de la moneda, si el interés es “decir algo” sobre p, es posible colectar
la información que se obtiene del lanzamiento
Pn n veces, Xn y por ejemplo resumirla con
el número total de águilas, Sn = X
i=1 i es el número de águilas en n lanzamientos.
Note que Sn es a su vez una variable aleatoria que depende de las n salidas individuales.
Sn depende exclusivamente de la muestra Xn . Sn se dice que es un estadı́stico(a) y
sn = Sn (ω) = ni=1 Xi (ω) = ni=1 xi , se dice el estadı́stico observado.
P P

Definición : Se dice que S = S(X) es un estadı́stico si es función de la muestra (Xn ) y


que no depende de parámetros desconocidos.

Ejemplo : Dada la muestra Xn = (X1 , . . . , Xn ), el promedio X̄ = n1 ni=1 Xi , X̃ =


P
mediana{X1 , .P . . , Xn } y el rango R = máx{Xi } − mı́n{Xi }, son ejemplos de estadı́sticos.
Por otro lado, ni=1 (Xi −µ)2 no es un estadı́stico pues depende del parámetro µ desconocido.
Si supone que Xn es una muestra aleatoria de Xi ∼ Ber(p), entonces Sn = ni=1 Xi ∼
P
Bin(n, p). La distribución del estadı́stico Sn se dice la distribución muestral de Sn , en
este caso Bin(n, p).
Recordar, si Xi ∼ Ber(p), entonces E[Xi ] = p y var(Xi ) = p(1−p). Sea X̄n = n1 ni=1 Xi ,
P
entonces E[X̄n ] = p y var(X̄n ) = p(1 − p)/n, por lo que serı́a razonablePaproximar el
verdadero (pero desconocido) valor de p por el observado x̄n = X̄n (ω) = n1 ni=1 xi . X̄, es
un estadı́stico pues es función de la muestra y además es un estimador de p y x̄n es una
estimación de p.
Note que siendo que var(X̄n ) = p(1 − p)/n, a mayor tamaño de muestra n, menor la
dispersión (varianza) del estimador. De hecho, se tiene que por la ley de los grandes números
P
(LGN), X̄n → p, cuando n → ∞. Luego, el promedio (media muestral ) X̄n , es un excelente
estimador del parámetro (media poblacional ) µ.

Ejemplo : Considere la población de estudiantes y más en particular en el peso W de los


estudiantes varones. Ω denota la población de estudiantes y W (ω) el peso en kilogramos
del estudiante ω ∈ Ω. Se supone que W ∼ N(µ, σ 2 ), es el modelo a utilizar y sea θ = (µ, σ)
el vector de parámetros de la distribución normal y θ ∈ R × R+ = Θ es el espacio de
parámetros o parametral.
Suponga que por experiencia se puede suponer que σ = 5 kg. y se desea estimar la
media de la población (el parámetro) µ. Para esto, se toma una m. a. de tamaño n, Wn =
(W1 , . . . , Wn ) de W ∼ N(θ). Sean
n
X 1
Sn = Wi y W̄n = Sn
n
i=1

Entonces, E[W̄n ] = µ y var(W̄n ) = σ 2 /n. Luego, serı́a razonable estimar el parámetro µ


P
mediante W̄n . Como en el ejemplo anterior, note que por LGN se tiene que W̄n → µ,
cuando n → ∞.
Por otro lado, siendo la distribución normal simétrica alrededor de la media, µ también
localiza a la mediana de la distribución, por lo que un estimador alternativo del parámetros

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 9

serı́a el estadı́stico mediana, W̃n = mediana{W1 , . . . , Wn } y w̃n = mediana{w1 , . . . , wn }


una estimación de µ.
Note que si la muestra seleccionada incluyese un valor atipico (outlier ), digamos, wi∗ ,
más alto que µ + 5σ, esto se reflejarı́a en un mayor valor de w̄n , sobrestimando el valor del
parámetro µ. Por otro lado, la mediana muestral W̃n no se verı́a afectada por wi∗ . Que un
estimador sea “poco sensible” se dice que es robusto. En este ejemplo, W̃ es un estimador
de µ robusto a valores atı́picos.
Un problema es que a diferencia de W̄ , no conocemos la distribución muestral de W̃ .
No conocemos su media ni su varianza. Luego, no se puede decir nada sobre su “punterı́a”
(media) ni de su “precisión” (varianza). Sin embargo, podrı́amos ganar cierta idea por medio
de ejercicios de simulación y bootstrap (inferencia por computadora).

Los ejemplos anteriores presentan el problema de estimación de parámetros, lo que


da lugar a:

distribuciones muestrales; métodos de estimación; propiedades de los estimadores;


comparación de estimadores; estimación puntual; estimación por intervalos.

Ejemplo : ¿Quienes sacan mejor calificación en los cursos de Cálculo de Probabilidades,


ellas o ellos?
Para abordar el problema se considera el siguiente modelo: Sean X y Y variables alea-
torias independientes que representan las calificaciones de las mujeres y de los hombres
respectivamente y sean µX y µY las medias de las correspondientes distribuciones. Luego
la pregunta se pudiera plantear con las siguientes hipótesis

H0 : µX = µY vs. H1 : µX > µY

En palabras: la hipótesis nula H0 supone que no hay diferencia entre ellas y ellos, mientras
que la hipótesis alternativa H1 supone que ellas obtienen calificaciones más altas que ellos.
Ahora bien, para intentar responder la pregunta de manera objetiva se tomarı́an mues-
tras aleatorias de ambas poblaciones, X y Y , y por ejemplo, se compararı́an los promedios
D̄ = X̄ − Ȳ . ¿La diferencia es importante? ¿Qué tanto? Note que siempre corre el ries-
go de concluir en error. Por ejemplo, declarar que aunque las muestras sugirieran que no
hay diferencia entre los dos grupos, en realidad ellas tienen calificaciones más altas que
ellos. O bien, concluir que ellas son mejores porque se observó que D̄ > 0, pero eso no es
generalizado.
El tipo de preguntas que se presentan en el ejemplo anterior y bajo diferentes escenarios
y distribuciones también son tema del la inferencia estadı́stica y se abordarán en la segunda
parte del curso.

1.2. Ejercicios
Refiérase a la Lista de Ejercicios 1.

Textos de apoyo
Chihara and Hesterberg (2019); Mood, Graybill, and Boes (1974); Wackerly, Men-
denhall III, and Scheaffer (2008).

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 10

2. Elementos de Cálculo de Probabilidades I y II


2.1. Espacios de probabilidad

Figura 5: Experimento aleatorio E arroja salidas impredecibles ω. El espacio muestral Ω es


el conjunto de todas las posibles resultados ω. El conjunto A de salidas de interés denota
un evento.

Experimento aleatorio E, del que no es posible adelantar la salida.

Espacio muestral Ω. Conjunto de posibles salidas del ω del experimento aleatorio.

Familia de eventos S. σ-álgebra de subconjuntos de Ω, tales que:

i) Si A ∈ S, entonces AC ∈ S.
ii) Si A1 , A2 , · · · ∈ S, entonces ∪∞
i=1 Ai ∈ S.

Espacio medible (Ω, S).

Conjuntos borelianos de R, B(R). σ-álgebra de subconjuntos de R generada por


los intervalos (a, b].

Medida de probabilidad sobre el espacio medible (Ω, S), es una función P : S → R,


tal que,

K1 : P(A) ≥ 0, para todo A ∈ S.


K2 : P(Ω) = 1.
 P∞
K3 : Si A1 , A2 , · · · ∈ S, tales que Ai ∩ Aj = ∅, entonces P ∪∞
i=1 Ai = i=1 P(Ai ).

Las propiedades K1 , K2 , K3 anteriores se dicen los axiomas de probabilidad o de


Kolmogorov.

A partir de los axiomas se derivan una serie de propiedades como:

ˆ P(AC ) = 1 − P(A).
ˆ P(∅) = 0.
ˆ P(A\B) = P(A) − P(A ∩ B).
ˆ P(A ∪ B) = P(A) + P(B) − P(A ∩ B).

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 11

Probabilidad condicional.
Si (Ω, S, P) es un espacio de probabilidad y A ∈ S tal que P(A) > 0, se define

P(A ∩ B)
PA (B) = = P(B|A), para todo B ∈ S
P(A)

PA (B) = P(B|A) se dice probabilidad condicional de B dado A y es una medida


de probabilidad pues satisface los axiomas de Kolmogorov.

Regla de la multiplicación. P(A ∩ B) = P(A|B)P(B).

A y B se dicen eventos independientes si P(A ∩ B) = P(A)P(B).

A1 , A2 , . . . se dicen
Q eventos mutuamente independientes si para todo n se cumple
que P(∩ni=1 Ai ) = ni=1 P(Ai ).

Sean A1 , A2 , · · · ∈ S. {Ai }, se dice una partición de Ω si: i) Ai ∩Aj = ∅; ii) ∪i Ai = Ω.

Teorema de Probabilidad Total. Sea {Ai } una partición de Ω. Entonces, para


todo evento B, X
P(B) = P(B|Aj )P(Aj )
j=1

Regla de Bayes. Sea {Ai } una partición de Ω. Entonces, para todo evento B,

P(B|Ak )P(Ak )
P(Ak |B) = P
j=1 P(B|Aj )P(Aj )

2.2. Variables aleatorias


Sea (Ω, S, P) un EP. La función real X con dominio en Ω se dice variable aleatoria
 a.) si para todo x ∈ R, la preimagen de x es un evento. Esto es, si para todo x ∈ R,
(v.
ω ∈ Ω : X(ω) = x ∈ S.

Sea X una v. a. definida en (Ω, S, P). Se define su función de probabilidad acu-


mulada o función de distribución por F (x) = P(X ≤ x), para todo x ∈ R.

Sea X v. a. con función de distribución F . Entonces, F satisface:

ˆ 0 ≤ F (t) ≤ 1, para todo t ∈ R.


ˆ F es no decreciente.
ˆ F (−∞) = 0, F (+∞) = 1.
ˆ F es continua por la derecha.
ˆ Para a < b, P(a < X ≤ b) = F (b) − F (a).
ˆ P(X = x) = F (x+ ) − F (x− ).
P
Sea X v. a. y SX = {x1 , x2 , . . . } tal que P(X = xi ) > 0 y xi ∈SX P(X = xi ) = 1, X
se dice que es una variable aleatoria discreta con soporte SX .
P
Si A ∈ B(R), P(X ∈ A) = xi ∈A P(X = xi ).

R x f. p. a. F . Si existe una función h no negativa tal que para todo x ∈ R,


Sea X v. a. con
P(X ≤ x) = −∞ h(u)du, X se dice que es una variable aleatoria (absolutamente)
continua y h su función de densidad de probabilidades.

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 12

Sea X v. a. con f. d. p. f . El conjunto SX = {x ∈ R : f (x) > 0} se dice el soporte


de la distribución.
Sea X v. a. continua con f. p. a. F y f. d. p. f . Entonces, , para toda t ∈ R,
Rt
ˆ F (t) = −∞ f (x)dx.
dF (x)
ˆ f (t) = dx x=t .

Cuantiles de una distribución.


Sea X v. a. continua con función de distribución F y sea 0 < p < 1. Se define xp , el
p-ésimo cuantil de la distribución como aquel tal que p = F (xp ).

primer cuartil x.25 = q1 p = 0.25


mediana x.50 = xmed p = 0.50
tercer cuartil x.75 = q3 p = 0.75
Rango R = q3 − q1

2.3. Momentos de una variable aleatoria


Sea X v. a. con función de probabilidades f y soporte SX . Se define el valor esperado
de X por ( P
x ∈S xi f (Xi ) caso discreto
E[X] = R i x
R xf (x)dx caso continuo
siempre que la suma o integral sean absolutamente finitas.
Teorema del estadı́stico inconsciente(TEI). Sea X v. a. con función de probabi-
lidad f y g una función tal que g(X) es una v. a.. Entonces,
( P
x ∈S g(xi )f (xi ) caso discreto
E[g(X)] = R i x
R g(x)f (x)dx caso continuo
siempre que la suma o integral sean absolutamente finitas.
Se define el r-ésimo momento de X por E[X r ], siempre que este exista.
Sea X v. a. con r-ésimo momento finito. Entonces X tiene k-ésimo momento finito,
para todo k ≤ r, pero no para r + 1 necesariamente.
Sea X v. a. con media µ = E[X]. Se define la varianza de X por

var(X) = E[(X − µ)2 ] = E[X 2 ] − E2 [X]

Representación de los momentos. Sea X con cuarto momento finito.

r E[(X − µ)r ] definición interpretación


∗1 µ media localización
2 σ2 varianza dispersión
3 η sesgo asimetrı́a de la densidad
4 κ curtosis densidad plana o picuda

Se define la función generadora de momentos (f. g. m.) de X por

m(t) = E[etX ]

para toda t siempre que la suma o integral exista en una vecindad de 0,

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 13

Se define la función caracterı́stica de X por


φ(t) = E[eitX ]

con i = −1. La función caracterı́stica siempre existe.
Si X tiene f. g. m. m y f. c. φ, entonces φ(t) = m(it).
Sea X v. a. con f. g. m. m diferenciable. Entonces, para r = 1, 2, . . . ,
dr m(t)
E[X r ] =
dtr t=0

Teorema de unicidad de f. g. m.. Sean X y Y v. a.’s con f. g. m. mX y mY , y


funciones de distribución FX y FY , respectivamente. Si mX (t) = mY (t) para toda t
entonces, FX (w) = FY (w), para todo w punto de continuidad de F .
Sea X v. a. con f. g. m. mX (t) y a, b ∈ R, entonces
ma+bX (t) = eat mX (bt)

2.4. Desigualdades
Markov: Sea X una v. a. positiva. Entonces, para todo k > 0,
E[X]
P(X ≥ k) ≤
k
2 . Entonces, para todo ϵ > 0,
Chabyshev: Sea X una v. a. con media µX y varianza σX
2
σX
P(|X − µX | ≥ ϵ) ≤
ϵ2
Jensen: Sea X v. a. y h función convexa, entonces

E[h((X)] ≥ h E[X]

2.5. Vectores aleatorios


Sea (Ω, S, P) un EP. X = (X1 , . . . , Xn ) es un vector aleatorio si para todo x =
(x1 , . . . , xn ) ∈ Rn , {ω ∈ Ω : X(ω) = x} ∈ S.
Sea X = (X1 , . . . , Xn ). Se define la f. p. a. conjunta de X por F (x) = P(X1 ≤
x1 , . . . , Xn ≤ xn ), para todo x ∈ Rn . En este contexto, Fi (x) = P(Xi ≤ x) se dice la
f. p. a. marginal de Xi .
Sea X v. a. con f. p. a. conjunta F . Si existe una función h no negativa tal que para
todo x = (x1 , . . . , xn ) ∈ Rn ,
Z x1 Z xn
F (x) = ··· h(x)dx1 · · · dxn
−∞ −∞

h se dice una función de densidad de probabilidad conjunta de X.


Sea X v. a. con f. p. a. conjunta F y f. d. p. conjunta f . Entonces,
∂n
f (x) = F (x)
∂x1 · · · ∂xn
Sea X = (X1 , . . . , Xn ) v. a. con f. d. p. conjunta f y fi la correspondiente función
marginal de Xi . Entonces,
Z ∞ Z ∞
fi (x) = ··· f (x1 , . . . , xn ) dx1 · · · dxi−1 dxi+1 · · · dxn
−∞ −∞

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 14

Distribuciones condicionales.
Sea X = (X1 , . . . , Xn ) con f. p. a. conjunta F . X se dice que es de componentes
independientes X1 , . . . , Xn , si y solo si, para todo x = (x1 , . . . , xn ) y t = (t1 , . . . , xn ),

ˆ F (x) = F1 (x1 ) · · · Fn (xn ).


ˆ f (x) = f1 (x1 ) · · · fn (xn ).

Basta que una se cumpla para que se cumpla la otra.

Sea (X1 , X2 ) un vector aleatorio con f. d. p. conjunta f y marginales fi . Entonces,


Z x1
P(X1 ≤ x1 |X2 = x2 ) = h(u)du
−∞

f (u, x2 )
donde h(u) = f (u|x2 ) = . En esta definición, la función f (·|x2 ) se dice la
f2 (x2 )
función de densidad condicional de X1 dado X2 = x2 .

Teorema de Probabilidad Total (TPT) Sea (X, Y ) un vector aleatorios con f. d.


p. conjunta f , marginales fX , fY y condicional f (x|y). Entonces,
Z
fX (x) = f (x|y)fY (y)dy
R

Regla de Bayes
f (x|y)fY (y)
f (y|x) = R
R f (x|v)fY (v)dv

Teorema del estadı́stico inconsciente. Sea X = (X1 , . . . , Xn ) un v. a. y sea


g : Rn → R, una función tal que Y = g(X) es una variable aleatoria. Entonces,
Z
E[Y ] = E[g(X)] = g(x)f (x)dx
Rn

Esperanza condicional. Sea (X, Y ) un v. a., entonces


Z
E[Y |X = x] = yf (y|x)dy
R

Esperanza total. Sea (X, Y ) un v. a., entonces

ˆ E[Y ] = E[E[Y |X]]


ˆ var(Y ) = var(E[Y |X]) + E[var(Y |X)]

Esperanza y covarianza de un vector aleatorio.


Sea (X, Y ) un v. a.. Se define la covarianza entre X y Y por

σXY = cov(X, Y ) = E[(X − µX )(Y − µY )] = E[XY ] − E[X] E[Y ]

y la correlación lineal entre X y Y por

cov(X, Y ) σXY
ρXY = corr(X, Y ) = p =
var(X)var(Y ) σX σY

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 15

Sea X = (X1 , . . . , Xn )T , se definen el vector de medias y la matriz de covarianzas


por µ = (µ1 , . . . , µn )T y Σ = (σij ). Explı́citamente,
 
  σ12 σ12 · · · σ1n
µ1
 σ12 σ22 · · · σ2n 
 
 . 
E[X] =   ..  = µ Σ=  .. .. .. .. 

 . . . . 

µn
σ1n σ2n · · · σn2

donde µi = E[Xi ] y σij = cov(Xi , Xj ).

Función generadora de momentos.


Sea X = (X1 , . . . , Xn ) un v. a.. Se define la función generadora de momentos
T
conjunta por m(t) = E[et X ] y mi (t) = E[etXi ] las correspondientes f. g. m. margi-
nales.

Sea X = (X1 , X2 ) un v. a. con f. g. m. conjunta m12 (t1 , t2 ) y marginales mi (ti ).


Entonces, m1 (t) = m12 (t, 0).

Sea X = (X1 , . . . , Xn ) con f. p. a. conjunta F , f. d. p. conjunta f y f. g. m. conjunta


m. X se dice que es de componentes independientes X1 , . . . , Xn , si y solo si, para
todo x = (x1 , . . . , xn ) y t = (t1 , . . . , xn ),

ˆ F (x) = F1 (x1 ) · · · Fn (xn ).


ˆ f (x) = f1 (x1 ) · · · fn (xn ).
ˆ m(t) = m1 (t1 ) · · · mn (tn ).

Basta que una se cumpla para que las otras dos también se cumplan.

Sean X1 y X2 v. a.’s independientes con f. g. m. mi , respectivamente. Entonces,

mX1 +X2 (t) = m1 (t1 ) · m2 (t)

Teorema de unicidad: Si X1 y X2 tienen f. g. m. y es la misma, entonces tienen


la misma ley de probabilidades. Esto es, si m1 (t) = m2 (t), para toda t, entonces
F1 (x) = F2 (x), para todo punto de continuidad x.

2.6. Transformaciones
Teorema de transformación. Sea X v. a. con f. d. p. fX y g una función con
inversa h = g −1 diferenciable y tal que dh
dy ̸= 0. Si Y = g(X) es una variable aleatoria.
Entonces, fY , la f. d. p. de Y está dada por

dh
fY (y) = fX (h(y))
dy

Teorema de transformación integral.

ˆ Sea X v. a. continua con función de distribución FX . Entonces


U = FX (X) ∼ Unif(0, 1).
−1
ˆ Sea X con f. p. a. FX invertible, U ∼ Unif(0, 1). Entonces, Y = FX (U ) ∼ X.

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 16

Figura 6: Funciones de densidad y generadora de momentos de algunas leyes de probabilidad


discretas y continuas.

Teorema de transformación. Sea X = (X1 , . . . , Xn )T con f. d. p. conjunta fX y


sea la función g : Rn → Rn uno-a-uno tal que h = g −1 con |Jh| ̸= 0. Sea Y = g(X).
Entonces,
fY (y) = fX (h(y))|Jh|

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 17

donde |Jh| denota el valor absoluto del determinante de la matriz jacobiana (∂hi /∂yj ).
Ejemplos

ˆ Sean Z ∼ N(0, 1) y Y ∼ χ2n independientes. Defina T = nZY −1/2 y U = Y .

i) Defina T = nZY −1/2 , U = Y y utilice el teorema de transformación para
encontrar la f. d. p. conjunta de (T, U ).
ıii) Encuentre la distribución marginal de T . Muestre que la f. d. p. de T está
dada por
Γ( n+1 ) n+1
fT (t) = √ 2 n (1 + t2 /n) 2 , para todo t ∈ R
nπΓ( 2 )
Pn
ˆ Sean X1 , . . . , Xn , . . . , v.a.i.i.d.’s con Xi ∼ Ber(p). Entonces, i=1 Xi ∼ Bin(n, p).
Pn
Solución: X ∼ Ber(p), mX (t) = 1 + pet . Entonces, Sn = i=1 Xi tiene un
n
f. g. m. dada por mSn (t) = q + pet , que corresponde a la f. g. m. de una
distribución Bernoulli parámetros n y p. Se concluye del teorema de unicidad
que Sn ∼ Ber(n, p).
Pn
ˆ SeanPX 1 , . . . , Xn , . . . , v. a.’s independientes con Xi ∼ Po(λi ). Entonces, i=1 Xi ∼
Po( ni=1 λi ).
t Pn
Solución: X ∼ Po(λi ), mi (t) = ePλ(e −1) . Entonces, Sn = i=1 Xi tiene un f.
t n
g. m. dada por mSn (t) = e(e −1)P i=1 λi , que corresponde a la f. g. m. de una
n
distribución Poisson
Pn parámetro i=1 λi . Se concluye del teorema de unicidad
que Sn ∼ Po( i=1 λi ).
Pn
ˆ Sean
Pn X 1 , . . . ,
Pn X n , . . . , v. a.’s independientes con Xi ∼ N(µ i , σi
2 ). Entonces,
i=1 Xi ∼
N( i=1 µi , i=1 σi ). 2

Solución: X ∼ N(µi , σi2 ), mi (t) = exp{µP 1 2 2


Entonces, Sn = ni=1 Xi
P
i t + 2 σi t }.P
tiene un f. g. m. dada por mSn (t) = exp{t ni=1 µi , 12 t2 Pni=1 σi2 }, que corresponde P 2
a la f. g. m. de una distribución normal con media P P µ2 i y varianza σi . Se
concluye del teorema de unicidad que Sn ∼ N( µi , σi ).
ˆ Recuerde que Y ∼ Gamma(α, β), con parámetro de forma α y parámetro
de escala β, entonces E[Y ] = αβ, var(Y ) = αβ 2 y f. g. m. mY (t) = (1 − βt)−α ,
para t < 1/β.
Y ∼ Gamma( n2 , 2) se dice que sigue una distribución ji-cuadrada con n grados
de libertad y se denota por Y ∼ χ2n .
ˆ Sean Y1 , . . . , Yn , . . . , v. a.’s independientes que siguen una distribución Gamma
con parámetros de forma αi P y parámetro de escala
P común β. Luego, E[Yi ] = αi β
y var(Yi ) = αi β 2 . Entonces, ni=1 Yi ∼ Gamma( ni=1 αi , β).
ˆ Sean Y1 , . . . , Yn , . . . , v. a.’s independientes con Yi ∼ χ2νi . Entonces, ni=1 Yi ∼
P
χ2P νi .
ˆ Sea Z ∼ N(0, 1), entonces Y = Z 2 ∼ χ21 .
Solución: Z
TEI 2
mY (t) = E[e ] =tY
etz ϕ(z)dz = (1 − 2t)−1/2
R+

donde ϕ es la f. d. p. de la distribución normal estándar. La función (1 − 2t)−1/2


constituye la f. g. m. de Gamma(1/2, 2) ≡ χ21 . La conclusión se sigue del Teorema
de Unicidad de las f. g. m..

Ejercicios: Lista 01, problemas 2–14.

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 18

2.7. Estadı́sticos de orden


Sea X = (X1 , . . . , Xn ) una muestra aleatoria (v.a.i.i.d.’s) de una población X ∼ f . Esto
es, Xi tiene una f. d. p. f . Se define Yi = X(i) el i-ésimo estadı́stico de orden. Entonces,
Y1 ≤ Y2 ≤ · · · ≤ Yn , y si Y = (Y1 , . . . , Yn ) y x = (x1 , . . . , xn ),
n
Y
fY (x) = n! f (xi )
i=1

estadı́stico f. d. p. f. p. a. n
mı́n X(1) f1 (x) = nf (x)[1 − F (x)]n−1 F1 (x) = 1 − 1 − F (x)
 n−1  n
máx X(n) fn (x) = nf (x) F (x) Fn (x) = F (x)

La f. p. a. y la f. d. p. conjuntas del (X(1) , X(n) ) son


 n  n
F1n (x, y) = F (y) − F (y) − F (x)
 n−2
f1n (x, y) = n(n − 1)f (x)f (y) F (y) − F (x)

Sea R = máx{Xi } − mı́n{Xi } el rango de la muestra, entonces


Z ∞
 n−2
fR (r) = n(n − 1) f (u)f (r + u) F (r + u) − F (u) du
−∞

Ejercicios :
Sea U = (U1 , . . . , Un ) una m. a. de U ∼ Unif(a, b). Encuentre la distribución de
U(n) = máx{U1 , . . . , Un }.

Sea T = (T1 , . . . , Tn ) una m. a. de T ∼ Exp(θ). Encuentre la distribución de T(1) =


mı́n{T1 , . . . , Tn }.

Sea U = (U1 , . . . , Un ) una m. a. de U ∼ Unif(0, 1). Muestre que sus estadı́sticos de


orden siguen distribuciones beta. A saber

U(k) ∼ Beta(k, n + 1 − k)

2.8. Método Delta


Vea Dudewicz and Mishra (1988).

Proposición : Sea X una variable aleatoria y suponga que su función generadora de


momentos mX (t) existe para todo |t| < T , para algún T > 0. Entonces, X tiene todos sus
momentos finitos µk = E[X k ] y mX (t) se puede expandir alrededor de t = 0. A saber,

E[X] E[X 2 ] 2 E[X k ] k


mX (t) = 1 + t+ t + ··· + t + O(tk )
1! 2! k!
O(tk )
donde lı́m = 0.
t→∞ tk

Proposición : Sea X una variable aleatoria con k-ésimo momento finito, k > 2 y sea h
una función k veces diferenciable, entonces

σ2 µ(3) µ(k−1) 1
E[h(X)] = h(µ) + h(2) (µ) + h(3) (µ) + · · · + h(k−1) (µ) + E[h(k) (ξ)(X − µ)k ]
2 3! (k − 1)! k!

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 19

donde µ(r) = E[(X − µ)r ], r = 3, 4, . . . y ξ se encuentra en una vecindad de µ.


Demostración: Puesto que h es k-veces diferenciable, por el Teorema de Taylor con residuo
y expandiendo al rededor de µ,
k−1 (r)
X h (µ) h(k)
h(x) = (x − µ)r + (ξ)(x − µ)k
r! k!
r=0

donde ξ está entre x y µ.


Ahora, evaluando la expresión anterior en la v. a. X y tomando valores esperados

h(1) h(2)
E[h(X)] = h(0) (µ) + (µ)E[(X − µ)] + (µ)E[(X − µ)2 ] + · · ·
1! 2!
h(k−1) 1
+ (µ)E[(X − µ)k−1 ] + E[h(k) (ξ)(X − µ)k ]
(k − 1)! k!
y se sigue el resultado.
2 . Si la función h es
Corolario : Sea X una variable aleatoria con media µX y varianza σX
al menos dos veces diferenciable,

h(2) (µX ) 2
E[h(X)] ≈ h(µX ) + σX
2
Demostración: Tome k = 2 en la proposición anterior.

2
σX
E[h(X)] = h(µX ) + h′′ (µX ) + Residuo
2

2 . Si la función h es
Corolario : Sea X una variable aleatoria con media µX y varianza σX
al menos dos veces diferenciable,
2 2
var[h(X)] ≈ h′ (µX ) σX

Demostración: Sea H = h2 , H ′ = 2hh , H ′′ = 2hh′′ + 2(h′ )2 . Entonces, se sigue del corolario
anterior que
 σ2
E[H(X)] ≈ H(µX ) + H ′′ (µX ) X
2
h 2
2 i σ X
= h2 (µX ) + 2h(µX )h′′ (µx ) + 2 h′ (µX )
2

var(h(X)) = E[h2 (X)] − E2 [h(X)]


" #2
σ 2
2
≈ h2 (µX ) + σ 2 h(µX )h′′ (µX ) + σX
2
h′ (µX ) − h(µX ) − h′′ (µX ) X

2
2 σ 4 2
2
= σX h′′ (µX ) + X h′′ (µX )
|4 {z }
4 )
O(σX
2 2
≈ h′ (µX ) σX

2 y h
Teorema : Método Delta Sea X una variable aleatoria con media µX , varianza σX
una función dos veces diferenciable. Entonces,

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 20

h(2) (µX ) 2
E[h(X)] ≈ h(µX ) + 2 σX
2 2
var[h(X)] ≈ h′ (µX ) σX


Ejemplo : Sea U ∼ Unif(0, 1), h(x) = X. Considere Y = h(X). Mediante el método
delta aproxime µY , σY2 y σY .
2 = 1/12 = 0.0833 y σ = 0.2887.
Solución: X ∼ Unif(0, 1), entonces µX = 0.5, σX X

1√
x3/2
Z
TEI 1 2
E[Y ] = xdx = = = 0.667
0 3/2 0 3
1 √ x3/2
Z
TEI 1 1
E[Y 2 ] = ( x)2 dx = = = 0.5
0 3/2 0 2

var(Y ) = E[Y 2 ] = E[ Y ] = 0.50 − (0.667)2 = 0.0556


σY = 0.2357

Y mediante el método delta


1 1
h(x) = x1/2 ; h′ (x) = x−1/2 ; h′′ (x) = − x−3/2
2 4

"  −3/2 #
σ 2 √ 1 1 0.0833
µY ≈ h(µX ) + h′′ (µX ) X = 0.5 + − = 0.7022
2 4 2 2
 2

2 2 1
σY2 ≈ h (µX ) σX = (0, 5)−1/2 0.0833 = 0.0589
2
σY ≈ 0.2427

Ejercicio : Repita el ejemplo para X ∼ Unif(1, 2).

2.9. Ejercicios
Refiérase a la Lista de Ejercicios 2, problemas 15-18.

Textos de apoyo
Blitzstein and Hwang (2014); Hoel, Port, and Stone (1971); Mood, Graybill, and Boes
(1974).

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 21

3. Distribuciones Muestrales

Definición : Z se dice que sigue una distribución normal estándar y se denota por
Z ∼ N(0, 1) si tiene f. d. p. dada por
1 1 2
ϕ(z) = √ e− 2 z , para todo z ∈ R

Definición : Sea Z ∼ N(0, 1), µ ∈ R y σ > 0. Entonces X = µ + σZ, se dice que sigue
una distribución normal con media µ y varianza σ 2 , y se denota por X ∼ N(µ, σ 2 ). X
tiene f. d. p. dada por
 2
1 −1 x−µ
f (x) = √ e 2 σ
, para todo x ∈ R
2πσ

Definición : Y ∼ Gamma( n2 , 2) se dice que sigue una distribución ji-cuadrada con n


grados de libertad y se denota por Y ∼ χ2n . Su f. d. p. está dada por

λα α−1 −λy
f (y) = y e , para y > 0
Γ(α)

Z
Definición : Sean Z ∼ N(0, 1) y Y ∼ χ2n independientes. Defina T = p . Entonces, T
Y /n
tiene una f. d. p. dada por

Γ( n+1 ) n+1
fT (t) = √ 2 n (1 + t2 /n)− 2 , para todo t ∈ R
nπΓ( 2 )

Se dice que T sigue la distribución t-Student con n grados de libertad y se denota


T ∼ tn .

Sumas, productos y concientes de variables aleatorias


Sea X = (X1 , X2 ) v. a. con f. d. p. conjunta f12 y marginales fi . Entonces,
Z ∞
ˆ fX1 +X2 (z) = f12 (x, z − x)dx
−∞
Z ∞
1
ˆ fX1 ·X2 (z) = f12 (x, z/x)dx
−∞ |x|
Z ∞
ˆ fX2 /X1 (z) = |x|f12 (x, zx)dx
−∞

Si además las Xi ’s son independientes


Z ∞
ˆ fX1 +X2 (z) = f1 (x)f2 (z − x)dx
−∞
Z ∞
1
ˆ fX1 ·X2 (z) = f1 (x)f2 (z/x)dx
−∞ |x|
Z ∞
ˆ fX2 /X1 (z) = |x|f1 (x)f2 (zx)dx
−∞

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 22

Ejemplo : Sean X1 y X2 v. a.’s independientes con Xi ∼ Gamma(αi , λ), i = 1, 2. Utilice


la f. d. p. de las suma de v. a.’s para mostrar que X1 + X2 ∼ Gamma(α1 + α2 , λ).
Solución: Para esto, sea Z = X + Y .
fZ (z) = 0 para z < 0. Sea pues, z ≥ 0,
Z z
fZ (z) = fX (x)fY (z − x)dx
0
Z z α1
λ λ α2
= xα1 −1 e−λx (z − x)α2 −1 e−λ(z−x) dx
0 Γ(α 1 ) Γ(α 2 )
λα1 +α2 e−λz z α1 −1
Z
= x (z − x)α2 −1 dx
Γ(α1 )Γ(α2 ) 0
λα1 +α2 e−λz 1
Z
= (zu)α1 −1 (z − zu)α2 −1 zdu ; u = x/z
Γ(α1 )Γ(α2 ) 0
λα1 +α2 e−λz α1 +α2 −1 1 α1 −1
Z
= z u (1 − u)α2 −1 du
Γ(α1 )Γ(α2 ) 0
λα1 +α2 e−λz α1 +α2 −1
= z · B(α1 , α2 )
Γ(α1 )Γ(α2 )
λα1 +α2
= z α1 +α2 −1 e−λz
Γ(α1 + α2 )

con el uso del cambio de variable u = x/z y B(α1 , α2 ) denota la función Beta3 La función
fZ corresponde a la f. d. p. de una distribución Gamma con parámetro de forma (α1 + α2 )
y parámetro tasa λ.

Ejemplo : Sean X1 , X2 v. a.’s independientes con Xi ∼ Gamma(αi , β). Determine la


función de densidad de Z = X2 /X1 .
Solución: Z = X2 /X1 , entonces el soporte de Z es R+ . Sea pues z > 0.
Z ∞
fZ (z) = xf1 (x)f2 (zx)dx
0
Z ∞ α1 −1 −x/β
x e (zx)α2 −1 e−zx/β
= x α1 · dx
0 β Γ(α1 ) β α2 Γ(α2 )
z α2 −1 1 ∞
Z
− 1+z x
= α1 +α2 Kxα1 +α2 −1 e β dx
β Γ(α1 )Γ(α2 ) K 0
Γ(α1 + α2 ) z α2 −1
=
Γ(α1 )Γ(α2 ) (1 + z)α1 +α2
 α +α
(1 + z)/β 1 2
donde K = es la constante normalizadora de la función de densidad de
Γ(α1 + α2 )
una distribución Gamma con parámetro de forma α1 + α2 y (1 + z)/β como parámetro tasa.
Por lo tanto,
Γ(α1 + α2 ) z α2 −1
fX2 /X1 (z) = 1 (z)
Γ(α1 )Γ(α2 ) (1 + z)α1 +α2 (0,∞)

Corolario : Sean Xi ∼ χ2ni , v. a.’s independientes para i = 1, 2. Entonces, X1 /X2 tiene f.


d. p. dada por
n1
Γ( n1 +n
2 )
2
w 2 −1
fX1 /X2 (w) = 1(0,∞) (w)
Γ( n21 )Γ( n22 ) (1 + w) n1 +n
2
2

R1 Γ(α1 )Γ(α2 )
3
B(α1 , α2 ) = 0
uα1 −1 (1 − u)α2 −1 du = Γ(α1 +α2 )
.

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 23

Demostración: Recuerde que si Xi ∼ χ2ni , entonces Xi ∼ Gamma(ni /2, 2) y aplique el


ejemplo anterior.
X1 /n1
Corolario : Sean Xi ∼ χ2ni , v. a.’s independientes para i = 1, 2. Entonces, W =
X2 /n2
tiene f. d. p. dada por
n1 /2 n1
Γ( n1 +n −1

2 )
2
n1 w 2
fW (w) = 1(0,∞) (w)
Γ( n21 )Γ( n22 ) n2 (1 + n1
n1 +n2

n2 w)
2

χ2n1 /n1
Definición : Sean Xi ∼ χ2ni independientes y defina W = . Entonces F tiene un
χ2n2 /n2
f. d. p. dada por el corolario anterior y se dice que sigue la distribución F con n1 y n2
grados de libertad. Se denota W ∼ Fn1 ,n2 ≡ F (n1 , n2 ).

Ejercicios : Lista 01, problemas 15–24.


X −µ
Definición : Sea X v. a. con media µ y varianza σ 2 . Entonces, Z := tiene media
σ
cero y varianza 1. Es decir,
X −µ
Z= =⇒ E[Z] = 0 y var(Z) = 1
σ
La definición de Z es la estandarización de la v. a. X. Se dice que Z es una v. a. estan-
darizada. De ahı́ que N (0, 1) se diga normal estándar.

Definición : Sea Xn = (X1 , . . . , Xn ), una muestra aleatoria de X con µ = E[X] y σ 2 =


n
1 2 1 X
var(X). Sean Sn = X1 + · · · + Xn , X n = Sn y S = (Xi − X)2 , entonces
n n−1
i=1

estadı́stico notación media varianza


Suma: Sn E[Sn ] = nµ var(Sn ) = nσ 2
Media muestral: X E[X n ] = µ var(X n ) = σ 2 /n
Varianza muestral: S2 E[S 2 ] = σ 2
Note que (n − 1)S 2 = ni=1 (Xi − X̄)2 . Luego,
P
 
h i Xn
E (n − 1)S 2 = E  (Xi − X̄)2 
i=1
 
n
2
X 
= E (Xi − µ) + (µ − X̄)
i=1
 
Xn n
X n
X
= E  (Xi − µ)2 + (µ − X̄)2 − 2(X̄ − µ) (Xi − µ)
i=1 i=1 i=1
 
Xn
= E  (Xi − µ)2 + n(X̄ − µ)2 − 2(X̄ − µ) · n(X̄ − µ)
i=1
n
X h i h i
= E (Xi − µ)2 − nE (X̄ − µ)2
i=1
= nσ − nσ 2 /n
2

= (n − 1)σ 2

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 24

Por lo tanto, E[S 2 ] = σ 2 .

Resultado : Sea Xn = (X1 , . . . , Xn ), una muestra aleatoria de X ∼ N(µ, σ 2 ). Entonces,


n
1 X
(Xi − µ)2 ∼ χ2n
σ2
i=1

Resultado : Sea Xn = (X1 , . . . , Xn ), una m. a. de X ∼ N(µ, σ 2 ). Entonces, X y D =


(X1 − X, . . . , Xn − X) son independientes.
Demostración: Recordar que la f. g. m. conjunta de X esta dada por
h T i h P i
mX (t) = E et X = E e ti Xi

Luego, la f. g. m. conjunta de (X, D) es


 n o  n X o
m(X,D) (s, t) = E exp sX + tT D = E exp sX + ti (X − X)

pero
X X X
tT D = ti (Xi − X) =
ti Xi − X ti
X X X
= ti Xi − ntX = ti Xi − t Xi
X
= (ti − t)Xi

Ası́,
X Xs  X
sX + ti (Xi − X) = + (ti − t̄) Xi = ai Xi
n
donde ai = ns + (ti − t̄). Ahora, note que (ti − t̄) = ti − nt̄ = 0, luego
P P

X Xs  X
ai = + (ti − t̄) = s + (ti − t̄) = s
n
2 X 2
X
2
Xs s sX X
2 s2 X
ai = + (ti − t̄) = + 2 (ti − t̄) + (t i − t̄) = + (ti − t̄)2
n n2 n n
Además,
T
P
m(X,D) (s, t) = mX (a) = E[ea X ] = E[e ai Xi ]
ind Xi′ s Y Y 1 2 2
= E[eai Xi ] = eµai + 2 ai σ
( )
X σ2 X 2
= exp µ ai + ai
2
 " #
 2
σ s 2 X 
= exp µs + + (ti − t̄)2
 2 n 
( ) ( )
1 σ2 2 σ2 X 2
= exp µs + s · exp (ti − t̄)
2 n 2
= mX (s) · mD (t)

donde los factores dependen exclusivamente de s y t respectivamente, por lo que X y D


son independientes.

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 25

1 2 2
1
Xi ∼ N(µ, σ 2 /n), por lo que su f. g. m. es mX (s) = eµs+ 2 s σ /n
P
Note que X = n . Por
σ2
−t̄)2
P
(ti
lo que mD (t) = e 2 .

Corolario : X = (X, . . . , Xn ), m. a. de X ∼ N(µ, σ 2 ). Entonces, X y S 2 , media y varianza


muestrales, son independientes.
1 P
Demostración: S 2 = n−1 (Xi − X)2 es una función continua de D, independiente de X
por la proposición anterior. Luego, X y S 2 son independientes.
n−1 2
Resultado : X = (X, . . . , Xn ), m. a. de X ∼ N(µ, σ 2 ). Entonces S ∼ χ2n−1 .
σ2
Demostración:
X  xi − µ 2 1 X
W = (Xi − µ)2
=
σ σ2
1 Xh i2
= 2 (Xi − X) + (X − µ)
σ
1 X n 2 X
= 2 (Xi − X)2 + 2 (X − µ)2 + 2 (X − µ) (Xi − X)
σ σ σ
!2
n−1 2 X −µ
= S + √
σ2 σ/ n
=: U + V
Entonces, por proposición anterior U y V son v. a.’s independientes. Entonces, mW (t) =
mU (t)mV (t), por lo que
mW (t) (1 − 2t)−n/2
mU (t) = = = (1 − 2t)−(n−1)/2
mV (t) (1 − 2t)−1/2
n−1
que corresponde a la f. g. m. de una distribución Gamma con α = 2 y β = 2. Se sigue
del teorema de unicidad que (n−1)
σ2
S 2 ∼ χ2n−1 .

X −µ
Proposición : X = (X, . . . , Xn ), m. a. de X ∼ N(µ, σ 2 ). Entonces, √ ∼ tn−1 .
S/ n
Demostración:
 
X−µ

X −µ N(0, 1)
σ/ n
√ =q ≡q ∼ tn−1
S/ n n−1 2
S /(n − 1) χ2 /(n − 1)
σ 2 n−1

ya que el numerador y el denominador son independientes como ya se mostró.

Proposición : Sean Xn1 = (X1 , . . . , Xn1 ) m. a. X ∼ N(µ1 , σ12 ) y Yn2 = (Y1 , . . . , Yn2 ) m. a.
de Y ∼ N(µ2 , σ22 ) independientes. Entonces,
2
SX σ12
∼ F (n1 − 1, n2 − 1)
SY2 σ22
= S12 = n11−1 ni=1
2 1 Pn2
(Xi −X)2 , SY2 = S22 = )2 . Luego,
P 1
Demostración: Sea SX n1 −1 i=1 (Yi −Y
ni −1 2
σi2
Si ∼ χ2ni −1 , i = 1, 2 independientes. Entonces,
n1 −1 2
σ12
S1 /(n1 − 1)
n2 −1 2 ∼ F (n1 − 1, n2 − 1)
σ22
S2 /(n2 − 1)

S12 σ12
Por lo tanto, ∼ F (n1 − 1, n2 − 1).
S22 σ22

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 26

3.1. Ejercicios
Refiérase a la Lista de Ejercicios 3, problemas 1–15.

Textos de apoyo
Blitzstein and Hwang (2014); Hoel, Port, and Stone (1971); Mood, Graybill, and Boes
(1974); Wackerly, Mendenhall III, and Scheaffer (2008).

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 27

4. Resultados Lı́mite
4.1. Modos de convergencia de variables aleatorias
Sea (Ω, S, P) un espacio de probabilidad (EP) y sean X y X1 , X2 , . . . variables aleatorias
definidas sobre ese EP. A continuación se presentan distintos modos de convergencia de
sucesiones de va’s. Las definiciones fueron tomadas de Roussas (1997).

Definición : Se dice que {Xn } converge casi seguramente o que converge con pro-
cs cp1
babilidad 1 a X y se denota por Xn −→ X, o bien, Xn −→ X, si para “casi todo” ω ∈ Ω 4 ,
Xn (ω) −→ X(ω).
cs
Esto es, Xn −→ X, si ∀ ϵ > 0 y ∀ ω ∈ Ω\D, ∃ N (ω, ϵ), tal que
| Xn (ω) − X(ω) |< ϵ, n>N
El tipo de convergencia casi segura se le conoce también como convergencia fuerte.
P
Definición : Se dice que {Xn } converge
 en probabilidad a X y se denota por Xn −→ X,
si para todo ϵ > 0, P | Xn − X |> ϵ −→ 0.
Esto es, si ∀ ϵ > 0 y δ > 0, ∃ N (ϵ, δ), tal que

P | Xn − X |> ϵ < δ, n > N

Note que la convergencia en probabilidad implica que P | Xn − X |≤ ϵ −→ 1. El tipo de
convergencia en probabilidad se le conoce también como convergencia débil.

Definición : Se
mc  dice que {X n } converge en media cuadrática a X y se denota por
Xn −→ X, si E | Xn − X |2 −→ 0.
Esto es, si ∀ ϵ > 0 ∃ N (ϵ), tal que
h i
E | Xn − X |2 < ϵ, n > N

D
Definición : Se dice que {Xn } converge en distribución a X y se denota por Xn −→ X,
si Fn (x) −→ F (x) para todo x ∈ C(F ), puntos de continuidad de F , la f. p. a. de X y las
Fn ’s las correspondientes de Xn .
Esto es, si ∀ ϵ > 0 y todo x ∈ C(F ), ∃ N (ϵ, x), tal que
| FX (x) − F (x) |< ϵ, n>N
Note que convergencia en distribución no implica la convergencia de las correspondientes
f. d. p. ó f. m. p.. Considere por ejemplo,

 0
 si x < 1 − 1/n
Fn (x) = 1/2 si 1 − 1/n ≤ x < 1 + 1/n
 1 si x ≥ 1 + 1/n

Entonces, Fn (x) −→ F (x) = 1[1,∞) (x), que es la función de distribución que asigna toda la
probabilidad al punto x = 1. Sin embargo, para todo x ∈ R,
1 1
fn (x) = 1{1− 1 ,1+ 1 } (x) −→ f (x) = 1{1} (x)
2 n n 2
que no es f. d. p..

Proposición : Relación entre los modos de convergencia


4
Xn (ω) −→ X(ω) para “casi todo” ω ∈ Ω, si la convergencia se da en todo ω ∈ Ω, excepto quizá para
aquellos ω ∈ D pero tal que P (D) = 0.

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 28

a). Convergencia en probabilidad implica convergencia en distribución pero no viceversa.


P D
Xn −→ X =⇒ Xn −→ X.

b). Convergencia casi segura implica convergencia en probabilidad pero no viceversa.


cs P
Xn −→ X =⇒ Xn −→ X.

c). Convergencia media cuadrática implica convergencia en probabilidad pero no vicever-


mc P
sa. Xn −→ X =⇒ Xn −→ X.

d). Convergencia casi segura no implica convergencia cuadrática media ni viceversa.

4.2. Otros resultados lı́mite


Teorema de continuidad de Lévy. Sea {Fn } una sucesión de funciones de distribución
y F una f. p. a.. Sean {φn } y φ las correspondientes funciones caracterı́sticas. Entonces,
i. Si Fn (x) −→ F (x), x ∈ C(F ), puntos de continuidad de F , entonces, φn (t) −→ φ(t),
para todo t ∈ R.

ii. Si para todo t ∈ R, {φn (t)} converge a una función g(t), continua en t = 0, entonces, g
es una función caracterı́stica, y si F es la correspondiente f. p. a. entonces, Fn (x) −→
F (x), para todo x ∈ C(F ),

Teorema de mapeo continuo. Sea {Xn } y X v. a.’s y g una función continua. Entonces,
P P
i. Si Xn −→ X, entonces g(Xn ) −→ g(X).
D D
ii. Si Xn −→ X, entonces, g(Xn ) −→ g(X).

Proposición : Sean {Xn }, {Yn }, X y Y , v. a.’s. Entonces,


P P P
i. Si Xn −→ X y Yn −→ Y , entonces Xn + Yn −→ X + Y .
cm mc mc
ii. Si Xn −→ X y Yn −→ Y , entonces Xn + Yn −→ X + Y .
P P P
iii. Si Xn −→ X y Yn −→ Y , entonces Xn Yn −→ XY .

Teorema de Slutsky. Sean {Xn }, {Yn }, X y Y , v. a.’s y c una constante. Entonces,


P P P
i. Si Xn −→ X y Yn −→ c, entonces Xn + Yn −→ c + X
D D D
ii. Si Xn −→ X y Yn −→ c, entonces Xn Yn −→ cX
D D D
Nota: no necesariamente se tiene que si Xn −→ X y Yn −→ Y , entonces Xn + Yn −→ X + Y

4.3. Ley de los grandes números


X1 +···+Xn
Sean X1 , X2 , . . . v.a.i.i.d.’s, Sn = X1 + · · · + Xn y X̄n = n = n1 Sn .
Ley de los grandes números (LGN).
i. Versión fuerte (LFGN). Sean las Xn ’s con media finita µ. Entonces,
cs
X̄n −→ µ
cs
Y viceversa, si X¯n −→ c, para alguna constante finita c, entonces, E[X] es finita y
E[X] = c.

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 29

ii. Versión débil (LDGN). Sean las Xn v. a.’s con media finita µ. Entonces,
P
X̄n −→ µ

Demostración:

i. De un nivel más elevado que el presente curso . . .

ii. La demostración se sigue del inciso anterior pues convergencia casi segura implica la
convergencia en probabilidad. Sin embargo, si además supone que las v. a.’s tienen
varianza σ 2 finita , su demostración sigue de la desigualdad de Chebyshev. A saber,
sea ϵ > 0,
2
 σX̄ σ 2 /n
P | X̄n − µ |≥ ϵ ≤ 2n = 2 −→ 0
ϵ ϵ
pues E[X̄n ] = µ y var(X̄n ) = σ 2 /n.

Notas:

1. La constante ϵ puede verse como la precisión deseada en la aproximación de X̄n a µ.


La aproximación es buena para n suficientemente grande.
σ2

2. P | X̄n − µ |≥ ϵ ≤ nϵ 2

3. Considere que X1 , X2 , . . . son v.a.i.i.d. con X ∼ Ber(p). Entonces, E[X] = p y


var(X) = p(1 − p). Luego, E[X̄n ] = p y var(X̄n ) = p(1 − p)/n, por lo que para
toda 0 < p < 1,
 p(1 − p) 1
P | X̄n − p |≥ ϵ ≤ 2

nϵ 4nϵ2
pues la varianza es máxima cuando p = 1/2. Esto es, para toda p, p(1−p) ≤ 12 (1− 12 ) =
1
4.

4. Considere dados ϵ, δ > 0 y suponga que se desea que P | X̄n − µ |≥ ϵ ≤ δ. Se tiene
entonces que
 p(1 − p) p(1 − p)
P | X̄n − µ |≥ ϵ ≤ 2
≤ δ =⇒ n ≥
nϵ δϵ2

esto es, la condición P | X̄n − µ |≥ ϵ ≤ δ se satisface para n ≥ p(1−p)



δϵ2
.
En el caso de máxima incertidumbre p = 1/2. se tiene n ≥ 1/4δϵ2 .

5. Si ϵ = 0.05 y δ = 0.10, entonces δϵ2 = 2.5 × 10−4 , por lo que


1
n≥ = 1000
4(2.5 × 10−4 )

Si por alguna razón se espera que p ≈ 0.30, p(1 − p) = 0.21 y


0.2
n≥ = 840
2.5 × 10−4
y si p ≈ 0.15, entonces n ≥ 510.

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 30

4.4. Teorema central del lı́mite


2 finita.
Sean X1 , X2 , . . . v.a.i.i.d.’s con media común µX y varianza σX
Recordar,
n
X
Sn = Xi X̄n = Sn /n
i=1
E[X̄n ] = µX
E[Sn ] = nµX 2
2 var(X̄n ) = σX /n
var(Sn ) = nσX
Luego, cuando n −→ ∞, se sigue que

E[Sn ] −→ ±∞ ; E[X̄n ] −→ µ
var(Sn ) −→ +∞ ; var(X̄n ) −→ 0

Note al crecer n, en el caso de la suma Sn , ésta “explota”, mientras que la media muestral
X̄n , se “colapsa” en el sentido que converge a la constante µ.
La versión del teorema central del lı́mite que aquı́ se presenta es conocida como de
Lindberg-Lévy.

Teorema central de lı́mite (TCL) Sean Sn y X̄n como antes. Entonces, para las variables
n −nµX √n −µ
estandarizadas Zn = S√ 2
= X̄ 2
X
, se tiene que
nσX σX /n

D
Zn −→ Z ∼ N(0, 1)

Demostración: Sin pérdida de generalidad suponga que las propias Xi ’s ya son estandariza-
das, E[Xi ] = 0 y var(Xi ) = 1 y suponga que X tiene función generadora de momentos mX
finita. Entonces,

i). mX (0) = E[e0·X ] = 1.


d
ii). m′X (0) = mX (t)|t=0 = E[X] = 0
dt
d2
iii). m′′X (0) = mX (t)|t=0 = var(X) = 1
dt2
Se tiene también que
 n
i). mSn (t) = mX (t) , por ser v.a.i.i.d..
 n
ii). mX̄n (t) = mX (t/n) .
 √ n
iii). m√nX̄n (t) = mX (t/ n) .

Sea ahora L(t) = log(mX (t)). Entonces,

i). L(0) = 0.

d m′ (t)
ii). L′ (0) = log(mX (0)) = X =0
dt mX (t)
t=0
2
mX (t)m′′X (t) − m′X (t)

′′ d2 1(1) − 02
iii). L (0) = 2 log(mX (0)) = = = 1
dt m2X (t) 1
t=0

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 31


 √ n √ √ L(t/ n)
log(m√ nX̄n (t)) = log mX (t/ n) = n log(mX (t/ n)) = nL(t/ n) =
1/n

√ √
L(t/ n) L′ (t/ n)(− 12 n−3/2 )t
lı́m = lı́m , Regla de L’Hopital
n→∞ 1/n n→∞ −n−2

L′ (t/ n)t
= lı́m
n→∞ 2n−1/2

L′′ (t/ n)(− 12 n−3/2 )t2
= lı́m , Regla de L’Hopital
n→∞ −n−3/2
t2 √
= lı́m L′′ (t/ n)
2 n→∞

pues L′′ (0) = 1. Por lo tanto,



L(t/ n) t2
log(m√nX̄n (t)) = −→
1/n 2

y por continuidad
2 /2
m√nX̄n (t) −→ et
que corresponde a la f. g. m. de Z ∼ N(0, 1). Se sigue del teorema de continuidad de Lévy
que
√ X̄ D
nX̄n = √ −→ Z ∼ N(0, 1)
1/ n
El teorema se concluye considerando Wi = µX + σX Xi .

Distribucion Original
600
frecuencia
0 200

0.0 0.2 0.4 0.6 0.8 1.0


x

n=5 n = 20
250

100 200
frecuencia

frecuencia
100 0

0.2 0.4 0.6 0.8 1.0 0.5 0.6 0.7 0.8 0.9
x x

n = 50 n = 100
100 200 300
150
frecuencia

frecuencia
50 0

0.55 0.60 0.65 0.70 0.75 0.80 0.85 0.65 0.70 0.75 0.80
x x

Figura 7: Teorema central de lı́mite. Los valores de X̄n se va distribuyendo a manera


de “campana” al rededor de µ conforme crece el tamaño de muestra n. En el panel central
se muestra el histograma de la distribución original Beta(1.3,0.5).

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 32

La figura 7 muestra el histograma de promedios al considerar muestras de tamaño n =


5, 20, 50, 100. Al aumentar el tamaño de la muestra el histograma se acerca más a una curva
“normal”. El histograma del panel superior representa la distribución original de las Xi ’s,
en este caso, de una distribución Beta.

Nota: En la práctica, basta que el tamaño de la muestra n sea “suficientemente grande”


para que la aproximación normal sea razonable. Esto es, si Xn = (X1 , . . . , Xn ), y X̄n =
1
n (X + · · · + Xn ), para n suficientemente grande se tiene que

X̄n − µ · ·
Zn = √ ∼ N(0, 1), o bien, X̄n ∼ N(µ, σ 2 /n)
σ/ n

¿Qué tan grande debe ser n para que la aproximación sea “razonable”? Dependerá de la
distribución de los miembros de la muestra. Para distribuciones más o menos simétricas, una
aproximación razonable se logra con n ≥ 30. Distribuciones sesgadas requerirán de n ≥ 70
a más. Los promedios de la distribución Beta(0.5,0,6) de la figura 8 parecen distribuidos
normal aún para tamaños de muestra n = 5.

Distribucion Original
400
frecuencia
200 0

0.0 0.2 0.4 0.6 0.8 1.0


x

n=5 n = 20
200 400
100 200
frecuencia

frecuencia
0

0.0 0.2 0.4 0.6 0.8 0.2 0.3 0.4 0.5 0.6 0.7
x x

n = 50 n = 100
250
frecuencia

frecuencia
150
100

0 50
0

0.3 0.4 0.5 0.6 0.35 0.40 0.45 0.50 0.55 0.60
x x

Figura 8: Teorema central de lı́mite. En el panel central superior se muestra el histo-


grama de la distribución original Beta(0.5, 0.6).

Ejemplo : El tiempo de vida de unas lámparas se distribuye exponencial con tiempo


medio de vida de 10 dı́as. Tan pronto fallan son reemplazadas por otras idénticas. ¿Cuál es
la probabilidad de que se necesiten más de 50 lámparas en un año?
Solución: X ∼ Exp(θ = 10). Sn = X1 + · · · + Xn .
 
365 − 50(10) TCL
P (S50 < 365) = P Zn < √ ≈ Φ(−1.91) = 0.028
10 50

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 33

Ejemplo : Sea X1 , X2 , . . . v.a.i.i.d.’s con media µ y varianza σ 2 . Sean Sn = X1 + · · · + Xn ,


X̄n = n1 Sn . Aproxime P | X̄n − µ |≥ c .


Solución: Se sigue del teorema central del lı́mite que para n grande,

X̄n − µ ·
Zn = √ ∼ N(0, 1)
σ/ n

Entonces,
 
P | X̄n − µ |≥ c = 1 − P −c ≤ X̄n − µ ≤ c
!
−c X̄n − µ c
=1−P √ ≤ √ ≤ √
σ/ n σ/ n σ/ n
"    #
c −c
= 1 − P Zn ≤ √ − P Zn ≤ √
σ/ n σ/ n
"    #
TCL c −c
≈ =1− Φ √ −Φ √
σ/ n σ/ n
 
−c
= 2Φ √
σ/ n

Ejemplo : Se toma una muestra aleatoria de tamaño n para determinar el porcentaje que
votará por el candidato X.
Sean X1 , X2 , . . . v.a.i.i.d.’s Xi ∼ Ber(p). Luego, E[X] = p = µX y var(X) = p(1 − p) =
2
σX ≤ 1/4.

a). Si n = 900,
!
 TCL −0.025
P | X̄n − p |≥ 0.025 ≈ 2Φ 1
√ = 2Φ(−1.50) = 2(0.067) = 0.1336
2 / 900


b). P | X̄n − p |≥ c = 0.01. Determine c si n = 900.

 
−c
2Φ √ = 0.01
σ/ n


c = −z.005 σ/ n
1 √
= 2.576 · / 900 0.005 0.005
2 z0.005 z0.995 = 2.576
= 0.043

Note que por simetrı́a al rededor de 0, z0.005 = −2.576 = −z0.995 .



c). Determine n de manera que P | X̄n − p |≥ 0.025 = 0.01.
 
P |X̄n −p|

σ/ n
≥ 0.025

σ/ n
= 0.01.
.025
Por otro lado, z.995 = 2.576 = 1 √
/ n
. Ası́,
2

√ 2.576 1
n= · = 51.517 y por lo tanto n ≈ 2654
.025 2
E. Barrios Estadı́stica Matemática versión 0.34
Apuntes para Estadı́stica Matemática 34

4.5. Ejercicios
Refiérase a la Lista de Ejercicios 4, problemas 1–19.

Textos de apoyo
Blitzstein and Hwang (2014); Hoel, Port, and Stone (1971); Mood, Graybill, and Boes
(1974); Wackerly, Mendenhall III, and Scheaffer (2008).

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 35

5. Estimadores
5.1. Introducción
En esta sección se presenta la manera de asociar “leyes de probabilidad” a observacio-
nes.

Muchas distribuciones dependen de pocos parámetros, que cuando se conocen sus


valores las distribuciones quedan completamente determinadas. Por ejemplo, si N ∼
Po(λ) y se sabe que λ = 3, entonces la distribución está totalmente definida.

El problema es ¿cómo se sabe que λ = 3? La más de las veces no se sabe y hay que
estimarlo de los datos.

Una vez estimados los parámetros se debe revisar qué tan bien la distribución estimada
ajusta los datos. (Pruebas de bondad de ajuste.)

En esta sección se verán ciertos métodos de estimación y algunas de sus propiedades.

Ejemplo: Ajuste de datos Poisson5


La tabla 1 muestra la emisión de partı́culas radioactivas en intervalos de 10 segundos.
N = 1207 intervalos (independientes). 18 de ellos tuvieron 0, 1 o 2 emisiones; 28 de ellos
tuvieron 3 emisiones; 56 tuvieron 4; . . . 5 intervalos tuvieron 17 o más emisiones.

Tabla 1: Número de intervalos observados y estimados con un número n de partı́culas


emitidas.

n Observados Esperados χ2
0−2 18 12.2 2.76
3 28 27.0 0.04
4 56 56.5 0.01
5 105 94.9 1.07
6 126 132.7 0.34
7 146 159.1 1.08
8 164 166.9 0.05
9 161 155.6 0.19
10 123 130.6 0.44
11 101 99.7 0.02
12 74 69.7 0.27
13 53 45.0 1.42
14 23 27.0 0.59
15 15 15.1 0.00
16 9 7.9 0.15
17+ 5 7.1 0.62
1207 1207 9.05

Si supone que la emisión de partı́culas sigue aproximadamente un distribución Poisson


con λ, el número medio de emisiones por intervalo (de 10 segundos), entonces la probabilidad
de tener k emisiones es
λk e−λ
πk = P (X = k) = k = 0, 1, 2, . . .
k!
5
Rice (2007).

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 36

P
El promedio observado de emisiones por intervalo de 10 segundos fue λ̂ = ki ni /N =
8.392 6

Note que las frecuencias observadas en los N = 1207 intervalos serán distintas si se
volviese a observar otros tantos intervalos. Es la misma situación al lanzar 20 veces una
moneda. Dos series de 20 volados no tienen porque tener la misma secuencia de águilas
y soles. Una segunda sucesión de intervalos seguramente tendrı́a un número promedio de
emisiones distinto, digamos λ̂2 . Luego, dependiendo de la serie de observaciones tendrı́amos
distintos valores correspondientes a λ. Entonces, a su vez, λ es una variable aleatoria y su
distribución se conoce como distribución muestral.
Ahora, la pregunta es ¿cómo evaluar la calidad del ajuste? Es decir, observados las
N = 1207 intervalos, ¿su distribución se parece efectivamente a la de una distribución
Poisson? Si la respuesta la creyésemos afirmativa, entonces para un valor de emisiones
elegido k, en N ensayos se esperarı́an ek = N πk . Intuitivamente pareciera que una medida
de la bondad del ajuste pudiera ser
n
X (oi − ei )2
S= (1)
ei
i=1

donde el ı́ndice i se refiere al número de “casilla” donde se comparan los valores esperados
ei con los valores observados oi .
Note que si la distribución del número de emisiones X fuese efectivamente Poisson con
λ = 8.392, entonces, por ejemplo p4 = P(X = 4) = 0.047 y en N = 1207 realizaciones
esperarı́amos e4 = N p4 = 1257(.047) = 56.6 emisiones. Los conteos esperados y correspon-
dientes sumandos de la expresión (1) se muestran en la tabla 1.
Se puede mostrar, no en este curso, que bajo ciertas condiciones, el estadı́stico S
(función de la muestra que no depende de parámetros desconocidos) de la expresión (1)
sigue asintóticamente una distribución χ2n−1 . Si λ no se conoce y hubiera que estimarlo,
entonces S ∼ χ2n−k−1 , donde n es el número de casillas donde se compara lo esperado con
lo estimado (n = 16) y k es el número de parámetros estimados de la muestra (k = 1).
En nuestro ejemplo, S = 9.047, que, si suponemos que sigue una distribución χ2ν , con
ν = 16 − 1 − 1 = 14, P(χ214 ≥ 9.047) = 0.828. Esta última probabilidad se interpreta como
la probabilidad de ver el estadı́stico observado o algo más extremo. En nuestro ejemplo, con
el valor-p de 0.82, concluimos que no es extraño lo observado y aceptarı́amos el modelo
de la distribución Poisson con λ = 8.392. Por otro lado, si por ejemplo, consideramos
que λ = 8.75, el correspondiente estadı́stico S = 30.186 con un valor-p de 0.007, que se
interpretarı́a como que la probabilidad de observar S = 30.186 o algo mayor es un evento de
probabilidad de apenas 0.7 %, lo que harı́a sospechar sobre la validez del modelo propuesto,
a saber, X ∼ Po(8.75). La figura 9 muestra las frecuencias observadas y esperadas para los
dos casos mencionados anteriormente. La figura 10 presenta la función de densidad de la
distribución χ214 y localiza los estadı́sticos observados y correspondientes valores-p.
6
Resultado λ̂ = 8.392, tomado del libro de texto. Nuestros cálculos arrojan λ̃ = 8.370.

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 37

Distribución Muestral

observados
esperados

150100
frecuencia
50
0

0 5 10 15 20
n

Figura 9: Observaciones.

Distribución χ214
0.08
0.06
densidad
0.040.02

0.829

0.007
0.00

9.0374 30.19

0 10 20 30 40
x

Figura 10: Densidad χ214 indicando los valores de los estadı́sticos observados y sus corres-
pondientes valores-p, S = 9.034(0.829) y S = 8.75(0.007) correspondientes a los parámetros
λ̂ = 8.392 y λ̃ = 8.750, respectivamente.

5.2. Principios de estimación puntual


De manera muy somera se puede suponer que

Probabilidad. Supone que el modelo es conocido y uno se pregunta por las proba-
bilidades de ciertos eventos.

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 38

Estadı́stica. A partir de la salida de un experimento (observación, muestreo) se desea


conocer los valores de los parámetros o el modelo (de distribución) mismo.

Modelos estadı́sticos.
X ∼ f , con f. d. p., f. m. p., f. p. a. o función de distribución, representan el modelo
(distribución) estadı́stico. Aunque se supone que X es observable, no siempre lo es pero aún
ası́ se puede hablar del modelo.
En muchos casos el modelo (distribución) depende de parámetros θ (univariado) ó θ
(vector de parámetros). Se supone por ejemplo que θ ∈ Θ ⊆ R (θ ∈ Θ ⊆∈ Rk ), con Θ el
espacio de parámetros.
Si X ∼ f (x; θ), entonces
R
Pθ (A) = A f (x; θ)dx;
R
Eθ [X] = R xf (x; θ)dx;

varθ (X) = Eθ [X 2 ] − E2θ [X].

etcétera.
Los modelos pueden ser indexados por un vector de parámetros finito y en ese caso se dice
que es un modelo paramétrico. Si no es posible se dice modelo no paramétrico con Θ
de dimensión infinita.
Si para un modelo y parámetro θ dado corresponde una distribución Fθ , podrı́a ser
que θ2 ̸= θ1 pero que Fθ1 = Fθ2 , por lo que podrı́a tener un problema de estimación.
Supondremos que si Fθ1 = Fθ2 =⇒ θ1 = θ2 . Esto es, el modelo es identificable. Parámetros
de modelos identificables se dicen estimables.

Ejemplos.
X = (X1 , . . . , Xn ) m. a. de X ∼ Po(λ).

λx e−λ
f (x; λ) = , λ ∈ Λ = R+ espacio de parámetros
x!

X m. a. de X ∼ F , continua pero desconocida. En este caso, el espacio de parámetros


serı́a el espacio de funciones continuas que no pueden ser indexadas por parámetros.
Luego el modelo es no paramétrico.

X una m. a. de X ∼ F , con f. d. p. f tal que f (x − θ) desconocida pero que satisface


f (x) = f (−x). El problema es no paramétrico pero depende también de θ por lo que
se dice semi-paramétrico.

X = (X1 , . . . , Xn ) v. a.’s independientes normales con E[Xi ] = β0 + β1 ti + β2 si ,


i = 1, . . . , n. si , ti conocidas. var(Xi ) = σ 2 . Θ = {(β0 , β1 , β2 , σ 2 ) : βi ∈ R, σ 2 > 0}, el
espacio de parámetros. El modelo (la parametrización) es identificable si y solo si los
vectores z0 = 1, z1 = t, z2 = s son linealmente independientes.

5.3. Estimación de parámetros


Suponer que una población X puede ser modelada mediante una ley de probabilidades
puede darse por distintas razones:
Razonamiento teórico. La teorı́a dice que la variable observada X puede distribuirse
de acuerdo a cierta ley. Por ejemplo, la distribución del error o variación modelada
por la normal de acuerdo a Teorema Central del Lı́mite.

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 39

Razonamiento empı́rico. La teorı́a dice que la variable observada puede aproxi-


marse razonablemente mediante cierta ley. Por ejemplo, la distribución Poisson en la
emisión de partı́culas radioactivas.

Ajuste empı́rico Las observaciones son aproximadas mediante una ley sin teorı́a que
respalde tal aproximación. Por ejemplo, usar la distribución Gamma para aproximar
la precipitación pluvial.

Recuerde, si X = (X1 , . . . , Xn ) es una muestra aleatoria de tamaño n de la población X,


S = S(X) es un estadı́stico si S es función de la muestra que no depende de parámetros
desconocidos.
Se supone que la población de interés X es modelada mediante la distribución pa-
ramétrica f (x, θ), donde θ = (θ1 , . . . θk ), es el vector de parámetros. Se ha visto que un
estimador θ̃ es en general un estadı́stico que aproxima el valor del parámetro θ, usual-
mente desconocido.

Definición : Suponga que X sea modelada por la f. d. p. f (x; θ), donde θ = (θ1 , . . . , θk ),
es un vector de parámetros. θ ∈ Θ = {θ : θ es un valor factible}, es el espacio de paráme-
tros.

Ejemplo :

X ∼ N(µ, σ 2 ). θ = (µ, σ) ∈ R × R+ = Θ.

Y ∼ Gamma(α, β). θ = (α, β) ∈ R+ × R+ = Θ.

Definición : Un estimador θ̃ es una regla, generalmente función de la muestra X, que


aproxima el valor real, pero desconocido, del vector de parámetros θ. Decimos que θ̃(X)
es un estimador del parámetro θ y θ̃(X) tiene una distribución nombrada como la distri-
bución muestral. Dada la muestra observada x = (x1 , . . . , xn ), θ̃(x) se dice que es una
estimación de θ.

Definición : Sea X ∼ f (x; θ) y suponga el parámetro θ univariado y θ̃(X) estimador de


θ. Se define el sesgo del estimador θ̃ por

sesgo(θ̃; θ) = Bias(θ̃; θ) = B(θ̃; θ) = E[θ̃ − θ]


h i
Se dice que θ̃ es un estimador insesgado si B(θ̃) = 0, o bien, E θ̃(X) = θ.

Definición : La desviación estándar de un estimador se conoce como error estándar del


estimador. q
ee(θ̃) = var(θ̃)
El error estándar de un estimador es una medida de lo preciso (variable) del estimador.
La figura 11 muestra el caso de un estimador preciso pero sesgado (panel izquierdo); un
estimador insesgado pero impreciso (panel central) y el caso de un estimador ideal: insesgado
y preciso.

Definición : Sea X = (X1 , . . . , Xn ) una muestra aleatoria de X ∼ f (x; θ). Sea θ̃ = θ̃(X)
un estimador del parámetro θ. Se define el error cuadrático medio de θ̃ por
h i
ECM(θ̃) = E (θ̃ − θ)2

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 40

sesgado impreciso ideal

θ θ θ

Figura 11: Estimadores. El panel de la derecha muestra estimaciones de un estimador del


parámetro θ ideal: insesgado y preciso.

Proposición : Sea X una muestra aleatoria de X ∼ f (x; θ). Para todo estimador θ̃ de θ,
se tiene que
ECM(θ̃) = var(θ̃) + sesgo2 (θ̃)

Demostración:

ECM(θ̃) = E[(θ̃ − θ)2 ]


n o2 
= E (θ̃ − Eθ̃) + (Eθ̃ − θ))

= E[(θ̃ − Eθ̃)2 ] + E[(Eθ̃ − θ)2 ] + 2(Eθ̃ − θ)E[θ̃ − Eθ̃]


= var(θ̃) + sesgo2 (θ̃)

pues el E[θ̃ − Eθ̃] = 0 y E[(Eθ̃ − θ)2 ] = sesgo2 (θ̃).

Definición : Sea θ̃1 , θ̃2 , . . . una sucesión de estimadores de θ. Se dice que {θ̃n } es un
estimador consistente de θ si
P
θ̃n −→ θ
Esto es, si para todo ϵ > 0, se tiene que P(|θ̃n − θ| > ϵ) → 0. En general, θ̃n = θ̃(Xn ), donde
Xn = (X1 , . . . , Xn ) es una m. a. de tamaño n.

Definición : {θ̃n } se dice consistente en error cuadrático medio si


ECM(θ̃n ) = E[(θ̃ − θ)2 ] −→ 0
Esto es, si para todo ϵ > 0 ECM(θ̃n ) < ϵ, para n > N (ϵ).

Proposición : Si {θ̃n } es consistente en error cuadrático medio, entonces var(θ̃n ) → 0 y


sesgo(θ̃) → 0.

Demostración: ECM(θ̃n ) = var(θ̃n ) + sesgo2 (θ̃n ) −→ 0, entonces cada uno de los sumandos
se va a cero por ser ambas cantidades positivas.

Proposición : Si {θ̃n } es consistente en error cuadrático medio, entonces es consistente.


Lo contrario no es necesariamente cierto.
Demostración: Se sigue de la desigualdad de Chebyshev,
  var(θ̃ − θ)
n
P |θ̃n − θ| ≥ ϵ ≤ −→ 0
ϵ2
E. Barrios Estadı́stica Matemática versión 0.34
Apuntes para Estadı́stica Matemática 41

Comparación de estimadores
Una manera de comparar estimadores es mediante el error cuadrático medio. Se prefiere
θ̃1 sobre θ̃2 si ECM(θ̃1 ) < ECM(θ̃2 ). Si ambos estimadores son insesgados, tal comparación
se reduce a elegir aquel estimador con menor varianza.

Definición : Sean θ̃1 y θ̃2 dos estimadores insesgados de θ, Se define la eficiencia de θ̃2
relativa a θ̃1 por
var(θ̃1 )
eff(θ̃2 , θ̃1 ) =
var(θ̃2 )
Se dice que θ̃2 es más eficiente que θ̃1 , si eff(θ̃2 , θ̃1 ) > 1.
En ocasiones las varianzas son de la forma
c1 c2
var(θ̃1 (Xn )) = ; var(θ̃2 (Xn )) =
n n
En este caso, la eficiencia se define como el cociente entre los tamaños de muestra para
hacer que ambas varianzas sean iguales.

Definición : Sea Xn = (X1 , . . . , Xn ) una muestra aleatoria de X ∼ f (x; θ), un estimador


Tn∗ = T ∗ (Xn ) del parámetro τ (θ) se dice que es un estimador insesgado de varianza
mı́nima (UMVUE, uniformly minimum-variance unbiased estimator ), si y solo si,

i) Eθ [Tn∗ ] = τ (θ).

ii) varθ (Tn∗ ) ≤ varθ (Tn ), para todo Tn , estimador insesgado de τ (θ).

Cota inferior de Cramér-Rao.

Teorema (CICR): Sea θ un parámetro, τ una función real diferenciable y τ (θ) un paráme-
tro definido en términos de θ por τ = τ (θ). Sea Tn = T (Xn ) un estimador insesgado de τ .
Entonces, bajo condiciones de regularidad 7
 ′ 2
τ (θ)
varθ (Tn ) ≥  2  (2)

nEθ ∂θ log f (X; θ)

La igualdad se cumple si y solo si existe una función, digamos K(θ, n) tal que

∂  
log f (Xn ; θ) = K(θ; n) T (Xn ) − τ (θ) (3)
∂θ
La expresión (2) se conoce como la desigualdad de Cramér-Rao y el lado derecho de la
desigualdad como la cota inferior de Cramér-Rao (CICR).

Ejemplo : Sea Xn = (X1 , . . . , Xn ), una m. a. de X ∼ Exp(λ). Luego, E[X] = 1/λ = τ y


considere Tn = T (Xn ) = X̄n estimador insesgado de τ . Por mostrar que Tn alcanza la cota
inferior de Cramér-Rao.

f (x; λ) = λe−λx

Sea ℓ(λ; x) = log f (x; λ) = log λ − λx.


7
Condiciones apropiadas de suavidad, de acuerdo a Rice (2007).

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 42


∂λ ℓ(λ; x) = λ1 − x.
 2

∂λ ℓ(λ; x) = λ12 − 2 λx + x2 .
 2 
E ∂
∂λ ℓ(λ; X) = 1
λ2
− 2 1/λ 1
λ + ( λ2 +
1
λ2
) = 1
λ2

Por otro lado, sea τ (λ) = 1/λ. Entonces, τ ′ (λ) = −1/λ2 y (τ ′ (λ))2 = 1/λ4 , por lo que la
desigualdad de Cramér-Rao queda

1/λ4 1
var(Tn ) ≥ 2
=
n/λ nλ2
1/λ2
Se tiene también que var(Tn ) = var(X̄n ) = var(X)/n = n . Esto es, se alcanza la CICR.
Finalmente, note que
n n  
∂ X ∂ X 1
log f (Xn ; θ) = log f (Xi ; θ) = n/λ − Xi = −n X̄n −
∂λ ∂λ λ
i=1 i=1

con K(λ, n) = −n y (T (Xn ) − τ (λ)) = (X̄n − 1/λ) de la expresión (3).

5.4. El método de momentos


Sea X ∼ f (x; θ). Recuerde que el r-ésimo momento de X (o de la distribución de X) es
µr = E[X r ], siempre que el valor esperado exista.
Suponga Xn = (X1 , . . . , Xn ) una muestra aleatoria de la población X. Se define el
n
1X r
r-ésimo momento muestral por mr = Xi
n
i=1
En este caso, parecerı́a intuitivo ver a mr como un estimador de µr . Si, por ejemplo,
k = 2 y se tiene el vector de parámetros θ = (θ1 , θ2 ) y θi = hi (µ1 , µ2 ), i = 1, 2. Entonces,
por el método de momentos se estimarı́a

θ̃1 = h1 (m1 , m2 ) y θ̃2 = h2 (m1 , m2 )

Resumiendo: la estimación de parámetros por el método de momentos involucra el prin-


cipio de sustitución de acuerdo a Knight (2000):

Encuentre las expresiones que relacionen los momentos teóricos con los parámetros a
estimar. Exprese los parámetros en términos de los momentos.

Calcule los momentos muestrales de bajo orden que sean necesarios en el punto ante-
rior.

Sustituya los momentos muestrales en las expresiones del primer punto. El resultado
son los estimadores de momentos (emm).

Ejemplo : Sea Xn = (X1 , P . . . , Xn ) una m. a. de X ∼ Po(λ).


µ1 = E[X] = λ; m1 = n ni=1 Xi = X̄n . Entonces, λ̃emm = X̄.
1

Note que el estimador λ̃ es insesgado puesp E[λ̃] = E[X̄] = λ. Además, var(λ)


p = var(X̄) =
λ/n. Finalmente, su error estándar, ee(λ̃) = λ/n estimado a su vez por X̄/n.

de X ∼ N(µ, σ 2P
Ejemplo : Sea Xn = (X1 , . . . , Xn ) una m. a.P ).
Entonces, µ1 = µ y µ2 = µ2 + σ 2 . m1 = n Xi y m2 = n1
1
Xi2 . Entonces,

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 43

µ̃ = m1 = X̄.
1 1
σ̃ 2 = m2 − m21 = Xi2 − X̄ 2 = (Xi − X̄)2 .
P P
n n

Note que µ̃ = X̄ es un estimador insesgado de µ con un error estándar ee(X̄) = σ/ n.
Por otro lado, si σ̃ 2 = n−1 2 2 2 n−1 2
n S , con S la varianza muestral, entonces E[σ̃ ] = n E[S ] =
n−1 2 2 2
n σ , por lo que σ̃ es un estimador sesgado de la varianza σ . Su error estándar
s
σ2 p
 
2 n−1 2
ee(σ̃ ) = var S = 2(n − 1)
n n

n−1 2 σ4
pues S ∼ χ2n−1 , por lo que var(S 2 ) = (n−1)2
2(n − 1).
σ2
Ejemplo : Sea Un = (U1 , . . . , Un ), una m. a. de U ∼ Unif(0, θ), con θ > 0.
θ 1 P
Entonces, µ1 = E[U ] = 2 . m1 = n Ui = Ū . Y por lo tanto, θ̃emm = 2Ū , lo que puede
dar lugar a estimaciones absurdas si, por ejemplo, U(n) > 2Ū = θ̃.
Ejercicio8 : El ángulo θ en que un electrón es emitido se puede modelar mediante un f. d.
p. dada por
1 + αx
f (x; α) = 1(−1,1) (x)
2
para algún |α| ≤ 1 y donde x = cos θ. Consideraciones fı́sicas sugieren que |α| < 1/3.
Xn = (X1 , . . . , Xn ) una m. a. de X. Muestre que α̃emm = 3X̄.

Proposición : Los estimadores por el método de momentos son estimadores consistentes.


Sea θ̃n = θ̃(Xn ) el estimador por el método de momentos del parámetro θ. Entonces, bajo
condiciones razonables
P
θ̃n −→ θ
Esto es, para todo ϵ > 0, P(|θ̃n − θ| > ϵ) → 0.
Demostración: Se basa en la Ley de los Grandes Números y el teorema del mapeo continuo.

Ejemplo : Considere la m. a. Y = (Y1 , . . . , Yn ) de Y ∼ Ga(α, β), con α y β los parámetros


de forma y escala respectivamente. Entonces,

m1 ≡ µ1 = E[Y ] = αβ

m2 ≡ µ2 = E[Y 2 ] = αβ 2 + α2 β 2 = αβ 2 (1 + α)

Resolviendo el sistema para α y β,

m21 Ȳ 2 m2 − m21 σ̃ 2
α̃emm = 2 = 2 y β̃emm = =
m2 − m1 σ̃ m1 Ȳ

El problema ahora serı́a determinar la distribución (muestral) de los estimadores α̃ y β̃.


Una manera de evaluar (aproximar) a su vez el sesgo y el error estándar de los estima-
dores es mediante la simulación Monte Carlo.
8
Rice (2007).

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 44

αemm βemm

3000

3000
2500

2500
2000

1500 2000
frecuencias

frecuencias
1000 1500

1000
500

500
2.014 ~ 0.444
β
0

0
1.6 2.32 3.04 0.28 0.42 0.57
2 4 6 8 0.0 0.5 ~ 1.0 1.5
~
α β

Figura 12: Histogramas de estimaciones de los parámetros de forma α y escala β, de


una distribución gamma por el método de momentos. Los intervalos están centrados en el
promedio de estimaciones y son de amplitud 2 desviaciones estándar.

A saber, en este ejemplo se simula una gran cantidad (N ) de muestras aleatorias de


una distribución Gamma del mismo tamaño n de la muestra original Y y de parámetros de
forma α̃emm y de escala β̃emm .
Sean pues Y1 , . . . , YN , las N muestras simuladas. Por ejemplo, la j-ésima muestra serı́a
Yj = (Yj1 , . . . , Yjn ) Y con base en esta muestra se obtendrı́an las correspondientes estima-
ciones α̃j y β̃j . Finalmente, si definimos µ̄ y σ̄ 2 como la media y varianza de los estimadores.
Ası́,
N N
1 X 1 X
µ̄α̃ = α̃j µ̄β̃ = β̃j
N N
j=1 j=1
N N
1 X 1 X
σ̄α̃2 = (α̃j − µ̄α̃ )2 σ̄β̃2 = (β̃j − µ̄β̃ )2
N N
j=1 j=1

Esta manera de estimación por simulación (Monte Carlo) de muestras se conoce como
bootstrap. Uno de varios métodos de remuestreo. La figura 12 muestra los histogramas de
las estimaciones α̃ y β̃ para una simulación de N = 10, 000 muestras de tamaño n = 30 de
una distribución Ga(α = 2.01, β = 0.44).

Nota: La consistencia de los estimadores θ̃ se justifica por


P
Sθ̃ = ee(θ̃) −→ σ(θ̃) = stdev(θ̃) = h(θ̃)
Sθ̃ P
Esto es, lı́m = 1 cuando σ(θ) es una función continua h de θ, pues θ̃ −→ θ, por LGN
n→∞ ee(θ̃)
P
y σ(θ̃) −→ σ(θ) por el teorema del mapeo continuo.

5.5. El método de máxima verosimilitud


Ejemplo9 : Suponga una urna con bolas blancas y negras en una proporción entre ellas
de 3 a 1, pero no se sabe cuál es más numerosa. Para determinarlo se llevan a cabo n
9
Mood, Graybill, and Boes (1974).

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 45

extracciones independientes con reemplazo. Si X denota el número de bolas negras en las


n extracciones, X ∼ Bin(n, p) con p = 1/4 ó p = 3/4. Para n = 3 se construye la siguiente
tabla de probabilidades:
p 0 1 2 3
3/4 1/64 9/64 27/64 27/64 1
1/4 27/64 27/64 9/64 1/64 1
Por ejemplo, P(X = 1; p = 3/4) = 9/64, mientras que P(X = 1; p = 1/4) = 27/64.
Si en las tres extracciones salen 0 ó 1 bola negra uno se inclinarı́a por p̂ = 1/4 por
tener asociadas las probabilidades más altas. Igualmente uno se inclinarı́a por p̂ = 3/4 si el
número de negras fuera 2 ó 3.

Definición : Sea X = (X1 , . . . , Xn ) un vector aleatorio (muestra) con función de densidad


conjunta f (x; θ), con θ ∈ Θ. Se define la función de verosimilitud L, como la función de
θ dado x igual a la función de densidad conjunta f (x), dado θ . Esto es,

L(θ; x) = f (x; θ), θ∈Θ

Nota: Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una población X ∼ f (x; θ), con
θ ∈ Θ. Dada la realización x = (x1 , . . . , xn ), por independencia queda la función de
verosimilitud L como
Yn
L(θ; x) = f (x; θ) = f (xi ; θ)
i=1

Para cada realización X = x, L(θ; x) es una función real Con dominio en el espacio de
parámetros Θ.

Definición : Suponga x = (x1 , . . . , xn ), una muestra observada de X ∼ f (x; θ) se define


θ̂emv , el estimador de máxima verosimilitud de θ por
( )
θ̂emv = arg sup L(θ; x)
θ∈Θ

Un estimador de máxima verosimilitud  (EMV) de θ, es un estadı́stico S(X) = θ̂emv ,


si sobre θ ∈ Θ, sup L(θ, X) = L S(X), X .

Definición : Sea x = (x1 , . . . , xn ) una muestra observada de X ∼ f (x; θ). Se define la


función log de verosimilitud por

ℓ(θ; x) = log L(θ; x)

Si la muestra x es aleatoria,
n
X
ℓ(θ; x) = log L(θ; x) = log f (xi ; θ)
i=1

Nota: Si θ̂(x) maximiza la función de verosimilitud L, por monotonı́a creciente de la función


logaritmo θ̂ también maximiza la función log de verosimilitud ℓ.

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 46

Ejemplo : Considere X = (X1 , . . . , Xn ) una m. a. de X ∼ Po(λ). Entonces f (x; λ) =


e−λ
λx , x = 0, 1, 2, . . . y
x!
L(λ, x) = f (x; λ)
Y
= f (xi ; λ)
P Y
xi −nλ
=λ e / xi !
X X
ℓ(λ; x) = log λ xi − nλ − log xi !

∂ℓ 1X
= xi − n
∂λ λ
En este caso, se puede maximizar el log de la verosimilitud ℓ derivando (con respecto a λ) e
igualando a cero para resolver con λ̂emv = X̄, que en este ejemplo coincide con el estimador
del parámetro λ por el método de momentos λ̃emm . Luego, se tiene que

L(x̄; x) ≥ L(λ; x), para todo λ > 0

Notas:

1. No siempre se puede obtener el estimador de máxima verosimilitud por derivación,


por ejemplo, cuando la función no es diferenciable o debido al espacio de parámetros.

2. Los estimadores de máxima verosimilitud no son necesariamente insesgados.

3. Los estimadores de máxima verosimilitud no son únicos necesariamente.

Ejemplo : Sea T = (T1 , . . . , Tn ) una m. a. de T ∼ Exp(θ), donde θ = E[T ] para algún


θ > 0. Luego f (t; θ) = 1θ e−t/θ 1R+ (t). Entonces,

L(θ, t) = f (t; θ)
Y
= f (ti ; θ)
1 P
= θ−n e− θ ti

1X
ℓ(θ; t) = −n log θ − ti
θ
∂ℓ −n 1 X
= + 2 ti
∂θ θ θ
Nuevamente, igualando la derivada a cero y resolviendo para θ, se tiene que
n
1X
θ̂emv = ti = t̄
n
i=1

Nota: En este caso, si T ∼ Exp(λ), con E[T ] = θ = 1/λ. Entonces,


1
λ̂emv =
θ̂emv
por el principio de invarianza de los estimadores de máxima verosimilitud y que se verá
más adelante.

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 47

Ejemplo : Sea U = (U1 , . . . , Un ) una m. a. de U ∼ Unif(0, θ), para algún θ > 0. Luego,
f (u; θ) = 1θ 1(0,θ) (u) y se sigue que

Y n
Y
−n
L(θ, u) = f (ui ; θ) = θ 1(0,θ) (ui )
i=1

Note que (
θ−n si, 0 < ui < θ, para todo i = 1, . . . , n
L(θ, u) =
0 en caso contrario
Luego, la función de verosimilitud L será mayor mientras más chico sea θ pero siempre y
cuando sea mayor que todos los ui ’s. Entonces, θ̂emv = U(n) pues
( )
máx{U1 , . . . , Un } = arg sup L(θ; u)
θ>0

En este caso, la maximización de la función de verosimilitud no fue por derivación y no


ayudarı́a el uso del log de la verosimilitud. Por otro lado, note que la distribución muestral
del estimador corresponde a la del n-ésimo estadı́stico de orden, el máximo de la muestra.

Ejemplo : Considere X = (X1 , . . . , Xn ) una m. a. de X ∼ N(µ, σ 2 ). Sea θ = (µ, σ) ∈ Θ =


R × R+ . Luego, la función de verosimilitud y log de la verosimilitud están dadas por
n
1 1 2
e− 2σ2 (xi −µ)
Y
L(θ, x) = √
i=1
2πσ
n
n 1 X
ℓ(θ; x) = − log(2π) − n log σ − 2 (xi − µ)2
2 2σ
i=1

funciones suaves en θ ∈ Θ conjunto abierto por lo que derivando e igualando a cero permite
la localización del máximo.
∂ℓ 2 X
=− 2 (xi − µ)(−1) = 0 =⇒ µ̂ = x̄
∂µ 2σ
∂ℓ n 1 X 1X
=− + 3 (xi − µ̂)2 = 0 =⇒ σ̂ 2 = (xi − µ̂)2
∂σ σ σ n
2 = n1 (Xi − X̄)2 = n−1 2
P
Note que µ̂emv = X̄ es un estimador insesgado de µ, pero σ̂emv n S es
2 n−1 2 2
sesgado pues E[σ̂ ] = n σ . Además, la distribución muestral de µ̂ es N(µ, σ /n) mientras
2
que σ̂ 2 ∼ σn χ2n−1 .
1 1
Qn m. a. de U ∼ Unif(θ − 2 , θ + 2 ). La
Ejemplo : Considere ahora U = (U1 , . . . , Un ) una
función de verosimilitud está dada por L(θ; U ) = i=1 1(θ− 1 ,θ+ 1 ) (Ui ). Luego,
2 2
(
1 si θ − 12 ≤ ui ≤ θ + 12 , i = 1, . . . , n
L(θ, u) =
0 en caso contrario

Entonces, la función es máxima si para todo i = 1, . . . , n, θ − 12 ≤ ui ≤ θ + 21 . Esto es, si y


solo si θ ≤ ui + 21 y ui − 12 ≤ θ, y esto ocurre si y solo si u(n) − 12 ≤ θ ≤ u(1) + 12 . Luego, el
estimador θ̂emv será todo valor de θ en el intervalo (U(n) − 21 , U(1) + 12 ). Se concluye que los
estimadores de máxima verosimilitud no son necesariamente únicos.

Ejemplo : Considere Y = (Y1 , . . . , Yn ) una muestra aleatoria de una población modelada


mediante una distribución gamma con parámetro de forma α, β parámetro de escala y

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 48

λ = 1/β parámetro tasa. Entonces, por ejemplo, el vector de parámetros es θ = (α, β) en


el espacio de parametral Θ = R+ × R+ .
1
Luego, f (y; θ) = α y α−1 e−y/β 1R+ (y) con E[Y ] = αβ y var(Y ) = αβ 2 .
β Γ(α)
Sea mr = n1 ni=1 Yir , el r-ésimo momento muestral. Luego,
P

µ = µβ = m1
σ 2 = αβ 2 = m2 − m21

y resolviendo para α y β se tienen los estimadores por el método de momentos


m21 m2 − m21
α̃emm = y β̃emm =
m2 − m21 m1
Ahora bien,
n
Y 1
L(θ, y) = y α−1 e−yj /β
β Γ(α) j
α
j=1
α−1
− β1
Y P
yj
= β −nα Γ−n (α) yj e
X 1X
ℓ(α, β; y) = −nα log β − n log Γ(α) + (α − 1) log yj − yi
β
Derivando la función log de la verosimilitud e igualando a cero se tiene el siguiente sistema
∂ℓ Γ′ (α) X
= −n log β − n + log yj = 0 (4)
∂α Γ(α)
∂ℓ nα 1 X
=− + 2 yj = 0 (5)
∂β β β

De la ecuación (5) se sigue que β̂emv = , mientras que de la ecuación (4) se tiene la
α̂
siguiente ecuación
Γ′ (α) X
−n log Ȳ + n log α − n + log Yj = 0
Γ(α)
cuya solución arrojarı́a α̂, el estimador de máxima verosimilitud del parámetro de forma.
Note que la ecuación anterior no tiene una solución analı́tica, por lo que no hay una
expresión cerrada para α̂emv , pero se puede resolver numéricamente y se dispondrı́an ası́ de
estimaciones de α y consecuentemente para β.
√ √
Ejercicio 10 :. Sea X = (X1 , . . . , Xn ) una muestra aleatoria de X ∼ Unif(µ− 3σ, µ+ 3σ).
Encontrar los estimadores por el método de momentos y por el de máxima verosimilitud
del vector de parámetros θ = (µ, σ) ∈ Θ = R × R+ .

Ejemplo : Suponga que X = (X1 , . . . , Xk ) es una muestra aleatoria de tamaño n de una


población X ∼ Multinomial(n; p1 , . . . , pk ). Entonces,
 
n
f (x; p) = px1 · · · pxk k
x1 · · · xk 1

donde n = ki=1 xi y 1 = ki=1 pi . Entonces, la función log de la verosimilitud


P P

X X
ℓ(p; x) = log n! − log xi ! + xi log pi
10
Mood, Graybill, and Boes (1974).

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 49

NotePque maximizar ℓ(p; x) sobre el espacio de parámetros impone la restricción pi ≥ 0 y


que pi = 1. Luego, se ha de resolver el problema

máx ℓ(p; x)
p
X
sujeto a pi = 1

Para esto, se puede construir el lagrangiano


X X X 
L(p; λ) = log n! − log xi ! + xi log pi + λ pi − 1

con λ como el multiplicador de Lagrange y que da lugar al sistema

∂L(p; λ) Xi ∂L(p; λ) X
= + λ = 0, = pi − 1 = 0
∂pi pi ∂λ
con solución
Xi Xi
p̂i = P = , i = 1, . . . , k
Xj n

Modelo de Equilibrio de Hardy-Weinberg11


De acuerdo con la Ley de Hardy-Weinberg, si las frecuencias de los genotipos están en
equilibrio, los genotipos AA, Aa, y aa, ocurren con una frecuencia mostrada en la tabla
g AA Aa aa
f (1 − θ) 2 2θ(1 − θ) θ2
En una muestra aleatoria (Hong Kong, población china, 1937) se encontró la siguiente
distribución en el tipo de sangre:
g M MN N Total
f 342 500 187 1029
Interesa
q el parámetro θ. Para esto se tienen varias formas de estimarlo. Por ejemplo,
187
θ̃ = 1029 = 0.4263. Sin embargo, parecerı́a que este procedimiento ignora la información
de las otras celdas.
Alternativamente, si asumimos el modelo multinomial, X ∼ Multinomial(n, p).
X X
ℓ(θ, x) = log n! − log xi ! + xi log pi
X
= log n! − log xi ! + x1 log(1 − θ)2 + x2 log 2θ(1 − θ) + x3 log θ2
= K + (2x1 + x2 ) log(1 − θ) + (x2 + 2x3 ) log θ + x2 log 2
∂ℓ(θ, x) −1 1
= (2x1 + x2 ) + (x2 + 2x3 )
∂θ 1−θ θ
Que igualando la derivada del log de la verosimilitud a cero y resolviendo para θ

x2 + 2x3 x2 + 2x3 500 + 2(187)


θ̂emv = = = = 0.4247
2x1 + 2x2 + 2x3 2n 2(1029)

En este caso, para determinar el error estándar del estimador se usarı́a bootstrap.
11
Rice (2007).

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 50

Datos censurados12
Sea T = (T1 , . . . , Tn ) una muestra aleatoria de T ∼ Exp(λ). λ es el parámetro tasa
de la distribución tal que E[T ] = 1/λ. Suponga por ejemplo que T denota el tiempo de
procesamiento de un trabajo industrial con un tiempo medio de 1/λ.
Y
L(λ; t) = λe−λti
X
ℓ(λ; t) = n log λ − λ ti

∂ℓ(λ; t) n X
= − ti
∂λ λ
Nuevamente, igualando a cero al derivada del log de la verosimilitud y resolviendo se tiene
n
λ̂emv = P = 1/t̄
ti

Suponga ahora que los trabajos que se observaron hasta un tiempo τ fueron los primeros
m y lo único que se sabe de los últimos n − m es que duraron más de τ . En este caso, la
función de verosimilitud queda
m
Y n
Y
L(λ; t) = f (ti ; λ) P(Tj > τ )
i=1 j=m+1
Pm n−m
= λm e−λ i=1 ti

1 − F (τ )
Pm h in−m
= λm e−λ i=1 ti e−λτ
m
X
ℓ(λ; t) = m log λ − λ ti − λτ (n − m)
i=1
 
m
∂ℓ(λ : t) m  X
= − ti + τ (n − m)
∂λ λ
i=1

Igualando a cero y despejando para λ se tiene


m
λ̂emv = Pm
T
i=1 i + τ (n − m)

12
Garthwaite, Jolliffe, and Jones (2002).

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 51

5.6. Principio de Invarianza de EMV


Con el apoyo de Mood, Graybill, and Boes (1974) y Dudewicz and Mishra (1988).

Sea X = (X1 , . . . , Xn ) muestra aleatoria de X ∼ f (x; θ), θ ∈ Θ ⊆ R y sea τ = τ (θ) ∈


T ⊆ R una transformación de θ.

Proposición : Sea θ̂ = θ̂(x) un estimador de máxima verosimilitud (emv) del parámetro θ


de f (x; θ) con θ ∈ Θ ⊆ R. Si el parámetro τ = τ (θ) es una función invertible de θ, entonces
el emv de τ es τ̂ = τ (θ̂).
Demostración:
L(τ̂ , x) = sup L(τ ; x) = sup L(θ; x) = L(θ̂; x)
{τ ∈T } {θ:τ (θ)=τ }

La propiedad se puede extender a un vector de parámetros θ y una función no necesaria-


mente uno-a-uno. Por ejemplo, sea σ 2 la varianza de una distribución Bernoulli parámetro
de éxito p. Entonces, σ 2 = p(1 − p) que no es función uno-a-uno de p, pero como se ha visto,
p̂ = X̄ y el emv es σ̂ 2 = x̄(1 − x̄).
Considere ahora θ = (θ1 , . . . , θk ) ∈ Θ ⊆ Rk y sea τ (θ) = (τ1 (θ), . . . , τr (θ)) ∈ T ⊆
Rr , 1 ≤ r ≤ k. Sea M (τ ; x) = sup L(θ; x). El estimador de máxima verosimilitud
{θ:τ (θ)=τ }
τ̂ maximiza la función de verosimilitud inducida por τ , M (τ ; x). Esto es, τ̂ es tal que
M (τ̂ ; x) ≥ M (τ ; x), para todo τ ∈ T .

Proposición : Sea θ̂ = (θˆ1 , . . . , θˆk ), con θ̂j = θ̂j (X) un estimador de máxima verosimilitud
del vector de parámetros θ de f (x; θ). Sea τ (θ) = (τ1 (θ), . . . , τr (θ)). Entonces, el estimador
de máxima verosimilitud de τ (θ) es τ̂ = τ (θ̂) = (τ1 (θ̂), . . . , τr (θ̂)).
Demostración: Sea θ̂ = (θ̂1 , . . . , θ̂k ) un emv de θ. Entonces,

M (τ , x) = sup L(θ; x)
{θ:τ (θ)=τ )}

≤ sup L(θ; x)
{θ∈Θ}

= L(θ̂; x)
= sup L(θ; x)
{θ:τ (θ)=τ (θ)}

= M (τ (θ̂); x)

Resumiendo: si θ̂ es un emv de θ y τ = τ (θ), entonces τ̂ = τ (θ̂) es un emv de τ .

Ejemplo : Sea X una m. a. de X ∼ N(µ, σ 2 ). θ = E[X 2 ] = µ2 + σ 2 . Entonces, el emv de


θ es
1X
θ̂ = X̄ + (Xi − X̄)2
n

5.7. Teorı́a de grandes muestras para EMV

Ejemplo : Considere Xn = (X1 , . . . , Xn ) una m. a. de X ∼ Geom(θ) con θ ∈ Θ = (0, 1) y


f. m. p. dada por
f (x; θ) = θ(1 − θ)x 1{0,1,...,} (x)

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 52

con E[X] = (1 − θ)/θ = θ−1 − 1 y var(X) = (1 − θ)/θ2 = θ−2 (1 − θ). Entonces,


P
L(θ, x) = θn (1 − θ) xi
X
ℓ(θ; x) = n log θ + xi log(1 − θ)

∂ℓ(θ; x) n 1 X
= + xi
∂θ θ 1−θ
1
De donde se puede ver que el estimador de máxima verosimilitud es θ̂ = .
X̄n + 1
Ahora bien, se sigue del teorema central del lı́mite que
 
1−θ
 X̄n − θ  D
 q  −→ Z ∼ N(0, 1)
1−θ
nθ2

por lo que,
√  
·
 
n X̄n − (θ−1 − 1) ∼ N 0, θ−2 (1 − θ)

Considere ahora h(x) = 1/(1 + x), luego h′ (x) = −1/(1 + x)2 . Se sigue del método delta
que var(h(X)) = (h′ (µX ))2 σX
2 , por lo que

2
σX̄ 1−θ
n θ2 2
var(h(X̄n )) = = 4 = θ (1 − θ)/n
(1 + µX̄n )4

1−θ
n 1+ θ

Por lo tanto, puesto que θ̂n = h(X̄n ) se sigue del teorema del mapeo continuo que para n
grande
√ √  
·
 
n(θ̂n − θ) = n h(X̄n ) − h(θ−1 − 1) ∼ N 0, θ2 (1 − θ)
o bien, para n grande se tiene
·
θ̂n ∼ N(θ, θ2 (1 − θ)/n)
En general, bajo ciertas condiciones razonables los estimadores de máxima verosimilitud
son estimadores consistentes.
En esta sección se presentará también el concepto de varianza asintótica y se mostrará
que para muestras grandes los estimadores de máxima verosimilitud se distribuyen aproxi-
madamente de manera normal.
Las demostraciones formales de los resultados antes mencionados son muy técnicas.
Aquı́ se presentarán versiones heurı́sticas y poco detalladas para los casos univariados y
trabajando con muestras aleatorias (v.a.i.i.d.). Vea por ejemplo Rice (2007) y Knight (2000).
Para mayor formalidad y detalle consulte Casella and Berger (2002), Dudewicz and Mishra
(1988) o Bickel and Doksum (1977).
Sean,
Xn = (X1 , . . . , Xn ) una muestra aleatoria de tamaño n de una población X ∼ f (x; θ)
con θ ∈ Θ.
Q
L(θ; x) = f (xi ; θ), la función de verosimilitud.
P
ℓ(θ; x) = log L(θ, x) = log f (xi ; θ) la función log de la verosimilitud.
Sea θ0 el verdadero (y desconocido) valor del parámetro θ. Se mostrará que θ̂n = θ̂(Xn ) =
θ̂emv es un estimador consistente. Esto es,
P
θ̂n −→ θ0

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 53

Condiciones de Regularidad (CR)


Las condiciones de regularidad son en general condiciones de suavidad de las fun-
ciones relacionadas a la función de verosimilitud. Entre ellas está el permitir intercambiar
el orden de integración y derivación. Dependiendo del resultado es la necesidad de apelar a
una o varias de las condiciones o supuestos que a continuación se enuncian.

i) El espacio parametral Θ es un subconjuntos abierto de R.

ii) El soporte de la densidad f (x; θ) no depende del parámetro θ.



iii) log f (x; θ) existe para todo x y para todo θ.
∂θ
Z Y n Z n
∂ ∂ Y
iv) f (xi ; θ) dx = f (xi ; θ) dx
∂θ Rn Rn ∂θ
i=1 i=1
Z n Z n
∂ Y ∂ Y
v) t(x) f (xi ; θ) dx = t(x) f (xi ; θ) dx
∂θ Rn Rn ∂θ
i=1 i=1
" 2 #

vi) 0 < Eθ log f (X; θ) < ∞, para todo θ ∈ Θ
∂θ

Consistencia

Teorema : Bajo condiciones apropiadas de suavidad (cr) sobre f , los estimadores de


máxima verosimilitud (emv) a partir de una muestra aleatoria (v.a.i.i.d.’s) son consistentes.
Demostración: Considere maximizar
1 1X
ℓ(θ; X) = log f (X; θ)
n n
Se sigue de la ley de los grandes números
1X P  
log f (Xi ; θ) −→ E log f (X; θ0 )
n
R
con E[log f (X; θ)] = R log f (x; θ) · f (x; θ0 )dx. Luego, se puede pensar que para “n grande”,
el valor de θ que maximiza ℓ(θ; X), θ̂n , esté cerca de θ0 , aquel que maximiza E[log f (X : θ)].
Ahora bien, para maximizar E[log f (X; θ)], se toma derivada
Z 
∂   ∂
E log f (X; θ0 ) = log f (x; θ)f (x; θ0 )dx
∂θ ∂θ R
Z
cr ∂ 
= log f (x; θ) f (x; θ0 )dx
∂θ
ZR
1 ∂
= f (x; θ) f (x; θ0 )dx
f (x; θ) ∂θ
ZR

= f (x; θ)dx
R ∂θ
Z
cr ∂
= f (x; θ)dx
∂θ R
=0

con la penúltima lı́nea cuando θ = θ0 , lo que muestra que θ0 es un punto estacionario de ℓ


y posiblemente correspondiente a un máximo.

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 54

Definición : Se define la función score S por


∂ ∂
S(θ; x) = log f (x; θ) = ℓ(θ; x)
∂θ ∂θ

Proposición : Bajo condiciones de regularidad (cr) se tiene que


 

E[S(θ; X)] = E log f (X; θ) = 0
∂θ
Demostración:
  Z
∂ ∂
E log f (X : θ) = log f (x; θ)f (x; θ)dx
∂θ ∂θ
ZR
1 ∂
= f (x; θ) f (x; θ)dx
f (x; θ) ∂θ
ZR

= f (x; θ)dx
R ∂θ
Z

= f (x; θ)dx
∂θ R
=0

Número de Información

Definición : Se define la varianza de la función score como el número de información


(de Fisher). " 2 #

I(θ) = var(S(θ; X)) = E log f (X; θ)
∂θ

Lema : Sea I(θ) el número de información de Fisher, entonces, bajo condiciones de regu-
laridad se tiene " #
∂2
I(θ) = −E log f (X; θ)
∂θ2
Z
R ∂
Demostración: Recuerde que R f (x; θ)dx = 1, luego f (x; θ)dx = 0. Note además que
∂θ R
 
∂ ∂
f (x; θ) = log f (x; θ) f (x; θ) (6)
∂θ ∂θ
∂ 1 ∂
pues log f (x; θ) = f (x; θ). Entonces,
∂θ f (x; θ) ∂θ
Z Z  
∂ cr ∂
0= f (x; θ)dx = log f (x; θ) f (x; θ)dx
∂θ R R ∂θ

Tomando segunda derivada y empleando (6) se tiene


Z   Z " 2 # Z  2
∂ ∂ ∂ ∂
0= log f (x; θ) f (x; θ)dx = 2
log f (x; θ) f (x; θ)dx+ log f (x; θ) f (x; θ)dx
∂θ R ∂θ R ∂θ R ∂θ

Ası́, se concluye que " #


∂2
I(θ) = −E log f (X : θ)
∂θ2

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 55

Distribución asintótica

Teorema : Sea Xn = (X1 , . . . , Xn ), una muestra aleatoria de X ∼ f (x; θ), con θ ∈ Θ, si


θ̂n = θ̂(Xn ) es el emv del parámetro θ0 . Entonces, bajo condiciones de regularidad se tiene
que
p D
nI(θ0 ) (θ̂n − θ0 ) −→ Z ∼ N(0, 1)
Esto es, los estimadores de máxima verosimilitud se distribuyen asintóticamente normal. El
estimador θ̂n se dice asintóticamente insesgado y se define la varianza asintótica del
1
estimador θ̂ por .
nI(θ0 )
Demostración: Considere la función log de verosimilitud ℓ(θ; X) = log L(θ; X). Entonces,
puesto que θ̂ corresponde a un máximo de ℓ(θ), se sigue que

0 = ℓ′ (θ̂) ≈ ℓ′ (θ0 ) + ℓ′′ (θ0 )(θ̂ − θ0 )

al expandir la función score ℓ′ alrededor del verdadero valor θ0 . Se sigue que


√ n−1/2 ℓ′ (θ0 )
n(θ̂ − θ0 ) ≈ −
n−1 ℓ′′ (θ0 )
Considere el numerador:
h i 1 
E n−1/2 ℓ′ (θ0 , X) = √ E S(θ, X) = 0

n
1
var(n−1/2 ℓ′ (θ0 , X)) =

var S(θ, X) = I(θ0 )
n
Considere ahora el denominador, se sigue de la LGN,
" #
1 ′′ 1 X ∂2 P ∂ 2
ℓ (θ0 ; , X) = log f (Xi ; θ0 ) −→ E log f (X; θ) = −I(θ0 )
n n ∂θ2 ∂θ2

Entonces,
√ n−1/2 ℓ′ (θ0 )
n(θ̂ − θ0 ) ≈
I(θ0 )
De donde,

E[ n(θ̂ − θ0 )] ≈ 0
√  1
var n(θ̂ − θ0 ) ≈ 2 I(θ0 )
I (θ0 )
  1
var θ̂ − θ0 ≈
nI(θ0 )

Finalmente, note que ℓ′ (θ0 ; X) = ∂


P P
S(θ; Xi ) = ∂θ log f (Xi ; θ), por lo que se sigue del
D
TCL que n/I(θ0 )ℓ′ (θ; X) −→ Z ∼ N(0, 1), y por el teorema de Slutsky,
p

p p n−1/2 ℓ′ (θ0 , X) D
nI(θ0 )(θ̂ − θ0 ) = − I(θ0 ) −1 ′′ −→ Z ∼ N(0, 1)
n ℓ (θ0 ; X)

Corolario : θ̂n , estimador de máxima verosimilitud del parámetro θ0 . Entonces,


 
· 1
θ̂n ∼ N θ0 ,
nI(θ0 )

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 56

Definición : Se define la varianza asintótica de θ̂ por


1 1
v.a.(θ̂) = = ′′
nI(θ0 ) E[ℓ (θ0 , X)]

Note, cuando E[ℓ′′ (θ0 )] es grande, en promedio ℓ(θ) cambia rápidamente en vecindad de
θ0 y la varianza del estimador θ̂ es pequeña. O bien, “La información sobre θ contenida en
L(θ; X) es grande”.
Existe el resultado equivalente para el caso multivariado. El vector θ̂n es distribuido
asintóticamente normal con E[θ̂n ] → θ0 y cov(θn ) → n1 I−1 (θ0 ), donde
" # " #
 ∂ ∂ ∂2
I(θ0 ) ij = E log f (X; θ) log f (X; θ) = −E log(X; θ)
∂θi ∂θj ∂θi ∂θj

5.8. Cota inferior de Cramér-Rao


En esta sección se revisa y demuestra la desigualdad de Cramér-Rao. Para esto se
presentan los siguientes resultados.

Lema : Z
∂ Y
f (xi ; θ)dx = 0
Rn ∂θ
Demostración:
Z Z Y
∂ Y cr ∂ ∂
f (xi ; θ)dx = f (xi ; θ)dx = [1] = 0
Rn ∂θ ∂θ Rn ∂θ

Lema :
∂ Y Y ∂ Y
f (xi ; θ) = f (xi ; θ) log f (xj ; θ)
∂θ ∂θ
Demostración:

∂ Y ∂ log Q f (xi ;θ)


f (xi ; θ) = e
∂θ ∂θ
Q ∂ Y
= elog f (xi ;θ) · log f (xj ; θ)
∂θ
Y ∂ Y
= f (xi ; θ) log f (xj ; θ)
∂θ

Teorema : Desigualdad de Cauchy-Schwarz Sea X y Y dos variables aleatorias con


varianza finita. Entonces,
E2 [XY ] ≤ E[X 2 ]E[Y 2 ]
cumpliéndose la igualdad si y solo si P(Y = 0) = 1, o bien, P(X = cY ) = 1, para alguna
constante c.

Teorema : Desigualdad de Cramér-Rao Sea Xn = (X1 , . . . , Xn ) una muestra aleatoria


de X ∼ f (x; θ). Sea Tn = T (Xn ) un estimador insesgado de τ = τ (θ), τ , función real
diferenciable de θ. Entonces, bajo ciertas condiciones de regularidad (cr),
 ′ 2
τ (θ)
varθ (Tn ) ≥  2 

nEθ ∂θ log f (X; θ)

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 57

La igualdad se cumple si y solo si existe una función, digamos K(θ; n) tal que
X ∂  
log f (xi ; θ) = K(θ; n) T (xn ) − τ (θ)
∂θ

Demostración:

τ ′ (θ) = τ (θ)
∂θ

= Eθ [Tn ]
∂θ
Z

= T (x)f (x; θ)dx + 0
∂θ Rn
Z Z Y
cr ∂ Y ∂
= T (x) f (xi ; θ) dx − τ (θ) f (xi ; θ) dx
Rn ∂θ ∂θ Rn
Z
  ∂ Y
= T (x) − τ (θ) f (xi ; θ)dx
Rn ∂θ
Z
 ∂ Y Y
= T (x) − τ (θ) log f (xj ; θ) f (xi ; θ)dx
Rn ∂θ
"  #
 ∂ Y
= Eθ T (X) − τ (θ) log f (Xi ; θ)
∂θ

Se sigue de la desigualdad de Cauchy-Schwarz que


" 2 #
 ′ 2 h 2 i ∂ Y
τ (θ) ≤ Eθ T (X) − τ (θ) Eθ log f (Xj ; θ)
∂θ

O bien,
2
τ ′ (θ)

var(T (X)) ≥  2 
∂ Q
Eθ ∂θ log f (Xj ; θ)

Pero, se tiene que,


" 2 # " 2 #
∂ Y X ∂
Eθ log f (Xj ; θ) = Eθ log f (Xj ; θ)
∂θ ∂θ
"  #
X ∂ ∂
= Eθ log f (Xi ; θ) log f (Xj ; θ)
∂θ ∂θ
i,j
" 2 #
X ∂
= Eθ log f (Xi ; θ)
∂θ
i
" 2 #

= nEθ log f (Xi ; θ)
∂θ

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 58

pues Xi y Xj son independientes. Además,


  Z  
∂ ∂
Eθ log f (X; θ) = log f (x; θ) f (x; θ)dx
∂θ R ∂θ
Z

= f (x; θ)dx
R ∂θ
Z

= f (x; θ)dx
∂θ R
=0
En la desigualdad de Cauchy-Schwarz se da la igualdad si y solo si una de las v. a.’s es
múltiplo de la otra con probabilidad 1. En este caso, se requiere que
∂ Y 
log f (xj ; θ) ∝ T (xn ) − τ (θ)
∂θ
O bien, que exista una constante K = K(θ; n) tal que
∂ Y  
log f (xj ; θ) = K(θ, n) T (x) − τ (θ)
∂θ
De la desigualdad de Cramér-Rao se sigue:
Si la varianza del estimador es cercana a la CICR es estimador insesgado es “bueno”.
Si la varianza del estimador alcanza la CICR entonces el estimador es UMVUE.

Ejemplo13 : Sea X = (X1 , . . . , Xn ) una m. a. de X ∼ Po(λ). Luego,


λx e−λ
f (x; λ) = x! , x = 0, 1, 2, . . . .
∂ ∂ x
log f (x; λ) = (−λ + x log λ − log x!) = −1 +
∂λ ∂λ λ
Entonces,
" 2 # " #
∂ 2X X2
Eλ log f (X; λ) = Eλ 1 − + 2
∂λ λ λ
1
=1−2+ (λ + λ2 )
λ2
= 1/λ
por lo que el denominador de la cota de Cramer-Rao es n/λ.
Por otro lado, si τ = τ (λ) = P(X = 0) = e−λ , y Tn = T (Xn ), estimador insesgado de τ ,
se sigue de la desigualdad de Cramér-Rao,
h i2
e−λ 1
var(Tn ) ≥ = λe−2λ
n/λ n
Note, si Tn = T (Xn ) = n1 ni=1 1{0} (Xi ) entonces E[Tn ] = n1 ni=1 P(Xi = 0) = e−λ = τ .
P P
Esto es, Tn es un estimador insesgado de τ , y
1 −λ
var(Tn ) = e (1 − e−λ )
n
que ciertamente es mayor que la cota inferior de Cramér-Rao, λe−2λ /n!. Más adelante se
encontrará un UMVUE para τ .
13
Mood, Graybill, and Boes (1974)

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 59

5.9. Estadı́sticos suficientes


A principios del los años 1920’s Ronald A. Fisher estudiaba la estimación de σ 2 de una
población normal con base en una muestra aleatoria X. Comparó la inferencia sobre σ
basado en los estadı́sticos14
X X
T1 (X) = |Xi − X̄| y T2 (X) = (Xi − X̄)2

Fisher mostró que la distribución de T1 |T2 = t no dependı́a de σ mientras que la de T2 |T1 = t,


sı́ dependı́a de σ. Concluyó que T2 (X) capturaba toda la información sobre σ contenida en
la muestra mientras que T1 (X) no.
Suponga X una muestra aleatoria de X ∼ f (x; θ), θ ∈ Θ y sea T (X) un estadı́stico. Para
todo t sea At = {x ∈ X : T (x) = t}. Los At forman una partición de X. Considere ahora
la distribución de X en el conjunto At (condicional de X dado T = t). Si tal distribución
es independiente de θ, X no tiene información de θ en At , X es un estadı́stico auxiliar en
At . Si lo anterior se cumple para todo At , T (X) tiene la misma información sobre θ que
X. La misma idea se presenta en el siguiente principio.

Definición : Sea X una muestra aleatoria de X ∼ f (x; θ). T (X) se dice estadı́stico
auxiliar (ancilliary statistic) de θ si su distribución es independiente de θ. Esto es, si para
todo θ ∈ Θ, la distribución de T es la misma.

Ejercicio : Sea U = (U1 , . . . , Un ) una muestra aleatoria de U ∼ Unif(µ−θ, µ+θ). Entonces,


el rango muestral R(U ) = U(n) − U(1) , es un estadı́stico auxiliar para µ.

Definición : Sea X una muestra aleatoria de X ∼ f (x; θ). Un estadı́stico S(X) se dice
estadı́stico suficiente para el parámetro θ (puede ser un vector) si y solo si la distribución
condicional de X dado S = s no depende de θ para cualquier valor de S(x) = s.
Equivalentemente15 , S(X) es un estadı́stico suficiente si y solo si, para todo S(x) = s,
fijo con f. d. p. fS , Q
f (xi ; θ)
= h(x)
fS (s; θ)
y donde h(x) no depende de θ. Como consecuencia, si T (X) es otro estadı́stico, dado S(x),
no hay manera que T pueda ser usado para hacer inferencia sobre θ, pues h(x) no depende
de ella.
Note que trivialmente la muestra misma (X1 , . . . , Xn ) o la muestra ordenada (X(1) , . . . , X(n) )
son estadı́sticos suficientes.

Principio de Suficiencia16
Si T (X) es un estadı́stico suficiente de θ, entonces la inferencia sobre θ deberá
depender de X solo a través de T . Esto es, si x y y son dos muestras tales que
T (x) = T (y), entonces la inferencia sobre θ es indistinta si se basa en x o y.

Ejemplo17 : Considere X3 = (X1 , X2 , X3 ), m. a. de X ∼ Ber(p). Considere los estadı́sticos


14
Knight (2000).
15
Hogg and Craig (1978).
16
Casella and Berger (2002).
17
Mood, Graybill, and Boes (1974).

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 60

S(X) = X1 + X2 + X3 y T (X) = X1 X2 + X3 . Se tiene por ejemplo que

fX|S ((0, 1, 0)|S = 1) = P(X1 = 0, X2 = 1, X3 = 0|S = 1)


P(X1 = 0, X2 = 1, X3 = 0, S = 1)
=
P(S = 1)
(1 − p)p(1 − p)
= 3

2
1 p(1 − p)
1
=
3
mientras que

fX|T (0, 1, 0|T = 0) = P(X1 = 0, X2 = 1, X3 = 0|T = 0)


P(X1 = 0, X2 = 1, X3 = 0, T = 0)
=
P(T = 0)
p(1 − p)2
=
(1 − p)3 + 2p(1 − p)2
p
=
1+p
De esta forma se obtiene la tabla

x S = s T = t f (x|s) f (x|t)
1−p
(0, 0, 0) 0 0 1 1+p
1 1−p
(0, 0, 1) 1 1 3 1+2p
1 p
(0, 1, 0) 1 0 3 1+p
1 p
(1, 0, 0) 1 0 3 1+p
1 p
(0, 1, 1) 2 1 3 1+2p
1 p
(1, 0, 1) 2 1 3 1+2p
1 p
(1, 1, 0) 2 1 3 1+2p
(1, 1, 1) 3 2 1 1

En el ejemplo anterior note que la distribución de X dado S = X1 +X2 +X3 no dependen


del parámetro p mientras que la distribución condicionada en T (X) = X1 X2 +X3 sı́ depende
de p. S es un estadı́stico suficiente para p, T no lo es.

Teorema Factorización Neyman–Fisher 18 Sea X = (X1 , . . . , Xn ) una muestra con


función de densidad conjunta f (x; θ), θ ∈ Θ, Entonces, S = S(X) es un estadı́stico suficiente
para θ, si y solo si, se tienen g y h, funciones no negativas tales que

fX (x; θ) = g(S(x); θ)h(x) (7)

para todo S(x) = s fijo y la función h no depende de θ. S y θ pueden ambos ser vectores.
Demostración:
18
Rice (2007), Hogg and Craig (1978).

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 61

Caso discreto: Suponga que S es un estadı́stico suficiente. Entonces,

fX (x; θ) = Pθ (X = x)
X
= Pθ (X = x, S = s)
s
= Pθ (X = x, S = S(x))
= Pθ (S = S(x))P(X = x|S = S(x))
= g(S(x); θ)h(x)

pues S es un estadı́stico suficiente por lo que P(X = x|S = S(x)) es independiente


de θ.
Suponga ahora que fX (x; θ) = g(S(x); θ)h(x). Entonces, para S(x) = s,

Pθ (X = x)
Pθ (X = x|S = s) =
Pθ (S = s)
g(S(x); θ)h(x)
=P
S(y)=s g(S(y); θ)h(y)
h(x)
=P
S(y)=s h(y)

que no depende de θ. Si S(x) ̸= s, Pθ (X = x|S = s) = 0. En cualquier caso,


Pθ (X = x|S = s) es independiente de θ, por lo que S es suficiente.

Caso continuo: Suponga X v. a. continua con f. d. p. f (x; θ), θ ∈ Θ y tal que acep-
ta la factorización (7) para todo s = S(x) fijo. Defina y1 = s(x) = G1 (x), y2 =
G2 (x), . . . , yn = Gn (x)), con la transformación inversa H = (H1 , . . . , Hn ), tal que
xi = Hi (y). Se sigue del teorema de transformación que

fY (y; θ) = fX H(y); θ |JH(y)|

Se sigue de (7) que la f. d. p. marginal de S = Y1


Z

fS (s; θ) = fX H(y); θ |JH(y)|dy2 · · · dyn
Rn−1 Z

= g(s; θ) h H(y )|JH(y)|dy2 · · · dyn (8)
Rn−1

Considere ahora la función h, para s = y1 = G1 (x) fijo, h no depende de θ, tampoco


JH ni los lı́mites de integración, por lo que la integral en (8) depende solamente de
s, digamos I(s), por lo que
fS (s; θ) = g(s; θ))I(s)
Ahora, si I(s) = 0, entonces fS (s; θ) = 0, y si I(s) > 0, g(s; θ) = g(s(x); θ) =
fX (s(x); θ)/I(s(x)), y la factorización queda

h(x)
f (X; θ) = fS (s(x); θ)
I(s(x))

y el cociente no depende de θ. Luego, S(X) es un estadı́stico suficiente para θ de


acuerdo con la definición alternativa.
Y viceversa, si S es un estadı́stico suficiente para θ, la factorización se construye
tomando a fS como la función g en la expresión (7).

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 62

Ejemplo : Sea X = (X1 , . . . , Xn ) una m. a. de X ∼ Ber(θ). Luego


Y
f (x; θ) = f (xi ; θ)
Y
= θxi (1 − θ)1−xi
P P
= θ xi (1 − θ)n− xi
"  P xi #
θ
= (1 − θ)n · 1
1−θ
= g(T (x); θ) · h(x)

donde T (x) = xi y h(x) = 1. Se sigue del teorema de factorización que T (Xn ) = ni=1 Xi
P P
es un estadı́stico suficiente para
P θ.
Note: Puesto que T = Xi es un estadı́stico suficiente para θ, la maximización de
f (x; θ) = g(T (x); θ)h(x) es a través de la función g(t, θ). Luego,

g(t; θ) = θt (1 − θ)n−t
log g(t, θ) = t log θ + (n − t) log(1 − θ)
∂ t n−t
log g = −
∂θ θ 1−θ
Igualando a cero la derivada y despejando para θ se concluye que
Pn
t Xi
θ̂emv = = i=1 = X̄
n n

Ejemplo : Sea X = (X1 , . . . , Xn ) una m. a. de X ∼ N(µ, σ 2 ). Sea el vector de parámetros


θ = (µ, σ) ∈ Θ = R × R+ . Entonces,
Y
f (x : θ) = f (xi ; θ)
 
−n/2 −n 1 X 2
= (2π) σ exp − 2 (xi − µ)

 i
−n/2 −n 1 hX 2 X
2
= (2π) σ exp − 2 xi − 2µ xi + nµ

 i
−n/2 −n 1 h 2
= (2π) σ exp − 2 S1 (x) − 2µS2 (x) + nµ · |{z}
1

| {z } h(x)
g(T (x);θ)

 P 2 P 
Por lo tanto, S(X) = S1 (X), S2 (X) = Xi , Xi es un estadı́stico suficiente conjunto
para θ = (µ, σ).

Definición : Sea X = (X1 , . . . , Xn ) una muestra aleatoria de X ∼ f (x; θ), θ = (θ1 , . . . , θk ) ∈


Θ ⊆ Rk . El estadı́stico T = T (X) = (T1 (X), . . . , Tr (X)) es un estadı́stico suficiente
conjunto para θ si y solo si

f (x; θ) = g(T (x), θ) h(x)

donde h es una función no negativa que no depende de θ y g es una función no negativa de


depende de x solamente a través de T (x) = t.

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 63

Ejemplo : Sea Un = (U1 , . . . , Un ) una m. a. de U ∼ Unif(θ1 , θ2 ). Entonces, con θ = (θ1 , θ2 ),


1
la f. d. p. es f (u; θ) = θ2 −θ 1
1 (θ1 ,θ2 )
(u) y la conjunta puede escribirse como

f (un ; θ) = (θ2 − θ1 )−n 1(θ1 ,yn ) (y1 )1(y1 ,θ2 ) (yn )

donde yi = u(i) , i = 1, . . . , n, son los estadı́sticos de orden. Luego, T (Un ) = (U(1) , U(n) ), es
un estadı́stico suficiente conjunto para θ = (θ1 , θ2 ).
Note que si θ1 = θ y θ2 = θ + 1, T (Un ) = (U(1) , U(n) ), sigue siendo un estadı́stico
suficiente conjunto. Sin embargo, si θ1 = 0 y θ2 = θ, entonces, T (Un ) = U(n) es un estadı́stico
suficiente por él mismo.
El estudio de las distribuciones paramétricas con estadı́sticos suficientes T con la misma
dimensión que el espacio parametral Θ independiente del tamaño de la muestra llevó a
la construcción de la familia exponencial 19 . Muchas de las distribuciones más comunes
pertenecen a esta familia, como las distribuciones Poisson, Normal, Gamma, etc.

Definición : X ∼ f (x; θ), θ ∈ Θ ⊆ R, f se dice miembro de la familia o clase exponen-


cial de un parámetro si para todo θ ∈ Θ,

f (x; θ) = exp c(θ)T (x) + d(θ) + S(x) 1SX (x) (9)

para funciones c, d, T y S, apropiadas y donde SX es el soporte de la distribución que no


depende de θ.

Proposición : Sea Xn = (X1 , . . . , Xn ) una muestra aleatoria de X ∼ f (x; θ) miembro de


la familia exponencial. Entonces,
 
 Xn Xn Y n
f (xn ; θ) = exp c(θ) T (xi ) + nd(θ) + S(xi ) 1SX (xi )
 
i=1 i=1 i=1
   
 X  X Y
= exp c(θ) T (xi ) + nd(θ) exp S(xi ) 1SX (xi )
   
i i i
| {z } | {z }
g(T (xn );θ) h(xn )
P
por lo que es claro que Tn = T (Xn ) = T (Xi ) es un estadı́stico suficiente para θ.

Ejemplo : Xn = (X1 , . . . , Xn ) es una m. a. de X ∼ Ber(θ). Entonces,


 
θ
f (x; θ) = θx (1 − θ)1−x 1{0,1} (x) = exp x log + log(1 − θ) 1{0,1} (x)
1−θ
θ
Por lo que comparando con (9), se tiene: c(θ) = log 1−θ , T (x) = x, d(θ) = log(1 − θ) y
S(x) = 0. Luego, la distribución Bernoulli es miembro de la familia exponencial.

Ejercicio : Muestre que las distribuciones Poisson, geométrica y binomial negativa son
miembros de la familia exponencial de un parámetro.

Definición : X ∼ f (x; θ), θ = (θ1 , . . . , θk ) ∈ Θ ⊆ Rk , f se dice miembro de la familia o


clase exponencial de m-parámetros si para todo θ ∈ Θ,
 
X m 
f (x; θ) = exp cj (θ)Tj (x) + d(θ) + S(x) 1SX (x) (10)
 
j=1

19
Rice (2007).

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 64

para funciones cj , d, Tj y S, apropiadas y donde SX es el soporte de la distribución que no


depende del vector de parámetros θ.
Nota: m y k no tienen porque ser iguales, aunque en muchos casos lo es.
Los parámetros ϕj = cj (θ) se conocen como los parámetros naturales o canónicos
de la distribución.

Proposición : Sea Xn = (X1 , . . . , Xn ) una muestra aleatoria de X ∼ f (x; θ) como en la


definición anterior. Entonces,
 
X m Xn Xn Y n
f (xn ; θ) = exp cj (θ) Tj (xi ) + nd(θ) + S(xi ) 1SX (xi )
 
j=1 i=1 i=1 i=1
   
X m Xn  X n Y n
= exp cj (θ) Tj (xi ) + nd(θ) exp S(xi ) 1SX (xi )
   
j=1 i=1 i=1 i=1
| {z } | {z }
g(T (x);θ) h(x)
Pn Pn 
Por lo que Tn = T (Xn ) = i=1 T1 (Xi ), . . . , i=1 Tm (Xi ) es un estadı́stico suficiente
conjunto para el vector de parámetros θ = (θ1 , . . . , θk ).

Ejercicio : Muestre que las distribuciones N(µ, σ 2 ) y Ga(α, β) son miembros de la familia
exponencial de 2 parámetros y encuentre correspondientes estadı́sticos suficientes.

Ejercicio : Considere Xn = (X1 , . . . , Xn ), una m. a. de X ∼ N(θ, θ2 ), θ ∈ Θ = R+ .


Muestre que f (x; θ) es miembro de la familia exponencial de dos parámetros a pesar de que
el espacio parametral Θ es unidimensional.

5.10. Estimadores insesgados uniformes de varianza mı́nima


20
Si un estimador insesgado alcanza la cota de Cramér-Rao (CICR), éste es un estimador
insesgado uniforme de varianza mı́nima (UMVUE). Existen sin embargo estimadores que
no alcanzan la cota pero son UMVUE. El detalle es que la CICR puede ser muy restrictiva.

Proposición : Sea Xn = (X1 , . . . , Xn ) una muestra aleatoria de X ∼ f (x; θ), θ̂n = θ̂(xn ),
un estimador de máxima verosimilitud, solución de
∂ ∂ X
log L(θ; xn ) = log f (xi ; θ) = 0
∂θ ∂θ
Si Tn = T (Xn ) es un estimador insesgado de τ (θ) cuya varianza alcanza la CICR, entonces
Tn = τ (θ̂n ).
Demostración: Se sigue del Teorema de Cramér-Rao y la definición de estimadores de máxi-
ma verosimilitud que si Tn alcanza la cota,
∂  
0= log L(θ; xn ) = K(θ; n) T (xn ) − τ (θ)
∂θ
Lo que dice que bajo condiciones de regularidad los EMV son UMVUE.

Nota: Si Tn = T (Xn ) es un estimador insesgado de τ (θ) cuya varianza alcanza la CICR


entonces, f (x; θ) es un miembro de la familia exponencial (FExp ).Y viceversa, si f ∈ FExp ,
entonces existe un estimador insesgado de τ (θ), digamos, T (Xn ) cuya varianza alcanza la
CICR. De hecho, existe solamente una función (y transformaciones lineales de ella) para
20
Mood, Graybill, and Boes (1974).

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 65

cuya varianza alcanza la cota. Por lo que la cota no es muy útil para encontrar UMVUE
salvo en los casos de la familia exponencial de un solo parámetro. Se mostrará la ventaja
de los estimadores insesgados función de estadı́sticos suficientes.

Teorema de Rao-Blackwell21 Sea X = (X1 , . . . , Xn ) una muestra aleatoria de X ∼


f (x; θ), θ ∈ Θ y T = T (X) un estimador de τ (θ) con varianza finita varθ (T ) < ∞ para
todo θ. Suponga S = S(X) un estadı́stico suficiente para θ y defina Tb = E[T |S]. Entonces,
h i h i
Eθ (Tb − τ (θ))2 ≤ Eθ (T − τ (θ))2 , para todo θ ∈ Θ
h  i
Demostración: Recuerde que E[Tb] = E E T |S = E[T ], por lo que comparar ECMs de los
estimadores se reduce a comparar sus varianzas.

var(T ) = var(E[T |S]) + E[var(T |S)]


= var(Tb) + E[var(T |S)]
≥ var(Tb)

a menos que var(T |S) = 0, que serı́a el caso solamente si T es una función de S, lo que
implicarı́a que Tb = T .

Notas:

Puesto que E[T |S] es función del estadı́stico suficiente S, Rao–Blackwell justifica el
uso de estimadores basados en estadı́sticos suficientes cuando existen. Si un estimador
no es función de un estadı́stico suficiente, éste se puede mejorar.
Si T estimador de τ es ya función del estadı́stico suficiente S, entonces Tb = E[T |S] =
T.
En la práctica, se intenta condicionar en estadı́sticos suficientes minimales.
El hecho de “mejorar” la precisión de un estadı́stico mediante el proceso de Rao–
Blackwell, no lo hace necesariamente UMVUE.

Definición : Un estadı́stico suficiente se dice minimal si y solo si éste es función de


cualquier otro estadı́stico suficiente.
Ejemplo22 : Se tiene una sucesión de ensayos Bernoulli con parámetro de éxito p. Considere
n = 4 ensayos y las siguientes tres particiones del espacio, inducidas por los correspondientes
estadı́sticos:
T1 : Salida del primer ensayo. Partición muy burda, gruesa.
T2 : Número de éxitos: Suficiente minimal para p.
T3 : T3 = (T1 , T2 ). Partición suficiente más fina de lo necesario.

La figura 13 ilustra el espacio muestral y las particiones Ti .


21
Rice (2007).
22
Garthwaite, Jolliffe, and Jones (2002).

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 66

T1 = 1 T1 = 0

T2 = 4 eeee efee feee ffee T2 = 2

eeef efef feef ffef


T2 = 3 T2 = 1

eefe effe fefe fffe

T2 = 2 eeff efff feff ffff T2 = 0

T3= (T1 , T2)


Figura 13: Particiones inducidas por los estadı́sticos T1 , T2 y T3 .

Definición : Sea X = (X1 , . . . , Xn ) una muestra aleatoria


 de X ∼ f (x; θ), con θ ∈ Θ y
sea T = T (X) un estadı́stico. La familia de densidades fT (t; θ) : θ ∈ Θ se dice completa
si y solo si Eθ [S(T )] = 0, para todo θ ∈ Θ implica que Pθ (S(T ) = 0) = 1, para todo θ ∈ Θ
y todo estadı́stico S(T ). En este caso se dice que T es un estadı́stico completo.
Alternativamente, T es un estadı́stico completo si y solo si el único estimador insesgado
del 0, función de T es S tal que P(S = 0) = 1.
Ejemplo23 : Sea Xn = (X1 , . . . , Xn ) una m. a. de X ∼ Unif(0, θ), θ ∈ Θ = R+ . Sea
Yn = X(n) = máx{Xi }. Entonces Yn es un estadı́stico completo. Esto es, por mostrar que si
Eθ [T (Yn )] ≡ 0, para todo θ > 0, entonces Pθ (T (Yn ) = 0) = 1, para todo θ > 0.
En efecto, Sea fn la f. d. p. de Yn . Luego, si para todo θ > 0
Z Z θ Z θ
−n n−1 n
Eθ [T (Yn )] = T (y)fn (y)dy = T (y)θ ny dy = n T (y)y n−1 dy ≡ 0
R 0 θ 0

diferenciando ambos lados de la integral de la derecha con respecto a θ, se tiene que

T (θ)θn−1 = 0

para todo θ. Entonces, se debe tener que T (θ) = 0, para todo θ > 0.
Teorema24 Si T es un estadı́stico suficiente completo entonces es suficiente minimal pero
no viceversa.
Determinar si un estadı́stico o familia es completa puede ser una tarea muy técnica y
no fácil. Sin embargo hay casos donde se puede asegurar la completez. Tal es el caso de la
familia exponencial.
Teorema25 Sea X = (X1 , . . . , Xn ) una muestra aleatoria de X ∼ f (x; θ), con θ ∈ Θ un
intervalo. Si f ∈ FExp , esto es si

f (x; θ) = exp{c(θ)T (x) + d(θ) + S(x)}1SX (x)


P
Entonces, T (X) = T (Xi ) es un estadı́stico completo minimal.
¯
23
Mood, Graybill, and Boes (1974) Ejemplo VII.5-33.
24
Knight (2000).
25
Mood, Graybill, and Boes (1974).

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 67

Teorema de Lehmann–Scheffé Sea X = (X1 , . . . , Xn ) una muestra aleatoria de X ∼


f (x; θ). Si S(X) es un estadı́stico suficiente completo y Tb = Tb(S) un estimador insesgado
de τ (θ), entonces es UMVUE de τ .
Demostración: Se sigue de la completez de S y del teorema de Rao–Blackwell. A saber, sea
Te(S) cualquier otro estadı́stico insesgado de τ función de S. Entonces, Eθ [Tb − Te] ≡ 0, para
todo θ ∈ Θ. Por la completez de S, se sigue que Pθ (Tb − Te = 0) = 1, para todo θ ∈ Θ. Ası́,
hay solamente un estimador insesgado de τ función de S. Sea T cualquier otro estimador
insesgado de τ . Entonces, Tb debe ser igual al E[T |S] puesto que E[T |S] es un estimador
insesgado de τ que depende de S. Se sigue del teorema de Rao–Blackwell que

varθ (Tb) ≤ varθ (T ), para todo θ ∈ Θ

Se concluye que Tb es UMVUE de τ (θ).

5.11. Ejercicios
Refiérase a la Lista de Ejercicios 5.

Textos de apoyo.
Casella and Berger (2002); Knight (2000); Mood, Graybill, and Boes (1974); Rice (2007);
Wackerly, Mendenhall III, and Scheaffer (2008).

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 68

6. Intervalos y Regiones de Confianza


6.1. Intervalos de confianza
Considere una población modelada por N(µ, σ 2 ), suponiendo σ dada. Para conocer (es-
timar ) el parámetro µ, se toma una muestra aleatoria Xn = (X1 , . . . , Xn ) de X ∼ N(µ, σ 2 ).
Se sabe que en este caso
n
1X
X̄n = Xi ∼ N(µ, σ 2 /n)
n
1=1

o bien, estandarizando
X̄n − µ
Zn = √ ∼ N(0, 1)
σ/ n
por lo que si zp denota el p-ésimo cuantil de la distribución normal estándar, se tiene que
para 0 < α < 1 pequeño,

P (zα/2 ≤ Z ≤ z1−α/2 ) = 1 − α
0.95
que para α = 0.05, 1−α = 0.95, z0.025 =
−1.96 y z0.975 = 1.96 0.025 0.025

z0.025 = − 1.96 z0.975 = 1.96

Luego, se tiene que P(−2 ≤ Zn ≤ 2) = 0.954 y


√ 
P X̄n − 2σ/ n ≤ µ ≤ X̄n + 2σ = 0.945

Note que los lı́mites del intervalo para µ arriba son: LI(X̄n ) = X̄n − 2σ/ n y LS(X̄n ) =

X̄n + 2σ/ n, lı́mites inferior y superior respectivamente son ambos estadı́sticos,
 función de
la muestra, y por lo tanto aleatorios. Luego, el intervalo LI(X̄n ), LS(X̄n ) es un intervalo
aleatorio que con 95 % de probabilidad incluye al parámetro µ.
Ahora bien,observada la muestra xn = (x1 , . . . , xn ), sea x̄n = n1
P
xi , y el intervalo
LI(x̄n ), LS(x̄n ) es un intervalo determinı́stico que contiene o no al parámetro µ, por
lo que decir que tiene una probabilidad aproximada del 95 % es incorrecto. Si se repitiese
el experimento varias veces, es decir, la toma de otras muestras del mismo tamaño, se
esperarı́a que 100(1 − α) % de ellos incluya al parámetro µ. En este sentido,  dada la muestra
observada xn = (x1 , . . . , xn ) se “confı́a” que el intervalo LI(xn ), LS(xn ) contenga a µ con
una cobertura de probabilidad o nivel de confianza (1 − α) que corresponde a la probabilidad
de que el intervalo aleatorio contenga a µ, el parámetro estimado. 
Dada la muestra aleatoria xn = (x1 , . . . , xn ), LI(xn ), LS(xn ) se dice intervalo de
confianza con un nivel de confianza del (1 − α), o bien, un intervalo de 100(1 − α) %
de confianza.
Ası́, el proceso de inferencia es intervalo de confianza. A saber,
√ √ 
X̄ − zα/2 σ/ n, X̄ + z1−α/2 σ/ n

Note que en este caso, por simetrı́a de distribución normal, el intervalo anterior se podrı́a

representar como (X̄ ± z1−α/2 σ/ n).
Si σ no es conocida los lı́mites del intervalo serı́an desconocidos aunque la probabilidad
de cobertura seguirı́a siendo válida.

Definición : Sea Xn = (X1 , . . . , Xn ) una muestra aleatoria de X ∼ f (x; θ), θ ∈ Θ


desconocida. Sean T1 = T1 (Xn ), T2 = T2 (Xn ) estadı́sticos tales que T1 < T2 para los cuales

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 69


P T1 ≤ τ (θ) ≤ T2 = γ, con 0 < γ < 1 y que no depende de θ. El intervalo (T1 , T2 ) se dice
un intervalo de 100γ % de confianza para τ (θ). γ es el nivel de confianza, T1 y T2 los lı́mites
de confianza inferior y superior.
Si xn = (x1 , . . . , xn ) es la muestra observada y ti = Ti (xn ), (t1 , t2 ) constituye un inter-
valo de 100γ % de confianza para τ (θ).
En ocasiones interesa nada más uno de los lı́mites del intervalo, por ejemplo, quizás un
intervalo de confianza para el parámetro desviación estándar, el lı́mite inferior no resulta
de interés por saber que  éste no será menor que cero. Luego se podrı́an tener intervalos
de la forma T1 ≤ τ (θ) , o bien, (τ (θ) ≤ T2 ). En esos casos, T1 y T2 se dicen lı́mites de
confianza inferior y superior, respectivamente.

Nota: Si (T1 , T2 ) constituye un intervalo del 100γ % de confianza para τ (θ) y g es una
función estrictamente monótona, se puede construir un intervalo de confianza para g(τ ),
por ejemplo, si la función g es estrictamente creciente,

P g(T1 ) ≤ g(τ ) ≤ g(T2 ) = γ

6.2. Cantidad pivotal


Sea Xn = (X1 , . . . , Xn ) una muestra aleatoria de X ∼ f (x; θ). θ ∈ Θ. Sea Q = Q(Xn ; θ).
Si Q sigue una distribución que no depende de θ, Q se dice cantidad pivotal.

Ejemplo : Sea Xn = (X1 , . . . , Xn ) una m. a. de X ∼ N(µ, 7). Luego, (X̄n − µ) ∼ N(0, 7/n)
no depende de µ. Y
X̄n − µ
Q= p ∼ N(0, 1)
7/n
Q también es una cantidad pivotal para µ.

Método de construcción de IC mediante cantidades pivotales


Si Q = Q(Xn ; θ) es una cantidad pivotal con f. d. p. fQ , entonces para γ fijo, existen q1
y q2 que dependen de γ tales que P (q1 ≤ Q ≤ q2 ) = γ.
Ahora, si para todo Xn , q1 ≤ Q(Xn ; θ) ≤ q2 si y solo si T1 (Xn ) ≤ τ (θ) ≤ T2 (Xn ), para
funciones Ti que no dependen de θ, (T1 , T2 ) constituye un intervalo de confianza para τ (θ).

Notas:

1. q1 y q2 no dependen de θ pues no lo hace fQ , su f. d. p..

2. Para γ fijo, podrı́a haber un número infinito de parejas q1 , q2 para los cuales P (q1 ≤ Q ≤ q2 ) =
γ. La siguiente figura ilustra dos casos (q1 , q2 ) y (r1 , r2 ), de tales parejas.

γ
fQ

q1 r1 q2 r2

3. Distintos q1 y q2 producirán distintos t1 y t2 .

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 70

4. Un criterio para elegir t1 y t2 es que la longitud (media) t2 − t1 sea mı́nima.

5. Lo importante en el uso de las cantidades pivotales es que puedan ser “invertidas”.


Es decir, {q1 ≤ Q ≤ q2 } si y solo si {t1 ≤ τ (θ) ≤ t2 } para toda xn , de ahı́ el nombre
de cantidad pivotal.

6.3. Muestreo de una población normal


6.3.1. Intervalo de confianza para la media conocida la varianza
Sea Xn = (X1 , . . . , Xn ) una muestra aleatoria de X ∼ N(θ, 1).

X̄n − θ
Q= √ ∼ N(0, 1)
1/ n
Q es una cantidad pivotal. Sea 0 < γ < 1, q1 , q2 tales que

γ = P (q1 ≤ Q ≤ q2 )
√ √ 
γ = P X̄n − q2 / n ≤ θ ≤ X̄n − q1 / n
√ √
La longitud del intervalo es ℓ = q2 / n − q1 / n = √1n (q2 − q1 ) y ℓ es mı́nimo si q2 = −q1
con γ = Φ(q2 ) − Φ(q1 ).
Más formalmente, se buscan q1 y q2 de manera que

mı́n √1 (q2 − q1 ) (11)


q1 ,q2 n
R q2
s.a. q1 ϕ(z)dz = γ (12)

Se sigue de la restricción (12), derivando con respecto a q1 ,


dq2
ϕ(q2 ) = − ϕ(q1 ) = 0
dq1

 
dL 1 dq2
=√ −1 =0
dq1 n dq1
 
1 Φ(q1 )
=0
n Φ(q2 ) − 1

Por lo tanto Φ(q1 ) = Φ(q2 ), por lo que q1 = q2 , ó q1 = −q2 .

Ejercicio : Sea Xn = (X1 , . . . , X − n) una m. a. de X ∼ N(θ, σ 2 ), σ conocida. Verifique


que
X̄n − θ
Q= √ ∼ N(0, 1)
σ/ n
es una cantidad pivotal tal que

γ = P (q1 ≤ Q ≤ q2 )
√ √ 
= P X̄n − q2 σ/ n ≤ θ ≤ X̄n + q2 σ/ n

donde q1 = −q2 y q2 = z1−α/2 , con γ = 1 − α. Ası́,


 √ √ 
X̄n − z1−α/2 σ/ n, X̄n + z1−α/2 σ/ n

El intervalo anterior constituye un intervalo de confianza para la media, conocida la


varianza.

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 71

6.3.2. Intervalo de confianza para la media desconocida la varianza


Considere nuevamente Xn una muestra aleatoria de X ∼ N(θ, σ 2 ), pero ahora σ no es
conocida. De cualquier modo se tiene que
X̄n − θ
√ ∼ N(0, 1)
σ/ n
( )
X̄n − θ
pero no sirve como cantidad pivotal pues depende de σ desconocida. Luego, q1 ≤ √ ≤ q2
σ/ n
no serı́a posible “invertirse”. Por otro lado, recuerde que
−θ
X̄n√
σ/ n X̄n − θ
Q= q = √ ∼ tn−1
1 Pn
− X̄n )2 /(n − 1) S/ n
σ2 i=1 (Xi
1 Pn
donde S 2 = n−1 2
i=1 (Xi − X̄n ) es la varianza muestral.
Entonces, γ = P (t1 ≤ Q ≤ t2 ). Nuevamente, por simetrı́a de la densidad de la distribu-
ción t, el intervalo (t1 , t2 ) es de longitud mı́nima si t1 = −t2 . Luego,
γ = P (t1 ≤ Q ≤ t2 )
√ √ 
= P X̄n − t2 S/ n ≤ θ ≤ X̄n − t1 S/ n
√ √ 
= P X̄n − t(1 − α/2; n − 1)S/ n ≤ θ ≤ X̄n + t(1 − α/2; n − 1)S/ n
donde t(p; ν) representa el p-ésimo quantil de la distribución t-Student con ν grados de
libertad. Por lo que
 √ √ 
X̄n − t1−α/2;n−1 S/ n, X̄n + t1−α/2;n−1 S/ n
constituye un intervalo de confianza para la media de la distribución normal, desconocida
la varianza.

6.3.3. Intervalo de confianza para la varianza


Sea Xn = (X1 , . . . , Xn ) unaPmuestra aleatoria de X ∼ N(µ, σ 2 ). Sea θ = (µ, σ 2 )
desconocida. Considere Q = σ12 ni=1 (Xi − X̄)2 . Recordar Q = n−1 σ2
S 2 ∼ χ2n−1 , donde
1 n
S 2 = n−1 2
P
i=1 (Xi − X̄) es la varianza muestral. Luego, Q es una cantidad pivotal y
( )
σ2
 
n−1 2 1 1
q1 ≤ S ≤ q2 ⇐⇒ ≤ ≤
σ2 q2 (n − 1)S 2 q1
por lo que !
(n − 1)S 2 (n − 1)S 2
P ≤ σ2 ≤ =γ
q2 q1
y donde qi ’s representarı́an cuantiles apropiados de la distribución χ2n−1 .
A diferencia de los casos anteriores, encontrar el intervalo de longitud mı́nima no tiene
solución analı́tica y habrı́a que encontrarlo por medio de algún método numérico.
Una manera empı́rica de proceder es elegir las colas del intervalo inicial para Q del
mismo peso. Por ejemplo, si se desea un intervalo de 100γ % de confianza. Las colas serı́an
de probabilidad (1 − γ)/2 cada una. Si γ = 1 − α, la colas serı́an de probabilidad α/2.
Refierase a la figura 14
Entonces, el intervalo de nivel γ de confianza para la varianza σ 2 estarı́a dado por
 
2 2
 (n − 1)S , (n − 1)S 
χ21−α/2; n−1 χ2α/2; n−1

donde χ2p;ν representa el p-ésimo cuantil de la distribución χ2 con ν grados de libertad.

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 72

γ=1−α
α 2 α 2

q1 q2

Figura 14: Intervalo (q1 , q2 ) de 100γ % de confianza para la cantidad pivotal Q con colas
del mismo peso de probabilidad.

6.4. Comparación de poblaciones normales por intervalos de confianza


Suponga que se tienen dos poblaciones modeladas por X ∼ N(µX , σX 2 ) y Y ∼ N(µ , σ 2 )
Y Y
y se desea compararlas a partir de sus medias y varianzas. Se consideraran los casos cuando
las poblaciones son o no independientes.

6.4.1. Comparación de medias, varianzas conocidas.


Considere X y Y poblaciones independientes y sean Xn1 = (X1 , . . . , Xn1 ) una muestra
aleatoria de X ∼ N(µ1 , σ12 ) y Yn2 = (Y1 , . . . , Yn2 ) una muestra aleatoria de Y ∼ N(µ2 , σ22 ) .
Sea θ = µ1 − µ2 . Se desea construir un intervalo de confianza para θ. Note que si el
intervalo incluye al cero, éste serı́a un valor posible para θ, lo que implicarı́a en el proceso
de inferencia que µ1 =P µ2 .
Entonces, X̄ = n11 ni=1 Xi ∼ N(µ1 , σ12 /n1 ) y Ȳ = n12 nj=1 Yj ∼ N(µ2 , σ22 /n2 ) indepen-
1
P 2
dientes por lo que si θ = µ1 − µ2 ,

(X̄ − Ȳ ) − θ
Q= q 2 ∼ N(0, 1)
σ1 σ22
n1 + n2

opera como cantidad pivotal y siguiendo el procedimiento de antes, un intervalo de 100γ %


de confianza para la diferencia de medias θ es
s
σ12 σ22
(X̄ − Ȳ ) ± z1−α/2 +
n1 n2

con γ = 1 − α y z1−α/2 el cuantil 1 − α/2 de la distribución normal estándar.

6.4.2. Comparación de medias, varianzas iguales desconocidas.


En este caso, X ∼ N(µ1 , σ 2 ) y Y ∼ N(µ2 , σ 2 ) independientes. Recuerde que (ni −
1)Si2 /σ 2 ∼ χ2ni −1 , donde S12 y S22 son las varianzas muestrales para X y Y , independientes.
Luego, Pn1 Pn2
2 2
2 i=1 (Xi − X̄) + j=1 (Yj − Ȳ ) (n1 − 1)S12 + (n2 − 1)S22
Sp = =
n1 + n2 − 2 n1 + n2 − 2
es un estimador insesgado de la varianza común σ 2 con

(n1 + n2 − 2)Sp2 1 h 2 2
i
2
= (n 1 − 1)S 1 + (n 2 − 1)S 2 ∼ χn1 +n2 −2
σ2 σ2

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 73

e independiente de X̄ y de Ȳ . Entonces, si θ = µ1 − µ2 ,

(X̄ − Ȳ ) − θ
r   ∼ N(0, 1)
2 1 1
σ n1 + n2

Se sigue de la independencia del numerador y denominador que


(X̄−Ȳ )−θ
r  
σ 2 n1 + n1
(X̄ − Ȳ ) − θ 1 2
Q= q =q 2 2
∼ tn1 +n2 −2
Sp n11 + n12 (n1 −1)S1 +(n2 −1)S2

/(n1 + n2 − 2)

Por lo que Q es una cantidad pivotal y p = 1 − α/2 y ν = n1 + n2 − 2


r
1 1
(X̄ − Ȳ ) ± tp;ν Sp +
n1 n2

constituye un intervalo de 100(1 − α) % de confianza para θ = µ1 − µ2 . Nuevamente, si el


cero está incluido en el intervalo anterior, se concluye que no hay evidencia en los datos de
que las medias sean distintas.

Ejercicio : Considere X y Y poblaciones independientes. Sean X = (X1 , . . . , Xm ) y


Y = (Y1 , . . . , Yn ) muestras aleatorias de X ∼ N(µ1 , σ 2 ) y Y ∼ N(µ2 , kσ 2 ), respectivamente
con la constante k > 0 conocida y σ desconocida. Construya un intervalo del 100(1 − α) %
de confianza para la diferencia de medias θ = µ1 − µ2 .

6.4.3. Comparación de medias con varianzas desconocidas


Considere nuevamente las poblaciones X ∼ N(µ1 , σ12 ) y Y ∼ N(µ2 , σ22 ) independientes y
el problema de construir un intervalo de confianza para la diferencia de medias θ = µ1 − µ2 ,
pero con ambas varianzas desconocidas.
El problema, conocido como de Behrens–Fisher es que no se conoce el parámetro
ρ = σ1 /σ2 (vea el ejercicio anterior), por lo que se desconoce la distribución exacta de
S12 S22
+ .
n1 n2
Hay varias aproximaciones a la solución práctica del problema. A saber, por razona-
mientos fiduciarios, bayesianos y frecuentistas. En estas notas presentamos la solución fre-
cuentista debida a Welch y Satterthwaite.
Sean Xn1 = (X1 , . . . , Xn1 ) y Yn2 = (Y1 , . . . , Yn2 ) muestras aleatorias de X ∼ N(µ1 , σ12 )
y Y ∼ N(µ2 , σ22 ) independientes. Considere el estadı́stico D = X̄ − Ȳ = µ bD . Entonces,
σ 2 σ 2 D − µD
2
E[D] = θ = µ1 − µ2 y var(D) = 1 + 2 = σD . Luego, ∼ N(0, 1), pero ¿cómo
n1 n2 σD
estimar σD ?

i) Si n1 y n2 son suficientemente grandes, se sigue del Teorema Central de Lı́mite y el


Teorema de Slutsky que
D − µD ·
∼ N(0, 1)
SD
2 S12 S22
donde SD = + .
n1 n2
Si n1 y n2 son pequeños, se puede usar la aproximación de Welch–Satterthwaite
basada en la corrección del método de momentos. A saber, si Y1 , . . . , Yk son v. a.’s

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 74

independientes con Yi ∼ χ2νi y a1 , . . . , ak constantes conocidas, entonces


2
ai Si2
P
X 1 ·
ai Yi ∼ χ2ν , donde ν = P a2
ν 2
νi S i
i

Sea entonces
D−θ ·
Q= ∼ tν ∗
SD
con 2
2 ∗ S12 /n1 + S22 /n2
SD = S12 /n1 + S22 /n2 y ν = (S12 /n1 )2 (S22 /n2 )2
n1 −1 + n2 −1

Finalmente,
D ± t(1 − α/2; ν ∗ )SD
constituye un intervalo de confianza (aproximada) de 100(1 − α) % para θ = µ1 − µ2 .

6.4.4. Comparación de varianzas.


Sean Xn1 = (X1 , . . . , Xn1 ) y Yn2 = (Y1 , . . . , Yn2 ) muestras aleatorias de poblaciones
X ∼ N(µ1 , σ12 ) y Y ∼ N(µ2 , σ22 ) independientes, respectivamente. Por construir un intervalo
de confianza para θ = σ12 /σ22 .
n1 − 1 2
Sean S12 = ni=1 (Xi − X̄)2 /(n1 − 1) y S22 = nj=1 (Yj − Ȳ )2 /(n2 − 1). Luego,
P 1 P 2
S1 ∼
σ12
n2 − 1 2
χ2n1 −1 y S2 ∼ χ2n2 −1 independientes por lo que
σ22
n1 −1 2
σ12
S1 /(n1 − 1) 1 S12
Q= n2 −1 2 = ∼ Fν1 ;ν2
S2 /(n2 − 1) θ S22
σ22

con ν1 = n1 − 1 y ν2 = n2 − 1. Se sigue entonces que para q1 y q2 se tiene que


!
S12 /S22 S12 /S22
γ = P (q1 ≤ Q ≤ q2 ) = P ≤θ≤ =1−α
q2 q1

Finalmente, !
S12 /S22 S12 /S22
,
F (1 − α/2; n1 − 1, n2 − 1) F (α/2; n1 − 1, n2 − 1)

constituye un intervalos de 100(1 − α) % de confianza para θ = σ12 /σ22 .

6.4.5. Observaciones pareadas.


Considere ahora X = (X1 , . . . , Xn ) una muestra aleatoria de X ∼ N2 (µ, Σ), con
" # " # !
X1i µ1 σ12 σ12
Xi = , µ= y Σ=
X2i µ2 σ12 σ22

Se desea construir un intervalo de confianza para θ = µ1 − µ2 .


Para i ̸= j, las observaciones Xi y Xj son independientes, pero sus componentes X1i
y X2i no lo son salvo que σ12 = 0. Considere entonces Di = X1i − X2i , i = 1, . . . , n, la
muestra aleatoria de D ∼ N1 (µD , σD2 ), con µ = µ − µ y σ 2 = σ 2 + σ 2 − 2σ . Luego, se
D 1 2 D 1 2 12

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 75

puede construir un intervalo de confianza para θ = µD , considerando σD desconocida como


se hizo anteriormente. Entonces,
 √ √ 
D̄ − t1−α/2;n−1 SD / n, D̄ + t1−α/2;n−1 SD / n

donde D̄ = n1 ni=1 Di , SD
P 2 = 1
Pn 2
n−1 i=1 (Di − D̄)
Note que si las componentes X1 y X2 están asociadas positivamente (σ12 > 0) la varianza
de la diferencia D = X1 − X2 es menor que si las componentes fuesen independientes, lo
que resultará en intervalos de confianza más estrechos, preferibles en la práctica. Pensar por
ejemplo, el muestreo de manera de tener componentes asociadas positivamente es área del
diseño de experimentos estadı́stico.

6.5. Poblaciones no normales


6.5.1. Intervalos de confianza para proporciones.
La aproximación a la distribución binomial por la distribución normal y que se muestra
en el curso de Cálculo de Probabilidades I se justifica por la distribución de la suma de
v.a.i.i.d.’s y el Teorema Central del Lı́mite. De manera relacionada se construye un intervalo
de confianza para proporciones o probabilidades de éxito de una distribución Bernoulli
(binomial)
Considere Xn = (X1 , . . . , Xn ) una muestra aleatoria de una población X ∼ Ber(p) y
D
sea X̄n = n1 ni=1 Xi . Por lo que, del teorema central del lı́mite √ X̄n −p −→ Z ∼ N(0, 1).
P
p(1−p)/n
P
Por otro lado, en la sección de teoremas lı́mite se vio que X̄n −→ p. Entonces, para n
·
suficientemente grande se sigue del TCL y del teorema de Slutsky que √ X̄n −p ∼
X̄n (1−X̄n )/n
N (0, 1). Ası́, q
X̄n ± z1−α/2 X̄n (1 − X̄)n )/n
constituye un intervalo de confianza de nivel (1 − α) para el parámetro p, la probabilidad
de éxito o proporción de una población Bernoulli.
Considere ahora que se tiene una segunda población Y ∼ Ber(p2 ), independiente de
X ∼ Ber(p1 ) y sea Ym = (Y1 , . . . , Ym ) una muestra aleatoria de ella. Se desea construir un
intervalo de confianza para el parámetro θ = p1 − p2 , diferencia de proporciones. Entonces,
·
como antes, √ Ȳm −p2 ∼ N (0, 1) y para m y n grandes se tiene
Ȳm (1−Ȳm )/m

X̄n − Ȳm − (p1 − p2 ) ·
p ∼ N (0, 1)
X̄n (1 − X̄n )/n + Ȳm (1 − Ȳm )/m

por lo que q

X̄n − Ȳm ± z1−α/2 X̄n (1 − X̄n )/n + Ȳm (1 − Ȳm )/m
constituye un intervalo de confianza de nivel 100(1 − α) % para la diferencia de proporciones
θ = p1 − p2 .

6.5.2. Intervalos de confianza para la media


Considere Xn = (X1 , . . . , Xn ) una muestra aleatoria de una población X con media
µ = E[X] y varianza σ 2 = var(X). Sean X̄n = n1 ni=1 Xi y Sn2 = n−1 1 Pn 2
P
j=1 (Xj − X̄n ) .
D 2 P
−µ
X̄n√ Sn
Entonces, se ha visto ya que σ/ n
−→ Z ∼ N(0, 1) y σ2 −→ 1. Por lo que nuevamente por

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 76

el teorema de Slutsky se tiene que


−µ
X̄n√
σ/ n X̄n − µ D
q = √ −→ N(0, 1)
2
Sn Sn / n
σ2

Luego, √
X̄n ± z1−α/2 Sn / n
constituye un intervalo de confianza de nivel (1 − α) aproximado para la media µ.

6.5.3. Intervalos de confianza por medio de EMV


Considere Xn = (X1 , . . . , Xn ) una muestra aleatoria de una población X y θ parámetro
de la distribución de X. Sea θ̂n = θ̂(Xn ) el estimador por máxima verosimilitud (EMV).
Luego, por la distribución asintótica de θ̂n

θ̂ − θ θ̂n − θ ·
qn =p ∼ N(0, 1)
var(θ̂n ) 1/nI(θ)

Por lo que un intervalo de nivel aproximado de confianza (1 − α) estarı́a dado por


p
θ̂ ± z1−α/2 / nI(θ)

Ejemplo : Considere X = (X1 , . . . , Xn ) una m. a. de X ∼ Po(λ). Entonces, f (x; λ) =


λx e−λ /x! 1N0 (x). Se ha visto que X̄ = λ̂emv y

L(λ; x) = λx e−λ /x!


ℓ(λ; x) = x log λ − λ − log x!
∂ℓ x
=− −1
∂λ λ
∂2ℓ x
= 2
∂λ2 λ
Por lo que " #
∂ 2 ℓ(λ; X)
 
X 1
−E 2
= −E − 2 = = I(λ)
∂λ λ λ
Ası́, un intervalo de confianza aproximado de 100(1 − α) % para λ serı́a
q q
λ̂ ± z1−α/2 / n/λ̂, o bien, X̄ ± z1−α/2 X̄/n

6.6. Regiones de confianza


6.6.1. Población normal
Con el apoyo de Mood, Graybill, and Boes (1974).
Considere Xn = (X1 , . . . , Xn ) una muestra aleatoria de una población X ∼ N(µ, σ 2 ).
Se han construido ya los intervalos marginales I1 para µ
 √ √ 
X̄ − t1−α1 /2; n−1 S/ n, X̄ + t1−α1 /2; n−1 S/ n ≡ (µinf , µsup )

de (1 − α1 ) de confianza y I2 para σ 2
 
(n − 1)S 2 /χ21−α2 /2; n−1 , (n − 1)S 2 /χ2α2 /2; n−1 ≡ (σinf
2 2
, σsup )

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 77

de (1 − α2 ) de confianza. Sin embargo, la región de confianza R = I1 × I2 para el vector


de parámetros θ = (µ, σ 2 ) es menor a la confianza γ = (1 − α1 )(1 − α2 ) pues no son
independientes. Vea el panel de la izquierda de la figura 15.
Por otro lado, si se consideran las cantidades pivotales

X̄ − µ (n − 1)S 2
Q1 = √ y Q2 =
σ/ n σ2

que sı́ son independientes, se tiene que

1 − α1 = P (ℓ1 ≤ Q1 ≤ u1 ) y 1 − α2 = P (ℓ2 ≤ Q2 ≤ u2 )

por lo que la región


( )
2 X̄ − µ (n − 1)S 2
R= θ = (µ, σ ) ℓ1 ≤ √ ≤ u1 , ℓ2 ≤ ≤ u2
σ/ n σ2

que se muestra en el panel de la derecha de la figura 15 tiene una confianza conjunta de


γ = (1 − α1 )(1 − α2 ).

σ2 σ2

σ2sup σ2sup

σ2inf σ2inf
µinf µsup

µ X µ

Figura 15: Regiones de confianza R. El panel de la izquierda muestra el producto I1 × I2 de


los intervalos de confianza marginales de µ y σ 2 . El panel de la derecha muestra la región
de confianza conjunta para θ = (µ, σ 2 ).

6.6.2. Intervalos de Bonferroni


Los intervalos de Bonferroni ofrecen una manera práctica de construir intervalos de
confianza marginales de manera que la confianza conjunta sea al menos la deseada.
Sea θ = (θ1 , θ2 ) un vector de parámetros y Ci un intervalo de (1 − αi ) de confianza para
C

θi , con i = 1, 2. Sean los eventos Ei = {θi ∈ Ci }, luego 1 − α1 = P (Ei ) y Ei = θi ∈ / Ci .
Ası́,
 C 
C C
P (E1 ∩ E2 ) = P E1 ∪ E2
      
C C C C
= 1 − P E1 + P E2 − P E1 ∩ E2

≥ 1 − (α1 + α2 )

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 78

Entonces, si para cada uno de los θi se construye un intervalo de (1 − α/2) de confianza, la


confianza conjunta es de al menos

P (E1 ∩ E2 ) ≥ 1 − (α/2 + α/2) = 1 − α

Esta situación se ilustra en la figura 16.

1−α 2
θ2

1−α

1−α 1−α 2

1−α

θ1

Figura 16: Regiones de confianza. El panel de la izquierda muestra el producto cruz de los
intervalos de confianza marginales de µ y σ 2 . El panel de la derecha muestra la región de
confianza conjunta para (µ, σ 2 ).

6.7. Ejercicios
Refiérase a la Lista de Ejercicios 6.

Textos de apoyo.
Casella and Berger (2002); Knight (2000); Mood, Graybill, and Boes (1974); Rice (2007);
Wackerly, Mendenhall III, and Scheaffer (2008).

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 79

7. Contraste de Hipótesis
7.1. Introducción
El siguiente ejemplo ha sido tomado de Rice (2007). Con él se introducen varios elemen-
tos de las pruebas o contraste de hipótesis.
Considere dos monedas m0 y m1 con correspondientes probabilidad de águila p0 y p1 ,
respectivamente. Se elije una de las dos monedas y se lanza 10 veces. Con base en el número
observado de águilas usted decide cuál de las monedas fue lanzado. Sea X el número obser-
vadas de águilas en los 10 lanzamientos. Entonces, X ∼ Bin(n, p) con n = 10. Suponga que
p0 = 0.5 y p1 = 0.7.
Considere ahora x, el número observado de águilas. Entonces, la correspondiente vero-
similitud de la moneda mi es L(pi ; x) = f (x; pi ), i = 0, 1 y el cociente de verosimilitudes
(CV), también conocido como razón de verosimilitud (RV) se define como

L(p0 , x) f (x; p0 )
CV(x) = =
L(p1 ; x) f (x; p1 )

Por ejemplo, si Pi (x) = P(X = x; p = pi ) = 10


 x 10−x , entonces P (2) = 0.0439,
x pi (1 − pi ) 0
P1 (2) = 0.0014 y CV(2) = 30.2762. Luego si CV(2) = 30.38 resulta razonable interpretarlo
que favorece a la moneda m0 mientras que CV(7) = 0.44 favorecerı́a a m1 . La tabla 2
muestra las probabilidades P(X = x; pi ) y el correspondiente cociente de verosimilitudes.
Éste último se presenta en la figura 17.

Tabla 2: Probabilidades del número de águilas en los 10 lanzamientos para las dos monedas
y el correspondiente cociente de verosimilitudes CV.
x 0 1 2 3 4 5 6 7 8 9 10
m0 0.0010 0.0098 0.0439 0.1172 0.2051 0.2461 0.2051 0.1172 0.0439 0.0098 0.0010
m1 0.0000 0.0001 0.0014 0.0090 0.0368 0.1029 0.2001 0.2668 0.2335 0.1211 0.0282
CV 165.3817 70.8779 30.3762 13.0184 5.5793 2.3911 1.0248 0.4392 0.1882 0.0807 0.0346

Razón de Verosimilitud
150
100
LR(p0, p1)
50 0

0 2 4 6 8 10
x

Figura 17: Ejemplo de las monedas. Cociente de verosimilitudes.

Sea Hi la hipótesis que supone que la moneda mi fue lanzada. Para este ejemplo se
ilustran elementos con un “enfoque bayesiano”.

Se tiene información previa (a priori ) y no hay razón para suponer que las monedas

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 80

son distintas y deshonestas


1
π0 = P(H0 ) = P(H1 ) = π1 =
2

Después de observar el número de águilas X en los 10 lanzamientos, las probabilidades


posteriores (posteriori )
P(X|Hi )P(Hi )
P(Hi |X) =
P(X)

Luego, el cociente de verosimilitud CV,

P(H0 |X) P(H0 ) P(X|H0 ) π0


= = CV(X)
P(H1 |X) P(H1 ) P(X|H1 ) π1

donde los πi ’s son las probabilidades iniciales y CV denota el cociente de verosimili-


tudes.

En el ejemplo, CV es una función monótona en X. Si las probabilidades iniciales son


iguales X ≤ 6 favorece a H0 y X ≥ 7 favorece a H1 .

Si se ha de decidir entre H0 y H1 con base en lo observado, serı́a razonable preferir


aquella hipótesis con probabilidad posterior P(Hi |X) mayor. Es decir, favorece a H0
P(H0 |X)
si ≥ c, donde el valor crı́tico c depende de las probabilidades iniciales y el
P(H1 |X)
cociente de verosimilitudes.

Suponga que c = 1, entonces sea acepta H0 si X ≤ 6 y se rechaza H0 si X ≥ 7.


H0 se dice la hipótesis nula y generalmente representa el status quo, en este ejemplo
π0 = π1 = 1/2. H1 se dice la hipótesis alternativa que muchas veces se interesa mostrar
su validez a partir de los datos.

En esta situación se pueden cometer errores de dos tipos:

I : Rechazar H0 cuando ésta es verdadera (p = π0 ).


II : Aceptar H0 cuando ésta es falsa (p = π1 ).

Las correspondientes probabilidades de error:

α = P(Error tipo I) = P(Rechazar H0 |H0 verdadera) = P0 (X ≥ 7) = 0.1719


β = P(Error tipo II) = P(Aceptar H0 |H0 falsa) = P0 (X ≤ 6) = 0.3504

Los contrastes o pruebas de hipótesis estadı́sticas son procedimientos formales para


distinguir entre distribuciones.

7.2. Definiciones

Ejemplo : Por ser una temporada de escasez de agua se quiere reducir el consumo en
cierta comunidad y para este fin se dio una campaña de carteles a lo largo de 4 semanas. Se
cree que con ella haya disminuido en promedio de 3000 a 2500 litros por mes por persona.
Se desea verificar la efectividad de la campaña.
Suponga que el consumo mensual de agua por persona es razonablemente modelado por
la distribución normal. Luego, sea X la variable aleatoria (v. a.) que denota el consumo

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 81

de agua por persona con X ∼ N(µ, σ 2 ), y en este ejemplo considere que la varianza σ 2 es
conocida. Entonces, se desea contrastar las hipótesis

H0 : µ = 3 m3 /mes vs. H1 : µ = 2.5 m3 /mes

o bien: H0 : µ = µ0 = 3.0 vs. H1 : µ = µ1 = 2.5. Las hipótesis definen completamente las


distribuciones involucradas, X ∼ N(3.0, σ 2 ) y X ∼ N(2.5, σ 2 ), pues en el ejemplo se supone
σ conocida. Cuando las hipótesis definen completamente la distribución se dicen hipótesis
simples, en caso contrario, por ejemplo, H0 : µ < 3, X ∼ N(µi , σ 2 ), pero σ desconocida,
etcétera, se dicen hipótesis compuestas.
Para decidir sobre la veracidad de las hipótesis de manera objetiva se toma una muestra
aleatoria (m. a.) Xn = (X1 , . . . , Xn ), paraPuna n fija y, en este ejemplo, se decide rechazar
la hipótesis H0 si para cierta c, X̄ = n1 ni=1 Xi ≤ c lo que define la región de rechazo
R = {Xn : X̄ ≤ c}. Note que R = {Xn : X̄ ≤ c} ⊆ {Xn : Xn = (X1 , . . . , Xn )} = X , el
espacio muestral.
Para tener una idea de la sensibilidad del estadı́stico X̄ para detectar desviaciones, la
tabla 3 muestra las probabilidades P(X̄n ≤ x), para distintos valores de x y tamaños de
muestra n. Por ejemplo, si X ∼ N(3.0, 1), aproximadamente 31 de cada 100 observaciones
caerı́an a la izquierda de 2.5, pero del promedio de 10 observaciones, solo en 6 ocasiones
caerı́an a la izquierda y si la muestra fuese de 25 observaciones, solamente 0.6 % de los casos
carı́an a la izquierda.

Tabla 3: Probabilidades acumuladas por la izquierda de x del promedio X̄n ∼ N(3.0, 1/ n),
para n = 1, 5, 10, 25, 50.
P(X̄n ≤ x)
x 1 5 10 25 50
3.0 0.500 0.50000 0.50000 0.50000 0.50000
2.8 0.421 0.32736 0.26354 0.15866 0.07865
2.5 0.309 0.13178 0.05692 0.00621 0.00020
2.3 0.242 0.05876 0.01343 0.00023 0.00000
2.0 0.159 0.01267 0.00078 0.00000 0.00000

En el resto de la nota se evitará el uso del subı́ndice n para la muestra X o la media


X̄, salvo que se quiera enfatizar la dependencia con el tamaño de muestra.

Ası́, en este ejemplo se tiene el estadı́stico de prueba X̄ y el valor crı́tico c que


define la región de rechazo R = {X ∈ X : X̄ ≤ c} o regla de decisión para rechazar
la hipótesis nula H0 en favor de la hipótesis alternativa H1 . Las definiciones anteriores
quedan ilustradas en la siguiente figura.
Rechazo de H0 Aceptación de H0
x̄ ≤ c x̄ > c
-
| {z } c | {z } x̄
Pi (R) Pi (A)

donde Pi (·), denota la probabilidad de rechazar ó aceptar H0 suponiendo que la hipótesis


Hi es verdadera.
Aunque no es regla, se acostumbra establecer en la hipótesis nula lo común, la situación
actual o el status quo para que sea la muestra, la evidencia en los datos lo que lleve a su
rechazo en favor de la hipótesis alternativa H1 . Como el rechazo de H0 depende del valor
del estadı́stico de prueba que a su vez depende de la muestra observada, es posible, que
aún bajo las mismas condiciones en ocasiones se rechace la hipótesis nula pero otras veces
no, lo que no implica que se demuestre la validez de H0 . Es decir, que no se rechace la

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 82

hipótesis no implica haber demostrado su veracidad. La inferencia estadı́stica no sigue las


reglas de la lógica formal o matemática. Ası́, no es costumbre “aceptar la hipótesis nula”,
que se entenderı́a como aceptar su validez, en todo caso “no se rechaza H0 ”.
Entonces, como la decisión de rechazar o no la hipótesis nula H0 depende del estadı́stico
de prueba y que a su vez depende de la muestra, es posible cometer errores: rechazar H0
cuando ésta es verdadera, o no rechazarla cuando es falsa. Si se consideran las hipótesis
simples H0 : µ = µ0 vs. H1 : µ = µ1 , éstas y las decisiones que se pueden tomar pueden
representarse en la siguiente tabla

Condición de H0
Verdadera Falsa

Rechazar H0 Error Tipo I

No rechazar H0 Error Tipo II

Rechazar H0 cuando ésta es falsa, o no es rechazada cuando la hipótesis es verdade-


ra son la decisiones correctas. En caso contrario, rechazar H0 cuando ésta es correcta o
no rechazarla cuando es falsa son decisiones erróneas pero de naturaleza distinta por sus
consecuencias potenciales.
Rechazar la hipótesis nula H0 cuando ésta es válida se conoce como error tipo I,
mientras que aceptar H0 cuando es falsa se dice que se comete un error tipo II. La
probabilidad de cometer el error tipo I y el tipo II se acostumbran denotar por α y β,
respectivamente.

α = P(Error tipo I) = P(Rechazar H0 |H0 verdadera)


β = P(Error tipo II) = P(Aceptar H0 |H0 falsa)

Para continuar con el ejemplo, el consumo mensual de agua por persona X ∼ N(µ, σ 2 ),
con σ conocida. Se toma una muestra de tamaño n X = (X1 , . . . , Xn ).
Z c  
c − µ0
α = P(R|H0 verdadera) = P0 (X̄ ≤ c) = fX̄ (x)dx = Φ √
−∞ σ/ n

donde fX̄ denota la función de densidad del estadı́stico de prueba X̄ ∼ N(µ0 , σ 2 /n) bajo
la suposición de que la hipótesis nula H0 es verdadera. La distribución del estadı́stico de
prueba suponiendo válida la hipótesis nula H0 se conoce como la distribución nula del
estadı́stico. Por otro lado, se tiene que
Z ∞  
C ∗ c − µ1
β = P(R |H0 falsa) = P1 (X̄ > c) = fX̄ (x)dx = 1 − Φ √
c σ/ n

donde fX̄ ∗ denota la f. d. p. de X̄ bajo el supuesto de que H es verdadera, esto es, X̄ ∼


1
N(µ1 , σ 2 ).
Suponga que en el problema de consumo mensual de agua la desviación estándar es de
σ = 1.0 m3 y que el tamaño de la muestra es de n = 25 observaciones. Suponga también
que el valor crı́tico fuera c = 2.7. Luego, la regla de decisión queda definida como: rechazar
H0P: µ = 3.0 si X̄ ≤ 2.75. Luego, la región de rechazo es R = {X = (X1 , . . . , X25 ) :
1 25
n i=1 Xi ≤ 2.75}. Entonces, las probabilidades de error serı́an,
!
2.7 − 3.0
α=Φ √ = Φ(−1.5) = 0.067
1.0/ 25
 
2.7 − 2.5
β =1−Φ = 1 − Φ(1.0) = 0.159
1/5

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 83

Note que las probabilidades de error tipo I y II no son complementarias, es decir, no


tienen que sumar 1. La figura 18 ilustra los errores en el ejemplo del consumo mensual de
agua.
La probabilidad α del error tipo I es la medida o tamaño de la región de rechazo R
suponiendo válida la hipótesis nula H0 y en tal sentido α se conoce como el tamaño de la
prueba o la significancia de la prueba.

α β

µ1 cα µ0

Figura 18: Contraste de hipótesis. Probabilidades de error tipo I y II.

En el ejemplo, la localización del valor crı́tico define la región de rechazo y en consecuen-


cia las probabilidades de error, por lo que su determinación debe considerar las probabilida-
des de error consecuentes. En la figura 18 es claro que al disminuir un error necesariamente
aumenta el otro. En general, en la práctica se predetermina la significancia de la prueba α
o probabilidad de error tipo I o riesgos que se aceptan correr. Ası́, si determinara
  que en el
c−µ 0
ejemplo, se desea una prueba de significancia del 5 %, entonces, α = Φ σ/ n implica que

c−3.0
z0.05 = √
1/ 25
= −1.644, por lo que, si α = 0.05, cα = 2.671. Esto es, la región de rechazo
de tamaño α queda dada definida por Rα = {X̄ ≤ cα } de manera que α = P0 (Rα ) y en
el ejemplo, P(X̄ ≤ 2.671|µ= 3.0) = 0.05. Pero ahora, la correspondiente probabilidad del
α −µ
error tipo II es β = 1 − Φ cσ/√ 1 = 0.196.
n
Para disminuir simultáneamente las probabilidades de los errores la única manera es
aumentando el tamaño de la muestra. Esto se ilustra en la figura 19 Si en el ejemplo, se

n1
n2

α β
µ1 c µ0

Figura 19: Disminución simultánea de las probabilidades de error tipo I y II aumentando


el tamaño de la muestra, n1 < n2 .

tomara en su lugar una muestra de tamaño n = 40, utilizando


 el mismo valor crı́tico de

c = 2.671, los correspondientes errores serı́an α = Φ 2.671−3.0

1/ 40
= Φ(−2.081) = 0.019,

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 84

 
2.671−2.5
mientras que β = 1 − Φ √
1/ 40
= 1 − Φ(1.081) = 0.140. Compárense con los errores de
0.05 y 0.196, respectivamente cuando n = 25.
Otro concepto importante en la teorı́a de las pruebas de hipótesis es la potencia de
la prueba, En estas notas se considerará la potencia de una prueba como la probabilidad
de rechazar la hipótesis nula H0 y se denotará por K. Ası́, uno habları́a de la potencia de
prueba bajo H0 o bien bajo H1 . En el ejemplo, la potencia de la prueba se define como
K(µi ) = Pi (R). luego, idealmente se desearı́a K(µ0 ) = 0, y K(µ1 ) = 1. Pero la región de
rechazo es R = {x : x̄ ≤ c}, por lo que para n = 25 y c = 2.671, se tiene K(3.0) = 0.05 y
K(µ1 ) = 0.804.

Más formalmente, se incluyen algunas de las definiciones antes presentadas para después
incluir el lema de Neyman–Pearson, fundamental en el origen y el desarrollo de la Estadı́stica
Matemática. Varias de las siguientes definiciones son adaptadas de texto de Mood, Graybill,
and Boes (1974).

Definición : En estas notas, una población de interés es definida por una caracterı́stica de
la misma, llamada población estadı́stica que es representada o modelada mediante una
distribución de probabilidad.
Ası́, el consumo de agua de cierta comunidad X quedó representada por una variable
aleatoria X distribuida normalmente N(µ, σ 2 ).

Definición : La inferencia sobre la población X usualmente se basa en la información


colectada de una muestra aleatroria (m. a.) de X, entendiendo ésta como una colección
de variables aleatorias independientes e idénticamente distribuidas a X, aquı́ denotada por
X = (X1 , . . . , Xn ). Si se deseara hacer explı́cito el tamaño de la muestra, se usará el
subı́ndice n, Xn .

Definición : Una hipótesis estadı́stica H es una aseveración o conjetura sobre la distri-


bución de la variable o vector aleatorio X representando el modelo de la población.
Por ejemplo, suponer que la moneda lanzada es la moneda justa, con la probabilidad
del águila p = 1/2. O bien, suponer que el consumo medio mensual de agua es de µ = 3 m3 .

Definición : Se dice que una hipótesis estadı́stica es simple si define completamente a


distribución de X. En caso contrario se dice que es una hipótesis compuesta.
Por ejemplo, H : µ = 3 m3 representa una hipótesis simple pues suponiendo válido H,
se tendrı́a que el consumo mensual de agua es X ∼ N(3, 1), considerando σ = 1 conocida.
Si no se conociera σ o se estableciera que X ∼ N(µ, σ 2 ), para µ ≥ 3, éstas serı́an hipótesis
compuestas.

Definición : Una prueba estadı́stica Υ es una regla o procedimiento empleado para


decidir sobre la validez o no de la hipótesis H. Anteriormente, se distinguı́an la pruebas
estadı́sticas como pruebas aleatorizadas o no-aleatorizadas.

Definición : Se dice que Υ es una prueba aleatorizada si para decidir sobre la hipótesis
H, además del procedimiento resultado en la muestra aleatoria, la conclusión se basa también
en el resultado de algún experimento aleatorio no relacionado con el procedimiento original.
Si, en el ejemplo inicial de decidir sobre qué moneda fue lanzada, suponga que la regla de
decisión definida por la prueba Υ, fuese: aceptar H0 : p = 0.5 si X < 6; aceptar H1 : p = 0.7,
si X > 6; y si X = 6, lanzar un dado honesto y favorecer H0 si la cara muestra un número
par y a H1 si es impar.
Las pruebas aleatorizadas son rara vez empleadas, pues dos personas podrı́a concluir
sobre la hipótesis H de manera contraria a partir de la misma muestra aleatoria debido al

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 85

resultado aleatorio del experimento complementario. Más adelante se verá un ejemplo de


tales pruebas.

Definición : Una prueba no aleatorizada Υ, es una regla de decisión sobre la hipótesis


H definida a partir de un estadı́stico (de prueba) T = T (Xn ) y una región de rechazo
de manera que si la muestra aleatoria X es tal que si T (X) satisface cierta condición C
la hipótesis H es rechazada. Esto es, la región de rechazo es R = {X ∈ X : T (X) ∈ C ⇒
rechazar H}.
En el contraste de monedas, la hipótesis H : p = 1/2, el estadı́stico de prueba T es el
número de águilas en los 10 lanzamientos y la regla de decisión es rechazar H si T ≥ 7. O
bien, en el ejemplo de consumo de agua, para decidir sobre la hipótesis H : µ = 3.0,P a partir
de la muestra X = (X1 , . . . , Xn ), el estadı́stico de prueba es el promedio T (X) = n1 ni=1 Xi
y la region de rechazo es R = {X : T (X) < c}, para algún c, definido como valor crı́tico.

Definición : Sea Υ una prueba estadı́stica para H0 . Si rechaza H0 cuando ésta es correcta
se dice que se comente el error tipo I. Por otro lado, Si no se rechaza H0 cuando ésta es
falsa se comete el error tipo II.

Definición : Sea Υ una prueba para la hipótesis H0 . Se define la potencia de la prueba,


K(θ), como la probabilidad de rechazar H0 , cuando la distribución ha sido parametrizada
por θ.
Esto es, si X ∼ f (x; θ), con θ ∈ Θ = Θ0 ∪ Θ1 , donde Θ0 denota los posibles valores de θ
bajo la hipótesis H0 . Sea Υ la prueba definida por el estadı́stico de prueba T (X) y la región
de rechazo R. Entonces, la potencia de la prueba Υ es
Z
K(θ) = P(R|θ) = f (x; θ)dx, para θ ∈ Θ
R

Si se considera nuevamente el ejemplo del consumo mensual de agua, X ∼ N(µ, σ 2 ), con


σ = 1 y n = 25. El estadı́stico de prueba es T (X) = X̄ y R = {X̄ < 2.671}. Entonces,
 
c−µ 
K(µ) = P(X̄ < c|µ) = Φ √ = Φ 5(2.671 − µ)
σ/ n

La función potencia K del ejemplo de consumo de agua se muestra en la figura 20.

1−β

α
0
µ1 µ µ0

Figura 20: Función potencia K para el ejemplo del consumo mensual de agua. La prueba
muestra una potencia de α y 1 − β para los valores de la media µ0 = 3.0 y µ1 = 2.5,
respectivamente.

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 86

La función potencia juega un papel muy relevante en la comparación y definición de


pruebas estadı́sticas. Idealmente, se quisieran pruebas con potencia 0 bajo H0 y 1 cuando
ésta no se cumple. Ası́, se prefieren las pruebas con mayor potencia.
Notación: Sea K(θ) la potencia de la prueba Υ para la hipótesis H0 . La probabilidad de
los errores tipo I y II se acostumbran a denotar por

α(θ) = P(Rechazar H0 |H0 verdadera) = K0 (θ)


β(θ) = P(No rechazar H0 |H0 falsa) = 1 − K0 (θ)

La figura 20 muestra las probabilidades de errores α(µ0 ) y β(µ1 ) para el ejemplo del consumo
de agua.

Definición : Sea Υ una prueba de la hipótesis H0 : θ ∈ Θ0 , donde Θ = Θ0 ∪ Θ1 es el


espacio parametral (Θ0 ∩ Θ1 = ∅). Sea R la correspondiente región de rechazo de H0 . Se
define el tamaño de la prueba o tamaño de la región crı́tica por

α = sup P(R|θ)
θ∈Θ0

Algunos texto se refieren al tamaño de la región crı́tica como la significancia de la prueba


α.
Suponga queen el ejemplo sobre consumo de agua se considera la hipótesis H0 : µ ≥ 3.0,
1 Pn
Θ0 = {θ ≥ 3.0} y la prueba Υ con el estadı́stico de prueba X̄ = n 1i=1 Xi y la región
de rechazo R = {X̄ ≤ c}. Entonces, como se puede ver en la figura 20,
 
c−µ
K(µ) = P(R|µ) = Φ √
σ/ n

que alcanza el supremo en el extremo µ = 3.0 ∈ Θ0 . Ası́, la significancia de la prueba Υ es


α. Con n = 25, si c = 2.70, la significancia de la prueba es α = 0.0.067. Si en su lugar, se
considera el valor crı́tico de c = 2.67, la significancia serı́a de α = 0.05.
Note que la significancia de una prueba es la probabilidad de cometer el error de tipo
I. Otra manera de ver las significancia serı́a como el riesgo de cometer el error tipo I. En
la práctica toda prueba tiene asociado tal riesgo. Luego, la manera formal de proceder
en una prueba de hipótesis estadı́stica es fijar de antemano el riesgo (significancia) que se
acepta correr, determinar el estadı́stico de prueba y regla de decisión correspondiente y
llevar a cabo el experimento (observación, procedimiento, etc.). Una vez que se determina
el valor del estadı́stico concluir si se rechaza o no la hipótesis nula. En este contexto, no
es válido (¿ético?) cambiar la decisión después de obtener el estadı́stico. En algunos casos,
pruebas aleatorizadas y pruebas secuenciales, se pueden no tomar la decisión final sobre H0
después de observar el estadı́stico de prueba, pero el procedimiento fue ası́ establecido en
un principio.
Por otro lado, como se comentó anteriormente, aumentando el tamaño de la muestra se
reduce las probabilidades de los errores. Igualmente, la potencia de una prueba se puede
aumentar con muestras de mayor tamaño. La figura 21 muestra la función potencia K para
pruebas de significancia α = 0.05 y distintos tamaños de muestra en el ejemplo del consumo
mensual de agua.

Definición : Sea Υ una prueba de significancia para la hipótesis H0 . Se define la distri-


bución nula del estadı́stico de prueba T a su distribución suponiendo la hipótesis nula
verdadera.
En el ejemplo, para una muestra aleatoria Xn , la distribución nula de T = X̄ es
N(µ0 , σ 2 /n), que para σ = 1 y n = 25, T ∼ N(3.0, 1/25).

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 87

n=25
n=30
n=40
n=50

α
0
µ1 µ µ0

Figura 21: Función potencia K del ejemplo del consumo mensual de agua para distintos
tamaños de muestra n y significancia común α.

Definición : Sea x = (x1 , . . . , xn ) la muestra observada. Entonces, t = T (x) ∈ R y se le


dice el estadı́stico observado.
Dada H0 : µ = 3.0, y una muestra de tamaño 25, la prueba de significancia 0.05 tiene
la región de rechazo R = {X̄ ≤ 2.671}. Luego, un estadı́stico observado t = 2.73 llevarı́a a
no rechazar la H0 con una significancia de 5 %. Si por el contrario, se observara t = 2.63, se
concluirı́a que se rechaza la hipótesis con una significancia del 5 %. Pero igual se rechazarı́a
con t = 2.24. Si bien los dos últimos estadı́sticos observados llevan a la misma conclusión:
rechazar H0 al 5 % de significancia, pareciera que la información en contra de la hipótesis
es más evidente cuando t = 2.24 que t = 2.63. Una manera de valor al diferencia entre las
dos observaciones en mediante el valor−p.

α β

µ1 = 2.5 c0.05 = 2.67 µ0 = 3 x


2.15 2.32 2.48 2.65 2.82 2.98 3.15
(1.07e−05) (0.000317) (0.00489) (0.0401) (0.18) (0.467) (0.773)

Figura 22: Estadı́sticos de prueba (x̄) observados y sus correspondientes valores-p.

Definición : Se define el valor−p del estadı́stico observado t = T (x) como la probabilidad


de obtener t o algo más extremo en contra de la hipótesis H0 suponiendo ésta verdadera.
En el ejemplo, x̄ = 2.7 tiene el valor−p de 0.067 y si x̄ = 2.671, el valor−p es del 5 %. La
figura 22 muestra distintos ejemplos de estadı́sticos y debajo de ellos, entre paréntesis, los

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 88

correspondientes valores-p. Note que aquellos estadı́sticos x̄ menores al valor crı́tico α0.05 =
2.671, que llevarı́an a rechazar la hipótesis H0 con una significancia del 5 %, tiene valores-p
menores 0.05. Es aparente que la evidencia en contra de H0 de x̄ = 2.15 (1.07 × 10−5 ) es
más clara que la que presenta x̄ = 2.65 (0.040). Es común reportar en textos y artı́culos el
valor−p de los estadı́sticos observados en paréntesis inmediatamente después o debajo de
la cantidad. Esto se ilustra en la figura 22.
Note que para determinar el valor−p no se necesita conocer la hipótesis alternativa. De
hecho, tampoco se requiere de un nivel de significancia de la prueba definido. En cierta
forma, el valor−p indica el respaldo de los datos a la hipótesis nula. Quien tome la decisión
de rechazarla o no considerará el riesgo que desea correr.
En los últimos años ha habido mucha controversia sobre el uso, o mal uso, del valor−p.
Personalmente creo que son unos indicadores, función de la distribución nula y la muestra
observada, útiles por lo informativos, pero mal empleados y abusados. Su interpretación es
la misma, independientemente de la hipótesis bajo consideración y estadı́stico de prueba
empleado. Pero no dice nada de si, por ejemplo, lo apropiado de la hipótesis para propósito
del estudio, si los datos son obtenidos por experimentación, cómo se llevó este último a cabo,
si los supuestos fueron verificados y se satisfacen, etcétera. Hay mucho escrito al respecto
que vale la pena revisar. En un inicio, puede acudir a Bastian (2013).
Finalmente, para terminar esta sección se presenta el siguiente teorema que refuerza la
importancia de los estadı́sticos suficientes en la inferencia estadı́stica.

Teorema : Sean X una muestra aleatoria de X ∼ f (x; θ), con θ ∈ Θ y T (X) un estadı́stico
suficiente para θ. Entonces, para cualquier prueba estadı́stica Υ con potencia KΥ (θ) existe
una prueba Υ∗ con estadı́stico de prueba T con la misma potencia, esto es, KΥ∗ (θ) = KΥ (θ),
para todo θ ∈ Θ.
Demostración: refiérase al teorema IX.1.1 p.408 de Mood, Graybill, and Boes (1974).

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 89

7.3. Lema de Neyman–Pearson


Con el apoyo de Mood, Graybill, and Boes (1974) y Rice (2007).

Teorema de Neyman-Pearson (1933) Sea X = (X1 , . . . , Xn ) una muestra aleatoria


de X ∼ f . Sean Hi hipótesis simples con fi (x), i = 0, 1, las correspondientes funciones
de densidad conjunta completamente definidas. Sea Υ∗ la prueba que define la región de
rechazo de tamaño α, R = {x : f0 (x)/f1 (x) ≤ c}. Entonces, cualquier otra prueba Υ de
significancia menor o igual a α tiene una potencia menor o igual a que aquella basada en el
cociente de verosimilitudes f0 (x)/f1 (x).
Demostración: Sea X una m. a. de X ∼ f y las hipótesis simples H0 : f = f0 y H1 : f = f1
que se desean contrastar. Sea d la regla o función de decisión tal que
(
0 si se acepta H0
d(X) =
1 si se rechaza H0

Entonces, d(X) ∼ Ber(p), con p = E[d(X)] = P(d(X) = 1) = P(Rechazar H0 ). Luego,

α = P(R|H0 ) = P0 (R) = E0 [d(X)] = K0 (d(X))

y K1 (d(X)) = P1 (R) = E1 [d(X)].


Sea ahora d∗ (X) la regla de decisión definida por Υ∗ del problema tal que, d∗ (X) = 1,
si f0 (X) ≤ cf1 (X) con α = E0 [d∗ (X)] y sea Υ cualquier otra prueba con regla de decisión
d(X) tal que E0 [d(X)] ≤ E0 [d∗ (X)] = α. Por mostrar que K1 (d(X)) ≤ K1 (d∗ (X)), esto es

K1 (d(X)) = E1 [d(X)] ≤ E1 [d∗ (X)] = K1 (d∗ (X))

para esto, note que

d(X) cf1 (X) − f0 (X) ≤ d∗ (X) cf1 (X) − f0 (X)


   
(13)

puesto que, si

i) Si d∗ (X) = 1, es porque f0 (X) ≤ cf1 (X)


ii) Si d∗ (X) = 0, es porque f0 (X) > cf1 (X)

Ahora, tomando integrales a ambos lados de la expresión (13), se sigue del teorema del
estadı́stico inconsciente (tei) se tiene

cE1 [d(X)] − E0 [d(X)] ≤ cE1 [d∗ (X)] − E0 [d∗ (X)] (14)

Luego,
0 ≤ E0 [d∗ (X)] − E0 [d(X)] ≤ c E1 [d∗ (X)] − E1 [d(X)]


y por lo tanto,
K1 d(X) ≤ K1 d∗ (X)
 

En palabras: en el contraste de un par de hipótesis simples, la prueba de significancia α


basada en el cociente de verosimilitudes es la de mayor potencia entre todas las pruebas de
significancia menor o igual α.

Ejemplo : Considere el ejemplo del consumo mensual medio de agua, las hipótesis simples,
H0 : µ = µ0 vs. H1 : µ = µ1 (< µ0 ). Sea Xn una m. a. de X ∼ N(µ, σ 2 ), con σP conocida.
Entonces, la f. d. p. conjunta del v. a. X es f (x; µ, σ) = (2π)−n/2 σ −n exp{− 2σ1 2 ni=1 (xi −

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 90

µ)2 }. Luego, de acuerdo al lema de Neyman-Pearson, el cociente de verosimilitudes f0 /f1 ≤ c


da lugar a
f (x; µ0 )
≤c
f (x; µ1 )
Pn
(2π)−n/2 σ −n exp{− 2σ1 2 (xi − µ0 )2 }
Pi=1
n ≤c
(2π)−n/2 σ −n exp{− 2σ1 2 i=1 (xi − µ1 )2 }
1 n X o
− 2 −2(µ0 − µ1 ) xi + n(µ2o − µ21 ) ≤ log c

n(µ0 − µ1 )x̄ − n(µ20 − µ21 ) ≤ σ 2 log c
x̄ ≤ c∗

con c∗ = n1 σ 2 log c − n(µ20 − µ21 ) . Luego, la prueba con mayor potencia para contrastar las


hipótesis H0 : µ = µ0 vs. H1 : µ = µ1 (< µ0 ), induce una región de rechazo R∗ = {X : X̄ ≤


c∗ }, como se habı́a propuesto anteriormente. Note que X̄ es un estadı́stico suficiente para
µ. Finalmente, si la prueba se desea de tamaño α, se ha de elegir cα tal que Rα = {X̄ ≤ cα }
de manera que α = P0 (Rα ). 
Una muestra observada que lleve a x̄ = 2.4 tiene un valor−p de Φ 5 ∗ (2.4 − 3.0) =
0.0013. Por lo que uno concluirı́a en rechazar la hipótesis H0 : µ = 3.0, aún con una
significancia del 0.5 %.

Ejercicio : Recupere el ejemplo inicial del lanzamiento de monedas. Muestre que R =


{X : X > c} es la región de rechazo determinada por el lema de Neyman-Pearson. Si el
valor crı́tico es c = 6, determine la significancia de la prueba α y la probabilidad de error
tipo II β. Determine la significancia de la prueba. Calcule la potencia de la prueba K(p),
para p = 0.5 y p = 0.7.

Ejercicio : (Hogg and Craig (1978)) Se desea contrastar las hipótesis H0 : f = f0 vs.
H1 : f = f1 , donde
 x+1
e−1 1
f0 (x) = 1{0,1,2,... } (x) y f1 (x) = 1{0,1,2,... } (x)
x! 2
Sea X = (X1 , . . . , Xn ) es una muestra aleatoria de X ∼ f ,
1. Muestre que la mejor región de rechazo para el contraste de las hipótesis es de la
forma  
 Xn n
X 
R = x : log 2 · xi − log xi ! < c∗
 
i=1 i=1

con c∗ = log c0 −n log(2e−1 ) y donde c0 viene del cociente de verosimilitudes CV(x) =


f0 (x)
f1 (x) < c0 .

2. Para c0 = 1 y n = 1, determine R del inciso anterior.

3. Calcule la significancia de la prueba.

4. Calcule β, la probabilidad del error tipo II.

5. Grafique K, la función potencia de la prueba.

Ejemplo : Considere la población Y ∼ Exp(λ), tal que E[Y ] = 1/λ. Se desea contrastar
las hipótesis H0 : λ = λ0 vs. H1 : λ = λ1 (< λ0 ). Por encontrar la prueba significancia α más
potente.

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 91

Sea Yn una muestra aleatoria de Y ∼ Exp(λ) de tamaño n. Luego, se sigue del lema de
Neyman-Pearson
f0 (y)
CV = ≤c
f1 (y)
P
λn0 e−λ0 yi
P ≤c
λn1 e−λ1 yi
X
n log(λ0 /λ1 ) − (λ0 − λ1 ) yi ≤ log c
log c − n log(λ0 /λ1 )
ȳ ≥ −
λ0 − λ1
Entonces la prueba más potente de significancia α tiene una región de rechazo de la forma
Rα = {y : ȳ >Pcα }, tal que α = P(Rα |H0 ) = P0 (Ȳn > cα ). Note que el estadı́stico de
prueba Ȳ = n1 Yi es suficiente para el parámetro λ y rechazará la hipótesis nula para
valores grandes, lo que sugiere una media poblacional µ grande que corresponde a valores
de λ pequeños.
Por otro lado verifique que Si Y ∼ Exp(λ) entonces 2λ Yi ∼ χ22n . Por lo que la región
P
1
de rechazo de significancia α de más potencia tiene un valor crı́tico cα = χ2 (1 − α; 2n),
2nλ0
siendo el último término el cuantil 1 − α de la distribución χ22n .
Ası́, con λ1 < λ0 , para el contraste de hipótesis

H0 : λ = λ0 vs. H1 : λ = λ1

la mejor región de rechazo de significancia α es


 
1 2
Rα = Yn : Ȳ > χ (1 − α; 2n)
2nλ0
Si por ejemplo, λ0 = 2 y λ1 = 1, considerando muestras de tamaño n = 20, para una
prueba de significancia α = 0.05 el valor crı́tico es c = 0.697. Y si, el promedio observado
fuese ȳ = 0.65 (< c), se concluirı́a que no se rechaza la hipótesis H0 : λ = 2, con una
 el valor-p de ȳ = 0.65, el estadı́stico observado, es P0 (Ȳ ≥
significancia del 5 %. Más aún,
0.65) = P 2nλ0 Ȳ > 80(0.65) = 0.0968. O bien, si el (promedio) estadı́stico observado
 fuese
ȳ = 0.76, el correspondiente valor-p es P0 (Ȳ ≥ 0.76) = P 2nλ0 Ȳ > 80(0.75) = 0.0185, lo
que llevarı́a a rechazar la H0 con una significancia del 5 %. Finalmente, note que si la
media observada fuese de 0.89, el correspondiente valor-p es de 0.0017. Ambos estadı́sticos
observados, ȳ20 = 0.76, 0.89 llevan a rechazar H0 con una significancia del 5 %, pero ȳ =
0.89, con un valor-p más pequeño, se concluirı́a que hay más evidencia en contra de la
hipótesis nula.
Para graficar la potencia de la prueba recuerde que ésta es la probabilidad de rechazar
la hipótesis nula H0 . Entonces,

K(λ) = Pλ (R) = Pλ (Ȳ > cα ) = P(2nλȲ > 2nλcα ) = P(W > 2nλcα )

donde W ∼ χ22n . Luego, K(λ0 ) = P(W > 2nλ0 cα ) = P(W > 2(20)(2)0.697) = 0.05 y
K(λ1 ) = P(W > 2nλ1 cα ) = P(W > 2(20)(1)0.697) = 0.926. Calculando K(λ) para varios
valores de λ en [0.5, 2.5] se tiene la función potencia que se muestra en la figura 23.

Pruebas aleatorizadas
Considere el modelo X ∼ Po(λ). Se desean contrastar las hipótesis

H0 : λ = λ0 = 1 vs. H1 : λ = λ 1 = 5

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 92

Función potencia
1.0
0.926

0.8

0.6

K(λ)
0.4

0.2

0.050
0.0
0.5 1.0 1.5 2.0 2.5

Figura 23: Función potencia de la prueba de hipótesis del ejemplo de la distribución expo-
nencial
.

Pn de tamaño n = 10 y se define la región de rechazo R = {X


Para esto se toman muestras :
T (X) ≥ 3}, con T (X) = i=1 Xi el estadı́stico de prueba. Entonces, R es la mejor prueba
para el contraste de las hipótesis.
En efecto, se sigue del lema de Neyman-Pearson que

f (x; λ0 )
¯ ≤ c0
f (x; λ1 )
P
x Q
e−λ0 λ0 i / xi !
P
x Q
≤ c0
e−λ1 λ1 i / xi !
X
−n(λ0 − λ1 ) + log(λ0 /λ1 ) xi ≤ c1
X
xi ≥ c2

puesto que λ0 /λ1 < 1. P


T = Xi ∼ Po(nλ0 ), por lo que la significancia de
La distribución nula del estadı́sticoP
la prueba con región de rechazo R = { Xi ≥ 3} es
X 
α = P0 (R) = 1 − P0 Xi ≤ 2 = 0.080
P P
mientras que si se considerase la región R = { Xi ≥ 4}, la significancia serı́a de P0 ( Xi ≥
4) = 0.019.
Si se deseara una prueba de significancia del 5 % exactamente se podrı́a recurrir al
siguiente procedimiento:
0.05 − 0.019
i) Construya la variable aleatoria Y ∼ Ber(p), con p = = 0.508., indepen-
0.080 − 0.19
diente de las X’s.
P P
ii) Rechace H0 si Xi ≥ 4 ó Xi = 3 y Y = 1.
P
iii) Acepte H0 si Xi ≤ 2.

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 93

P P
Esto es, se define la región de rechazo R = { Xi ≥ 4} ∪ { Xi = 3, Y = 1}. Y en tal caso,
la significancia de la prueba es
X  X 
P0 (R) = P0 Xi ≥ 4 + P0 Xi = 3, Y = 1
X  X 
= P0 Xi ≥ 4 + P0 Xi = 3 P0 (Y = 1)
= 0.019 + 0.061(0.508)
= 0.05

El recurso anterior se conoce como una prueba aleatorizada. Note que mediante el pro-
cedimiento anterior se puede llegar a decisiones contrarias aún bajo los mismos datos (in-
formación), lo que sugiere el uso de los valores-p que no están ligados a la significancia de
la prueba.

7.4. Hipótesis compuestas


7.4.1. Pruebas uniformemente más potentes
Recupere el ejemplo del consumo mensual de agua. Para contrastar las hipótesis H0 :
µ = µ0 vs. H1 : µ = µ1 (< µ0 ), se encontró Υ∗ , la mejor prueba de significancia α, con
una región de rechazo Rα = {X̄ < cα }. Se ha visto también que si la hipótesis nula fuese
H0 : µ ≥ µ0 , Υ∗ seguirı́a siendo la mejor prueba de significancia α. Por otro lado, note que
para todo µ∗1 < µ0 fijo, la región de rechazo sigue siendo la misma y Υ∗ sigue siendo la
mejor prueba de significancia α, y es en este sentido que se dice que Υ∗ es uniformemente
(µ < µ0 ) más potente.
Más formalmente, sea X ∼ f (x; θ), con θ ∈ Θ = Θ0 ∪ Θ1 , Θ1 = Θ \ Θ0 .

Definición : Una prueba Υ∗ para el contraste de hipótesis H0 : θ ∈ Θ0 vs. H1 : θ ∈ Θ1 se


dice que es una prueba uniformemente más potente (PUMP) de significancia α si y
solo si:

i) α = supθ∈Θ0 KΥ∗ (θ).

ii) KΥ∗ (θ) ≥ KΥ (θ), para todo θ ∈ Θ1 y para toda prueba Υ de significancia α.

Ejemplo : Como se comentó anteriormente, en el ejemplo de consumo de agua, si la


hipótesis alternativa fuese H1 : µ < µ0 , la prueba Υ∗ , con región de rechazo Rα = {X̄ < cα },
es PUMP de significancia α.
El caso anterior como el presentado para el modelo exponencial, ambos ejemplos son
PUMP pero también resultan ser uniformemente más potentes al variar α.

Definición : Una prueba Υ para contrastar las hipótesis H0 : θ ∈ Θ0 vs. H1 : θ ∈ Θ1 se


dice insesgada si
sup KΥ (θ) ≤ ı́nf KΥ (θ)
θ∈Θ0 θ∈Θ1

Esto es, la probabilidad de rechazar H0 cuando ésta es falsa es mayor o igual a la probabilidad
de rechazarla cuando es verdadera.

7.4.2. Pruebas dos colas


Suponga que en el ejemplo del consumo mensual de agua, la hipótesis nula es H0 : µ = µ0
nuevamente pero la alternativa es ahora H1 : µ ̸= µ0 . La región de rechazo {X̄ < c}
corresponde a la PUMP para el contraste con hipótesis alternativa H1 : µ < µ0 , mientras

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 94

α 2 α 2

c1 µ0 c2

Figura 24: Ejemplo consumo de agua. Prueba de dos colas.

que la PUMP para la hipótesis H1 : µ > µ0 , la región es {X̄ > c}. Luego, no existe una
prueba uniformemente más potente para cuando la hipótesis alternativa es H1 : µ ̸= µ0 .
Considere entonces la región de rechazo R = {X̄ ≤ c1 } ∪ {X̄ ≥ c2 }. En tal caso, la
significancia de la prueba es

P0 (R) = P0 (X̄ ≤ c1 ) + P0 (X̄ ≥ c2 )

Si la hipótesis nula no se verifica y se supone que le media real puede igualmente estar a la
izquierda o derecha de µ0 , una opción es asignar el mismo peso (probabilidades) a las colas.
Luego, si la significancia es α, cada una de las colas seria con probabilidad α/2. La figura
24 muestra la región de rechazo R. Los valores crı́ticos serı́an
√ √
c1 = µ0 + zα/2 σ/ n y c2 = µ0 + z1−α/2 σ/ n

Si la prueba es de√significancia α = 0.05, entonces c1 = 3.0 − 1.96(1)/ 25 = 2.671 y
c2 = 3.0 + 1.96(1)/ 25 = 3.329.

7.4.3. Pruebas de hipótesis e intervalos de confianza


Basado en Rice (2007).

Ejemplo : Recupere el ejemplo del consumo de agua. Sea X = (X1 , . . . , Xn ) una muestra
aleatoria de X ∼ N(µ, σ 2 ), con σ conocida. Se desea contrastar las hipótesis

H0 : µ = µ 0 v. a. H1 : µ ̸= µ0

Como se vio anteriormente una “buena prueba” serı́a una prueba de dos colas con la región
de rechazo R =n{X̄ > c1 } ∪ {X̄ < c2 }, yosi las colas son del mismo peso (probabilidad) en

las colas, R = |X̄ − µ0 | > z1−α/2 σ/ n define una región de rechazo de significancia α.
Sea,
n √ o
A = RC = X : |X̄ − µ0 | ≤ z1−α/2 σ/ n
n √ √ o
= X : X̄ − z1−α/2 σ/ n ≤ µ0 ≤ X̄ + z1−α/2 σ/ n

√ 
  
por lo que fija X̄, µ : µ ∈ X̄ ± z1−α/2 σ/ n constituye una región de confianza 1 − α
para µ. En palabras, la región de confianza para µ la constituye todos los µ0 para los cuales
X̄ aceptarı́a la hipótesis H0 : µ = µ0 .
Sea θ un parámetro de la familia de distribuciones de probabilidad. Se tiene θ ∈ Θ
espacio parametral sea X = (X1 , . . . , Xn ) una muestra aleatoria de X ∼ f (x; θ).

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 95

Teorema : Suponga que para cada θ0 ∈ Θ, existe una prueba de significancia α para
 H0 : θ = θ0 . Sea A(θ0 ) = {X : se acepta H0 : θ = θ0 }. Entonces el conjunto
la hipótesis
C(X) = θ : X ∈ A(θ) constituye una región de confianza 1 − α para θ.

Demostración: Como A es la región de aceptación de la prueba de nivel α, P0 X ∈ A(θ0 ) =
1 − α. Luego,

P0 θ0 ∈ C(X) = P0 X : θ0 ∈ C(X)

= P0 X : X ∈ C(θ)
=1−α

Entonces, la región C(X) es de nivel de confianza 1 − α. En palabras, una región de con-


fianza 1 − α para θ consiste en todos aquellos θ0 para los que X no rechazarı́a H0 con una
significancia α.

Teorema :  Suponga que  C(X) es ua región de confianza de 1 − α para θ. Esto es, para
todo θ0 , P0  θ0 ∈ C(X) = 1 − α. Entonces, la región de aceptación H0 : θ = θ0 de nivel α
es A(θ0 ) = X : θ0 ∈ C(X) .
Demostración: La prueba es de nivel α puesto que
 
P0 X ∈ A(θ0 ) = P0 θ0 ∈ C(X) = 1 − α

Esto es, la hipótesis H0 : θ = θ0 no se rechaza con significancia α. Si θ0 está en la región


de confianza 1 − α.
Regresando al ejemplo, el intervalo del 95 % de confianza para µ está dado por (X̄ ±
1.96/5), por lo que si el intervalo incluye µ = 3.0 se acepta la hipótesis nula H0 : µ = 3.0,
con una significancia del 5 %. Si por ejemplo, el promedio observado fuese x̄ = 3.51, éste da
lugar al intervalo del 95 % confianza (3.12, 3.90), que por no contener µ0 = 3.0, se rechazarı́a
la hipótesis H0 con una significancia del 5 %.

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 96

7.5. Cociente de verosimilitud generalizado (CVG)


7.5.1. Introducción
Considere el modelo X ∼ N(µ, σ 2 ). Sea θ = (µ, σ 2 ) ∈ Θ = (µ, σ 2 ) : ∞ < µ < ∞, σ > 0 .


Se desea contrastar las hipótesis

H0 : µ = 0, σ > 0 vs. H1 : µ ̸= 0, σ > 0

Sea el espacio nulo Θ0 = (0, σ 2 ) : σ > 0 . Si θ0 = (0, σ 2 ), entonces las hipótesis se pueden


presentar como
H0 : θ ∈ Θ0 vs. H1 : θ ∈ Θ1
con Θ1 = Θ \ Θ0 . Para esto, sea X = (X1 , . . . , Xn ) una muestra aleatoria de X. La función
de verosimilitud
 
−n/2 −n 1 X 2
L(θ; x) = f (x; θ) = (2π) σ exp − 2 (xi − µ)

y bajo H0 , L(θ0 ; x) = (2π)−n/2 σ −n exp{− 2σ1 2


P 2
xi }. Pero, como σ no está especificada no
es posible aplicar el lema de Neyman–Pearson al cociente de verosimilitudes.
Suponga sin embargo que en cada caso, numerador y denominador, se tienen “buenas
muestras” viniendo de distribuciones con parámetros en Θ0 y de Θ1 respectivamente. Ésto
ofrecerı́a funciones de verosimilitud “altas”. De hecho, se podrı́an pensar en
supθ∈Θ0 L(θ; X)
supθ1 ∈Θ1 L(θ; X)

como cociente de verosimilitudes que podrı́a tomar valores en todo R+ . Por razones técnicas
se extiende el denominador a todo Θ. Luego, se define el cociente

supθ∈Θ0 L(θ; X) L(θ̂0 ; X)


Λ(X) = =
supθ∈Θ L(θ; X) L(θ̂; X)
Notar que 0 ≤ Λ(X) ≤ 1, para todo X ∈ X .
Regresando al ejemplo, bajo H0 , en Θ0 , ℓ(θ; x) = − n2 log(2π) − n log σ − 1
x2i
P
2σ 2

n 1 X 2
ℓ(θ; x) = − log(2π) − n log σ − 2 xi
2 2σ
∂ℓ n 2 X 2
=− + 3 xi
∂σ σ 2σ
que igualando a cero, se sigue que σ̂02 = n1
P 2
xi . Por lo que
 X −n/2 !n/2
ne−1
 
−n/2 1 2 n
L(θ0 ; x) = (2π) xi exp − =
2π x2i
P
n 2

En el caso general sobre Θ,

∂ℓ
≡0 ⇒ µ̂ = x̄ !n/2
∂µ ne−1
y L(θ̂; x) =
2π (xi − x̄)2
P
∂ℓ 2 1X
≡0 ⇒ σ̂ = (xi − x̄)2
∂σ n
Luego,
!n/2 !n/2
(Xi − X̄)2 (Xi − X̄)2
P P
L(θ̂0 ; X)
Λ(X) = = P 2 =
(Xi − X̄)2 + nX̄ 2
P
L(θ̂; X) Xi

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 97

Entonces,
 n/2
1
Λ(X) =  2
 < λ
1+ P nX̄
(Xi −X̄)2

Ahora bien, si H0 : µ = 0, σ > 0 vs. H1 : µ ̸= 0, σ > 0, valores X̄ cercanos a cero apoyarı́an


nX̄ 2
H0 y se observarı́an Λ(X) cercanos a 1. Por otro lado, si H1 : µ ̸= 0, σ > 0, P ̸= 0
(Xi − X̄)2
y la muestra se opone a H0 , con Λ(X) pequeña. Ası́, con una región de rechazo de tamaño
α, Rα = {X : 0 ≤ Λ(X) ≤ cα }. En este ejemplo se tiene

Λ(X) ≤ λ
nX̄ 2
(λ−n/2 − 1) ≤ P
(Xi − X̄)2
r √
n − 1 −n/2 |X̄| n
(λ − 1) ≤ q
n 1 P
(Xi − X̄)2
n−1


nX̄
Bajo H0 , el estadı́stico T (X) = q ∼ tn−1
1 P 2
n−1 (X i − X̄)
Finalmente, la región de rechazo de tamaño α, queda
 
 √ 
 n|X̄| 
Rα = X : q > t(1−α/2; n−1)
1 P 2

 n−1 (X i − X̄) 

7.5.2. CVG
Sea X = (X1 , . . . , Xn ) una muestra aleatoria de X ∼ f (x; θ) con θ ∈ Θ = Θ0 ∪ Θ1 .
Considere el contraste de hipótesis

H0 : θ ∈ Θ0 vs. H1 : θ ∈ Θ1

Sea L(θ; x) = f (x; θ), la función de verosimilitud. Se define el cociente de verosimilitud


generalizado (CVG)
sup L(θ; X)
θ∈Θ0 L(θ̂0 ; X)
Λ(X) = =
sup L(θ; X) L(θ̂; X)
θ∈Θ

Notas:
1. Λ(X) es el estadı́stico de prueba.

2. 0 ≤ Λ(X) ≤ 1.

3. La región de rechazo es R = {X : Λ(X) ≤ c0 }.

4. CVG no siempre es la mejor prueba pero en general será una buena prueba.

5. CVG no necesariamente coincide con la derivada del lema de Neyma-Pearson si las


hipótesis son simples.

6. No siempre es fácil encontrar sup L(θ; x).


θ∈Θ

7. No siempre es fácil determinar la distribución nula de Λ(X).

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 98

7.5.3. Ejemplo
Tomado de Mood, Graybill, and Boes (1974).
Considere el modelo X ∼ f (x; θ) = θe−θx 1R+ (x), con θ > 0. Se desea contrastar las
hipótesis
H0 : θ ≤ θ0 vs. H1 : θ > θ0
Solución: Se considera el espacio parametral Θ = {θ : θ > 0} y el espacio nulo Θ0 = {θ ≤
θ0 } ⊂ Θ. Sea Xn = (X1 , . . . , Xn ) una muestra aleatoria de tamaño n de X ∼ f . Luego,
P n
L(θ; x) = θn e−θ xi
; ℓ(θ; x) = n log θ − nθx̄; ℓ′ (θ; x) = − nx̄
θ

de donde, el emv θ̂ = 1/X̄. Luego,

i) L(θ̂; x) = (x̄e)−n
(
(x̄e)−n si 1/x̄ ≤ θ0
ii) sup L(θ; x) =
θ∈Θ0 θ0n e−nθ0 x̄ si 1/x̄ > θ0

Entonces, 


 1 si x̄ ≥ 1/θ0

Λ(x) =
θ0n e−nθ0 x̄
si x̄ < 1/θ0


 (x̄e)−n

Por
 lo que se rechaza
n H0 si x̄ < 1/θ0 y (θ0 x̄)n e−n(θ0 x̄−1) < λ0 . O bien, rechace H0 si θ0 x̄ < 1
y θ0 x̄/eθ0 x̄−1 < λ0 .

Sea ahora, y = θ0 x̄. Note ahora que


h(y) = y n e−n(y−1) tiene un máximo
en y = 1, como se muestra en la figura λ0
de la derecha.

0 y0 1 y

Entonces, la regla de decisión es: rechazar H0 si y < 1 y h(y) = y n e−(y−1) < λ0 . Equiva-
lentemente,
Pn si y < y0 y y < 1, o bien, si x̄ < 1/θ0 y x̄ < y0 /θ0 . Recuerde, si X ∼ Exp(θ),
1 1 2
i=1 Xi ∼ 2θ Ga(α = 2n/2, β = 2) ≡ 2θ χ2n . Luego, si la prueba es de significancia α,
2
α = P0 (X̄ < y0 /θ0 ), por lo que y0 = χ (α; 2n). Por lo tanto, la región de rechazo para esta
prueba H0 : θ < θ0 vs. H1 : θ > θ0 y de significancia α es,
( )
χ2 (α; 2n)
Rα = Xn : X̄ <
2nθ0

Si por ejemplo, X ∼ Exp(θ) y de desea contrastar H0 : θ ≤ 2.0 v. a. H1 : θ > 2.0. Una


prueba de significancia del 10 % considerando muestras de tamaño n = 20, tendrı́a un valor
2
crı́tico de c0.10 = χ (0.10; 2·20)
2(20)(2) = 29.05
80 = 0.363. Por lo tanto,

R0.10 = X20 : X̄ < 0.363

Luego, en muestras de tamaño 20, promedios de 0.35 llevarı́an a rechazar H0 : θ ≤ 2.0


con una significancia del 10 %, mientras que si x̄ = 0.42 no se rechazarı́a la hipótesis.

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 99

2
Los correspondientes valores-p, son el resultado de resolver la ecuación x̄ = χ 2nθ (p;2n)
0
. Por
lo que, el P χ240 ≤ 0.35(2)(20)(2) = 0.077 y P χ240 ≤ 0.42(2)(20)(2) = 0.248, son los
 

correspondientes valores-p. Esto es, 0.35 (0.077) y 0.42 (0.248), valores menor y mayor que el
valor crı́tico c = 0.363, correspondiente a la significancia de 0.10. La siguiente tabla muestra
distintos valores del estadı́stico de prueba X̄, los valores-p respectivos y las respectivas
decisiones considerando un nivel de significancia α = 0.10.
x̄ 0.29 0.31 0.35 0.363 0.39 0.42
valor-p (0.016) (0.029) (0.077) (0.10) (0.161) (0.248)
Decisión Rechazar H0 Aceptar H0
Note que mientras más chicos los valores-p, mayor serı́a la evidencia asociada en contra de
la hipótesis nula H0 .
Ahora bien, para calcular la potencia de la prueba para distintos valores de θ, recuerde

K(θ) = Pθ (Rα ) = Pθ (X̄ < cα )


Pn 1 2
y que i=1 Xi ∼ 2θ χ2n . Por lo que se tiene que
X   X   
K(θ) = Pθ Xi ≤ ncα = P 2θ Xi ≤ 2nθcα = P χ22n ≤ 2nθcα

La siguiente tabla muestra la potencia de la prueba para varios valores del parámetro θ. La
figura muestra la función potencia correspondiente.
Función potencia
1.0
0.97

θ K(θ) 0.8
1.0 0.0001 0.68
0.6
1.5 0.0084
K(θ)

2.0 0.1000 0.4


3.0 0.6782
0.2
4.0 0.9680 0.1
5.0 0.9988 0.0
1 2 3 4 5

Finalmente, note una vez más que encontrar la distribución nula de Λ(X) puede ser difı́cil,
sino es que imposible. Pero en ocasiones como en este ejemplo, es posible resolver el caso.

7.5.4. Distribución asintótica del cociente de verosimilitudes generalizado (CVG)


Con el apoyo de Casella and Berger (2002) y Knight (2000).

Teorema (H0 simple) Considere el modelo X ∼ f (x; θ), con θ ∈ Θ, subconjunto abierto
de R. Se desea contrastar las hipótesis H0 : θ = θ0 vs. H1 : θ ̸= θ0 .
Sea Xn = (X1 , . . . , Xn ) una muestra aleatoria de X ∼ f (x; θ). Sea θ̂n = θ̂(Xn ) el
estimador máxima verosimilitud de θ. Suponga que f satisface las condiciones de regularidad
(CR) enunciadas en la sección de estimación. Entonces, bajo H0 ,
D
−2 log Λ(Xn ) −→ χ21

Demostración: Note que la expansión por Taylor de ℓ(θ; x) = log L(θ; x) alrededor de θ̂ es

1
ℓ(θ; x) = ℓ(θ̂; x) + ℓ′ (θ̂; x)(θ − θ̂) + ℓ′′ (θ∗ ; x)(θ − θ̂)2
2
E. Barrios Estadı́stica Matemática versión 0.34
Apuntes para Estadı́stica Matemática 100

donde θ∗ está entre θ y θ̂. Entonces,

−2 log(Λ(X)) = −2ℓ(θ0 ; X) + 2ℓ(θ̂; X)


 
′ 1 ′′ ∗ 2
= −2 ℓ(θ̂; X) + ℓ (θ̂; X)(θ0 − θ̂) + ℓ (θ ; X)(θ0 − θ̂) + 2ℓ(θ̂; X)
2
= −ℓ′′ (θ∗ ; X)(θ̂ − θ0 )2 ; pues ℓ′ (θ̂; X) = 0
 
n
1 X
= n(θ̂ − θ0 )2 − ℓ′′ (θ∗ ; Xi )
n
i=1

≈ n(θ̂ − θ0 )2 −Eθ0 [ℓ′′ (θ∗ ; X)] ;



por LGN
= n(θ̂ − θ0 )2 I(θ0 )
 2

 n(θ̂ − θ0 ) 
= q 
var(θ̂)

D
Y como se mostró ya, √n(θ̂−θ0 ) −→ N(0, 1), se sigue que
var(θ̂)

D
−2 log Λ(Xn ) −→ χ21

Teorema . Considere el modelo X ∼ f (x; θ), con θ = (θ1 , . . . , θk ) ∈ Θ, subconjunto


abierto de Rk . Se desea probar la hipótesis H0 : θ1 = θ10 , . . . , θr = θr0 , con r ≤ k.
Suponga que se satisfacen las condiciones de regularidad  (CR). Si θ̂n , el estimador
√ ·
máximo verosimilitud de θ, satisface que n(θ̂n − θ0 ) ∼ Nk 0, I−1 (θ) . Entonces, bajo H0 ,
el estadı́stico del cociente de verosimilitud generalizado, Λ(Xn ) sigue una distribución χ2r .
Esto es,
D
−2 log Λ(Xn ) −→ χ2r
En palabras, r es la diferencia en el número de parámetros libres de cada hipótesis.

Ejemplo : Considere los modelos independientes X ∼ N(µ1 , σ12 ) y Y ∼ N(µ2 , σ22 ). Se desea
contrastar las hipótesis H0 : µ1 = µ2 v. a. H1 : µ1 ̸= µ2 , pero no se conocen las varianzas.
Para efectos del ejemplo, se define el vector de parámetros θ = (µ1 −µ2 , µ2 , σ1 , σ2 ). Considere
entonces el espacio parametral Θ = {θ = (µ1 − µ2 , µ2 , σ2 , σ2 ) : µi ∈ R, σi ∈ R+ , i = 1, 2},
Θ0 = {θ = (0, µ2 , σ1 , σ2 )} ⊂ Θ y Θ1 = Θ \ Θ0 . Luego, las hipótesis pueden plantearse

H0 : θ ∈ Θ0 vs. H1 : θ ∈ Θ1

Solución: Como se discutió anteriormente, desconociendo las varianzas el problema, conocido


como Beherens–Fisher, no tiene una solución al desconocerse la distribución exacta. Una
solución serı́a construir un intervalo de confianza para θ1 , utilizando la aproximación de
Welch o Satterwhite, como se comentó en la sección anterior.
Alternativamente, se puede emplear la prueba del cociente de verosimilitud generali-
zado. Para esto, se consideran las muestras aleatorias X = (X1 , . . . , Xn1 ) de X y Y =
(Y1 , . . . , Yn2 ) de Y . La función de verosimilitud

L(θ; x, y) = f (x; µ1 , σ1 ) · f (y; µ2 , σ2 )


( )
1 X 1 X
= (2π)(n1 +n2 )/2 σ1−n1 σ2−n2 exp − 2 (xi − µ1 )2 − 2 (yj − µ2 )2
2σ1 2σ2

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 101

El estadı́stico de prueba es
sup L(θ; X, Y )
θ∈Θ0 L(θ̂0 ; X, Y )
Λ(X, Y ) = =
sup L(θ; X, Y ) L(θ̂; X, Y )
θ∈Θ

Para determinar maximizar L(θ; x, y) en Θ0 se requerirá de un método numérico por la


restricción impuesta por la hipótesis H0 .
De acuerdo a los teoremas presentados anteriormente,
D
−2 log Λ(X, Y ) −→ χ2ν
·
En este caso, ν = 4 − 3 = 1, luego −2 log Λ(X, Y ) ∼ χ21 . Luego, dada las muestras x y y,
se calcula −2 log Λ(x, y) y determina su valor−p de acuerdo a la distribución χ21 y se toma
la decisión sobre H0 .

7.5.5. Prueba Ji-cuadrada para bondad de ajuste


Con el apoyo de Rice (2007).
Sean {ℓi } sujetos que son asignados a una y solo una de k categorı́as C1 , . . . , Ck , ex-
clusivas y exhaustivas, de manera que todo ℓ queda clasificado en una solo una Cj . Sea
pj = P(ℓ ∈ Cj ) ≥ 0, para todo j = 1, . . . , k y por lo que 1 = p1 · · · + pk .
Sea Θ ⊂ Rr el espacio de parámetros tales que pj = pj (θ), para θ ∈ Θ. Sean Θ0 ⊂ Θ el
espacio nulo y Θ1 = Θ \ Θ0 . Se desea contrastar las hipótesis
H0 : θ ∈ Θ0 vs. H1 : θ ∈ Θ1
Para esto, considere n sujetos ℓ’s independientes y sea X = (X1 , . . . , Xk ) con Xj el número
de sujetos que fueron clasificados Cj . Luego, n = X1 + · · · + Xk . X sigue una distribución
multinomial de parámetros n y p1 , . . . , pk . Entonces, la función de verosimilitud de p es
 
n
L(p; x) = f (x, p) = px1 1 · · · pxk k
x1 · · · xk
Se sigue del principio de invarianza de los estimadores de máxima verosimilitud que
sup L(p; x) = L(p(θ̂); x)
p∈H0

donde θ̂ es el emv de θ ∈ Θ0 . Por otro lado, recuerde que sin restricciones sobre θ, los emv
xj
de las pj ’s es p̂j = . Por lo que el cociente de verosimilitud generalizado (CVG) es
n
 
n
p1 (θ̂)x1 · · · pk (θ̂)xk k
!xj
x1 · · · xk Y pj (θ̂)
Λ(X) =   =
n p̂j
p̂x1 1 · · · p̂xk j=1
x1 · · · xk
y puesto que xj = np̂k , se tiene que
k
!np̂j
X pj (θ̂)
−2 log Λ(X) = −2 log
p̂j
j=1
!
X np̂j (θ̂)
= −2 np̂j log
np̂j
k
!
X Oj
=2 Oj log (15)
Ej
j=1

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 102

donde Oj = np̂j y Ej = npj (θ̂).


Ahora, puesto que 1 = p1 + · · · + pk , se tienen k − 1 parámetros libres. Si bajo H0
las pj (θ̂) dependen del espacio nulo Θ0 , de dimensión m, esto es, dim(Θ0 ) = m, entonces,
−2 log Λ(X) ∼ χ2k−1−m .
Por otro lado, existe el estadı́stico X2 de Pearson (Karl), con
 2
k
X xj − npj (θ̂) D
X2 = −→ χ2k−1−m (16)
j=1 npj (θ̂)

bajo H0 . Entonces, bajo la hipótesis H0 , el cociente de verosimilitudes generalizado y el


estadı́stico X2 de Pearson son asintóticamente equivalentes.
En efecto, si H0 es verdadero y n es “grande”, p̂j ≈ pj (θ̂) y expandiendo por Taylor
−2 log Λ(X) al rededor de pj (θ̂),

X X (p̂j − pj (θ̂))2
−2 log Λ(X) = 2n (p̂j − pj (θ̂)) + n + ···
pj (θ̂)
 2
k
X xj − npj (θ̂)

i=1 npj (θ̂)

pues la primera suma es aproximadamente cero, xj = np̂j e ignorando términos de mayor


grado.
En la práctica es más común el uso del estadı́stico X2 de Pearson pues su fácil de calcular
y pocas veces requiere de computadora.

Ejemplo : Modelo de equilibrio de Hardy-Weinberg


Recupere el ejemplo de la Ley Hardy-Weinberg visto en la sección de estimadores. De acuer-
do al modelo, si las frecuencias de los genotipos están en equilibrio, los genotipos AA, Aa,
y aa, ocurren con una frecuencia mostrada en la tabla
g AA Aa aa
f (1 − θ) 2 2θ(1 − θ) θ2
En la siguiente tabla se muestra la distribución en el tipo de sangre de 1029 personas,
probabilidades estimadas, y la cantidad esperada de acuerdo al modelo
genotipo M MN N Total
Oj 342 500 187 1029
pj (θ̂) 0.331 0.489 0.180 1.0
Ej 340.6 502.8 185.6 1029
Como fue ya discutido, a partir de la muestra, el emv θ̂ = 0.4247. Con ella, se estiman
las probabilidades pj (θ̂) y los correspondientes observaciones esperadas npj (θ̂). Por ejemplo,
para el genoma AA, p1 (θ̂) = (1 − 0.4247)2 = 0.331 y E1 = 1029(0.331) = 340.6.
Se considera la hipótesis nula H0 de que el modelo multinomial propuesto es adecuado,
mientras que la alternativa H1 es que las probabilidades siguen alguna otra relación. Se
desean contrastar las hipótesis con una prueba de significancia α. El estadı́stico X2 de
Pearson sigue aproximadamente una distribución χ2 con 1 (= 3 categorı́as -1 -estimación
de θ) grado de libertad. Luego, la correspondiente región de rechazo será Rα = {X : X2 >
χ2 (1 − α; 1)}. Que si la significancia es α = 0.05, entonces R0.05 = {X2 ≥ 3.841}. Ahora
bien, de (16),

(342 − 340.6)2 (500 − 502.8)2 (187 − 185.6)2


X2 = + + = 0.0325 (0.857)
340.6 502.8 185.6

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 103

Por lo que no se rechaza la hipótesis H0 con una significancia del 5 %. Pero note, el estadı́stico
observado 0.032 es bastante menor que el valor crı́tico 3.84. Esto se ve reflejado en su
correspondiente valor-p de 0.857.
Por otro lado, si se calcula el estadı́stico de prueba (15) derivado del CVG
"   #
342
−2 log Λ(X) = −2 342 log + · · · = 0.0325 (0.857)
340.6
Finalmente, note que el cociente de verosimilitudes es Λ(X) = 0.9839, apoyando claramente
la hipótesis nula.

Ejemplo : Recupere el ejemplo de ajuste de datos Poisson visto al principio de la sección


de Estimadores. Ahı́ se presenta otro ejemplo de la prueba χ2 de bondad de ajuste y aunque
no es nombrado, el estadı́stico X 2 de Pearson y el valor-p.

7.6. Bondad de Ajuste


7.6.1. Gráficas de Probabilidad
Con el apoyo de Rice (2007).
Las gráficas de probabilidades son usadas para pruebas visuales de bondad del ajuste
por las distribuciones de probabilidad. Refiérase nuevamente al ejemplo de los datos Poisson
de emisión de partı́culas del principio de la sección de Estimadores. ¿Se pueden conside-
rar los datos generados por una distribución Poisson? O bien, suponga que los siguientes
datos (simulados) representan una muestra del consumo mensual de agua de 50 alumnos.
¿Qué distribución siguen éstos datos? Suponer que la distribución normal aproxima razo-
nablemente a las observaciones, ¿se cumple? Este es el problema de qué tan bien el modelo
(distribución) ajusta los datos.

2.55 2.20 2.62 1.71 3.63 2.33 4.74 3.73 3.70 2.98 3.46 2.70
2.34 3.23 3.42 2.17 3.26 4.70 3.04 2.12 2.53 3.15 3.20 1.98
3.07 3.69 3.69 3.77 3.72 3.22 3.30 3.05 4.10 3.82 3.50 3.45
3.37 3.90 3.82 3.13 1.93 2.20 4.36 3.52 4.27 4.51 3.81 6.02
3.07 2.81

Suponga X1 , . . . , Xn una muestra aleatoria de una distribución uniforme [0, 1]. Sean Yj =
j
X(j) , los correspondiente estadı́sticos de orden. Entonces, se sabe26 que E[X(j) ] = , lo
n+1
1 n
que sugiere graficar la muestra ordenada {X(i) } contra los valores esperados n+1 , · · · , n+1 .
La gráfica seguirá mas o menos una lı́nea recta como lo muestra el panel de la izquierda de
la figura 25. En el panel de la derecha se muestra la gráfica de la muestra ordenada de una
distribución triangular (suma de uniformes) contra los cuantiles de la distribución uniforme.
El evidente la separación de los puntos a la lı́nea recta, sugiriendo que la distribución
uniforme no ajusta razonablemente los datos triangulares.
Ahora bien, el teorema de transformación integral27 afirma que si la variable aleatoria
X tiene una función de distribución F , continua estrictamente creciente, entonces F (X) ∼
j j
Unif[0, 1] y se podrı́a graficar Yj = F (X(j) ) contra n+1 , o bien, X(j) vs. F −1 ( n+1 ). El panel
−1 j
izquierdo de la figura 26 muestra la gráfica de X(j) contra F ( n+1 ) de una distribución
gamma. Nótese nuevamente que los puntos siguen una lı́nea recta, que no en el panel
de la derecha, puntos simulados también de una distribución gamma pero de distintos
j
parámetros que la de la izquierda. Ambas gráficas tiene el mismo eje horizontal, F −1 ( n+1 ),
correspondiente a la distribución de la izquierda.
26
Cálculo de Probabilidades II.
27
Cálculo de Probabilidades II.

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 104

uniforme triangular

1.0

0.8
0.8

0.6
0.6
x(i)

x(i)
0.4
0.4
0.2

0.2
0.0

0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
cuantiles uniforme cuantiles uniforme

Figura 25: Datos simulados de: a) distribución uniforme; b) distribución triágular. Eje
horizontal en cuantiles uniformes [0, 1].

gamma gamma
14

20
10

15
8
x(i)

x(i)
10
6
4

5
2
0

0 2 4 6 8 10 12 0 2 4 6 8 10 12
cuantiles gamma cuantiles gamma

Figura 26: Datos simulados de: a) distribución gamma; b) distribución gamma distintos
parámetros. Eje horizontal en cuantiles de la distribución con los parámetros del panel
izquierdo.

 
En algunos casos, la distribución F (x) = G x−µ σ , con µ y σ llamados parámetros de
localización
  y escala, como es el caso de la distribución normal. Si X ∼ N(µ, σ), FX =
x−µ
Φ σ , donde Φ es la función de distribución de la normal estándar. Luego, se puede
X(j) − µ
   
−1 j −1 j
graficar vs. G , o bien, X(j) vs. µ + σG . El panel izquierdo
σ n+1 n+1
de la gráfica 27 muestra datos normales (N(−3, 22 )) contra los correspondientes cuantiles. El
panel de la derecha muestra los mismos datos graficados con la función qqnorm del lenguaje
R. Note que la escala del eje horizontal corresponde a los cuantiles del la distribución
normal estándar. Si los puntos siguen más o menos una lı́nea recta se pueden suponer que
la distribución normal describe razonablemente los datos.
La figura 28 muestra la gráfica cuantil-cuantil normal de los datos simulados del consumo
mensual de agua, del principio de esta sección. Los puntos siguen más o menos una lı́nea
recta (exhibida) por lo que se podrı́a suponer que siguen una distribución normal. Por otro
lado, al mostrar los cuantiles de la distribución normal estándar en el eje horizontal, de la
gráfica se puede estimar la media y la desviación estándar de la distribución origen de los

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 105

normal Normal Q−Q Plot

2
Sample Quantiles
0

0
−2

−2
x(i)
−4

−4
−6

−6
−8 −6 −4 −2 0 2 −2 −1 0 1 2
cuantiles normal Theoretical Quantiles

Figura 27: Datos simulados de distribución normal. Panel izquierdo es construido con los
cuantiles correspondientes. Panel derecho obtenido con la función qqnorm de R.

datos.

Normal Q−Q Plot


4.5

4.0
4.0
Sample Quantiles
3.5

3.15
3.0
2.5

2.3
2.0

−2 −1 0 1 2
Theoretical Quantiles

Figura 28: Gráfica cuantil-cuantil normal de los datos simulados del consumo mensual de
agua.

A saber, localice las abscisas -1, 0 y 1 sobre la recta que ajusta los datos y proyéctelos
sobre la escala vertical. Los valores son aproximadamente 2.3, 3.15 y 4.0. La media de la
normal estándar es 0, la media estimada de la distribución será µ̃ = 3.15. Entre ±1 se tiene
2 veces la desviación estándar de la distribución estándar, luego σ̃ = (4.0 − 2.3)/2 = 0.85.

7.6.2. Función de distribución empı́rica


Sea X = (X1 , . . . , Xn ) una muestra aleatoria de X ∼ F y sean Y = (Y1 , . . . , Yn ) los
correspondientes estadı́sticos de orden, Yj = X(j) , para j = 1, . . . , n.

Definición : Se define la función de distribución empı́rica (f.d.e.; e.c.d.f. por empirical


cumulative distribution function) por
n n
1 1X 1X
Fn (x) = máx{i : Yi ≤ x} = 1{Xi ≤x} (x) = 1(−∞,x) (Xi )
n n n
i=1 i=1

Note que:
E. Barrios Estadı́stica Matemática versión 0.34
Apuntes para Estadı́stica Matemática 106

Para x ∈ R fijo, Fn (x) es un estadı́stico (función de la muestra que no depende de


parámetros desconocidos).

Fn se distribuye como el promedio de n ensayos Bernoulli (Binomial/n).

Teorema : Fn (x) denota la función de distribución empı́rica de una muestra aleatoria de


Bernoulli’s tamaño n, entonces,
   
k n  k  n−k
P Fn (x) = = F (x) 1 − F (x) , k = 0, . . . , n
n k
P
Demostración: Sean Zi = 1(−∞,x] (Xi ). Entonces, Zi ∼ Ber(F (x)), por lo que Zi ∼
Bin(n, F (x)) y Fn (x) = n1
P
Zi .
1 P
Corolario : X = (X1 , . . . , Xn ) una muestra aleatoria de X ∼ F . Fn (x) = n 1(−∞,x] (Xi ).
Entonces,

i) E[Fn (x)] = F (x)

ii) var(Fn (X)) = n1 F (x) 1 − F (x)


 

De hecho, puesto Fn es una media muestral. se sigue del Teorema Central de Lı́mite que
 
· 1
Fn (x) ∼ N F (x), F (x)(1 − F (x))
n

Además, se sigue del corolario anterior que para x fijo, Fn (x) es un estimador insesgado y
consistente (ecm) de F (x).
Las propiedades anteriores son para cualquier función de distribución F .
Para la estimación de F y no solo de F (x), se ha de ver la distancia de Fn (x) a F (x)
para todo x ∈ R.

Teorema de Glivenko-Cantelli .
!
P sup Fn (x) − F (x) −→ 0 =1
−∞<x<∞

La convergencia casi segura (cp1) de Fn (x) a F (x) es uniforme en x.


Sea Dn = supx∈R Fn (x) − F (x) . Entonces, Dn es aleatorio y mide la distancia de Fn a
F y el Teorema de Glivenko-Cantelli indica que P(Dn → 0) = 1. En particular, la función
de probabilidad acumulada de Dn , FDn tiene toda su masa en cero. ¿Qué pasa con F√nDn ?
El Teorema de Glivenko-Cantelli dice que la convergencia casi segura de Fn (x) a F (x)
es uniforme en x. Si x < y, ¿cómo es la estimación de F (y) − F (x) = P(x < X ≤ y)?

Proposición :
1
cov(Fn (x), Fn (y)) = F (x)[1 − F (y)], x≤y
n
Demostración: Sea x < y, luego

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 107

 
 1 X 1 X
cov Fn (x), Fn (y) = cov  1(∞,x) (Xi ), 1(−∞,y) (Xj )
n n
i j
 2 X X
1  
= cov 1(−∞,x) (Xi ), 1(−∞,x) (Xj )
n
i j
 2 X
1  
= cov 1(−∞,x) (Xi ), 1(−∞,y) (Xj )
n
i
1  
= cov 1(−∞,x) (X1 ), 1(−∞,y) (X1 )
n
1h i
= E[1(−∞,x) (X)1(−∞,y) (X)] − E[1(−∞,x) (X)] · E[1(−∞,y) (X)]
n
1 
= Fn (x) − F (x)F (y)
n
1
= F (x)[1 − F (y)]
n

Corolario :

var(Fn (y) − Fn (x)) = var(Fn (y)) + var(Fn (x)) − 2cov Fn (y), Fn (x)
1
= [F (y) − F (x)][1 − F (y) + F (x)]
n

Corolario : Fn (y) − Fn (x) es un estimador consistente cuadrático medio de (F (y) −
F (x)).
1
Proposición : Si B ∈ B(R), entonces, Pn (B) = n 1B (Xi ) es un estimador insesgado y
consistente (cuadrático medio) de P(X ∈ B).
Demostración: Note que
 X 
1 1
var(Pn (X ∈ B)) = var 1B (Xi ) = P(X ∈ B)[1 − P(X ∈ B)]
n n

7.6.3. Prueba Kolmogorov-Smirnov


Con base en Mood, Graybill, and Boes (1974).
Recordar que Fn (x) sigue se distribuye asintóticamente normal.
√   D
n Fn (x) − F (x) −→ N(0, F (x)(1 − F (x)))

El siguiente teorema establece la distribución lı́mite de nDn definido anteriormente.

Teorema : Sea Xn = (X1 , . . . , Xn ) una muestra aleatoria de X ∼ F , continua. Sea


Dn = D(Xn ) = sup |Fn (x) − F (x)|
x∈R

Entonces, la distribución asintótica de nDn está dada por
H(x) := lı́m F√nDn (x)
n→∞

= lı́m P( nDn ≤ x)
x→∞
 

2 2
X
= 1 − 2 (−1)j−1 e2j x  1R+ (x)
j=1

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 108

Notas:

1. La distribución no depende de F , es decir, la distribución de nDn es libre de dis-
tribución, (“no paramétrica”). Lo que hace a Dn muy práctica para las pruebas de
bondad de ajuste.
2. EL resultado se debe a Andrey Kolmogorov (1933). Tablas de la distribución H se
deben a Nicolai Smirnov (1948).
3. Su uso para pruebas de bondad de ajuste:
H0 : F = F0 vs. H1 : F ̸= F0

Bajo H0 , sea Kn = K(Xn ) = supx∈R |Fn (x) − F (x)| ∼ H, la distribución de nDn . Si
H0 es falsa, Fn tendera a la verdadera F y no a F0 y por lo tanto supx∈R |F n(x)−F0 (x)|
tenderá a ser grande. Luego, una regla de decisión razonable (región de rechazo de
tamaño α) serı́a
( )
Rα = Xn : Kn := sup |Fn (x) − F (x)| > cα
x∈R

con el valor crı́tico cα = H(1 − α; n), disponible en tablas.


La prueba anterior se conoce como la prueba de bondad de ajuste de Kolmogorov-
Smirnov (KS). KS valora que “tan bien” un conjunto de datos es ajustado por la distri-
bución F0 . El ajuste “se mide” mediante el estadı́stico de Kolmogorov
Dn = D(X) = sup |Fn (x) − F (x)|
x∈R
El teorema indica la distribución asintótica de Dn . Hay tablas de probabilidad acumulada
de Hn para distintos tamaños de muestra n28 .
Notas:
1. La distribución de Hn supone F0 conocida, luego H0 es simple. Si hay necesidad de
estimar algún parámetro la distribución ya no es válida.
2. La adaptación de KS a F0 ≡ N(µ, σ 2 ) con θ = (µ, σ) desconocida se debe a H. Lilliefors
(1967).
3. La figura 29 muestra un ejemplo de una distribución nula, la empı́rica y dónde se da
la máxima Dn que define el estadı́stico Kn observado.

Ejemplo :
El siguiente arreglo presenta 40 observaciones que se dice representa una muestra alea-
toria de una distribución uniforme en [0, 1].

0.178 0.550 0.797 0.576 0.255 0.618 0.517 0.598 0.556 0.599
0.621 0.518 0.419 0.292 0.479 0.609 0.631 0.734 0.107 0.792
0.487 0.401 0.619 0.510 0.506 0.462 0.651 0.542 0.205 0.534
0.287 0.503 0.257 0.301 0.085 0.207 0.667 0.582 0.252 0.837

La gráfica 30 ilustra de la muestra ordenada contra los cuantiles teóricos (lı́nea recta).
La máxima distancia de los datos a la recta es 0.233, correspondiente a la observación 36.
Luego, Kn = máx1≤k≤40 {|x(k) − k/n|} = |0.667 − 0.90| = 0.233.
La prueba de hipótesis con significancia α tiene como región de rechazo Rα = {X :
Kn (X) > c(α, n)}. Luego, para α = 0.05 y n = 40, c = .165 menor que 0.23, por lo que se
rechaza H0 con una significancia del 5 %.
28
? (?).

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 109

F Kn

0
x(1) x(n)

Figura 29: Funciones de distribución, teórica (continua) y empı́rica (escalonada). Se muestra


el estadı́stico Kn observado.

distribución uniforme
1.0 0.8

Kn = 0.233
muestra ordenada
0.4 0.6
0.2
0.0

0.0 0.2 0.4 0.6 0.8 1.0


cuantiles teóricos

Figura 30: Funciones de distribución, teórica (continua) y empı́rica (escalonada). Se muestra


el estadı́stico Kn observado.

7.7. Ejercicios
Refiérase a la Lista de Ejercicios 7.

Textos de apoyo.
Bickel and Doksum (1977); Casella and Berger (2002); Dudewicz and Mishra (1988);
Knight (2000); Mood, Graybill, and Boes (1974); Rice (2007); Rincón (2019); Wackerly,
Mendenhall III, and Scheaffer (2008).

E. Barrios Estadı́stica Matemática versión 0.34


Apuntes para Estadı́stica Matemática 110

Referencias
Barrios, E. (2024a). Apuntes para el curso de Cálculo de Probabilidades I. https://
gente.itam.mx/ebarrios/docs/apuntes_CP1.pdf. (3 de enero de 2024).
Barrios, E. (2024b). Apuntes para el curso de Cálculo de Probabilidades II. https://
gente.itam.mx/ebarrios/docs/apuntes_CP2.pdf. (3 de enero de 2024).
Bastian, H. (2013). Statistical Significance and Its Part in Scien-
ce Downfalls. https://absolutelymaybe.plos.org/2013/11/11/
statistical-significance-and-its-part-in-science-downfalls. (Consul-
tado: 11/07/2022).
Bickel, P. and K. Doksum (1977). Mathematical Statistics. Englewood Cliffs, NJ: Prentice
Hall.
Blitzstein, J. K. and J. Hwang (2014). Intorduction to Probability. Boca Raton, FL: CRC
Press.
Casella, G. and R. L. Berger (2002). Statistical Inference (2nd ed.). Pacific Gove, CA:
Duxbury.
Chihara, L. and T. Hesterberg (2019). Mathematical Statistics with R (2 ed.). Hoboken,
NJ: Wiley.
Cox, D. R. (2006). Principles of Statistical Inference. Cambridge: Cambridge University
Press.
Dudewicz, E. J. and S. N. Mishra (1988). Modern Mathematical Statistics. New York,
N.Y.: Wiley.
Garthwaite, P., I. Jolliffe, and B. Jones (2002). Statistical Inference. Oxford, UK: Oxford
University Press.
Hoel, P. G., S. C. Port, and C. J. Stone (1971). Introduction to Probability Theory. Boston:
Houghton Miffling Company.
Hogg, R. V. and A. T. Craig (1978). Introduction to Mathematical Statistics (4 ed.). New
York: Macmillan Publishing Co., Inc.
Knight, K. (2000). Mathematical Statistics. Boca Raton, Florida: Chapman & Hall/CRC.
Mood, A. M., F. A. Graybill, and D. C. Boes (1974). Introduction to the Theory of
Statistics (3rd ed.). Singapore: McGraw-Hill.
Rice, J. S. (2007). Mathematical Statistics and Data Analysis (3rd ed.). Belmont, Cali-
fornia: Brooks/Cole: Cengage Learning.
Rincón, L. (2019). Una introducción a la estadı́stica inferencial. CDMX: Universidad
Nacional Autónoma de México.
Roussas, G. G. (1997). A Course in Mathematical Statistics (2nd ed.). San Diego, CA.:
Academic Press.
Stigler, S. (2016). The Seven Pillars of Statistical Wisdom. Cambridge, MA.: Harvard
University Press.
Stigler, S. (2017). Los siete pilares de la sabidurı́a estadı́stica. CDMX, México: Libros
Grano de Sal. AME.
Tukey, J. (2020). Exploratory Data Analysis (1 ed.). Hoboken, N.J.: Pearson Education.
Wackerly, D. D., W. Mendenhall III, and R. L. Scheaffer (2008). Mathematical Statistics
with Applications (7 ed.). Australia: Thomson.

E. Barrios Estadı́stica Matemática versión 0.34

También podría gustarte