Estimación Puntual Versión Final

Estimación Puntual
Jaime Vázquez • Lizbeth Naranjo • Ruth Fuentes • Margarita Chávez
Proyecto PAPIME UNAM PE107117

“Estadística para estudiantes de ciencias”
Índice general
Índice general 1
Introducción 2
1. Estimación puntual 3
1.1. Métodos de estimación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

1.1.1. Método de momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.1.2. Estimadores basados en verosimilitud . . . . . . . . . . . . . . . . . . 9
1.1.3. Verosimilitud en el enfoque Bayesiano . . . . . . . . . . . . . . . . . . 20
1.1.4. Otros métodos de estimación . . . . . . . . . . . . . . . . . . . . . . . 27
1.2. Evaluación de estimadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
1.2.1. Error cuadrático medio y estimadores insesgados . . . . . . . . . . . . 33
1.2.2. Consistencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
1.2.3. Funciones de pérdida y estimación . . . . . . . . . . . . . . . . . . . 39
1.3. Estimación insesgada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
1.3.1. La propuesta de Cramèr y Rao . . . . . . . . . . . . . . . . . . . . . 42
1.3.2. El teorema de Rao-Blackwell . . . . . . . . . . . . . . . . . . . . . . . 51
1.3.3. El teorema de Lehmann-Scheffé . . . . . . . . . . . . . . . . . . . . . 53
1.4. Propiedades asintóticas de los estimadores . . . . . . . . . . . . . . . . . . . 59
1.5. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
Bibliografía 74
1
Introducción
La estadística inferencial es una disciplina que se basa en gran medida en la probabilidad y

que ayuda a resolver problemas mediante inferencias de alguna característica de la población
usando datos muestrales de la misma.
La estadística involucra conceptos y resultados que pueden resumirse en grandes temas:
análisis exploratorio de datos, distribuciones muestrales, estimación puntual, estimación por
intervalo y pruebas de hipótesis, los cuales son fundamentales en el estudio y la aplicación de
esta disciplina. En esta parte se abordarán los tópicos relacionados con estimación puntual.
Se inicia con la exposición de los métodos de estimación más importantes, tales como el de
máxima verosimilitud, el de momentos y otros como el de medianas y percentiles. Asímismo,
se da una introducción al método Bayesiano y más adelante al de mínimos cuadrados.
Posteriormente se revisan las propiedades deseables de un estimador puntual como una
forma de analizar su bondad. Se habla del error cuadrático medio, estimadores insesgados y
la propiedad de consistencia, para dar lugar al ulterior desarrollo de la teoría para encontrar
a los mejores estimadores insesgados.
Para la lectura de este documento, es importante contar con conocimientos de teoría de
la probabilidad, así como de cálculo diferencial e integral en una y varias variables. También
se recomienda el estudio previo del Capítulo 3 de las notas Introducción a la Estadística
de los mismos autores o algún texto que cubra los temas relacionados con estadísticas y
distribuciones muestrales, así como los de suficiencia y completez.
2
CAPÍTULO 1
Estimación puntual
Suponga que se dispone de una población en la que se estudia una variable aleatoria X
con distribución conocida y parámetro (o parámetros) desconocido(s) y se tiene interés en
disminuir el grado de desconocimiento de θ en f (x; θ) . De la población se extrae una muestra
aleatoria simple de tamaño n: X1 , X2 , ..., Xn y se trata de calcular, a partir de los valores
muestrales, una función de los mismos que proporcione una estadística θ = T (X1 , X2 , ..., Xn )
que le asigne un valor al parámetro desconocido de la población, de forma que sean lo más
cercanos en algún sentido. A θ se le llama estimador.
El objetivo de la estimación puntual es entonces encontrar un valor para θ, denotado
como θ, que sea función de la muestra aleatoria y que permita modelar o describir de manera
adecuada el fenómeno aleatorio.
Definición 1.1 Sea X1 , . . . , Xn una muestra aleatoria de una distribución con función de
densidad f(x; θ). Un estimador es una estadística T (X) cuyos valores t(x) sirven para aproxi-
mar o estimar los valores de θ.
La notación θ̂ = T (X) expresa que el estimador de θ es la estadística T (X). Los valores

del estimador, o sea t(x), son realizaciones de la variable aleatoria T (X).
Si por ejemplo, se tiene una población N(µ, σ 2 ), un posible estimador para µ es µ̂ = X̄,
es decir, en este caso el estimador de µ sería la estadística X (la media muestral). En los
siguientes párrafos se presentarán los métodos más conocidos para encontrar estimadores.
En ocasiones, en lugar del parámetro θ, se desea estimar una función de dicho parámetro.
En general, se denotará como τ (θ) a cualquier función de θ.
3
Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez
1.1. Métodos de estimación

El primero de los métodos que se abordará fue aportación de Karl Pearson (1857-1936)
y se conoce como el método de momentos para la estimación de parámetros.
Figura 1.1: Karl Pearson con Francis Galton. Ambos fundaron la revista Biometrika en 1901.
Imagen tomada de commons.wikipedia.org (public domain).
Karl Pearson "fue historiador, escribió sobre folklore, fue socialista convencido, abogado,
matemático aplicado, biómetra, estadístico, maestro y biógrafo. Sin duda que su contribución
más importante es el nacimiento de la estadística aplicada. Es por lo que se le debe mayor
crédito, en frase de él mismo: Hasta que los fenómenos de cualquier rama del conocimiento
no hayan sido sometidos a medida y número, no se puede decir que se trate de una ciencia.
Además del método de momentos para la obtención de estimadores, introdujo el sistema de
curvas de frecuencias para disponer de distribuciones que pudieran aplicarse a los distintos
fenómenos aleatorios, desarrolló la correlación lineal para aplicarla a la teoría de la herencia
y de la evolución. Introdujo el método de la ji cuadrada para dar una medida del ajuste
entre datos y distribuciones, para contrastar la homogeneidad entre varias muestras y la in-
dependencia entre variables. Fundó los Anales de la Eugenesia y en 1900, junto con Galton
y Weldon, fundó la revista Biometrika de la que fue editor hasta su muerte. En una descrip-
ción autobiográfica decía: una explicación para mi vida, se debe a una combinación de dos
características que he heredado: capacidad para trabajar mucho y capacidad para relacionar
las observaciones de los demás"1 .
1
Gómez Villegas, M.A. (2009). Karl Pearson, el Creador de la Estadística Matemática. Historia de la
Probabilidad y la Estadística IV, J. Basulto y J.J. García (eds.). Congreso Internacional de Historia de la
Estadística y la Probabilidad, 351-356.
4
También se introducirá el método de máxima verosimilitud propuesto por Ronald A. Fi-

sher en 1922, y que intuitivamente pretende obtener el estimador de un parámetro seleccio-
nando el que maximiza la probabilidad de obtener los datos que realmente fueron observados.
Figura 1.2: Placa English Heritage dedicada a Fisher en la casa Inverforth. Imagen tomada de
commons.wikipedia.org (public domain). By AnemoneProjectors (talk) (Flickr) (Sir Ronald
Aylmer Fisher plaque) [CC BY-SA 2.0 (https://creativecommons.org/licenses/by-sa/2.0)],
via Wikimedia Commons
Hablar de Fisher, equivale a referirse al desarrollo de la estadística durante el siglo XX.

Basta decir que la mayor parte de los términos que se usan en Inferencia Estadística los intro-
dujo él, por ejemplo, parámetro, estadística (función de la muestra aleatoria), verosimilitud,
score o puntaje, estadística auxiliar, información, hipótesis nula y errores tipo I y II, sólo por
mencionar algunos.
Sin duda que el trabajo de Fisher es la piedra angular sobre la que se sustenta la estadística
como ciencia. Egon Pearson (1974), hijo de Karl Pearson, habla de las diferencias conceptuales
entre su padre y Fisher2 : Galton y K. Pearson trabajaron con muestras grandes por su
interés en la reproducción libre de las especies en su medio natural, esto ocurre con humanos,
animales y plantas. Por su parte, Fisher trabajó con muestras pequeñas relacionadas con
datos experimentales, por lo que era necesario analizar con cuidado las bases de la inferencia
estadística para una adecuada interpretación. Fisher estudió resultados exactos en muestras
pequeñas, pero también obtuvo propiedades asintónticas óptimas de los estimadores máximo
verosímiles.
En esta parte se hablará además del enfoque Bayesiano en la teoría de la estimación
puntual, el cual se basa en el teorema de Bayes.
2
Pearson, E. S. (1974). “Memories on the impact of Fisher’s work in the 1920’s”. Int. Stat. Rev. 42 (1)
5
1.1.1. Método de momentos

Sea X1 , . . . , Xn una muestra aleatoria de una distribución con función de densidad f (x; θ).
r
A E(Xn i
) se le conoce como el r-ésimo momento poblacional y se denota por µr , mientras
r
i=1 Xi
que n
es el r-ésimo momento muestral y se denota por Mr .
El método de estimación por momentos consiste en igualar los momentos muestrales
con los momentos poblacionales y resolver para θ (o θ1 , ..., θ k , si la distribución tiene k
parámetros). Esto es, µr = Mr , donde r = 1, ..., k y k representa el número de parámetros a
estimar.
De manera general, si X1 , X2 , . . . , Xn es una muestra aleatoria de una población con
función de densidad f (x; θ1 , θ 2 , ..., θk ), en la estimación por momentos se resuelve el siguiente
sistema de ecuaciones
µ1 = M1 , µ2 = M2 , . . . , µk = Mk

k ecuaciones con k incógnitas
La solución a este sistema θ̂ = (θˆ1 , ...., θˆk ) se conoce como el estimador por el método de
momentos.
Ejemplo 1.1 Sea X1 , . . . , Xn una muestra aleatoria de una población con distribución
P oisson(θ). Como
E(X) = θ,
entonces n
i=1 Xi
θ̂ = .
n
Ejemplo 1.2 Sea X1 , . . . , Xn una muestra aleatoria de una población con distribución exp(θ).
Como
1
E(X) = ,
θ
entonces
1
X̄ = .
θ
Por lo tanto,
θ̂ = 1/X̄.
N(µ, σ 2 ). Como
E(X) = µ y V ar(X) = σ 2 ,
entonces
E(X 2 ) = µ2 + σ 2 .
6
Por lo tanto,
n
1 2 2 2
X̄ = µ̂ y X̄ + σ̂ = X .
n i=1 i
Es decir,
n
2 1 2
σ̂ = X − X̄ 2 .
n i=1 i
Pero note que
n
n

2
(Xi − X̄) = (Xi2 − 2X̄Xi + X̄ 2 )
i=1 i=1
n
n

= Xi2 − 2X̄ Xi + nX̄ 2
i=1 i=1
n
n

= Xi2 − 2nX̄ + nX̄ = 2 2
Xi2 − nX̄ 2 .
i=1 i=1
n n
1 1 2
∴ (Xi − X̄)2 = X − X̄ 2 .
n i=1 n i=1 i
Entonces los estimadores por momentos para µ y σ 2 son
n
1
µ̂ = X̄ y σ̂ 2 = (Xi − X̄)2 .
n i=1
Ejemplo 1.4 Suponga que se tiene la siguiente muestra de tamaño 10 :
1, 1, 1, 2, 2, 3, 5, 7, 8, 10.
Estimar los parámetros µ y σ 2 usando el método de momentos si la distribución normal se

ajusta a través de los datos de la muestra.
En este caso, las estadísticas muestrales están dadas por
10
10

xi = 40 y x2i = 258.
i=1 i=1
Usando el método de momentos y el ejemplo anterior:

40
=
µ =4
10
7
y
258
σ
2 + 42 = .
10
De donde
σ
2 = 9.8.
Ejemplo 1.5 Hallar los estimadores por el método de momentos de la distribución Gamma
Igualando los
y usar los datos del ejemplo anterior para dar valores numéricos de r y λ.
primeros momentos muestrales y poblacionales, se obtiene:
r 40
E (X) = = = 4. (1.1)
λ 10
y

r (r + 1) 258
E X2 = 2 = = 25.8.
λ 10
Se tiene un sistema de dos ecuaciones. Para encontrar la solución, se considera el cociente:
E (X 2 ) r + 1 25.8
2 = = 2 = 1.6125.
[E (X)] r 4
y resolviendo para r :
r = 1.6327.
Sustituyendo este valor en (1.1) y despejando λ, se obtiene:
= 1.6327 = 0.408 2.
λ
4
El rango del estimador no necesariamente coincide con el espacio del parámetro a estimar.
Considere en el siguiente ejemplo una distribución Binomial con k y p desconocidos.
Ejemplo 1.6 Suponga que X ∼Binomial(k, p). Una posible aplicación con esta distribución
es que se busque estimar las tasas de ocurrencia de un crimen, conociendo que existe un
número importante de casos que no se denuncian o reportan, es decir, no se sabe cuál es
exactamente el valor de k. Utilizando el método de momentos, se consideran los dos primeros
momentos poblacionales de la distribución binomial, así como los correspondientes momentos
muestrales:
X̄n = kp (1.2)
y
n
1 2
X = kp(1 − p) + k 2 p2 . (1.3)
n i=1 i
8
De (1.2) se obtiene
X̄n
,
p̂ = (1.4)
k
sustituyendo este resultado en lugar de p en (1.3):
n
1 2 X̄n 2
Xi = X̄n (1 − ) + X̄n (1.5)
n i=1 k
y como
n n
1
2 1 2 2
Xi − X̄n = Xi + X̄n ,
n i=1 n i=1
(1.5) es equivalente a
n
1 X̄n
(Xi − X̄n )2 = X̄n (1 − )
n i=1 k
2
X̄n
= X̄n − ,
k
así que despejando el valor de k, se obtiene
2 n
X̄n 1
= X̄n − (Xi − X̄n )2 ,
k n i=1
k 1
2 = 1
n ,
X̄n X̄n − n i=1 (Xi − X̄n )2
2
X̄n
k̂ = 1
n .
X̄n − n i=1 (Xi − X̄n )2
Por lo tanto, el valor estimado de p es
X̄n
p̂ = .

k
Observe que no se puede garantizar que k será un número entero positivo y que p ∈ [0, 1].
Sin embargo, en general el método permite obtener una propuesta para estimar rápidamente
los parámetros desconocidos.
1.1.2. Estimadores basados en verosimilitud

Para introducir este método se presenta primero el siguiente ejemplo, tomado de Mood,
Graybill y Boes (1973), el cual considera que se tiene una urna en donde se sabe que hay
9
bolas negras y blancas, de las cuales se desconoce el número de cada una de ellas, pero se
tiene el dato de que la razón es de 3 a 1, aunque también se ignora si hay más bolas blancas
que negras o viceversa. Se desea estimar la proporción de bolas negras en la urna y para ello,
se toma una muestra de tamaño 3 con reemplazo de esta población, X1 , X2 , X3 . Note que Xi
tiene distribución Bernoulli(θ), i = 1, 2, 3.
Observe que:
θ es la probabilidad de obtener bola negra, es decir, θ = P(Xi = 1).
θ solo puede tomar los valores 14 y 34 , debido a que la razón establecida es de 3 a 1.

X := 3i=1 Xi es el número de bolas negras en la muestra. Y por lo tanto, X puede
tomar los valores x = 0, 1, 2, 3.
X ∼ Bin(n = 3, θ).
En el cuadro 1.1 se presentan las probabilidades de obtener 0, 1, 2 y 3 bolas negras, con

ambos valores del parámetro. Si en la muestra se obtienen 0 bolas negras, es decir
Valor de θ P (X = 0) P (X = 1) P (X = 2) P (X = 3)
θ = 1/4 27/64 27/64 9/64 1/64
θ = 3/4 1/64 9/64 27/64 27/64
1
Cuadro 1.1: Probabilidad de obtener 0, 1, 2 y 3 bolas negras cuando θ = 4
y θ = 34 .
(x1 = 0, x2 = 0, x3 = 0) ,
entonces θ̂ = 1/4 porque es más probable obtener (con este valor de θ) 0 bolas negras que
con θ̂ = 3/4. Ahora, si en la muestra se obtienen 2 bolas negras entonces θ̂ = 3/4, ya que
es más probable obtener 2 bolas negras con θ̂ = 3/4 que con θ̂ = 1/4. Es decir, se escoge el
valor de θ que maximiza la probabilidad de obtener una muestra específica (x1 , x2 , x3 ).
Esta es la idea subyacente en el método de máxima verosimilitud para estimar paráme-
tros. De manera general, es necesario definir una función que represente la "probabilidad"de
obtener una cierta muestra de entre todas las posibles en X (el espacio muestral o de las
muestras). Dicha función, para un valor muestral fijo, depende únicamente de los parámetros
de la distribución en cuestión y el problema es encontrar aquél valor del parámetro o de los
parámetros que maximicen esta función para una realización fija de la muestra. En el ejemplo
anterior, el parámetro sólo puede tomar dos valores, pero en general se estará resolviendo un
problema de optimización sobre el espacio paramétrico correspondiente a la distribución con
la que se esté trabajando (una vez que se ha observado una muestra).
Para abordar este tema, se iniciará con la definición de la función de verosimilitud.
10
Definición 1.2 Sea X1 , . . . , Xn una muestra aleatoria de una población con función de den-
sidad f (x; θ). Se define la función de verosimilitud como la función de densidad conjunta
de la muestra y se denota como L(θ) o L(θ | x). Es decir:
n

L(θ) = fX1 ,...,Xn (x1 , ..., xn; θ) = fXi (xi ; θ).
i=1
Definición 1.3 Sea X1 , . . . , Xn una muestra aleatoria de una población con función de den-
sidad f(x; θ) y L(θ) la correspondiente función de verosimilitud. A θ̂ = T (X) se le llama
el estimador máximo verosímil de θ, si satisface que para cualquier θ ∈ Θ, se tiene que
L(θ̂) ≥ L(θ).
Método general
Sea f(x; θ1 , θ2 , . . . , θk ) una función de densidad con k parámetros. Si (θˆ1 , ...θˆk ) satisface
el sistema
∂L(θ1 , θ2 , ..., θ k )
= 0 i = 1, 2, ..., k;
∂θi
entonces (θˆ1 , ..., θˆk ) es el estimador máximo verosímil de θ.
Note que
∂ 1 ∂
ln(L(θ 1 , θ2 , . . . , θk )) = · L(θ1 , θ2 , . . . , θk ).
∂θi L(θ1 , θ 2 , . . . , θ k ) ∂θi
Por lo tanto,
∂ ∂
ln(L(θ1 , θ2 , . . . , θk )) = 0 ⇔ L(θ1 , θ2 , . . . , θk ) = 0.
∂θi ∂θi
Es decir, ln(L(θ1 , θ 2 , . . . , θ k )) alcanza su máximo en el mismo punto que L(θ1 , θ 2 , . . . , θk ).
En virtud de la observación anterior se define la log-verosimilitud de f (x; θ1 , θ2 , . . . , θk )

como
l (θ1 , θ2 , . . . , θk ) = ln(L(θ 1 , θ2 , . . . , θk )).
Frecuentemente, por practicidad, se calcula el máximo de l (θ) en vez del de L(θ).
Ejemplo 1.7 (Distribución Bernoulli). Sea X1 , . . . , Xn una muestra aleatoria de una pobla-
ción con distribución Bernoulli(θ). Obtener el estimador máximo verosímil de θ.
n
n
n n
L(θ) = f (xi , θ) = θ xi (1 − θ)1−xi = θ i=1 xi
(1 − θ)n− i=1 xi
.
i=1 i=1
11
Entonces,
n n
l (θ) = ln(L(θ)) = ln θ i=1 xi (1 − θ)n− i=1 xi
n
n

= ln(θ) xi + ln(1 − θ) n − xi .
i=1 i=1
Luego, n
∂ i=1 xi n − ni=1 xi
l (θ) = − .
∂θ θ 1−θ
Por lo tanto,
n n
∂ i=1 xi n − i=1 xi 1 n 1 1
l (θ) = 0 ⇔ = ⇔ − 1 = n −1 ⇔ = ,
∂θ
θ 1−θ
θ i=1 xi

θ x̄
de donde se concluye que

θ = X.
Ahora se verificará que es un máximo
n n n
2 n
∂ l(θ) i=1 xi n− i=1 xi i=1 xi n− i=1 xi
|= − − =− + < 0.
∂θ2 θ
θ
2
(1 −
θ)2
θ
2
(1 −
θ)2
∴ El estimador máximo verosímil de θ es θ̂M V = X̄.
Ejemplo 1.8 (Distribución exp(θ)). Sea X1 , . . . , Xn una muestra aleatoria de una población
con distribución exp(θ). Obtener el estimador máximo verosímil de θ.
n
n
n n

L(θ) = f (xi , θ) = θe−θxi I(0,∞) (xi ) = θn e−θ i=1 xi
I(0,∞) (xi ).
i=1 i=1 i=1
Entonces,
n

n
l (θ) = ln(L(θ)) = ln θn e−θ i=1 xi
I(0,∞) (xi )
i=1
n
n

= n ln(θ) − θ xi + ln(I(0,∞) (xi )).
i=1 i=1
Luego,
n
∂ n
l (θ) = − xi .
∂θ θ i=1
12
Por lo tanto, n
n
∂ n 1 i=1 xi 1
l (θ) = 0 ⇔ = xi ⇔ = ⇔ = x̄,
∂θ
θ
θ n
θ
i=1
y así
1
θ= .
X̄
∂ 2 l(θ) n
2 |
θ = − 2 < 0.
∂θ
θ
1
∴ El estimador máximo verosímil de θ es θ̂M V = .
X̄
Ejemplo 1.9 (Distribución P oisson(θ)). Sea X1 , . . . , Xn una muestra alea-
toria de una población con distribución P oisson(θ). Obtener el estimador máximo verosímil
de θ.
n n n
e−θ θxi −nθ
n
xi I{0,1,2,...} (xi )
L(θ) = f (xi , θ) = I{0,1,2,...} (xi ) = e θ i=1 .
i=1 i=1
xi ! i=1
xi !
Entonces,
n

n I{0,1,2,...} (xi )
xi
l (θ) = ln(L(θ)) = ln e−nθ θ i=1
i=1
xi !
n
n

I{0,1,2,...} (xi )
= −nθ + ln(θ) xi + ln .
i=1 i=1
xi !
Luego, n
∂ xi
l (θ) = −n + i=1 .
∂θ θ
Por lo tanto, n n
∂ i=1 xi xi
l (θ) = 0 ⇔ n = ⇔ θ = i=1 .
∂θ
θ n
De esta manera,

θ = X.
n
∂ 2 l(θ) i=1 xi
|= − < 0.
∂θ2 θ
θ
2
∴ El estimador máximo verosímil de θ es θ̂M V = X̄.
13
Ejemplo 1.10 (Distribución normal). Sea X1 , . . . , Xn una muestra aleatoria de una pobla-
ción con distribución N (µ, σ 2 ). Obtener los estimadores máximo-verosímiles de µ y σ 2 .
Primero se obtiene la función de verosimilitud:
n

1 (xi −µ)2
L µ, σ 2
= √ e− 2σ2
i=1 2πσ 2
n2 n
1 − 12 2
i=1 (xi −µ) .
= e 2σ
2πσ 2
La log-verosimilitud está dada por
n

n 1
l µ, σ 2 = − ln 2πσ 2 − 2 (xi − µ)2 .
2 2σ i=1
Obteniendo las derivadas con respecto a los parámetros
n
∂l 1
= (xi − µ) ,
∂µ σ 2 i=1
n
∂l n 1
2
= − 2+ 4 (xi − µ)2 .
∂σ 2σ 2σ i=1
Igualando a cero se obtiene
n

xi − n
µ=0
i=1
y
n
n 1
− 2 + 4 )2 = 0,
(xi − µ
2
σ 2
σ i=1
de donde
=X
µ (1.6)
y
n
2
2 i=1 Xi − X
=
σ . (1.7)
n
Las segundas derivadas están dadas por
∂ 2l n
2
= − 2,
∂µ σ
2
n 2
∂ l n i=1 (xi − µ)
= − ,
∂ (σ 2 )2 2σ 4 σ6
n
∂ 2l ∂ 2l (xi − µ)
2
= 2
= − i=1 4 .
∂µ∂σ ∂σ ∂µ σ
14
Sea
∂2l ∂2l
∂µ2 ∂σ 2 ∂µ
H= ∂2l ∂2l
∂µ∂σ 2 ∂(σ 2 )2
la matriz de segundas derivadas. Observe que

∂ 2 l n
= − < 0, (1.8)
∂µ2 (µ,σ2 ) σ 2 σ2
mientras que
n
i=1 (xi −x)
− σn2 − 4
det H|(µ,σ2 ) = det n nσ 2
i=1 (xi −x) n i=1 (xi −x)
− σ
4
σ4
2
− σ
6

− σn2 0
= det n 2
n i=1 (xi −x)
0 σ4
2
− σ6

n2 n2 ni=1 (xi − x)2
= − 6 + 8
2
σ n
σ
2 2 2
n nσ
= − 6+ 8
2
σ
σ
n2 n2 n2
= − 6 + 6 = 6 > 0. (1.9)
2
σ
σ 2
σ

Por (1.8) y (1.9), se ve que H es definida negativa y por lo tanto, el óptimo µ 2 es un

, σ
máximo, concluyéndose que (1.6) y (1.7) son los estimadores máximo verosímiles de µ y σ 2 .
Ejemplo 1.11 (Distribución uniforme). Sea X1 , . . . , Xn una muestra aleatoria de una pobla-
ción con distribución Uniforme en el intervalo [θ − 12 , θ + 12 ], es decir,
f (x; θ) = I[θ− 1 ,θ+ 1 ] (x).

2 2
Obtener el estimador máximo verosímil de θ.

La función de verosimilitud está dada por
n

1 si para toda i, xi ∈ [θ − 12 , θ + 12 ]
L (θ) = I[θ− 1 ,θ+ 1 ] (xi ) =
2 2 / [θ − 12 , θ + 12 ].
0 si para alguna i, xi ∈
i=1
Es decir, el máximo valor de L (θ) es 1 cuando xi ∈ [θ − 12 , θ + 12 ] para toda i, lo cual ocurre

si
1 1
y1 ≥ θ − y yn ≤ θ + ,
2 2
15
es decir, si
1 1
yn − ≤ θ ≤ y1 + .
2 2
Por lo tanto,
1 si θ ∈ yn − 12 , y1 + 12
L (θ) =
0 en otro caso.

Cualquier valor
θ de θ en Yn − 12 , Y1 + 12 es un estimador máximo verosímil, por ejemplo,
Y1 +Yn
T (X) = 2 .
Ejemplo 1.12 (Distribución uniforme). Sea X1 , . . . , Xn una muestra aleatoria de una pobla-
ción con distribución Uniforme en el intervalo [0, θ] . Hallar el estimador máximo verosímil
de θ.
La función de densidad está dada por
1
θ
, 0 ≤ x ≤ θ,
f (x; θ) =
0 en otro caso.
La función de verosimilitud es
n

L (θ) = f (xi ; θ)
i=1
1
θn
si xi ≤ θ, para toda i
=
0 si al menos una de las xi > θ
1
θn
si máx {x1 , x2 , ..., xn } ≤ θ
=
0 en otro caso
1
θn
si θ ≥ yn
=
0 si θ < yn ,
donde yn = máx {x1 , x2 , ..., xn } . Note que
dL (θ) n
= − n+1 < 0.
dθ θ
Así, la función de verosimilitud vale cero si θ < yn y θ1n si θ ≥ yn , siendo en este caso una
función decreciente, como se muestra en la figura 1.3.
16
L()
Yn
Figura 1.3: Gráfica de la función de verosimilitud para una muestra de tamaño n de la

distribución uniforme continua en el intervalo [0, θ] .
Así, el estimador máximo verosímil de θ es

θ = Yn = máx {X1 , ..., Xn } .
Propiedad de invarianza de los estimadores máximo-verosimiles

En algunas ocasiones, el objetivo no es estimar un parámetro de la distribución sino una
función de éste, τ (θ). Por ejemplo, el interés podría ser estimar la desviación estándar de una
distribución normal, σ, en lugar de la varianza σ 2 ; o estimar la trasformación del momio en
una distribución Bernoulli, θ/(1 − θ), en lugar de la probabilidad de éxito θ. Por lo tanto, se
busca un estimador de la función τ (θ), es decir, τ (θ).
Una propiedad de los estimadores máximo verosímiles es la propiedad de invarianza. Esto
significa que si buscamos un estimador máximo verosímil para una función de θ, denotada
por τ (θ), y si sabemos que el estimador máximo verosímil de θ es θ̂, entonces el estimador
máximo verosímil de τ (θ), denotado por τ (θ), es τ (θ̂).
Por lo tanto, la propiedad de invarianza de los estimadores máximo verosímiles enuncia
que
τ(θ) = τ (
θ),
es decir, que para encontrar el estimador máximo verosímil de una función del parámetro
basta simplemente evaluar la función en el estimador máximo verosímil.
Para esto es necesario tomar en cuenta las características de la función τ (θ), por ejemplo,
si la función de τ (θ) es uno-a-uno, entonces la propiedad de invarianza se cumple y existe un
17
sólo máximo, dado que podemos invertir la función. Esto se puede ver fácilmente considerando
que si η = τ (θ), entonces la función inversa de τ (θ) es τ −1 (η) = θ, la cual está bien definida
por ser una función uno-a-uno, y la función de verosimilitud de τ (θ), escrita como una función
de η, está dada por
n
∗
L (η) = f(xi ; τ −1 (η)) = L(τ −1 (η)),
i=1
y para obtener el estimador máximo verosímil, basta obtener lo siguiente
sup L∗ (η) = sup L(τ −1 (η)) = sup L(θ).

η η θ
Por tanto, el máximo de L∗ (η) se alcanza en η = τ (θ) = τ (θ̂), mostrando así que el estimador
máximo verosímil de τ (θ) es τ (θ̂).
En algunos casos, no es posible usar la propiedad de invarianza de los estimadores máximo
verosímiles debido a que muchas funciones de interés no son funciones uno-a-uno. Por ejemplo,
para estimar µ2 , donde µ es la media de una distribución normal, la función τ (µ) = µ2 no es
una función uno-a-uno. Si τ (θ) no es una función uno-a-uno, entonces para algún valor η puede
haber más de un valor de θ que satisfaga que τ (θ) = η. En estos casos, la correspondencia
entre la maximización sobre η y la correspondiente maximización sobre θ deben analizarse.
Por ejemplo, si θ̂ es el estimador máximo verosímil de θ, podría existir otro valor de θ,
digamos θ0 , para el cual también se cumple que τ (θ̂) = τ (θ 0 ). Así, en el caso de que τ (θ)
no sea una función uno-a-uno, no necesariamente existirá una única solución. En estos casos
será necesario usar una definición más general de la función máximo verosímil de τ (θ). Una
definición de verosimilitud más general para τ (θ) es la siguiente.
Definición 1.4 La función de verosimilitud inducida por τ (θ), denotada por L∗ , está dada
por
L∗ (η) = sup L(θ).
{θ:τ (θ)=η}
En este caso, el valor η̂ que maximiza a la función L∗ (η) es el estimador máximo verosímil
de η = τ (θ). Además, puede verse a partir de las igualdades anteriores que el máximo de L∗
y el máximo de L coinciden.
Teorema 1.1 Si θ̂ es el estimador máximo verosímil de θ, entonces para cualquier función

τ (θ), el estimador máximo verosímil de τ (θ) es τ (θ̂) 3 .
Demostración:
3
Esta propiedad fue demostrada por Zehna (1966) en el artículo Invariance of Maximum Likelihood Esti-
mators en la revista Annals of Mathematical Statistics.
18
Sea η̂ el valor que maximiza L∗ (η). Es necesario mostrar que L∗ (η̂) = L∗ (τ (θ̂)). Además,
como se mencionó anteriormente, el máximo de L y el máximo de L∗ coinciden, así que se
tiene lo siguiente,
L∗ (η̂) = sup sup L(θ)

η {θ:τ (θ)=η}
= sup L(θ)
θ
= L(θ̂),
donde la primera igualdad se cumple por definición de L∗ (η) ya que L∗ (η) = sup{θ:τ (θ)=η} L(θ),
la segunda igualdad se obtiene debido a que la maximización iterada es igual a la maxi-
mización no condicional sobre θ, y la última igualdad se cumple por definición de θ̂, ya que
θ̂ es el estimador máximo verosímil de L(θ). Además,
L(θ̂) = sup L(θ)

{θ:τ (θ)=τ (θ̂)}
= L∗ (τ (θ̂)),
donde la primera igualdad se obtiene debido a que θ̂ es el estimador máximo verosímil de θ,

y la segunda igualdad se obtiene por la definición de L∗ (η).
Por lo tanto, se muestra que L∗ (η̂) = L∗ (τ (θ̂)) y que τ (θ̂) es el estimador máximo verosímil
de τ (θ).
Con este teorema es posible encontrar estimadores máximo verosímiles de funciones de

parámetros que no son uno-a-uno, por ejemplo, se puede ver que el estimador máximo
verosímil de µ2 , donde µ es la media de una distribución normal, es X̄ 2 .
Observación 1.1 La propiedad de invarianza de los estimadores máximo verosímiles tam-

bién se cumple en el caso multivariado. La demostración del teorema anterior es válida aún
si θ es un vector de parámetros. Si el estimador máximo verosímil de θ = (θ 1 , . . . , θ k ) es
θ̂ = (θ̂1 , . . . , θ̂k ), y si τ (θ) = τ (θ 1 , . . . , θk ) es alguna función de los parámetros, entonces el
estimador máximo verosímil de τ (θ1 , . . . , θk ) es τ (θ̂1 , . . . , θ̂ k ).
N(µ, 1), con µ desconocido. Se busca el estimador máximo verosímil de τ (µ) = log(µ). Co-
mo µ̂ = X̄ es el estimador máximo verosímil de µ, entonces por la propiedad de invarianza
log(X̄) es el estimador máximo verosímil de log(µ).
19
Ejemplo 1.14 Sea X1 , . . . , Xn una muestra aleatoria de la distribución normal N (µ, σ 2 ).

Se sabe que el estimador máximo verosímil de µ es X̄. Para encontrar el estimador máximo
verosímil de τ (µ) = sen (µ)
τ
(µ) = τ (µ̂) = sen(µ̂) = sen(X̄).
Ejemplo 1.15 Sea X1 , . . . , Xn una muestra aleatoria de la distribución Bernoulli(θ). Se
desea encontrar el estimador máximo verosimil de τ (θ) = θ(1 − θ). Se sabe que el estimador
máximo verosímil de θ es θ̂M V = X̄. Entonces
τ
(θ)M V = τ (θ̂M V ) = τ (X̄) = X̄(1 − X̄).
Bernoulli(θ), con θ desconocido. Se busca el estimador máximo verosímil del momio τ (θ) =
θ
(1−θ)
. Como θ̂ = X̄ es el estimador máximo verosímil de θ, entonces por la propiedad de
X̄ θ
invarianza (1−X̄)
es el estimador máximo verosímil de (1−θ)
.
1.1.3. Verosimilitud en el enfoque Bayesiano

Considere una muestra aleatoria X1 , . . . , Xn de una población con distribución gama(µ, s),
con media µ. En esta sección se denotará a la función de densidad como fX (x|θ) y a la
verosimilitud como L (θ|x1 , . . . , xn ) , la razón de este cambio se comprenderá más adelante.
Así, para el caso de la distribución gama(µ, s), su función de densidad está dada por
ss
fX (x|µ, s) = xs−1 exp{−sx/µ},
Γ(s)µs
mientras que la correspondiente función de verosimilitud es
n
ss
L(µ, s|x1 , . . . , xn ) = xs−1 exp{−sxi /µ}
i=1
Γ(s)µ i
s
sns
= T s−1 exp{−sT2 /µ},
Γn (s)µns 1

donde T1 = ni=1 xi y T2 = ni=1 xi . Observe que la verosimilitud depende de la muestra sólo
a través de estas estadísticas suficientes T1 y T2 . Suponga que se desea estimar el parámetro
µ. Al otro parámetro que no es el que se está estimando, en este caso s, se le suele llamar un
parámetro de ruido.
Utilizando exclusivamente la verosimilitud para proponer un estimador para el parámetro
de interés µ y teniendo en cuenta la posibilidad de un muestreo repetido, el estimador máximo
verosímil para µ es el valor del parámetro µ ∈ Θ que maximiza la función de verosimilitud;
es decir, el valor del parámetro para el cual la muestra observada es más probable.
Por construcción, el rango del estimador coincide con el espacio paramétrico, aunque
hereda las dificultades de cualquier problema de optimización, a saber:
20
Encontrar el máximo global y verificar que lo sea.
Que sea sensible a cambios numéricos.
Ahora, si se consideran dos valores de µ, el cociente de verosimilitudes para el caso de la

distribución gama, estaría dado por:
sns
L(µ1 , s|x1 , . . . , xn ) Γn (s)µns
T1s−1 exp{−sT2 /µ1 }
1
= sns
,
L(µ2 , s|x1 , . . . , xn ) Γn (s)µns
T1s−1 exp{−sT2 /µ2 }
ns 2
µ1
= exp{−sT2 [1/µ1 − 1/µ2 ]},
µ2
el cual depende del valor del parámetro s. En general no es claro cómo tratar el parámetro
de ruido, pero desde el enfoque clásico de maximizar la función de verosimilitud como se vio
en la sección 1.1.2, simplemente se toma el valor del estimador s.
Existe otro enfoque conocido como Inferencia Bayesiana, en el cual se condiciona com-
pletamente en los datos observados y se concluye sobre la población en estudio basándose
en:
1. La verosimilitud L(θ|x), que representa la información que hay en los datos

x= (x1 , . . . , xn ); y
2. π(µ) una distribución de probabilidad que se conoce como distribución inicial o

a priori y que describe las ideas subjetivas que se tienen sobre el valor de µ. Estas
ideas se conciben como externas a los datos y pueden ser deducidas de experiencias
previas o bien de conocimiento experto.
La inferencia se expresa a través de una distribución posterior, final o a posteriori de los

párametros que se denotará como π(θ|x) y que se obtiene a través del teorema de Bayes:
L(θ|x)π(θ)
π(θ|x) = . (1.10)
L(θ|x)π(θ)dθ
La estadística Bayesiana (por Thomas Bayes (1702-1761), matemático del siglo XVIII),
representa un enfoque diferente a la estadística inferencial clásica o frecuentista. En el enfoque
Bayesiano también se supone que los datos se obtienen de una distribución perteneciente a
una familia paramétrica conocida; sin embargo, a diferencia de la estadística clásica, que
considera que los parámetros son fijos pero desconocidos, aquí se hace el supuesto de que son
variables aleatorias.
21
En resumen, el enfoque denominado frecuentista no supone que hay conocimiento previo

de θ. El enfoque Bayesiano, por el contrario, se basa en el supuesto de que se tiene alguna
información previa acerca de θ. Esta información se expresa por medio de una distribución
sobre θ, llamada distribución inicial o a priori. Aquí se supondrá que esta distribución a prio-
ri tiene una densidad π(θ) y puede tener distintas interpretaciones según el problema que se
esté abordando, por ejemplo, que dicha distribución está sustentada en experiencias previas
similares o que expresa una creencia subjetiva.
En ambos casos, la verosimilitud provee la información que hay en las observaciones y que
permite evaluar y elegir un valor del parámetro sobre otros, pues en el proceso inferencial
se busca obtener estimadores que concilien de la mejor manera el modelo con los datos
observados. Será entonces de interés examinar la incertidumbre que hay en este proceso para
elegir un buen estimador.
En el contexto Bayesiano se debe considerar la evaluación de la dependencia de las conclu-
siones con respecto a las distribuciones iniciales, las cuales se han dado de manera subjetiva.
En muchos casos, la selección de la distribución inicial también contempla la posibilidad de
calcular de forma cerrada el denominador en (1.10). Un caso particular de esta selección se
da con las familias conjugadas.
Definición 1.5 Una distribución inicial π(θ) es conjugada si para π(θ) ∈ P y L(θ|x) ∈ F ,
se tiene que π(θ|x) ∈ P, donde P y F son familias de distribuciones.
A continuación se da un primer ejemplo para ilustrar algunas de las funciones que se han
mencionado en el enfoque Bayesiano.
Ejemplo 1.17 Los paquetes de los llamados dulces Smarties vienen con k colores diferentes,
los cuales se repiten con la misma frecuencia.
Figura 1.4: Dulces smarties. Tomada de pixabay.com (imágenes gratuitas de alta calidad).
Suponga que no se conoce k y secuencialmente se examinan 3 dulces, resultando un rojo,

un verde y un rojo. La densidad para X = el segundo dulce es de diferente color que el
22
primero, pero el tercero es del mismo color que el primero, está dada por:
f (x | k) = P (el segundo es de diferente color que el primero) ×

×P (el tercero es del mismo color que el primero)

k−1 1 k−1
= = .
k k k2
A la luz de los datos x = rojo, verde, rojo, se tiene entonces que f(x|k) = (k − 1)/k 2 . Si en
lugar de 3 se examinan 4 y resulta que ese cuarto es de color naranja (con los tres primeros
rojo, verde, rojo), se tiene que
(k − 1) (k − 2)
f (x | k) = .
k3
Ahora suponga que se tiene información a priori o se cree que el número de colores es
1 3 3 3
5,6,7 u 8, con probabilidades iniciales 10 , 10 , 10 y 10 , respectivamente.
Para el caso de tres dulces, si k = 5, entonces
4
f (x|k) = (5 − 1)/52 = = 0.16,
25

1
f (x|k)π (k) = (0.16) = 0.016
10
y 1
(0.16) 10
π (k | x) = 8 = 0.13.

f (x|k)π (k)
k=5
A continuación se resumen los valores de estas funciones para los distintos valores de k y
para ambos escenarios, es decir, cuando se tiene rojo, verde y rojo (cuadro 1.2) y para cuando
k π(k) f (x|k) π(k)f(x|k) π(k|x)

5 .1 .160 .016 .13
6 .3 .139 .042 .33
7 .3 .122 .037 .29
8 .3 .109 .033 .26
Cuadro 1.2: Cálculo de la distribución a posteriori cuando los dulces exami-
nados son rojo, verde y rojo.
el cuarto dulce es naranja (cuadro 1.3).

Observe que la distribución a posteriori para k es una pequeña modificación de la a priori.
23
k π(k) f (x|k) π(k)f(x|k) π(k|x)

5 .1 .096 .010 .11
6 .3 .093 .028 .31
7 .3 .087 .026 .30
8 .3 .082 .025 .28
Cuadro 1.3: Cálculo de la distribución a posteriori cuando los dulces exami-
nados son rojo, verde, rojo y naranja.
La estadística Bayesiana se basa en el cálculo de distribuciones condicionales. Los siguien-

tes ejemplos ilustran el uso de la definición de densidades condicionales en términos de las
densidades conjuntas y marginales.
Ejemplo 1.18 Una moneda cargada se lanza n veces. Suponga que xi vale 1 si se obtiene
sol y 0 si no, en el i-ésimo lanzamiento. No se tiene idea de qué tan cargada está la moneda,
entonces se considera una distribución uniforme a priori para θ, de tal manera que la densidad
a priori está dada por:
π(θ) = 1, 0 ≤ θ ≤ 1.
Sea t el número de soles. Entonces la distribución a posteriori de θ es:
θt (1 − θ)n−t × 1
π(θ|x1 , . . . , xn ) = 1
0
φt (1 − φ)n−t × 1dφ
π(θ|x) ∝ θt (1 − θ)n−t ,
de donde se puede ver que si se inserta una constante de proporcionalidad apropiada, entonces
se tiene una densidad Beta(t + 1, n − t + 1), que sería la distribución a posteriori de θ dada
x.
En el ejemplo anterior se utiliza ∝ para denotar que π(θ|x) es proporcional a θt (1 − θ)n−t .
En general, ∝ se lee como “es proporcional a”.
Ejemplo 1.19 Suponga que X1 , . . . , Xn es una muestra aleatoria de una población con dis-
tribución N (µ, 1) y que π(µ) ∼ N(0, τ −2 ) para τ −2 conocida. Entonces
n
1
π(µ|x1 , . . . , xn ) ∝ exp − (xi − µ)2 + µ2 τ 2
2 i=1
n 2
1 xi
∝ exp − (n + τ 2 ) µ − i=1 2 .
2 n+τ
Así, n
i=1xi 1
µ|x1 , . . . , xn ∼ N , .
n + τ n + τ2
2
24
exponencial(λ) y la distribución a priori para el parámetro λ es una exponencial(µ), donde µ
es fija y conocida. Entonces:
n
n
π(λ|x1 , . . . , xn ) ∝ µe −λµ
λe−λxi = λn e−λ(µ+ i=1 xi )
,
i=1
n
es decir, λ ∼ gama(n + 1, µ + i=1 xi ).
Ejemplo 1.21 Suponga que se examina una máquina que hace partes de automóviles y se
denota a θ como la proporción de marcas defectuosas. Un día se examinan 10 piezas denotadas
por X1 , . . . , X10 , donde Xi = 1 indica que la pieza i es defectuosa y Xi = 0 que no tiene
defecto. Esto puede verse como una muestra aleatoria con distribución Bernoulli de parámetro
θ, cuya función de densidad es fX (x; θ) = θx (1 − θ)1−x I{0,1} (x) para 0 ≤ θ ≤ 1, que indica
que la probabilidad de que una parte sea defectuosa es θ. Así que la densidad conjunta de las
10 observaciones es
10 10 10

xi
fX (x; θ) = θ i=1 (1 − θ)10− i=1 xi
I{0,1} (xi )
i=1
= L (θ | x) .
Con el método de máxima verosimilitud el estimador de θ es θ̂ = X̄. Suponga que el experto

tiene información adicional acerca de θ y que él ha observado que a lo largo de los días la
proporción de partes defectuosas cambia, es decir, el valor de θ cambia y que este cambio puede
representarse como una variable aleatoria con función de densidad π(θ) = 6θ(1 − θ)I[0,1] (θ),
esto es, θ tiene una distribución Beta con parámetros 2 y 2, denotada como Beta(2, 2). ¿Cómo
se puede usar esta información adicional para estimar θ?.
Como ya se ha señalado, en el método Bayesiano se considera que θ es una cantidad
cuya variación puede describirse por medio de una distribución de probabilidad (llamada
distribución a priori). La distribución a priori es una distribución subjetiva, basada en las
creencias del experto y se formula antes de obtener los datos. Se selecciona una muestra a
partir de una población sujeta al parámetro θ, entonces la distribución a priori se actualiza
utilizando la información de la muestra y se obtiene la disribución a posteriori. Esta
actualización se hace usando la regla de Bayes. La distribución a posteriori es una distribución
condicional, y es condicional dada la muestra. La distribución a posteriori se usa para hacer
inferencia acerca de θ (obtener el estimador puntual, intervalos de credibilidad y pruebas de
hipótesis).
25
La distribución conjunta de X1 , . . . , X10 y θ es
g(x, θ) = fX (x; θ) × π(θ)

distribución conjunta distribución a priori
10 10
= θ i=1 xi (1 − θ)10− i=1 xi × 6θ(1 − θ)
= θy (1 − θ)10−y × 6θ(1 − θ)
= 6θy+1 (1 − θ)10−y+1 ,
10
donde y = i=1 xi . Calculando la distribución marginal de la muestra, m(x),

m(x) = fX (x; θ)π(θ)dθ = g(x, θ)dθ

= 6θy+1 (1 − θ)10−y+1 dθ
Γ(y + 2)Γ(10 − y + 2)
= 6
Γ(10 + 2 + 2)
Γ(y + 2)Γ(12 − y)
= 6 .
Γ(14)
Así, la distribución a posteriori de θ dada la muestra x es
g(x, θ)
π(θ|x) =
m(x)
6θy+1 (1 − θ)10−y+1
=
6 Γ(y+2)Γ(12−y)
Γ(14)
Γ(14)
= θy+1 (1 − θ)11−y ,
Γ(y + 2)Γ(12 − y)
que es una distribución Beta(y + 2, 12 − y).

Un estimador para θ es la media de la distribución a posteriori (ver Sección 1.2.3), la
cual daría el estimador de Bayes de θ,
y+2
θ̂ = .
14
En el cuadro 1.4 se resumen los valores de los estimadores máximo verosímil y de Bayes para
distintos valores de la muestra.
Las gráficas de la figura 1.5 muestran el comportamiento de la distribución a posteriori
ante la evidencia de los datos y el conocimiento previo del parámetro.
26
Muestra y 0 1 2 3 4 5 6 7 8 9 10
θ̂ EMV 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
θ̂ Bayes 0.14 0.21 0.29 0.36 0.43 0.5 0.57 0.64 0.71 0.79 0.86
Cuadro 1.4: Valores de los estimadores máximo verosímil y de Bayes para distintos valores
de la muestra.
Y=0 Y=2
5
5
Prior Prior
Verosimilitud Verosimilitud
Posterior Posterior
4
4
Densidad
Densidad
3
3
2
2
1
1
0
0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
 
Y=5 Y=10
5
Prior Prior
Verosimilitud Verosimilitud
Posterior Posterior
4
4
Densidad
Densidad
3
3
2
2
1
1
0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
 
Figura 1.5: Comportamiento de las funciones a priori, a posteriori y de verosimilitud para la

proporción de marcas defectuosas y distintos valores de la muestra en el ejemplo 1.21.
En el caso de no utilizar familias conjugadas, la obtención de la constante de normalización

para las distribuciones posteriores no se puede hacer de manera analítica y es necesario
recurrir a métodos de simulación.
1.1.4. Otros métodos de estimación

Además de los métodos de momentos y los basados en verosimilitud, existen alternativas
para encontrar el estimador de un parámetro, por ejemplo, el método de medianas, su
extensión, el método de percentiles, y el método de mínimos cuadrados. Los primeros
dos se revisan en esta sección, mientras que el último se abordará en la Sección 1.2.1.
27
El método de medianas únicamente se puede aplicar a modelos dependientes de un sólo

parámetro y consiste en lo siguiente: suponga que x 0.5 representa a la mediana de la muestra
mientras que x0.5 denota a la mediana de la distribución. Recuerde que x0.5 es el valor de x
para el cual FX (x0.5 ) = 12 , donde FX (x) es la función de distribución de la variable aleatoria
continua X, o alternativamente,
x0.5 −∞
1
f (x; θ) dx = f (x; θ) dx = .
−∞ x0.5 2
El método consiste en igualar las medianas y resolver para el parámetro desconocido, el cual
está involucrado en la expresión resultante para x0.5 . La extensión de este método para el caso
de dos o más parámetros puede hacerse a través del método de percentiles que se describe a
continuación.
Método de percentiles
Si xp es el valor de x tal que FX (xp ) = p, entonces xp es el p-ésimo(×100) percentil de la
distribución. Para usar este método se calculan los correspondientes percentiles de la muestra
y se igualan con los de la distribución (los cuales se encuentran en términos de los parámetros
desconocidos) y se resuelve para cada parámetro. Observe que si p = 12 , entonces xp es la
mediana, así que el método de las medianas se puede ver como un caso particular.
Ejemplo 1.22 Suponiendo que se tiene una muestra aleatoria de tamaño n de una población
con distribución exponencial, se desea estimar el parámetro θ en f (x; θ) = θ exp (−θx) .
Primero se resuelve FX (x0.5 ) = 12 o
x0.5
1
θe−θx dx = ,
0 2
de donde
1
1 − e−θx0.5 =
2
o
1
e−θx0.5 = ,
2
resultando:
ln 12
x0.5 = − . (1.11)
θ
0.5 , es decir con la mediana muestral, se obtiene que
Igualando (1.11) con x
1
ln
θ = − 2.
0.5
x
28
Ejemplo 1.23 Usando el método de percentiles, estimar los parámetros en una distribución
Weibull con función de densidad
f (x; θ) = γλxγ−1 exp {−λxγ } .
0.5 = 10000 y x
Dados los percentiles muestrales x 0.9 = 100000, ¿cuál es el estimador para el
parámetro γ?
La función de distribución correspondiente es
x
FX (x) = γλuγ−1 exp {−λuγ } du
0
∞
= 1− γλuγ−1 exp {−λuγ } du
x
y
∞
∞
γ−1 γ −γλuγ−1 −λuγ
γλu exp {−λu } du = e
x −γλuγ−1 x
−λxγ
= e .
Por lo tanto:
FX (x) = 1 − exp {−λxγ } ,
la cual tiene dos parámetros. Si xp es el valor de x tal que FX (xp ) = p, entonces xp es el
100p-ésimo percentil de la distribución, que para este caso daría las ecuaciones:
FX (x0.5 ) = 1 − exp {−λxγ0.5 } = 0.50
y
FX (x0.9 ) = 1 − exp {−λxγ0.9 } = 0.90,
de donde:
exp {−λxγ0.5 } = 0.50
y
exp {−λxγ0.9 } = 0.10,
que es equivalente a
λxγ0.5 = − ln (0.50) = 0.69315
y
λxγ0.9 = − ln (0.10) = 2.30259.
Es decir: γ1
0.69315
x0.5 =
λ
29
y
γ1
2.30259
x0.9 = .
λ
Igualando con los respectivos percentiles muestrales, se obtiene:
γ1
0.69315
= 10000 (1.12)
λ
y
γ1
2.30259
= 100000. (1.13)
λ
Dividiendo (1.13) entre (1.12):
γ1
2.30259
= 10
0.69315
o sea,
2.30259
10γ = = 3.32192.
0.69315
De donde se obtiene que
ln 3.32192

γ= = 0.521.
ln 10
Usando (1.12), se puede obtener el estimador de λ :
0.69315
= (10000)0.521 = 121.34.
λ
Así,
= 0.69315 = 457 .
λ
121.34 80 000
Si los percentiles muestrales no están dados explícitamente, se puede usar el siguiente
método para calcularlos: para una muestra de tamaño n, sean x1 , x2 , ..., xn los valores mues-
trales en orden ascendente. Sea k = (n + 1) p, donde p es el orden del percentil que se busca.
Sea l la parte entera de k (l = 1, 2, ..., n − 1) y sea m la parte fraccional de k, 0 ≤ m < 1. Se
define
p = (1 − m) xl + mxl+1
x (1.14)
como el p-ésimo percentil (×100) de la muestra. Observe que xl y xl+1 representan los ele-
mentos l-ésimo y (l + 1)-ésimo de la muestra, respectivamente.
30
Ejemplo 1.24 En una muestra de ratas de laboratorio se obtienen los tiempos de muerte
dados a continuación: x = 3, 4, 5,7, 7, 8, 10, 10 y 12, donde el tiempo se mide en días. Usando
el método de percentiles, estimar los parámetros B y c del modelo de supervivencia Gompertz,
cuya función de distribución está dada por:

B x
FX (x) = 1 − exp (1 − c ) ,
ln c
con los percentiles 0.25 y 0.65.

Los percentiles 0.25 y 0.65 son tales que

B x0.25
1 − exp (1 − c ) = 0.25
ln c
y
B x0.65
1 − exp (1 − c ) = 0.65
ln c
⇔
B
(1 − cx0.25 ) = ln 0.75
ln c
B
(1 − cx0.65 ) = ln 0.35
ln c
⇔
ln c
cx0.25 = 1 − ln 0.75
B
ln c
cx0.65 = 1 − ln 0.35 .
B
Así,
ln 1 − ln 0.75 lnBc
x0.25 = (1.15)
ln c
y
x0.65 = . (1.16)
ln c
Usando (1.14), se tiene que para el percentil 0.25, k = (9 + 1)(0.25) = 2.5, de donde
se obtiene x0.25 = (0.5) (x2 ) + (0.5)(x3 ) = (0.5) (4) + (0.5)(5) = 4.5. Para el cuantil 0.65,
k = (9 + 1)(0.65) = 6. 5, por lo tanto x 0.65 = (0.5)x6 + (0.5)x7 = (0.5)8 + (0.5)10 = 9.
Igualando los percentiles obtenidos en (1.15) y (1.16) con los percentiles muestrales, re-
sultan las siguientes ecuaciones:

= 4.5 (1.17)
ln c
31
y
= 9.
ln c
Dividiendo la segunda entre la primera, resulta

=2
⇒ 2
ln c ln c
1 − ln 0.35 = 1 − ln 0.75
B B
⇒ 2
ln c ln c
ln 0.35 = 1 − 1 − ln 0.75
B B
⇒
ln 0.35z = 1 − 1 − 2z ln 0.75 + (ln 0.75)2 z 2 ,

ln c
donde z = B
. Simplificando la última expresión se obtiene:
(ln 0.75)2 z 2 − z [2 ln 0.75 − ln 0.35] = 0,
o
0.83z 2 − (0.4744) z = 0,
de donde
0.4744
z= = 5.7163.
0.083
Es decir, lnBc = 5.7163, lo que a su vez implica que ln c = 5.7163B. Sustituyendo este último
valor en (1.17), se tiene:
ln 1 − ln 0.75 5.7163B
B
= 4.5
5.7163B
y despejando B, se llega al resultado B = 0.03780. Finalmente, c = 1.2412.
Existen diferentes propuestas para obtener estimadores, entonces es necesario establecer

criterios para evaluarlos y compararlos. En las siguiente secciones se abordará este tema.
1.2. Evaluación de estimadores

Dado que hay varios métodos para encontrar estimadores, una pregunta natural es, si
se pueden tener estimadores distintos para una parámetro, ¿cuál es mejor o cuál se debe
elegir?. Es necesario contar con criterios para responder a esta pregunta y poder decidir cuál
estimador es mejor en algún sentido.
32
1.2.1. Error cuadrático medio y estimadores insesgados

El primer criterio que se analizará es el del error cuadrático medio, concepto que se
introduce a continuación.
Definición 1.6 Sea T (X1 , . . . , Xn ) un estimador de τ (θ). Se define el error cuadrático medio
(ECM) de T como
ECMT (θ) = E[(T (X) − τ (θ))2 ].
Es decir, el error cuadrático medio mide el error cometido al estimar τ (θ) con T (X). Esta
medida es un error promedio al considerar los valores que puede tomar la variable aleatoria
T (X) y se calcula como la esperanza de los errores al cuadrado, tomando los errores como la
diferencia entre los valores de la variable aleatoria y el valor del parámetro.
La idea es que si se tienen dos estimadores T1 (X) y T2 (X) para τ (θ) y ECMT1 (θ) <
ECMT2 (θ), entonces se elige a T1 como estimador para τ (θ).
Si se desarrolla la expresión E[(T (X) − τ (θ))2 ], se obtiene que
ECMT (θ) = E[T 2 − 2τ (θ)T + (τ (θ))2 ]

= E(T 2 ) − 2τ (θ)E(T ) + τ 2 (θ)
= E(T 2 ) − E2 (T ) + E2 (T ) − 2τ (θ)E(T ) + τ 2 (θ)
= V ar(T ) + [E(T ) − τ (θ)]2

sesgo de T
A E(T ) − τ (θ) se le conoce como sesgo de T . Es importante hacer notar que si el sesgo
de T es cero, entonces ECMT (θ) = V ar(T ).
Definición 1.7 Un estimador T (X) de τ (θ) es insesgado si E [T (X)] = τ (θ) (es decir, en
promedio, el estimador es igual al parámetro).
Nota: Si T es insesgado, entonces ECMT (θ) = V ar(T ).
Observaciones 1.1 1. En el caso continuo, el error cuadrático medio E[(T −τ (θ))2 ] puede
calcularse como

... (t(x1 , x2 , . . . , xn ) − τ (θ))2 fX1 (x1 ; θ) . . . fXn (xn ; θ)dx1 . . . dxn .
2. El ECM puede pensarse también como una medida de la dispersión de T alrededor de

τ (θ).
33
3. ECMT1 (θ) y ECMT2 (θ) pueden cruzarse, es decir, en general no se cumple que para
todo θ ∈ Θ, ECMT1 (θ) < ECMT2 (θ) (ó ECMT1 (θ) > ECMT2 (θ) ).
Ejemplo 1.25 Sea X1 , . . . , Xn una muestra aleatoria de la distribución N(µ, σ 2 ). Considere
T1 (X) = X̄
un estimador para µ. Sean

n
2 1
T2 (X) = S = (Xi − X̄)2
n − 1 i=1
y
n
1 n−1 2
T3 (X) = σ̂ 2M V = (Xi − X̄)2 = S ,
n i=1 n
estimadores para σ 2 .
Para revisar si son insesgados:
Note que
E(T1 (X)) = E(X̄) = µ.
Por lo tanto, T1 sí es insesgado.
También note que
E [T2 (X)] = E(S 2 ) = σ 2 .
Por lo tanto, T2 sí es insesgado.
Sin embargo,

n−1 2 n − 1 2 n − 1 2
E(T3 (x)) = E S = E S = σ .
n n n
Por lo tanto, T3 no es insesgado.
Para encontrar el error cuadrático medio de T1 , T2 y T3 :
Como T1 es insesgado, entonces

σ2
ECMT1 (µ, σ 2 ) = V ar(X̄) = .
n
Como T2 es insesgado, entonces
2σ 4
ECMT2 (µ, σ 2 ) = V ar(S 2 ) = .
n−1
34
Sin embargo, como T3 no es insesgado, entonces
ECMT3 (µ, σ 2 ) = V ar(T3 ) + (sesgo2 ).
Pero
n−1 2 (n − 1)2 2σ 4 2(n − 1) 4
V ar(T3 ) = V ar S = 2
= σ .
n n n−1 n2
Y
2
2 2 2 n−1 2
(sesgo) = (E(T3 ) − σ ) = σ − σ2
n
2
n−1−n σ4
= σ4 = 2 .
n n
Por lo tanto,
2(n − 1) 4 σ 4 2n − 1 4
ECMT3 (µ, σ 2 ) = 2
σ + 2 = σ .
n n n2
Pero note que
2 2 2 1 2 2n − 1 2
< ⇒ − 2
< ⇒ 2
<
n n−1 n n n−1 n n−1
(2n − 1)σ 4 2σ 4
⇒ < ⇒ ECMT3 < ECMT2 .
n2 n−1
Con esto se puede observar que aunque T2 es insesgado, T3 tiene un menor ECM, lo
cuál exhibe que no siempre un estimador insesgado tiene el menor ECM.
Ilustración mediante simulación

Se simula un conjunto de M = 1000 muestras de tamaño n = 3 cada una. Los estimadores
T1 (X), T2 (X) y T3 (X) del ejemplo 1.25, se grafican en las figuras 1.6 y 1.7.
35
T 1 insesgado
1.5
Estimación
0.5

-0.5
-1.5
0 200 400 600 800 1000
Muestras
Figura 1.6: El estimador T1 = X es insesgado para µ en el ejemplo 1.25.
T 2 insesgado T 3 sesgado
8
8
6
6
Estimación
Estimación
4
4
2
 
0
0 200 400 600 800 1000 0 200 400 600 800 1000
Muestras Muestras
Figura 1.7: El estimador T2 = S 2 es insesgado para σ 2 . T3 no es insesgado para σ 2 , pero tiene

un error cuadrático medio menor que T2 (ejemplo 1.25).
Método de mínimos cuadrados para estimación de parámetros

Existe otro procedimiento de estimación conocido como el método de mínimos cuadrados,
el cual se usa en distintas aplicaciones para encontrar los estimadores de los parámetros
relacionados con modelos de diversa índole. Se ilustrará con un ejemplo en el marco del
criterio del error cuadrático medio.
Ejemplo 1.26 Considere un conjunto de n puntos en el plano
(x1 , y1 ), . . . , (xn , yn )
36
y el siguiente experimento: se escoge X con P {X = xi } = 1/n, para i = 1, . . . , n; si X = xi

se asigna Y = yi . Suponga que Y tiene la forma aX + b y se desea encontrar un estimador
para Y , de tal manera que se minimice el error cuadrático medio, el cual es:
n
1 2
E[(Y − (aX + b)) ] = [yi − (axi + b)]2 .
n i=1

Para la función S(a, b) = ni=1 [yi − (axi + b)]2 , los valores que minimizan la expresión
satisfacen:
n n n
∂S(a, b) 2
= −2 yi xi + 2 axi + 2b xi = 0,
∂a i=1 i=1 i=1
n n
∂S(a, b)
= −2 yi + 2 axi + 2nb = 0,
∂b i=1 i=1
de donde, las soluciones que minimizan el ECM están dadas por

n n
b = 1 1
yi −
a xi
n i=1 n i=1
y n
n n n n n
1 1

a x2i − xi xi = yi xi − yi xi .
i=1
n i=1 i=1 i=1
n i=1 i=1
A estos estimadores se les conoce como el estimador de mínimos cuadrados para a y b. A
aX + b se le llama el estimador de mínimos cuadrados de Y .
Y =
1.2.2. Consistencia
La consistencia es otra propiedad deseable en un estimador y tiene que ver con tamaños
de muestra grandes, es decir, es una propiedad asintótica. Esencialmente, un estimador es
consistente, si para n (el tamaño de muestra) grande, el error cometido al estimar τ (θ) con
Tn (X) , es pequeño (tiende a cero).
Definición 1.8 (Consistencia en ECM). Sea T1 , T2 , ..., Tn una sucesión de estimadores de

τ (θ), donde Tn está basado en una muestra de tamaño n. Esta sucesión de estimadores de
τ (θ) es consistente en error cuadrático medio (ECM) si:
lı́m E[(Tn (X) − τ (θ))2 ] = 0. (1.18)

n→∞
Note que (1.18) es una convergencia en media cuadrática, de la sucesión {Tn } a τ (θ).
37
Ejemplo 1.27 Sea X1 , . . . , Xn una muestra aleatoria

de la distribución N(µ, σ 2 ). Considere
1 n 1 n
los estimadores X̄n = n i=1 Xi para µ y Sn2 = n−1 i=1 (Xi − X̄)2 para σ 2 . Note que
2 σ 2 n→∞
E[(X̄n − µ) ] = V ar(X̄n ) = −→ 0.
n
Por lo tanto X̄n es consistente para µ. También note que
2σ 4 n→∞
E[(Sn2 − σ 2 )2 ] = V ar(Sn2 ) = −→ 0.
n−1
Por lo tanto Sn2 es consistente para σ 2 .
El error cuadrático medio, ECM, es el criterio para medir la bondad de un estimador.

Una propiedad desable de un estimador es que proporcione, para muestras grandes, un error
(ECM) pequeño en la estimación, es decir, que sea consistente.
Ilustración del concepto de consistencia mediante simulación

Se simula un conjunto de n = 1000 muestras de tamaño i, para i = 2, . . . , n. Los esti-
madores X n y Sn2 son consistentes, y se pueden observar las gráficas correspondientes en las
figuras 1.8 y 1.9.
Xbar consistente
1.0
0.5
Estimación

0.0
-0.5
0 200 400 600 800 1000
Tamaño de muestra
Figura 1.8: Ilustración de la consistencia de X en el contexto del ejemplo 1.27.
38
S2 consistente
2.0
1.5
Estimación

1.0
0.5
0 200 400 600 800 1000
Tamaño de muestra
Figura 1.9: Ilustración de la consistencia de S 2 en el contexto del ejemplo 1.27.
Definición 1.9 Se dice que una sucesión de estimadores {Tn }n∈N es consistente simple si y
sólo si
∀ǫ > 0 lı́m P(|Tn − τ (θ)| < ǫ) = 1. (1.19)
n→∞
La consistencia en ECM implica la consistencia simple. Esto se puede analizar desde dos
perspectivas: la primera, notando que (1.19) es una convergencia en probabilidad y usando
el hecho de que la convergencia en r-ésima media implica la convergencia en probabilidad; la
segunda, utilizando la desigualdad de Chebyshev:
E[(Tn − τ (θ))2 ]
P(|Tn − τ (θ)| ≥ ǫ) = P([Tn − τ (θ)]2 ≥ ǫ2 ) ≤
ǫ2
y la definición de consistencia en ECM.
1.2.3. Funciones de pérdida y estimación

El enfoque Bayesiano al problema de estimación de parámetros es a través de una función
de pérdida L(θ, a), la cual mide la pérdida en que se incurre cuando se estima el valor de
un parámetro mediante a, siendo que el verdadero valor es θ. Entonces θ̂ se selecciona de tal
manera que minimice E[L(θ, θ̂)], donde esta esperanza se toma con respecto a θ usando la
distribución a posteriori π(θ|x).
Definición 1.10 A L(θ, a) = (a − θ)2 se le llama la función de pérdida del error

cuadrático.
39
Observe que:

E[L(θ, a)] = L(θ, a)π(θ|x1 , . . . , xn )dθ = (a − θ)2 π(θ|x1 , . . . , xn )dθ.
Diferenciando esta expresión con respecto a a, se obtiene:

2 (a − θ)π(θ|x1 , . . . , xn )dθ = 0 =⇒ a = θπ(θ|x1 , . . . , xn )dθ
Por lo tanto, la pérdida del error cuadrático se minimiza en θ̂, la media o esperanza a
posteriori de θ.
Definición 1.11 A L(θ, a) = |a−θ| se le llama la función de pérdida del error absoluto.
En este caso,
E[L(θ, a)] = L(θ, a)π(θ|x1 , . . . , xn )dθ
a ∞
= (a − θ)π(θ|x1 , . . . , xn )dθ + (θ − a)π(θ|x1 , . . . , xn )dθ.
−∞ a
Diferenciando con respecto a a, se llega a que el mínimo debe cumplir que:
a ∞
π(θ|x1 , . . . , xn )dθ − π(θ|x1 , . . . , xn)dθ = 0
θ=−∞ a
Así, ambas integrales deberían ser iguales a 1

2
y θ̂ es la mediana a posteriori.
P oisson(λ), Suponga que λ ∼exponencial(1), de modo que
π(λ) = e−λ , λ > 0.
La distribución a posteriori es
n
e−λ λxi n
xi
π(λ|x1 , . . . , xn ) = e−λ ∝ e−λ(n+1) λ i=1 ,
i=1
xi !
n
es decir, gamma( i=1 xi +1, n+1). Entonces, usando la función de pérdida del error cuadráti-
co medio: n
xi + 1
θ̂ = media a posteriori = i=1 .
n+1
Y bajo la función de pérdida del error absoluto, θ̂ es la solución a:
θ̂ −λ(n+1) ni=1 xi n
e λ (n + 1) i=1 xi +1 1
n dλ = .
0 ( i=1 xi )! 2
40
1.3. Estimación insesgada

En esta sección se hará una restricción considerando únicamente a los estimadores inses-
gados, es decir a los estimadores T (X) que pertenecen a la clase:
Cτ (θ) = {T (X) | E [T (X)] = τ (θ)} ,
la clase de estimadores insesgados para τ (θ) .
El siguiente ejemplo muestra la idea subyacente en esta sección en cuanto a la estimación
basada en minimizar la varianza de estimadores insesgados.
P oisson(λ). Primero note que
E(Xi ) = λ, V ar(Xi ) = λ y E(Xi2 ) = V ar(Xi ) + E2 (Xi ) = λ + λ2 .

Considerando ahora la estadística G(X1 , . . . , Xn ) = ni=1 Xi , note que G(X) tiene distribu-
ción P oisson(nλ); por lo que E(G) = nλ y V ar(G) = nλ. Sean a ∈ (0, 1) una constante
y
Ta (X1 , . . . , Xn ) = aX̄ + (1 − a)S 2 .
Entonces,
1
E(X̄) = E(G) = λ;
n
1 λ
V ar(X̄) = 2
V ar(G) = ;
n n
λ
E(X̄ 2 ) = V ar(X̄) + E2 (X̄) = + λ2 ;
n
n

1
E(S 2 ) = E( X 2 − nX̄ 2 )
n − 1 i=1 i
1 λ
= (n(λ + λ2 ) − n( + λ2 ))
n−1 n
1
= (nλ − λ) = λ, y
n−1
E(Ta (X1 , . . . , Xn )) = E(aX̄ + (1 − a)S 2 ) = aE(X̄) + (1 − a)E(S 2 ) = λ.
Así, se tiene una familia infinita de estimadores insesgados para λ; entonces se puede optar
por utilizar el estimador que tenga el menor ECM.
Definición 1.12 Un estimador T ∗ (X) insesgado de varianza mínima uniformemente

(UMVUE4 ) para τ (θ) satisface:
4
Por Uniformly Minimum Variance Unbiased Estimator.
41
(a) T ∗ (X) ∈ Cτ (θ) , es decir, E [T ∗ (X)] = τ (θ) .
(b) Para todo θ ∈ Θ, V ar (T ∗ (X)) ≤ V ar (T (X)) , donde T (X) es cualquier otro esti-
mador en Cτ (θ) .
El UMVUE se refiere entonces al mejor estimador insesgado para τ (θ) en el sentido de

que tiene el menor error cuadrático medio para toda θ ∈ Θ.
El objetivo de esta sección es encontrar el UMVUE para τ (θ) , para ello se discutirán
tres resultados en donde se utilizan los conceptos analizados previamente. En primer lugar
se analizará el planteamiento que Cramèr y Rao hicieron con base en el cálculo de una cota
inferior para la varianza de un estimador insesgado. Esta propuesta tiene ciertas restricciones,
como el hecho de que requiere el cumplimiento de ciertas condiciones de regularidad para
la densidad, entre otras. Posteriormente se enunciará el teorema de Rao-Blackwell, el cual
utiliza la suficiencia de una estadística para la construcción de UMVUEs bajo la idea de que
un estimador que se basa en una estadística suficiente será mejor que otro que no lo hace.
Finalmente se enuncia el Teorema de Lehmann-Scheffé, el cual, además de la suficiencia,
utiliza el concepto de completez y permite encontrar un UMVUE construyendo un estimador
insesgado a partir de una estadística suficiente y completa, la que a su vez puede hallarse
usando los resultados antes vistos o, en su caso, identificando a un miembro de la familia
exponencial.
1.3.1. La propuesta de Cramèr y Rao

En esta sección se estudia un resultado propuesto por Cramèr y Rao, el cual se basa en
el hecho de que, para ver qué tan bueno es un estimador insesgado con respecto a otro, es
necesario analizar la varianza de dicho estimador. Así, si la varianza o el error estándar de
un estimador es una cantidad de interés para hablar de su bondad, sería deseable contar
con una expresión con la cual pueda compararse esta varianza. Esta expresión será una cota
inferior para la varianza, de tal manera que si la varianza de un estimador insesgado es igual
a esa cota, se puede afirmar que el estimador es el UMVUE. Antes de presentar el teorema de
Cramèr y Rao, en donde se da la cota mencionada, es necesario enunciar algunas definiciones
y resultados que servirán para la demostración de dicho teorema.
Definición 1.13 Sea X1 , . . . , Xn una muestra aleatoria de f(x; θ) y sea T(X) un estimador
insesgado de τ (θ). Las siguientes se conocen como condiciones de regularidad:
El soporte de f (x; θ) se define como sop(f ) = {x : f (x) > 0} y este es el mismo para
toda θ.
∂
Para todo x ∈ sop(f ), ∂θ ln f (x; θ) existe.
∂
∂
∂θ
... T (x)f (x; θ)dx1 ...dxn = ... ∂θ
T (x)f (x; θ)dx1 ...dxn .
42
∂
∂
∂θ
... f (x; θ)dx1 ...dxn = ... ∂θ
f (x; θ)dx1 ...dxn .
2
∂ ln f (x;θ)
0<E ∂θ
< ∞.
Observe que esta definición establece principalmente la condición que debe cumplir una
función para que se puedan intercambiar derivadas e integrales, lo cual no siempre se cumple.
En general, los miembros de la familia exponencial cumplen las condiciones de regularidad,
pero densidades como la uniforme contínua no. Para ver este caso específico de la uniforme
considere su función de densidad
1
f (x; θ) = I(0,θ) (x) .
θ
A continuación se obtiene la derivada con respecto a θ de la integral, de la siguiente manera:
θ θ
∂ ∂ 1
t (x) f (x; θ)dx = t (x) dx.
∂θ 0 ∂θ 0 θ
Utilizando la regla de Leibnitz, la cual es una aplicación del Teorema Fundamental del Cálculo
y de la regla de la cadena, y que establece que si h(x; θ), a (θ) y b (θ) son diferenciables con
respecto a θ, entonces
b(θ)
∂ ∂ ∂
h(x; θ)dx = h (b (θ) , θ) b (θ) − h (a (θ) , θ) a (θ)
∂θ a(θ) ∂θ ∂θ
b(θ)
∂
+ h(x; θ)dx.
a(θ) ∂θ
En el caso que se está analizando, a (θ) = 0, b (θ) = θ y h (x; θ) = t (x) 1θ .

θ θ
∂ 1 t (θ) ∂ 1
t (x) dx = + t (x) dx
∂θ 0 θ θ 0 ∂θ θ
θ
∂ 1
= t (x) dx,
0 ∂θ θ
al menos que t(θ)

θ
= 0.
Ahora se definirán algunas funciones que están involucradas en la cota inferior para la
varianza propuesta por Cramèr y Rao.
Definición 1.14 La función score o función de puntaje se define como:

∂
Sc(x; θ) = ln f (x; θ).
∂θ
43
Definición 1.15 La información esperada de Fisher se define como:

2
∂
IX (θ) = E ln f(X; θ) = E (Sc)2 .
∂θ
Observación 1.2 La función score también puede escribirse como:

n
n
∂ f ′ (x; θ) ∂ ∂
Sc(x; θ) = ln f(x; θ) = = ln f (xi ; θ) = ln f(xi ; θ). (1.20)
∂θ f (x; θ) ∂θ i=1 i=1
∂θ
Lema 1.2 Si se satisfacen las condiciones de regularidad, entonces:
(a) E(Sc) = 0.
(b) V ar(Sc) = IX (θ).
Demostración:
(a)

∂
E [Sc(x; θ)] = ... ln f (x; θ) f(x; θ)dx1 ...dxn
dθ
′
f (x; θ)
= ... f (x; θ)dx1 ...dxn
f (x; θ)

∂
= ... f (x; θ)dx1 ...dxn
∂θ

∂
= ... f (x; θ)dx1 ...dxn
∂θ
∂
= (1) = 0
∂θ
∴ E(Sc) = 0.
(b)
V ar(Sc) = E(Sc2 ) − E2 (Sc) = IX (θ) − 0 = IX (θ).
∴ V ar(Sc) = IX (θ).
44
Definición 1.16 Si X es una variable aleatoria, entonces a

2
∂
IX (θ) = E ln f(X; θ)
∂θ
se le conoce como información esperada de Fisher por unidad muestral.
Es más sencillo calcular la información esperada de Fisher por unidad muestral y el

siguiente resultado la relaciona con la información esperada de Fisher para la muestra, así
como con otras expresiones.
Lema 1.3 Si se cumplen las condiciones de regularidad, entonces:
(a) IX (θ) = nIX (θ).

! 2 "
(b) IX (θ) = −E ∂θ ∂
2 ln f(X; θ) .
! "
∂2
(c) IX (θ) = −nE ∂θ2
ln f (X; θ) .
Demostración:

(a) Como 2
IX (θ) = E(Sc ) y usando (1.20), así como el hecho de que ( ai )2 = a2i +
i =j ai aj ,
 2 
n
∂
IX (θ) = E  ln f(Xi ; θ) 
i=1
∂θ
n
2
∂
= E ln f (Xi ; θ)
i=1
∂θ
∂
∂

+ E ln f (Xi ; θ) ln f (Xj ; θ) .
i =j
∂θ ∂θ
Como las variables X1 , ..., Xn son independientes, se tiene que

∂
ln f (Xi ; θ)
∂θ
y
∂
ln f (Xj ; θ) ,
∂θ
45
también lo son y
∂ ∂
E ln f (Xi ; θ) ln f (Xj ; θ)
∂θ ∂θ
es igual a
∂ ∂
E ln f(Xi ; θ) E ln f (Xj ; θ) ,
∂θ ∂θ
donde, para el caso continuo, y bajo el supuesto de que se cumplen las condiciones de
regularidad:
∞ ∂
∂ ∂θ
f(xi ; θ)
E ln f (Xi ; θ) = f (xi ; θ)dxi
∂θ −∞ f (xi ; θ)
∞
∂
= f (xi ; θ)dx
−∞ ∂θ
∞
∂ ∂
= f(xi ; θ)dx = (1) = 0.
∂θ −∞ ∂θ
Así,
n
2
∂
IX (θ) = E ln f (Xi ; θ)
i=1
∂θ
2
∂
= nE ln f(X; θ) ,
∂θ
debido a que las Xi ’s son idénticamente distribuidas.
(b) Observe que
∂2 ∂ f ′ (x; θ)
ln f (x; θ) =
∂θ2 ∂θ f (x; θ)
f (x; θ) f ′′ (x; θ) − f ′ (x; θ) f ′ (x; θ)
=
[f (x; θ)]2
′ 2
f ′′ (x; θ) f (x; θ)
= − .
f (x; θ) f (x; θ)
Así,
′ 2
∂2 f ′′ (X; θ) f (X; θ)
−E ln f (X; θ) = −E − ,
∂θ 2 f (X; θ) f (X; θ)
46
y como

f ′′ (X; θ) f ′′ (x; θ)
E = ··· f (x; θ) dx1 · · · dxn
f (X; θ) f (x; θ)
2
∂
= · · · f (x; θ) dx1 · · · dxn = 0,
∂θ2
2
∂2 f ′ (X; θ)
−E ln f (X; θ) = E
∂θ2 f (X; θ)
2
∂
= E ln f (X; θ)
∂θ
= IX (θ).
(c) Se deduce de los dos resultados anteriores.
Teorema 1.4 (de Cramèr y Rao). Sean X1 , . . . , Xn una muestra aleatoria de f (x; θ) y
T (X) un estimador insesgado de τ (θ). Si se satisfacen las condiciones de regularidad, en-
tonces
(τ ′ (θ))2
V ar(T ) ≥ . (1.21)
IX (θ)

CICR(τ (θ))
Esta desigualdad se conoce como la Desigualdad de Cramèr-Rao o desigualdad de la

′ (θ)]2
información y a la cantidad [τIX(θ) como la Cota Inferior de Cramèr y Rao (CICR).
En (1.21) la igualdad se da si sólo si:
n
∂
ln f (xi ; θ) = k(θ; n)[T (x) − τ (θ)],
i=1
∂θ
donde k puede depender de θ y de n.
Demostración:
Este resultado se deduce de la conocida desigualdad de Cauchy-Schwarz, la cual establece
que si X y Y son variables aleatorias, entonces:
{Cov (X, Y )}2 ≤ V ar (X) V ar (Y ) ,
47
dándose la igualdad si y sólo si
Y − E (Y ) = k [X − E (X)] (1.22)
Aplicando esta desigualdad a las variables T (X) y Sc(X; θ), se obtiene:
{Cov (T, SC )}2 ≤ V ar (T ) V ar (SC ) . (1.23)
Usando el Lema 1.2, se tiene que V ar(Sc) = IX (θ), por lo que (1.23) se puede escribir como:
{Cov (T, SC )}2

V ar(T ) ≥ .
IX (θ)
Por otro lado,

Cov (T, SC ) = E (T SC ) − E (T ) E (SC )
y nuevamente por el Lema 1.2, E (SC ) = 0, mientras que:
∂
f (x; θ)
E (T SC ) = ··· t (x) ∂θ f (x; θ) dx1 · · · dxn
f (x; θ)

∂
= · · · t (x) f (x; θ) dx1 · · · dxn
∂θ
∂ ∂
= E (T (X)) = τ (θ) = τ ′ (θ) ,
∂θ ∂θ
los pasos anteriores se justifican por la definición de SC , las condiciones de regularidad y el
hecho de que T es insesgado para τ (θ) . Así,
{τ ′ (θ)}2
V ar(T ) ≥ .
IX (θ)
Para ver la condición en la que se alcanza la cota, es decir, en la que se da la igualdad, se

usa (1.22), obteniendo:
SC − E (SC ) = k [T − E (T )]
n ∂
y como E (SC ) = 0, SC = i=1 ∂θ ln f(xi ; θ) y E (T ) = τ (θ) , se comprueba la segunda parte
del teorema.
48
Ejemplo 1.30 Sea X1 , . . . , Xn una muestra aleatoria de la distribución N(0, σ 2 ). Para en-
contrar IX (σ 2 ):

1 − 12 x2
ln f (x; θ) = ln √ e 2σ
2πσ 2
1 1 1
= − ln(2π) − ln(σ 2 ) − 2 x2 ,
2 2 2σ
2
∂ 1 x
2
ln f(x; σ 2 ) = − 2 + ,
∂σ 2σ 2(σ 2 )2
∂2 2 1 x2
ln f(x; σ ) = − .
∂(σ 2 )2 2(σ 2 )2 (σ 2 )3
Entonces,

2 ∂2 2 E(X 2 ) 1
IX (σ ) = −nE ln f (X; σ ) = n − 4
∂(σ 2 )2 σ6 2σ
2
σ 1 1 1 n
= n 6 − 4 = n 4 − 4 = 4.
σ 2σ σ 2σ 2σ
2σ4
Entonces, la CICR para estimadores insesgados de σ 2 es n
.
Ejemplo 1.31 Sea X1 , . . . , Xn una muestra aleatoria de la distribución exp(θ). Para encon-
trar IX (θ):
ln f(x; θ) = ln θe−θx = ln(θ) − θx,

de donde
∂ 1
ln f(x; θ) = − x.
∂θ θ
Entonces,
2 2
∂ 1 n
IX (θ) = nE ln f (X; θ) = nE −X = n V ar(X) = 2 .
∂θ θ θ
Para encontrar la CICR para estimadores insesgados de θ:

τ 1 (θ) = θ ⇒ τ ′1 (θ) = 1.
Entonces,
1 θ2
CICR(θ) = = .
IX (θ) n
Para encontrar la CICR para estimadores insesgados de τ 2 (θ) = 1θ :
1 1
τ 2 (θ) = ⇒ τ ′2 (θ) = − 2 .
θ θ
49
Entonces,
1/θ4 1/θ4 1
CICR(τ 2 (θ)) = = 2 = .
IX (θ) n/θ nθ 2
Observación 1.3 Para responder a la pregunta: ¿existe alguna función de θ, τ (θ) , para la
cual hay un estimador insesgado cuya varianza coincide con la CICR?, se usa la segunda
parte del teorema, es decir, la condición para la alcanzabilidad de la cota.
Ejemplo 1.32 Para la distribución exponencial, ¿existe alguna función de θ, τ (θ) , para la
cual hay un estimador cuya varianza coincide con la CICR?.
Usando la segunda parte del Teorema de Cramèr y Rao, se tiene que
n n n
∂ ∂ −θx ∂
ln f (xi ; θ) = ln θe i
= [ln θ − θxi ]
i=1
∂θ i=1
∂θ i=1
∂θ
n n
1 n
= − xi = − xi
i=1
θ θ i=1
n
i=1 xi 1 1
= −n − = −n x − .
n θ θ
Así, se puede afirmar que τ (θ) = 1θ es una función de θ para la cual existe un estimador
insesgado T (X) = X, cuya varianza coincide con la CICR. En otras palabras, X es el
UMVUE de τ (θ) = 1θ . Aunque en general no es necesario probarlo, es claro que en este caso:

V ar X = θ21n = CICR (τ (θ)) .
Observaciones 1.2 1. Si la varianza de un estimador insesgado coincide con la CICR,

entonces el estimador es un UMVUE. Pero el UMVUE puede existir sin que su varianza
coincida con la CICR.
2. Si la muestra aleatoria es de algún miembro de la familia exponencial, siempre existe

una función de θ para la cual hay un estimador insesgado cuya varianza coincide con
la CICR (basta factorizar
n
∂
ln a(θ)b(x) exp{c(θ)d(xi )}
i=1
∂θ
en la forma indicada en la segunda parte del teorema de Cramèr y Rao).
3. Aún cuando la varianza de un estimador insesgado alcance la CICR, esta situación se

da para una función específica de θ, que puede no ser la que se esté analizando. En el
caso de la distribución exponencial, en el ejemplo 1.32 se obtuvo que X es el UMVUE
50
de 1θ usando la segunda parte del teorema de Cramèr y Rao; sin embargo, si el objetivo
es encontrar el UMVUE de θ, este resultado no da información adicional (salvo la
expresión correspondiente para la CICR que sirve para compararla con la varianza de
algún estimador que se proponga).
4. La teoría desarrollada por Cramèr y Rao sólo es para densidades que satisfacen las
condiciones de regularidad.
5. Cuando la varianza de un estimador alcanza la CICR también se dice que es eficiente
y la eficiencia de un estimador insesgado se mide como VCICRar(T )
, cantidad que es menor
o igual a 1. Por lo que un estimador es eficiente si y sólo si el cociente anterior es 1.
Dadas estas restricciones se analizarán otros resultados que incorporan los conceptos de
suficiencia y completez, lo cual se hará en las secciones 1.3.2 y 1.3.3.
Generalización
Aquí se considerarán brevemente la generalización de la teoría de Cramèr y Rao para
cuando se tienen distribuciones de dos o más parámetros. En el caso de dos parámetros,
la información esperada de Fisher (para una muestra de tamaño n), llamada la matriz de
información de Fisher, se define como:
 ! 2 " ! 2 " 
∂ ∂
E ∂θ ln f (X; θ) E ln f (X; θ)
IX (θ) = −  ! 21 " !∂θ1 ∂θ 2
" ,
∂ ∂2
E ∂θ2 ∂θ1 ln f (X; θ) E ∂θ2 ln f(X; θ)
y para el caso de k parámetros IX (θ) toma la forma:

 ! 2 " ! 2 " ! " 
∂ ∂2
E ∂θ 2 ln f (X; θ) E ∂θ∂1 ∂θ2 ln f(X; θ) ··· E ln f (X; θ)
 ! 1 " ! 2 " ! ∂θ1 ∂θk
" 
 2 ∂2 
 E ∂θ∂2 ∂θ1 ln f(X; θ) E ∂θ∂
2 ln f (X; θ) ··· E ln f (X; θ) 
 2 ∂θ2 ∂θk .
 .. .. ... .. 
 . . 
 ! " ! " ! 2 . " 
∂2 ∂2 ∂
E ∂θk ∂θ1 ln f (X; θ) E ∂θk ∂θ2 ln f (X; θ) ··· E ∂θ2 ln f (X; θ)
k
−1
Y la cota inferior de Cramèr y Rao es la inversa de la matriz de información, es decir, IX (θ).
1.3.2. El teorema de Rao-Blackwell

Como se ha visto, una estadística suficiente conserva toda la información relevante con-
tenida en la muestra acerca del parámetro de interés. Así, los estimadores basados en estadís-
ticas suficientes son mejores (que los que no están basados en estadísticas suficientes) como
establece el siguiente resultado.
51
Teorema 1.5 (Rao-Blackwell). Sean T (X) un estimador insesgado para τ (θ) y S una
estadística suficiente. Sea T ∗ (X) := E(T |S). Entonces,
(a) T ∗ es una estadistica función de S.
(b) T ∗ es insesgado para τ (θ), es decir, E (T ∗ ) = τ (θ).
(c) V ar(T ∗ ) ≤ V ar(T ) para toda θ ∈ Θ.
Demostración.
(a) Usando la definición de la esperanza condicional en el caso continuo,

∞
∗
T = tfT /S (t/s) dt
−∞
es una función de S, además fT /S no depende de θ por ser S una estadística suficiente,

por lo que T ∗ es una estadística.
(b) Por las propiedades de la esperanza condicional,
E (T ∗ ) = E (E (T /S)) = E (T ) = τ (θ).
(c) Usando las propiedades de la varianza condicional,
V ar(T ) = V ar (E (T /S)) + E (V ar (T /S)) ,
lo cual implica que

V ar(T ) = V ar (T ∗ ) + E (V ar (T /S)) ,
y como V ar (T /S) ≥ 0, se obtiene el resultado.
Ejemplo 1.33 Sea X1 , . . . , Xn una muestra aleatoria de la distribución Bernoulli(θ).

n
S(X) = i=1 Xi es una estadística suficiente para θ, lo cual se ha verificado (basta ver
que la distribución Bernoulli pertenece a la familia exponencial). T (X) = X1 es un esti-
mador insesgado de θ (pues E(X1 ) = θ).
52
Entonces
n

T ∗ (X) = E(T |S = s) =E X1 | Xi = s
i=1
n

=0 · P X1 = 0| Xi = s
i=1
n

+ 1 · P X1 = 1| Xi = s
i=1
n

=P X1 = 1 | Xi = s
i=1
P (X1 = 1, ni=1 Xi = s)
= .
P ( ni=1 Xi = s)
n
Donde i=1 Xi ∼ Bin(n, θ). Pero

P(X1 = 1; ni=1 Xi = s) P(X1 = 1)P ( ni=2 Xi = s − 1)
= n
s
P( ni=1 Xi = s) s
θ (1 − θ)n−s
n−1
s−1 n−1
(n−1)!
θs−1
θ (1 − θ)n−1−s+1 (s−1)!(n−s)! s
= n
s = s−1
n

= n!
= .
s
θ (1 − θ) n−s
s s!(n−s)!
n
Por lo tanto, n
∗ i=1 Xi
T (X) = = X.
n
El estimador resultante es insesgado, pues E(X̄) = θ y tiene varianza menor que X1 , ya que
θ(1 − θ)
V ar(X̄) = ≤ θ(1 − θ) = V ar(X1 ),
n
las cuales son iguales sólo en el caso n = 1.
1.3.3. El teorema de Lehmann-Scheffé

El siguiente resultado muestra que un estimador insesgado función de la estadística sufi-
ciente y completa será el UMVUE.
Teorema 1.6 (Lehmann-Scheffé). Sea X1 , . . . , Xn una muestra aleatoria de f (x; θ) y sea

S una estadística suficiente y completa. Sea T ∗ (X) una función de S tal que E(T ∗ ) = τ (θ)
(T ∗ es insesgado para τ (θ)), entonces T ∗ es el UMVUE de τ (θ).
53
Demostración:
Sea T ′ (X) , función de S, tal que E(T ′ ) = τ (θ). Sea g(S) = T ∗ − T ′ . Note que
E[g(S)] = E(T ∗ − T ′ ) = E[T ∗ ] − E[T ′ ] = τ (θ) − τ (θ) = 0
∴ E[g(S)] = 0
Entonces, por la completez de S se tiene que P[g(S) = 0] = 1, para toda θ ∈ Θ. De esta
manera, P[T ∗ = T ′ ] = 1 para toda θ ∈ Θ y, por lo tanto, T ∗ es único (c.s.). Es decir, T ∗ es
el único estimador insesgado de τ (θ) que es función de S.
Por otro lado, sea T tal que E[T ] = τ (θ). Por el teorema de Rao-Blackwell, E[T |S] es
estimador insesgado de τ (θ) y es función de S, lo que implica que T ∗ = E[T |S]. Así, por el
teorema de Rao-Blackwell, V ar(T ∗ ) ≤ V ar(T ), para toda θ ∈ Θ.
Ejemplo 1.34 Sea X1 , . . . , Xn una muestra aleatoria de la distribución exp(θ), donde θ > 0.
−θx
Como f (x;
nθ) = θe , entonces f (x; θ) es de la familia exponencial con d(x) = x. Entonces,
S(X) = i=1 Xi es suficiente y completa. Para encontrar el UMVUE de θ y de τ (θ) = 1θ , se
obtiene n
1 n
E(S) = E Xi = nE(Xi ) = n =
i=1
θ θ
y como E[X̄] = 1θ , entonces X es el UMVUE de 1θ , pues es función de la estadística suficiente

y completa y además es insesgado para θ (note que este resultado coincide con el obtenido
mediante la teoría Cramèr y Rao, ejemplo 1.32).
Para encontrar el UMVUE de θ, éste será de la forma n k Xi , donde S = ni=1 Xi tiene
i=1
distribución Gama (n, θ) . Entonces, observe que:

k k 1
E n =E = kE
i=1 Xi S S
∞ n
1 θ
=k sn−1 e−θs ds
s Γ(n)
0 ∞ n
θ
=k sn−2 e−θs ds
0 Γ(n)

θ Γ(n − 1) ∞ θn−1 (n−1)−1 −θs
n
=k s e ds
Γ(n) θn−1 0 Γ(n − 1)

1
n
θ Γ(n − 1) Γ(n − 1) kθ
=k n−1 =k −1 = .
θ Γ(n) (n − 1)Γ(n − 1)θ n−1
54
Por lo que, para que k/Y sea insesgado, k debe ser igual a n − 1. Por lo tanto,
n−1
T ∗ (X) = n
i=1 Xi
es el UMVUE de θ.
Para encontrar la CICR para estimadores insesgados de θ (ver ejemplo 1.31):

2
∂
IX (θ) =nE ln f(X; θ)
∂θ
2
∂ −θX
=nE ln θe
∂θ
2
∂
=nE (ln θ − θX)
∂θ
2
1
=nE −X
θ
n
=nV ar(X) = 2 .
θ
Entonces, la CICR para estimadores insesgados de θ es:
1 θ2
CICR(θ) = = .
IX (θ) n
El segundo momento de T ∗ (X) = n−1 n está dado por:
i=1 Xi

(n − 1)2 2 1
E 2
= (n − 1) E 2
S S
∞
1 θn n−1 −θs
= (n − 1)2 s e ds
0 s2 Γ(n)
n ∞
2 θ
= (n − 1) sn−3 e−θs ds
Γ(n) 0
n
2 θ Γ(n − 2) ∞ θn−2
= (n − 1) n−2 s(n−2)−1 e−θs ds
Γ(n) θ Γ(n − 2)
0
1
n
θ Γ(n − 2) Γ(n − 2)
= (n − 1)2 n−2 = (n − 1)2
θ Γ(n) (n − 1)(n − 2)Γ(n − 2)θ−2
(n − 1)θ2
= .
n−2
55
Entonces,
(n − 1)θ2 θ2
V ar(T ∗ (X)) = − θ2 =
n−2 n−2
es la varianza del UMVUE de θ.
Note que
θ2 θ2
V ar(T ∗ (X)) = > = CICR(θ).
n−2 n
Ejemplo 1.35 Sea X1 , . . . , Xn una muestra aleatoria de la distribución P oisson(θ). Sea

τ (θ) = P(X = 0) = e−θ .
(a) Encontrar el estimador máximo verosímil de θ y τ (θ).
(b) Encontrar el estimador por momentos de θ.
(c) ¿Pertenece f (x; θ) a la familia exponencial?
(d) Encontrar una estadística suficiente minimal y completa.
(e) Encontrar la CICR para estimadores insesgados de θ y τ (θ).
(f) ¿Existirá una función de θ, para la cual hay un estimador insesgado cuya varianza
coincide con la CICR? Si es así, encontrarlo.
(g) Encontrar un estimador insesgado de τ (θ) y usar el teorema de Rao-Blackwell para

hallar un estimador insesgado función de la estadística suficiente.
(h) Decir cuáles son los UMVUEs de θ y τ (θ), respectivamente.
Solución:
(a)
n n n (xi )
e−θ θxi (xi )
n I{0,1,...}
L(θ) = f(xi ; θ) = I{0,1,...} =e −nθ
θ i=1 xi
i=1 i=1
xi ! i=1
xi !
y el logaritmo de la verosimilitud es
n
n (xi )
I{0,1,...}
l(θ) = −nθ + ( xi ) ln θ + ln ,
i=1 i=1
xi !
56
de donde, n
∂ xi
l(θ) = −n + i=1 .
∂θ θ
∂
Entonces, ∂θ l(θ) = 0 si y sólo si
n n n
i=1 xi i=1 xi xi
−n + =0⇔n= ⇔ θ = i=1 .

θ
θ n

Por lo tanto θ̂M.V. = n1 ni=1 Xi = X̄. Para τ (θ), aplicando la propiedad de invarianza
de los estimadores máximo verosímiles τ (θ̂M.V. ) es estimador máximo versímil de τ (θ).
Por lo tanto e−X̄ es estimador máximo verosímil de τ (θ) = e−θ .
(b) Recuerde que E(X) = θ, entonces el estimador por momentos está dado por
n
1
θ̂ = Xi = X̄.
n i=1
(c) Como
e−θ θx (x)
f (x; θ) = I
x! {0,1,...}
si
1 (x)
a(θ) = e−θ , b(x) = I , c(θ) = ln(θ), d(x) = x.
x! {0,1,...}
Entonces,
f(x; θ) = a(θ)b(x)ec(θ)d(x) .
Por lo tanto pertenece a la familia exponencial.
n n
(d) Como f(x; θ) pertenece a la familia exponencial entonces T (x) = i=1 d(Xi ) = i=1 Xi
es una estadística suficiente minimal y completa.
57
(e) La información esperada de Fisher está dada por

2
∂
IX (θ) =nE ln f (X; θ)
∂θ
−θ X 2
∂ e θ
=nE ln
∂θ X!
2
∂
=nE (−θ + X ln θ − ln X!)
∂θ
2
X
=nE −1 +
θ
2
1
=nE (X − θ)
θ
n n nθ n
= 2 E (X − θ)2 = 2 V ar(X) = 2 = .
θ θ θ θ
Para θ se tiene que
θ
CICR(θ) = .
n
Para τ (θ) = e−θ se tiene que
(τ ′ (θ))2 θe−2θ
CICR(τ (θ)) = n = .
θ
n
(f) Utilizando la segunda parte del teorema de Cramèr-Rao

n n
∂ ∂ e−θ θ xi
ln f (xi ; θ) = ln
i=1
∂θ i=1
∂θ xi !
n
∂
= (−θ + xi ln(θ) − ln(xi !))
i=1
∂θ
n
xi
= −1 +
i=1
θ
n
1 n n
=−n+ xi = −n + x̄ = (x̄ − θ).
θ i=1 θ θ
Por lo tanto, para θ hay un estimador insesgado, T ∗ (X) = X̄, cuya varianza coincide
con la Cota de Cramèr-Rao, es decir, X̄ es el UMVUE de θ.
58
(g) Considere T (X) = I{0} (X1 ). Note que E(T (X)) = E(I{0} (X1 )) = P(X1 =
0) = e−θ . Por
n
tanto T (X) es un estimador insesgado de τ (θ) y ya se vió que S(X) = i=1 Xi es una
estadística suficiente minimal y completa. Entonces,
E(T |S = s) = E(I{0} (X1 )|S = s)

n

= P X1 = 0| Xi = s
i=1

P(X1 = 0)P( ni=2 Xi = s)
=
P( ni=1 Xi = s)
−(n−1)θ ((n−1)θ)s
e−θ e s!
= e−nθ (nθ)s
s!
−θ −(n−1)θ
e e ((n − 1)θ)s e−θ e−nθ eθ (n − 1)s θ s
= =
e−nθ (nθ)s e−nθ ns θs
s
n−1
= .
n
n−1
ni=1 Xi
Entonces, por el teorema de Rao-Blackwell T ∗ (X) = n
.
(h) X̄ es el UMVUE de θ, lo cual se justifica utilizando el inciso (f) o bien, notando que
X̄ es insesgado para θ y función de la estadística suficiente y completa, ni=1 Xi , por
lo queusando el Teorema de Lehmann-Scheffé se llega a la misma conclusión. Además,
n−1
ni=1 Xi
n
es el UMVUE de τ (θ) por el inciso (g) y el Teorema de Lehmann-Scheffé.
1.4. Propiedades asintóticas de los estimadores

Hasta ahora se han estudiado distintas propiedades de los estimadores, pero la mayoría,
a excepción de la consistencia vista en el apartado 1.2.2, se refiere a tamaños de muestra
pequeños. En esta sección se abordarán propiedades que describen el comportamiento de un
estimador cuando el tamaño de muestra es grande, es decir, las propiedades asintóticas de
los estimadores.
Como ya se señaló, la consistencia tiene que ver con la precisión asintótica de un estimador,
esto es, que el error cometido al estimar τ (θ) con Tn (X) es pequeño cuando el tamaño de
muestra es grande. Existe otra propiedad que tiene que ver con la varianza asintóntica de un
estimador, la cual se conoce como eficiencia.
Ya se ha reiterado que la varianza (de los estimadores) juega un papel importante en la
elección del mejor estimador. De hecho en las observaciones 1.2, se menciona la propiedad de
eficiencia. A continuación se da una definición formal de eficiencia asintótica.
59
Definición 1.17 Una sucesión de estimadores {Tn } es asintóticamente eficiente para un

parámetro τ (θ) si √
n[Tn − τ (θ)] −→ N [0, CICR(θ)]
en distribución, donde
[τ ′(θ)]2
CICR(θ) = ∂
;
E ( ∂θ ln f (X; θ))2
esto es, la varianza asintótica de Tn alcanza la cota inferior de Cramér-Rao.
Bajo las condiciones de regularidad (Definición 1.13), se puede demostrar que los esti-
madores máximo verosímiles cumplen las propiedades de consistencia y eficiencia. Es decir,
si la muestra aleatoria proviene de una población con función de densidad que satisface las
condiciones de regularidad, entonces el estimador máximo verosímil del parámetro θ (o de
una función τ (θ)) tiene estas propiedades asintóticas.
Para el caso de la consistencia simple, puede consultarse Stuart, Ord y Arnold (1999). En
cuanto a la eficiencia, se utilizará el siguiente resultado conocido como el método delta:
√
Lema 1.7 si {Xn } es una sucesión de variables aleatorias que satisfacen que n (Xn − θ) →
N (0, σ 2 ) en distribución, entonces para una función τ y un valor específico de θ, se tiene que
√
n [τ (Xn ) − τ (θ)] → N 0, σ 2 τ ′ (θ)2
en distribución.
Demostración.
El resultado es consecuencia del Teorema de Slutsky, el cual establece que para dos suce-
siones de variables aleatorias {Xn }n≥1 y {Yn }n≥1 , tales que Xn → X en distribución y Yn → c
en probabilidad , donde X es una variable aleatoria y c es una constante, se tiene que:
(i) Xn + Yn → X + c, en distribución,
(ii) Xn Yn → cX, en distribución,
(iii) Si c = 0 entonces,
Xn X
→ ,
Yn c
en distribución.
El siguiente resultado se refiere a la eficiencia asintótica de los estimadores máximo

verosímiles.
60
Teorema 1.8 Sea X1 , X2 , .., Xn una muestra aleatoria de una población con función de den-
sidad f (x; θ), sea
θ el estimador máximo verosímil de θ, y sea τ (θ) una función continua y
diferenciable de θ. Bajo las condiciones de regularidad sobre f (x; θ) y, por lo tanto de la
función de verosimilitud L(θ), se tiene que
√
n[τ (
θ) − τ (θ)] −→ N [0, CICR(τ (θ))],
donde CICR(τ (θ)) es la cota inferior de Cramér-Rao para estimadores insesgados de τ (θ).
Esto es, el estimador máximo verosímil de τ (θ) , τ (
θ), es un estimador eficiente de τ (θ).
Demostración.
Se demostrará el caso τ (θ) = θ, es decir, que
θ es asintóticamente eficiente. Para ello, recuerde
que
n
l(θ) = ln f (xi ; θ)
i=1
es la función de log-verosimilitud. Sean l′ , l′′ , .. las derivadas (con respecto a θ) . Expandiendo

la primera derivada de la log-verosimilitud alrededor del valor verdadero del parámetro, el
cual se denotará por θ0 ,
l′ (θ) = l′ (θ0 ) + (θ − θ0 )l′′ (θ 0 ) + ...,
donde se ignoran los términos de orden superior.
Sustituyendo el estimador máximo verosímil θ en lugar de θ, se tiene que
l′ (
θ) = l′ (θ0 ) + (
θ − θ0 )l′′ (θ 0 ) + ...,
pero el estimador máximo verosímil es el cero de la función de verosimilitud, por lo que
l′ (θ0 ) + (
θ − θ 0 )l′′ (θ0 ) + ... = 0.
√
Así que reacomodando los términos y multiplicando por n, se obtiene que:
√ √ −l′ (θ 0 )
n(
θ − θ0 ) = n ′′
l (θ0 )
1
− √n l′ (θ0 )
= 1 ′′ .
n
l (θ0 )
En 1.3.1 , se vio que 2

∂
IX (θ) = E ln f (X; θ) .
∂θ
61
Como n
∂
′
l (θ) = ln f (xi ; θ),
i=1
∂θ
por (1.20)
) * 1
IX (θ0 ) = E [l′ (θ0 )]2 =
CICR(θ)
denota la información esperada de Fisher.
Ahora observe que
1 ′ √ 1 ∂θ ∂
f (xi ; θ)
√ l (θ0 ) = n ,
n n i f (xi ; θ)
′
donde Sc(x; θ) = ff (x;θ)
(x;θ)
es tal que E [Sc(X; θ)] = 0 y V ar [Sc(X; θ)] = IX (θ), lo cual se probó
en el Lema 1.2. Así, por el Teorema de Límite Central,
1
√ l′ (θ 0 ) −→ N[0, I(θ0 )]
n
en distribución y
1
− √ l′ (θ0 ) −→ N[0, I(θ 0 )]
n
en distribución. Por otro lado,
2 2
1 ′′ 1 ∂
∂θ
f (xi ; θ) 1 ∂θ
∂
2 f (xi ; θ)
l (θ0 ) = − .
n n i f (xi ; θ) n i f(xi ; θ)
Note que la esperanza del primer sumando es IX (θ0 ), mientras que la del segundo es cero
(ver la demostración del Lema 1.3). Entonces por la Ley Débil de los Grandes Números:
1 ′′
l (θ 0 ) −→ I(θ0 ),
n
en probabilidad.
En consecuencia, si W es una variable aleatoria tal que W ∼ N[0, I(θ0 )], entonces
√ − √1n l′ (θ0 )
n(
θ − θ0 ) = 1 ′′
n
l (θ 0 )
converge en distribución a W/I(θ0 ) ∼ N [0, 1/IX (θ 0 )], es decir, a una variable aleatoria normal
con media cero y varianza igual a la Cota Inferior de Cramèr y Rao, lo que demuestra el
resultado.
62
El caso general es consecuencia del método delta. Una forma alternativa para calcular la
varianza del estimador máximo verosímil de τ (θ) es considerando que, debido a la propiedad
de invarianza que tiene el método de máxima verosimilitud,

τ (θ) = τ θ .

Si se aproxima τ θ mediante una expansión en series de Taylor alrededor de θ, considerando
solamente la primera derivada, se obtiene:

τ θ ≈ τ (θ) + θ − θ τ ′ (θ) .
Tomando la varianza de ambos lados, se llega a
! "
V ar τ θ ≈ (τ (θ)) V ar
′ 2
θ ,

debido a que θ es una constante. Como ya se había visto, V ar −1
θ está dada por IX (θ), asi
que
! " (τ ′ (θ))2
V ar τ θ ≈ ,
IX (θ)
expresión que corresponde a la Cota Inferior de Cramèr-Rao para estimadores insesgados de
τ (θ) , con lo que puede observarse que la varianza del estimador máximo verosímil alcanza
dicha cota (al igual que en el caso τ (θ) = θ).
En conclusión: √
n[τ (
θ) − τ (θ)] −→ N [0, CICR(τ (θ))].
Ejemplo 1.36 Considere una muestra aleatoria, X1 , . . . , Xn , de la población con distribu-

p
ción Bernoulli(p); se desea obtener un estimador puntual para el momio, τ (p) = (1−p) , así
como la varianza de dicho estimador.
El estimador máximo versoímil para p̂ es X̄. Por la propiedad de invarianza de los esti-
madores máximo verosímiles, se tiene que el estimador máximo verosímil para τ (p) es (1−X̄X̄n n ) .
La varianza de este estimador puede aproximarse de la siguiente manera:
! "2 
d
( p
)
p̂  dp (1−p) 
V̂ =  
(1 − p̂) IX (p)
p=p̂
! "2 
1
 (1−p)2
) 
=  n 
p(1−p)
p=p̂
p̂ X̄n
= 3
= .
n(1 − p̂) n(1 − X̄n )3
63
Ejemplo 1.37 Considere una sucesión de variables aleatorias, X1 , . . . , Xn , independientes

e idénticamente distribuidas de una población con distribución F (·) que es diferenciable.
Suponga que se satisface que P (Xi ≤ ψ) = 1/2, es decir, ψ es la mediana poblacional. Sea
Mn la mediana muestral y también suponga que n es impar para simplificar el argumento. Se
desea obtener la distribución asintótica de la mediana muestral.
Se calculará 1
lı́m P ( (n)(Mn − ψ) ≤ a),
n→∞
para alguna a. Sean las variables aleatorias Yi′ s definidas como
1
1 si Xi ≤ ψ + a/ (n)
Yi =
0 en otro caso,
se tiene que las Yi′ s son variables aleatorias Bernoulli con probabilidad de éxito
1
pn = F (ψ + a/ (n)).
1
Note que el evento {Mn ≤ ψ + a/ (n)} es equivalente al evento { i Yi ≥ (n + 1)/2}. Dado
que
pn → p = F (ψ) = 1/2,

Yi −npn
se puede utilizar el Teorema de Límite Central, de donde √ i
converge a una variable
(npn (1−pn ))
aleatoria Z con distribución normal estándar. Ahora,
√
(n + 1)/2 − npn (n + 1)F (ψ) − nF (ψ + a/ n)
lı́m 1 = lı́m 1
n→∞ (npn (1 − pn ) n→∞ npn (1 − pn )
√
n(F (ψ) − F (ψ + a/ n))
= lı́m 1
n→∞ npn (1 − pn )
√
n(F (ψ) − F (ψ + a/ n) 1
= lı́m a √
n→∞ a/ n pn (1 − pn )
= −2af(ψ).
Por lo que 1
(n)(Mn − ψ) ≤ a) → P (Z ≥ −2af ψ).
P(
1
Así (n)(Mn − ψ) tiene una distribución normal con media 0 y varianza 1/[2f(ψ)]2 .
1.5. Ejercicios
1. Sea X una variable aleatoria con distribución Gamma(α + 1, β), cuya función de den-
sidad es
β α+1
f (x; α, β) = xα e−βx ,
Γ(α + 1)
64
con x > 0, α > −1 y β > 0. Obtenga los estimadores de los parámetros α y β por el
método de momentos, para una muestra aleatoria de tamaño n.
2. Una urna contiene bolas negras y blancas. Se toma una muestra aleatoria de tamaño
n con reemplazo. ¿Cuál es el estimador máximo verosímil de la razón, R, de blancas a
negras en la urna? Para esto suponga que la bola se obtiene una por una con reemplazo
hasta que la bola negra aparezca. Sea X el número de bolas requeridas no contando
la última obtenida; este procedimiento se repite n veces para una muestra aleatoria
X1 , . . . , Xn .
3. Se toma una observación de una variable aleatoria discreta X con función de densidad
f (x; θ) dada en la siguiente tabla, donde θ ∈ {1, 2, 3}.
x f (x; 1) f (x; 2) f(x; 3)
0 1/3 1/4 0
1 1/3 1/4 0
2 0 1/4 1/4
3 1/6 1/4 1/2
4 1/6 0 1/4
Encuentre el estimador máximo verosímil de θ.
4. Sea X una variable aleatoria discreta con función de densidad f (x; θ) dada en la siguien-
te tabla, donde θ ∈ {1, 2, 3} y X ∈ {0, 1, 2, 3, 4}. Se toma una muestra aleatoria de
tamaño dos, (X1 , X2 ). Determine el estimador máximo verosímil de θ.
x f (x; 1) f (x; 2) f(x; 3)
0 1/3 1/4 0
1 1/3 1/4 0
2 0 1/4 1/4
3 1/6 1/4 1/2
4 1/6 0 1/4
5. Sea X1 , . . . , Xn una muestra aleatoria de una población con función de densidad
f(x; θ) = θx−2 I[θ,∞) (x).
Encuentre el estimador máximo verosímil de θ. También encuentre el estimador por

momentos para θ.
6. Sea X1 , X2 , X3 una muestra aleatoria de la población con distribución U (θ, 2θ), con
θ > 0.
(a) Encuentre el estimador de θ por el método de momentos.
65
(b) Encuentre el estimador máximo verosímil de θ, θ̂M V , y encuentre una constante k

tal que E(k θ̂M V ) = θ.
7. Sea X1 , . . . , Xn una muestra aleatoria de la población con función de densidad

1 (x − µ)
f(x; µ, σ) = exp − I(µ,∞) (x),
σ σ
donde µ ∈ R y σ ∈ R+ son desconocidos.
(a) Demuestre que el estimador máximo verosímil de µ esX(1) (la mínima estadística
de orden) y el estimador máximo verosímil de σ es n ni=1 (Xi − X(1) ).
1
(b) ¿Cuáles son los estimadores máximo verosímiles de µσ , µ

σ2
y de µ + σ?.
θ2
f (x; θ) = (x + 1)e−θx I(0,∞) (x), θ > 0.
θ+1
(a) Demuestre que la densidad de X pertenece a la familia exponencial.
(b) Encuentre una estadística suficiente minimal y completa.
(c) Encuentre el estimador por momentos.
(d) Encuentre el estimador máximo verosímil.
f (x; θ) = θxθ−1 I[0,1] (x), θ > 0.
(a) Encuentre el estimador por momentos de θ.

(b) Encuentre el estimador máximo verosímil de θ.
(c) Suponga que el verdadero valor de θ es 2. Utilice simulación en R para comparar
el error cuadrático medio (numéricamente) de los estimadores en los apartados
anteriores en muestras de tamaño n = 30. ¿Qué conclusiones puede extraer?.

1
f (x; θ) = e−|x−θ| , −∞ < θ < ∞.
2
(a) Analice la suficiencia en esta densidad.
(b) ¿Pertenece f (x; θ) a la familia exponencial?.
66
(c) Halle el estimador por el método de momentos para θ.

(d) Halle el estimador máximo verosímil para θ.
11. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución P oisson(λ), con
función de densidad f (x|λ). Considere que la función de distribución a priori de λ es
una distribución Gamma(α, β), con función de densidad π(λ).
(a) Encuentre la distribución a posteriori de λ.

(b) Encuentre el estimador Bayesiano de λ usando la función de pérdida del error
cuadrático.
12. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución Geométrica(θ).

Considere que la función de distribución a priori de θ es una distribución Beta(α, β).
(a) Encuentre la distribución a posteriori de θ.

(b) Encuentre el estimador Bayesiano de θ usando la función de pérdida del error
cuadrático.
13. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución Normal(µ, σ 2 ),

donde σ 2 es conocida. Considere que la función de distribución a priori de µ es una
distribución N ormal(η, λ2 ).
(a) Encuentre la distribución a posteriori de µ.

(b) Encuentre el estimador Bayesiano de µ usando la función de pérdida del error
cuadrático.
14. Suponga que ciertas pérdidas siguen una distribución W eibull con parámetros θ y τ .
Se tiene la siguiente muestra de 16 pérdidas: 54, 70, 75, 81, 84, 88, 97, 105, 109, 114,
122, 125, 128, 139, 146, 153. Estime los parámetros utilizando el método de percentiles,
usando los percentiles 20th y 70th .
15. Se practican n mediciones del radio de un círculo. Si las mediciones son independientes
entre sí y los errores se distribuyen N(0, σ 2 ) con σ 2 desconocida, proponer un estimador
insesgado para el perímetro del círculo y otro para el área.
16. Sea X1 , X2 , X3 , X4 una muestra aleatoria de tamaño cuatro de una población con
distribución N (0, σ 2 ), donde σ es desconocida. Considere
4 los siguientes
4 estimadores2
2 1 2 2 2 1 2 1
T1 = X1 − X2 + X4 , T2 = 3 (X1 + X2 + X4 ), T3 = 4 i=1 Xi , T4 = 3 i=1 (Xi − X̄)
y T5 = 12 |X1 − X2 |.
(a) ¿T1 , T2 , T3 , T4 son insesgados?
67
(b) De entre T1 , T2 , T3 , T4 , ¿cuál tiene el menor error cuadrático medio?

(c) ¿T5 es un estimador insesgado para σ?. Si no lo es, encuentre un múltiplo de T5
que lo sea. Calcule el error cuadrático medio de T5 .
17. Sea X1 , . . . , Xn una muestra aleatoria de una población con función de densidad con
media µ y varianza σ 2 .

(a) Pruebe que ni=1 ai Xi es un estimador insesgado para µ para cualquier valor de
las constantes a1 , a2 , . . . , an que satisfagan que ni=1 ai = 1.

(b) Si ni=1 ai = 1, prueba que V ar [ ni=1 ai Xi ] se minimiza cuando ai = 1/n, para
i = 1, . . . , n.

2x
f (x; θ) = I(0,θ) (x), θ > 0.
θ2
(a) Estime θ por el método de momentos. Llame a este estimador T1 . Encuentre su
media y su ECM.
(b) Encuentre el estimador máximo verosímil de θ. Llame a este estimador T2 . En-
cuentre su media y su ECM.
(c) De entre todos los estimadores de la forma aYn , donde Yn = máx{X1 , . . . , Xn }
y a es un valor constante que depende de n, encuentre un estimador para θ con
error cuadrático medio uniformemente más pequeño. Llame a este estimador T3 .
Encuentre su media y su ECM de T3 .
(d) Encuentre un UMVUE de θ. Nombre a este estimador T4 . Encuentre su media y
su ECM.
(e) Define T5 = (Y1 + Yn )/2, donde Y1 = mı́n{X1 , . . . , Xn } y Yn = máx{X1 , . . . , Xn }.
Encuentre su media y su ECM. ¿Qué estimador de θ preferiría y por qué?.
19. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución W eibull(α, β),
cuya función de densidad es
β
1 β−1 −x
fX (x; α) = βx exp I(0,∞) (x),
α α
donde α > 0 es un parámetro desconocido, pero β > 0 se supone conocido. Encuentre

los estimadores máximo verosímiles de α, α2 y α1 y demuestre que son consistentes en
ECM.
68
20. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución tal que
E (Xi ) = θ + b, V ar (Xi ) = σ 2 ,
donde b = 0, es una constante conocida. Pruebe que X no es un estimador consistente

en error cuadrático medio para θ. Construya un estimador insesgado para θ que sea
consistente.
21. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución P areto(α, θ),
cuya función de densidad es
αθα
f (x; θ) = , x > θ, θ > 0,
xα+1
con α conocida.
(a) Encuentre el estimador máximo verosímil para θ. ¿Es este un estimador insesgado
para θ?. Si la respuesta es negativa, encontrar el estimador insesgado.
(b) Encuentre el estimador por el método de momentos para θ. Nuevamente verifique
si el estimador es insesgado; en caso contrario, obtenga el estimador insesgado.
(c) ¿Son consistentes los estimadores obtenidos en los incisos anterio-
res?.
22. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución Bernoulli(θ),

donde x ∈ {0, 1} y 0 ≤ θ ≤ 12 . Note que el espacio paramétrico es Θ = {θ : 0 ≤ θ ≤ 12 }.
(a) Encuentre el estimador de θ por medio del método de momentos. Calcule su media
y su ECM.
(b) Encuentre el estimador máximo verosímil de θ. Calcule su media y su ECM.
(c) ¿Los estimadores son consistentes en ECM?.
(d) ¿Qué estimador es más eficiente en ECM?.
23. Sea X1 , . . . , Xn una muestra aleatoria discreta de la población con distribución

P oisson(λ), donde x ∈ {0, 1, 2, . . .} y 0 < λ ≤ 2. Note que el espacio paramétrico
es Θ = {λ : 0 < λ ≤ 2}.
(a) Encuentre el estimador de λ por el método de momentos. Calcule su media y su

ECM.
(b) Encuentre el estimador máximo verosímil de λ. Calcule su media y su ECM.
(c) ¿Los estimadores son consistentes en ECM?.
69
24. Considere las siguientes funciones de densidad:
f1 (x; p) = px (1 − p)1−x I{0,1} (x) donde 0 < p < 1,
log(θ)
f2 (x; θ) = θx I(0,1) (x) donde θ > 1.
θ−1
En cada caso, para una muestra aleatoria de tamaño n, ¿existirán estadísticas T1 (X) y
T2 (X) para ciertas funciones τ 1 (p) y τ 2 (θ), para las cuales la varianza de Ti (X), i = 1, 2,
coincidan con la CICR?.
25. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución N(θ, 1).
(a) Encuentre la CICR para la varianza de los estimadores insesgados de τ 1 (θ) = θ,

τ 2 (θ) = θ2 y τ 3 (θ) = P(X > 0).
(b) ¿Existe un estimador insesgado para τ 2 (θ) = θ2 ?. Si es así, encuéntrelo.
(c) ¿Existe un estimador insesgado para τ 3 (θ) = P(X > 0)?. Si es así, encuéntrelo.
(d) Encuentre el UMVUE para τ 2 (θ) = θ 2 .
26. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución Beta(θ, 1), donde
θ > 0, es decir, con función de densidad
f (x; θ) = θxθ−1 I(0,1) (x).
(a) Encuentre el estimador máximo verosímil de τ (θ) = θ/(1 + θ).

(b) Encuentre una estadística suficiente, y compruebe si es completa.

(c) ¿Es S = ni=1 Xi una estadística suficiente?. ¿Es S = ni=1 Xi una estadística
completa?.
(d) ¿Existe una función de θ, τ (θ), para el cual exista una estimador insesgado cuya
varianza coincida con la CICR?. Justifique.
(e) Encuentre un UMVUE para las siguientes funciones de θ:
(i) τ (θ) = θ
(ii) τ (θ) = 1/θ
(iii) τ (θ) = θ/(1 + θ)
27. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución Bernoulli(p),

con p ∈ (0, 1) con n ≥ 3.
n
(a) Sea U = i=1 Xi . Calcule E(X1 |U = u) y obtenga E(X1 |U ).
70
(b) Use el teorema de Rao-Blackwell para mejorar el estimador T1 (X) de τ 1 (p) = p2 ,

dado por
T1 (X) = X1 X2 .
(c) Use el teorema de Rao-Blackwell para mejorar el estimador T2 (X) de τ 2 (p) =
p2 (1 − p) , dado por
T2 (X) = X1 X2 (1 − X3 ).
28. Sea X1 , . . . , Xn una muestra aleatoria de distribución P oisson(λ), con λ > 0 y n ≥ 2.
(a) Use el teorema de Rao-Blackwell para mejorar el estimador T1 (X) de τ 1 (λ) = λ,

dado por
1
T1 (X) = (X1 + X2 ).
2
(b) Use el teorema de Rao-Blackwell para mejorar el estimador T2 (X) de τ 2 (λ) = e−λ ,
dado por
T2 (X) = I{0} (X1 ),

n
X
(llegará a 1 − n1 i=1 i ).
(c) Use el teorema de Rao-Blackwell para mejorar el estimador T3 (X) de τ 3 (λ) = λe−λ ,
dado por
T3 (X) = I{1} (X1 ).
29. Sea X1 , . . . , Xn una muestra aleatoria de una población con función de densidad
1
f (x; θ) = I(−θ,θ) (x), θ > 0.
2θ
Encuentre, si existe, el UMVUE para θ.
30. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución U(0, θ). Sean Y1
y Yn la mínima y máxima estadísticas de orden, respectivamente.
(a) Encuentre el estimador por momentos para θ. Llame T1 a dicho estimador y en-
cuentre su media y error cuadrático medio.
(b) Encuentre el estimador máximo verosímil de θ. Llame T2 a dicho estimador y
encuentre su media y error cuadrático medio.
(c) De entre todos los estimadores de la forma aYn , donde a es una constante que
podría depender de n. Encuentre un estimador para θ que tenga el error cuadrático
medio uniformente más pequeño. Llame T3 a dicho estimador y encuentre su media
y error cuadrático medio.
71
(d) Encuentre el UMVUE de θ. Llame T4 a dicho estimador y encuentre su media y

error cuadrático medio.
(e) Sea T5 = Y1 + Yn . Encuentre su media y error cuadrático medio.
(f) Diga ventajas y desventajas de los estimadores T1 , . . . , T5 .

θ
f (x; θ) = I(0,∞) (x), θ > 0
(1 + x)1+θ
(a) Encuentre el estimador por momentos para θ suponiendo que θ > 1.

(b) Encuentre el estimador máximo verosímil de τ (θ) = 1/θ.
(c) Encuentre una estadística suficiente y completa (si es que existe).
(d) Encuentre la CICR para los estimadores insesgado de τ (θ) = 1/θ.
(e) ¿Existe el UMVUE de τ (θ)?. Si es así, encuéntrelo.
(f) ¿Existe el UMVUE de θ?. Si es así, encuéntrelo.
f (x; µ) = e−(x−µ) I(µ,∞) (x), µ ∈ R.
(a) Demuestre que T (X) = X(1) = mı́n {X1 , . . . , Xn } es una estadística suficiente y
completa.
(b) Encuentre la única función de X(1) que sea el UMVUE de µ.
33. Sea X1 , . . . , Xn una muestra aleatoria de la distribución Exp(λ). Demuestre que

n−1
T (X) = n
i=1 Xi
es el UMVUE de λ.
34. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución P oisson(λ). Sea
τ (λ) = (1 + λ)e−λ .
(a) Obtenga el estimador máximo verosímil para τ (λ).

(b) Obtenga un estimador insesgado para τ (λ).
(b) Obtenga un UMVUE para τ (λ). Sugerencia: Encuentre un estimador insesgado de
τ (λ) y utilice el teorema de Rao-Blackwell para mejorarlo.
72
35. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución Geométrica(θ)

con función de densidad
P(X = x) = θ(1 − θ)x , x = 0, 1, 2, . . . , 0 < θ < 1.
(a) Obtenga el estimador por el método de momentos para θ .

(b) Obtenga el estimador máximo verosímil para θ.
(c) Calcule la CICR para la varianza de los estimadores insesgados de θ.
(d) Encuentre un UMVUE para θ.
36. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución N (θ, θ 2 ), θ ∈ R.
(a) ¿Existe una estadística suficiente unidimensional para θ?

(b) Encuentra una estadística suficiente bidimensional para θ.
(c) ¿Es X̄ un UMVUE para θ?.
(d) ¿θ es un parámetro de localización o escala?.
73
Bibliografía
[1] Casella, G. y Berger, R. L. (2002). Statistical Inference. Duxbury Advanced Series. 2nd.
ed.
[2] Gómez V., M.A. (2009). “Karl Pearson, el Creador de la Estadística Matemática”. His-
toria de la Probabilidad y la Estadística IV, J. Basulto y J.J. García (eds.). Congreso
Internacional de Historia de la Estadística y la Probabilidad, 351-356.
[3] Hogg, R.V., McKean, J. W., Craig, A. T. (2014). Introduction to Mathe-

matical Statistics. Pearson Education International. 7th. ed.
[4] Kapadia, A.S., Chan, W. y Moyé, L. (2005). Mathematical Statistics with Applications.
Chapman & Hall, Inc./CRC Press.
[5] Kellison, S.G. y London, R.L. (2011). Risk Models and Their Estimation. Actex Publi-
cations, Inc.
[6] Lindgren, B.W. (1993). Statistical Theory. Chapman & Hall, Inc. 4th ed.
[7] Mood, A. M., Graybill, F. A. y Boes, D. C. (1974). Introduction to the theory of stastis-
tics. Mc Graw-Hill, Inc. 3rd. ed.
[8] Pearson, E. S. (1974). “Memories on the impact of Fisher’s work in the 1920’s”. Int.
Stat. Rev. 42 (1).
74
[9] Stuart, A., Ord, J. K. y Arnold, S. (1999). Advanced Theory of Statistics, 2A: Clasical
Inference and the Linear Model. London: Oxford University Press, 6th ed.
[10] Zehna, P.W. (1966). Invariance of Maximum Likelihood Estimators. Annals of Mathe-
matical Statistics 37 744.
[11] http://www.dm.uba.ar/materias/estadistica_M/
[12] http://www.statslab.cam.ac.uk/~rrw1/
75

Estimación Puntual Versión Final

Cargado por

Copyright:

Formatos disponibles

Estimación Puntual Versión Final

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Estimación Puntual Versión Final

Cargado por

Copyright:

Formatos disponibles

Estimación Puntual

Jaime Vázquez • Lizbeth Naranjo • Ruth Fuentes • Margarita Chávez

Proyecto PAPIME UNAM PE107117

1.1. Métodos de estimación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

La estadística inferencial es una disciplina que se basa en gran medida en la probabilidad y

La notación θ̂ = T (X) expresa que el estimador de θ es la estadística T (X). Los valores

1.1. Métodos de estimación

También se introducirá el método de máxima verosimilitud propuesto por Ronald A. Fi-

Hablar de Fisher, equivale a referirse al desarrollo de la estadística durante el siglo XX.

1.1.1. Método de momentos

Ejemplo 1.4 Suponga que se tiene la siguiente muestra de tamaño 10 :

Estimar los parámetros µ y σ 2 usando el método de momentos si la distribución normal se

Usando el método de momentos y el ejemplo anterior:

Por lo tanto, el valor estimado de p es

1.1.2. Estimadores basados en verosimilitud

θ es la probabilidad de obtener bola negra, es decir, θ = P(Xi = 1).

θ solo puede tomar los valores 14 y 34 , debido a que la razón establecida es de 3 a 1.

En el cuadro 1.1 se presentan las probabilidades de obtener 0, 1, 2 y 3 bolas negras, con

En virtud de la observación anterior se define la log-verosimilitud de f (x; θ1 , θ2 , . . . , θk )

de donde se concluye que

∴ El estimador máximo verosímil de θ es θ̂M V = X̄.

∴ El estimador máximo verosímil de θ es θ̂M V = X̄.

la matriz de segundas derivadas. Observe que

Por (1.8) y (1.9), se ve que H es definida negativa y por lo tanto, el óptimo µ 2 es un

f (x; θ) = I[θ− 1 ,θ+ 1 ] (x).

Obtener el estimador máximo verosímil de θ.

Es decir, el máximo valor de L (θ) es 1 cuando xi ∈ [θ − 12 , θ + 12 ] para toda i, lo cual ocurre

donde yn = máx {x1 , x2 , ..., xn } . Note que

Figura 1.3: Gráfica de la función de verosimilitud para una muestra de tamaño n de la

Así, el estimador máximo verosímil de θ es

Propiedad de invarianza de los estimadores máximo-verosimiles

y para obtener el estimador máximo verosímil, basta obtener lo siguiente

sup L∗ (η) = sup L(τ −1 (η)) = sup L(θ).

Teorema 1.1 Si θ̂ es el estimador máximo verosímil de θ, entonces para cualquier función

L∗ (η̂) = sup sup L(θ)

L(θ̂) = sup L(θ)

donde la primera igualdad se obtiene debido a que θ̂ es el estimador máximo verosímil de θ,

Con este teorema es posible encontrar estimadores máximo verosímiles de funciones de

Observación 1.1 La propiedad de invarianza de los estimadores máximo verosímiles tam-

Ejemplo 1.14 Sea X1 , . . . , Xn una muestra aleatoria de la distribución normal N (µ, σ 2 ).

1.1.3. Verosimilitud en el enfoque Bayesiano

Encontrar el máximo global y verificar que lo sea.

Que sea sensible a cambios numéricos.

Ahora, si se consideran dos valores de µ, el cociente de verosimilitudes para el caso de la

1. La verosimilitud L(θ|x), que representa la información que hay en los datos

2. π(µ) una distribución de probabilidad que se conoce como distribución inicial o

La inferencia se expresa a través de una distribución posterior, final o a posteriori de los

En resumen, el enfoque denominado frecuentista no supone que hay conocimiento previo

Suponga que no se conoce k y secuencialmente se examinan 3 dulces, resultando un rojo,

f (x | k) = P (el segundo es de diferente color que el primero) ×

k π(k) f (x|k) π(k)f(x|k) π(k|x)

el cuarto dulce es naranja (cuadro 1.3).

k π(k) f (x|k) π(k)f(x|k) π(k|x)

La estadística Bayesiana se basa en el cálculo de distribuciones condicionales. Los siguien-

Con el método de máxima verosimilitud el estimador de θ es θ̂ = X̄. Suponga que el experto

La distribución conjunta de X1 , . . . , X10 y θ es

g(x, θ) = fX (x; θ) × π(θ)

Así, la distribución a posteriori de θ dada la muestra x es

que es una distribución Beta(y + 2, 12 − y).

Ejemplo 1.27 Sea X1 , . . . , Xn una muestra aleatoria