Estimación Puntual Versión Final
Estimación Puntual Versión Final
Estimación Puntual Versión Final
Índice general 1
Introducción 2
1. Estimación puntual 3
Bibliografía 74
1
Introducción
2
CAPÍTULO 1
Estimación puntual
Suponga que se dispone de una población en la que se estudia una variable aleatoria X
con distribución conocida y parámetro (o parámetros) desconocido(s) y se tiene interés en
disminuir el grado de desconocimiento de θ en f (x; θ) . De la población se extrae una muestra
aleatoria simple de tamaño n: X1 , X2 , ..., Xn y se trata de calcular, a partir de los valores
muestrales, una función de los mismos que proporcione una estadística θ = T (X1 , X2 , ..., Xn )
que le asigne un valor al parámetro desconocido de la población, de forma que sean lo más
cercanos en algún sentido. A θ se le llama estimador.
El objetivo de la estimación puntual es entonces encontrar un valor para θ, denotado
como θ, que sea función de la muestra aleatoria y que permita modelar o describir de manera
adecuada el fenómeno aleatorio.
Definición 1.1 Sea X1 , . . . , Xn una muestra aleatoria de una distribución con función de
densidad f(x; θ). Un estimador es una estadística T (X) cuyos valores t(x) sirven para aproxi-
mar o estimar los valores de θ.
3
Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez
Figura 1.1: Karl Pearson con Francis Galton. Ambos fundaron la revista Biometrika en 1901.
Imagen tomada de commons.wikipedia.org (public domain).
Karl Pearson "fue historiador, escribió sobre folklore, fue socialista convencido, abogado,
matemático aplicado, biómetra, estadístico, maestro y biógrafo. Sin duda que su contribución
más importante es el nacimiento de la estadística aplicada. Es por lo que se le debe mayor
crédito, en frase de él mismo: Hasta que los fenómenos de cualquier rama del conocimiento
no hayan sido sometidos a medida y número, no se puede decir que se trate de una ciencia.
Además del método de momentos para la obtención de estimadores, introdujo el sistema de
curvas de frecuencias para disponer de distribuciones que pudieran aplicarse a los distintos
fenómenos aleatorios, desarrolló la correlación lineal para aplicarla a la teoría de la herencia
y de la evolución. Introdujo el método de la ji cuadrada para dar una medida del ajuste
entre datos y distribuciones, para contrastar la homogeneidad entre varias muestras y la in-
dependencia entre variables. Fundó los Anales de la Eugenesia y en 1900, junto con Galton
y Weldon, fundó la revista Biometrika de la que fue editor hasta su muerte. En una descrip-
ción autobiográfica decía: una explicación para mi vida, se debe a una combinación de dos
características que he heredado: capacidad para trabajar mucho y capacidad para relacionar
las observaciones de los demás"1 .
1
Gómez Villegas, M.A. (2009). Karl Pearson, el Creador de la Estadística Matemática. Historia de la
Probabilidad y la Estadística IV, J. Basulto y J.J. García (eds.). Congreso Internacional de Historia de la
Estadística y la Probabilidad, 351-356.
4
Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez
Figura 1.2: Placa English Heritage dedicada a Fisher en la casa Inverforth. Imagen tomada de
commons.wikipedia.org (public domain). By AnemoneProjectors (talk) (Flickr) (Sir Ronald
Aylmer Fisher plaque) [CC BY-SA 2.0 (https://creativecommons.org/licenses/by-sa/2.0)],
via Wikimedia Commons
5
Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez
µ1 = M1 , µ2 = M2 , . . . , µk = Mk
k ecuaciones con k incógnitas
La solución a este sistema θ̂ = (θˆ1 , ...., θˆk ) se conoce como el estimador por el método de
momentos.
Ejemplo 1.1 Sea X1 , . . . , Xn una muestra aleatoria de una población con distribución
P oisson(θ). Como
E(X) = θ,
entonces n
i=1 Xi
θ̂ = .
n
Ejemplo 1.2 Sea X1 , . . . , Xn una muestra aleatoria de una población con distribución exp(θ).
Como
1
E(X) = ,
θ
entonces
1
X̄ = .
θ
Por lo tanto,
θ̂ = 1/X̄.
Ejemplo 1.3 Sea X1 , . . . , Xn una muestra aleatoria de una población con distribución
N(µ, σ 2 ). Como
E(X) = µ y V ar(X) = σ 2 ,
entonces
E(X 2 ) = µ2 + σ 2 .
6
Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez
Por lo tanto,
n
1 2 2 2
X̄ = µ̂ y X̄ + σ̂ = X .
n i=1 i
Es decir,
n
2 1 2
σ̂ = X − X̄ 2 .
n i=1 i
Pero note que
n
n
2
(Xi − X̄) = (Xi2 − 2X̄Xi + X̄ 2 )
i=1 i=1
n
n
= Xi2 − 2X̄ Xi + nX̄ 2
i=1 i=1
n
n
= Xi2 − 2nX̄ + nX̄ = 2 2
Xi2 − nX̄ 2 .
i=1 i=1
n n
1 1 2
∴ (Xi − X̄)2 = X − X̄ 2 .
n i=1 n i=1 i
Entonces los estimadores por momentos para µ y σ 2 son
n
1
µ̂ = X̄ y σ̂ 2 = (Xi − X̄)2 .
n i=1
1, 1, 1, 2, 2, 3, 5, 7, 8, 10.
7
Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez
y
258
σ
2 + 42 = .
10
De donde
σ
2 = 9.8.
Ejemplo 1.5 Hallar los estimadores por el método de momentos de la distribución Gamma
Igualando los
y usar los datos del ejemplo anterior para dar valores numéricos de r y λ.
primeros momentos muestrales y poblacionales, se obtiene:
r 40
E (X) = = = 4. (1.1)
λ 10
y
r (r + 1) 258
E X2 = 2 = = 25.8.
λ 10
Se tiene un sistema de dos ecuaciones. Para encontrar la solución, se considera el cociente:
E (X 2 ) r + 1 25.8
2 = = 2 = 1.6125.
[E (X)] r 4
y resolviendo para r :
r = 1.6327.
Sustituyendo este valor en (1.1) y despejando λ, se obtiene:
= 1.6327 = 0.408 2.
λ
4
El rango del estimador no necesariamente coincide con el espacio del parámetro a estimar.
Considere en el siguiente ejemplo una distribución Binomial con k y p desconocidos.
Ejemplo 1.6 Suponga que X ∼Binomial(k, p). Una posible aplicación con esta distribución
es que se busque estimar las tasas de ocurrencia de un crimen, conociendo que existe un
número importante de casos que no se denuncian o reportan, es decir, no se sabe cuál es
exactamente el valor de k. Utilizando el método de momentos, se consideran los dos primeros
momentos poblacionales de la distribución binomial, así como los correspondientes momentos
muestrales:
X̄n = kp (1.2)
y
n
1 2
X = kp(1 − p) + k 2 p2 . (1.3)
n i=1 i
8
Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez
De (1.2) se obtiene
X̄n
,
p̂ = (1.4)
k
sustituyendo este resultado en lugar de p en (1.3):
n
1 2 X̄n 2
Xi = X̄n (1 − ) + X̄n (1.5)
n i=1 k
y como
n n
1
2 1 2 2
Xi − X̄n = Xi + X̄n ,
n i=1 n i=1
(1.5) es equivalente a
n
1 X̄n
(Xi − X̄n )2 = X̄n (1 − )
n i=1 k
2
X̄n
= X̄n − ,
k
así que despejando el valor de k, se obtiene
2 n
X̄n 1
= X̄n − (Xi − X̄n )2 ,
k n i=1
k 1
2 = 1
n ,
X̄n X̄n − n i=1 (Xi − X̄n )2
2
X̄n
k̂ = 1
n .
X̄n − n i=1 (Xi − X̄n )2
X̄n
p̂ = .
k
Observe que no se puede garantizar que k será un número entero positivo y que p ∈ [0, 1].
Sin embargo, en general el método permite obtener una propuesta para estimar rápidamente
los parámetros desconocidos.
9
Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez
bolas negras y blancas, de las cuales se desconoce el número de cada una de ellas, pero se
tiene el dato de que la razón es de 3 a 1, aunque también se ignora si hay más bolas blancas
que negras o viceversa. Se desea estimar la proporción de bolas negras en la urna y para ello,
se toma una muestra de tamaño 3 con reemplazo de esta población, X1 , X2 , X3 . Note que Xi
tiene distribución Bernoulli(θ), i = 1, 2, 3.
Observe que:
X ∼ Bin(n = 3, θ).
Valor de θ P (X = 0) P (X = 1) P (X = 2) P (X = 3)
θ = 1/4 27/64 27/64 9/64 1/64
θ = 3/4 1/64 9/64 27/64 27/64
1
Cuadro 1.1: Probabilidad de obtener 0, 1, 2 y 3 bolas negras cuando θ = 4
y θ = 34 .
(x1 = 0, x2 = 0, x3 = 0) ,
entonces θ̂ = 1/4 porque es más probable obtener (con este valor de θ) 0 bolas negras que
con θ̂ = 3/4. Ahora, si en la muestra se obtienen 2 bolas negras entonces θ̂ = 3/4, ya que
es más probable obtener 2 bolas negras con θ̂ = 3/4 que con θ̂ = 1/4. Es decir, se escoge el
valor de θ que maximiza la probabilidad de obtener una muestra específica (x1 , x2 , x3 ).
Esta es la idea subyacente en el método de máxima verosimilitud para estimar paráme-
tros. De manera general, es necesario definir una función que represente la "probabilidad"de
obtener una cierta muestra de entre todas las posibles en X (el espacio muestral o de las
muestras). Dicha función, para un valor muestral fijo, depende únicamente de los parámetros
de la distribución en cuestión y el problema es encontrar aquél valor del parámetro o de los
parámetros que maximicen esta función para una realización fija de la muestra. En el ejemplo
anterior, el parámetro sólo puede tomar dos valores, pero en general se estará resolviendo un
problema de optimización sobre el espacio paramétrico correspondiente a la distribución con
la que se esté trabajando (una vez que se ha observado una muestra).
Para abordar este tema, se iniciará con la definición de la función de verosimilitud.
10
Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez
Definición 1.2 Sea X1 , . . . , Xn una muestra aleatoria de una población con función de den-
sidad f (x; θ). Se define la función de verosimilitud como la función de densidad conjunta
de la muestra y se denota como L(θ) o L(θ | x). Es decir:
n
L(θ) = fX1 ,...,Xn (x1 , ..., xn; θ) = fXi (xi ; θ).
i=1
Definición 1.3 Sea X1 , . . . , Xn una muestra aleatoria de una población con función de den-
sidad f(x; θ) y L(θ) la correspondiente función de verosimilitud. A θ̂ = T (X) se le llama
el estimador máximo verosímil de θ, si satisface que para cualquier θ ∈ Θ, se tiene que
L(θ̂) ≥ L(θ).
Método general
Sea f(x; θ1 , θ2 , . . . , θk ) una función de densidad con k parámetros. Si (θˆ1 , ...θˆk ) satisface
el sistema
∂L(θ1 , θ2 , ..., θ k )
= 0 i = 1, 2, ..., k;
∂θi
entonces (θˆ1 , ..., θˆk ) es el estimador máximo verosímil de θ.
Note que
∂ 1 ∂
ln(L(θ 1 , θ2 , . . . , θk )) = · L(θ1 , θ2 , . . . , θk ).
∂θi L(θ1 , θ 2 , . . . , θ k ) ∂θi
Por lo tanto,
∂ ∂
ln(L(θ1 , θ2 , . . . , θk )) = 0 ⇔ L(θ1 , θ2 , . . . , θk ) = 0.
∂θi ∂θi
Es decir, ln(L(θ1 , θ 2 , . . . , θ k )) alcanza su máximo en el mismo punto que L(θ1 , θ 2 , . . . , θk ).
Ejemplo 1.7 (Distribución Bernoulli). Sea X1 , . . . , Xn una muestra aleatoria de una pobla-
ción con distribución Bernoulli(θ). Obtener el estimador máximo verosímil de θ.
n
n
n n
L(θ) = f (xi , θ) = θ xi (1 − θ)1−xi = θ i=1 xi
(1 − θ)n− i=1 xi
.
i=1 i=1
11
Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez
Entonces,
n n
l (θ) = ln(L(θ)) = ln θ i=1 xi (1 − θ)n− i=1 xi
n
n
= ln(θ) xi + ln(1 − θ) n − xi .
i=1 i=1
Luego, n
∂ i=1 xi n − ni=1 xi
l (θ) = − .
∂θ θ 1−θ
Por lo tanto,
n n
∂ i=1 xi n − i=1 xi 1 n 1 1
l (θ) = 0 ⇔ = ⇔ − 1 = n −1 ⇔ = ,
∂θ
θ 1−θ
θ i=1 xi
θ x̄
Ejemplo 1.8 (Distribución exp(θ)). Sea X1 , . . . , Xn una muestra aleatoria de una población
con distribución exp(θ). Obtener el estimador máximo verosímil de θ.
n
n
n n
L(θ) = f (xi , θ) = θe−θxi I(0,∞) (xi ) = θn e−θ i=1 xi
I(0,∞) (xi ).
i=1 i=1 i=1
Entonces,
n
n
l (θ) = ln(L(θ)) = ln θn e−θ i=1 xi
I(0,∞) (xi )
i=1
n
n
= n ln(θ) − θ xi + ln(I(0,∞) (xi )).
i=1 i=1
Luego,
n
∂ n
l (θ) = − xi .
∂θ θ i=1
12
Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez
Por lo tanto, n
n
∂ n 1 i=1 xi 1
l (θ) = 0 ⇔ = xi ⇔ = ⇔ = x̄,
∂θ
θ
θ n
θ
i=1
y así
1
θ= .
X̄
Ahora se verificará que es un máximo
∂ 2 l(θ) n
2 |
θ = − 2 < 0.
∂θ
θ
1
∴ El estimador máximo verosímil de θ es θ̂M V = .
X̄
Ejemplo 1.9 (Distribución P oisson(θ)). Sea X1 , . . . , Xn una muestra alea-
toria de una población con distribución P oisson(θ). Obtener el estimador máximo verosímil
de θ.
n n n
e−θ θxi −nθ
n
xi I{0,1,2,...} (xi )
L(θ) = f (xi , θ) = I{0,1,2,...} (xi ) = e θ i=1 .
i=1 i=1
xi ! i=1
xi !
Entonces,
n
n I{0,1,2,...} (xi )
xi
l (θ) = ln(L(θ)) = ln e−nθ θ i=1
i=1
xi !
n
n
I{0,1,2,...} (xi )
= −nθ + ln(θ) xi + ln .
i=1 i=1
xi !
Luego, n
∂ xi
l (θ) = −n + i=1 .
∂θ θ
Por lo tanto, n n
∂ i=1 xi xi
l (θ) = 0 ⇔ n = ⇔ θ = i=1 .
∂θ
θ n
De esta manera,
θ = X.
Ahora se verificará que es un máximo
n
∂ 2 l(θ) i=1 xi
|= − < 0.
∂θ2 θ
θ
2
13
Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez
Ejemplo 1.10 (Distribución normal). Sea X1 , . . . , Xn una muestra aleatoria de una pobla-
ción con distribución N (µ, σ 2 ). Obtener los estimadores máximo-verosímiles de µ y σ 2 .
Primero se obtiene la función de verosimilitud:
n
1 (xi −µ)2
L µ, σ 2
= √ e− 2σ2
i=1 2πσ 2
n2 n
1 − 12 2
i=1 (xi −µ) .
= e 2σ
2πσ 2
La log-verosimilitud está dada por
n
n 1
l µ, σ 2 = − ln 2πσ 2 − 2 (xi − µ)2 .
2 2σ i=1
Obteniendo las derivadas con respecto a los parámetros
n
∂l 1
= (xi − µ) ,
∂µ σ 2 i=1
n
∂l n 1
2
= − 2+ 4 (xi − µ)2 .
∂σ 2σ 2σ i=1
Igualando a cero se obtiene
n
xi − n
µ=0
i=1
y
n
n 1
− 2 + 4 )2 = 0,
(xi − µ
2
σ 2
σ i=1
de donde
=X
µ (1.6)
y
n
2
2 i=1 Xi − X
=
σ . (1.7)
n
Las segundas derivadas están dadas por
∂ 2l n
2
= − 2,
∂µ σ
2
n 2
∂ l n i=1 (xi − µ)
= − ,
∂ (σ 2 )2 2σ 4 σ6
n
∂ 2l ∂ 2l (xi − µ)
2
= 2
= − i=1 4 .
∂µ∂σ ∂σ ∂µ σ
14
Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez
Sea
∂2l ∂2l
∂µ2 ∂σ 2 ∂µ
H= ∂2l ∂2l
∂µ∂σ 2 ∂(σ 2 )2
mientras que
n
i=1 (xi −x)
− σn2 − 4
det H|(µ,σ2 ) = det n nσ 2
i=1 (xi −x) n i=1 (xi −x)
− σ
4
σ4
2
− σ
6
− σn2 0
= det n 2
n i=1 (xi −x)
0 σ4
2
− σ6
n2 n2 ni=1 (xi − x)2
= − 6 + 8
2
σ n
σ
2 2 2
n nσ
= − 6+ 8
2
σ
σ
n2 n2 n2
= − 6 + 6 = 6 > 0. (1.9)
2
σ
σ 2
σ
Ejemplo 1.11 (Distribución uniforme). Sea X1 , . . . , Xn una muestra aleatoria de una pobla-
ción con distribución Uniforme en el intervalo [θ − 12 , θ + 12 ], es decir,
15
Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez
es decir, si
1 1
yn − ≤ θ ≤ y1 + .
2 2
Por lo tanto,
1 si θ ∈ yn − 12 , y1 + 12
L (θ) =
0 en otro caso.
Cualquier valor
θ de θ en Yn − 12 , Y1 + 12 es un estimador máximo verosímil, por ejemplo,
Y1 +Yn
T (X) = 2 .
Ejemplo 1.12 (Distribución uniforme). Sea X1 , . . . , Xn una muestra aleatoria de una pobla-
ción con distribución Uniforme en el intervalo [0, θ] . Hallar el estimador máximo verosímil
de θ.
La función de densidad está dada por
1
θ
, 0 ≤ x ≤ θ,
f (x; θ) =
0 en otro caso.
La función de verosimilitud es
n
L (θ) = f (xi ; θ)
i=1
1
θn
si xi ≤ θ, para toda i
=
0 si al menos una de las xi > θ
1
θn
si máx {x1 , x2 , ..., xn } ≤ θ
=
0 en otro caso
1
θn
si θ ≥ yn
=
0 si θ < yn ,
dL (θ) n
= − n+1 < 0.
dθ θ
Así, la función de verosimilitud vale cero si θ < yn y θ1n si θ ≥ yn , siendo en este caso una
función decreciente, como se muestra en la figura 1.3.
16
Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez
L()
Yn
17
Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez
sólo máximo, dado que podemos invertir la función. Esto se puede ver fácilmente considerando
que si η = τ (θ), entonces la función inversa de τ (θ) es τ −1 (η) = θ, la cual está bien definida
por ser una función uno-a-uno, y la función de verosimilitud de τ (θ), escrita como una función
de η, está dada por
n
∗
L (η) = f(xi ; τ −1 (η)) = L(τ −1 (η)),
i=1
Por tanto, el máximo de L∗ (η) se alcanza en η = τ (θ) = τ (θ̂), mostrando así que el estimador
máximo verosímil de τ (θ) es τ (θ̂).
En algunos casos, no es posible usar la propiedad de invarianza de los estimadores máximo
verosímiles debido a que muchas funciones de interés no son funciones uno-a-uno. Por ejemplo,
para estimar µ2 , donde µ es la media de una distribución normal, la función τ (µ) = µ2 no es
una función uno-a-uno. Si τ (θ) no es una función uno-a-uno, entonces para algún valor η puede
haber más de un valor de θ que satisfaga que τ (θ) = η. En estos casos, la correspondencia
entre la maximización sobre η y la correspondiente maximización sobre θ deben analizarse.
Por ejemplo, si θ̂ es el estimador máximo verosímil de θ, podría existir otro valor de θ,
digamos θ0 , para el cual también se cumple que τ (θ̂) = τ (θ 0 ). Así, en el caso de que τ (θ)
no sea una función uno-a-uno, no necesariamente existirá una única solución. En estos casos
será necesario usar una definición más general de la función máximo verosímil de τ (θ). Una
definición de verosimilitud más general para τ (θ) es la siguiente.
Definición 1.4 La función de verosimilitud inducida por τ (θ), denotada por L∗ , está dada
por
L∗ (η) = sup L(θ).
{θ:τ (θ)=η}
En este caso, el valor η̂ que maximiza a la función L∗ (η) es el estimador máximo verosímil
de η = τ (θ). Además, puede verse a partir de las igualdades anteriores que el máximo de L∗
y el máximo de L coinciden.
Demostración:
3
Esta propiedad fue demostrada por Zehna (1966) en el artículo Invariance of Maximum Likelihood Esti-
mators en la revista Annals of Mathematical Statistics.
18
Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez
Sea η̂ el valor que maximiza L∗ (η). Es necesario mostrar que L∗ (η̂) = L∗ (τ (θ̂)). Además,
como se mencionó anteriormente, el máximo de L y el máximo de L∗ coinciden, así que se
tiene lo siguiente,
= sup L(θ)
θ
= L(θ̂),
donde la primera igualdad se cumple por definición de L∗ (η) ya que L∗ (η) = sup{θ:τ (θ)=η} L(θ),
la segunda igualdad se obtiene debido a que la maximización iterada es igual a la maxi-
mización no condicional sobre θ, y la última igualdad se cumple por definición de θ̂, ya que
θ̂ es el estimador máximo verosímil de L(θ). Además,
= L∗ (τ (θ̂)),
Ejemplo 1.13 Sea X1 , . . . , Xn una muestra aleatoria de una población con distribución
N(µ, 1), con µ desconocido. Se busca el estimador máximo verosímil de τ (µ) = log(µ). Co-
mo µ̂ = X̄ es el estimador máximo verosímil de µ, entonces por la propiedad de invarianza
log(X̄) es el estimador máximo verosímil de log(µ).
19
Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez
sns
= T s−1 exp{−sT2 /µ},
Γn (s)µns 1
donde T1 = ni=1 xi y T2 = ni=1 xi . Observe que la verosimilitud depende de la muestra sólo
a través de estas estadísticas suficientes T1 y T2 . Suponga que se desea estimar el parámetro
µ. Al otro parámetro que no es el que se está estimando, en este caso s, se le suele llamar un
parámetro de ruido.
Utilizando exclusivamente la verosimilitud para proponer un estimador para el parámetro
de interés µ y teniendo en cuenta la posibilidad de un muestreo repetido, el estimador máximo
verosímil para µ es el valor del parámetro µ ∈ Θ que maximiza la función de verosimilitud;
es decir, el valor del parámetro para el cual la muestra observada es más probable.
Por construcción, el rango del estimador coincide con el espacio paramétrico, aunque
hereda las dificultades de cualquier problema de optimización, a saber:
20
Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez
µ1
= exp{−sT2 [1/µ1 − 1/µ2 ]},
µ2
el cual depende del valor del parámetro s. En general no es claro cómo tratar el parámetro
de ruido, pero desde el enfoque clásico de maximizar la función de verosimilitud como se vio
en la sección 1.1.2, simplemente se toma el valor del estimador s.
Existe otro enfoque conocido como Inferencia Bayesiana, en el cual se condiciona com-
pletamente en los datos observados y se concluye sobre la población en estudio basándose
en:
L(θ|x)π(θ)
π(θ|x) = . (1.10)
L(θ|x)π(θ)dθ
La estadística Bayesiana (por Thomas Bayes (1702-1761), matemático del siglo XVIII),
representa un enfoque diferente a la estadística inferencial clásica o frecuentista. En el enfoque
Bayesiano también se supone que los datos se obtienen de una distribución perteneciente a
una familia paramétrica conocida; sin embargo, a diferencia de la estadística clásica, que
considera que los parámetros son fijos pero desconocidos, aquí se hace el supuesto de que son
variables aleatorias.
21
Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez
Definición 1.5 Una distribución inicial π(θ) es conjugada si para π(θ) ∈ P y L(θ|x) ∈ F ,
se tiene que π(θ|x) ∈ P, donde P y F son familias de distribuciones.
A continuación se da un primer ejemplo para ilustrar algunas de las funciones que se han
mencionado en el enfoque Bayesiano.
Ejemplo 1.17 Los paquetes de los llamados dulces Smarties vienen con k colores diferentes,
los cuales se repiten con la misma frecuencia.
Figura 1.4: Dulces smarties. Tomada de pixabay.com (imágenes gratuitas de alta calidad).
22
Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez
primero, pero el tercero es del mismo color que el primero, está dada por:
A la luz de los datos x = rojo, verde, rojo, se tiene entonces que f(x|k) = (k − 1)/k 2 . Si en
lugar de 3 se examinan 4 y resulta que ese cuarto es de color naranja (con los tres primeros
rojo, verde, rojo), se tiene que
(k − 1) (k − 2)
f (x | k) = .
k3
Ahora suponga que se tiene información a priori o se cree que el número de colores es
1 3 3 3
5,6,7 u 8, con probabilidades iniciales 10 , 10 , 10 y 10 , respectivamente.
Para el caso de tres dulces, si k = 5, entonces
4
f (x|k) = (5 − 1)/52 = = 0.16,
25
1
f (x|k)π (k) = (0.16) = 0.016
10
y 1
(0.16) 10
π (k | x) = 8 = 0.13.
f (x|k)π (k)
k=5
A continuación se resumen los valores de estas funciones para los distintos valores de k y
para ambos escenarios, es decir, cuando se tiene rojo, verde y rojo (cuadro 1.2) y para cuando
23
Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez
24
Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez
Ejemplo 1.20 Sea X1 , . . . , Xn una muestra aleatoria de una población con distribución
exponencial(λ) y la distribución a priori para el parámetro λ es una exponencial(µ), donde µ
es fija y conocida. Entonces:
n
n
π(λ|x1 , . . . , xn ) ∝ µe −λµ
λe−λxi = λn e−λ(µ+ i=1 xi )
,
i=1
n
es decir, λ ∼ gama(n + 1, µ + i=1 xi ).
Ejemplo 1.21 Suponga que se examina una máquina que hace partes de automóviles y se
denota a θ como la proporción de marcas defectuosas. Un día se examinan 10 piezas denotadas
por X1 , . . . , X10 , donde Xi = 1 indica que la pieza i es defectuosa y Xi = 0 que no tiene
defecto. Esto puede verse como una muestra aleatoria con distribución Bernoulli de parámetro
θ, cuya función de densidad es fX (x; θ) = θx (1 − θ)1−x I{0,1} (x) para 0 ≤ θ ≤ 1, que indica
que la probabilidad de que una parte sea defectuosa es θ. Así que la densidad conjunta de las
10 observaciones es
10 10 10
xi
fX (x; θ) = θ i=1 (1 − θ)10− i=1 xi
I{0,1} (xi )
i=1
= L (θ | x) .
25
Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez
g(x, θ)
π(θ|x) =
m(x)
6θy+1 (1 − θ)10−y+1
=
6 Γ(y+2)Γ(12−y)
Γ(14)
Γ(14)
= θy+1 (1 − θ)11−y ,
Γ(y + 2)Γ(12 − y)
26
Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez
Muestra y 0 1 2 3 4 5 6 7 8 9 10
θ̂ EMV 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
θ̂ Bayes 0.14 0.21 0.29 0.36 0.43 0.5 0.57 0.64 0.71 0.79 0.86
Cuadro 1.4: Valores de los estimadores máximo verosímil y de Bayes para distintos valores
de la muestra.
Y=0 Y=2
5
5
Prior Prior
Verosimilitud Verosimilitud
Posterior Posterior
4
4
Densidad
Densidad
3
3
2
2
1
1
0
0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
Y=5 Y=10
5
Prior Prior
Verosimilitud Verosimilitud
Posterior Posterior
4
4
Densidad
Densidad
3
3
2
2
1
1
0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
27
Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez
El método consiste en igualar las medianas y resolver para el parámetro desconocido, el cual
está involucrado en la expresión resultante para x0.5 . La extensión de este método para el caso
de dos o más parámetros puede hacerse a través del método de percentiles que se describe a
continuación.
Método de percentiles
Si xp es el valor de x tal que FX (xp ) = p, entonces xp es el p-ésimo(×100) percentil de la
distribución. Para usar este método se calculan los correspondientes percentiles de la muestra
y se igualan con los de la distribución (los cuales se encuentran en términos de los parámetros
desconocidos) y se resuelve para cada parámetro. Observe que si p = 12 , entonces xp es la
mediana, así que el método de las medianas se puede ver como un caso particular.
Ejemplo 1.22 Suponiendo que se tiene una muestra aleatoria de tamaño n de una población
con distribución exponencial, se desea estimar el parámetro θ en f (x; θ) = θ exp (−θx) .
Primero se resuelve FX (x0.5 ) = 12 o
x0.5
1
θe−θx dx = ,
0 2
de donde
1
1 − e−θx0.5 =
2
o
1
e−θx0.5 = ,
2
resultando:
ln 12
x0.5 = − . (1.11)
θ
0.5 , es decir con la mediana muestral, se obtiene que
Igualando (1.11) con x
1
ln
θ = − 2.
0.5
x
28
Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez
Ejemplo 1.23 Usando el método de percentiles, estimar los parámetros en una distribución
Weibull con función de densidad
0.5 = 10000 y x
Dados los percentiles muestrales x 0.9 = 100000, ¿cuál es el estimador para el
parámetro γ?
La función de distribución correspondiente es
x
FX (x) = γλuγ−1 exp {−λuγ } du
0
∞
= 1− γλuγ−1 exp {−λuγ } du
x
y
∞
∞
γ−1 γ −γλuγ−1 −λuγ
γλu exp {−λu } du = e
x −γλuγ−1 x
−λxγ
= e .
Por lo tanto:
FX (x) = 1 − exp {−λxγ } ,
la cual tiene dos parámetros. Si xp es el valor de x tal que FX (xp ) = p, entonces xp es el
100p-ésimo percentil de la distribución, que para este caso daría las ecuaciones:
y
FX (x0.9 ) = 1 − exp {−λxγ0.9 } = 0.90,
de donde:
exp {−λxγ0.5 } = 0.50
y
exp {−λxγ0.9 } = 0.10,
que es equivalente a
λxγ0.5 = − ln (0.50) = 0.69315
y
λxγ0.9 = − ln (0.10) = 2.30259.
Es decir: γ1
0.69315
x0.5 =
λ
29
Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez
y
γ1
2.30259
x0.9 = .
λ
Igualando con los respectivos percentiles muestrales, se obtiene:
γ1
0.69315
= 10000 (1.12)
λ
y
γ1
2.30259
= 100000. (1.13)
λ
Dividiendo (1.13) entre (1.12):
γ1
2.30259
= 10
0.69315
o sea,
2.30259
10γ = = 3.32192.
0.69315
De donde se obtiene que
ln 3.32192
γ= = 0.521.
ln 10
Usando (1.12), se puede obtener el estimador de λ :
0.69315
= (10000)0.521 = 121.34.
λ
Así,
= 0.69315 = 457 .
λ
121.34 80 000
Si los percentiles muestrales no están dados explícitamente, se puede usar el siguiente
método para calcularlos: para una muestra de tamaño n, sean x1 , x2 , ..., xn los valores mues-
trales en orden ascendente. Sea k = (n + 1) p, donde p es el orden del percentil que se busca.
Sea l la parte entera de k (l = 1, 2, ..., n − 1) y sea m la parte fraccional de k, 0 ≤ m < 1. Se
define
p = (1 − m) xl + mxl+1
x (1.14)
como el p-ésimo percentil (×100) de la muestra. Observe que xl y xl+1 representan los ele-
mentos l-ésimo y (l + 1)-ésimo de la muestra, respectivamente.
30
Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez
Ejemplo 1.24 En una muestra de ratas de laboratorio se obtienen los tiempos de muerte
dados a continuación: x = 3, 4, 5,7, 7, 8, 10, 10 y 12, donde el tiempo se mide en días. Usando
el método de percentiles, estimar los parámetros B y c del modelo de supervivencia Gompertz,
cuya función de distribución está dada por:
B x
FX (x) = 1 − exp (1 − c ) ,
ln c
31
Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez
y
ln 1 − ln 0.35 lnBc
= 9.
ln c
Dividiendo la segunda entre la primera, resulta
ln 1 − ln 0.35 lnBc
=2
ln 1 − ln 0.75 lnBc
⇒ 2
ln c ln c
1 − ln 0.35 = 1 − ln 0.75
B B
⇒ 2
ln c ln c
ln 0.35 = 1 − 1 − ln 0.75
B B
⇒
o
0.83z 2 − (0.4744) z = 0,
de donde
0.4744
z= = 5.7163.
0.083
Es decir, lnBc = 5.7163, lo que a su vez implica que ln c = 5.7163B. Sustituyendo este último
valor en (1.17), se tiene:
ln 1 − ln 0.75 5.7163B
B
= 4.5
5.7163B
y despejando B, se llega al resultado B = 0.03780. Finalmente, c = 1.2412.
32
Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez
Definición 1.6 Sea T (X1 , . . . , Xn ) un estimador de τ (θ). Se define el error cuadrático medio
(ECM) de T como
ECMT (θ) = E[(T (X) − τ (θ))2 ].
Es decir, el error cuadrático medio mide el error cometido al estimar τ (θ) con T (X). Esta
medida es un error promedio al considerar los valores que puede tomar la variable aleatoria
T (X) y se calcula como la esperanza de los errores al cuadrado, tomando los errores como la
diferencia entre los valores de la variable aleatoria y el valor del parámetro.
La idea es que si se tienen dos estimadores T1 (X) y T2 (X) para τ (θ) y ECMT1 (θ) <
ECMT2 (θ), entonces se elige a T1 como estimador para τ (θ).
A E(T ) − τ (θ) se le conoce como sesgo de T . Es importante hacer notar que si el sesgo
de T es cero, entonces ECMT (θ) = V ar(T ).
Definición 1.7 Un estimador T (X) de τ (θ) es insesgado si E [T (X)] = τ (θ) (es decir, en
promedio, el estimador es igual al parámetro).
Observaciones 1.1 1. En el caso continuo, el error cuadrático medio E[(T −τ (θ))2 ] puede
calcularse como
... (t(x1 , x2 , . . . , xn ) − τ (θ))2 fX1 (x1 ; θ) . . . fXn (xn ; θ)dx1 . . . dxn .
33
Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez
3. ECMT1 (θ) y ECMT2 (θ) pueden cruzarse, es decir, en general no se cumple que para
todo θ ∈ Θ, ECMT1 (θ) < ECMT2 (θ) (ó ECMT1 (θ) > ECMT2 (θ) ).
T1 (X) = X̄
Note que
E(T1 (X)) = E(X̄) = µ.
Por lo tanto, T1 sí es insesgado.
También note que
E [T2 (X)] = E(S 2 ) = σ 2 .
Por lo tanto, T2 sí es insesgado.
Sin embargo,
n−1 2 n − 1 2 n − 1 2
E(T3 (x)) = E S = E S = σ .
n n n
Por lo tanto, T3 no es insesgado.
34
Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez
Pero
n−1 2 (n − 1)2 2σ 4 2(n − 1) 4
V ar(T3 ) = V ar S = 2
= σ .
n n n−1 n2
Y
2
2 2 2 n−1 2
(sesgo) = (E(T3 ) − σ ) = σ − σ2
n
2
n−1−n σ4
= σ4 = 2 .
n n
Por lo tanto,
2(n − 1) 4 σ 4 2n − 1 4
ECMT3 (µ, σ 2 ) = 2
σ + 2 = σ .
n n n2
Pero note que
2 2 2 1 2 2n − 1 2
< ⇒ − 2
< ⇒ 2
<
n n−1 n n n−1 n n−1
(2n − 1)σ 4 2σ 4
⇒ < ⇒ ECMT3 < ECMT2 .
n2 n−1
Con esto se puede observar que aunque T2 es insesgado, T3 tiene un menor ECM, lo
cuál exhibe que no siempre un estimador insesgado tiene el menor ECM.
35
Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez
T 1 insesgado
1.5
Estimación
0.5
-0.5
-1.5
0 200 400 600 800 1000
Muestras
T 2 insesgado T 3 sesgado
8
8
6
6
Estimación
Estimación
4
4
2
0
0 200 400 600 800 1000 0 200 400 600 800 1000
Muestras Muestras
(x1 , y1 ), . . . , (xn , yn )
36
Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez
n n
∂S(a, b)
= −2 yi + 2 axi + 2nb = 0,
∂b i=1 i=1
y n
n n n n n
1 1
a x2i − xi xi = yi xi − yi xi .
i=1
n i=1 i=1 i=1
n i=1 i=1
A estos estimadores se les conoce como el estimador de mínimos cuadrados para a y b. A
aX + b se le llama el estimador de mínimos cuadrados de Y .
Y =
1.2.2. Consistencia
La consistencia es otra propiedad deseable en un estimador y tiene que ver con tamaños
de muestra grandes, es decir, es una propiedad asintótica. Esencialmente, un estimador es
consistente, si para n (el tamaño de muestra) grande, el error cometido al estimar τ (θ) con
Tn (X) , es pequeño (tiende a cero).
Note que (1.18) es una convergencia en media cuadrática, de la sucesión {Tn } a τ (θ).
37
Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez
2 σ 2 n→∞
E[(X̄n − µ) ] = V ar(X̄n ) = −→ 0.
n
Por lo tanto X̄n es consistente para µ. También note que
2σ 4 n→∞
E[(Sn2 − σ 2 )2 ] = V ar(Sn2 ) = −→ 0.
n−1
Por lo tanto Sn2 es consistente para σ 2 .
Xbar consistente
1.0
0.5
Estimación
0.0
-0.5
Tamaño de muestra
38
Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez
S2 consistente
2.0
1.5
Estimación
1.0
0.5
0 200 400 600 800 1000
Tamaño de muestra
Definición 1.9 Se dice que una sucesión de estimadores {Tn }n∈N es consistente simple si y
sólo si
∀ǫ > 0 lı́m P(|Tn − τ (θ)| < ǫ) = 1. (1.19)
n→∞
La consistencia en ECM implica la consistencia simple. Esto se puede analizar desde dos
perspectivas: la primera, notando que (1.19) es una convergencia en probabilidad y usando
el hecho de que la convergencia en r-ésima media implica la convergencia en probabilidad; la
segunda, utilizando la desigualdad de Chebyshev:
E[(Tn − τ (θ))2 ]
P(|Tn − τ (θ)| ≥ ǫ) = P([Tn − τ (θ)]2 ≥ ǫ2 ) ≤
ǫ2
y la definición de consistencia en ECM.
39
Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez
Observe que:
E[L(θ, a)] = L(θ, a)π(θ|x1 , . . . , xn )dθ = (a − θ)2 π(θ|x1 , . . . , xn )dθ.
Por lo tanto, la pérdida del error cuadrático se minimiza en θ̂, la media o esperanza a
posteriori de θ.
Definición 1.11 A L(θ, a) = |a−θ| se le llama la función de pérdida del error absoluto.
En este caso,
E[L(θ, a)] = L(θ, a)π(θ|x1 , . . . , xn )dθ
a ∞
= (a − θ)π(θ|x1 , . . . , xn )dθ + (θ − a)π(θ|x1 , . . . , xn )dθ.
−∞ a
Diferenciando con respecto a a, se llega a que el mínimo debe cumplir que:
a ∞
π(θ|x1 , . . . , xn )dθ − π(θ|x1 , . . . , xn)dθ = 0
θ=−∞ a
40
Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez
Ejemplo 1.29 Sea X1 , . . . , Xn una muestra aleatoria de una población con distribución
P oisson(λ). Primero note que
41
Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez
(b) Para todo θ ∈ Θ, V ar (T ∗ (X)) ≤ V ar (T (X)) , donde T (X) es cualquier otro esti-
mador en Cτ (θ) .
Definición 1.13 Sea X1 , . . . , Xn una muestra aleatoria de f(x; θ) y sea T(X) un estimador
insesgado de τ (θ). Las siguientes se conocen como condiciones de regularidad:
El soporte de f (x; θ) se define como sop(f ) = {x : f (x) > 0} y este es el mismo para
toda θ.
∂
Para todo x ∈ sop(f ), ∂θ ln f (x; θ) existe.
∂
∂
∂θ
... T (x)f (x; θ)dx1 ...dxn = ... ∂θ
T (x)f (x; θ)dx1 ...dxn .
42
Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez
∂
∂
∂θ
... f (x; θ)dx1 ...dxn = ... ∂θ
f (x; θ)dx1 ...dxn .
2
∂ ln f (x;θ)
0<E ∂θ
< ∞.
Observe que esta definición establece principalmente la condición que debe cumplir una
función para que se puedan intercambiar derivadas e integrales, lo cual no siempre se cumple.
En general, los miembros de la familia exponencial cumplen las condiciones de regularidad,
pero densidades como la uniforme contínua no. Para ver este caso específico de la uniforme
considere su función de densidad
1
f (x; θ) = I(0,θ) (x) .
θ
A continuación se obtiene la derivada con respecto a θ de la integral, de la siguiente manera:
θ θ
∂ ∂ 1
t (x) f (x; θ)dx = t (x) dx.
∂θ 0 ∂θ 0 θ
Utilizando la regla de Leibnitz, la cual es una aplicación del Teorema Fundamental del Cálculo
y de la regla de la cadena, y que establece que si h(x; θ), a (θ) y b (θ) son diferenciables con
respecto a θ, entonces
b(θ)
∂ ∂ ∂
h(x; θ)dx = h (b (θ) , θ) b (θ) − h (a (θ) , θ) a (θ)
∂θ a(θ) ∂θ ∂θ
b(θ)
∂
+ h(x; θ)dx.
a(θ) ∂θ
43
Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez
(a) E(Sc) = 0.
Demostración:
(a)
∂
E [Sc(x; θ)] = ... ln f (x; θ) f(x; θ)dx1 ...dxn
dθ
′
f (x; θ)
= ... f (x; θ)dx1 ...dxn
f (x; θ)
∂
= ... f (x; θ)dx1 ...dxn
∂θ
∂
= ... f (x; θ)dx1 ...dxn
∂θ
∂
= (1) = 0
∂θ
∴ E(Sc) = 0.
(b)
V ar(Sc) = E(Sc2 ) − E2 (Sc) = IX (θ) − 0 = IX (θ).
∴ V ar(Sc) = IX (θ).
44
Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez
! "
∂2
(c) IX (θ) = −nE ∂θ2
ln f (X; θ) .
Demostración:
(a) Como 2
IX (θ) = E(Sc ) y usando (1.20), así como el hecho de que ( ai )2 = a2i +
i =j ai aj ,
2
n
∂
IX (θ) = E ln f(Xi ; θ)
i=1
∂θ
n
2
∂
= E ln f (Xi ; θ)
i=1
∂θ
∂
∂
+ E ln f (Xi ; θ) ln f (Xj ; θ) .
i =j
∂θ ∂θ
45
Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez
también lo son y
∂ ∂
E ln f (Xi ; θ) ln f (Xj ; θ)
∂θ ∂θ
es igual a
∂ ∂
E ln f(Xi ; θ) E ln f (Xj ; θ) ,
∂θ ∂θ
donde, para el caso continuo, y bajo el supuesto de que se cumplen las condiciones de
regularidad:
∞ ∂
∂ ∂θ
f(xi ; θ)
E ln f (Xi ; θ) = f (xi ; θ)dxi
∂θ −∞ f (xi ; θ)
∞
∂
= f (xi ; θ)dx
−∞ ∂θ
∞
∂ ∂
= f(xi ; θ)dx = (1) = 0.
∂θ −∞ ∂θ
Así,
n
2
∂
IX (θ) = E ln f (Xi ; θ)
i=1
∂θ
2
∂
= nE ln f(X; θ) ,
∂θ
∂2 ∂ f ′ (x; θ)
ln f (x; θ) =
∂θ2 ∂θ f (x; θ)
f (x; θ) f ′′ (x; θ) − f ′ (x; θ) f ′ (x; θ)
=
[f (x; θ)]2
′ 2
f ′′ (x; θ) f (x; θ)
= − .
f (x; θ) f (x; θ)
Así,
′ 2
∂2 f ′′ (X; θ) f (X; θ)
−E ln f (X; θ) = −E − ,
∂θ 2 f (X; θ) f (X; θ)
46
Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez
y como
f ′′ (X; θ) f ′′ (x; θ)
E = ··· f (x; θ) dx1 · · · dxn
f (X; θ) f (x; θ)
2
∂
= · · · f (x; θ) dx1 · · · dxn = 0,
∂θ2
2
∂2 f ′ (X; θ)
−E ln f (X; θ) = E
∂θ2 f (X; θ)
2
∂
= E ln f (X; θ)
∂θ
= IX (θ).
Teorema 1.4 (de Cramèr y Rao). Sean X1 , . . . , Xn una muestra aleatoria de f (x; θ) y
T (X) un estimador insesgado de τ (θ). Si se satisfacen las condiciones de regularidad, en-
tonces
(τ ′ (θ))2
V ar(T ) ≥ . (1.21)
IX (θ)
CICR(τ (θ))
n
∂
ln f (xi ; θ) = k(θ; n)[T (x) − τ (θ)],
i=1
∂θ
Demostración:
Este resultado se deduce de la conocida desigualdad de Cauchy-Schwarz, la cual establece
que si X y Y son variables aleatorias, entonces:
47
Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez
Y − E (Y ) = k [X − E (X)] (1.22)
Usando el Lema 1.2, se tiene que V ar(Sc) = IX (θ), por lo que (1.23) se puede escribir como:
{τ ′ (θ)}2
V ar(T ) ≥ .
IX (θ)
48
Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez
Ejemplo 1.30 Sea X1 , . . . , Xn una muestra aleatoria de la distribución N(0, σ 2 ). Para en-
contrar IX (σ 2 ):
1 − 12 x2
ln f (x; θ) = ln √ e 2σ
2πσ 2
1 1 1
= − ln(2π) − ln(σ 2 ) − 2 x2 ,
2 2 2σ
2
∂ 1 x
2
ln f(x; σ 2 ) = − 2 + ,
∂σ 2σ 2(σ 2 )2
∂2 2 1 x2
ln f(x; σ ) = − .
∂(σ 2 )2 2(σ 2 )2 (σ 2 )3
Entonces,
2 ∂2 2 E(X 2 ) 1
IX (σ ) = −nE ln f (X; σ ) = n − 4
∂(σ 2 )2 σ6 2σ
2
σ 1 1 1 n
= n 6 − 4 = n 4 − 4 = 4.
σ 2σ σ 2σ 2σ
2σ4
Entonces, la CICR para estimadores insesgados de σ 2 es n
.
Ejemplo 1.31 Sea X1 , . . . , Xn una muestra aleatoria de la distribución exp(θ). Para encon-
trar IX (θ):
Entonces,
1/θ4 1/θ4 1
CICR(τ 2 (θ)) = = 2 = .
IX (θ) n/θ nθ 2
Observación 1.3 Para responder a la pregunta: ¿existe alguna función de θ, τ (θ) , para la
cual hay un estimador insesgado cuya varianza coincide con la CICR?, se usa la segunda
parte del teorema, es decir, la condición para la alcanzabilidad de la cota.
Ejemplo 1.32 Para la distribución exponencial, ¿existe alguna función de θ, τ (θ) , para la
cual hay un estimador cuya varianza coincide con la CICR?.
Usando la segunda parte del Teorema de Cramèr y Rao, se tiene que
n n n
∂ ∂ −θx ∂
ln f (xi ; θ) = ln θe i
= [ln θ − θxi ]
i=1
∂θ i=1
∂θ i=1
∂θ
n n
1 n
= − xi = − xi
i=1
θ θ i=1
n
i=1 xi 1 1
= −n − = −n x − .
n θ θ
Así, se puede afirmar que τ (θ) = 1θ es una función de θ para la cual existe un estimador
insesgado T (X) = X, cuya varianza coincide con la CICR. En otras palabras, X es el
UMVUE de τ (θ) = 1θ . Aunque en general no es necesario probarlo, es claro que en este caso:
n
∂
ln a(θ)b(x) exp{c(θ)d(xi )}
i=1
∂θ
50
Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez
de 1θ usando la segunda parte del teorema de Cramèr y Rao; sin embargo, si el objetivo
es encontrar el UMVUE de θ, este resultado no da información adicional (salvo la
expresión correspondiente para la CICR que sirve para compararla con la varianza de
algún estimador que se proponga).
4. La teoría desarrollada por Cramèr y Rao sólo es para densidades que satisfacen las
condiciones de regularidad.
5. Cuando la varianza de un estimador alcanza la CICR también se dice que es eficiente
y la eficiencia de un estimador insesgado se mide como VCICRar(T )
, cantidad que es menor
o igual a 1. Por lo que un estimador es eficiente si y sólo si el cociente anterior es 1.
Dadas estas restricciones se analizarán otros resultados que incorporan los conceptos de
suficiencia y completez, lo cual se hará en las secciones 1.3.2 y 1.3.3.
Generalización
Aquí se considerarán brevemente la generalización de la teoría de Cramèr y Rao para
cuando se tienen distribuciones de dos o más parámetros. En el caso de dos parámetros,
la información esperada de Fisher (para una muestra de tamaño n), llamada la matriz de
información de Fisher, se define como:
! 2 " ! 2 "
∂ ∂
E ∂θ ln f (X; θ) E ln f (X; θ)
IX (θ) = − ! 21 " !∂θ1 ∂θ 2
" ,
∂ ∂2
E ∂θ2 ∂θ1 ln f (X; θ) E ∂θ2 ln f(X; θ)
−1
Y la cota inferior de Cramèr y Rao es la inversa de la matriz de información, es decir, IX (θ).
51
Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez
Teorema 1.5 (Rao-Blackwell). Sean T (X) un estimador insesgado para τ (θ) y S una
estadística suficiente. Sea T ∗ (X) := E(T |S). Entonces,
Demostración.
E (T ∗ ) = E (E (T /S)) = E (T ) = τ (θ).
52
Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez
Entonces
n
T ∗ (X) = E(T |S = s) =E X1 | Xi = s
i=1
n
=0 · P X1 = 0| Xi = s
i=1
n
+ 1 · P X1 = 1| Xi = s
i=1
n
=P X1 = 1 | Xi = s
i=1
P (X1 = 1, ni=1 Xi = s)
= .
P ( ni=1 Xi = s)
n
Donde i=1 Xi ∼ Bin(n, θ). Pero
P(X1 = 1; ni=1 Xi = s) P(X1 = 1)P ( ni=2 Xi = s − 1)
= n
s
P( ni=1 Xi = s) s
θ (1 − θ)n−s
n−1
s−1 n−1
(n−1)!
θs−1
θ (1 − θ)n−1−s+1 (s−1)!(n−s)! s
= n
s = s−1
n
= n!
= .
s
θ (1 − θ) n−s
s s!(n−s)!
n
Por lo tanto, n
∗ i=1 Xi
T (X) = = X.
n
El estimador resultante es insesgado, pues E(X̄) = θ y tiene varianza menor que X1 , ya que
θ(1 − θ)
V ar(X̄) = ≤ θ(1 − θ) = V ar(X1 ),
n
las cuales son iguales sólo en el caso n = 1.
53
Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez
Demostración:
Sea T ′ (X) , función de S, tal que E(T ′ ) = τ (θ). Sea g(S) = T ∗ − T ′ . Note que
∴ E[g(S)] = 0
Entonces, por la completez de S se tiene que P[g(S) = 0] = 1, para toda θ ∈ Θ. De esta
manera, P[T ∗ = T ′ ] = 1 para toda θ ∈ Θ y, por lo tanto, T ∗ es único (c.s.). Es decir, T ∗ es
el único estimador insesgado de τ (θ) que es función de S.
Por otro lado, sea T tal que E[T ] = τ (θ). Por el teorema de Rao-Blackwell, E[T |S] es
estimador insesgado de τ (θ) y es función de S, lo que implica que T ∗ = E[T |S]. Así, por el
teorema de Rao-Blackwell, V ar(T ∗ ) ≤ V ar(T ), para toda θ ∈ Θ.
Ejemplo 1.34 Sea X1 , . . . , Xn una muestra aleatoria de la distribución exp(θ), donde θ > 0.
−θx
Como f (x;
nθ) = θe , entonces f (x; θ) es de la familia exponencial con d(x) = x. Entonces,
S(X) = i=1 Xi es suficiente y completa. Para encontrar el UMVUE de θ y de τ (θ) = 1θ , se
obtiene n
1 n
E(S) = E Xi = nE(Xi ) = n =
i=1
θ θ
54
Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez
Por lo que, para que k/Y sea insesgado, k debe ser igual a n − 1. Por lo tanto,
n−1
T ∗ (X) = n
i=1 Xi
es el UMVUE de θ.
55
Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez
Entonces,
(n − 1)θ2 θ2
V ar(T ∗ (X)) = − θ2 =
n−2 n−2
es la varianza del UMVUE de θ.
Note que
θ2 θ2
V ar(T ∗ (X)) = > = CICR(θ).
n−2 n
(f) ¿Existirá una función de θ, para la cual hay un estimador insesgado cuya varianza
coincide con la CICR? Si es así, encontrarlo.
Solución:
(a)
n n n (xi )
e−θ θxi (xi )
n I{0,1,...}
L(θ) = f(xi ; θ) = I{0,1,...} =e −nθ
θ i=1 xi
i=1 i=1
xi ! i=1
xi !
y el logaritmo de la verosimilitud es
n
n (xi )
I{0,1,...}
l(θ) = −nθ + ( xi ) ln θ + ln ,
i=1 i=1
xi !
56
Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez
de donde, n
∂ xi
l(θ) = −n + i=1 .
∂θ θ
∂
Entonces, ∂θ l(θ) = 0 si y sólo si
n n n
i=1 xi i=1 xi xi
−n + =0⇔n= ⇔ θ = i=1 .
θ
θ n
Por lo tanto θ̂M.V. = n1 ni=1 Xi = X̄. Para τ (θ), aplicando la propiedad de invarianza
de los estimadores máximo verosímiles τ (θ̂M.V. ) es estimador máximo versímil de τ (θ).
Por lo tanto e−X̄ es estimador máximo verosímil de τ (θ) = e−θ .
(b) Recuerde que E(X) = θ, entonces el estimador por momentos está dado por
n
1
θ̂ = Xi = X̄.
n i=1
(c) Como
e−θ θx (x)
f (x; θ) = I
x! {0,1,...}
si
1 (x)
a(θ) = e−θ , b(x) = I , c(θ) = ln(θ), d(x) = x.
x! {0,1,...}
Entonces,
f(x; θ) = a(θ)b(x)ec(θ)d(x) .
Por lo tanto pertenece a la familia exponencial.
n n
(d) Como f(x; θ) pertenece a la familia exponencial entonces T (x) = i=1 d(Xi ) = i=1 Xi
es una estadística suficiente minimal y completa.
57
Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez
Por lo tanto, para θ hay un estimador insesgado, T ∗ (X) = X̄, cuya varianza coincide
con la Cota de Cramèr-Rao, es decir, X̄ es el UMVUE de θ.
58
Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez
(g) Considere T (X) = I{0} (X1 ). Note que E(T (X)) = E(I{0} (X1 )) = P(X1 =
0) = e−θ . Por
n
tanto T (X) es un estimador insesgado de τ (θ) y ya se vió que S(X) = i=1 Xi es una
estadística suficiente minimal y completa. Entonces,
(h) X̄ es el UMVUE de θ, lo cual se justifica utilizando el inciso (f) o bien, notando que
X̄ es insesgado para θ y función de la estadística suficiente y completa, ni=1 Xi , por
lo queusando el Teorema de Lehmann-Scheffé se llega a la misma conclusión. Además,
n−1
ni=1 Xi
n
es el UMVUE de τ (θ) por el inciso (g) y el Teorema de Lehmann-Scheffé.
59
Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez
Bajo las condiciones de regularidad (Definición 1.13), se puede demostrar que los esti-
madores máximo verosímiles cumplen las propiedades de consistencia y eficiencia. Es decir,
si la muestra aleatoria proviene de una población con función de densidad que satisface las
condiciones de regularidad, entonces el estimador máximo verosímil del parámetro θ (o de
una función τ (θ)) tiene estas propiedades asintóticas.
Para el caso de la consistencia simple, puede consultarse Stuart, Ord y Arnold (1999). En
cuanto a la eficiencia, se utilizará el siguiente resultado conocido como el método delta:
√
Lema 1.7 si {Xn } es una sucesión de variables aleatorias que satisfacen que n (Xn − θ) →
N (0, σ 2 ) en distribución, entonces para una función τ y un valor específico de θ, se tiene que
√
en distribución.
Demostración.
El resultado es consecuencia del Teorema de Slutsky, el cual establece que para dos suce-
siones de variables aleatorias {Xn }n≥1 y {Yn }n≥1 , tales que Xn → X en distribución y Yn → c
en probabilidad , donde X es una variable aleatoria y c es una constante, se tiene que:
(i) Xn + Yn → X + c, en distribución,
(iii) Si c = 0 entonces,
Xn X
→ ,
Yn c
en distribución.
60
Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez
Teorema 1.8 Sea X1 , X2 , .., Xn una muestra aleatoria de una población con función de den-
sidad f (x; θ), sea
θ el estimador máximo verosímil de θ, y sea τ (θ) una función continua y
diferenciable de θ. Bajo las condiciones de regularidad sobre f (x; θ) y, por lo tanto de la
función de verosimilitud L(θ), se tiene que
√
n[τ (
θ) − τ (θ)] −→ N [0, CICR(τ (θ))],
donde CICR(τ (θ)) es la cota inferior de Cramér-Rao para estimadores insesgados de τ (θ).
Esto es, el estimador máximo verosímil de τ (θ) , τ (
θ), es un estimador eficiente de τ (θ).
Demostración.
Se demostrará el caso τ (θ) = θ, es decir, que
θ es asintóticamente eficiente. Para ello, recuerde
que
n
l(θ) = ln f (xi ; θ)
i=1
l′ (
θ) = l′ (θ0 ) + (
θ − θ0 )l′′ (θ 0 ) + ...,
l′ (θ0 ) + (
θ − θ 0 )l′′ (θ0 ) + ... = 0.
√
Así que reacomodando los términos y multiplicando por n, se obtiene que:
√ √ −l′ (θ 0 )
n(
θ − θ0 ) = n ′′
l (θ0 )
1
− √n l′ (θ0 )
= 1 ′′ .
n
l (θ0 )
61
Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez
Como n
∂
′
l (θ) = ln f (xi ; θ),
i=1
∂θ
por (1.20)
) * 1
IX (θ0 ) = E [l′ (θ0 )]2 =
CICR(θ)
denota la información esperada de Fisher.
Ahora observe que
1 ′ √ 1 ∂θ ∂
f (xi ; θ)
√ l (θ0 ) = n ,
n n i f (xi ; θ)
′
donde Sc(x; θ) = ff (x;θ)
(x;θ)
es tal que E [Sc(X; θ)] = 0 y V ar [Sc(X; θ)] = IX (θ), lo cual se probó
en el Lema 1.2. Así, por el Teorema de Límite Central,
1
√ l′ (θ 0 ) −→ N[0, I(θ0 )]
n
en distribución y
1
− √ l′ (θ0 ) −→ N[0, I(θ 0 )]
n
en distribución. Por otro lado,
2 2
1 ′′ 1 ∂
∂θ
f (xi ; θ) 1 ∂θ
∂
2 f (xi ; θ)
l (θ0 ) = − .
n n i f (xi ; θ) n i f(xi ; θ)
Note que la esperanza del primer sumando es IX (θ0 ), mientras que la del segundo es cero
(ver la demostración del Lema 1.3). Entonces por la Ley Débil de los Grandes Números:
1 ′′
l (θ 0 ) −→ I(θ0 ),
n
en probabilidad.
En consecuencia, si W es una variable aleatoria tal que W ∼ N[0, I(θ0 )], entonces
√ − √1n l′ (θ0 )
n(
θ − θ0 ) = 1 ′′
n
l (θ 0 )
converge en distribución a W/I(θ0 ) ∼ N [0, 1/IX (θ 0 )], es decir, a una variable aleatoria normal
con media cero y varianza igual a la Cota Inferior de Cramèr y Rao, lo que demuestra el
resultado.
62
Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez
El caso general es consecuencia del método delta. Una forma alternativa para calcular la
varianza del estimador máximo verosímil de τ (θ) es considerando que, debido a la propiedad
de invarianza que tiene el método de máxima verosimilitud,
τ (θ) = τ θ .
Si se aproxima τ θ mediante una expansión en series de Taylor alrededor de θ, considerando
solamente la primera derivada, se obtiene:
τ θ ≈ τ (θ) + θ − θ τ ′ (θ) .
Tomando la varianza de ambos lados, se llega a
!
"
V ar τ θ ≈ (τ (θ)) V ar
′ 2
θ ,
debido a que θ es una constante. Como ya se había visto, V ar −1
θ está dada por IX (θ), asi
que
!
" (τ ′ (θ))2
V ar τ θ ≈ ,
IX (θ)
expresión que corresponde a la Cota Inferior de Cramèr-Rao para estimadores insesgados de
τ (θ) , con lo que puede observarse que la varianza del estimador máximo verosímil alcanza
dicha cota (al igual que en el caso τ (θ) = θ).
En conclusión: √
n[τ (
θ) − τ (θ)] −→ N [0, CICR(τ (θ))].
63
Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez
1.5. Ejercicios
1. Sea X una variable aleatoria con distribución Gamma(α + 1, β), cuya función de den-
sidad es
β α+1
f (x; α, β) = xα e−βx ,
Γ(α + 1)
64
Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez
con x > 0, α > −1 y β > 0. Obtenga los estimadores de los parámetros α y β por el
método de momentos, para una muestra aleatoria de tamaño n.
2. Una urna contiene bolas negras y blancas. Se toma una muestra aleatoria de tamaño
n con reemplazo. ¿Cuál es el estimador máximo verosímil de la razón, R, de blancas a
negras en la urna? Para esto suponga que la bola se obtiene una por una con reemplazo
hasta que la bola negra aparezca. Sea X el número de bolas requeridas no contando
la última obtenida; este procedimiento se repite n veces para una muestra aleatoria
X1 , . . . , Xn .
3. Se toma una observación de una variable aleatoria discreta X con función de densidad
f (x; θ) dada en la siguiente tabla, donde θ ∈ {1, 2, 3}.
x f (x; 1) f (x; 2) f(x; 3)
0 1/3 1/4 0
1 1/3 1/4 0
2 0 1/4 1/4
3 1/6 1/4 1/2
4 1/6 0 1/4
Encuentre el estimador máximo verosímil de θ.
4. Sea X una variable aleatoria discreta con función de densidad f (x; θ) dada en la siguien-
te tabla, donde θ ∈ {1, 2, 3} y X ∈ {0, 1, 2, 3, 4}. Se toma una muestra aleatoria de
tamaño dos, (X1 , X2 ). Determine el estimador máximo verosímil de θ.
x f (x; 1) f (x; 2) f(x; 3)
0 1/3 1/4 0
1 1/3 1/4 0
2 0 1/4 1/4
3 1/6 1/4 1/2
4 1/6 0 1/4
5. Sea X1 , . . . , Xn una muestra aleatoria de una población con función de densidad
6. Sea X1 , X2 , X3 una muestra aleatoria de la población con distribución U (θ, 2θ), con
θ > 0.
65
Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez
(a) Demuestre que el estimador máximo verosímil de µ esX(1) (la mínima estadística
de orden) y el estimador máximo verosímil de σ es n ni=1 (Xi − X(1) ).
1
θ2
f (x; θ) = (x + 1)e−θx I(0,∞) (x), θ > 0.
θ+1
(a) Demuestre que la densidad de X pertenece a la familia exponencial.
(b) Encuentre una estadística suficiente minimal y completa.
(c) Encuentre el estimador por momentos.
(d) Encuentre el estimador máximo verosímil.
66
Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez
11. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución P oisson(λ), con
función de densidad f (x|λ). Considere que la función de distribución a priori de λ es
una distribución Gamma(α, β), con función de densidad π(λ).
14. Suponga que ciertas pérdidas siguen una distribución W eibull con parámetros θ y τ .
Se tiene la siguiente muestra de 16 pérdidas: 54, 70, 75, 81, 84, 88, 97, 105, 109, 114,
122, 125, 128, 139, 146, 153. Estime los parámetros utilizando el método de percentiles,
usando los percentiles 20th y 70th .
15. Se practican n mediciones del radio de un círculo. Si las mediciones son independientes
entre sí y los errores se distribuyen N(0, σ 2 ) con σ 2 desconocida, proponer un estimador
insesgado para el perímetro del círculo y otro para el área.
16. Sea X1 , X2 , X3 , X4 una muestra aleatoria de tamaño cuatro de una población con
distribución N (0, σ 2 ), donde σ es desconocida. Considere
4 los siguientes
4 estimadores2
2 1 2 2 2 1 2 1
T1 = X1 − X2 + X4 , T2 = 3 (X1 + X2 + X4 ), T3 = 4 i=1 Xi , T4 = 3 i=1 (Xi − X̄)
y T5 = 12 |X1 − X2 |.
67
Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez
17. Sea X1 , . . . , Xn una muestra aleatoria de una población con función de densidad con
media µ y varianza σ 2 .
(a) Pruebe que ni=1 ai Xi es un estimador insesgado para µ para cualquier valor de
las constantes a1 , a2 , . . . , an que satisfagan que ni=1 ai = 1.
(b) Si ni=1 ai = 1, prueba que V ar [ ni=1 ai Xi ] se minimiza cuando ai = 1/n, para
i = 1, . . . , n.
19. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución W eibull(α, β),
cuya función de densidad es
β
1 β−1 −x
fX (x; α) = βx exp I(0,∞) (x),
α α
68
Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez
20. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución tal que
E (Xi ) = θ + b, V ar (Xi ) = σ 2 ,
21. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución P areto(α, θ),
cuya función de densidad es
αθα
f (x; θ) = , x > θ, θ > 0,
xα+1
con α conocida.
(a) Encuentre el estimador máximo verosímil para θ. ¿Es este un estimador insesgado
para θ?. Si la respuesta es negativa, encontrar el estimador insesgado.
(b) Encuentre el estimador por el método de momentos para θ. Nuevamente verifique
si el estimador es insesgado; en caso contrario, obtenga el estimador insesgado.
(c) ¿Son consistentes los estimadores obtenidos en los incisos anterio-
res?.
(a) Encuentre el estimador de θ por medio del método de momentos. Calcule su media
y su ECM.
(b) Encuentre el estimador máximo verosímil de θ. Calcule su media y su ECM.
(c) ¿Los estimadores son consistentes en ECM?.
(d) ¿Qué estimador es más eficiente en ECM?.
69
Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez
log(θ)
f2 (x; θ) = θx I(0,1) (x) donde θ > 1.
θ−1
En cada caso, para una muestra aleatoria de tamaño n, ¿existirán estadísticas T1 (X) y
T2 (X) para ciertas funciones τ 1 (p) y τ 2 (θ), para las cuales la varianza de Ti (X), i = 1, 2,
coincidan con la CICR?.
25. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución N(θ, 1).
26. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución Beta(θ, 1), donde
θ > 0, es decir, con función de densidad
70
Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez
29. Sea X1 , . . . , Xn una muestra aleatoria de una población con función de densidad
1
f (x; θ) = I(−θ,θ) (x), θ > 0.
2θ
Encuentre, si existe, el UMVUE para θ.
30. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución U(0, θ). Sean Y1
y Yn la mínima y máxima estadísticas de orden, respectivamente.
(a) Encuentre el estimador por momentos para θ. Llame T1 a dicho estimador y en-
cuentre su media y error cuadrático medio.
(b) Encuentre el estimador máximo verosímil de θ. Llame T2 a dicho estimador y
encuentre su media y error cuadrático medio.
(c) De entre todos los estimadores de la forma aYn , donde a es una constante que
podría depender de n. Encuentre un estimador para θ que tenga el error cuadrático
medio uniformente más pequeño. Llame T3 a dicho estimador y encuentre su media
y error cuadrático medio.
71
Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez
(a) Demuestre que T (X) = X(1) = mı́n {X1 , . . . , Xn } es una estadística suficiente y
completa.
(b) Encuentre la única función de X(1) que sea el UMVUE de µ.
es el UMVUE de λ.
34. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución P oisson(λ). Sea
τ (λ) = (1 + λ)e−λ .
72
Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez
73
Bibliografía
[1] Casella, G. y Berger, R. L. (2002). Statistical Inference. Duxbury Advanced Series. 2nd.
ed.
[2] Gómez V., M.A. (2009). “Karl Pearson, el Creador de la Estadística Matemática”. His-
toria de la Probabilidad y la Estadística IV, J. Basulto y J.J. García (eds.). Congreso
Internacional de Historia de la Estadística y la Probabilidad, 351-356.
[4] Kapadia, A.S., Chan, W. y Moyé, L. (2005). Mathematical Statistics with Applications.
Chapman & Hall, Inc./CRC Press.
[5] Kellison, S.G. y London, R.L. (2011). Risk Models and Their Estimation. Actex Publi-
cations, Inc.
[6] Lindgren, B.W. (1993). Statistical Theory. Chapman & Hall, Inc. 4th ed.
[7] Mood, A. M., Graybill, F. A. y Boes, D. C. (1974). Introduction to the theory of stastis-
tics. Mc Graw-Hill, Inc. 3rd. ed.
[8] Pearson, E. S. (1974). “Memories on the impact of Fisher’s work in the 1920’s”. Int.
Stat. Rev. 42 (1).
74
Estimación Puntual Vázquez-Naranjo-Fuentes-Chávez
[9] Stuart, A., Ord, J. K. y Arnold, S. (1999). Advanced Theory of Statistics, 2A: Clasical
Inference and the Linear Model. London: Oxford University Press, 6th ed.
[10] Zehna, P.W. (1966). Invariance of Maximum Likelihood Estimators. Annals of Mathe-
matical Statistics 37 744.
[11] http://www.dm.uba.ar/materias/estadistica_M/
[12] http://www.statslab.cam.ac.uk/~rrw1/
75