Muestreo Estadistico
Muestreo Estadistico
Muestreo Estadistico
org
www.FreeLibros.org
www.FreeLibros.org
www.FreeLibros.org
www.FreeLibros.org
IMPRESO EN MÉXICO - PRINTED IN MEXICO
www.FreeLibros.org
A mis niñas
www.FreeLibros.org
www.FreeLibros.org
CONTENIDO
INTRODUCCIÓN ............................................................................................................................. xi
www.FreeLibros.org
Estimadores, varianzas y estimación de varianzas................................................. 112
Tamaño de la muestra ............................................................................................ 114
viii Muestreo estadístico. Conceptos y problemas resueltos
www.FreeLibros.org
Contenido ix
www.FreeLibros.org
x Muestreo estadístico. Conceptos y problemas resueltos
www.FreeLibros.org
INTRODUCCIÓN
Los más de 150 problemas que contiene el texto, así como los conceptos teóricos, se
dirigen tanto a docentes como a estudiantes universitarios de todos los niveles que imparten o
cursan la materia de muestreo estadístico. El libro es también de utilidad para los profesionales de
la economía, biología, botánica, zoología, marketing, auditoría, agronomía, comercio, transporte,
medicina, control de calidad, etc. En general puede utilizarse en todos los sectores en los que se
aplican las técnicas de muestreo.
www.FreeLibros.org
www.FreeLibros.org
CAPÍTULO
OBJETIVOS
1. Presentar el concepto de muestreo estadístico en poblaciones finitas.
2. Distinguir claramente los conceptos de población, marco y muestra.
3. Introducir el concepto de estimador y su distribución en el muestreo.
4. Analizar las propiedades de los estimadores.
5. Estudiar la precisión de los estimadores.
6. Comparar estimadores.
7. Cuantificar la precisión de los estimadores.
8. Comprender el concepto de estimación mediante intervalos de confianza.
9. Analizar la influencia del sesgo en la estimación por intervalos de
confianza.
10. Analizar la influencia de la normalidad en la estimación por intervalos de
confianza.
11. Realizar la estimación mediante intervalos de confianza.
www.FreeLibros.org
2 Muestreo estadístico. Conceptos y problemas resueltos
ÍNDICE
1. Conceptos iniciales en la teoría del muestreo.
2. Muestreo y estimadores. Distribuciones en el muestreo.
3. Propiedades y precisión de los estimadores. Comparación de estimadores.
4. Estimación por intervalos de confianza.
5. Problemas resueltos.
6. Ejercicios propuestos.
www.FreeLibros.org
Muestreo estadístico: conceptos, estimadores y su distribución 3
Al hablar de métodos de muestreo nos referimos al conjunto de técnicas estadísticas que estudian
la forma de seleccionar una muestra lo suficientemente representativa de una población cuya
información permita inferir las propiedades o características de toda la población cometiendo un
error medible y acotable. A partir de la muestra, seleccionada mediante un determinado método
de muestreo, se estiman las características poblacionales (media, total, proporción, etc.) con un
error cuantificable y controlable. Las estimaciones se realizan a través de funciones matemáticas
de la muestra denominadas estimadores, que se convierten en variables aleatorias al considerar la
variabilidad de las muestras. Los errores se cuantifican mediante varianzas, desviaciones típicas o
errores cuadráticos medios de los estimadores, que miden la precisión de éstos. La metodología
que permite inferir resultados, predicciones y generalizaciones sobre la población estadística,
basándose en la información contenida en las muestras representativas previamente elegidas por
métodos de muestreo formales, se denomina inferencia estadística.
Es muy importante tener en cuenta que para medir el grado de representatividad de la
muestra es necesario utilizar muestreo probabilístico. Diremos que el muestreo es probabilístico
cuando pueda establecerse la probabilidad de obtener cada una de las muestras que sea posible
seleccionar, esto es, cuando la selección de muestras constituya un fenómeno aleatorio
probabilizable. Dicha selección se verificará en condiciones de azar, siendo susceptible de
medida la incertidumbre derivada de la misma. Esto permitirá medir los errores cometidos en el
proceso de muestreo (a través de varianza u otras medidas estadísticas).
Existen varios tipos de muestreo, dependiendo de que la población estadística sea
finita o infinita, materia sobre la que existe amplia literatura estadística, pero nosotros
consideraremos solamente el muestreo en poblaciones finitas. La población finita inicial que
se desea investigar se denomina población objetivo, pero el muestreo de toda la población objetivo
no siempre es posible debido a diferentes problemas que no permiten obtener información de
algunos de sus elementos (inaccesibilidad de algunos de sus elementos, negativas a colaborar,
ausencias, etc.), con lo que la población que realmente es objeto de estudio o población investigada
no coincide con la población objetivo.
Por otro lado, para seleccionar la muestra, necesitaremos un listado de unidades de muestreo
denominado marco que teóricamente debiera coincidir con la población objetivo. Un marco será
más adecuado cuanto mejor cubra la población objetivo, es decir, cuanto menor sea el error de
cobertura. Pero en los marcos son inevitables las desactualizaciones, las omisiones de algunas
unidades, las duplicaciones de otras y la presencia de unidades extrañas y otras impurezas que
obligan a su depuración (depuración de marcos imperfectos). Idealmente podría conseguirse la
población objetivo eliminando del marco las unidades erróneamente incluidas en él (unidades
extrañas, duplicaciones, etc.) y añadiendo las omisiones. Asimismo, también sería una meta que al
eliminar del marco las unidades de las que no se puede obtener información (inaccesibles, ausentes,
no colaboradoras, etc.) se obtuviera la población investigada. El marco puede estar constituido por
unidades elementales de muestreo o por unidades compuestas. Una unidad elemental (o simple) es la
unidad de muestreo más sencilla posible y una unidad compuesta (o primaria) está formada por
varias unidades elementales. Como en la práctica no es fácil disponer de marcos de unidades
elementales, se intenta conseguir marcos de unidades compuestas que son más accesibles. Por
ejemplo, para estudiar habitantes de una región es más fácil disponer de un listado de hogares que de
un listado de individuos. Se selecciona la muestra de un marco de hogares (unidades compuestas de
varios individuos) y después se estudian las propiedades de los individuos con técnicas adecuadas.
www.FreeLibros.org
4 Muestreo estadístico. Conceptos y problemas resueltos
Consideramos los sucesos elementales asociados a un fenómeno o experimento aleatorio dado S1,
S2, ..., Sm, entendiendo por sucesos elementales los más simples posibles, es decir, aquellos que no
pueden ser descompuestos en otros sucesos. El conjunto {S1, S2, ..., Sm} se denomina espacio
muestral asociado al fenómeno o experimento. Si consideramos como fenómeno o experimento
la extracción aleatoria de muestras dentro de una población por un procedimiento o método
de muestreo dado, podemos considerar como sucesos elementales las muestras obtenidas,
constituyendo el conjunto de las mismas el espacio muestral.
Habitualmente en los métodos de muestreo comunes se consideren iguales muestras con
los mismos elementos, aunque estén colocados en orden diferente (el orden de colocación no
interviene). Una muestra de tamaño n extraída de una población U = {U1, U2, ..., UN} de tamaño
N mediante un método de muestreo dado, suele denotarse como s = {u1, u2, ..., un}. De esta forma,
El conjunto de las Nn muestras posibles de tamaño n que se pueden formar con los N
elementos de la población U es el espacio muestral S.
Evidentemente, para establecer la probabilidad de todas las muestras posibles
derivadas de un procedimiento de muestreo dado, será necesario conocer ese conjunto de
muestras; es decir, será necesario delimitar tanto el método de muestreo como el espacio
muestral derivado del mismo. Un procedimiento, o método, de muestreo es sencillamente un
proceso o mecanismo mediante el que se seleccionan las muestras de modo que cada una tenga
una determinada probabilidad de ser elegida. Por tanto, el método aleatorio empleado para
seleccionar la muestra define en el espacio muestral S una función de probabilidad P tal que:
• P(Si) 0 i
• ∑ P(S ) = 1
S
i
www.FreeLibros.org
Muestreo estadístico: conceptos, estimadores y su distribución 5
Dada la muestra s = {u1, u2, ..., un}, es habitual especificar el conjunto de valores Xi
i = 1, 2, ..., n que toma la característica X sobre las unidades de la muestra s mediante
s(X)={X1, X2, ..., Xn}. Al considerar todas las muestras s del espacio muestral S asociado al
procedimiento de muestreo, y los valores que toma la característica X sobre dichas muestras,
se obtiene el conjunto S(X) = {s(X) / sS}. Por tanto, podemos formalizar el concepto de
estimador $ para el parámetro poblacional definiéndolo mediante la aplicación medible:
ˆ : S ( X ) R n R
( X 1 L X n ) ˆ( X 1 L X n ) = t
Ya tenemos definido el estimador como un estadístico función de los valores que
toma la característica X sobre los elementos del espacio muestral (muestras). Como ejemplos
más sencillos de estimadores de los parámetros poblaciones total poblacional y media
poblacional, tenemos los estimadores total muestral X$ y media muestral X$ , definidos como
se indica a continuación:
ˆ1 : S ( X ) R n R ˆ2 : S ( X ) R n R
X1 + L + X n ˆ
( X 1 L X n ) ˆ1 ( X 1 L X n ) = X 1 + L + X n = Xˆ ( X 1 L X n ) ˆ2 ( X 1 L X n ) = =X
n
En cuanto a la construcción del estimador, ha de ser tal que la función $ que asocia a cada
muestra s el valor numérico $ (s(X)) = $ (X1, ..., Xn) sea calculable y esté definida para todas las
muestras s del espacio muestral S generado por el procedimiento de muestreo considerado. La
formación de estimadores no es una operación independiente del procedimiento de muestreo que se
adopte. Generalmente, para construir estimadores se utiliza el principio de analogía; es decir, se
estima un parámetro poblacional a partir del estimador muestral análogo. Por ejemplo, para estimar
la media poblacional, la razón poblacional, etc., se utilizan como estimadores sus análogos
muestrales, es decir, la media muestral, la razón muestral, etc. No siempre estos estimadores por
analogía tienen las propiedades más deseables, pero suelen ser siempre consistentes, y a veces
puede corregirse su sesgo multiplicándolos por una constante convenientemente elegida.
www.FreeLibros.org
6 Muestreo estadístico. Conceptos y problemas resueltos
Al par {T, PT}, formado por el conjunto de todos los posibles valores del estimador y
por las probabilidades de que el estimador tome esos valores, se lo denomina distribución del
estimador en el muestreo. A partir de la introducción del concepto de muestreo probabilístico
y del conocimiento de la distribución de los estimadores en el muestreo, tanto la teoría de la
probabilidad como la inferencia estadística están disponibles para ser aplicadas al muestreo.
En todo el desarrollo de este libro se supone la existencia de muestreo probabilístico.
De esta forma los conceptos de acuracidad y error del estimador son similares para
estimadores insesgados. Por tanto, para comparar varios estimadores insesgados $i del
parámetro poblacional en cuanto a precisión bastará considerar sus errores de muestreo
(ˆi ) = + V (ˆi ) , siendo más preciso el estimador que menor error de muestreo presente.
www.FreeLibros.org
Muestreo estadístico: conceptos, estimadores y su distribución 7
() ()
CV ˆ =
ˆ ˆ
E (ˆ)
=
()
y al ser una constante el error relativo está en función sólo del error de muestreo.
Para estimadores $ sesgados del parámetro poblacional , la magnitud general para analizar su
precisión es su error cuadrático medio. Por tanto, para comparar varios estimadores sesgados del
parámetro poblacional en cuanto a precisión se utilizará el error cuadrático medio y el
estimador más preciso será el que menor error cuadrático medio presente.
Pero en la práctica el cálculo del error cuadrático medio puede ser problemático.
Por esta razón, cuando se intentan comparar varios estimadores $i del parámetro
poblacional todos sesgados, se calcula para cada uno de ellos la cantidad:
( )
B ˆi
( )
ˆi
siendo más preciso aquel estimador que presenta una relación del sesgo al error de muestreo
en valor absoluto más pequeña. También puede utilizarse el coeficiente de variación
()
CV ˆi = (ˆi ) / E (ˆi ) , siendo más preciso el estimador con menor coeficiente de variación
(error relativo). Se observa que el denominador del coeficiente de variación es el valor
esperado del estimador, con lo que el coeficiente de variación recoge el efecto de un posible
sesgo en el estimador.
Para comparar en cuanto a precisión varios estimadores $i unos sesgados y otros
insesgados del parámetro poblacional , se utilizará el error cuadrático medio, y el
estimador más preciso será el que menor error cuadrático medio presente. A veces, ante las
dificultades de cálculo del error cuadrático medio se utiliza el coeficiente de variación
()
CV ˆi = (ˆi ) / E (ˆi ) (que contempla el posible efecto del sesgo en su denominador), siendo
más preciso el estimador con menor coeficiente de variación (error relativo).
www.FreeLibros.org
8 Muestreo estadístico. Conceptos y problemas resueltos
Si los estimadores sesgados tienen todos sesgo despreciable, B(ˆi ) / (ˆi ) < 1 / 10 , se
haría la comparación global como insesgados de acuerdo con los valores de (ˆi ) .
Para medir la precisión de los estimadores suele utilizarse el error cuadrático medio,
el error relativo (coeficiente de variación) o el error de muestreo (desviación típica). En cada
caso, la ganancia en precisión estará dada por las respectivas tasas de variación:
[ˆ
(ˆ),ˆ + (ˆ)] con
⎛ ⎞
= FN
1(0,1) ⎜1
⎟
⎝ 2⎠
www.FreeLibros.org
Muestreo estadístico: conceptos, estimadores y su distribución 9
[ˆ
t ˆ (ˆ),ˆ + t ˆ (ˆ)] con
⎛ ⎞
t = Ftn
11 ⎜1
⎟
⎝ 2⎠
()
ˆ ˆ ˆ ⎤
, + ⎥
()
⎣⎢ ⎥⎦
Este intervalo suele ser más ancho que el obtenido cuando la distribución de $ es
normal. A medida que $ se aleja más de la normalidad, la anchura de este intervalo es
mucho mayor respecto del obtenido para normalidad. Ya sabemos que una estimación por
intervalos es tanto mejor cuanto más reducido sea el intervalo de confianza correspondiente;
de ahí que la propiedad de normalidad sea muy deseable, pues en este caso los intervalos
obtenidos son muy estrechos, lo que implica una buena estimación por intervalos.
[ˆ
(ˆ)
| B(ˆ) |,ˆ + (ˆ)
| B(ˆ) |]
[ˆ
(ˆ)
| B(ˆ) |,ˆ + (ˆ)+ | B(ˆ) |]
www.FreeLibros.org
10 Muestreo estadístico. Conceptos y problemas resueltos
PROBLEMAS RESUELTOS
1.1. Sobre las regiones que componen un determinado país se mide la variable X=Número de
personas activas, obteniendo como resultados 6 millones, 4 millones, 3 millones y 8 millones
con probabilidades iniciales de selección 1/6, 1/3, 1/3 y 1/6, respectivamente, para cada
región. Se trata de estimar en millones de personas la cifra media de actividad, extrayendo
muestras de la variable X con tamaño 2 sin reposición y sin tener en cuenta el orden de
colocación de sus elementos. Para ello se consideran los estimadores alternativos
MEDIANA y MEDIA ARMÓNICA. Se pide lo siguiente:
ˆ
S ( X ) P( X ) Mˆ XH
(6 4) 3 / 20 5 24 / 5
(6 3) 3 / 20 9/2 4
(6 8) 1 / 15 7 48 / 7
(4 3) 1 / 3 7/2 24 / 7
(4 8) 3 / 20 6 16 / 3
(3 8) 3 / 20 11 / 2 48 / 11
1 2 2 1 3
P (6,4) = P{6,4} + P{4,6} = P (6) P (4 / 6) + P (4) P (6 / 4) =
+
=
6 5 6 4 20
1 2 2 1 3
P (6,3) = P{6,3} + P{3,6} = P (6) P (3 / 6) + P (3) P (6 / 3) =
+
=
6 5 6 4 20
1 1 1 1 1
P (6,8) = P{6,8} + P{8,6} = P (6) P (8 / 6) + P (8) P (6 / 8) =
+
=
6 5 6 5 15
www.FreeLibros.org
Muestreo estadístico: conceptos, estimadores y su distribución 11
2 2 2 2 1
P(4,3) = P{4,3} + P{3,4} = P (4) P (3 / 4) + P (3) P (4 / 3) =
+
=
6 4 6 4 3
2 1 1 2 3
P (4,8) = P{4,8} + P{8,4} = P (4) P (8 / 4) + P (8) P (4 / 8) =
+
=
6 4 6 5 20
2 1 1 2 3
P (3,8) = P{3,8} + P{8,3} = P (3) P (8 / 3) + P (8) P (3 / 8) =
+
=
6 4 6 5 20
Las probabilidades anteriores también pueden calcularse mediante la expresión
P(ui,uj) = P(ui)P(uj/ui) + P(uj)P(ui/uj)=P(ui)P(uj)/(1-P(ui))+P(uj)P(ui)/(1-P(uj)) = PiPj/(1-Pi) + PiPj(1-Pj).
⎧ T ˆ 3 ⎧ T ˆ 24 3
⎪P (M = 5) = P (6,4) =
20 ⎪P ( X H =
5
) = P (6,4) =
20
⎪ ⎪
⎪ P T ( Mˆ 9 3 ⎪ P T ( Xˆ 3
= ) = P (6,3) = = 4) = P (6,3) =
⎪ 2 20 ⎪ H
20
⎪ ⎪
⎪ P T ( Mˆ 1 ⎪ P T ( Xˆ 48 1
= 7) = P (6,8) = H = ) = P (6,8) =
⎪ 15 ˆ ⎪ 7 15
Mˆ ⎨ XH ⎨
⎪ P T ( Mˆ 7 1 ⎪ P T ( Xˆ 24 1
= ) = P (4,3) = H = ) = P (4,3) =
⎪ 2 3 ⎪ 7 3
⎪ 3 ⎪ 16 3
⎪ P T ( Mˆ = 6) = P (4,8) = ⎪ P T ( Xˆ H = ) = P (4,8) =
⎪ 20 ⎪ 3 20
⎪ T 11 3 ⎪ T ˆ 48 3
⎪ P ( Mˆ = ) = P (3,8) = ⎪P ( X H = ) = P (3,8) =
⎩ 2 20 ⎩ 11 20
ˆ 24 3 3 48 1 24 1 16 3 48 3
E( X H ) =
+ 4
+
+
+
+
= 4,37 X H = 4,57
5 20 20 7 15 7 3 3 20 11 20
Vemos que los dos estimadores son sesgados y los valores de sus sesgos son:
ˆ ˆ ˆ
B(Mˆ ) = E( X )
X = 4,78
5 =
0,22 B( X H ) = E( X H )
X H = 4,37
4,57 =
0,2
www.FreeLibros.org
12 Muestreo estadístico. Conceptos y problemas resueltos
ˆ ˆ 24 3 3 48 1
V ( X H ) = E ( X H
4,37) 2 = (
4,37) 2
+ (4
4,37) 2
+ (
4,37) 2
5 20 20 7 15
24 1 16 3 48 3
+ (
4,37) 2
+ (
4,37) 2
+
(
4,37) 2 = 0,89
7 3 3 20 11 20
Ya que los dos estimadores son sesgados se pueden hacer las comparaciones a través
B ˆi ( )
del error cuadrático medio, pero antes se deben calcular las cantidades
ˆi ( )
para ver si el
Los dos valores son superiores a 1/10, con lo que el sesgo no resulta despreciable en
ningún caso (los dos estimadores son igualmente precisos según la razón del sesgo a la
desviación típica). Calculamos ahora los errores cuadráticos medios para aquilatar mejor la
diferencia de precisiones y ver realmente qué estimador es mejor.
3 9 3 1 7 1 3 11 3
ECM(Mˆ ) = E(Mˆ
5)2 = (5
5)2
+ (
5)2
+ (7
5)2
+ (
5)2
+ (6
5)2
+ (
5)2
= 1,24
20 2 20 15 2 3 20 2 20
ˆ ˆ 24 3 3 48 1 24 1
ECM( X H ) = E( X H
4,57)2 = (
4,57)2
+ (4
4,57)2
+ (
4,57)2
+ (
4,57)2
5 20 20 7 15 7 3
16 3 48 3
+ (
4,57)2
+
(
4,57)2 = 0,93
3 20 11 20
El mejor estimador resulta ser la media armónica porque tiene menor error
cuadrático medio. Para cuantificar las ganancias en precisión calculamos:
⎛ 1, 24 ⎞
⎜⎜
1 ⎟⎟
100 = 33 ,33
⎝ 0 ,93 ⎠
() () () ()
[ˆ
ˆ
| B ˆ |, ˆ + ˆ + | B ˆ |]
Tenemos:
Mˆ [7 / 2
3 1,19
|
0,22 |, 7 / 2 + 3 1,19 + |
0,22 |] = [0,004, 6,99]
Xˆ H [24 / 7
3 0,89
|
0,2 |, 24 / 7 + 3 0,89 + |
0,2 |] = [0,39, 6,45]
www.FreeLibros.org
Muestreo estadístico: conceptos, estimadores y su distribución 13
www.FreeLibros.org
14 Muestreo estadístico. Conceptos y problemas resueltos
1.2. Dada la población {U1, U2, U3, U4, U5} seleccionamos muestras de tamaño 3 por el siguiente
método de muestreo: De un recipiente que contiene tres bolas numeradas del 1 al 3 se
extraen al azar dos bolas mediante muestreo aleatorio sin reposición con probabilidades
iguales, y a continuación, de otro recipiente con dos bolas numeradas con el 4 y el 5 se
extrae una bola. Se supone que extraer la bola i-ésima equivale a elegir para la muestra la
unidad Ui. Consideramos los estimadores por analogía siguientes:
1) Hallar las distribuciones en el muestreo de T̂1 y T̂2 y sus varianzas, sesgos y errores
cuadráticos medios.
1, 2 , 3 4, 5
U1 U2
Como en la urna U1 seleccionamos dos bolas sin reposición, las posibilidades son
(A1 A2), (A1 A3) y (A2 A3). Como para cada par de bolas seleccionadas de la urna U1 se
selecciona una bola en la urna U2, las posibles muestras de tres elementos serán (A1 A2 A4),
(A1 A2 A5), (A1 A3 A4), (A1 A3 A5), (A2 A3 A4) y (A2 A3 A5).
www.FreeLibros.org
Muestreo estadístico: conceptos, estimadores y su distribución 15
S_ X Pi Tˆ1 Tˆ2
A1 A 2 A 4 1/ 6 2/3 1
A1 A 2 A 5 1/ 6 1/ 3 2
A1 A 3 A 4 1/ 6 1/ 3 2
A1 A 3 A 5 1/ 6 0 3
A 2 A3 A 4 1/ 6 2/3 1
A 2 A3 A5 1/ 6 1/ 3 2
⎧ T ˆ 1 1 ⎧ T ˆ 1 1
⎪ P (T 1= 2 / 3) = 2
6 = 3 ⎪ P (T 2 = 1) = 2
6 = 3
⎪ ⎪
⎪ 1 1 ⎪ 1 1
ˆ
T1 ⎨ P T (Tˆ 1= 1 / 3) = 3
= T1 ⎨ P T (Tˆ 2 = 2) = 3
=
ˆ
⎪ 6 2 ⎪ 6 2
⎪ T ˆ 1 ⎪ T ˆ 1
⎪ P (T 1= 0) = 6 ⎪ P (T 2 = 3) = 6
⎩ ⎩
1 = 2/3 2 = 3
www.FreeLibros.org
16 Muestreo estadístico. Conceptos y problemas resueltos
Como |B( Tˆ1 )/ ( Tˆ1 )| = 0,0485 < 1/10, el sesgo del estimador Tˆ1 es despreciable, por lo
que este puede considerarse a todos los efectos insesgado. Como |B( Tˆ )/ ( Tˆ )| = 1,69 > 1/10
2 2
pues su error cuadrático medio es mucho menor que el de Tˆ2 . La ganancia en precisión por
usar Tˆ en vez de Tˆ es:
1 2
Para hallar un intervalo de confianza para Tˆ1 (que es insesgado) basado en la primera
muestra y suponiendo normalidad en la población se utilizará la fórmula:
( ) ( )
[Tˆ1
Tˆ1 , Tˆ1 + Tˆ1 ] = [2 / 3
1.96* 0.229, 2 / 3 + 1.96* 0.229] = [0.217, 1.15]
g1 = m3/ 3 =
0,0027/0,2293 = 0,22
g2 = m4/ 4
3 =
0,0058/0,2294
3 =
0,89
2 1 1 1 1
m 3(Tˆ1 ) = (
0,388 ) 3
+ (
0,388 ) 3
+ (0
0,388 ) 3
= 0, 22
3 3 3 2 6
2 1 1 1 1
m 4(Tˆ1 ) = (
0,388 ) 4
+ (
0,388 ) 4
+ (0
0,388 ) 4
=
0,89
3 3 3 2 6
⎡
⎢Tˆ1
( ), T1 +
( )
Tˆ1 ˆ Tˆ1 ⎤ ⎡
⎥ = ⎢2 / 3
0,229
, 2/3+
0,229 ⎤
⎥ = [0.357, 1.69]
⎣⎢ ⎦⎥ ⎢⎣ 0,05 0,05 ⎦⎥
Se observa que el intervalo de confianza para Tˆ1 sin existir normalidad es más ancho,
es decir, es menos preciso.
www.FreeLibros.org
Muestreo estadístico: conceptos, estimadores y su distribución 17
Para hallar un intervalo de confianza para Tˆ2 (que es sesgado) basado en la primera
muestra, realizamos los siguientes cálculos:
() () () ()
[Tˆ2
Tˆ2
| B Tˆ2 |, Tˆ2 + Tˆ2 + | B Tˆ2 |] = [1
1.96* 0.687+ 0.16, 1 + 1.96* 0.687+ 0.16] = [
1.513, 3.513]
Se observa que el intervalo de confianza del estimador menos preciso es más ancho.
Los cálculos pueden automatizarse con Excel como sigue:
www.FreeLibros.org
18 Muestreo estadístico. Conceptos y problemas resueltos
1.3. En una población de 3 unidades numeradas {U1, U2, U3} se extraen muestras de tamaño 2
mediante el siguiente método de muestreo: Se extraen al azar 2 bolas de una urna que
contiene 6 bolas (tres con el número 1, dos con el número 2 y una con el número 3), y se
extraen de la población las dos unidades que tengan los mismos números que las dos bolas
extraídas. Se pide:
1) Considerando la extracción de las bolas en la urna con reposición y el estimador por analogía
T= Número de unidades distintas en las muestras, hallar su distribución en el muestreo
analizando su precisión. Obtener una estimación puntual del número de unidades distintas en
la población y otra por intervalos al 99,8% de confianza (F-1(0,999) = 3) basándose en la
muestra de mayor probabilidad.
2) Contestar a las preguntas del apartado anterior suponiendo que la extracción de las bolas en la
urna sin reposición. Comparar las estimaciones en los dos casos comentando los resultados.
Para hallar el espacio muestral asociado a este procedimiento de muestreo sin reposición
consideramos la urna U con 6 bolas (tres con el número 1, dos con el número 2 y una con el
número 3).
1 2
1 1 2
U
Como en la urna U seleccionamos dos bolas sin reposición, las posibilidades son
(1,1), (1,2), (1,3), (2,2) y (2,3).
3 2 1
P(1,1) = P1 (1) + P2 (1 / 1) =
=
6 5 5
3 2 2 3 2
P(1,2) = P{1,2} + P{2,1} = P1 (1) P2 (2 / 1) + P1 (2) P2 (1 / 2) =
+
=
6 5 6 5 5
3 1 1 3 1
P(1,3) = P{1,3} + P{3,1} = P1 (1) P2 (3 / 1) + P1 (3) P2 (1 / 3) =
+
=
6 5 6 5 5
2 1 1
P(2,2) = P1 (2)
P2 (2 / 2) =
=
6 5 15
2 1 1 2 2
P(2,3) = P{2,3} + P{3,2} = P1 (2) P2 (3 / 2) + P1 (3) P2 (2 / 3) =
+
=
6 5 6 5 15
www.FreeLibros.org
Muestreo estadístico: conceptos, estimadores y su distribución 19
Ya podemos formar la tabla con las muestras del espacio muestral S_X, sus
probabilidades Pi y los valores del estimador T del problema sobre las mismas, datos que nos
van a permitir el cálculo de la distribución en el muestreo del estimador. En el siguiente
cuadro se especifican las muestras, sus probabilidades y los valores del estimador para cada
muestra.
Muestras
S_X Pi T
( sin reposicón )
1 (1,1) 1/ 5 1
2 (1, 2 ) 2/5 2
3 (1,3) 1/ 5 2
4 ( 2, 2 ) 1 / 15 1
5 ( 2 ,3 ) 2 / 15 2
⎧ T 1 1 4
⎪⎪ P (T = 1) = 5 + 15 = 15
T⎨
⎪ P T (T = 2) = 2 + 1 + 2 = 11
⎪⎩ 5 5 15 15
4 11
E (T ) = 1
+ 2
= 26 / 15 = 1,7333333333 3 =
15 15
El estimador T es sesgado con sesgo B(T)=E(T)
= 26/15-3 =
19/15 =
1,26666.
La varianza del estimador es la siguiente:
4 11
V (T ) = (1
1,733 ) 2
+ ( 2
1,733 ) 2
= 0,1955
15 15
(T ) = 0,1955 = 0,442
Como |B(T)/ (T)| = 1,266/0,442 = 2,864 > 1/10, el sesgo del estimador T no es
despreciable, por lo que calcularemos su precisión mediante el error cuadrático medio.
Tenemos:
4 11
ECM (T ) = (1
3) 2
+ ( 2
3) 2
= 1,8
15 15
www.FreeLibros.org
20 Muestreo estadístico. Conceptos y problemas resueltos
[T
(T )
| B(T ) |, T + (T )+ | B(T ) |] = [2
3 * 0,442
1,26 + 3 * 0,442 + 1,26] = [
0,593, 4,593]
www.FreeLibros.org
Muestreo estadístico: conceptos, estimadores y su distribución 21
3 3 1
P(1,1) = P(1)
P(1) =
=
6 6 4
3 2 1
P(1,2) = 2 P(1)
P(2) = 2
=
6 5 3
3 1 1
P(1,3) = 2 P(1)
P(3) = 2
=
6 6 6
2 2 1
P(2,2) = P(2)
P(2) =
=
6 6 9
2 1 1
P(2,3) = 2 P(2)
P(3) = 2
=
6 6 9
1 1 1
P(3,3) = P(3)
P(3) =
=
6 6 36
Ya podemos formar la tabla con las muestras del espacio muestral S_X, sus
probabilidades Pi y los valores del estimador T del problema sobre las mismas, datos que nos
van a permitir el cálculo de la distribución en el muestreo del estimador. En el siguiente
cuadro se especifican las muestras, sus probabilidades y los valores del estimador para cada
muestra.
Muestras
S_X Pi T
( con reposición )
1 (1,1) 1/ 4 1
2 (1, 2 ) 1/ 3 2
3 (1,3) 1/ 6 2
4 ( 2, 2 ) 1/ 9 1
5 ( 2,3) 1/ 9 2
6 (3,3) 1 / 36 1
⎧ T 1 1 1 7
⎪⎪ P (T = 1) = 4 + 9 + 36 = 18
T⎨
⎪ P T (T = 2) = 1 + 1 + 1 = 11
⎪⎩ 3 6 9 18
www.FreeLibros.org
22 Muestreo estadístico. Conceptos y problemas resueltos
7 11
E (T ) = 1
+ 2
= 29 / 18 = 1,611111 3 =
18 18
El estimador T es sesgado con sesgo B(T)=E(T)- = 29/18-3 = -25/18=-1,3888. La
varianza del estimador es la siguiente:
7 11
V (T ) = (1
1,6111) 2
+ ( 2
1,6111) 2
= 0,237
18 18
(T ) = 0,237 = 0,486
Como |B(T)/ (T)| = 1,388/0,486 = 2,85 > 1/10, el sesgo del estimador T no es
despreciable, por lo que calcularemos su precisión mediante el error cuadrático medio.
Tenemos:
7 11
ECM (T ) = (1
3) 2
+ ( 2
3) 2
= 2,1666
18 18
Para hallar un intervalo de confianza para T (que es sesgado) basado en la segunda
muestra (que es la de mayor probabilidad), realizamos los siguientes cálculos:
[T
(T )
| B(T ) |, T + (T )+ | B(T ) |] = [2
3* 0,486
1,38 + 3* 0,486+1,38] = [
0,851, 4,851]
www.FreeLibros.org
Muestreo estadístico: conceptos, estimadores y su distribución 23
Para comparar las estimaciones con y sin reposición observamos los errores
cuadráticos medios, resultando que el método sin reposición tiene menor error cuadrático
medio, lo que indica que es mejor método de estimación.
La ganancia en precisión por trabajar sin reposición en vez de con reposición se
cuantifica como sigue:
GP = (EMCCR(T)/EMCSR(T) - 1)*100 = (2,1666/1,8-1)*100=20,37%
Se ve que la precisión mejora un 20,37% en caso de usa selección sin reposición.
Además, también se observa que el intervalo de confianza del estimador menos preciso (con
reposición) es más ancho.
1.4. Con la finalidad de ensayar el análisis de la divisibilidad en una población numérica,
consideramos una población virtual finita con 6 elementos U = {12, 13, 17, 23, 6, 1}.
Mediante un método de muestreo aleatorio con probabilidades iguales y sin reposición se
extraen muestras de tamaño 2 sin tener en cuenta el orden de colocación de sus elementos.
1) ¿Cuántos elementos tiene el espacio muestral? Especificar dicho espacio muestral y las
probabilidades asociadas a las muestras.
2) A partir de las muestras del espacio muestral se trata de estimar el parámetro poblacional
PROPORCIÓN DE NÚMEROS PRIMOS mediante el estimador por analogía y el
parámetro poblacional TOTAL DE NÚMEROS PRIMOS mediante el estimador de
expansión de la proporción por el tamaño poblacional (producto del estimador de la
proporción por el tamaño poblacional). Hallar la distribución en el muestreo de dichos
estimadores. ¿Qué estimador es mejor? Comparar el estimador de expansión del total
con el estimador por analogía.
www.FreeLibros.org
24 Muestreo estadístico. Conceptos y problemas resueltos
⎛6⎞
⎜⎜ ⎟⎟ =15
⎝ 2⎠
Por otra parte, en este problema estamos considerando la clase A de los números
primos, con lo que asociaremos a los Ui los Ai que valen cero cuando Ui no es primo y valen
uno cuando Ui es primo. Luego sobre el conjunto Ui{2, 13, 17, 23, 6, 1} se mide la variable
A y se obtiene el conjunto Ai{0, 1, 1, 1, 0, 1}. Al tratarse de muestreo aleatorio sin
reposición y probabilidades iguales, las probabilidades iniciales de selección de los elementos
de la población para la muestra valdrán P(ui) = 1/6, i = 1, ..., 6 y la probabilidad de cualquier
muestra puede hallarse mediante la expresión:
TOTAL ( Â = 6 P̂ ) TOTAL ( Tˆ = 2 P̂ )
S1_X S2_X P_X PROPORCIÓN ( P̂ ) EXPANSIÓN MUESTRAL
0 1 1/15 0,5 3 1
0 1 1/15 0,5 3 1
0 1 1/15 0,5 3 1
0 0 1/15 0 0 0
0 1 1/15 0,5 3 1
1 1 1/15 1 6 2
1 1 1/15 1 6 2
1 0 1/15 0,5 3 1
1 1 1/15 1 6 2
1 1 1/15 1 6 2
1 0 1/15 0,5 3 1
1 1 1/15 1 6 2
1 0 1/15 0,5 3 1
1 1 1/15 1 6 2
0 1 1/15 0,5 3 1
⎧ T ˆ 1 2 ⎧ T ˆ 1 2 ⎧ T ˆ 1 2
⎪ P ( P = 1) = 6
15 = 5 ⎪ P ( A = 6) = 6
15 = 5 ⎪ P (T = 2) = 6
15 = 5
⎪ ⎪ ⎪
⎪ 1 8 ⎪ 1 8 ⎪ 1 8
Pˆ ⎨ P T ( Pˆ = 1 / 2) = 8
= Aˆ ⎨ P T ( Aˆ = 3) = 8
= Tˆ ⎨ P T (Tˆ = 1) = 8
=
⎪ 15 15 ⎪ 15 15 ⎪ 15 15
⎪ T ˆ 1 ⎪ T ˆ 1 ⎪ T ˆ 1
⎪ P ( P = 0) = 15 ⎪ P ( A = 0) = 15 ⎪ P (T = 0) = 15
⎩ ⎩ ⎩
www.FreeLibros.org
Muestreo estadístico: conceptos, estimadores y su distribución 25
2 1 8 1
E( Pˆ ) = 1
+
+ 0
= 2 / 3 = 0,6666 = 1
5 2 15 15
2 8 1
E( Aˆ ) = 6
+ 3
+ 0
= 6E( Pˆ ) = 4 = 2
5 15 15
2 8 1
E(Tˆ ) = 2
+ 1
+ 0
= 2E( Pˆ ) = 4 / 3 = 1,33333 4 = 2
5 15 15
Como los estimadores P̂ y  son insesgados, su varianza coincide con su error cuadrático
medio, por lo que su precisión se mide a través de la varianza. De esta forma, el estimador P̂ para
estimar 1 es más preciso que el estimador  para estimar 2 por tener menor varianza.
www.FreeLibros.org
26 Muestreo estadístico. Conceptos y problemas resueltos
m3
1
6
[
2(0
2 / 3) 3 + 4(1
2 / 3) 3 ]
g1 = = = 0,968
3 ⎛ 1 ⎞
3
⎜
⎜ 6
[
2(0
2 / 3) 2 + 4(1
2 / 3) 2 ] ⎟
⎟
⎝ ⎠
m4
1
6
[
2(0
2 / 3) 4 + 4(1
2 / 3) 4 ]
g2 =
3 =
3 =
1,875
4 ⎛ 1 ⎞
4
⎜
⎜ 6
[
2(0
2 / 3) 2 + 4(1
2 / 3) 2 ] ⎟
⎟
⎝ ⎠
⎡ ( Pˆ ) ˆ ( Pˆ ) ⎤ ⎡ 0, 298 0, 298 ⎤
⎢ Pˆ
,P+ ⎥ = ⎢0
,0+ ⎥ = [
2 .98 , 2 .98 ]
⎢⎣ ⎥⎦ ⎢⎣ 0,01 0,01 ⎥⎦
[ Pˆ
( Pˆ ), Pˆ + ( Pˆ ) = [0
2,57
0,298, 0 + 2,57
0,298] = [
0.766, 0.766 ]
⎡ ( Aˆ ) ˆ ( Aˆ ) ⎤ ⎡ 1,7888 1,7888 ⎤
⎢ Aˆ
, A+ ⎥ = ⎢0
,0+ ⎥ = [
17 .8, 17 .8]
⎣⎢ ⎦⎥ ⎣⎢ 0,01 0,01 ⎦⎥
[ Aˆ
( Aˆ ), Aˆ + ( Aˆ ) = [0
2,57
1,7888 , 0 + 2,57
1,7888 ] = [
4.59, 4,59 ]
Además, se observa que los intervalos de confianza para P̂ son más estrechos que los
correspondientes intervalos de confianza para  , lo que concuerdo con la superior precisión del
estimador P̂ .
www.FreeLibros.org
Muestreo estadístico: conceptos, estimadores y su distribución 27
www.FreeLibros.org
28 Muestreo estadístico. Conceptos y problemas resueltos
1.5. Supongamos que los gastos X y los ingresos Y de una empresa a lo largo de los 6 últimos
meses fueron los siguientes:
X 3 4 2 2,5 3,5 4,5
Y 6 7 4 5 6,5 8
Se extraen muestras aleatorias simples de dos meses sin reposición y con probabilidades
iguales y se pide:
1) Distribución en el muestreo de los estimadores por analogía del gasto total y del
estimador por analogía de la proporción que significan los gastos en los ingresos (razón
de gastos totales sobre ingresos totales). ¿Qué estimador es mejor? Calcular la ganancia
en precisión y expresar los resultados en términos de intervalos de confianza al 95%
basados en la muestra de mayor total.
2) Distribución en el muestreo de los estimadores del gasto total siguientes:
Estimador de expansión del gasto total.
Proporción de los gastos en los ingresos por el ingreso total poblacional
Como se trata de muestreo aleatorio sin reposición en el que se supone que el orden de
colocación de los elementos en las muestras de tamaño 2 no interviene, el número de muestras
⎛6⎞
posibles, tanto para X como para Y, será ⎜⎜ ⎟⎟ =15.
2⎝ ⎠
Se observa que las probabilidades de las muestras serán todas iguales a 1/15. Luego
estamos ante un método de selección con probabilidades iguales y muestras equiprobables.
Denominamos GTOTAL al estimador por analogía del gasto total (total muestral del
gasto) y RAZÓN al estimador por analogía de la proporción que significan los gastos en los
ingresos (total muestral del gasto entre total muestral del ingreso). Se tendrá presente que el
estimador expandido del gasto total es el producto del tamaño poblacional por la media
muestral del gasto (GTOTALEXP = 6(GTOTAL/2) = 3GTOTAL) y que la proporción de los
gastos en los ingresos por el ingreso total poblacional es TOTAL = (36,5)RAZÓN. En los
estimadores, para las cuatro primeras filas de la tabla se indican todas las operaciones y para el
resto de las filas las operaciones son similares y se indican sólo los resultados.
www.FreeLibros.org
Muestreo estadístico: conceptos, estimadores y su distribución 29
GTOTALEXP TOTAL
S1_X S2_X S1_Y S2_Y P=PX=PY GTOTAL RAZÓN (3*GTOTAL) (36,5*RAZÓN)
3 4 6 7 1/15 7=3+4 0,53=(3+4)/(6+7) 21=3*7 19,65=36,5*0,53
3 2 6 4 1/15 5=3+2 0,5=(3+2)/(6+4) 15=3*5 18,25=36,5*0,5
3 2,5 6 5 1/15 5,5=3+2,5 0,5=(3+2,5)/(6+5) 16,5=3*5,5 18,25=36,5*0,5
3 3,5 6 6,5 1/15 6,5=3+3,5 0,52=(3+3,5)/(6+6,5) 19,5=3*6,5 18,98=36,5*0,52
3 4,5 6 8 1/15 7,5 0,535714286 22,5 19,55357143
4 2 7 4 1/15 6 0,545454545 18 19,90909091
4 2,5 7 5 1/15 6,5 0,541666667 19,5 19,77083333
4 3,5 7 6,5 1/15 7,5 0,555555556 22,5 20,27777778
4 4,5 7 8 1/15 8,5 0,566666667 25,5 20,68333333
2 2,5 4 5 1/15 4,5 0,5 13,5 18,25
2 3,5 4 6,5 1/15 5,5 0,523809524 16,5 19,11904762
2 4,5 4 8 1/15 6,5 0,541666667 19,5 19,77083333
2,5 3,5 5 6,5 1/15 6 0,52173913 18 19,04347826
2,5 4,5 5 8 1/15 7 0,538461538 21 19,65384615
3,5 4,5 6,5 8 1/15 8 0,551724138 24 20,13793103
15
1 1 1
E ( RAZÓN ) = ∑ RAZÓN P = 0,53
15 + 0,5
15 + L + 0,55
15 = 0,53206 0,53424 =
i =1
i i 2
15
+ L + (8
6,5) 2
= 1,1666
15
15
1 1
∑ (RAZÓN )
2
V ( RAZÓN ) = i
E ( RAZÓN ) Pi = (0,53
0,532) 2
+ L + (0,55
0,532) 2
= 0,000399
i =1 15 15
www.FreeLibros.org
30 Muestreo estadístico. Conceptos y problemas resueltos
15
1 1
ECM (GTOTAL) = ∑ (GTOTAL
i =1
i
1 ) Pi = (7
19,5) 2
2
15
+ L + (8
19,5) 2
= 170,166
15
ECM ( RAZÓN ) = V ( RAZÓN ) = 0,00399
() () () ()
[ˆ
ˆ
| B ˆ |,ˆ + ˆ + | B ˆ |] = [8,5
1,96
1,08
13, 8,5 + 1,96
1,08 + 13] = [
6.61, 23.61]
() ()
[ˆ
ˆ , ˆ + ˆ ] = [0,566
1,96
0,0199, 0,566+1,96
0,0199] = [0.527, 0.605]
Para comparar los estimadores del gasto total GTOTAEXP y TOTAL, observamos
que GTOTALEXP = 3GTOTAL y TOTAL = (36,5)RAZÓN. Tenemos:
Los dos estimadores han resultado ser insesgados, con lo que será más preciso el que
tenga menor varianza; es decir, TOTAL es más preciso que GTOTALEXP.
www.FreeLibros.org
Muestreo estadístico: conceptos, estimadores y su distribución 31
www.FreeLibros.org
32 Muestreo estadístico. Conceptos y problemas resueltos
1.6. Consideramos una población virtual para simulación formada por 10 individuos agrupados
en 4 hogares y cuyos ingresos anuales en miles de euros (variable X) se presentan en la tabla
adjunta:
HOGARES H1 H2 H3 H4
--
INGRESOS (Xi) 1, 2, 3 4, 6 9, 11 2, 2, 5
www.FreeLibros.org
Muestreo estadístico: conceptos, estimadores y su distribución 33
En el siguiente cuadro se especifican las muestras, sus probabilidades y los valores de los
estimadores para cada muestra.
S(X ) P( X ) T1 T2
{1,2,3} 3 / 10 2 6
{4,6} 1/ 5 5 10
{9,11} 1/ 5 10 20
{2,2,5} 3 / 10 3 9
⎧ T 3 ⎧ T 3
⎪ P (T 1= 2) = P{1,2,3} = 10 ⎪ P (T 2= 6) = P{1,2,3} = 10
⎪ ⎪
⎪ P T (T = 5) = P{4,6} = 1 ⎪ P T (T = 10) = P{4,6} = 1
⎪ 1
5 ⎪ 2
5
T1 ⎨ T2 ⎨
⎪ P T (T = 10) = P{9,11} = 1 ⎪ P T (T = 20) = P{9,11} = 1
1 2
⎪ 5 ⎪ 5
⎪ 3 ⎪ 3
⎪ P T (T 1= 3) = P{2,2,5} = ⎪ P T (T 2= 9) = P{2,2,5} =
⎩ 10 ⎩ 10
X = (1 + 2 + 3 + 4 + 6 + 9 + 11 + 2 + 2 + 5) / 10 = 45 / 10
X = (1 + 2 + 3 + 4 + 6 + 9 + 11 + 2 + 2 + 5) = 45
www.FreeLibros.org
34 Muestreo estadístico. Conceptos y problemas resueltos
3 1 1 3
E (T1 ) = 2
+ 5
+ 10
+ 3
= 4,5 = X
10 5 5 10
3 1 1 3
E (T2 ) = 6
+ 10
+ 20
+ 9
= 10,5 X = 45
10 5 5 10
Como |B(T2)/ (T2)| = 6.92 > 1/10, el sesgo del estimador T2 no es despreciable, y
como T1 es insesgado, la comparación de estimadores ha de hacerse a través del error
cuadrático medio. Tenemos:
3 1 1 3
ECM (T1 ) = (2
4,5) 2
+ (5
4,5) 2
+ (10
4,5) 2
+ (3
4,5) 2
= 8,65
10 5 5 10
3 1 1 3
ECM (T2 ) = (6
45) 2
+ (10
45) 2
+ (20
45) 2
+ (9
45) 2
= 1215,1
10 5 5 10
Evidentemente, el mejor estimador es T1, pues su error cuadrático medio es mucho
menor que el de T2. La ganancia en precisión por usar T1 en vez de T2 es:
GP=(EMC(T2)/EMC(T1) - 1)100 = (1215,1/8,65-1)100=13946,24%
Para hallar un intervalo de confianza para T1 (que es insesgado) basado en la
muestra de mayor total {9,11}, suponemos primeramente que la población se distribuye
normalmente, en cuyo caso se utiliza como intervalo de confianza el siguiente:
() ()
[ˆ
ˆ ,ˆ + ˆ ] = [10
3
2.94, 10 + 3
2.94] = [1.17, 18.82]
()
ˆ ˆ ˆ ⎤ ⎡
, +
()
⎥ = ⎢10
2.94
,10 +
2.94 ⎤
⎥ = [
55.74, 75.7]
⎣⎢ ⎦⎥ ⎣ 0.002 0.002 ⎦
www.FreeLibros.org
Muestreo estadístico: conceptos, estimadores y su distribución 35
1.7. Supongamos que las calificaciones de tres jueces deportivos sobre el ejercicio de un gimnasta han
sido X={1, 2, 3}. Usando probabilidades iguales se extraen muestras aleatorias de dos
calificaciones y se consideran los estimadores por analogía media muestral y varianza muestral.
Hallar la distribución en el muestreo y sus errores para los dos estimadores en los casos siguientes:
1) Muestreo sin reposición sin tener en cuenta el orden de colocación de los elementos.
2) Muestreo sin reposición teniendo en cuenta el orden de colocación de los elementos.
3) Muestreo con reposición sin tener en cuenta el orden de colocación de los elementos.
4) Muestreo con reposición teniendo en cuenta el orden de colocación de los elementos.
Para muestreo sin reposición sin tener en cuenta el orden de colocación de los elementos el
número de muestras de tamaño 2 en el espacio muestral serán las combinaciones sin repetición
de tres elementos tomados de dos en dos:
⎛3⎞
C3,2 = ⎜⎜ ⎟⎟ =3
⎝ 2⎠
Se observa que las probabilidades de las muestras serán todas iguales a 1/3. Luego
estamos ante un método de selección con probabilidades iguales y muestras equiprobables. El
espacio muestral, las probabilidades asociadas a las muestras y la distribución en el muestreo
de los estimadores media muestral (MEDIAM) y varianza muestral (VARIANZAM) se
presentan en la siguiente tabla:
3
E ( MEDIAM ) = ∑ MEDIAM P = 2 = MEDIAP
i =1
i i
3
E (VARIANZAM ) = ∑VARIANZA P = 0,5 2 / 3 = 0,6666 = VARIANZAP
i =1
i i
Para calcular los sesgos se observa que MEDIAM es insesgado para MEDIAP y
B(VARIANZAM) = 0,5
0,6666 =
0,16666. A continuación se calculan las varianzas de los
estimadores.
www.FreeLibros.org
36 Muestreo estadístico. Conceptos y problemas resueltos
3
V ( MEDIAM ) = ∑ (MEDIAM
i =1
i
E ( MEDIAM ) ) Pi = 0,16666
2
3
V (VARIANZAM ) = ∑ (VARIANZAM
i =1
i
E (VARIANZAM ) ) Pi = 0,125
2
www.FreeLibros.org
Muestreo estadístico: conceptos, estimadores y su distribución 37
⎛3⎞
V3,2 = ⎜⎜ ⎟⎟
2! = 6
⎝ 2⎠
Se observa que las probabilidades de las muestras serán todas iguales a 1/6. Luego
estamos ante un método de selección con probabilidades iguales y muestras equiprobables. El
espacio muestral, las probabilidades asociadas a las muestras y la distribución en el muestreo
de los estimadores media muestral (MEDIAM) y varianza muestral (VARIANZAM) se
presentan en la siguiente tabla:
www.FreeLibros.org
38 Muestreo estadístico. Conceptos y problemas resueltos
6
E ( MEDIAM ) = ∑ MEDIAM P = 2 = MEDIAP
i =1
i i
6
E (VARIANZAM ) = ∑VARIANZA P = 0,5 2 / 3 = 0,6666 = VARIANZAP
i =1
i i
Para calcular los sesgos se observa que MEDIAM es insesgado para MEDIAP y
B(VARIANZAM) = 0,5
0,6666 =
0,16666. A continuación se calculan las varianzas de los
estimadores.
6
V ( MEDIAM ) = ∑ (MEDIAM
i =1
i
E ( MEDIAM ) ) Pi = 0,16666
2
6
V (VARIANZAM ) = ∑ (VARIANZAM
i =1
i
E (VARIANZAM ) ) Pi = 0,125
2
Los cálculos pueden implementarse mediante Excel tal y como se indica en las
pantallas siguientes:
www.FreeLibros.org
Muestreo estadístico: conceptos, estimadores y su distribución 39
Para muestreo con reposición sin tener en cuenta el orden de colocación de los
elementos el número de muestras de tamaño dos en el espacio muestral serán las
combinaciones con repetición de tres elementos tomados de dos en dos:
⎛ 3 + 2
1⎞
CR3,2 = ⎜⎜ ⎟⎟ = 6
⎝ 2 ⎠
www.FreeLibros.org
40 Muestreo estadístico. Conceptos y problemas resueltos
Se observa que las probabilidades de las muestras serán todas iguales a 1/3. Luego
estamos ante un método de selección con probabilidades iguales y muestras equiprobables. El
espacio muestral, las probabilidades asociadas a las muestras y la distribución en el muestreo
de los estimadores media muestral (MEDIAM) y varianza muestral (VARIANZAM) se
presentan en la siguiente tabla:
6
E ( MEDIAM ) = ∑ MEDIAM P = 2 = MEDIAP
i =1
i i
6
E (VARIANZAM ) = ∑VARIANZA P = 1 / 3 = 0,3333 2 / 3 = 0,6666 = VARIANZAP
i =1
i i
Para calcular los sesgos se observa que MEDIAM es insesgado para MEDIAP y
B(VARIANZAM) = 1/3-2/3 = -1/3 =-0,3333. A continuación se calculan las varianzas de los
estimadores.
6
V ( MEDIAM ) = ∑ (MEDIAM
i =1
i
E ( MEDIAM ) ) Pi = 0,3333
2
6
V (VARIANZAM ) = ∑ (VARIANZAM
i =1
i
E (VARIANZAM ) ) Pi = 0,13888
2
www.FreeLibros.org
Muestreo estadístico: conceptos, estimadores y su distribución 41
www.FreeLibros.org
42 Muestreo estadístico. Conceptos y problemas resueltos
9
E (VARIANZAM ) = ∑VARIANZA P = 1 / 3 = 0,3333 2 / 3 = 0,6666 = VARIANZAP
i =1
i i
Para calcular los sesgos se observa que MEDIAM es insesgado para MEDIAP y
B(VARIANZAM) = 1/3
2/3 =
1/3 =
0,3333. A continuación se calculan las varianzas de los
estimadores.
9
V ( MEDIAM ) = ∑ (MEDIAM
i =1
i
E ( MEDIAM ) ) Pi = 0,3333
2
9
V (VARIANZAM ) = ∑ (VARIANZAM
i =1
i
E (VARIANZAM ) ) Pi = 0,13888
2
www.FreeLibros.org
Muestreo estadístico: conceptos, estimadores y su distribución 43
www.FreeLibros.org
44 Muestreo estadístico. Conceptos y problemas resueltos
1.8. En una prueba de patinaje artístico los 10 jueces del jurado calificaron a un patinador con tres
cincos, cuatro seises y tres sietes. Usando probabilidades iguales se extraen muestras aleatorias de
dos calificaciones sin reposición y teniendo en cuenta el orden de colocación de los elementos.
Se consideran los estimadores por analogía media muestral, varianza muestral y recorrido para
estimar la calificación media y su dispersión (por dos vías). Hallar la distribución en el muestreo y
sus errores para los tres estimadores.
Xi 5 6 7
Pi 3 / 10 4 / 10 3 / 10
⎛3⎞
V3,2 = ⎜⎜ ⎟⎟
2! = 6
⎝ 2⎠
www.FreeLibros.org
Muestreo estadístico: conceptos, estimadores y su distribución 45
6
E ( MEDIAM ) = ∑ MEDIAM i Pi = 6 = MEDIAP
i =1
6
E (VARIANZAM ) = ∑ VARIANZAi Pi = 0,442 0,6 = VARIANZAP
i =1
6
E ( RM ) = ∑ RM i Pi = 1,257 2 = RP
i =1
Para calcular los sesgos se observa que MEDIAM es insesgado para MEDIAP,
B(VARIANZAM) = 0,442-0,6 =
0,157, y B(RM) = 1,257
2 =
0,743. A continuación se
calculan las varianzas de los estimadores.
6
V ( MEDIAM ) = ∑ (MEDIAM i
E ( MEDIAM ) ) Pi = 0,185
2
i =1
6
V (VARIANZAM ) = ∑ (VARIANZAM i
E (VARIANZAM ) ) Pi = 0,107
2
i =1
6
V ( RM ) = ∑ (RM i
E ( RM ) ) Pi = 0,191
2
i =1
Como |B(RM)/ (RM)| = 1,7 > 1/10, el sesgo del estimador RM no es despreciable.
Para hallar el error de muestreo de MEDIAM, VARIANZAM y RM vemos que los dos
últimos estimadores son sesgados con sesgo no despreciable y el primero es insesgado. La
medición del error debe hacerse a través de los errores cuadráticos medios. Tenemos:
i =1
www.FreeLibros.org
46 Muestreo estadístico. Conceptos y problemas resueltos
www.FreeLibros.org
Muestreo estadístico: conceptos, estimadores y su distribución 47
EJERCICIOS PROPUESTOS
1.2. Para medir la variable X = nivel de precipitación atmosférica en una determinada región
disponemos de un marco de 4 zonas climáticas de la misma cuyos niveles de precipitación
actual son de 6, 4, 3 y 8 decenas de litros por metro cuadrado, siendo sus probabilidades
iniciales de selección en el muestreo 1/6, 1/3, 1/3 y 1/6, respectivamente. Se trata de estimar
en decenas de litros por metro cuadrado el nivel actual medio de precipitación atmosférica
en la región extrayendo muestras de la variable X con tamaño 2 sin reposición y sin tener en
cuenta el orden de colocación de sus elementos. Para ello se consideran los estimadores
alternativos MEDIA ARITMÉTICA, MEDIA GEOMÉTRICA, MEDIA CUADRÁTICA y
MEDIA ARMÓNICA. Se pide lo siguiente:
1) Especificar el espacio muestral definido por este procedimiento de muestreo S(X), las
probabilidades asociadas a las muestas P(S) y la distribución en el muestreo de los cuatro
estimadores analizando su precisión. ¿Cuál de ellos es mejor? Razonar la respuesta y
cuantificar las ganancias en precisión.
2) Hallar intervalos de confianza para la media según los cuatro estimadores basados en la
muestra de mayor probabilidad para un nivel de confianza del 2 por mil ( =0,002). Como
dato se sabe que F-1(0.999)= 3, siendo F la función de distribución de la normal (0,1).
Comentar los resultados.
www.FreeLibros.org
48 Muestreo estadístico. Conceptos y problemas resueltos
1.5. Para la población A = {A1 , A2 , L , A12 } consideramos el siguiente proceso de selección de muestras
de tamaño 3. Se selecciona un entero al azar en el conjunto {1,2,3,4} y siendo este número se
forma la muestra {A , A + 4 , L , A +8 } . Considerando la variable Xi=X(Ai)=i se pide la distribución,
esperanza y varianza de los estimadores T1=Máx(Xi) y T2=2(∑Xi)/n – 1. ¿Cuál de los dos
estimadores es más preciso? Realizar estimaciones por intervalos al 95% basadas en las
muestras de mayor valor de los estimadores y comentar los resultados.
1.6. En una población con N = 3 unidades Ui (i = 1, 2, 3), la variable Ti medida sobre cada unidad
toma los valores (1, 3, 5). Se considera un proceso de muestreo sin reposición con probabilidades
iniciales de selección Pi = (1/5, 2/5, 2/5) y tamaño muestral n = 2 sin tener en cuenta el orden de
colocación de las unidades en las muestras. Se pide:
www.FreeLibros.org
CAPÍTULO
OBJETIVOS
1. Distinguir entre muestreo de unidades elementales y muestreo de unidades
compuestas.
2. Distinguir claramente los conceptos de muestreo con probabilidades
iguales y muestreo con probabilidades desiguales.
3. Distinguir entre muestreo con reposición y muestreo sin reposición.
4. Comprender cómo se forman los estimadores en el proceso de estimación puntual.
5. Comprender el concepto de factor de elevación.
6. Obtener el estimador lineal insesgado general para el caso de selección con
reposición y probabilidades desiguales: Estimador de Hansen y Hurwitz.
7. Obtener la varianza y su estimación para el estimador de Hansen y Hurwitz.
8. Analizar los métodos especiales de selección con reposición y probabilidades
desiguales: Método del tamaño acumulativo y método de Lahiri.
9. Obtener el estimador lineal insesgado general para el caso de selección sin
reposición y probabilidades desiguales: Estimador de Horvitz y Thompson.
10. Obtener la varianza y la estimación de la varianza para el estimador de
Horvitz y Thompson.
11. Obtener el estimador alternativo de Yates y Grundy para la varianza.
12. Analizar los métodos especiales de selección con reposición y probabilidades
desiguales: Modelos de Ikeda, Mitzumo, Brewer, Durbin, Sampford y Murthy.
13. Analizar el muestreo con probabilidades gradualmente variables: Estimador
de Sánchez Crespo y Gabeiras, error y estimación del error.
14. Obtener muestras aleatorias, especialmente mediante el método de Montecarlo.
www.FreeLibros.org
50 Muestreo estadístico. Conceptos y problemas resueltos
ÍNDICE
1. Selección con y sin reposición. Probabilidades iguales y desiguales.
2. Estimación puntual y formación general de estimadores.
3. Muestreo con reposición y probabilidades desiguales. Estimador de Hansen
Hurwitz.
4. Muestreo con reposición y probabilidades proporcionales a los tamaños.
Métodos especiales de selección.
5. Muestreo sin reposición y probabilidades desiguales. Estimador de Horvitz
y Thompson.
6. Muestreo sin reposición y probabilidades proporcionales a los tamaños.
Métodos especiales de selección.
7. Método de Montecarlo
8. Problemas resueltos
9. Ejercicios propuestos
www.FreeLibros.org
Muestreo estadístico: conceptos, estimadores y su distribución 51
1.1. Con probabilidades iguales: Todas las unidades de la población tienen la misma
probabilidad de ser seleccionadas en cada extracción.
1.2. Con probabilidades desiguales: Al menos dos unidades tienen distintas probabilidades
de selección en cierta extracción.
2.1. Muestreo con reposición: Cada unidad que es extraída para formar parte de la
muestra en una extracción se repone a la población antes de realizar la siguiente
extracción; es decir, la estructura poblacional permanece invariante.
2.2. Muestreo sin reposición: Cada unidad que es extraída para formar parte de la
muestra en una extracción no se repone a la población antes de realizar la siguiente
extracción, por lo que una unidad podrá aparecer en la muestra a lo sumo una vez y
la estructura poblacional va cambiando de una extracción a otra.
Combinando estos cuatro tipos de muestreo resulta:
- Muestreo con reposición y probabilidades iguales
Supongamos que tenemos definida una característica X en la población U = {U1, U2, ..., UN}
que toma el valor numérico Xi sobre la unidad Ui i = 1, 2, ..., N, dando lugar al conjunto de
valores {X1, X2, ..., XN}. Consideramos ahora una cierta función de los N valores Xi, que suele
denominarse parámetro poblacional. Seleccionamos una muestra s = {u1, u2, ..., un} de U mediante
un procedimiento de muestreo dado, y consideramos los valores s(X) = {X1, X2, ... , Xn} que toma la
característica X en estudio sobre los elementos de la muestra. A partir de estos valores estimamos
puntualmente el parámetro poblacional mediante la expresión ˆ = ˆ (s(X))= ˆ (X1, ..., Xn), basada
en los valores Xi i = 1, 2, ..., n, que toma la característica X sobre las unidades de la muestra s.
X
U = {U 1 LU N } (X 1 L X N )
X
s = {u1 L u n } s( X ) = (X 1 L X n )
www.FreeLibros.org
52 Muestreo estadístico. Conceptos y problemas resueltos
La función ˆ que asocia a cada muestra s el valor numérico ˆ (s(X)) = ˆ (X1, ..., Xn), se
denomina estimador del parámetro poblacional . A los valores ˆ (s(X)) para cada s del espacio
muestral se los denomina estimaciones puntuales. Por lo tanto podemos formalizar el concepto
de estimador $ para el parámetro poblacional definiéndolo mediante la aplicación medible:
$: S ( X ) R n R
(X 1 L X n ) $( X 1 L X n ) = t
Ya tenemos definido el estimador como un estadístico función de los valores que toma
la característica X sobre los elementos del espacio muestral (muestras). Como ejemplos tenemos
los estimadores total muestral y media muestral que estiman el total y la media poblacionales:
ˆ1 : S ( X ) R n R
( X 1 L X n ) ˆ1 ( X 1 L X n ) = X 1 + L + X n = Xˆ
ˆ2 : S ( X ) R n R
X1 + L + X n
( X 1 L X n ) ˆ2 ( X 1 L X n ) = = Xˆ
n
X 1 N N
Xi
• Media poblacional: X = (X1, ..., XN) = =
N N
∑X =∑
i =1
i
i =1 N
Hasta ahora hemos supuesto que la característica X definida sobre los elementos de la
población es cuantitativa, es decir, cuantificable numéricamente. Sin embargo, también se pueden
definir características cualitativas sobre los elementos de la población, como, por ejemplo, su
pertenencia o no a una determinada clase A. Si para cada unidad ui i = 1, 2, ..., N de la población
definimos la característica Ai, que toma valor 1 si la unidad ui pertenece a la clase A, y que toma
valor 0 si la unidad ui no pertenece a la clase A, podemos definir el total de elementos de la
población que pertenecen a la clase A (total de clase) y la proporción de elementos de la
población que pertenecen a la clase A (proporción de clase) de la forma siguiente:
N
• Total de clase: A = (A1, ..., AN) = ∑ Ai
i =1
N N
A 1 Ai
• Proporción de clase: P = (A1, ..., AN) = =
N N
∑A =∑ N
i =1
i
i =1
Analizados ya los cuatro parámetros poblacionales más típicos a estimar, vemos que,
en general, un parámetro poblacional puede expresarse como una suma de elementos Yi =
f(Xi) función de los valores que la característica cuantitativa X o cualitativa A considerada
toma sobre los elementos de la población. De esta forma, podemos escribir:
www.FreeLibros.org
Muestreo estadístico: conceptos, estimadores y su distribución 53
N N
= ∑ Yi = ∑ f ( X i )
i =1 i =1
denominan pesos o factores de elevación, ya que so los números por los que hay que multiplicar
los valores muestrales para obtener los valores poblacionales.
Concretamente, para muestreo sin reposición, el estimador óptimo es el de Horvitz y
n
Yi
Thompson ˆHT = ∑ , donde i es la probabilidad que tiene la unidad ui de la población de
i =1 i
pertenecer a la muestra. Se observa que los pesos o factores de elevación son en este caso w i = 1 .
i
Para muestreo con reposición el estimador óptimo es el de Hansen y Hurwitz
n
Yi
ˆHH = ∑ , donde Pi es la probabilidad de seleccionar la unidad ui de la población para
i =1 nPi
la muestra (probabilidad unitaria de selección de la unidad ui ). Se observa que los pesos o
factores de elevación son, en este caso, w i = 1 .
nPi
N
Existen justificaciones para considerar que el parámetro poblacional = ∑Y i puede
i =1
n
estimarse convenientemente mediante el estimador $ = ∑ w Y , entre las que podemos citar:
i i
i =1
www.FreeLibros.org
54 Muestreo estadístico. Conceptos y problemas resueltos
P (~
x ) = P(u1 , L u1 , u 2 , L , u 2 , L , u N , L , u N ) = P(e1 = t1 , e 2 = t 2 , L , e N = t N )
1424 3 1424 3 14243
t1 veces t2 veces t N veces
n! N
= 1
P1t P2t L PNt n! = (t1 + t 2 + L + t N )!∑ t i = n
2 N
t1 !t 2 !L t N ! i =1
n n
1 n
Y
ˆHH = ∑iYi = ∑ Yi =∑ i
i =1 i =1 nPi i =1 nPi
N
An
Total de clase = A = ∑ Ai ⇒ Yi = Ai ⇒ Aˆ HH = ∑ i
i =1 i =1 nPi
Ai
A N
A n
1 n
Ai
Proporción = P = ∑ i ⇒ Yi = i ⇒ PˆHH =∑ N = ∑ nP
i =1 N N i =1 nP i N i =1 i
www.FreeLibros.org
Muestreo estadístico: conceptos, estimadores y su distribución 55
Sea Mi un entero positivo asociado a la unidad ui que denominamos tamaño de ui para i = 1, 2, ..., N
(Mi puede ser el número de unidades elementales de la unidad compuesta ui o una ponderación o
medida de la importancia que concedemos a la selección de la unidad ui para la muestra).
A continuación se expone un método práctico que permite seleccionar muestras con
reposición de modo que en cada extracción la unidad ui tiene probabilidad Pi proporcional a
su tamaño Mi .
N
Sea M = ∑ M i . Consideramos el intervalo de números enteros [1, M] y lo dividimos en
i =1
N subintervalos Ii cada uno de ellos con Mi unidades, tal y como se indica en el cuadro siguiente:
www.FreeLibros.org
56 Muestreo estadístico. Conceptos y problemas resueltos
Este método también permite extraer una muestrea con probabilidades desiguales
no necesariamente proporcionales a sus tamaños. Basta formar un rango acumulativo del
los Pi y extraer una muestra de números aleatorios uniformes en (0,1). Es decir, basta montar
un cuadro como el anterior donde los intervalos acumulativos Ii se formarían ahora con los
Pi = Mi/M, en vez de con los Mi. Y en vez de obtener números aleatorios entre 1 y M, se
obtendrían entre 0 y 1.
Una variante que abrevia el método del tamaño acumulativo la constituye el método de
Lahiri, que permite también seleccionar muestras con reposición y probabilidades
proporcionales a los tamaños.
Sea M0 un número entero mayor o igual que todos los Mi, por ejemplo,
{ ( M i ) . Elegimos un par de números aleatorios (i, j) tales que 1 i N y 1 j M0.
M 0 = Max
i =1, 2 ,..., N
Decimos que un procedimiento aleatorio de muestreo es sin reposición cuando todas las
muestras que tienen algún elemento repetido son imposibles. Las unidades seleccionadas no
se reponen a la población para seleccionar la siguiente unidad de la muestra, con lo que las
muestras resultantes tienen todos sus elementos distintos.
Decimos que un procedimiento aleatorio de muestreo es con probabilidades iguales
cuando todas las unidades de la población ui tienen la misma probabilidad de ser elegidas
para la muestra en una determinada extracción. En caso de que no sea la misma estaremos
ante muestreo con probabilidades desiguales. Tanto el muestreo con reposición como el
muestreo sin reposición pueden ser con probabilidades iguales o desiguales.
n n
1 n
Yi
$HT = ∑wY
i i =∑ Yi = ∑
i =1 i =1 i i =1 i
www.FreeLibros.org
Muestreo estadístico: conceptos, estimadores y su distribución 57
N n
Xi
Total = X = ∑ X i ⇒ Yi = X i ⇒ Xˆ HT = ∑
i =1 i =1 i
N
Xi X ˆ 1 n
Xi
Media = X =∑
i =1 N
⇒ Yi = i ⇒ X HT =
N N
∑
i =1 i
N
A n
Total de clase = A = ∑ Ai ⇒ Yi = Ai ⇒ Aˆ HT = ∑ i
i =1 i =1 i
N
A Ai 1 n
Ai
Proporción = P = ∑ i ⇒Yi = ⇒ PˆHT = ∑
i =1 N N N i =1 i
Yj
( )= ∑ Yi 2
(1
i ) + 2∑∑ Yi
N N N
V ˆHT ( ij
i j )
i =1 i i =1 j >i i j
donde i es la probabilidad de que la unidad i de la población pertenezca a la muestra y ij es
la probabilidad de que el par de unidades de la población (i,j) pertenezcan a la muestra.
Estimación de la varianza del estimador de Horvitz y Thompson
Y Y j ( ij
i )
( ) Yi 2
n n n
V HT = ∑ 2 (1
i ) + 2∑∑ i
ˆ ˆ
i =1 i i =1 j >i i j ij
Estimador de la varianza de Yates y Grundy para el estimador de Horvitz y Thompson
⎛ Y Y j ⎞ ( i j
ij )
2
( )
n n
Vˆ ˆHT = ∑∑⎜ i
⎟
⎜
i =1 j >i ⎝ i j ⎟⎠ ij
Todas las fórmulas para estimadores y errores vistas hasta ahora para el caso general
sin reposición con probabilidades desiguales son válidas para el caso particular de
probabilidades iguales sin reposición haciendo las siguientes sustituciones:
n n(n
1)
i = , ij =
N N ( N
1)
Se observa que cualquier método de selección sin reposición queda perfectamente
definido al conocer i yij ya que los estimadores y sus errores dependen sólo de estos valores.
www.FreeLibros.org
58 Muestreo estadístico. Conceptos y problemas resueltos
UN U3
MN bolas ..... M3 bolas
U1 U2
M1 bolas M2 bolas
Mi ∑
Mi
Mi Mi N N
M
Pi = = N ⇒ ∑ Pi = ∑ = i =1
= =1
M i =1 M M M
∑Mi i =1
i =1
con lo que el modelo está bien definido. Los valores i y ij relativos, respectivamente, a la
probabilidad de que una unidad de la población pertenezca a la muestra y de que un par de
unidades de la población pertenezcan a la muestra para muestras de tamaño 2 son:
⎛ ⎞ ⎡ 1
⎜ N Pj ⎟ ⎛ 1
2 Pi N
Pi ⎞ 1 ⎤
i = Pi ⎜1 + ∑ ⎟ = P ⎜
i⎜ + ∑ ⎟⎟ ij = Pi Pj ⎢ + ⎥
⎜ j =1 1
Pj ⎟ ⎝ 1
Pi i =1 1
Pi ⎠ ⎣⎢1
Pi 1
Pj ⎦⎥
⎝ j i ⎠
Al conocer i yij este método de selección sin reposición queda perfectamente definido,
ya que los estimadores y sus errores dependen sólo de estos valores.
www.FreeLibros.org
Muestreo estadístico: conceptos, estimadores y su distribución 59
Brewer propuso un método de selección para muestras de tamaño n tal que la primera unidad
se extrae sin reposición con probabilidad proporcional al valor:
k i = Pi
(1
Pi ) Pi < ½
(1
2 Pi )
y el resto de las extracciones se realizan sin reposición y con probabilidades proporcionales a Pi .
Para muestras de tamaño 2 las probabilidades i y ij son las siguientes:
2 Pi Pj ⎡ 1 1 ⎤
i = 2Pi ij = * ⎢ + ⎥
N
Pi ⎢1
2 Pi 1
2 Pj ⎦⎥
1+ ∑ ⎣
i =1 1
2 Pi
⎡ 1 1 ⎤
k j = Pj ⎢ + ⎥
⎢⎣1
2 Pi 1
2 Pj ⎥⎦
n
1 n
1 n
1 n
2 n
1 ⎡ N
n
ij = Pi * + Pj + (1
(Pi + Pj )) * * = *⎢ (Pi + Pj ) + n
2 ⎤⎥
N
1 N
1 N
1 N
2 N
1 ⎣ N
2 N
2⎦
www.FreeLibros.org
60 Muestreo estadístico. Conceptos y problemas resueltos
Este método de Ikeda es un caso particular del método más general de Mitzuno, que
consiste en comenzar efectuando m extracciones sin reposición y con probabilidades iguales; en
la extracción m + 1 se asignan probabilidades:
m
Pr
Pi + ∑
r =1 N
m
donde Pr corresponde a la unidad extraída en r-ésimo lugar (1 r m), y por último las
n
(m+1) unidades muestrales restantes se seleccionan sin reposición y probabilidades
iguales. El método de Ikeda es un caso particular del método de Mitzuno para m = 0.
P (~
x ) = P(U 1 , LU 1 , U 2 , L , U 2 , L , U N , L , U N ) = P(e1 = t1 , e 2 = t 2 , L , e N = t N )
1424 3 14243 14243
t1 veces t2 veces t N veces
⎛ M 1 ⎞⎛ M 2 ⎞ ⎛ M N ⎞ ⎛ M
P1 ⎞⎛ M
P2 ⎞ ⎛ M
PN ⎞
⎜⎜ ⎟⎟⎜⎜ ⎟⎟L ⎜⎜ ⎟⎟ ⎜⎜ ⎟⎟⎜⎜ ⎟⎟L ⎜⎜ ⎟⎟
⎝ t1 ⎠⎝ t 2 ⎠ ⎝ t N ⎠ ⎝ t1 ⎠⎝ t 2 ⎠ ⎝ t N ⎠ N
=
⎛ M1 + M 2 +LM N ⎞
=
⎛M ⎞
con ∑t
i =1
i =n
⎜⎜ ⎟⎟ ⎜⎜ ⎟⎟
⎝ t1 + t 2 + L t N ⎠ ⎝n⎠
Mediante selección con probabilidades gradualmente variables, el estimador lineal
N
insesgado (de Sánchez Crespo y Gabeiras) para el parámetro poblacional = ∑ Yi será:
i =1
n n
1 n
Y
ˆSCG = ∑ i Yi = ∑ Yi =∑ i = ˆHH
i =1 i =1 nPi i =1 nPi
www.FreeLibros.org
Muestreo estadístico: conceptos, estimadores y su distribución 61
que coincide con la expresión del estimador de Hansen y Hurwitz para muestreo con
reposición y probabilidades desiguales. Se cumple que:
( )
V ˆSCG =
M
n ˆ
M
1
V ( HH )
M
n 1 ⎡ n ⎛Y ⎞
2
⎤ M
n
Vˆ (ˆSCG ) = ⎢∑ ⎜ i ⎟⎟
nˆSCG
2
⎥= Vˆ (ˆHH )
M n( n
1) ⎢ i =1 ⎜⎝ Pi ⎠ ⎥⎦ M
⎣
Se observa que el estimador de Sánchez Crespo y Gabeiras tiene menor varianza y
menor varianza estimada que el estimador de Hansen y Hurwitz, ya que:
( )
V ˆSCG =
M
n ˆ
M
1
V ( HH ) V (ˆHH ) y Vˆ ˆSCG =
M
( )
M
n ˆ ˆ
V ( HH ) Vˆ (ˆHH )
Método de Murthy
Murthy mejoró un método anterior de Des Raj extrayendo unidades sucesivas para la muestra
con probabilidades Pi, Pj(1
Pi), Pk(1
Pi
Pj) y así sucesivamente. Propuso el estimador del total:
n
∑ P( S / i) X ⎛ X ⎞
2
( ) 1
[P( S ) P( S / i, j )
P( S / i) P( S / j )]Pi Pj ⎜⎜ X i
j ⎟⎟
i n n
Xˆ M = i =1
, Vˆ Xˆ M = ∑ ∑
P( S ) P( S ) 2 i =1 j > i
⎝ Pi Pj ⎠
www.FreeLibros.org
62 Muestreo estadístico. Conceptos y problemas resueltos
MÉTODO DE MONTECARLO
Consideremos la variable aleatoria discreta siguiente y veremos cómo se toma una muestra de ella.
x P(x) F(x)
_______________________________________
0 0,41 0,41
1 0,26 0,67
2 0,18 0,85
3 0,10 0,95
4 0,05 1
Observamos los valores de la función de distribución y, basándonos en ellos,
construimos la tabla:
Intervalos x F(x)
_______________________________________
00-40 0 0,41
41-66 1 0,67
67-84 2 0,85
85-94 3 0,95
95-99 4 1
Para seleccionar la muestra aleatoria según la variable X, elegimos un número
aleatorio entre 0 y 99 y observamos en qué intervalo cae, eligiendo para la muestra el valor x
correspondiente a ese intervalo. También se puede tomar el número aleatorio y convertirlo
en decimal NA (por ejemplo, si sale 69 utilizamos NA = 0,69) y tomar para la muestra el
valor x más pequeño que verifica F(x) > NA
F(x)
1
0,95
0,85
NA=0,69
0,67
0,41
0 1 2 3 4 x
El valor x más pequeño que verifica F(x) > 0,69 es x = 2, luego el primer valor para
la muestra es x = 2.
www.FreeLibros.org
Muestreo estadístico: conceptos, estimadores y su distribución 63
F(x)
NA
x=F-1(NA) x
Dado el número aleatoria NA, se toma para la muestra el valor x tal que x=F-1(NA).
www.FreeLibros.org
64 Muestreo estadístico. Conceptos y problemas resueltos
PROBLEMAS RESUELTOS
2.1. Un investigador desea muestrear tres hospitales de entre los seis que existen en una ciudad,
con el propósito de estimar la proporción de pacientes que han estado (o estarán) en el
hospital por más de dos días consecutivos. Puesto que los hospitales varían en tamaño, éstos
serán muestreados con probabilidades proporcionales al número de sus pacientes. Con la
información sobre los hospitales dada en la tabla adjunta se selecciona una muestra de tres
hospitales con probabilidades proporcionales al tamaño (número de pacientes) con reposición
utilizando el modelo del tamaño acumulativo (o modelo polinomial).
Puesto que serán seleccionados tres hospitales, deben ser elegidos tres números aleatorios entre el
0001 y el 1559 = ∑Pacientes. Nuestros números elegidos son 1505, 1256 y 0827. ¿Qué
hospitales serán elegidos para la muestra? Supóngase que los hospitales muestreados registraron
los siguientes datos sobre el número de pacientes con permanencia de más de dos días:
1) Estimar la proporción de pacientes con permanencia superior a dos días para los seis
hospitales.
2) Establecer un límite para el error de estimación con una confianza del 95%.
Para seleccionar tres hospitales para la muestra se eligen tres números aleatorios
entre 0001 y 1559 que resultan ser el 1505, el 1256 y el 0827. Localizados estos números en
la columna de los intervalos acumulados, seleccionamos para la muestra los hospitales 3, 5 y
6. A continuación se presenta un esquema ilustrativo de la selección de las unidades
muestrales.
www.FreeLibros.org
Muestreo estadístico: conceptos, estimadores y su distribución 65
M3 = 432
M5=280
M4=220 M2=109 A2 = 150
PPT M3=432 P 2=150/280
M5=280 A3 = 250 A1=80
P3=250/432 P1= 80
190
M6=190 M1=328 M6=190
N = 6, M=1559 n=3
1 ˆ 1 n
Xi 1 n
Mi Xi 1 n 1 n 1 ⎛ 80 150 250 ⎞
Xˆ = X HH = ∑ nP = ∑ = ∑ X i ⇒ Pˆ = ∑ Pˆi = ⎜ + + ⎟ = 0,51
M M i M i M n i n i 3 ⎝ 190 280 432 ⎠
i
n i
M
Por lo tanto, se estima que un 51% de los pacientes permanece más de dos días en el
hospital. A continuación hallamos el error de esta estimación.
2
⎛ Xi ⎞
2 ⎜ ⎟
2
n ⎛ ⎞ n ⎜ M ⎟
1 Y ˆ 1 ˆ 1 ⎛ n ˆ ⎞
Vˆ (ˆHH ) = ∑ ⎜ i
ˆHH ⎟ ˆ
⇒ V ( X HH ) = ∑⎜
X HH ⎟ = ⎜ ∑ X i
X HH ⎟
n(n
1) i =1 ⎜⎝ Pi ⎟
⎠ n(n
1) i =1 ⎜ M i ⎟ n(n
1) ⎝ i =1 ⎠
⎜ M ⎟
⎝ ⎠
con lo que se tiene:
∑ (Pˆ )
n 2
Pˆ
1 ⎡⎛ 80 ⎞ ⎤
2 2 2
()
i
⎞ ⎛ 150 ⎞ ⎛ 250
Vˆ Pˆ = i
= ⎢⎜
0 ,51 ⎟ + ⎜
0 ,51 ⎟ + ⎜
0 ,51 ⎟ ⎥ = 0,0022
n (n
1) 3
2 ⎢⎣⎝ 190 ⎠ ⎝ 280 ⎠ ⎝ 432 ⎠ ⎥⎦
()
Cˆ v Pˆ =
Vˆ Pˆ
=
()
0,0022
= 0,0091 1%
Pˆ 0,51
Se observa que el error relativo de muestreo es del 1%. A continuación se realiza
una estimación por intervalos al 95% de confianza.
www.FreeLibros.org
66 Muestreo estadístico. Conceptos y problemas resueltos
2.2. Una multinacional tiene un total de 40.000 trabajadores distribuidos en 400 fábricas de 100
obreros cada una. Una muestra aleatoria con probabilidades iguales sin reposición de 25
fábricas presenta la siguiente distribución de obreros mayores de 50 años:
Total de obreros
12 17 23 33 36
mayores de 50 años
N º de fábricas
2 3 9 5 6
de la muestra
Estimar el total y la proporción de obreros de la multinacional con más de 50 años, así como
sus errores de muestreo absolutos y relativos.
www.FreeLibros.org
Muestreo estadístico: conceptos, estimadores y su distribución 67
9
M2=100 A3 = 23
PI 3
A4 = 33
5 A2 = 17
SR
M400=100 M1=100 A5 = 36 A1 = 12
6 2
N = 400 n = 20
ij ⎜ ⎟
⎝ i j ⎠
2
i< j 0,00376
0,0625 i < j
[ ]
= 9,957 2
3(12
17 ) + L + 5
6(33
36) 2 = 386906,5
2
Vˆ ( Aˆ HT ) = 9,957[2*3(12-17)2+2*9(12-23)2+2*5(12-33)2+2*6(12-36)2+3*9(17-23)2+3*5(17-33)2
+3*6(17-36)2 +9*5(23-33)2+9*6(23-36)2+5*6(33-36)2 = 386906,553
Aˆ 10608
PˆHT = HT = = 0,2642 = 26,42%
M 40000
El estimador insesgado de su varianza será :
Vˆ ( Aˆ HT ) 386906,5
Vˆ ( PˆHT ) = = = 0,000242
M2 40000 2
El error absoluto de muestreo será ( PˆHT ) = 0,000242 = 0,0155 , con lo que el error
( PˆHT ) 0,0155
relativo valdrá
100 =
100 = 0,05863 5,8% .
PˆHT 0,2642
www.FreeLibros.org
68 Muestreo estadístico. Conceptos y problemas resueltos
Grupos ( Población) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Mi 44 33 26 22 76 63 20 44 54 34 46 24 46 100 15
Extraemos una muestra de cinco grupos con probabilidades proporcionales a los tamaños de
los grupos con reemplazo y anotamos el total de horas durante una semana que todos los
estudiantes de cada grupo han empleado para estudiar la materia de Introducción a la
Estadística. Los datos se recogen en la siguiente tabla:
Grupos ( Muestra) a b c d e
Horas 120 203 100 90 40
www.FreeLibros.org
Muestreo estadístico: conceptos, estimadores y su distribución 69
La muestra estará formada por los grupos {6, 14, 11, 9, 7} cuyos tamaños son los
siguientes:
Grupos ( Muestra) 6 14 11 9 7
Tamaños ( M i ) 63 100 54 46 20
y el número total de horas semanales empleadas por los estudiantes de esos grupos para
estudiar la materia Introducción a la Estadística es el siguiente:
Grupos ( Muestra) 6 14 11 9 7
Horas ( X i ) 120 203 100 90 40
1 ⎡⎛ 120 ⎞⎤
2 2 2 2 2
ˆ ⎛ ˆ ⎞ ⎞ ⎛ 203 ⎞ ⎛ 100 ⎞ ⎛ 90 ⎞ ⎛ 40
V ⎜ X HH ⎟ = ⎢⎜
1,94⎟ + ⎜
1,94⎟ + ⎜
1,94⎟ + ⎜
1,94⎟ + ⎜
1,94⎟ ⎥ = 0,0034
⎝ ⎠ 5
4 ⎢⎣⎝ 63 ⎠ ⎝ 100 ⎠ ⎝ 54 ⎠ ⎝ 46 ⎠ ⎝ 20 ⎠ ⎥⎦
Vˆ ⎛⎜ Xˆ HH ⎞⎟
()
Cˆ v Pˆ =
⎝ ⎠
=
0,0034
= 0,03 3%
Xˆ HH
1,94
www.FreeLibros.org
70 Muestreo estadístico. Conceptos y problemas resueltos
www.FreeLibros.org
Muestreo estadístico: conceptos, estimadores y su distribución 71
www.FreeLibros.org
72 Muestreo estadístico. Conceptos y problemas resueltos
La muestra estará formada por los grupos {5, 9, 14, 13, 12} cuyos tamaños son los
siguientes:
Grupos ( Muestra) 5 9 14 13 12
Tamaños ( M i ) 76 54 100 46 24
y el número total de horas semanales empleadas por los estudiantes de esos grupos para
estudiar la materia Introducción a la Estadística es el siguiente:
Grupos ( Muestra) 5 9 14 13 12
Horas ( X i ) 120 203 100 90 40
1 ⎡⎛ 120 ⎞⎤
2 2 2 2 2
⎞ ⎛ 203 ⎞ ⎛ 100 ⎞ ⎛ 90 ⎞ ⎛ 40
Vˆ ⎛⎜ Xˆ HH ⎞⎟ = ⎢⎜
1,99⎟ + ⎜
1,99⎟ + ⎜
1,99⎟ + ⎜
1,99⎟ + ⎜
1,96⎟ ⎥ = 0,73
⎝ ⎠ 5
4 ⎣⎢⎝ 76 ⎠ ⎝ 54 ⎠ ⎝ 100 ⎠ ⎝ 46 ⎠ ⎝ 24 ⎠ ⎦⎥
Vˆ ⎛⎜ Xˆ HH ⎞⎟
⎝ ⎠ 0,73
Cˆ v ⎛⎜ Xˆ HH ⎞⎟ = = = 0,429 43%
⎝ ⎠ X ˆ 1,99
HH
www.FreeLibros.org
Muestreo estadístico: conceptos, estimadores y su distribución 73
www.FreeLibros.org
74 Muestreo estadístico. Conceptos y problemas resueltos
2.5. Resolver el problema anterior suponiendo que se selecciona la muestra {a, b, c, d, e} sin
reposición utilizando el método de Ikeda.
Mediante el método de Ikeda la primera unidad se obtiene sin reposición con probabilidad Pi
proporcional a su tamaño Mi y las n
1 = 4 unidades restantes de la muestra se seleccionan sin
reposición y con probabilidades iguales (1/4) descartando el elemento elegido inicialmente.
N
n n
1 n
1 ⎡ N
n
i = * Pi + ij = *⎢ (Pi + Pj ) + n
2 ⎤⎥
N
1 N
1 N
1 ⎣ N
2 N
2⎦
Las probabilidades Pi, i y los cuatro números aleatorios restantes para seleccionar
las cuatro unidades que faltan para completar la muestra, pueden obtenerse como se indica
en la tabla Excel siguiente.
www.FreeLibros.org
Muestreo estadístico: conceptos, estimadores y su distribución 75
La muestra estará formada por los grupos {5, 9, 14, 13, 12} cuyos tamaños son los
siguientes:
Grupos ( Muestra) 5 11 4 2 12
Tamaños ( M i ) 76 46 22 33 24
y el número total de horas semanales empleadas por los estudiantes de esos grupos para
estudiar la materia Introducción a la Estadística es el siguiente:
Grupos ( Muestra) 5 11 4 2 12
Horas ( X i ) 120 203 100 90 40
1 ˆ 1 25
Xi 1 ⎛ 120 203 100 90 40 ⎞ 1658
Xˆ HT = X HT = ∑ = ⎜ + + + + ⎟= = 2,56
M M i =1 i 647 ⎝ 0,369 0,336 0,310 0,322 0,312 ⎟⎠ 647
⎜
Por lo tanto, se estima que el promedio de horas semanales que dedican los estudiantes a
la materia de Introducción a la Estadística es prácticamente dos horas y media. A continuación
hallamos el error de esta estimación a través de la estimación de la varianza. En la siguiente tabla
se presentan todos los cálculos necesarios para realizar la estimación (N=15, n=5).
www.FreeLibros.org
76 Muestreo estadístico. Conceptos y problemas resueltos
1 ⎡5 X X X j ⎛ ij
i j ⎞⎤
( )
2
1 5 5
Vˆ ⎛⎜ Xˆ HT ⎞⎟ = 2 Vˆ Xˆ HT = 2 ⎢∑ 2i (1
i ) + 2∑ ∑ i ⎜ ⎟⎥ =
⎝ ⎠ M M ⎢⎣ i =1 i i =1 j > i i j
⎜ ⎟⎥
⎝ ij ⎠⎦
1 ⎡ X1 ⎛ X X ⎛
⎞ X X ⎛
⎞ ⎞⎤
2 2
X
⎢ (1
1 ) + L + 5 (1
5 ) + 2⎜⎜ 1 2 ⎜⎜ 12 1 2 ⎟⎟ + L + 4 5 ⎜⎜ 45 4 5 ⎟⎟ ⎟⎥ =
⎟
M ⎢⎣ 1 5 ⎝ 1 2 ⎝ 12 4 5 ⎝ 45
2
⎠ ⎠ ⎠⎥⎦
443913,7269
346506,8426
= = 0,232692
647 2
www.FreeLibros.org
Muestreo estadístico: conceptos, estimadores y su distribución 77
2.6. Resolver el problema anterior suponiendo que se selecciona la muestra {a, b, c, d, e} sin
reposición utilizando el método de Sampford.
www.FreeLibros.org
78 Muestreo estadístico. Conceptos y problemas resueltos
⎛ ⎡ ⎤ ⎞
⎜1 + ⎢(Pi + Pj )
∑ Pk2 ⎥ + 2(Pi 2 + Pj2 )
2∑ Pk3
(n
2) Pi Pj + ⎟
⎜ ⎣ k ⎦ k ⎟
ij n(n
1) Pi Pj ⎜ ⎟
⎜ + (n
3)(Pi + Pj )
∑ Pk3
(n
3)⎛⎜ ∑ Pk2 ⎞⎟ ⎟
⎜ ⎟
⎝ k ⎝ k ⎠ ⎠
Para llevar a la práctica el método de Sampford se calculan los Pi = Mi/M y a
continuación se hallan Pi2 y Pi3, valores que se utilizarán para calculai ij. La siguiente
tarea es calcular Pi/(1
5Pi), Pi’ = [Pi/(1
5Pi)]/ [Pi/(1
5Pi)] y i = 5Pi.
La siguiente tarea es extraer las cinco unidades muestrales. La primera unidad se extrae
con probabilidad Pi = Mi/M proporcional a su tamaño Mi y las siguientes unidades se extraen con
probabilidades Pi’= [Pi/(1
5Pi)]/[Pi/(1
5Pi)] proporcionales a Pi/(1
5Pi), con reemplazamiento.
Si sale alguna unidad repetida se repiten otra vez todas las extracciones hasta que no salga
ninguna repetida. Para elegir la primera unidad proporcional a su tamaño podemos utilizar el
método de Lahiri del problema 2.4, resultando seleccionada como primera unidad muestral u5.
Para elegir las cuatro siguientes unidades volvemos a repetir el método de Lahiri [extracción de
pares de números aleatorios (i,j) con 1 i 15 y 0 j Máx(Mi’) = 0,68 hasta que j Mi’] y
resultan elegidas u3, u8, u13 y u14. Las tablas siguientes ilustran las fórmulas con Excel y los
resultados obtenidos.
www.FreeLibros.org
Muestreo estadístico: conceptos, estimadores y su distribución 79
La muestra estará formada por los grupos {5, 3, 8, 13, 14} cuyos tamaños son los
siguientes:
Grupos ( Muestra) 5 3 8 13 14
Tamaños ( M i ) 76 26 44 46 100
y el número total de horas semanales empleadas por los estudiantes de esos grupos para
estudiar la materia Introducción a la Estadística es el siguiente:
Grupos ( Muestra) 5 3 8 13 14
Horas ( X i ) 120 203 100 90 40
1 ˆ 1 25
Xi 1 ⎛ 120 203 100 90 40 ⎞ 1813,7
Xˆ HT = X HT = ∑ = ⎜⎜ + + + + ⎟= = 2,8
M M i =1 i 647 ⎝ 0,587 0,201 0,340 0,355 0,772 ⎟⎠ 647
Por lo tanto, se estima que el promedio de horas semanales que dedican los
estudiantes a la materia de Introducción a la Estadística es 2,8 horas. A continuación
hallamos el error de esta estimación a través de la estimación de la varianza. Ahora se
presenta la tabla con todos los cálculos necesarios para realizar la estimación (N = 15, n = 5).
www.FreeLibros.org
80 Muestreo estadístico. Conceptos y problemas resueltos
1 ⎡ 5 X2 X X j ⎛⎜ ij
i j ⎞⎤
1
( )
5 5
Vˆ ⎛⎜ Xˆ HT ⎞⎟ = 2 Vˆ Xˆ HT = 2 ⎢∑ 2i (1
i ) + 2∑∑ i ⎟⎥ =
⎝ ⎠ M M ⎢⎣ i =1 i ⎜
i =1 j > i i j ⎝ ij ⎟⎥
⎠⎦
⎡ X 12 ⎛ ⎛ 45
4 5 ⎞ ⎞⎤
(1
5 ) + 2⎜⎜ X 1 X 2 ⎜⎜ 12
1 2
1 X 52 ⎛ ⎞ X X
⎢ (1
1 ) + L + ⎟⎟ + L + 4 5 ⎜⎜ ⎟⎟ ⎟⎥ =
⎟
M2 ⎢⎣ 1 5 ⎝ 1 2 ⎝ 12 ⎠ 4 5 ⎝ 45 ⎠ ⎠⎥⎦
931870,648
385862,8633
= = 1,3043
647 2
Vˆ ⎛⎜ Xˆ HT ⎞⎟
⎝ ⎠ 1,3043
Cˆ v ⎛⎜ Xˆ HT ⎞⎟ = = = 0,4074 41%
⎝ ⎠ Xˆ
HT
2,8
www.FreeLibros.org
Muestreo estadístico: conceptos, estimadores y su distribución 81
2.7. Resolver el problema anterior suponiendo que se selecciona una muestra de tamaño 2 sin
reposición mediante el método de Brewer.
Brewer propuso un método de selección para muestras de tamaño n tal que la primera unidad
se extrae sin reposición con probabilidad proporcional al valor:
k i = Pi
(1
Pi ) Pi < ½
(1
2 Pi )
y el resto de las extracciones se realizan sin reposición y con probabilidades proporcionales a Pi .
2 Pi Pj ⎡ 1 1 ⎤
i = 2Pi ij = * ⎢ + ⎥
N
Pi ⎢1
2 Pi 1
2 Pj ⎦⎥
1+ ∑ ⎣
i =1 1
2 Pi
Las tablas siguientes ilustran las fórmulas con Excel y los resultados obtenidos.
www.FreeLibros.org
82 Muestreo estadístico. Conceptos y problemas resueltos
La muestra estará formada por los grupos {12, 4} cuyos tamaños son los siguientes:
Grupos ( Muestra) 12 4
Tamaños ( M i ) 24 22
y el número total de horas semanales empleadas por los estudiantes de esos grupos para
estudiar la materia Introducción a la Estadística es el siguiente:
Grupos ( Muestra) 12 4
Horas ( X i ) 120 203
1 ˆ 1 25
Xi 1 ⎛ 120 203 ⎞ 4602,5227
Xˆ HT = X HT = ∑ = ⎜⎜ + ⎟= = 4,614
M M i =1 i 647 ⎝ 0,074 0,068 ⎟⎠ 647
Por lo tanto, se estima que el promedio de horas semanales que dedican los
estudiantes a la materia de Introducción a la Estadística es 4,6 horas. A continuación
hallamos el error de esta estimación a través de la estimación de la varianza. Ahora se
presenta la tabla con todos los cálculos necesarios para realizar la estimación (N = 15, n = 2).
www.FreeLibros.org
Muestreo estadístico: conceptos, estimadores y su distribución 83
1 ⎡ 5 X i2 X X ⎛
⎞⎤
⎞⎟ = 1 Vˆ Xˆ ( )
5 5
Vˆ ⎛⎜ Xˆ HT = 2 ∑
⎢ (1
i ) + 2∑∑ i j ⎜⎜ ij i j ⎟⎥ =
⎝ ⎠ M 2 HT
M ⎢⎣ i =1 i 2
i =1 j > i i j ⎝ ij ⎟⎥
⎠⎦
1 ⎡ X 12 ⎛ ⎞ ⎞⎤
(1
2 ) + 2⎜⎜ X 1 X 2 ⎜⎜ 12
1 2 ⎟⎟ ⎟⎟⎥ = 9,458
X 22 ⎛
2 ⎢
(1
1 ) +
M ⎢⎣ 12
22
⎝ 1 2 ⎝ 12 ⎠ ⎠⎥⎦
Vˆ ⎛⎜ Xˆ HT ⎞⎟
⎝ ⎠ 9,458
Cˆ v ⎛⎜ Xˆ HT ⎞⎟ = = = 0,66 66%
⎝ ⎠ X ˆ 4,614
HT
www.FreeLibros.org
84 Muestreo estadístico. Conceptos y problemas resueltos
2.8. Resolver el problema anterior suponiendo que se selecciona una muestra de tamaño 2 sin
reposición utilizando el estimador de Murthy.
Murthy mejoró un método anterior de Des Raj extrayendo unidades sucesivas para la muestra
con probabilidades Pi, Pj(1
Pi), Pk(1
Pi
Pj) y así sucesivamente. Propuso el estimador del total:
∑ P( S / i) X ⎛ X ⎞
2
( ) 1
[P( S ) P( S / i, j )
P( S / i) P( S / j )]Pi Pj ⎜⎜ X i
j ⎟⎟
i n n
Xˆ M = i =1
, Vˆ Xˆ M = ∑ ∑
P( S ) P( S ) 2 i =1 j > i
⎝ Pi Pj ⎠
2
⎡ Pj ⎤ 1 ⎡ Xi Xj ⎤ (1
Pi )(1
Pj )(1
Pi
Pj ) ⎛ Xi X j ⎞
i = Pi ⎢1+ ∑ ⎥ Xˆ M = ⎢(1
Pj ) + (1
Pi ) ⎥ , Vˆ(Xˆ M ) = ⎜
⎟
⎜P P ⎟
⎢⎣ j i 1
Pj ⎥⎦ 2
Pi
Pj ⎢⎣ Pi Pj ⎥⎦ (2
Pi
Pj )2 ⎝ i j ⎠
Las tablas siguientes ilustran las fórmulas con Excel y los resultados obtenidos.
www.FreeLibros.org
Muestreo estadístico: conceptos, estimadores y su distribución 85
La muestra estará formada por los grupos {10, 2} cuyos tamaños son los siguientes:
Grupos ( Muestra) 10 2
Tamaños ( M i ) 34 33
y el número total de horas semanales empleadas por los estudiantes de esos grupos para
estudiar la materia Introducción a la Estadística es el siguiente:
Grupos ( Muestra) 10 2
Horas ( X i ) 120 203
ESTIMADOR
MUESTRA Mi Pi=Mi/M i Xi Xi/Pi DEL TOTAL
10 34 0,05255 0,055375 120 2283,5294 3131,088537
2 33 0,051005 0,053834 203 3980,0303
1 ˆ 1 1 ⎡ Xi Xj⎤ 1
Xˆ HT = X HT = ⎢(1
Pj ) + (1
Pi ) ⎥= 3131,088 = 4,839
M M 2
Pi
Pj ⎣⎢ Pi Pj ⎦⎥ 647
Por lo tanto, se estima que el promedio de horas semanales que dedican los
estudiantes a la materia de Introducción a la Estadística es 4,8 horas. A continuación
hallamos el error de esta estimación a través de la estimación de la varianza.
⎡ (1
P )(1
P )(1
P
P ) ⎛ X X ⎞ ⎤
2
⎝ ⎠ M
1
( ) M
1
Vˆ ⎛⎜ Xˆ HT ⎞⎟ = 2 Vˆ Xˆ HT = 2 ⎢
⎢
i j
(2
Pi
Pj ) 2
i j
⎜ i
j ⎟ ⎥ = 1 1223240,6 = 2,92
⎜P Pj ⎟⎠ ⎥ 6472
⎣ ⎝ i ⎦
www.FreeLibros.org
86 Muestreo estadístico. Conceptos y problemas resueltos
Vˆ ⎛⎜ Xˆ HT ⎞⎟
⎝ ⎠ 2,92
Cˆ v ⎛⎜ Xˆ HT ⎞⎟ = = = 0,3532 35%
⎝ ⎠
HTXˆ 4,839
www.FreeLibros.org
Muestreo estadístico: conceptos, estimadores y su distribución 87
2.9. En una región montañosa de 25000 hectáreas se trata de estudiar la superficie dedicada a la
plantación de pinos. La región de divide en 100 zonas disjuntas lo más similares entre sí, de
tal forma que cada zona contiene plantas de todas las clases que crecen en la región. Se
extrae una muestra de 10 zonas con reemplazamiento y con probabilidades proporcionales a
sus superficies. Las proporciones de superficie total dedicadas a la plantación de pinos en
cada una de las zonas de la muestra son:
0.05, 0.25, 0.10, 0.30, 0.15, 0.25, 0.35, 0.25, 0.10 y 0.20
Se pide:
2) Contestar a las mismas preguntas del apartado anterior suponiendo que la selección es
sin reposición mediante el método de Ikeda. En este caso considerar la muestra con sólo
tres zonas de igual superficie (250 hectáreas) para las que las proporciones de superficie
total dedicadas a la plantación de pinos en cada una de ellas son 0.25, 0.35 y 0.40,
respectivamente. Se supone en este caso que las 100 zonas de la población son de igual
superficie.
N = 100 M = 25000 n = 20
www.FreeLibros.org
88 Muestreo estadístico. Conceptos y problemas resueltos
n
X n
Xi M n
Xi 25000
Xˆ HH = ∑ i = ∑ = ∑M = (0,05 + 0,25 + L + 0,20) = 5000
i =1 nPi i =1 M n i =1 10
n i i
M
2 2 2
n ⎛ Xi ˆ ⎞ n ⎛
Xi ˆ ⎞⎟
n ⎛
X ⎞
∑ ⎜
X ⎟ ∑ ⎜
X ∑ ⎜ M i
Xˆ HH ⎟
⎜
i =1 ⎝ Pi
HH ⎟ ⎜
i =1 ⎝ M i M
HH ⎟ ⎜ Mi ⎟
⎠ ⎠ i =1 ⎝ ⎠
Vˆ ( Xˆ HH ) = = = =
n(n
1) n(n
1) n(n
1)
(25000
0,05
5000) 2 + (25000
0,25
5000) 2 + L + (25000
0,20
5000) 2
= 590278
10(10
1)
Vˆ ( Xˆ ) 590278
Cˆ v( Xˆ ) = = = 0,15 (15%)
Xˆ 5000
ˆ ( Xˆ ) 590278
Xˆ ± = 5000 ± = [1564, 8346]
0,05
Para resolver el segundo apartado del problema consideramos la muestra con sólo tres
zonas de igual superficie (M1 = M2 = M3 = 250) para las que las proporciones de superficie total
dedicadas a la plantación de pinos en cada una de ellas son de 0,25, 0,35 y 0,40, respectivamente.
Como los Pi son proporcionales a las superficies de las zonas se tiene:
⎧ M 250
P = i = = 0,01 (i = 1,2,3 j = 1,2,3)
X1 X1 ⎫ ⎪ i M 25000
= = 0,25 ⇒ X 1 = 62,5 ⎪ ⎪
M 1 250 ⎪ ⎪ i = Pi + n
1 (1
Pi ) = 0,01 + 2
0,9 = 0,028
X2 X ⎪⎪ ⎪⎪ N
1 99
= 2 = 0,35 ⇒ X 2 = 87,5⎬ ⇒ ⎨
P + Pj
M 2 250 ⎪ ⎪ ij = (n
1) [( N
n)
i +
n
2
]=
X3 X3 ⎪ ⎪ ( N
1) N
2 N
2
= = 0,40 ⇒ X 3 = 100 ⎪ ⎪
M 3 250 ⎪⎭ ⎪= (3
1) [(100
3)
0,02 + 3
2 ] = 0,006
⎪⎩ (100
1) 100
2 100
2
n
Xi 1
Sin reposición⇒ Xˆ HT = ∑ = (62,5 + 87,5 + 100) = 8928,6
i =1 i 0,028
www.FreeLibros.org
Muestreo estadístico: conceptos, estimadores y su distribución 89
2
n
⎛X ⎞ n
X X ⎛
i j ⎞
Vˆ ( Xˆ HT ) = ∑ ⎜⎜ i ⎟⎟ (1
i ) + 2∑ i j ⎜ ij ⎟ = 49429600
i =1 ⎝ i
⎜
i< j i j ⎝ ij ⎟
⎠ ⎠
49429600
Cˆ v( Xˆ ) = = 0,78 Xˆ ± ˆ ( Xˆ ) = [
5122.6, 22989.8]
8928,6
2.10. Una gran empresa tiene sus inventarios de equipo listados separadamente en 15
departamentos. Se selecciona una muestra de tres departamentos con reposición y
probabilidades proporcionales al número de artículos de equipo en cada departamento. La
tabla siguiente presenta el número de artículos de equipo NA en cada departamento D.
D NA D NA D NA D NA D NA
1 12 4 40 7 18 10 22 13 16
2 9 5 35 8 10 11 22 14 33
3 27 6 15 9 31 12 19 15 6
a) Suponiendo que los tres departamentos seleccionados (que serán los de mayor
probabilidad) tienen cada uno 2 artículos impropiamente identificados, estimar el número
total de artículos impropiamente identificados en la empresa y su error relativo de muestreo.
M1=12 M2 = 9 M3 =10
M4=40
A1 = 2
M4=40 M5 = 35 M6 =15 PPT M5=35 P 1=2/40
A 2 = 2 A3=2
M7=18 M8 = 10 M9 =31 CR P 2=2/35 P3= 2
33
M10=22 M11= 22 M12 =19 M14=33
40 35 33
P1 = , P2 = y P3 =
315 315 315
www.FreeLibros.org
90 Muestreo estadístico. Conceptos y problemas resueltos
Como el muestreo es con reposición, el estimador insesgado del total de la clase de los
artículos impropiamene clasificados vendrá dado por la fórmula de Hansen y Hurwitz.
n
A n
M i Pi 1 n M i Pi M n
315 ⎛ 2 2 2⎞
Aˆ HH = ∑ i = ∑ = ∑ = ∑P = i ⎜ + + ⎟ 18
i nPi i n Mi M n i Mi M n i 3 ⎝ 40 35 33 ⎠
P̂i = proporción muestral en el conglomerado i-ésimo.
()
Vˆ Aˆ = ⎝ i
n (n
1)
⎠ = ⎝ i
n (n
1)
⎠ = i
n (n
1)
=
315 2 ⎡⎛ 2 18 ⎞
2
⎛ 2 18 ⎞
2
⎛ 2 18 ⎞ ⎤
2
⎢⎜
⎟ +⎜
⎟ +⎜
⎟ ⎥ = 1,04209
3
2 ⎢⎣ ⎝ 40 315 ⎠ ⎝ 35 315 ⎠ ⎝ 33 315 ⎠ ⎥⎦
1 ˆ 1 n
A 1 ⎛M n
⎞ 1 n 1 ⎛ 36 30 27 ⎞
PˆHH = AHH = ∑i nPi = M ⎜⎝ n ∑i i ⎟⎠ = n ∑i Pi = 3 ⎜⎝ 40 + 35 + 33 ⎟⎠ = 0,858
P
M M i
∑ (P
Pˆ )
n 2
1 ⎡⎛ 36 ⎞ ⎤
2 2 2
() 1
() ⎞ ⎛ 30 ⎞ ⎛ 27
i
Vˆ Pˆ = 2 Vˆ Aˆ = i
= ⎢⎜
0,858⎟ + ⎜
0,858⎟ + ⎜
0,858⎟ ⎥ = 0,000558
M n(n
1) 3
2 ⎣⎢⎝ 40 ⎠ ⎝ 35 ⎠ ⎝ 33 ⎠ ⎦⎥
ˆ ˆ
Pˆ ± Vˆ ( Pˆ ) = 0,858 ± 1,96 0,000558 = [0.8117, 0.9043]
2.11. Un gran banco que tiene 1000 sucursales con cuarenta microordenadores en cada una,
emprende un proceso de auditoría informática. Para ello se extrae una muestra sin reposición
y probabilidades iguales de 20 sucursales, resultando que en nueve de ellas no hay
microordenadores con defectos, en ocho hay un ordenador defectuoso y en tres hay dos
ordenadores defectuosos. Se pide:
2) Resolver el problema con reposición y comparar los resultados con los del apartado
primero.
www.FreeLibros.org
Muestreo estadístico: conceptos, estimadores y su distribución 91
Tenemos como datos N = 1000, M = 40000 y n = 20. Como el muestreo es sin reposición, el
total de microordenadores defectuosos puede estimarse mediante el estimador de Horvitz y
Thompson. Además, al ser el muestreo con probabilidades iguales tenemos que i = n/N =
20/1000 = 0,02 y ij = 20(20-1)/[1000(1000-1)] = 0,00038. Se tiene:
25
A 9
0 + 8
1 + 3
2
Aˆ HT = ∑ i = = 700
i =1 i 0,02
A Aj ⎛⎜ ij
i j ⎞ 1
0,02 20 2 2(0,00038
0,022 ) 20 20
( ) A2
20 20 20
Vˆ Aˆ HT = ∑ i2 (1
i ) + 2∑∑ i
⎟ 0,022 ∑ ∑∑ Ai Aj
⎟= Ai +
i =1 i
⎜
i =1 j >i i j ⎝ 0,022
0,00038 i =1 j >i
ij ⎠ i =1
⎡⎛ 9 ⎞ ⎛8 ⎞ ⎛3⎞ ⎤
2450(9
02 + 8
12 + 3
22 )
263,15⎢⎜⎜ ⎟⎟(0
0) + 9
8(0
1) + 9
3(0
2) + ⎜⎜ ⎟⎟(1
1) + 8
3(1
2) + ⎜⎜ ⎟⎟(2
2)⎥
⎣⎝ 2⎠ ⎝ 2⎠ ⎝ 2⎠ ⎦
= 25842,1
Vˆ ( Aˆ ) 25842,1
Cˆ v( Aˆ ) = = = 0,2296 (22,96%)
Aˆ 700
ˆ ( Aˆ ) 25842,1
Aˆ ± = 700 ± = [
907.55, 2307.55]
0,01
Para muestreo sin reposición, para estimar la varianza podríamos haber tomado el
estimador de Yates y Grundy:
2
20
j
ij
⎛ Ai A j ⎞ 2
⎟ = 0,02
0,00038 ∑ (Ai
A j )2 =
20
Vˆ ( Aˆ HT ) = ∑ ⎜
i
ij ⎜ ⎟
i< j ⎝ i j ⎠ 0,00038
0,02 2 i < j
[
= 131,58 9
8(0
1) + 9
3(0
2 ) L + 8
3(1
2) 2 = 26842,3
2 2
]
Se observa que el estimador de Yates y Grundy sobreestima la varianza en este caso.
www.FreeLibros.org
92 Muestreo estadístico. Conceptos y problemas resueltos
n
A n
A N n
1000
Aˆ HH = ∑ i = ∑ i = ∑A i = (9
0 + 8
1 + 3
2) = 700
i nPi 1 n 20
i
n i
()
i
Vˆ Aˆ = ⎝ i ⎠ = i ⎝ ⎠ = i =1
= i =1
=
n (n
1) n (n
1) 20 (20
1) 380
=
1000
38
[ 2 2 2
]
9 (10
0
7 ) + 8 (10
1
7 ) + 3(10
2
7 ) = 26842 ,1
Vˆ ( Aˆ ) 26842,1
Cˆ v( Aˆ ) = = = 0,234 (23,4%)
ˆA 700
ˆ ( Aˆ ) 26842,1
Aˆ ± = 700 ± = [
921.9, 2321.9]
0,01
Vˆ ( Aˆ ) 26842,3
Cˆ v( Aˆ ) = = = 0,234 (23,4%)
Aˆ 700
ˆ ( Aˆ ) 26842,1
Aˆ ± = 700 ± = [
938.35, 2338.35]
0,01
Se observa que los errores de muestreo estimados son ligeramente superiores en muestreo
con reposición. Además, como es natural, los intervalos de confianza son más anchos (o sea,
peores) en muestreo con reposición. La ganancia en precisión es (26842,1/25842,1-1)100=3,8%,
que es una cantidad pequeña. También se observa que el estimador de Yates y Grundy para
muestreo sin reposición sobreestima la varianza hasta hacerla incluso mayor que en el caso de
con reposición (debido a la baja ganancia en precisión del muestreo sin reposición).
www.FreeLibros.org
Muestreo estadístico: conceptos, estimadores y su distribución 93
2.12. Generar una muestra de tamaño 50 de cada una de las siguientes distribuciones:
a) Uniforme entre 10 y 20
b) Poisson con =1
Calcular la media aritmética en cada muestra y realizar un histograma para sus valores
comentando los resultados.
Para obtener muestras aleatorias según una distribución dada es necesario utilizar una
herramienta adecuada. Antiguamente se usaban tablas de números aleatorios, pero en la
actualidad cualquier software estadístico dispone de esta funcionalidad. Por ejemplo, Excel
dispone de dos funciones para selección de números aleatorios uniformemente con reposición.
La función ALEATORIO( ) devuelve un número aleatorio mayor o igual que 0 y menor que 1,
distribuido uniformemente. Cada vez que se calcula la hoja de cálculo, se devuelve un número
aleatorio nuevo. Si desea usar ALEATORIO para generar un número aleatorio, pero no desea
que los números cambien cada vez que se calcule la celda, puede escribir =ALEATORIO( ) en
la barra de fórmulas y, después, pulsar la tecla F9 para cambiar la fórmula a un número
aleatorio. Para generar un número real aleatorio entre a y b, use: ALEATORIO( )*(b-a)+a. No
obstante, la función ALEATORIO.ENTRE(a,b) devuelve un número entero aleatorio
uniforme entre los números a y b
Por otra parte, Excel permite obtener números aleatorios independientes extraídos
según una distribución dada utilizando herramientas de análisis. Si en el cuadro de diálogo
Análisis de datos de la Figura 2-1 elegimos Generación de números aleatorios, se obtiene el
cuadro de diálogo Generación de números aleatorios de la Figura 2-2. En el cuadro Números
de variables introduzca el número de columnas de valores que desee incluir en la tabla de
resultados. Si no introduce ningún número, Microsoft Excel rellenará todas las columnas del
rango de salida que se haya especificado. En el cuadro Cantidad de números aleatorios
introduzca el número de puntos de datos que desee ver. Cada punto de datos aparecerá en una
fila de la tabla de resultados. Si no introduce ningún número, Microsoft Excel rellenará todas
las columnas del rango de salida que se haya especificado. En el cuadro Distribución haga clic
en la distribución estadística que desee utilizar para crear los valores aleatorios.
www.FreeLibros.org
94 Muestreo estadístico. Conceptos y problemas resueltos
Normal: Caracterizada por una media y una desviación estándar. Una aplicación normal
utilizará una media de 0 y una desviación estándar de 1 para la distribución estándar normal.
Bernoulli: Caracterizada por la probabilidad de éxito (valor p) en un ensayo dado. La
variables aleatorias de Bernoulli tienen el valor 0 o 1; por ejemplo, puede trazarse una
variable aleatoria uniforme en el rango 0...1. Si la variable es menor o igual que la
probabilidad de éxito, se asignará el valor 1 a la variable aleatoria de Bernoulli; en caso
contrario, se le asignará el valor 0.
Binomial: Caracterizada por una probabilidad de éxito (valor p) durante un número de
pruebas; por ejemplo, se pueden generar variables aleatorias Bernoulli de número de
pruebas, cuya suma será una variable aleatoria binomial.
Poisson: Caracterizada por un valor lambda, igual a 1/media. La distribución de Poisson se
utiliza con frecuencia para caracterizar el número de incidencias por unidad de tiempo; por
ejemplo, el ritmo promedio al que llegan los vehículos a una garita de peaje.
Frecuencia relativa: Caracterizada por un límite inferior y superior, un incremento, un
porcentaje de repetición para valores y un ritmo de repetición de la secuencia.
Discreta: Caracterizada por un valor y el rango de probabilidades asociado. El rango debe
contener dos columnas. La columna izquierda deberá contener valores y la derecha
probabilidades asociadas con el valor de esa fila. La suma de las probabilidades deberá ser 1.
En el campo Parámetros introduzca un valor o valores para caracterizar la
distribución seleccionada. En el campo Iniciar con escriba un valor opcional a partir del cual
se generarán números aleatorios. Podrá volver a utilizar este valor para generar los mismos
números aleatorios más adelante. En el cuadro Rango de salida introduzca la referencia
correspondiente a la celda superior izquierda de la tabla de resultados. Microsoft Excel
determinará el tamaño del área de resultados y mostrará un mensaje si la tabla de resultados
reemplaza datos ya existentes. Haga clic en la opción En una hoja nueva para insertar una
hoja nueva en el libro actual y pegar los resultados comenzando por la celda A1 de la nueva
hoja de cálculo. Para asignar un nombre a la nueva hoja de cálculo, escríbalo en el cuadro.
Haga clic en la opción En un libro nuevo para crear un nuevo libro y pegar los resultados en
una hoja nueva del libro creado. En la Figura 2-3 se muestra la salida correspondiente a las
opciones de Generación de números aleatorios de la Figura 2-2 (10 números aleatorios
normales de media cero y varianza 1 con semilla 50).
Figura 2-3
Adicionalmente, Excel permite obtener una muestra aleatoria simple con reposición de
una población numérica dada como rango de entrada. Si en el cuadro de diálogo Análisis de datos
de la Figura 2-4 elegimos Muestra, se obtiene el cuadro de diálogo Muestra de la Figura 2-5. A
continuación se explica la funcionalidad de todos los campos del cuadro de diálogo Muestra.
www.FreeLibros.org
Muestreo estadístico: conceptos, estimadores y su distribución 95
Figura 2-4
Rótulos: Active esta casilla si la primera fila y la primera columna del rango de entrada
contienen rótulos. Desactívela si el rango de entrada carece de rótulos; Excel generará los
rótulos de datos correspondientes para la tabla de resultados.
Período: Introduzca el intervalo periódico en el que desee realizar la muestra. El valor n del
período del rango de entrada y cada valor n del período siguiente se copiarán en la columna
de resultados. El muestreo terminará cuando se llegue al final del rango de entrada.
www.FreeLibros.org
96 Muestreo estadístico. Conceptos y problemas resueltos
En una hoja nueva: Haga clic en esta opción para insertar una hoja nueva en el libro actual y
pegar los resultados comenzando por la celda A1 de la nueva hoja de cálculo. Para darle un
nombre a la nueva hoja de cálculo, escríbalo en el cuadro.
En un libro nuevo: Haga clic en esta opción para crear un nuevo libro y pegar los resultados
en una hoja nueva del libro creado.
Al pulsar Aceptar en la Figura 2-5, se obtiene la muestra aleatoria simple de tamaño
10 con reposición de la columna C de la Figura 2-6, que ha sido extraída de la población de
22 elementos de la columna B. Si la muestra se quiere sin reposición, se utiliza este mismo
procedimiento hasta obtener tantos elementos distintos como tamaño muestral se requiera.
Figura 2-7
www.FreeLibros.org
Muestreo estadístico: conceptos, estimadores y su distribución 97
Figura 2-8
Figura 2-11
www.FreeLibros.org
98 Muestreo estadístico. Conceptos y problemas resueltos
2.13. Sea la población {U1, U2, U3} en la que se conocen los valores de una determinada variable X:
X(U1)=2 X(U2)=3 y X(U3)=6. Se seleccionan dos unidades sin reemplazamiento con probabilidades
proporcionales a los valores de la variable X en cada extracción, resultando elegidas las unidades U1
y U3. Se pide:
1) Calcular la estimación puntual lineal insesgada para el total de la variable X.
2) Calcular la estimación por intervalos al 95% para el total de la variable X (población normal).
Como el muestreo es con probabilidades proporcionales a los números 2, 3 y 6,
tenemos que las probabilidades iniciales de selección de cada unidad poblacional para la
muestra son Pi = Mi/∑Mi, es decir: 2/11, 3/11 y 6/11. Como el método es sin reposición
tomamos como estimador del total el estimador de Horwitz y Thompson y tenemos:
⎛ 1
2 Pi 3
P ⎞
i = Pi ⎜⎜ +∑ i ⎟⎟
⎝ 1
Pi i =1 1
Pi ⎠
⎛ 1
2( 2 / 11) 2 / 11 3 / 11 6 / 11 ⎞
1 = (2 / 11)⎜ + + + ⎟ = 0,468
⎝ 1
2 / 11 1
2 / 11 1
3 / 11 1
6 / 11 ⎠
⎛ 1
2(3 / 11) 2 / 11 3 / 11 6 / 11 ⎞
2 = (3 / 11)⎜ + + + ⎟ = 0,660
⎝ 1
3 / 11 1
2 / 11 1
3 / 11 1
6 / 11 ⎠
⎛ 1
2(6 / 11) 2 / 11 3 / 11 6 / 11 ⎞
3 = (6 / 11)⎜ + + + ⎟ = 0,871
⎝ 1
6 / 11 1
2 / 11 1
3 / 11 1
6 / 11 ⎠
2
X 2 6
Xˆ HT = ∑ i = + = 11,16
i =1 i 0,468 0,871
12 = P(U1U3)=P(U1)P(U3/U1)+P(U3)P(U1/U3)=(2/11)(6/9)+(6/11)(2/5)=0,34
El valor anterior puede calculase también mediante:
⎛ 1 1 ⎞ 2 6⎛ 1 1 ⎞
ij = Pi Pj ⎜ + ⎟= +
⎟ 11 11 ⎜⎝ 1
2 / 11 1
6 / 11 ⎟⎠
=0,34
⎜1
P 1
P
⎝ i j ⎠
X X j ⎛⎜ ij
i j ⎞⎟ 4(1
0,468) 36(1
0,871)
( ) X2
2 2 2
Vˆ Xˆ HT = ∑ 2i (1
i ) + 2∑∑ i = + +
i =1 i i =1 j > i i j
⎜ ij ⎟ 0,468 2 0,8712
⎝ ⎠
2 6 0,34
(0,468)(0,871)
+2
= 15,837
11,711 = 4,126
0,468 0,871 0,34
( Xˆ HT ) 4,126
El error relativo de muestreo será
100 =
100 18,2%
Xˆ HT 22
La estimación por intervalos suponiendo normalidad en la población es:
www.FreeLibros.org
Muestreo estadístico: conceptos, estimadores y su distribución 99
2.14. Consideremos una región con N = 3 municipios con una población de 3, 5 y 7 miles de habitantes
cada uno. Sabemos que la variable X = Número de mujeres en cada municipio toma los valores 1,
3, y 4 (en miles). Para estudiar el número medio de mujeres en la región se toman muestras de dos
municipios con probabilidades proporcionales a sus tamaños sin reposición y sin tener en cuenta el
orden de colocación de sus elementos utilizando el método de Brewer. A partir de las distribuciones
en el muestreo de X̂ HT y Vˆ ( Xˆ HT ) , hallar V ( Xˆ HT ) , E ( Xˆ HT ) y E (Vˆ ( Xˆ HT )) . Comentar los
resultados.
Como estamos ante un método de selección de unidades primarias compuestas con
probabilidades iniciales proporcionales a los tamaños 3, 5 y 7, dichas probabilidades serán
{3/15, 5/15, 7/15}. Como no hay reposición y las probabilidades son desiguales, utilizamos el
estimador de Horwitz y Thompson.
Dado que el método de selección es el de Brewer tenemos:
2 Pi Pj ⎡ 1 1 ⎤
i = nPi = 2Pi , ij = * ⎢ + ⎥
N
Pi ⎢⎣1
2 Pi 1
2 Pj ⎥⎦
1+ ∑
i =1 1
2 Pi
www.FreeLibros.org
100 Muestreo estadístico. Conceptos y problemas resueltos
Según el esquema de probabilidades gradualmente variables, se puede suponer que existen seis
bolas en una urna de las que una bola representa a la unidad u1, dos bolas representan a la unidad
u2 y tres bolas representan a la unidad u3, ya que P1 = p(u1) = 1/6, P2 = p(u2) = 1/3 = 2/6 y P3 =
p(u3) = 1/2 = 3/6. En cada selección se extrae una única bola que no se repone a la urna para
seleccionar la siguiente bola, con lo que al seleccionar la segunda bola falta una bola de la urna.
Según este esquema, el espacio muestral y las probabilidades asociadas a las muestras serán:
S(X ) P (u i , u j ) = P (u i ) P (u j / u i ) + P (u j ) P (u i / u j )
(u 1 , u 2 ) 1 1 2 1 2
+
= = 0 ,13333333
6 5 6 5 15
(u 1 , u 3 ) 1 3 3 1 3
+
= = 0,2
6 5 6 5 15
2 1 1
(u 2 , u 2 )
= = 0 , 06666666
6 5 15
2 3 3 2 6
(u 2 , u 3 )
+
= = 0,4
6 5 6 5 15
3 2 3
= = 0,2
(u 3 , u 3 ) 6 5 15
n
X X X
Xˆ SCG = ∑ i = 1 + 2
i =1 nPi 2 P1 2 P2
⎞ 6
2 1 ⎛ X 12 X 22 X 32 ⎞
( )
Su varianza es V Xˆ HT =
M
n 1 ⎛ n X i2
⎜⎜ ∑
M
1 n ⎝ i =1 Pi
X 2 ⎟⎟ = ⎜⎜
6
1 2 ⎝ P1
+
P2
+
P3
82 ⎟⎟
⎠ ⎠
El estimador insesgado de la varianza vale:
M
n 1 ⎡ n ⎛ Xi ⎞ ⎤ 6
2 1 ⎡⎛ X ⎞2 ⎛ X ⎞2 ⎤
2
Vˆ ( Xˆ SCG) = ⎢∑⎜⎜ ⎟⎟
nXˆ SCG
2
⎥= ⎢⎜⎜ 1 ⎟⎟ + ⎜⎜ 2 ⎟⎟
2 Xˆ SCG
2
⎥
M n(n
1) ⎢ i =1 ⎝ Pi ⎠ ⎥ 6 2(2
1) ⎢⎝ P1 ⎠ ⎝ P2 ⎠ ⎥⎦
⎣ ⎦ ⎣
1 ⎡⎛ X ⎞ ⎤
2 2
X X ⎛X ⎞
X1 X2 ij Xˆ SCG = 1 + 2 Vˆ ( Xˆ SCG ) = ⎢ ⎜⎜ 1 ⎟⎟ + ⎜⎜ 2 ⎟⎟
2 Xˆ SCG
2
⎥
2 P1 2 P2 3 ⎢ ⎝ P1 ⎠ ⎝ P2 ⎠
⎣ ⎦⎥
1 3 0 ,1333 7 ,5 1,5
1 4 0,2 7 0 , 6666
3 3 0 , 0666 9 0
3 4 0,4 8 ,5 0 ,1666
4 4 0,2 8 0
www.FreeLibros.org
Muestreo estadístico: conceptos, estimadores y su distribución 101
Para el caso de muestreo con reposición sin importar el orden de colocación de los
elementos en las muestras la probabilidad de cualquier muestra será:
P(ui,uj) = P(ui)P(uj)+ P(uj)P(ui) = 2 P(ui)P(uj) y P(ui,ui) = [P(ui)]2
Las muestras posibles son (u1,u1), (u1,u2), (u1,u3), (u2,u2) (u2,u3) y (u3,u3) con P1 =
p(u1) = 1/6, P2 = p(u2) = 1/3 y P3 = p(u3) = 1/2,. Como estamos en muestreo con reposición el
estimador lineal insesgado para el total es el estimador de Hansen y Hurwitz ( X̂ HH = X1/2P1 +
X2/2P2). Como estimador insesgado para la varianza se puede utilizar:
1 ⎡ n ⎛ X ⎞2 ⎤ 1 ⎡⎛ X ⎞ 2 ⎛ X ⎞
2
⎤
Vˆ ( Xˆ HH ) = ⎢ ∑ ⎜⎜ i ⎟⎟
nXˆ HH
2
⎥= ⎢⎜⎜ 1 ⎟⎟ + ⎜⎜ 2 ⎟⎟
2 Xˆ HH
2
⎥
n ( n
1) ⎢ i =1 ⎝ Pi ⎠ ⎥⎦ 2( 2
1) ⎢⎣⎝ P1 ⎠ ⎝ P2 ⎠ ⎥⎦
⎣
1 ⎡⎛ X ⎞ ⎤
2 2
X X ⎛X ⎞
X1 X2 Pij = P ( u i , u j ) Xˆ HH = 1 + 2 Vˆ ( Xˆ HH ) = ⎢ ⎜⎜ 1 ⎟⎟ + ⎜⎜ 2 ⎟⎟
2 Xˆ HH
2
⎥
2 P1 2 P2 2 ⎢ ⎝ P1 ⎠ P
⎝ 2 ⎠ ⎥⎦
⎣
1 1 0 ,1666 6 0
1 3 0 ,1666 7 ,5 2 , 25
1 4 0 ,1666 7 1
3 3 0 ,3333 9 0
3 4 0 ,3333 8 ,5 0 , 25
4 4 0 ,5 8 0
www.FreeLibros.org
102 Muestreo estadístico. Conceptos y problemas resueltos
El cálculo de la varianza del estimador del total de Hansen y Hurwitz también puede
realizarse a través de su fórmula correspondiente como sigue:
⎞ 1 ⎛ 12 32 42 ⎞
( ) 1⎛ 3 X2
2 ⎝ i =1 Pi
⎞ 1⎛ X2 X2 X2
V Xˆ HT = ⎜⎜ ∑ i
X 2 ⎟⎟ = ⎜⎜ 1 + 2 + 3
82 ⎟⎟ = ⎜
⎜
+ +
82 ⎟ = 0,5
⎟
⎠ 2 ⎝ P1 P2 P3 ⎠ 2 ⎝1/ 6 1/ 3 1/ 2 ⎠
M
n
Observando los resultados vemos que se cumple V ( Xˆ SCG ) =
V ( Xˆ HH ) , ya que
M
1
0,4=[(6-2)/(6-1)]0,5.
M
n ˆ ˆ
Además, Vˆ ( Xˆ SCG ) =
V ( X HH ) , ya que Vˆ ( Xˆ SCG ) = [(6-2)/6] Vˆ ( Xˆ HH ) para
M
todos los elementos correspondientes de las columnas consideradas en las tablas anteriores.
( )
Como V ( Xˆ SCG ) =0,4 y V Xˆ HT =0,5, el método de selección con probabilidades
gradualmente variables con el estimador de Sánchez Crespo y Gabeiras resulta más preciso
que el método de selección con reposición de Hansen y Hurwitz.
2.16. Supongamos que tenemos una población de N = 5 niños para los que sus edades correspondientes en
años son {3, 3, 4, 6, 8} y sus pesos en kilos son {10, 16, 16, 25, 33}. Se toman muestras sin reposi-
ción de tamaño 2 de la población de niños con probabilidades proporcionales a sus pesos. Se pide:
1) Obtener un etimador lineal insesgado para la edad media de los niños basado en la muestra de
mayor probabilidad, así como su error de muestreo.
2) Si consideramos la selección de la primera unidad muestral proporcional al peso y la segunda
con probabilidades iguales, obtener un estimador lineal insesgado para la edad media de los
niños basado en la muestra (4,8) así como su error de muestreo.
Como no se especifica nada respecto al orden de colocación de los elementos en las muestras y
el muestreo es sin reposición, supondremos que el orden no interviene. Habrá entonces
⎛5 ⎞
⎜⎜ ⎟⎟ =10 muestras posibles, que son: (3,3), (3,4), (3,6), (3,8), (3,4), (3,6), (3,8), (4,6), (4,8) y (6,8).
⎝ 2⎠
Las probabilidades iniciales de selección Pi proporcionales a M1=10, M2=16, M3=16,
M4=25 y M5=33 originan los siguientes valores: Pi = {M1/M=1/10, M2/M=4/25, M3/M=4/25,
M4/M=1/4, M5/M=33/100}. Las probabilidades ij se calcularán de la siguiente forma:
www.FreeLibros.org
Muestreo estadístico: conceptos, estimadores y su distribución 103
1 = 12+13+14+15=0,0368+0,0368+0,0611+0,0859=0,22069
2 = 12+23+24+25=0,0368+0,0609+0,1009+0,1416=0,34039
3 = 13+23+34+35=0,0368+0,0609+0,1009+0,1416=0,34039
4 = 14+24+34+45=0,0611+0,1009+0,1009+0,2331=0,49614
5 = 15+25+35+45=0,0859+0,1416+0,1416+0,2331=0,60237
También pueden calcularse los i mediante una expresión que los haga depender
solamente de los Pi, tal y como se indica a continuación.
Mi P ⎛ Pj ⎞ ⎛ P ⎞
= Pi + ∑ Pj = Pi + ∑ i Pj = Pi ⎜1 + ∑ ⎟ = Pi ⎜ 1
2Pi + Pi + ∑ j ⎟
j i M
M j j i 1
Pj
⎜ j i 1
P ⎟ ⎜ 1
P j i 1
Pj
⎟
⎝ j ⎠ ⎝ i ⎠
⎛ ⎞
⎜ ⎟
1
2Pi Pi P ⎟ = P ⎛⎜ 1
2Pi + Pj ⎞ ⎛
⎟ = Pi ⎜ 1
2Pi + ∑ Pi ⎟
⎞
N N
⎜ +∑ ∑
j
= Pi + ⎜ ⎟
⎜ 1
Pi 1
Pi j i 1
Pj ⎟ i
⎜ 1
P ⎟
j =1 1
Pj ⎠
⎜ 144 42444 3⎟ ⎝ i ⎝ 1
Pi i =1 1
Pi ⎠
⎝ ⎠
Y como ya conocemos las Pi, para calcular las probabilidades ij basta sustituir en
la fórmula anterior, con lo que se obtienen los mismos resultados. El diseño muestral será el
siguiente:
2
Xi 1 2 X
S(X ) P ( X ) = ij Xˆ HT = ∑ Xˆ HT = ∑ i
i =1 i N i =1 i
(3,3) 0,0368 3 / 0, 22069 + 3 / 0,34039 = 22 , 41 4, 482
(3, 4) 0,0368 3 / 0, 22069 + 4 / 0,34039 = 25,34 5,068
(3,6) 0,0611 3 / 0, 22069 + 6 / 0, 49614 = 25,69 5,138
(3,8) 0,0859 3 / 0, 22069 + 8 / 0,60237 = 26 ,87 5,374
(3, 4) 0,0609 3 / 0,34039 + 4 / 0,34039 = 20 ,56 4,112
(3,6) 0,1009 3 / 0,34039 + 6 / 0, 49614 = 20 ,91 4,182
(3,8) 0,1416 3 / 0,34039 + 8 / 0,60237 = 22 ,09 4, 418
( 4,6 ) 0,1009 4 / 0,34039 + 6 / 0, 49614 = 23,84 4,768
( 4,8) 0,1416 4 / 0,34039 + 8 / 0,60237 = 25,03 5,006
(6,8) 0,2331 6 / 0, 49614 + 8 / 0,60237 = 25,37 5,074
www.FreeLibros.org
104 Muestreo estadístico. Conceptos y problemas resueltos
ij = P((u i u j ) ( ~x )) = P(u i 1ª u j 2ª ) + P (u j 1ª u i 2ª )
= P(u i 1ª ) P(u j 2ª / u i 1ª ) + P(u j 1ª ) P(u i 2ª / u j 1ª ) =
Mi 1 M j 1 1 1 Pi + Pj
+
= Pi
+ Pj
=
M 4 M 4 4 4 4
Calculamos ahora los i mediante una expresión que los haga depender solamente de
los Pi, tal y como se indica a continuación.
1 1 1 3 1
= Pi + ∑ Pj = Pi + ∑ Pj = Pi + (1
Pi ) = Pi +
j i 4 4 j i 4 4 4
www.FreeLibros.org
Muestreo estadístico: conceptos, estimadores y su distribución 105
Se observa que estamos ante el método de selección sin reposición de Ikeda para el
caso de tamaño de muestra n=2, con lo que las i y ij también podrían haberse calculado
mediante las expresiones siguientes (se obtendrían los mismos resultados):
n
1 N
n n
1
i = Pi + (1
Pi ) * = * Pi +
N
1 N
1 N
1
n
1 ⎡ N
n
ij = *⎢ (Pi + Pj ) + n
2 ⎤⎥
N
1 ⎣ N
2 N
2⎦
Ya tenemos todos los datos para calcular los valores de i y ij , pues sólo dependen de Pi
y Pj que son datos. También podemos calcular ya el estimador X̂ HT . El diseño muestral será:
Pi + Pj 2
X 3 1
S ( X ) P( X ) = ij = Xˆ HT = ∑ i i = Pi +
4 i =1 i 4 4
(3,3) 0,065 3 / 0,325 + 3 / 0,37 = 17,34
(3,4) 0,065 3 / 0,325 + 4 / 0,37 = 20,04
(3,6) 0,0875 3 / 0,325 + 6 / 0,4375 = 22,95 0,325
(3,8) 0,1075 3 / 0,325 + 8 / 0,4975 = 25,31 0,37
(3,4) 0,08 3 / 0,37 + 4 / 0,37 = 18,92 0,37
(3,6) 0,1025 3 / 0,37 + 6 / 0,4375 = 21,82 0,4375
(3,8) 0,1225 3 / 0,37 + 8 / 0,4975 = 24,19 0,4975
(4,6) 0,1025 4 / 0,37 + 6 / 0,4375 = 24,53
(4,8) 0,1225 4 / 0,37 + 8 / 0,4975 = 26,90
(6,8) 0,145 6 / 0,4375 + 8 / 0,4975 = 29,8
Vemos que para la muestra (4,8) el estimador insesgado de Horvitz y Thompson para
el total poblacional vale 26,90 y para la media 26,90/5 = 5,38. Sigue obteniéndose que la edad
media estimada de los niños es 5 años aproximadamente.
Para hallar la varianza del estimador del total se puede utilizar su distribución en el
muestreo o bien se puede aplicar directamente la fórmula apropiada tal y como se indica a
continuación:
( ) X2 X Xj 2 2
( ij
i j ) = X1 (1
1 ) + L + X 5 (1
5 ) +
5 5 5
V Xˆ HT = ∑ i (1
i ) + 2∑∑ i
i =1 i i =1 j > i i j 1 5
⎛X X X X ⎞ 32 82
+ 2⎜⎜ 1 2 (12
1 2 ) + L + 4 5 ( 45
4 5 )⎟⎟ = (1
0,325) + L + (1
0,4975)
⎝ 1 2 4 5 ⎠ 0,325 0,4975
⎛ 3 3
+ 2⎜⎜ (0,065
0,325* 0,37) + L + 6 8
(0,145
0,4375* 0,4975)⎞⎟⎟ = 12,66
⎝ 0,325 0,37 0,4375 0,4975 ⎠
www.FreeLibros.org
106 Muestreo estadístico. Conceptos y problemas resueltos
X X (
) X 2 ⎛ X X (
) ⎞
( ) X2 X2
2 2 2
Vˆ Xˆ HT = ∑ 2i (1
i ) + 2∑∑ i j ij i j = 12 (1
1 ) + 22 (1
2 ) + 2⎜⎜ 1 2 12 1 2 ⎟⎟
i =1 i i =1 j >i i j ij 1 2 ⎝ 1 2 12 ⎠
8 (0,1225
0,37 * 0,4975]) ⎞
2 2
4 8
= 2
(1
0,37) + 2
(1
0,4975) + 2⎛⎜⎜ 4 ⎟⎟ = 43,3
0,37 0,4975 ⎝ 0,37 0,4975 0,1225 ⎠
1
( )
Para la media se tiene que Vˆ ⎛⎜ Xˆ HT ⎞⎟ = Vˆ Xˆ HT = 1,73 .
⎝ ⎠ 25
Para hallar el estimador insesgado para la varianza basado en la muestra (4,8) también
se puede usar el estimador insesgado de Yates y Grundy de la forma siguiente:
X X j ⎞ ( i j
ij ) ⎛ X1 X 2 ⎞ (1 2
12 ) ⎛ 4
2 2
8 ⎞ (0,37* 0,4975
0,1225])
2
2 2 ⎛
( )
Vˆ Xˆ HT = ∑∑⎜ i
⎟
⎜ j ⎟⎠
= ⎜⎜
⎟⎟ = ⎜⎜
⎟
⎟ =13,958
i =1 j >i ⎝ i ij ⎝ 1 2 ⎠ 12 ⎝ 0,37 0,4975⎠ 0,1225
Para la media, Vˆ ⎛⎜ Xˆ HT
⎝ ⎠ 25
( )
⎞⎟ = 1 Vˆ Xˆ
HT = 0,55
Se observa que para la muestra (4,8) el estimador de Yates y Grundy para la varianza
del total resulta más preciso que el estimador de la varianza de Horwitz y Thompson.
www.FreeLibros.org
Muestreo estadístico: conceptos, estimadores y su distribución 107
EJERCICIOS PROPUESTOS
2.1. Supongamos que tenemos una población de N = 3 unidades primarias de la que se obtienen
todas las muestras posibles de tamaño n = 2 con probabilidades iguales y bajo los siguientes
supuestos:
Muestreo sin reposición sin intervenir el orden
Muestreo sin reposición interviniendo el orden
Muestreo con reposición sin intervenir el orden
Muestreo con reposición interviniendo el orden
Se pide:
Hallar el espacio muestral asociado a los cuatro tipos de muestreo y las probabilidades
asociadas a las muestras.
Si al medir una variable X sobre los elementos de la población se obtienen los valores {1, 3, 4},
¿cuál de todos los métodos de muestreo es más preciso al estimar el total poblacional mediante
un estimador lineal insesgado apropiado?
2.2. Una población consta de 40000 unidades distribuidas en 400 conglomerados de 100 unidades
cada uno. Una muestra aleatoria con probabilidades iguales sin reposición de tamaño 25
conglomerados presenta los siguientes datos:
Total de unidades
12 17 23 33 36
de la clase C
N º de conglomerados
2 3 9 5 6
de la muestra
Estimar el total y la proporción de unidades de la población que pertenecen a la clase C, así como
sus errores de muestreo absolutos y relativos.
2.3. Supongamos que tenemos una población de N = 5 unidades primarias para las que una variable X
medida sobre ellas proporciona los valores 3, 3, 4, 6 y 8. Se toma una muestra de tamaño n = 2
sin reposición asignando en la primera extracción probabilidades proporcionales a los números
10, 16, 16, 25 y 33, y también en la segunda (prescindiendo de la unidad seleccionada en primer
lugar). Se pide:
Calcular las probabilidades ij (ij) y comprobar que ∑i =2 para i = 1, 2, ..., 5
N N
Comprobar también que ∑ i = n
j y
i =1
∑
i =1
ij = (n
1) j .
i j i j
Obtener estimadores lineales insesgados para el total y la media (para la muestra de mayor
probabilidad), así como sus errores de muestreo.
2.4. Supongamos que tenemos una población de N = 3 unidades primarias para las que una variable X
medida sobre ellas proporciona los valores {1, 3, 4} con probabilidades de selección
proporcionales a los tamaños 3, 5 y 7. Se toman muestras de tamaño n=2 sin reposición y sin
tener en cuenta el orden de colocación de los elementos mediante el método de selección de
Durbin. A partir de las distribuciones en el muestreo de X̂ y Vˆ ( Xˆ ) , hallar V ( Xˆ ) ,
HT HT HT
www.FreeLibros.org
www.FreeLibros.org
CAPÍTULO
OBJETIVOS
1. Introducir el concepto de muestreo aleatorio simple.
2. Comprender las especificaciones del muestreo aleatorio simple sin
reposición o muestreo irrestricto aleatorio.
3. Analizar el muestreo aleatorio simple sin reposición.
4. Estudiar las estimaciones, errores y estimación de los errores en muestreo
aleatorio simple sin reposición.
5. Especificar los factores de elevación en muestreo aleatorio simple sin
reposición.
6. Evaluar el tamaño de la muestra en muestreo aleatorio simple sin
reposición.
7. Comprender las especificaciones del muestreo aleatorio simple con
reposición.
8. Analizar el muestreo aleatorio simple con reposición.
9. Estudiar las estimaciones, errores y estimación de los errores en muestreo
aleatorio simple con reposición.
10. Especificar los factores de elevación en muestreo aleatorio simple con
reposición.
11. Evaluar el tamaño de la muestra en muestreo aleatorio simple con
reposición.
12. Comparar el muestreo aleatorio simple con y sin reposición.
13. Obtener estimadores en subpoblaciones con y sin reposición.
14. Calcular errores y estimación de los errores en subpoblaciones con y sin
www.FreeLibros.org
reposición.
110 Muestreo estadístico. Conceptos y problemas resueltos
ÍNDICE
1. Muestreo aleatorio simple sin reposición. Especificaciones
2. Estimadores, varianzas y estimación de varianzas.
3. Tamaño de la muestra.
4. Muestreo aleatorio simple con reposición. Estimadores
5. Varianzas y su estimación con reposición.
6. Tamaño de la muestra con reposición.
7. Comparación entre muestreo aleatorio sin y con reposición.
8. Subpoblaciones.
9. Problemas resueltos.
10. Ejercicios propuestos.
www.FreeLibros.org
Muestreo aleatiorio simple sin y con reposición. Subpoblaciones 111
Podríamos resumir las especificaciones del muestro aleatorio simple sin reposición o
muestreo irrestricto aleatorio como sigue:
En la selección de una muestra aleatoria simple sin reposición de n elementos de entre los N
de la población, el espacio muestral asociado tiene un número total de muestras igual a:
⎛N⎞
C N ,n = ⎜ ⎟
⎝n ⎠
Casos favorables 1 1
p( u1 ,L, un ) = = =
Casos posibles C N ,n ⎛ N ⎞
⎜ ⎟
⎝n ⎠
www.FreeLibros.org
112 Muestreo estadístico. Conceptos y problemas resueltos
⎛N
1⎞
CN
1,n
1 =⎜⎜ ⎟⎟
⎝ n
1⎠
ya que en este caso se fija el elemento ui y las muestras posibles resultan de las formas
posibles de seleccionar de entre los N-1 elementos de la población restantes n-1 de ellos para
la muestra (el elemento ui ya está fijo en la muestra).
Tenemos entonces:
i = P (u i ( ~x ) ) =
Casos favorables
=
Casos posibles
N º de muestras que contienen la unidad u i
=
N º total de muestras
⎛ N
1⎞ ( N
1)! ( N
1)!
⎜⎜ ⎟⎟
1 ⎠ = ( n
1)! ( N
n )! = ( n
1)! ( N
n )! = 1 = n
= ⎝
n
⎛N ⎞ N! N .( N
1)! N N
⎜⎜ ⎟⎟
⎝n ⎠ n ! ( N
n )! n ( n
1 )! ( N
n )! n
Ya sabemos que el estimador lineal insesgado general para el caso de muestreo sin reposición
es el estimador de Horvitz y Thompson ˆ HT .
Y
()
n N
Se tiene que ˆHT = ∑ i estima = ∑Yi , con E ˆ = , es decir, insesgadamente,
i =1 i i =1
Entonces podemos deducir los estimadores lineales insesgados para el total (Yi=Xi),
media (Yi =Xi/N), proporción (Yi =Ai/N) y total de clase (Yi =Ai) como sigue:
www.FreeLibros.org
Muestreo aleatiorio simple sin y con reposición. Subpoblaciones 113
N n
Xi n
Xi 1 n
= X = ∑ X i ⇒ Yi = X i ⇒ ˆ = Xˆ = ∑ =∑ = N ∑ X i = Nx
i =1 i i =1 n n4i2
i =1
1 =1
4
3
N x
Xi Xi
N
Xi Xi n n
1 n
= X =∑ ⇒ Yi = ⇒ ˆ = Xˆ = ∑ N = ∑ N = ∑ X i = x
i =1 N N i =1 i i =1 n n i =1
N
Ai
N
A A n
1 n
= P = ∑ i ⇒ Yi = i ⇒ ˆ = Pˆ = ∑ N = ∑ Ai
i =1 N N i =1 n n i =1
N
N n
A 1 n
= A = ∑ Ai ⇒ Yi = Ai ⇒ ˆ = Aˆ = ∑ i = N ∑ Ai = NPˆ
i =1 i =1 n n i =1
N
Sabemos que la varianza del estimador de Horvitz y Thompson está dada por la expresión:
Y N 2 N Yi Yj
( )
V $HT = ∑ i (1
i ) + 2∑
i =1 i i< j i j
( ij
i j )
Para el caso particular del muestreo aleatorio simple sin reposición se sabe que i = n/N
y ij = n(n
1) / [N(N
1)]. Considerando el estimador del total y sustituyendo estos valores de i
y ij en la expresión de la varianza tenemos:
j ⎛ n (n
1)
N X X
( ) X2⎛ n⎞ n n ⎞
N N
V Xˆ = ∑ i ⎜1
⎟ + 2∑ ∑
i
⎜⎜
⎟⎟
i =1 n ⎝ N⎠ i =1 j > i n n ⎝ N ( N
1) N N ⎠
N N N
2
1 N
⎛ n ⎞ N
1∑
( X i
X ) S2
= N 2 ⎜1
⎟ i =1
= N 2 (1
f )
⎝ N⎠ n n
Para los estimadores de la media, total y total de clase tenemos:
N
PQ
()
2 2
S S N 1
V ⎛⎜ Xˆ ⎞⎟ = (1
f ) V P = (1
f )
ˆ = (1
f ) N
1 = (1
f )PQ
⎝ ⎠ n n n N
1 n
N
PQ
()
2
S N
1 N3 1
V A = N (1
f )
ˆ 2
= N (1
f )
2
= (1
f )PQ
n n N
1 n
www.FreeLibros.org
114 Muestreo estadístico. Conceptos y problemas resueltos
Estimación de varianzas
Sabemos que la varianza del estimador de Horvitz y Thompson está dada por la expresión:
Y
n 2 n Yi Yj ij
i
V$ ( $ HT ) = ∑ i 2 ( 1
i ) + ∑
j
i =1 i i< j i j ij
Si aplicamos la expresión anterior al estimador del total tendremos:
⎛ n(n
1) n n⎞
⎜⎜
⎟
X i X j ⎝ N (N
1) N N ⎟⎠
( )
2
ˆ ˆ X ⎛
n
n⎞ n n
V X =∑ ⎜ 1
⎟ + 2∑ ∑
i
=
i =1 n ⎝
2
N⎠ i =1 j > i n n n(n
1)
N2 N N N (N
1)
N (N
n ) 1 ⎡ n 2⎤ 2 (N
n ) S
ˆ2 Sˆ 2
∑ i ( X
x ) = N = N 2
(1
f )
n n
1 ⎢⎣ i =1 ⎥ n N N
144 424443⎦
Sˆ 2
TAMAÑO DE LA MUESTRA
n ⎝ N⎠ n n N
2 2 2 2
S S S NS
⇒ = e2 + ⇒n= 2
=
n N S Ne 2 + S 2
e2 +
N
Se observa que cuando N (fracción de muestreo n/N tendiendo a cero) el tamaño
muestral n S2/e2 = n0 (n inversamente proporcional al cuadrado del error de muestreo).
www.FreeLibros.org
Muestreo aleatiorio simple sin y con reposición. Subpoblaciones 115
S2 S 2 e2 n0 n N
n= = = = 0 = f (N )
S 2 2
S e 2
n0 n0 + N
2
e + 1+ 1+
N N N
n 02
f '(N ) =
( n0 + N ) 2
es siempre positiva, que no tiene máximos ni mínimos dado que la ecuación definida por
f’(N) = 0 no tiene solución en N, que es siempre convexa ya que la segunda derivada:
2 n 02
f ''(N ) =
( n0 + N ) 3
es siempre negativa y que no tiene puntos de inflexión ya que que la ecuación definida por
f’’(N)=0 no tiene solución en N. Por tanto, la representación gráfica de n = f(N) es la
siguiente:
n
n = n0
n0
n0
n
n-
O N
n0 N n02 2 S2 ⎛S2 ⎞
n0
n = n0
= < 1 ⇒ n0 < n0 + N ⇒ N > n0 (n0
1) = 2 ⎜ 2
1⎟
n0 + N n0 + N e ⎝e ⎠
S2 ⎛S2 ⎞
N > n 0 ( n 0
1) = 2 ⎜ 2
1⎟
e ⎝e ⎠
www.FreeLibros.org
116 Muestreo estadístico. Conceptos y problemas resueltos
Total:
S2 ⎛ n ⎞ S 2 N 2S 2 N 2S 2
e = ( Xˆ ) = N 2 (1
f ) ⇒ e 2 = N 2 ⎜1
⎟ =
⇒
n ⎝ N⎠ n n N
N 2S 2 N 2S 2 N 2S 2 N 3S 2 N 2S 2
⇒ = e2 + ⇒n= = =
n N N 2S 2 1 2
Ne42 + N432 2
S e 2 + NS 2
e2 +
N (
N e 2 + NS 2 )
La expresión anterior también puede escribirse como:
2
⎛S⎞
2
N ⎜ ⎟ 2
n= ⎝ e ⎠ = N n1 = f ( N )
2
⎛S⎞ 1 + Nn1
1+ N⎜ ⎟
⎝e⎠
Si representamos gráficamente la curva de ecuación n = f(N) observamos que pasa
por el origen de coordenadas ya que f(0) = 0, que tiene una asíntota oblicua de ecuación n =
N
1/n1 ya que:
f (N )
N 1
lim = 1 y lim ( f ( N )
N ) = lim =
N N N N 1 + n1 N n1
2n1 N + n12 N 2
f '(N ) =
(1 + n1 N ) 2
es siempre positiva, que no tiene máximos ni mínimos ya que la ecuación definida por
f’(N)=0 no tiene solución en N, que es siempre cóncava puesto que:
2 n12 N
f ''(N ) =
(1 + n1 N ) 3
es siempre positiva. Por tanto, la representación gráfica de n = f(N) es la siguiente:
n
n=f(N)
n=N-1/n1
0 1/n1 N
Observando la gráfica de n = f(N) se ve que n siempre crece al crecer N, es decir,
que al aumentar el tamaño poblacional también aumentará el tamaño de muestra necesario
para cometer un error de muestreo prefijado.
www.FreeLibros.org
Muestreo aleatiorio simple sin y con reposición. Subpoblaciones 117
Proporción:
Si sustituimos el valor de S2 para variables Ai (que sólo toman los valores 0 y 1) en la fórmula
del tamaño muestral para la media tendremos para la estimación de la proporción el tamaño:
N
NS 2 N PQ N 2 PQ NPQ
N
1
n= = = 2 = 2
Ne 2 + S 2 N NPQ + ( N
1) Ne e ( N
1) + PQ
PQ + Ne 2 14442444 3
N
1
(
N e 2 ( N
1) + PQ )
En el caso de la proporción se observa que cuando N (fracción de muestreo n/N
N
tendiendo a cero) el tamaño muestral n S2/e2 = PQ e 2 PQ e 2 =n0 (n inversamente
N
1
proporcional al cuadrado del error de muestreo y directamente proporcional a la proporción
poblacional P). En este caso, la misma precisión da una muestra de tamaño n para una
población de N elementos que para una población de N ’ elementos con N ’ > N siempre y
cuando se cumpla la desigualdad definida por:
N ⎛ N ⎞
PQ ⎜ PQ ⎟ PQ
⎛ PQ ⎞
N > n0 (n0
1) = N
12 ⎜ N
12
1⎟ ⎜⎜ 2
1 ⎟⎟
e ⎜ e ⎟ 2
e ⎝ e ⎠
⎜ ⎟
⎝ ⎠
Para la estimación de la proporción es muy interesante tener en cuenta que para
poblaciones grandes o fracción de muestreo pequeña (N ), el valor máximo de n se
obtiene para P = Q = 1/2. Para constatar este resultado sabemos que si N el tamaño
muestral n tiende al valor n0 = PQ/e2 = f(P), expresión que tenemos que maximizar en P. Si
igualamos la primera derivada al valor cero tenemos que como f(P) = P(1
P)/e2 entonces
f’(P) = (1
2P)/e2 = 0 ⇒ P = 1/2. Por otra parte f ’’(P) =
2/e2 < 0, lo que asegura la presencia
de un máximo para la función f en el punto P = 1/2. Como Q =1
P = 1
1/2 = 1/2, el valor
máximo de n para poblaciones grandes o fracciones de muestreo pequeñas se obtiene para P =
Q = 1/2. Por lo tanto, para un error prefijado se necesitarán tamaños de muestra más pequeños
cuanto más próximo esté P a cero o a uno. Este resultado es muy importante en la práctica, ya
que cuando se estiman proporciones y no se conoce el valor de la proporción poblacional P
ni se tiene una aproximación suya (proporcionada por una encuesta similar, por una
encuesta piloto, por la misma encuesta realizada anteriormente o por cualquier otro
método), entonces se toma P=1/2, con lo que estamos situándonos en el caso de máximo
tamaño muestral para el error fijado, lo cual siempre es aceptable estadísticamente. La
dificultad práctica puede ser que se obtenga un tamaño muestral n demasiado grande para el
presupuesto de que se dispone.
Total de clase:
Si sustituimos el valor de S2 para variables Ai (que sólo toman los valores 0 y 1) en la fórmula
del tamaño muestral para el total tendremos para la estimación del total de clase el tamaño:
N
N2 PQ
N 2S 2 N
1 N 3 PQ
n= 2 = = 2
e + NS 2 N e (N
1) + N 2 PQ
e2 + PQN
N
1
www.FreeLibros.org
118 Muestreo estadístico. Conceptos y problemas resueltos
www.FreeLibros.org
Muestreo aleatiorio simple sin y con reposición. Subpoblaciones 119
N n
Xi n
X 1 n
= X = ∑ X i ⇒ Yi = X i ⇒ ˆ = Xˆ = ∑ = ∑ i = N ∑ X i = Nx
i =1 nPi i =1 n n4i2
i =1
1 =1
4
3
N x
Xi Xi
N
Xi Xi n n
1 n
= X =∑ ⇒ Yi = ⇒ ˆ = Xˆ = ∑ N = ∑ N = ∑ X i = x
i =1 N N i =1 nPi i =1 n n i =1
N
Ai
N
A A n
1 n
= P = ∑ i ⇒ Yi = i ⇒ ˆ = Pˆ = ∑ N = ∑ Ai
i =1 N N i =1 n n i =1
N
N n
A 1 n
= A = ∑ Ai ⇒ Yi = Ai ⇒ ˆ = Aˆ = ∑ i = N ∑ Ai = NPˆ
i =1 i =1 n n i =1
N
Da la casualidad de que se obtienen los mismos estimadores insesgados para los
parámetros poblacionales que para el caso de muestreo aleatorio simple sin reposición. Por
lo tanto, los estimadores de la media y la proporción poblacional son los estimadores por
analogía (media y proporción muestral), mientras que los estimadores del total y el total de clase
poblacionales son la expansión mediante el tamaño poblacional de la media y proporción
muestrales (en este caso, Xˆ = Nx = ( N / n) x ⇒ los factores de elevación son N/n).
www.FreeLibros.org
120 Muestreo estadístico. Conceptos y problemas resueltos
y considerando que para el caso particular del muestreo aleatorio simple con reposición se
sabe que Pi = 1/N, tenemos:
2
⎛ ⎞
n ⎜ ⎟ ˆ2
( )
2
1 X N2 1 n 2 S
Vˆ Xˆ = ∑ ⎜ i
ˆ
X ⎟ = ∑ i ( X
x ) = N
n(n
1) i =1 ⎜ 1 ⎟ n n
1 i =1 n
⎜ ⎟
⎝ N ⎠
⎛ Xˆ ⎞ Sˆ 2 Sˆ 2
1
( ) 1
Vˆ ⎛⎜ Xˆ ⎞⎟ = Vˆ ⎜⎜ ⎟⎟ = 2 Vˆ Xˆ = 2 N 2
⎝ ⎠
=
⎝N⎠ N N n n
n ˆˆ n ˆˆ
ˆ2 PQ ˆ2 PQ
ˆ()
ˆ
V P =
S
n
= n
1
n
=
1
n
1
ˆ
PQ ˆ ˆ ˆ()
V A =N 2 S
n
=N 2 n
1
n
= N2
1 ˆˆ
n
1
PQ
Igual que en el caso de sin reposición, consideraremos el tamaño de muestra necesario para
cometer un error de muestreo e = ( ˆ ) dependiendo de si ˆ estima la media, el total, la
proporción o el total de clase. También se considerará el tamaño de muestra necesario para
cometer un error relativo de muestreo er = Cv( ˆ) dependiendo de si se estima la media, el total, la
proporción y el total de clase. Asimismo, se tendrá presente la introducción de un coeficiente de
confianza adicional P al error de muestreo a cometer (límite de tolerancia), en cuyo caso las
fórmulas de los tamaños muestrales necesarios para cometer un error absoluto o relativo de
muestreo dado en presencia del coeficiente de confianza adicional se derivarán de las expresiones
e = ( ˆ) y er = Cv( ˆ) . En general, = F-1(1
/2), siendo F la función de distribución de
una normal (0,1). El cuadro siguiente resume las expresiones de los tamaños muestrales.
www.FreeLibros.org
Muestreo aleatiorio simple sin y con reposición. Subpoblaciones 121
Se pueden realizar las comparaciones a través error de muestreo o a través del tamaño
muestral necesario para cometer un error de muestreo dado. Desde el primer enfoque será
más preciso aquel método de selección cuyo error de muestreo sea menor, es decir, el que
tenga menor varianza de los estimadores. Tenemos:
N ⎫ ⎧ V SR ⎛⎜ Xˆ ⎞⎟
2 2 ⎪ ⎪ ⎝ ⎠ N
n
⎛ ˆ ⎞
2
S n N
1 N
n = <1
V SR ⎜ X ⎟ = (1
f ) = (1
) = ⎪ ⎪⎪ ⎛ ˆ ⎞ N
1
⎝ ⎠ n N n V
N
1 n ⎬ ⇒ ⎨ CR ⎜ ⎟ X
⎝ ⎠
ˆ 2
2 ⎪ ⎪
⎛ ⎞
VCR ⎜ X ⎟ = ⇒n= 2 ⎪ ⎪⇒ V ⎛⎜ Xˆ ⎞⎟ < V ⎛⎜ Xˆ ⎞⎟
⎝ ⎠ n e ⎭ ⎪⎩ SR
⎝ ⎠ CR
⎝ ⎠
Para el resto de los estimadores todo sería equivalente, luego la varianza siempre es
menor en el caso del muestreo sin reposición, lo que nos indica que el muestreo sin
reposición es en general más preciso que el muestreo con reposición.
Desde el punto de vista del tamaño muestral, será mejor aquel método de selección
en el que se necesite menor tamaño muestral para cometer un error de muestreo dado. En
este capítulo hemos visto que para muestreo sin reposición el valor de n era:
n0
n SR =
1 + n0 N
N 2 n1 nCR
n SR = < nCR ⇒ n SR < nCR
1 + Nn1 1 + nCR N
En los mismos casos para muestreo con reposición se observa que el tamaño
muestral resulta ser nCR = N2n1.
www.FreeLibros.org
122 Muestreo estadístico. Conceptos y problemas resueltos
SUBPOBLACIONES
n3 N 3 y3 n2
N2
y2
n1
N1 y1
N = Tamaño de la población
n = tamaño de la muestra
Sea Yjk (k = 1, 2, ..., nj y ∑nj = n) son los valores de la variable en estudio medida
sobre los elementos de la muestra que pertenecen al dominio j-ésimo. Un estimador
insesgado de la media en la subpoblación o dominio j será el siguiente:
nj
Y jk
Yˆ j = y j = ∑
k =1 n j
n j S 2j
(Y jk
Y j ) donde Y j = ∑ Y jk
Nj Nj
1
∑
2 2
V ( y j ) = (1
) siendo S j =
N j nj N j
1 k =1 k =1 N j
n j Sˆ 2j
(Y jk
y j ) dónde y j = ∑ Y jk
nj nj
ˆ 1
Vˆ ( y j ) = (1
∑
2 2
) siendo S j =
N j nj n j
1 k =1 k =1 n j
www.FreeLibros.org
Muestreo aleatiorio simple sin y con reposición. Subpoblaciones 123
n Sˆ j
2 2
n Sj
V ( y j ) = (1
) Vˆ ( y j ) = (1
)
N nj N nj
2j 1
Nj
Sˆ 2j
∑ (Y
Yj ) y Vˆ ( y j ) =
2
V(yj ) = siendo = 2
j jk
nj Nj k =1 nj
n Sˆ '
2 2
n S' ˆ ˆ
V (Yˆ j ) = N 2 (1
) 2
y V (Y j ) = N (1
)
N n N n
1 ⎛⎜ Y j2 ⎞ 1 ⎛⎜ j y 2j ⎞
n nj
ˆ
∑ Y jk
N ⎟ , S ' = n
1 ⎜ ∑
⎟ ⎟ e y j = ∑ Y jk
2 2 2 2
siendo S ' = Y jk
N
1 ⎜⎝ Dominio j n ⎟
⎠ ⎝ k =1 ⎠ k =1
'2 Sˆ ' 2 1 ⎛⎜ Y j2 ⎞
V (Yˆ j ) = N 2 y Vˆ (Yˆ j ) = N 2 ∑ ⎟
2
con ' 2 = Y jk
n n N ⎜⎝ Dominio j N ⎟⎠
www.FreeLibros.org
124 Muestreo estadístico. Conceptos y problemas resueltos
PROBLEMAS RESUELTOS
3.1. Un auditor muestrea aleatoriamente con reposición 20 cuentas impagadas de una empresa y
verifica en 12 de ellas la cantidad adeudada y si los documentos respectivos cumplen (1) o
no cumplen (0) con los procedimientos establecidos. Se tienen la siguiente estructura
poblacional:
1 278 1 11 188 0
2 192 1 12 212 0
3 310 1 13 92 1
4 94 0 14 56 1
5 86 1 15 142 1
6 335 1 16 37 1
7 310 0 17 186 0
8 290 1 18 221 1
9 221 1 19 229 0
10 168 1 20 305 1
Figura 3-1
www.FreeLibros.org
Muestreo aleatiorio simple sin y con reposición. Subpoblaciones 125
Figura 3-2
Figura 3-3
1 12
X= ∑ X i = 209,583
12 i =1
con un error absoluto de:
2
V ⎛⎜ Xˆ ⎞⎟ = = 655,745
⎝ ⎠ n
1 12
Pˆ = ∑ Ai = 0,75
12 i =1
()
V Pˆ =
PQ (14 / 20)(6 / 20)
n
=
12
=
84
4800
= 0,0175
www.FreeLibros.org
126 Muestreo estadístico. Conceptos y problemas resueltos
Cv⎛⎜ Xˆ ⎞⎟ =
655,745
⎝ ⎠ 209,583
100 = 12,218% ()
Cv Pˆ =
0,0175
0,75
100 = 17,638%
3.2. El gerente de un taller de maquinaria desea estimar el tiempo promedio que necesita un operador
para terminar una tarea sencilla. El taller tiene 98 operadores y se selecciona una muestra de 8 sin
reposición a los que se les toma el tiempo, Se obtienen los siguientes resultados:
Estimar el tiempo promedio y el tiempo total para terminar la tarea entre todos los
operadores estableciendo límites al 95% para los errores de estimación.
Comenzamos introduciendo los datos como la variable T en una hoja de cálculo de Excel. A
continuación, para calcular los estadísticos necesarios, en el menú Herramientas de Excel
elegimos Análisis de datos, seleccionamos Estadística descriptiva y rellenamos la pantalla
de entrada como se indica en la Figura 3-4. Al pulsar Aceptar se obtienen los estadísticos
maestrales de la Figura 3-5. Por último, se calculan los estimadores y sus errores según las
fórmulas de la Figura 3-6 que nos llevan a los resultados de la Figura 3-7.
1 12
Se observa que el tiempo medio por operario para terminar la tarea es Tˆ = ∑ Ti =
12 i =1
ˆ
S 2
5,0125 minutos con un error de muestreo de Vˆ (Tˆ ) = (1
f ) = 0,189 y un error relativo
n
ˆ (Tˆ ) 0,189
dado por Cv(Tˆ ) = 100 = 100 = 9,69%. El tiempo total para terminar la tarea se
Tˆ 5,0125
estima en Tˆ = NTˆ = 89
5,0125 = 491,225 minutos con un error de muestreo estimado por
Vˆ (Tˆ ) = N 2Vˆ (Tˆ ) = 89 2
0,189 = 1822,07, siendo el error relativo el mismo que el del estimador
del tiempo medio, es decir, 9,69%. El coeficiente de curtosis = 4,24 no está en el intervalo
[
2,2] luego no podemos suponer normalidad, con lo que intervalo de confianza al 95% para
la media de anchura 1,07475886 no es válido.
www.FreeLibros.org
Muestreo aleatiorio simple sin y con reposición. Subpoblaciones 127
Figura 3-6
Figura 3-7
⎢
()
⎡ ˆ ˆ ˆ ˆ ⎤
, + ⎥
()
⎣ ⎦
cuya anchura es 2
()
ˆ
. Esta anchura (3,895 para el estimador de la media y 381,79 para el
estimador del total) suele considerarse como un límite para el error de estimación. Se
observa que estas anchuras son mayores que con normalidad, ya que en este caso las
estimaciones son menos precisas (errores mayores).
3.3. En una región con N = 1000 viviendas determinar el tamaño de muestra necesario para que,
con un grado de confianza del 95%, la estimación de la proporción de viviendas sin agua
corriente no difiera en más del 0,1 del valor verdadero. Comentar los resultados para
muestreo sin reposición y con reposición.
www.FreeLibros.org
128 Muestreo estadístico. Conceptos y problemas resueltos
P(| Pˆ
P | 0,10) = 0,95 P (
0,10 Pˆ
P 0,10) = 0,95
⎛
0,10 Pˆ
P 0,10 ⎞ ⎛
0,10 0,10 ⎞⎟
P⎜ ⎟ = 0,95 P⎜ N (0,1) = 0,95
⎜ ( Pˆ ) ( Pˆ ) ( Pˆ ) ⎟ ⎜ ( Pˆ ) ( Pˆ ) ⎟⎠
⎝ ⎠ ⎝
0,10 0,10
= = 1,96 ⇒ ( Pˆ ) = = 0,051
( Pˆ ) 1,96
3.4. De una población con 33 millones de habitantes se ha obtenido una muestra de 10.000. En
ella, 4.000 se han clasificado como población activa, y de éstos, 40 se encuentran en
situación de desempleo. Se pide:
1) Estimar el porcentaje de población activa. Estimar también el número de personas activas que
se encuentran en situación de desempleo. Calcular los errores absoluto y relativo de muestreo
en ambas estimaciones así como intervalos de confianza con un riesgo del 3 por mil.
2) ¿Cuántas personas de todas las edades sería necesario incluir en una muestra para
estimar la tasa de actividad en España con un error absoluto E = 0,02 y una probabilidad
del 95%? Del último censo se sabe que en el país hay un 39% de activos. Contestar a la
misma pregunta para cometer un error relativo del 5%.
Realizamos el siguiente esquema de apoyo (PA significa población activa y NPA significa el
complentario):
PA=4000
n=10000
www.FreeLibros.org
Muestreo aleatiorio simple sin y con reposición. Subpoblaciones 129
⎛ n ⎞ Pˆ (1
Pˆ ) ⎛ 10000 ⎞ 0,4(1
0,4)
ˆ ( Pˆ ) = ⎜1
⎟ = ⎜1
⎟ = 0,00489
⎝ N ⎠ n
1 ⎝ 33000000 ⎠ 10000
1
[ Pˆ
( Pˆ ), Pˆ + ( Pˆ )] = [0,4
2,997
0,00489, 0,4 + 2,997
0,00489] = (0.3853, 0.4146)
⎛ 40 ⎞
Aˆ = 33000000⎜ ⎟ = 132000
⎝110000
424 3⎠
Pˆ
⎛ n ⎞ Pˆ (1
Pˆ ) ⎛ 10000 ⎞ 0,004(1
0,004)
ˆ ( Aˆ ) = N 2 ⎜1
⎟ = 33000000 ⎜1
⎟ = 20827
⎝ N ⎠ n
1 ⎝ 33000000 ⎠ 10000
1
ˆ ( Aˆ ) 20827
Cˆ v( Aˆ ) = = = 0,157 (15,7%)
Aˆ 132000
Para hallar el intervalo de confianza para el total con = 0,003, utilizamos el valor
=F-1N(0,1) (1
/2) = F-1 N(0,1) (1
0,003/2)= F-1 N(0,1) (0,9985)=2,997. El intervalo será:
[ Aˆ
( Aˆ ), Aˆ + ( Aˆ )] = [132000
2,997
20827, 132000+ 2,997
20827] = (69581, 194419)
www.FreeLibros.org
130 Muestreo estadístico. Conceptos y problemas resueltos
3.5. Mediante muestreo irrestricto aleatorio se trata de estimar la proporción y el total de aciertos
obtenidos en un juego ilegal en el que se realizan un total de 6000 apuestas. En un ensayo
previo se han obtenido 1/3 de fallos en las apuestas. Se pide:
1) Hallar el número de apuestas necesario para que el error de muestreo sea de una décima
al estimar la proporción de aciertos en las apuestas del juego ilegal. Hallar también el
número de apuestas necesario para que el error relativo de muestreo sea del 20% en la
misma estimación.
2) Hallar el número de apuestas necesario para que el error de muestreo sea de 600 unidades
al estimar el total de aciertos en las apuestas con un coeficiente de confianza del 99,7% y
suponiendo muestreo aleatorio simple con reposición. Hallar dicho tamaño en las
condiciones anteriores pero para un error relativo de muestreo del 10%.
Tenemos como datos N = 6000 y P = 2/3. El tamaño de muestra necesario para
estimar la proporción de aciertos en las apuestas con un error de muestreo e = 0,1 será:
NQ 6000
(1
0,6666)
n= = = 12,47
( N
1) Pe r + Q (6000
1)
0,6666
0,2 2 + (1
0,6666)
2
Para hallar el tamaño de muestra necesario para estimar el total de aciertos con = 0,003,
se usa = F-1N(0,1) (1
/2) = F-1N(0,1) (1
0,003/2) = F-1N(0,1) (0,9985) = 2,997. Dicho tamaño en
muestreo con reposición para un error de muestreo e = 600 se calcula de la siguiente forma:
2 Q 2,997 2
(1
0,6666)
n= = = 449,1 (450 apuestas)
e2 P 0,12
0,6666
www.FreeLibros.org
Muestreo aleatiorio simple sin y con reposición. Subpoblaciones 131
3.6. De una población de 100 opositores que se presentan a un examen se ha extraído una
muestra irrestricta aleatoria de tamaño n = 8, siendo sus edades (variable X) las siguientes:
{25, 32, 28, 35, 26, 34, 30, 28}. Basándose en esta muestra, estimar la edad media y la suma
de las edades de los opositores así como sus errores absoluto y relativo de muestreo.
Determinar también:
1) Basándose en la muestra anterior, ¿qué tamaño de muestra sería necesario para que el
error de muestreo sea 2 al estimar la edad media y 50 al estimar la suma de las edades?
¿Y para que el error relativo sea del 6%? Contestar a las mismas preguntas con un
coeficiente de confianza del 95%.
3) Hallar el tamaño de muestra del apartado anterior suponiendo muestreo con reposición.
Comentar los resultados.
Para hallar el tamaño de muestra necesario para estimar la edad media (media) con un
error de muestreo e igual a 50, consideramos la muestra anterior como una muestra piloto que
nos proporciona una estimación del valor de la cuasivarianza. Se aplica la fórmula:
NS 2 100
13,3571
n= 2 2
= = 3,23
S + Ne 13,3571 + 100.2 2
con lo que se tomará como tamaño de muestra necesario n = 4.
Para hallar el tamaño de muestra necesario para estimar la suma de edades (total) con
un error de muestreo e igual a 50, se aplica la fórmula:
www.FreeLibros.org
132 Muestreo estadístico. Conceptos y problemas resueltos
N 2S 2 100 2
13,3571
n= = = 34,82
NS 2 + e 2 100
13,3571 + 50 2
∑A i
6 6
Pˆ = i =1
=
= 0,75 (75%) Aˆ = N
Pˆ = 100 = 75
n 8 8
Pˆ Qˆ ⎛ 8 ⎞ 0,75
0,25
e = ˆ ( Pˆ ) = (1
f ) = ⎜1
⎟ = 0,0246
n
1 ⎝ 100 ⎠ 8
1
e = ˆ ( Aˆ ) = N
ˆ ( Pˆ ) = 100
0,0246 = 2,46
www.FreeLibros.org
Muestreo aleatiorio simple sin y con reposición. Subpoblaciones 133
Vamos a realizar a continuación para muestreo con reposición el cálculo del tamaño
de muestra necesario para que el error relativo de muestreo sea 0,06 al estimar la proporción
de edades pares de la población con un coeficiente de confianza del 95%. Utilizamos:
Q 1,96 2 1
0,75
2
C
2 2
0,75
n= X
= 2P = = 355
e r2 e r 0,06 2
luego el tamaño de muestra necesario será n = 355, que supera al tamaño poblacional. Eso se
debe a lo bajo que es el error especificado a cometer. En este caso habrá que aumentar el
error a cometer. No obstante, se ha comprobado que el tamaño de muestra necesario para
estimar el mismo parámetro cometiendo el mismo error siempre es mayor en el muestreo
con reposición, lo que indica que este tipo de muestreo es menos preciso que el muestreo sin
reposición. Esto concuerda también con el hecho de que los errores de muestreo siempre son
menores en el caso de sin reposición.
3.7. Una muestra irrestricta aleatoria de 600 habitantes procedente de una población de N = 15.000
presenta los siguientes datos para la variable X = número de visitas anuales a doctores
especialistas:
600 600
∑X
i =1
i = 2946 y ∑X
i =1
i
2
= 18694
Hallar intervalos de confianza al 95% para el total y la media por habitante anuales de visitas
a doctores especialistas en la población admitiendo normalidad para la distribución de los
estimadores. Tomando la muestra anterior como muestra piloto, ¿qué tamaño de muestra
será necesario para cometer un error absoluto de muestreo de 1.000 unidades al estimar el
total de visitas a doctores especialistas en la población? ¿Y para cometer un error relativo de
muestreo del 15%?
1 ⎡ 20 2 ⎛ 20 ⎤
2
2946 ⎞
Xˆ = N
x = 15000
= 73650 Sˆ 2 = ⎢∑ i ⎜ ∑ i ⎟ n ⎥ = 7,06
X
X
600 n
1 ⎢⎣ i =1 ⎝ i =1 ⎠ ⎥⎦
Sˆ 2 ⎛ 600 ⎞ 7,06
ˆ ( Xˆ ) = N 2 (1
f ) = 15000 2 ⎜1
⎟ = 1594,239
n ⎝ 15000 ⎠ 600
www.FreeLibros.org
134 Muestreo estadístico. Conceptos y problemas resueltos
El tamaño de muestra necesario para cometer un error relativo de muestreo del 15%
al estimar el total poblacional de X puede hallarse como sigue:
S2 7,06
2 N 15000
NC 1, x X 2
4,912
n= = = = 13
Ne r2 + C12, x S2 2 7,06
2
Ne r + 2 15000
0,15 +
X 4,912
Hemos utilizado un valor de S2 = 7,06 porque la muestra de tamaño 600 con los
datos dados en el enunciado del problema se utiliza como muestra piloto.
3.8. Un sector industrial de Estados Unidos tiene un censo de 1000 fábricas. Hallar el tamaño de
muestra necesario (número de fábricas) para que, con un grado de confianza del 95%, la
estimación de la producción total del sector quede dentro del 10% de su valor verdadero. Se
utiliza muestreo irrestricto aleatorio y se sabe por una muestra piloto que el coeficiente de
variación poblacional es 0,6.
P(| Xˆ
X | 0,10 X ) = 0,95 P(
0,10 X Xˆ
X 0,10 X ) = 0,95
⎛
0,10 X Xˆ
X 0,10 X ⎞ ⎛
0,10 X 0,10 X ⎞
P⎜⎜ ⎟ = 0,95 P⎜
⎟ ⎜ ( Xˆ ) N ( 0,1) ⎟ = 0,95
⎟
⎝ ( Xˆ ) ( ˆ
X ) ( ˆ
X ) ⎠ ⎝ ( ˆ
X ) ⎠
0,10 X ( Xˆ ) ( Xˆ )
⇒ = ⇒ 0,10 = = = Cv( Xˆ ) = er con =1,96
( Xˆ ) X E ( Xˆ )
Por lo tanto, el problema se traduce en calcular el tamaño de muestra necesario para
cometer un error relativo de muestreo de 0,051 al estimar la producción total.
2
S2 N ⎛ ⎞ 2 2
2 N 1,962
1000
2 NC12,x N 2
2
⎜ ⎟
N
1 ⎝ X ⎠
(CV )
2
0,62
n= = X = = N
1 = 999 = 122
Ner2 + 2 C12, x 2 S
2
2
N ⎛ ⎞
2
2 1,962
Ner + 2 Ner +
2 2
⎜ ⎟
2
er + (CV ) 0,1 +
2 2
.0,6 2
X N
1⎝ X ⎠ N
1 999
www.FreeLibros.org
Muestreo aleatiorio simple sin y con reposición. Subpoblaciones 135
3.9. Los partidos de izquierdas desean obtener información rápida sobre el número total de concejales
que obtuvieron en las últimas elecciones en los 300 municipios más pequeños de una región
española. Para ello se eligieron 50 municipios, y se obtuvieron los siguientes resultados:
1) Estimar el número total de concejales que obtuvieron los partidos de izquierdas en las
últimas elecciones en la región en los municipios más pequeños.
2) Si se hubiera querido un error de muestreo inferior a 150 concejales, ¿cuántos municipios
habría sido necesario seleccionar?
Tenemos N = 300 y n = 50. Para estimar el total de concejales que obtuvieron los partidos de
izquierdas se procede como sigue:
1 k 196
x= ∑
n i =1
x i ni =
50
= 3,92 ⇒ Xˆ = Nx = 300 3,92 = 1176 concejales
n Sˆ
2
4,8098
( Xˆ ) = N 2 (1
) = 2,575 300(300
50) = 218,7189
N n 50
ˆ 2 1 ⎡k 2
⎢∑ x i ni
(∑ xi ) ⎤ 1 ⎡
2
⎥=
196 2 ⎤
S = 1004
= 4,8098
n
1 ⎢ i =1 n ⎥ 49 ⎢⎣ 50 ⎥⎦
⎣ ⎦
Por tanto, la estimación del número de concejales obtenidos en los 300 municipios
más pequeños de esa región durante las pasadas elecciones es de 1178 concejales. El error de
muestreo con un 99% de confianza ha resultado ser 218,7, que en términos relativos (de
coeficiente de variación) es:
218,7189
Cˆ v ( Xˆ ) =
100 = 18,59%
1176
www.FreeLibros.org
136 Muestreo estadístico. Conceptos y problemas resueltos
Sea X la variable que mide la deuda sin cobrar. Dicha deuda total se estimará mediante:
n Sˆ
2
⎛ 36 ⎞ 3000 2
( Xˆ ) = N 2 (1
) = 1000 2 ⎜1
⎟ = 2764,8
N n ⎝ 1000 ⎠ 36
[ Xˆ
( Xˆ ), Xˆ + ( Xˆ )] = [75000
1,96(2764,8); 75000+ 1,96(2764,8)] = [65217655,9; 84782344,1]
Para estimar la deuda pendiente con un error inferior a 2500000 euros, se debe elegir
una muestra de tamaño superior al valor siguiente:
3.11. En un recinto ferial se desea estimar la cantidad X gastada por visitante en sus instalaciones.
Para ello, de entre los 500 visitantes de un día determinado, se seleccionó una muestra
aleatoria simple de 100 y a la salida del recinto ferial se les preguntó la cantidad en euros
que habían gastado. Se obtuvieron los siguientes datos:
100 100
∑ X i = 250
i =1
∑X
i =1
i
2
= 649,75
Hallar un intervalo de confianza al 95% para la cantidad media gastada por persona en el
recinto ferial. ¿A cuántas personas se debería haber preguntado para que, con la misma
confianza, el error de la estimación anterior no superarse los 75 euros? ¿Cuántas personas
deberían haber sido preguntadas si se hubiera deseado estimar la proporción de personas
insatisfechas con los servicios prestados en el recinto ferial con un error del 10% y una
confianza del 95%?
www.FreeLibros.org
Muestreo aleatiorio simple sin y con reposición. Subpoblaciones 137
⎡ n Sˆ
2
n Sˆ ⎤
2
I = ⎢ x
(1
) ; x
(1
) ⎥
⎢⎣ N n N n ⎥
⎦
1 n 250
x = ∑ xi = = 2,50 euros
n i! 100
1 ⎡ n 2 1⎛ n ⎞ ⎤ 1 ⎡
2
1
ˆ 2
S = ⎢∑ X i
⎜ ∑ X i ⎟ ⎥ = ⎢ 649,75
(250)2 ⎤⎥ = 0,25
n
1 ⎢⎣ i =1 n ⎝ i =1 ⎠ ⎥⎦ 99 ⎣ 100 ⎦
El intervalo de confianza para el gasto medio en euros por persona en la feria será:
3.12. Para tomar la decisión de mantener un determinado libro como texto oficial de una
asignatura, se pretende tomar una muestra aleatoria simple entre los 1250 profesores de una
universidad y enviarles un cuestionario a través del cual manifiesten si son favorables a la
renovación del libro como texto oficial.
1) ¿Cuál deberá ser el número apropiado de profesores encuestados de entre los 1250 para
obtener una estimación sobre la proporción de profesores favorables a la renovación del
libro de texto con un error de muestreo inferior al 12% y una confianza del 90%?
2) Si de la encuesta realizada el año anterior se sabe que la proporción de profesores
favorables al mantenimiento del libro de texto estará entre el 75% y el 85%, ¿cuál debería
ser en este caso el número apropiado de profesores encuestados del apartado anterior?
3) Si finalmente se decidió enviar cuestionarios a 100 profesores, de los cuales tan sólo 35
no se manifestaron favorables a la renovación del libro de texto, estimar la proporción del
número apropiado de profesores encuestados de entre los 1250 para obtener una estimación.
www.FreeLibros.org
138 Muestreo estadístico. Conceptos y problemas resueltos
El número apropiado de profesores a encuestar de entre los 1250 para obtener una
estimación sobre la proporción de profesores favorables a la renovación del libro de texto
con un error de muestreo inferior al 12% y una confianza del 90% será el siguiente:
Para el caso de que se estime que la proporción oscilará entre el 75% y el 85%, en la
fórmula para obtener el tamaño muestral se utilizará P = 0,75, pues es el que proporciona
mayor variabilidad entre los posibles. Ahora tenemos:
1 n
Pˆ = ∑ Ai (Ai =1 si el profesor i-ésimo mantiene el libro y Ai = 0 en caso contrario)
n i =1
Como sólo 35 profesores de los 100 deciden la no renovación del libro de texto,
tenemos:
65
Pˆ = = 0,65
100
El error de muestreo será:
N
n pq 1250
100 0,65 0,35
e p = = 1,645 * = 0,0753
N
1 n 1249 100
3.13. Una empresa industrial está interesada en el tiempo por semana que los científicos emplean
para ciertas tareas triviales. Las hojas de control del tiempo de una muestra irrestricta
aleatoria de n = 50 empleados muestran que la cantidad promedio de tiempo empleado en
esas tareas es de 10,31 horas, con una varianza muestral de S2 = 2,25. La compañía emplea N
= 750 científicos. Estimar el número total de horas-hombre que se pierden por semana en las
tareas insignificantes y establecer un límite para el error de estimación al 95% ( = 2).
Un límite para el error de estimación será el radio del intervalo de confianza al 95%:
n Sˆ
2
⎛ 50 ⎞ 2,25
( Xˆ ) = 2 N 2 (1
) = 2 700 2 ⎜1
⎟ = 307,4 horas
N n ⎝ 750 ⎠ 50
www.FreeLibros.org
Muestreo aleatiorio simple sin y con reposición. Subpoblaciones 139
3.14. Una muestra irrestricta aleatoria de n = 100 estudiantes del último año de un colegio fue
seleccionada para estimar: (1) la fracción de entre los N = 300 estudiantes del último año que
asistirán a una universidad, y (2) la fracción de estudiantes que han tenido trabajos de tiempo
parcial durante su estancia en el colegio. Sean Yi y Xi (i = 1, 2, …, 100) las respuestas del i-
ésimo estudiante seleccionado. Estableceremos que Yi = 0 si el i-ésimo estudiante no
planifica asistir a una institución superior, e Yi = 1 si lo planifica. Asimismo, sea Xi = 0 si el
estudiante i-ésimo no ha tenido trabajo durante su estancia en el colegio y sea Xi = 1 si lo ha
tenido. Usando los datos de la muestra presentados en la tabla adjunta, estime P1, la
proporción de estudiantes del último año que planea asistir a una universidad y P2, la
proporción de estudiantes del último año que ha tenido un trabajo de tiempo parcial durante
sus cursos en el colegio (incluyendo los veranos).
Estudiante Y X
1 1 0
2 0 1
3 0 1
4 1 1
5 0 0
6 0 0
7 0 1
. . .
. . .
96 0 1
97 1 0
98 0 1
99 0 1
100 1 1
100 100
∑Y
i =1
i = 15 ∑X
i =1
i = 65
Las estimaciones de las respectivas proporciones estarán dadas por las proporciones
muestrales:
1 100 15 1 100 65
Pˆ1 = ∑ Yi = = 0,15 Pˆ2 = ∑ Xi = = 0,65
100 i =1 100 100 i =1 100
Los límites para los respectivos errores de estimación al 95% estarán dados por los
radios de los dos intervalos de confianza, que se calculan como sigue:
Hemos obtenido que el 15% de los estudiantes de último año planifica asistir a la
universidad con un límite del error de la estimación del 5,9%, y el 65% de los estudiantes de
último año ha tenido un trabajo a tiempo parcial durante su estancia en el colegio con un
límite para el error de la estimación del 7,8%.
www.FreeLibros.org
140 Muestreo estadístico. Conceptos y problemas resueltos
3.15. Mediante muestreo irrestricto aleatorio se obtiene una muestra de 50 trabajadores procedente
de una población de 750 empleados de una multinacional. Al medir el salario mensual X en
cientos de euros que perciben los trabajadores de la muestra se obtienen los siguientes datos:
50 50
∑X ∑X
2
i = 454 y i = 4306
i =1 i =1
20 20
∑X ∑X
2
i = 172 y i = 1536
i =1 i =1
1º Estimar el salario medio mensual por trabajador y el total mensual de pagos en salarios de
la multinacional para todos sus empleados y para los empleados del sector financiero, así
como sus errores absolutos y relativos de muestreo.
2º Responder a las preguntas del apartado anterior para muestreo aleatorio simple con
reposición comentando resultados y comparándolos con los del apartado 1.
∑ Xi 454
∑X i
x= i =1
= = 9,08 y Xˆ = Nx = 750 i =1
= 750
9,08 = 6810
n 50 n
Las estimaciones de los errores de muestreo serán:
⎡ ⎛ ⎞
2
⎤
1 ⎢ 50 2 ⎜ 50 ⎟ ⎥
⎢∑ X i
⎜ ∑ X i ⎟ 50⎥
49 ⎢ 1 23 ⎜⎜ 1
i =1
23 ⎟⎟
i =1 ⎥
50 ⎢
⎣ 4306 ⎝ 454 ⎠ ⎥⎦
Vˆ ( x ) = (1
) = 0,07 ⇒ ˆ ( x ) = 0,07 = 0,26
750 50
ˆ ( x ) 0,27 ˆ ( Xˆ ) 198,43
Cˆ v( x ) = = = 0,029 (2,9%) y Cˆ v( Xˆ ) = = = 0,029 (2,9%)
x 9,08 Xˆ 6810
www.FreeLibros.org
Muestreo aleatiorio simple sin y con reposición. Subpoblaciones 141
∑X i
172 x ∑X i
172
x1 = i =1
= = 8,6 y Xˆ 1 = N
1 = 750. i =1 = 750
= 2580
n1 20 n 50 50
1 ⎡ 20 2 ⎛ 20 ⎤
2
⎞
⎢∑ X i
⎜ ∑ X i ⎟ n1 ⎥ 1
[
1536
172 2 20 ]
n n1
1 ⎣⎢ i =1 ⎝ i =1 ⎠ ⎥
⎦ 50
Vˆ ( x1 ) = (1
) = (1
) 19 = 0,14
N n1 750 20
1 ⎡ 20 2 ⎛ 20 ⎤
2
⎞
⎢∑ X i
⎜ ∑ X i ⎟ n ⎥ 1
[
1536
172 2 50 ]
n n
1 ⎢⎣ i =1 ⎝ ⎠ ⎥
⎦ 50
ˆ ˆ 2
V ( X 1 ) = N (1
)
i =1
2
= 750 (1
) 49
N n 750 50
= 202354,28
ˆ ( x1 ) 0,374 ˆ ( Xˆ 1 ) 450
Cˆ v( x1 ) = = = 0,043 ( 4,3%) y Cˆ v( Xˆ 1 ) = = = 0,1744 (17,44%)
x1 8,6 Xˆ 1 2580
Hemos estimado que el salario medio de los trabajadores del sector financiero de la
multinacional es de 860 euros mensuales (algo inferior a los 908 euros mensuales de media
cuando se consideran todos los trabajadores) y que los pagos totales mensuales de la
multinacional en salarios de sus empleados del sector financiero es 258000 euros. Estas
estimaciones tienen unos errores del 4,3% y del 17,44%, respectivamente. Es mucho más
precisa la estimación del salario medio de los empleados del sector financiero que la
estimación de los pagos totales a empleados de dicho sector.
En el caso de muestreo con reposición los estimadores son los mismos (para la
población y para la subpoblación). Los errores de muestreo para la población y la
subpoblación serán:
www.FreeLibros.org
142 Muestreo estadístico. Conceptos y problemas resueltos
Vˆ ( x ) 0,07
ˆ CR ( x ) = VˆCR ( x ) = = = 0,289
1
f 1
50 / 750
Vˆ ( Xˆ ) 39375
ˆ CR ( Xˆ ) = VˆCR ( Xˆ ) = = = 212,28
1
f 1
50 / 750
Vˆ ( x1 ) 0,14
ˆ CR ( x1 ) = VˆCR ( x1 ) = = = 0,4
1
f 1
50 / 750
Vˆ ( Xˆ 1 ) 202354,28
ˆ CR ( Xˆ 1 ) = VˆCR ( Xˆ 1 ) = = = 482,14
1
f 1
50 / 750
Los errores relativos de muestreo al estimar la media y el total también son mayores
en el caso de muestreo con reposición, tanto para la población como para la subpoblación.
3.16. La tabla adjunta muestra la distribución de frecuencias del número de residentes en cada una
de las 197 ciudades de Estados Unidos que tenían más de 50000 habitantes en 1940.
Calcular los errores absoluto y relativo de muestreo del número total de habitantes estimado en
las 197 ciudades utilizando los siguientes métodos de muestreo:
2º) Muestreo que consiste en seleccionar las cinco ciudades más grandes y posteriormente una
muestra irrestricta aleatoria de tamaño 45 para las 192 ciudades restantes.
www.FreeLibros.org
Muestreo aleatiorio simple sin y con reposición. Subpoblaciones 143
1 ⎡ 197 ⎤
2
2
S =
⎛ 197 ⎞
⎢∑ ni X i
⎜ ∑ n i X i ⎟ N ⎥ =
N
1 ⎢⎣ i =1
2 1
[
85363125
(46275) 197 = 380067,33
2
]
⎝ i =1 ⎠ ⎥⎦ 197
1
El error de muestreo para una muestra aleatoria simple sin reposición de tamaño 50 es:
n S2 50 380067,33
( Xˆ ) = V ( Xˆ ) = N 2 (1
) = 197 2 (1
) = 14836,79 miles de personas
N n 197 50
197
14836,79
Como X = ∑ ni X i = 46275 ⇒ Cv( Xˆ ) = * 100 = 32% (error relativo).
i =1 46275
1 ⎡ 192 ⎤
2
S1
2
=
⎛ 192 ⎞
⎢∑ n i X i
⎜ ∑ n i X i ⎟ N 1 ⎥ =
N 1
1 ⎢⎣ i =1
2 1
[ 2
]
9425000
(30350 ) 192 = 24227,68
⎝ i =1 ⎠ ⎥⎦ 192
1
n1 S12 45 24227,268
( Xˆ ) = V ( Xˆ ) = N 2 (1
) = 192 2 (1
) = 3898,09 miles de personas
N 1 n1 192 45
192
3898,09
Como X 1 = ∑ ni X i = 30350 ⇒ Cv( Xˆ ) = * 100 = 12,84% (error relativo).
i =1 30350
3.17. Dos dentistas A y B hicieron una encuesta para investigar el estado de los dientes de 200 niños. El
doctor A seleccionó una muestra irrestricta aleatoria de 20 niños y contó el número de dientes con
caries de cada niño, con los siguientes resultados:
El doctor B, utilizando las mismas técnicas dentales, examinó a los 200 niños y sólo registró
aquellos que no tenían caries, encontrando que 60 niños no tenían dientes dañados.
1) Estudiar qué doctor obtiene estimaciones más precisas del número total de dientes con caries en
los niños cuantificando la ganancia en precisión.
2) Realizar las estimaciones anteriores mediante intervalos de confianza al 95%. Comentar los
resultados comparándolos con los del apartado anterior.
www.FreeLibros.org
144 Muestreo estadístico. Conceptos y problemas resueltos
0
8 + 1
4 + L + 10
1
Xˆ = Nx = 200 = 200
2,1 = 420 dientes con caries.
20
n Sˆ 2 20 8,62
ˆ ( Xˆ ) = Vˆ ( Xˆ ) = N 2 (1
) = 200 2 (1
) = 123,04
N n 200 20
1 ⎡ 10 ⎤ 1
2
Sˆ 2 =
⎛ 10 ⎞
⎢∑ n i X i
⎜ ∑ ni X i ⎟ n ⎥ =
20
1 ⎣⎢ i = 0
2
19
[ 2
]
252
(42 ) 20 = 8,62
⎝ i =1 ⎠ ⎥⎦
Para el doctor B se considera la subpoblación de los 140 niños con caries resultante de
eliminar de los 200 niños iniciales los 60 que no tenían caries. En cuanto a la muestra, hay que
eliminar de la distribución inicial los ocho niños que tienen cero caries (20
8=12). La
distribución muestral de frecuencias de esta subpoblación queda como sigue:
1
4 + L + 10
1
Xˆ 1 = N 1 x1 = 140 = 140
3,5 = 490 dientes con caries.
12
n1 Sˆ1
2
12 9,545
ˆ ( Xˆ 1 ) = Vˆ ( Xˆ 1 ) = N 12 (1
) = 140 2 (1
) = 419,370
N 1 n1 140 12
1 ⎡ 10 ⎤ 1
2
Sˆ12 =
⎛ 10 ⎞
⎢∑ ni X i
⎜ ∑ ni X i ⎟ n1 ⎥ =
12
1 ⎢⎣ i =1
2
[ 2
]
252
(42) 12 = 9,545
⎝ i =1 ⎠ ⎥⎦ 11
www.FreeLibros.org
Muestreo aleatiorio simple sin y con reposición. Subpoblaciones 145
EJERCICIOS PROPUESTOS
3.1. Consideramos una población finita de seis elementos sobre los que medimos una variable X,
obteniendo como resultados Xi = {8, 3, 1, 11, 4, 7}, i = 1, ..., 6. Mediante muestreo irrestricto
aleatorio se extraen muestras de tamaño 2. Se pide:
1) ¿Cuántos elementos tiene el espacio muestral? Especificar dicho espacio muestral y las
probabilidades asociadas a las muestras. Hallar las distribuciones en el muestreo de los
estimadores de la media y del total de X, así como de los estimadores de sus varianzas.
S2
Comprobar la insesgadez de los estimadores y que se cumple V ( x ) = (1
f ) ,
n
2
S
V ( Xˆ ) = N 2 (1
f ) y E ( Sˆ 2 ) = S 2 , así como que el estimador T = Total muestral no es
n
insesgado del total poblacional X.
2) Hallar el tamaño de muestra necesario para que el error de muestreo sea 2 al estimar la
media de la población. ¿Y al estimar el total poblacional? Hallar también el tamaño de
muestra necesario para que el error relativo de muestreo sea 0.48 en las mismas
estimaciones. Calcular todos los tamaños de muestra anteriores en presencia de un
coeficiente de confianza adicional del 95%. Comentar los resultados.
3) Contestar a todas las preguntas del apartado anterior para muestreo con reposición.
Comparar los resultados con los de muestreo sin reposición. Comentar los resultados.
3.2. Mediante muestreo irrestricto aleatorio se trata de estimar la proporción y el total de piezas
correctas producidas en un proceso industrial en el que se fabrican un total de 6000 unidades.
Una muestra piloto ha suministrado 1/3 de piezas defectuosas. Se pide:
1) Hallar el tamaño de muestra necesario para que el error de muestreo sea de una décima al
estimar la proporción de piezas correctas producidas en el proceso industrial. Hallar también el
tamaño de muestra necesario para que el error relativo de muestreo sea de 20% en la misma
estimación.
2) Hallar el tamaño de muestra necesario para que el error de muestreo sea de 600 unidades al
estimar el total de piezas correctas con un coeficiente de confianza del 99,7% y suponiendo
muestreo aleatorio simple con reposición. Hallar dicho tamaño en las condiciones anteriores pero
para un error relativo de muestreo del 10%.
www.FreeLibros.org
146 Muestreo estadístico. Conceptos y problemas resueltos
3) Hallar el tamaño de muestra necesario para que el error de muestreo sea 1/4 al estimar la
proporción de números primos de la población. Hallar también el tamaño de muestra necesario
para que el error relativo de muestreo sea del 2% en la misma estimación.
5) Hallar el tamaño de muestra necesario para que el error de muestreo sea 6 al estimar el total de
números primos de la población con un coeficiente de confianza del 99% y suponiendo muestreo
aleatorio simple con reposición. Hallar dicho tamaño en las condiciones anteriores pero para un
error relativo de muestreo del 90%. Comentar los resultados.
3.5. Una muestra irrestricta aleatoria de n = 100 medidores de agua es controlada dentro de una
comunidad para estimar el promedio de consumo de agua diario por casa durante un periodo
estacional seco. La media y la varianza muestrales fueron y = 12,5 y s 2 = 1252 . Si
suponemos que hay N = 10000 casas dentro de la comunidad, estimar μ, el promedio de
consumo diario verdadero, y establezca un límite para el error de estimación.
www.FreeLibros.org
CAPÍTULO
MUESTREO ESTRATIFICADO
SIN Y CON REPOSICIÓN
OBJETIVOS
1. Presentar el concepto de muestreo estratificado.
2. Comprender las especificaciones del muestreo estratificado.
3. Analizar los estimadores y sus errores en muestreo aleatorio estratificado
sin reposición.
4. Estimar los errores en muestreo aleatorio estratificado sin reposición.
5. Analizar los estimadores y sus errores en muestreo estratificado con
reposición.
6. Estimar los errores en muestreo aleatorio estratificado sin reposición.
7. Comprender el concepto de afijación de la muestra.
8. Estudiar los distintos tipos de afijación.
9. Especificar los errores de los estimadores en función de los distintos tipos
de afijación.
10. Analizar el tamaño de la muestra en general.
11. Estudiar el tamaño de la muestra en función de los distintos tipos de
afijación.
12. Comparar la eficiencia de los distintos tipos de afijación.
13. Presentar el concepto de postestratificación.
14. Analizar estimadores y errores en postestratifiacción.
www.FreeLibros.org
148 Muestreo estadístico. Conceptos y problemas resueltos
ÍNDICE
1. Concepto de muestreo estratificado.
2. Muestreo estratificado sin reposición. Estimadores y errores.
3. Muestreo estratificado con reposición. Estimadores y errores.
4. Afijación de la muestra. Tipos de afijación y errores de los estimadores para
muestreo sin reposición.
5. Afijación de la muestra. Tipos de afijación y errores de los estimadores para
muestreo con reposición.
6. Tamaño de la muestra para muestreo sin reposición.
7. Tamaño de la muestra para muestreo con reposición.
8. Comparación de eficiencias en muestreo estratificado.
9. Postestratificación.
10. Problemas resueltos
11. Ejercicios propuestos
www.FreeLibros.org
Muestreo estratificado sin y con reposición 149
Nh N4
nh n4
N1 N2 N3
n1 n2 n3
POBLACIÓN
A continuación se expresa de modo esquemático la formación de estratos en la
población y la formación de la muestra estratificada de la forma siguiente:
POBLACIÓN
⎧u11 u12 Lu 1 N1 ⎫
⎪ ⎪
⎪u 21 u 22 Lu 2 N 2 ⎪ L
{u1 u 2 Lu N } ⎨
Se divide en L estratos
∑
⎬ Nh = N
⎪LLLLLL⎪ h =1
⎪u u Lu ⎪
⎩ L1 L 2 LN L ⎭
MUESTRA
⎧u11 u12 Lu 1n ⎫
1
⎪ ⎪
⎪u 21 u 22 Lu 2 n ⎪ L
{u1 u 2 Lu n } ⎨
Se extrae en cada estrato
∑
⎬ nh = n
2
⎪LLLLLL⎪ h =1
⎪u u Lu ⎪
⎩ L1 L 2 Ln ⎭
L
www.FreeLibros.org
150 Muestreo estadístico. Conceptos y problemas resueltos
3. Paliar los defectos del marco, aislando esos defectos en algunos estratos.
Es muy conveniente utilizar muestreo estratificado cuando existe una variable precisa para
la estratificación cuyos valores permitan dividir convenientemente la población en estratos
homogéneos. Las variables utilizadas para la estratificación deberán estar correlacionadas con las
variables objeto de la investigación. Por ejemplo, para realizar estadísticas sobre los ingresos de las
familias en una ciudad puede estratificarse según los valores de la variable cualificación profesional
de los cabezas de sus componentes (a más cualificación normalmente hay más ingresos, con lo que
los estratos resultarán homogéneos). Si se quiere estudiar el volumen de negocio de los
establecimientos de venta al público de una ciudad, se puede utilizar como variable de
estratificación su número de empleados, y clasificar (estratificar) los establecimientos en grandes
superficies, supermercados, tiendas grandes, tiendas pequeñas y otros, según el número de
empleados; así resulta una división de los establecimientos en grupos homogéneos. Si se quiere
estudiar características de hospitales se puede utilizar la variable de estratificación número de
pacientes, para estratificarlos en grandes hospitales, clínicas medias y clínicas pequeñas, resultando
así grupos de hospitales con problemática similar. Para realizar estadísticas en el sector educativo
puede utilizarse la variable de estratificación nivel de enseñanza, tomando como estratos los niveles
de enseñanza infantil, enseñanza primaria, enseñanza secundaria obligatoria, bachillerato y
enseñanza universitaria (cada estrato tiene así unas características muy peculiares que lo hacen
homogéneo).
El parámetro puede ser estimado mediante la suma extendida a todos los estratos de los
estimadores lineales insesgados de Horvitz y Thompson en cada estrato, es decir, mediante:
L nh
Y hi
ˆ = ∑∑
h i hi
~
donde hi es la probabilidad de que la unidad u hi pertenezca a la muestra ( Xh ) de nh unidades,
obtenida de entre las Nh unidades del estrato h-ésimo. Para los diferentes estimadores tendremos las
siguientes expresiones:
www.FreeLibros.org
Muestreo estratificado sin y con reposición 151
nh nh
L
X hi L
X hi L
1 nh L L
= X ⇒ Yhi = X hi ⇒ Xˆ st = ∑∑ = ∑∑ = ∑ N h ∑ X hi = ∑ N h xh = ∑ Xˆ h
hi h=1 i =1 nh N h n =1
h=1 i =1 h=1
1h4i243 h=1 h=1
Xˆ h = xh
X hi L
1 nh X L
1 nh X L
N 1 nh L
= X ⇒ Yhi = ⇒ Xˆ st = xst = ∑ ∑ hi = ∑ ∑ hi = ∑ h ∑ X hi = ∑Wh xh
N h=1 N i =1 hi h=1 N i =1 nh N h N nh i=1
h=1 { h=1
Wh
nh nh
L
Ahi L
Ahi L
1 nh L L
= A ⇒ Yhi = Ahi ⇒ Aˆ st = ∑∑ = ∑∑ = ∑ N h ∑ Ahi = ∑ N h Pˆh = ∑ Aˆ h
hi nh N h h=1 nh i =1
h=1 i =1 h =1 i =1
1424 3 h=1 h =1
Pˆh
Ahi L
1 nh A L
1 nh Ahi L
N 1 nh L
= P ⇒ Yhi = ⇒ Pˆst = ∑ ∑ hi = ∑ ∑ =∑ h ∑ Ahi = ∑ Wh Pˆh
N N N n N N n
h =1 { h i =1
h =1 i =1 hi h =1 i =1 h h
W
1424 3 h=1
h
Pˆh
( ) S2 ⎛ L ⎞ L S2
L
V Xˆ st = ∑ N h2 (1
f h ) h , V (x st ) = V ⎜ ∑ W h x h ⎟ = ∑ W h2 (1
f h ) h
h =1 nh ⎝ h =1 ⎠ h =1 nh
( ) N h Ph Q h
( ) N h Ph Q h
L L
V Aˆ st = ∑ N h2 (1
f h ) , V Pˆst = ∑ Wh2 (1
f h )
h =1 N h
1 nh h =1 N h
1 nh
Sˆ h2 Sˆ h2
( )
L L
V X st = ∑ N h (1
f h )
ˆ ˆ 2
, V (X st ) = ∑ W h (1
f h )
ˆ 2
h =1 nh h =1 nh
Pˆ Qˆ Pˆ Qˆ
( ) ( )
L L
Vˆ Aˆ st = ∑ N h2 (1
f h ) h h , Vˆ Pˆst = ∑ W h2 (1
f h ) h h
h =1 nh
1 h =1 nh
1
Para el caso del muestreo estratificado con reposición los estimadores son los
mismos, y sus varianzas son las siguientes:
( ) 2 2 PQ
( ) PQ
( )
L L L L
V Xˆ st = ∑ N h2 h , V ( x st ) = ∑Wh2 h , V Aˆ st = ∑ N h2 h h , V Pˆst = ∑Wh2 h h
h =1 nh h =1 nh h =1 nh h =1 nh
www.FreeLibros.org
152 Muestreo estadístico. Conceptos y problemas resueltos
ˆ2 ˆ2 Pˆ Qˆ Pˆ Qˆ
( ) 2 Sh 2 Sh
( ) ( )
L L L L
ˆ ˆ
V X st = ∑ N h , V (X st ) = ∑Wh
ˆ , Vˆ Aˆ st = ∑ N h2 h h , Vˆ Pˆst = ∑Wh2 h h
h =1 nh h =1 nh h =1 nh
1 h =1 nh
1
Afijación uniforme
Consiste en asignar el mismo número de unidades muestrales a cada estrato, con lo que se
tomarán todos los nh iguales a n/L, aumentando o disminuyendo este tamaño en una unidad
si n no fuese múltiplo de L, esto es, nh = E(n/L) + 1, donde E denota la parte entera.
L L
nh k
n h = k h = 1LL ⇒ ∑ n h = ∑ k ⇒ n = Lk ⇒ f h = =
h =1 h =1 Nh Nh
Para este tipo de afijación, las varianzas de los estimadores y sus estimaciones se
hallan sustituyendo en las fórmulas generales fh por k/Nh. Este tipo de afijación da la misma
importancia a todos los estratos, en cuanto a tamaño de la muestra, con lo cual favorecerá a los
estratos de menor tamaño y perjudicará a los grandes en cuanto a precisión. Sólo es conveniente
en poblaciones con estratos de tamaño similar.
Afijación proporcional
Consiste en asignar a cada estrato un número de unidades muestrales proporcional a su tamaño.
Las n unidades de la muestra se distribuyen proporcionalmente a los tamaños de los estratos
expresados en número de unidades. Tenemos:
L L L
n
n h = N h k ⇒ ∑ n h = ∑ N h k = k ∑ N h ⇒ n = kN ⇒ k = = f
1 23 h =1
h =1
1 23
h =1 N
n N
nh N k N h nh k nh
fh = = h =k = f Wh = = =
N Nh N nk n
{h
hi
www.FreeLibros.org
Muestreo estratificado sin y con reposición 153
( )
V Xˆ st =
(1
k ) L N
S 2 , V (x ) = (1
k ) L W
S 2
k h=1
∑ h h st
n h=1
∑ h h
( )
ˆ (1
k ) L Nh2 ˆ (1
k ) L Nh2 N
( )
V Ast = ∑
k h=1 Nh
1
PhQh , V Pst = ∑
k h=1 Nh
1
PhQh
L L
n 1 L ∑x h
x Total muestral
Xˆ st = ∑ N h x h = ∑ h x h = ∑ nh x h = h =1
= =
h =1 h =1 k K h =1
{ k f Fraccion demuestreo
x h nh
L
L L
1 L ∑x h
Xˆ st = x st = ∑ Wh x h = ∑ h x h = ∑ nh x h =
n h =1 Total muestral
=
h =1 h =1 n n h =1 x{n n Tamaño de muestra
h h
• Las fracciones de muestreo en los estratos son iguales y coinciden con la fracción global
de muestreo, siendo su valor la constante de proporcionalidad.
• El estimador insesgado para el total poblacional puede expresarse como el cociente entre
el total muestral y la fracción de muestreo, o lo que es lo mismo, como el producto del
total muestral por la inversa de la fracción de muestreo. Similar propiedad tiene el
estimador insesgado para el total de clase (producto del total de clase muestral por la
inversa de la fracción de muestreo).
• El estimador insesgado para la media poblacional puede expresarse como el cociente entre
el total muestral y el tamaño de la muestra. Similar propiedad tiene el estimador insesgado
para la proporción poblacional (cociente entre el total de clase muestral y el tamaño de la
muestra).
nh
• Como hi = = k = f, todas las unidades de la población tienen la misma probabilidad
Nh
de figurar en la muestra de n unidades; es decir, estamos en el caso de muestras
autoponderadas.
www.FreeLibros.org
154 Muestreo estadístico. Conceptos y problemas resueltos
Nh
Sh
NhSh W S
La expresión para nh es n h = n
L =n
L N =n
L h h .
Nh
∑h =1
NhSh ∑h =1 N
Sh ∑h =1
Wh S h
Una vez calculados los nh para afijación de mínima varianza, vamos a ver cuánto
vale la varianza del estimador de la media y del total para este tipo de afijación. Tenemos:
2 2
( ) 1⎛ L ⎞ 1 L
1⎛ L ⎞ 1 L
V ( x st ) = ⎜ ∑ Wh S h ⎟
∑ Wh S , V Xˆ st2
h = ⎜∑ Nh Sh ⎟
∑N h S h2
n ⎝ h =1 ⎠ N h =1 n ⎝ h =1 ⎠ N h =1
Afijación óptima
La afijación óptima consiste en determinar los valores de nh (número de unidades que se
extraen del estrato h-ésimo para la muestra) de forma que para un coste fijo C la varianza de
los estimadores sea mínima. El coste fijo C será la suma de los costes derivados de la
selección de las unidades muestrales de los estratos; es decir, si ch es el coste por unidad de
muestreo en el estrato h, el coste total de selección de las nh unidades muestrales en ese
estrato será chnh. Sumando los costes chnh para los L estratos tenemos el coste total de
selección de la muestra estratificada.
Nh Sh ch Wh S h ch
Podemos escribir que n h = n
L
= n
L
∑N
h =1
h Sh ch ∑W
h =1
h Sh ch
www.FreeLibros.org
Muestreo estratificado sin y con reposición 155
1⎛ L ⎞⎛ L ⎞ 1 L
V ( x st ) = ⎜ ∑ Wh S h c h ⎟⎜ ∑ Wh S h c h ⎟
∑W S h
2
h
n ⎝ h =1 ⎠⎝ h =1 ⎠ N h =1
( ) 1⎛ L ⎞⎛ L ⎞ 1 L
V Xˆ st = ⎜ ∑ N h S h c h ⎟⎜ ∑ N h S h c h ⎟
∑N h S h2
n ⎝ h =1 ⎠⎝ h =1 ⎠ N h =1
Dada la forma en que están definidos los cálculos de los nh para las afijaciones uniforme y
proporcional, dichas afijaciones no van a verse afectadas por el hecho de que el muestreo sea
con o sin reposición. Sin embargo, sí variarán las varianzas de los estimadores. Las
afijaciones de mínima varianza y óptima sí van a verse afectadas por la existencia de
reposición o no, ya que el cálculo de nh depende de las varianzas en los estratos.
Afijación uniforme
( )
( ) ( )
2 2
L L
PQ PQ
L L
V Xˆ st = ∑Nh2 h , V (xst ) = ∑Wh2 h , V Aˆst = ∑Nh2 h h , V Pˆst = ∑Wh2 h h
h=1 k h=1 k h=1 k h=1 k
Afijación proporcional
( ) 1 L 1 L
k h=1
( ) 1 L
n h=1
1 L PQ
V Xˆ st = ∑ N h h2 , V Aˆ st = ∑ N h Ph Qh , V (xst ) = ∑Wh h2 , V Pˆst = ∑Wh h h
k h=1 n h=1 k
( )
Tenemos:
2 2
Wh h N h h 1⎛ L ⎞ 1⎛ L ⎞
nh = n
L
= n
L
, V ( x st ) = ⎜∑ h h ⎟
W , V ( x st ) = ⎜ ∑ N h h ⎟
n ⎝ h =1 ⎠ n ⎝ h =1 ⎠
∑W
h =1
h h ∑N
h =1
h h
www.FreeLibros.org
156 Muestreo estadístico. Conceptos y problemas resueltos
Afijación óptima
Tenemos:
Wh h N h h
ch ch 1⎛ L ⎞⎛ L ⎞
nh = n
=n
, V ( x st ) = ⎜ ∑ Wh h c h ⎟⎜ ∑ Wh h c h ⎟ ,
L
Wh h L
N h h n ⎝ h =1 ⎠⎝ h =1 ⎠
∑
h =1 ch
∑ h =1 ch
( )
1⎛ L
V Xˆ st = ⎜ ∑ N h h
n ⎝ h =1
⎞⎛ L ⎞
c h ⎟⎜ ∑ N h h c h ⎟
⎠⎝ h =1 ⎠
Si se quiere la afijación óptima y la expresión de la varianza mínima para el estimador de
la proporción y el total de clase basta sustituir en las fómulas anterioriores h2 por PhQh.
Vamos a analizar ahora el tamaño de muestra estratificada con reposición necesario para
cometer un determinado error de muestreo conocido de antemano. Distinguiremos los casos
de error de muestreo dado con y sin coeficiente de confianza adicional y, además,
distinguiremos entre los diferentes tipos de afijación de la muestra.
www.FreeLibros.org
Muestreo estratificado sin y con reposición 157
S2 1 L 1 L
∑ W h S h2 + ∑ W h (X h
X ) ⇒ = ∑ W h S h2 + ∑ W h (X h
X ) ⇒
L L
2 2
S2 =
h =1 h =1 n n h =1 n h =1
S 2 1
f L 1
f L
∑ ∑ W h (X h
X ) ⇒ V MAS ( x )
2 2
(1
f ) = W S + V MEP ( x )
n 1n442 3 1n4 4
h h
14243 h =1
44 4 24 4 4 3
h =1 La igualdad se da
V MAS ( x ) V MEP ( x ) 0 si X = X h =1,L, L h
Hemos visto que el muestreo estratificado con afijación proporcional es más preciso que el
muestreo aleatorio simple, produciéndose la igualdad de precisiones cuando las medias de los
estratos son todas iguales. Por tanto, la ganancia en precisión del muestreo estratificado respecto del
aleatorio simple será mayor cuanto más distintas entre sí sean las medias de los estratos; es decir,
para que el muestreo estratificado sea preciso es conveniente que los estratos sean heterogéneos
entre sí en media, afirmación que ya conocíamos desde el comienzo del tema y que constituye una
de las especificaciones clásicas en el muestreo estratificado.
1
f L ⎛1⎛ L ⎞
2
1 L ⎞
V MEP ( x )
V MEMV ( x ) = ∑
n3 h =1
2
Wh S h
⎜
⎜ ⎜ ∑ Wh S h ⎟
∑W S 2 ⎟=
⎟
⎝ n ⎝ h =1 N
h h
12 ⎠ h =1
⎠
1 1
n N
1 ⎛⎜ L ⎞ 1 L
2
⎛ L ⎞
( )
L
2
∑
n ⎜⎝ h =1
W S
h h
2
⎜ ∑
⎝ h =1
Wh S h ⎟
⎠
⎟ = ∑ Wh S h
S
⎟ n h =1
0 con S = ∑ Wh S h
⎠ La igualdad se da h =1
si S h = S h =1,L, L
Luego VMEP ( x )
VMEMV ( x ) 0 ⇒ VMEP ( x ) VMEMV ( x )
www.FreeLibros.org
158 Muestreo estadístico. Conceptos y problemas resueltos
El muestreo estratificado con afijación de mínima varianza es más preciso que el muestreo
estratificado con afijación proporcional, produciéndose la igualdad de precisiones cuando las
cuasidesviaciones típicas de los estratos son todas iguales. Por tanto, la ganancia en precisión del
muestreo estratificado con afijación de mínima varianza respecto del muestreo estratificado con
afijación proporcional será mayor cuanto más distintas entre sí sean las cuasidesviaciones típicas de
los estratos; es decir, para que el muestreo estratificado sea más preciso es conveniente que los
estratos sean heterogéneos entre sí en desviación típica, afirmación que ya conocíamos desde el
comienzo del tema y que constituye una de las especificaciones clásicas en el muestreo
estratificado.
El muestreo estratificado con afijación de mínima varianza es más preciso que el muestreo
estratificado con afijación proporcional y que el aleatorio simple, siendo además el estratificado con
afijación proporcional más preciso que el aleatorio simple.
S 2 1
f L 1
f L
∑ ∑ W (X )
2
(1
f ) = W h S h2 + h h
X =
142 43 n 1n442h =1
44 3 n h =1
V MAS ( x ) V MEP ( x )
1 L
1
f L
V MEMV ( x ) +
n
(
∑ Wh Sh
S )
2
+
n
∑ W (X h h
X )
2
h =1 h =1
2 1 L 1 L
2 = ∑Wh h2 + ∑Wh (X h
X ) ⇒ Wh h2 + ∑Wh (X h
X ) ⇒
L L
∑
2 2
=
h =1 h =1 {n n4
1 243 1
h =1 n h4
=1
4
42444 3
VMAS ( x ) VMEP ( x ) 0
VMAS ( x ) VMEP ( x )
La igualdad se da
si X h = X h =1,L, L
Hemos visto que el muestreo estratificado con reposición y afijación proporcional es más
preciso que el muestreo aleatorio simple con reposición, produciéndose la igualdad de precisiones
cuando las medias de los estratos son todas iguales.
www.FreeLibros.org
Muestreo estratificado sin y con reposición 159
1 ⎛⎜ L ⎞ ⎞⎟
2 2
1 L 1⎛ L ⎞ ⎛ L
VMEP ( x )
VMEMV ( x ) = ∑ h h n ⎝∑
n h =1
W 2
⎜
h =1
W
h h ⎟
⎠
= ∑ h h ⎝∑
n ⎜⎝ h =1
W 2
⎜
h =1
W
h h ⎟
⎠ ⎟⎠
1 L
Wh ( h
)
L
2 1 L 1 L
∑ ∑ Wh (X h
X ) =
2
= W
h h
2
+
{n n4
1 243 n h =1
h =1
V MAS ( x ) VMEP ( x )
1 L
) + 1n ∑ W (X
L
VMEMV ( x ) + ∑ Wh h
n h =1
( 2
h h
X)
2
h =1
POSTESTRATIFICACIÓN
Ejemplos típicos son las características personales como la edad, el sexo, la estatura,
etc., y el nivel de educación.
Los tamaños de los estratos Nh se pueden obtener de manera bastante exacta a partir
de las estadísticas oficiales, pero las unidades se pueden clasificar en estratos solamente
después de conocer los datos de la muestra. Por lo tanto, puede suponerse que los Wh y los
Nh son conocidos.
www.FreeLibros.org
160 Muestreo estadístico. Conceptos y problemas resueltos
Este método se utiliza cuando se desconocen a priori las unidades que pertenecen a
cada estrato. Obtenida la muestra, las unidades se asignan al estrato correspondiente. Si los
pesos de éstos son conocidos, se puede utilizar el estimador insesgado.
L
x ' = ∑ Wh x h
h =1
cuya precisión es similar a la obtenida con la afijación proporcional, siempre que todos los
nh sean grandes; por ejemplo, superiores a 20 unidades. Si de los Wh se conocen sólo las
aproximaciones W’h, el estimador:
L
x ' ' = ∑W 'h xh
h =1
N
n L N
n L 2
V (x' ' ) = ∑ h h N n2 ∑
N '
S ' 2
+ S ' h (1
f ' h )
N 2 n h =1 h =1
N
n L N ( N
n) L 2
V ( Xˆ ' ' ) = ∑ h h
N '
S ' 2
+ ∑ S ' h (1
f ' h )
n h =1 n2 h =1
N
n L N
n L ˆ 2
Vˆ ( x ' ' ) = 2 ∑ N ' h
Sˆ ' h2 +
N n h =1
∑ S ' h (1
f ' h )
N n 2 h =1
N
n L N ( N
n) L ˆ 2
Vˆ ( Xˆ ' ' ) = ∑ N ' h
Sˆ ' h2 + ∑ S ' h (1
f ' h )
n h =1 n2 h =1
n' h ˆ
Para totales y proporciones cambiamos Sˆ h2 por P' h (1
Pˆ ' h ) y S ' 2h por
n' h
1
N 'h
P ' h (1
P' h ) . El apóstrofe indica siempre valor de postestratificación.
N ' h
1
www.FreeLibros.org
Muestreo estratificado sin y con reposición 161
PROBLEMAS RESUELTOS
4.1. Una empresa publicitaria está interesada en medir la influencia de la publicidad televisiva en un
municipio y decide realizar una encuesta por muestreo para estimar el número promedio de horas
por semana que se ve la televisión en los hogares del municipio. Éste comprende dos pueblos A y
B y un área rural, y se sabe que existen 155 hogares en el pueblo A, 62 en el pueblo B y 93 en el
área rural. La empresa publicitaria tiene tiempo y dinero suficientes para entrevistar 30 hogares
(20 del pueblo A, 8 del pueblo B y 12 del área rural) midiendo en cada uno el tiempo que se ve la
televisión en horas por semana. Se obtienen los datos siguientes:
Estimar el tiempo promedio que se ve la televisión, en horas por semana, en cada uno de los
estratos y en todo el municipio fijando límites para el error de estimación a través de intervalos de
confianza al 95%.
Comenzamos introduciendo los datos como tres columnas, una por cada estrato, en
una hoja de cálculo de Excel. A continuación, para calcular los estadísticos necesarios en cada
estrato, en el menú Herramientas de Excel elegimos Análisis de datos, seleccionamos
Estadística descriptiva y rellenamos la pantalla de entrada como se indica en la Figura 13-1.
Al pulsar Aceptar se obtienen los estadísticos muestrales por estrato de la Figura 13-2. Se
observa que el tiempo promedio que se ve la televisión en el pueblo A es 33,9 horas por
semana, en el pueblo es 20,33 y en la zona rural es 19. Las cuasivarianzas muestrales son
33,3578, 285 y 87,63 horas por semana, respectivamente, en cada estrato, y al dividirlas por el
tamaño muestral seleccionado en cada estrato obtenemos los errores de los estimadores en
cada estrato suponiendo muestreo con reposición (33,35/20 = 1,667, 285/8 = 35,62 y 87,63/12
= 7,3). Como los coeficientes de asimetría y curtosis en cada estrato están en el intervalo
[
2,2], puede suponerse normalidad, con lo que los límites para el error de estimación en cada
estrato (suponiendo muestreo con reposición) serán los radios de los intervalos de confianza al
95%, es decir, 2,7829, 12,97 y 5,94, respectivamente. Si el muestreo es sin reposición, las
varianzas en cada estrato hay que multiplicarlas por (1
nh/Nh) h = 1, 2, 3.
Figura 13-1
www.FreeLibros.org
162 Muestreo estadístico. Conceptos y problemas resueltos
Figura 13-2
L
Sˆ 2
Vˆ ( X st ) = ∑Wh2
(1
f h )
h
h =1 nh
La Figura 13-3 presenta las fórmulas para el cálculo del estimador de la media
estratificada para todo el municipio, su error de muestreo y el radio del intervalo de
confianza al 95%. La Figura 13-4 presenta los resultados.
Figura 13-3
Figura 13-4
L ˆ2
2 Sh
ˆ ( )
V X st = ∑Wh
h =1 nh
La Figura 13-5 presenta las fórmulas y la Figura 13-6 presenta los resultados.
www.FreeLibros.org
Muestreo estratificado sin y con reposición 163
4.2. Consideramos los salarios anuales (variable X) en miles de euros de 500 trabajadores de una
empresa se obtiene la siguiente distribución de frecuencias:
Xi ni
2 100
3 80
5 200
10 30
20 30
50 30
100 20
200 10
Comenzamos realizando los cálculos por estratos necesarios para la resolución del
problema. Tenemos:
Estratos
Sh S h2 h h2 Nh
I 1,32 1,75 1,32 1,74 380
II 17,1 292,13 16,99 288,88 90
III 47,95 2298,85 47,14 2222,22 30
⎧ N 1 S1
⎪n1 = 100
15
⎪ N 1 S1 + N 2 S 2 + N 3 S 3
N S ⎪⎪ N2S2
n h = n
L h h ⇒ ⎨n 2 = 100
44
⎪ N 1 S1 + N 2 S 2 + N 3 S 3
∑ Nh Sh
⎪
h =1 N3 S3
⎪n 3 = 100
41
⎪⎩ N 1 S1 + N 2 S 2 + N 3 S 3
www.FreeLibros.org
164 Muestreo estadístico. Conceptos y problemas resueltos
Ante esta circunstancia seleccionamos para la muestra las 30 unidades del tercer
estrato; es decir, todas las unidades del tercer estrato van a ser autorrepresentadas. Pero
ahora las 70 unidades restantes de la muestra han de repartirse mediante afijación de mínima
varianza entre los dos primeros estratos. Tendremos:
⎧ N 1 S1
⎪n1 = 70
N S + N S 17
N S ⎪ 1 1 2 2
nh = n
L h h ⇒ ⎨
⎪n = 70
N2S2
∑ Nh Sh
⎪ 2
N 1 S1 + N 2 S 2
53
h =1 ⎩
Por tanto, la nueva afijación es n1 = 17, n2 = 53 y n3 = 30. Para hallar la varianza del
estimador de la media para esta afijación sin reposición hemos de tener en cuenta que los
estratos con sus unidades autorrepresentadas no intervienen en el cálculo de las varianzas.
Como el tercer estrato no interviene en el valor de la varianza, calculamos
N 380 N 90
W '1 = 1 = = 0,8085 y W '2 = 2 = = 0,1915 . La varianza será:
N' 470 N' 470
2
1⎛ 2 ⎞ 1 2
V ⎛⎜ Xˆ ⎞⎟ = ⎜ ∑ W ' h S h ⎟
∑ W ' h S h2 = 0,184064 .
⎝ ⎠ n' ⎝ h =1 ⎠ N ' h =1
⎧ N 1 1
⎪n1 = 100
15
⎪ N 1 1 + N 2 2 + N 3 3
N ⎪⎪ N 2 2
n h = n
L h h ⇒ ⎨n 2 = 100
44
⎪ N 1 1 + N 2 2 + N 3 3
∑ N h h
⎪
h =1 N 3 3
⎪n 3 = 100
41
⎩⎪ N 1 1 + N 2 2 + N 3 3
Se observa que la afijación coincide exactamente con la obtenida para muestreo sin
reposición. Ahora el número de unidades a seleccionar para la muestra en el tercer estrato
vuelve a ser superior al número de unidades de dicho estrato, pero como el muestreo es con
reposición, es posible seguir haciendo extracciones porque las unidades se reponen a la
población cuando se extrae y nunca se acabarán. El valor de la varianza mínima será ahora:
2
1⎛ 3 ⎞ 1 380 90 30
V ⎛⎜ Xˆ ⎞⎟ = ⎜ ∑ Wh h ⎟ = (
1,32 +
16,99 + 47,14) 2 = 0,47469344
⎝ ⎠ n ⎝ h =1 ⎠ 100 500 500 500
www.FreeLibros.org
Muestreo estratificado sin y con reposición 165
⎧ N 1 1
⎪n1 = 70
N + N 17
N ⎪ 1 1 2 2
nh = n
L h h ⇒ ⎨
N 2 2
∑ N h h ⎪n = 70
⎪ 2
N 1 1 + N 2 2
53
h =1 ⎩
Por tanto, la nueva afijación es n1 = 17, n2 = 53 y n3=30. Para hallar la varianza del
estimador de la media para esta afijación con reposición hemos de tener en cuenta que los
estratos con sus unidades autorrepresentadas no intervienen en el cálculo de las varianzas.
Como el tercer estrato no interviene en el valor de la varianza calculamos W '1 = N 1 = 380 = 0,8085
N' 470
y N 90
W '2 = 2 = = 0,1915 . La varianza será:
N ' 470
2
1⎛ 2 ⎞ 1
V ⎛⎜ Xˆ ⎞⎟ = ⎜ ∑ W ' h h ⎟ = (0,8085
1,32 + 0,1915
16,99) 2 = 0,266705.
⎝ ⎠ n' ⎝ h =1 ⎠ 70
Las afijaciones coinciden para muestreo con y sin reposición, pero el muestreo sin
reposición resulta más preciso, ya que tiene menor varianza (tanto si se exigen unidades
distintas, como en caso contrario).
Se observa que, aunque haya estratos con todas sus unidades autorrepresentadas, el
muestreo sin reposición sigue siendo más preciso que el muestreo con reposición.
4.3. Las mil unidades de una población se clasifican en tres estratos para los que se conocen los
datos de la tabla adjunta:
Estratos
i Wi
I 4 0,6
II 12 0,3
III 80 0,1
Se pide:
2) Determinar el tamaño de muestra para afijación óptima con costes C1=1000, C2=1200 y
C3=2000, considerando el muestreo con y sin reposición. Realizar las respectivas
afijaciones óptimas. Comprobar que los resultados coinciden para costes unitarios con
los de afijación de mínima varianza.
www.FreeLibros.org
166 Muestreo estadístico. Conceptos y problemas resueltos
W1=0,6=N1/N⇒N1=600 12=16=(N1-1)S12/N1⇒S12=6,02⇒S1=4,003
W2=0,3=N2/N⇒N2=300 22=144=(N2-1)S22/N2⇒S22=144,5⇒S2=12,02
W3=0,1=N3/N⇒N3=100 32=6400=(N3-1)S32/N3⇒S32=6464,6⇒S3=80,4
Tenemos entonces:
Estratos
Sh S h2 h h2 Nh Wh
I 4,003 6,02 4 16 600 0,6
II 12,02 144,5 12 144 300 0,3
III 80,4 6464,6 80 6400 100 0,1
⎛1 1 ⎞ L ∑W S h
2
h
e 2 = V ⎛⎜ Xˆ ⎞⎟ = ⎜
⎟∑ Wh S h2 ⇒ n = h =1
122
⎝ ⎠ ⎝ n N ⎠ h =1 1 L
2
e +
N
∑W S
h =1
h
2
h
1 L ∑W h
2
h
e = V ⎛⎜ Xˆ ⎞⎟ = ∑ Wh h2 ⇒ n =
2 h =1
139
⎝ ⎠ n h =1 e2
Se observa que el tamaño muestral necesario para cometer el mismo error que sin
reposición es ahora superior. Ello es debido a que el muestreo con reposición es menos
preciso que el muestreo sin reposición. Una vez hallado el tamaño de muestra realizamos la
afijación proporcional como sigue:
N h =1
Una vez hallado el tamaño de muestra, realizamos la afijación de mínima varianza
como sigue:
www.FreeLibros.org
Muestreo estratificado sin y con reposición 167
⎧ N 1 S1
⎪n1 = 35
6
⎪ N 1 S1 + N 2 S 2 + N 3 S 3
N S ⎪⎪ N2S2
n h = n
L h h ⇒ ⎨n 2 = 35
9
⎪ N 1 S1 + N 2 S 2 + N 3 S 3
∑ Nh Sh
⎪
h =1 N3S3
⎪n 3 = 35
20
⎩⎪ N 1 S1 + N 2 S 2 + N 3 S 3
Se observa que el tamaño muestral necesario para cometer el mismo error que sin
reposición es ahora superior. Una vez hallado el tamaño de muestra realizamos la afijación
de mínima varianza como sigue:
⎧ N 1 1
⎪n1 = 35
7
⎪ N 1 1 + N 2 2 + N 3 3
N h h ⎪⎪ N 2 2
nh = n
L ⇒ ⎨n 2 = 35
10
⎪ N 1 1 + N 2 2 + N 3 3
∑ N h h
⎪
h =1 N 3 3
⎪n 3 = 35
23
⎪⎩ N 1 1 + N 2 2 + N 3 3
⎛L ⎞⎛ L ⎞
⎜ ∑Wh Sh ch ⎟⎜ ∑Wh Sh ch ⎟
1⎛ L ⎞⎛ L ⎞ 1 L ⎝ h=1 ⎠⎝ h=1 ⎠
V (xst ) = e 2 = ⎜ ∑Wh Sh ch ⎟⎜ ∑Wh Sh ch ⎟
∑Wh Sh2 ⇒ n = 35
n ⎝ h=1 ⎠⎝ h=1 ⎠ N h=1 1 L
e + ∑Wh Sh
2 2
N h=1
Una vez hallado el tamaño de muestra, realizamos la afijación óptima como sigue:
⎧ N 1 S 1 / C1
⎪n1 = 35
7
⎪ N 1 S 1 / C1 + N 2 S 2 / C 2 + N 3 S 3 / C 3
⎪
N h S h / Ch ⎪ N2S2
nh = n
L ⇒ ⎨n 2 = 35
10
N S / C + N S / C + N S / C
∑ N h S h / Ch ⎪
⎪
1 1 1 2 2 2 3 3 3
h =1
⎪n 3 = 35
N3S3
18
⎪ N 1 S 1 / C1 + N 2 S 2 / C 2 + N 3 S 3 / C 3
⎩
www.FreeLibros.org
168 Muestreo estadístico. Conceptos y problemas resueltos
Se observa que el tamaño muestral necesario para cometer el mismo error que sin
reposición es ahora superior. Una vez hallado el tamaño de muestra realizamos la afijación
óptima como sigue:
⎧ N 1 1 / C1
⎪n1 = 40
8
⎪ N 1 1 / C1 + N 2 2 / C 2 + N 3 3 / C 3
⎪
N h h / C h ⎪ N 2 2
nh = n
L ⇒ ⎨n 2 = 40
12
N / C + N / C + N / C
∑ N h h / C h ⎪
⎪
1 1 1 2 2 2 3 3 3
h =1
⎪n 3 = 40
N
3 3
20
⎪ N / C + N / C + N / C
⎩ 1 1 1 2 2 2 3 3 3
Si utilizamos costes unitarios los cálculos son exactamente los mismos que para la afijación
de mínima varianza, luego los resultados también lo son. Se observa que tanto en muestreo con
reposición como sin reposición la afijación que menos tamaño muestral necesita para cometer un
determinado error de muestreo es la afijación de mínima varianza, y en este caso también la óptima.
4.4. Una empresa de publicidad quiere estimar la proporción de hogares en un municipio donde
se ve cierto programa televisivo. El municipio tiene en total 310 hogares y es dividido en
tres estratos. Se selecciona una muestra estratificada de n = 40 hogares con afijación
proporcional. Estimar la proporción de hogares en el municipio donde se ve el programa
televisivo estimando los errores absoluto y relativo cometidos. Datos:
N º de hogares donde
Estratos Tamaños muestrales Pˆh
se ve el pro gra ma
1 n 1 = 20 16 0,80
2 n2 = 8 2 0,25
3 n 3 = 12 6 0,50
⎧ n1 20
⎪ N 1 = k = 0,129 155
⎪
n 40 ⎪ n 8
nh = kN h con k = = = 0,129 ⇒ ⎨ N 2 = 2 = 62
N 310 ⎪ k 0,129
⎪ n3 12
⎪N1 = = 93
⎩ k 0,129
www.FreeLibros.org
Muestreo estratificado sin y con reposición 169
3 3
N 155 62 93
Pˆst = ∑ W h Pˆh = ∑ h Pˆh = 0,80 + 0,25 + 0,50 = 0,60 (60%)
h =1 h =1 N 310 310 310
Vˆ ( Pˆst ) 0,0045
El error relativo sería Cˆ v( Pˆst ) =
100 =
100 = 11,18% .
Pˆst 0,60
4.5. Una empresa publicitaria está interesada en determinar lo que debe enfatizar la publicidad
televisiva en un determinado municipio, y decide realizar una encuesta por muestreo para
estimar el número promedio de horas por semana que se ve la televisión en los hogares del
municipio. Éste comprende dos pueblos, pueblo A y pueblo B, y un área rural. El pueblo A
circunda una fábrica, y la mayoría de los hogares son de trabajadores fabriles con niños en
edad escolar. El pueblo B es un suburbio exclusivo de una ciudad vecina y consta de
habitantes más viejos con pocos niños en casa. Existen 155 hogares en el pueblo A, 62 en el
pueblo B y 93 en el área rural. Se pide:
1. Analizar los méritos de usar muestreo aleatorio estratificado en esa situación.
2. Supóngase que se lleva a cabo la encuesta planificada. La empresa publicitaria tiene
tiempo y dinero suficientes para entrevistar n = 40 hogares, y decide seleccionar muestras
aleatorias de tamaño n1 = 20 del pueblo A, n2 = 8 del pueblo B, y n3 = 12 del área rural. Se
seleccionan las muestras irrestrictas aleatorias y se realizan las entrevistas. Los resultados,
con mediciones del tiempo que se ve la televisión en horas por semana, son los siguientes:
Estrato 1(pueblo A) 35 43 36 39 28 28 29 25 38 27 26 32 29 40 35 41 37 31 45
Estrato 2 (pueblo B) 27 15 4 41 49 25 10 30
Estrato 3 (pueblo C) 8 14 12 15 30 32 21 20 34 7 11 24
Estimar el tiempo promedio que se ve televisión, en horas por semana, para (a) todos los
hogares del municipio y (b) todos los hogares en el pueblo B. En ambos casos fijar un límite
para el error de estimación.
3. Estimar el número total de horas por semana que las familias del municipio dedican a ver
la televisión fijando un límite para el error de estimación.
Estratos
nh S h2 Sh xh Nh
1 20 35,358 5,946 33,9 155
2 8 232,411 15,245 25,125 62
3 12 87,636 9,361 19 93
www.FreeLibros.org
170 Muestreo estadístico. Conceptos y problemas resueltos
3
155 62 93
x st = ∑ Wh x h = 33,9 + 25,125 + 19 = 27,7
h =1 310 310 310
Vˆ (xst ) = ∑Wh2 (1
f h ) h = ⎜ ⎟ ⎜1
⎟ +⎜ ⎟ ⎜1
⎟ +⎜ ⎟ ⎜1
⎟ = 1,97
h=1 nh ⎝ 310⎠ ⎝ 155⎠ 20 ⎝ 310⎠ ⎝ 62⎠ 8 ⎝ 310⎠ ⎝ 93⎠ 12
Las ocho observaciones del estrato relativo al pueblo B forman una muestra aleatoria
simple para la que podemos aplicar las fórmulas del muestreo irrestricto aleatorio. Tenemos:
x2 =25,125
Sˆ 2 ⎛ 8 ⎞ 232,4
Vˆ (x2 ) = (1
f 2 ) 2 = ⎜1
⎟ = 25,5
n2 ⎝ 62⎠ 8
x 2 ± Vˆ (x 2 ) = 25,125±10,1
www.FreeLibros.org
Muestreo estratificado sin y con reposición 171
El número total de horas estimado que las familias del municipio dedican a ver la
televisión será:
( )
V Xˆ st = N 2Vˆ (x st ) = 300 2 (1,97 ) = 189278 ,56
( )
X̂ st ± Vˆ Xˆ st = 8587±2 189278,56 =8587±870
Por lo tanto, estimamos que el número total de horas que se ve la televisión en los
hogares del municipio es de 8587 horas, con un error de muestreo de 189278,56 = 435
horas y un límite para el error de estimación de ±870 horas.
Cuando se estiman totales es conveniente relativizar los errores, para que sean más
comprensibles. En nuestro caso, el error relativo será:
( )
Cˆ v Xˆ st =
( )
Vˆ Xˆ st
100 =
189278,56
100 = 5%
Xˆ st 8587
4.6. La empresa publicitaria del ejercicio anterior comprobó que cuesta más obtener una
observación del área rural que una del pueblo A o del B. El incremento es debido a los
costos de traslado de un hogar rural a otro. El costo por observación en cada pueblo se ha
estimado en 9 euros (esto es, c1 = c2 = 9), y los costos por observación en el área rural se han
estimado en 16 euros (esto es, c3 = 16). Las desviaciones estándar por estrato (aproximadas
por las varianzas muestrales de una encuesta previa) son 1 5 , 2 15 y 3 10 . Halle
el tamaño de muestra total n y los tamaños de muestra para los estratos n1, n2 y n3, que
permiten a la empresa estimar, al mínimo costo, el tiempo promedio que se ve televisión,
con un límite para el error de estimación igual a 2 horas.
Supongamos que la firma publicitaria decide utilizar entrevistas por teléfono en lugar de
entrevistas personales, porque todos los hogares en el municipio tienen teléfono y este
método reduce los costos. El costo de obtener una observación es entonces el mismo en los
tres estratos y la empresa desea estimar en este caso la media poblacional μ con un límite
para el error de estimación igual a 2 horas. Encuentre el tamaño aproximado de la muestra n
y los tamaños de muestra para los estratos n1, n2 y n3.
Supongamos ahora que la empresa publicitaria considera que las varianzas aproximadas que se
usaron en los ejemplos previos son erróneas y que las varianzas de los estratos son iguales. El
valor común de σi fue aproximado por 10 en un estudio preliminar. Se van a efectuar entrevistas
por teléfono, por lo que los costos serán iguales en todos los estratos. La empresa desea estimar el
número promedio de horas por semana que se ve la televisión en los hogares del municipio, con
un límite para el error de estimación igual a 2 horas. Determine el tamaño de muestra y los
tamaños de estratos necesarios para lograr esta exactitud.
www.FreeLibros.org
172 Muestreo estadístico. Conceptos y problemas resueltos
En primer lugar observamos que, como el límite del error de estimación es 2, tenemos:
2 Vˆ (x st ) = 2 ⇒ Vˆ (x st ) = 1
⎛ L ⎞⎛ L ⎞
⎜ ∑Wh S h ch ⎟⎜ ∑Wh S h ch ⎟
1⎛ L ⎞⎛ L ⎞ 1 L
V (xst ) = ⎜ ∑Wh S h ch ⎟⎜ ∑Wh S h ch ⎟
∑Wh S h2 ⇒ n=⎝ ⎠⎝ h=1 ⎠
h =1
N h=1
Aproximando las cuasivarianzas por las desviaciones estándar por estrato tenemos
(los Wh son los del problema anterior):
⎛ L ⎞⎛ L ⎞
⎜ ∑Wh h c h ⎟⎜ ∑Wh h c h ⎟
⎝ h =1 ⎠⎝ h =1 ⎠
n= = 57,42 58
1 L
V (x st ) + ∑Wh h 2
N h =1
⎧ N 1 1 / C1
⎪n1 = 58
18
⎪ N 1 1 / C1 + N 2 2 / C 2 + N 3 3 / C 3
⎪
N h h / C h ⎪ N 2 2
nh = n
L ⇒ ⎨n 2 = 58
23
N / C + N / C + N / C
∑ N h h / C h ⎪
⎪
1 1 1 2 2 2 3 3 3
h =1
⎪n3 = 58
N 3 3
17
⎪ N 1 1 / C1 + N 2 2 / C 2 + N 3 3 / C 3
⎩
En caso de utilizar entrevista telefónica, los costes unitarios por estrato son iguales,
con lo que la afijación óptima coincide con la afijación de mínima varianza. En este caso, el
tamaño de muestra para cometer un error de muestreo unitario será:
2
⎛ L ⎞
2 ⎜ ∑ Wh S h ⎟
1⎛ L
⎞ 1 L
⎝ h =1 ⎠
e 2 = V (x st ) = ⎜ ∑ Wh S h ⎟
∑ Wh S h2 ⇒ n =
n ⎝ h =1 ⎠ N 1 L
h =1
V (x st ) + ∑ Wh S h2
N h =1
Aproximando las cuasivarianzas por las desviaciones estándar por estrato tenemos
(los Wh son los del problema anterior):
www.FreeLibros.org
Muestreo estratificado sin y con reposición 173
2
⎛ L ⎞
⎜ ∑ Wh h ⎟
n= ⎝ h =1 ⎠ = 56,34 57
1 L
V (x st ) + ∑ Wh h 2
N h =1
Aunque el tamaño de muestra sigue siendo muy parecido al del apartado anterior, la
afijación cambia, tomándose más observaciones del área rural ya que ahora no tienen un
coste más alto.
Si, además de utilizar costes unitarios, suponemos que la variabilidad en los estratos
es unitaria, podemos aproximar la afijación óptima y la de mínima varianza por la
proporcional, ya que en este caso coinciden las tres. Entonces, el tamaño de muestra para
cometer un error de muestreo unitario será:
⎛1 1 ⎞ L ∑W S h
2
h
e 2 = V (x st ) = ⎜
⎟∑ Wh S h2 ⇒ n = h =1
⎝ n N ⎠ h =1 1 L
V (x st ) + ∑W S h
2
h
N h =1
Aproximando las cuasivarianzas por las desviaciones estándar por estrato, que son
todas iguales a 10 en este caso, tenemos (los Wh son los del problema anterior):
∑W h
2
h
n= h =1
= 75,6 76
1 L
V (x st ) + ∑W h
2
h
N h =1
www.FreeLibros.org
174 Muestreo estadístico. Conceptos y problemas resueltos
4.7. Una empresa de publicidad quiere estimar la proporción de hogares en un municipio donde
se ve cierto programa televisivo. El municipio tiene en total N = 310 hogares y es dividido
en tres estratos (pueblo A, pueblo B y un área rural) de tamaños 155, 62 y 93 hogares,
respectivamente. Datos de un estudio anterior indican que las proporciones de hogares donde
se ve el programa pueden estimarse por 0,80, 0,25 y 0,30, respectivamente, en cada estrato.
Además, el coste para obtener una observación es de 9 unidades monetarias para cualquiera
de los pueblos y de 16 para el área rural. Hallar el tamaño de muestra n y su reparto entre los
estratos para estimar la proporción poblacional de hogares donde se ve la televisión con un
límite para el error de estimación igual a 0,1 y con un coste mínimo.
Resolver el problema suponiendo que las entrevistas se realizan por teléfono y la proporción
de hogares donde se ve el programa televisivo es similar en cada uno de los tres estratos.
⎛ L ⎞⎛ L ⎞
⎜ ∑Wh S h ch ⎟⎜ ∑Wh S h ch ⎟
1⎛ L ⎞⎛ L ⎞ 1 L
V (xst ) = ⎜ ∑Wh S h ch ⎟⎜ ∑Wh S h ch ⎟
∑Wh S h2 ⇒ n=⎝ ⎠⎝ h=1 ⎠
h =1
⎛ L Nh ⎞⎛ L N ⎞
⎜⎜ ∑ Pˆh Qˆ h c h ⎟⎟⎜⎜ ∑ h Pˆh Qˆ h c h ⎟⎟
⎝ h =1 N ⎠⎝ h =1 N ⎠
n= = 62,3 64
1 L Nh ˆ ˆ
V (x st ) + ∑ Ph Qh
N h =1 N
www.FreeLibros.org
Muestreo estratificado sin y con reposición 175
⎧ N1 P1Q1 / C1
⎪n1 = 63
31
⎪ N1 P1Q1 / C1 + N 2 P2 Q2 / C2 + N 3 P3Q3 / C3
⎪
N h Ph Qh / Ch ⎪ N 2 2
nh = n
L ⇒ ⎨n2 = 63
14
N1 P1Q1 / C1 + N 2 P2 Q2 / C2 + N 3 P3Q3 / C3
∑ N h Ph Qh / Ch ⎪
⎪
h =1
⎪n3 = 63
N 3 3
18
⎪ N1 P1Q1 / C1 + N 2 P2 Q2 / C2 + N 3 P3 Q3 / C3
⎩
En caso de utilizar entrevista telefónica, los costes unitarios por estrato son iguales,
con lo que la afijación óptima coincide con la afijación de mínima varianza. En este caso, el
tamaño de muestra para cometer un error de muestreo unitario será:
2
⎛ L ⎞
2 ⎜ ∑ Wh S h ⎟
1⎛ L
⎞ 1 L
⎝ h =1 ⎠
e 2 = V ( x st ) = ⎜ ∑ Wh S h ⎟
∑ Wh S h2 ⇒ n =
n ⎝ h =1 ⎠ N h =1 1 L
V (x st ) + ∑ Wh S h2
N h =1
2
⎛ L Nh ˆ ˆ ⎞
⎜∑ Ph Qh ⎟
⎝ h =1 N ⎠
n= = 61,08 62
1 L Nh ˆ ˆ
V (x st ) + ∑ Ph Qh
N h =1 N
⎧ N1 P1Q1
⎪n1 = 62
29
⎪ N1 P1Q1 + N 2 P2 Q2 + N 3 P3 Q3
⎪
N h Ph Qh ⎪ N 2 2
nh = n
L ⇒ ⎨n2 = 62
12
N P Q + N P Q + N P Q
∑ N h Ph Qh ⎪
⎪
1 1 1 2 2 2 3 3 3
h =1
⎪n3 = 62
N 3 3
21
⎪ N1 P1Q1 + N 2 P2 Q2 + N 3 P3 Q3
⎩
Aunque el tamaño de muestra sigue siendo muy parecido al del apartado anterior, la
afijación cambia, tomándose más observaciones del área rural ya que ahora no tienen un
coste más alto.
Si, además de utilizar costes unitarios, suponemos que la variabilidad en los estratos
es constante (Ph 0,4 ⇒ h2 = PhQh = Ph(1
Ph) = 0,24), podemos aproximar la afijación
óptima y la de mínima varianza por la proporcional, ya que en este caso coinciden las tres.
Entonces, el tamaño de muestra para cometer un error de muestreo unitario será:
www.FreeLibros.org
176 Muestreo estadístico. Conceptos y problemas resueltos
⎛1 1 ⎞ L ∑W S h
2
h
e 2 = V (x st ) = ⎜
⎟∑ Wh S h2 ⇒ n = h =1
⎝ n N ⎠ h =1 1 L
V (x st )+ ∑W S h
2
h
N h =1
L
Nh ˆ ˆ
∑ h =1 N
Ph Qh
n= = 73,3 74
1 L N
V (x st ) + ∑ h Pˆh Qˆ h
N h =1 N
Si suponemos los pesos con una distribución normal, la desviación estándar en cada estrato puede
aproximarse por un cuarto de la amplitud de variación, es decir, 1 = 10/4 = 2,5 y 2 = 8/4 = 2.
Como los costes de muestreo son similares en los estratos, es lógico utilizar afijación de
mínima varianza (que coincide con la óptima en este caso) y que siempre es más eficiente que
la afijación proporcional. En este caso, el tamaño de muestra para cometer un error de
muestreo unitario será:
2
⎛ L ⎞
2 ⎜ ∑ Wh S h ⎟
1 ⎛ L
⎞ 1 L
⎝ h =1 ⎠
e 2 = V (x st ) = ⎜ ∑ Wh S h ⎟
∑ Wh S h2 ⇒ n =
n ⎝ h =1 ⎠ N 1 L
h =1
V (x st ) + ∑ Wh S h2
N h =1
Aproximando las cuasivarianzas por las desviaciones estándar por estrato tenemos:
2
⎛ L Nh ⎞
⎜∑ h ⎟
n= ⎝ h =1 N ⎠ = 16,83 17
1 L Nh 2
V (x st ) + ∑ h
N h =1 N
www.FreeLibros.org
Muestreo estratificado sin y con reposición 177
N 1 1 + N 2 2 + N 3 3
7
4.9. Un mayorista del sector de la distribución de comestibles en una gran ciudad desea saber si
la demanda es lo suficientemente grande para justificar la inclusión de un nuevo producto en
sus existencias. Para tomar la decisión, planifica añadir este producto a una muestra de los
almacenes a los que abastece para estimar el promedio de las ventas mensuales (variable X).
El distribuidor suministra únicamente a cuatro grandes cadenas en la ciudad y, por
conveniencia administrativa, decide utilizar muestreo aleatorio estratificado tomando cada
cadena como un estrato. Hay 24 almacenes en el estrato 1, 36 en el estrato 2, 30 en el estrato
3 y 30 en el estrato 4 (N1 = 24, N2 = 36, N3 = 30, N4 = 30 y N = 120). El distribuidor tiene
suficiente tiempo y dinero para obtener datos sobre ventas mensuales en una muestra de
tamaño n = 20 almacenes. Dado que no tiene información previa respecto a las varianzas de
los estratos y porque el coste del muestreo es el mismo en cada estrato, decide aplicar la
afijación proporcional, con lo que el nuevo producto es introducido en cuatro almacenes
elegidos al azar de la cadena 1, seis almacenes de la cadena 2, y 5 almacenes de cada una de
las cadenas 3 y 4. Después de un mes, las ventas X presentan los resultados indicados en la
tabla siguiente:
Estimar las ventas promedio para el mes y fijar un límite para el error de estimación.
Realizar la misma estimación y calcular el error suponiendo que se realiza muestreo
aleatorio simple. Comentar los resultados.
⎛N ⎞ ⎛ 24 ⎞ ⎛ 36 ⎞ ⎛ 30 ⎞ ⎛ 30 ⎞
n1 = n⎜ 1 ⎟ = 20⎜ ⎟ = 4 , n2 = 20⎜ ⎟ = 6 , n3 = 20⎜ ⎟ = 5 , n 4 = 20⎜ ⎟=5
⎝N ⎠ ⎝ 120 ⎠ ⎝ 120 ⎠ ⎝ 130 ⎠ ⎝ 130 ⎠
www.FreeLibros.org
178 Muestreo estadístico. Conceptos y problemas resueltos
Estratos I II III IV
Medias ( x h ) 99 100 98 100
Cuasivarianzas ( Sˆ h2 ) 78,67 55,6 39,5 112,5
L L
Nh 24 36 30 30
x st = ∑ Wh x h = ∑ xh = 99 + 100 + 98 + 100 = 99,3
h =1 h =1 N 120 120 120 120
2 2
1⎛ L ⎞ 1 L
1 ⎛ L Nh ⎞ 1 L
Nh 2
Vˆ (x st ) = ⎜ ∑ Wh S h ⎟
∑ Wh S h2 = ⎜∑ Sh ⎟
∑ S h = 2,93
n ⎝ h =1 ⎠ N h =1 n ⎝ h =1 N ⎠ N h =1 N
1 L 1
x= ∑
n h =1
Xi =
20
(94 + 90 + L + 91 + 113) = 99,3
Sˆ 2 20 59,8
Vˆ ( x ) = (1
f ) = (1
) = 2,49
n 120 20
Se observa que el error es menor en muestreo aleatorio simple con una ganancia en
precisión dada por:
⎛ 2,93 ⎞
GP = ⎜⎜
1⎟⎟100 = 17,67%
⎝ 2,49 ⎠
www.FreeLibros.org
Muestreo estratificado sin y con reposición 179
4.10. La consejería de medio ambiente de una comunidad está realizando un estudio del número
de personas X que utiliza las instalaciones de campings públicos. La comunidad tiene dos
áreas para acampar, una localizada en las montañas y otra localizada a lo largo de la costa.
La consejería desea estimar el número promedio de personas por camping y la proporción de
campings que albergan personas de fuera de la comunidad durante un particular fin de semana,
cuando se espera que todos los sitios estén ocupados. El número promedio de personas se va a
estimar con un límite de 1 para el error de estimación, y la proporción de personas de fuera
de la comunidad con un límite de 0,1. Las dos áreas para acampar forman convenientemente
dos estratos, la localidad de la montaña como el estrato 1 y la localidad de la costa como el
estrato 2. Se sabe que N1 = 120 campings para acampar y N2 = 80. Encuentre el tamaño de
muestra y la asignación necesarios para lograr estos dos límites. Se supone que la consejería
de medio ambiente conoce por experiencia que la mayoría de los campings contienen de 1 a
9 personas y que los costes de muestreo son los mismos en cada estrato.
Como los costes de muestreo son constantes en los estratos, utlizaremos afijación de mínima
varianza (equivalente a la óptima en este caso). Además, como la desviación típica es
alrededor de 1/4 de la amplitud de variación en una distribución normal, podemos suponer
que su valor para el número de personas que ocupan los campings es constante en todos los
campings y con valor i = (9
1)/4 = 2.
En primer lugar observamos que, como el límite del error de estimación es 1
tenemos:
2 Vˆ (x st ) = 1 ⇒ Vˆ (x st ) = 0,25
⎛1 1 ⎞ L
∑W S h
2
h
e = V (x st ) = ⎜
⎟∑ Wh S h2 ⇒ n =
2 h =1
⎝ n N ⎠ h =1 1 L
V (x st ) + ∑W S h
2
h
N h =1
Aproximando las cuasivarianzas por las desviaciones estándar por estrato, que son
todas iguales a 2 en este caso, tenemos:
L
Nh 2
∑ h =1 N
h
n= = 14,8 15
1 L Nh 2
V (x st ) + ∑ h
N h =1 N
n 15 ⎧n = kN 1 = 0,075
120 = 9
nh = kN h con k = = = 0,075 ⇒ ⎨ 1
N 200 ⎩n 2 = kN 2 = 0,075
80 6
www.FreeLibros.org
180 Muestreo estadístico. Conceptos y problemas resueltos
L
Nh ˆ ˆ
∑h =1 N
Ph Qh
n= = 67
1 L Nh ˆ ˆ
V (x st ) + ∑ Ph Qh
N h =1 N
n 67 ⎧n = kN 1 = 0,335
120 40
nh = kN h con k = = = 0,335 ⇒ ⎨ 1
N 200 ⎩n 2 = kN 2 = 0,238
62 27
4.11. Determinar el tamaño n de la muestra estratificada que con afijación de mínima varianza
produzca la misma precisión que una muestra aleatoria simple (no estratificada) de tamaño n’,
para estimar la proporción P de una cierta clase en la población. Suponer en ambos casos
muestreo con reposición y aplicar el resultado a los datos de la tabla con n’=1000.
Estratos
I II III
Wh 0,2 0,3 0,5
Ph 0,5 0,6 0,4
Resolver el mismo problema para afijación proporcional y comparar resultados realizando los
comentarios pertinentes.
n' n
www.FreeLibros.org
Muestreo estratificado sin y con reposición 181
Estratos W h Ph 1
Ph W h Ph Ph (1
Ph ) Wh Ph (1
Ph )
I 0,2 0,5 0,5 0,10 0,5 0,1
II 0,3 0,6 0,4 0,18 0,49 0,147
III 0,5 0,4 0,6 0,20 0,49 0,245
3 3
∑W
h =1
h Ph = 48 ∑W h =1
h Ph (1
Ph ) = 0,492
n' n
2
⎛ 3 ⎞
n' ⎜ ∑ Wh Ph (1
Ph ) ⎟
1000 (0,492 )
2
n= ⎝ h =1 ⎠ = = 970
P (1
P ) 0,48(1
0,48)
P (1
P) ∑W P (1
P )
h h h
V AS ( Pˆ ) = y VSTP ( Pˆ ) = h =1
n' n
P(1
P) ∑ W P (1
P )
h h h
V AS (Pˆ ) = VSTP (Pˆ ) ⇒ = h =1
⇒
n' n
⎛ 3 ⎞
n' ⎜ ∑ Wh Ph (1
Ph ) ⎟
n= ⎝
h =1 ⎠ = 1000 (0,242) = 970
P (1
P ) 0,48(1
0,48)
www.FreeLibros.org
182 Muestreo estadístico. Conceptos y problemas resueltos
4.12. Se trata de estudiar el consumo anual de leche en una ciudad de 110000 habitantes. La
población se divide en tres estratos por edades y se toman muestras aleatorias simples en
cada uno de ellos. Se tienen los siguientes datos para el consumo anual de leche en litros:
Estimar la cantidad total de leche consumida al año entre los menores de 25 años, indicando
el error de muestreo cometido, y calcular el tamaño muestral necesario para estimar el
consumo medio de leche al año entre los mayores de 50 años, con un error de muestreo de 5
litros al 95% de confianza. Realizar una estimación por intervalos al 95% del consumo
medio anual de leche por habitante.
Supongamos ahora que se multiplica por tres el tamaño de la muestra. Realizar la nueva
afijación por los diferentes métodos para elegir el mejor.
Sˆ 2 1460 15876
Vˆ ( Xˆ 1 ) = (1
f 1 ) 1 = (1
) ⇒ ˆ ( Xˆ 1 ) = Vˆ ( Xˆ 1 ) = 155857,578 litros
n 48000 1460
2 N 3 S 32 1,96 2 (24000)(23409)
n3 = = = 3128,25 3129
e2 N 3 + 2 S 32 5 2 (24000) + 1,96 2 (23409)
Para realizar la estimación por intervalos al 95% del consumo medio anual de leche
por habitante en la ciudad, utilizaremos el estimador de la media global en el muestreo
estratificado y, por tanto, el intervalo de confianza será:
www.FreeLibros.org
Muestreo estratificado sin y con reposición 183
x st ± ˆ ( x st )
L
1 L
1
x st = ∑ Wh x h = ∑N h xh = (48000 102,7 + 38000 71,4 + 24000 73,2) = 85,451
h =1 N h =1 110000
2
L
S h2 ⎛ 48000 ⎞ ⎛ 1460 ⎞ 15876
ˆ ( x st ) = ∑ Wh2 (1
f h )
h =1
=⎜ ⎟ ⎜1
n h ⎝ 110000 ⎠ ⎝
⎟
48000 ⎠ 1460
+
2 2
⎛ 38000 ⎞ ⎛ 1160 ⎞ 48841 ⎛ 24000 ⎞ ⎛ 1730 ⎞ 23409
⎜ ⎟ ⎜1
⎟ +⎜ ⎟ ⎜1
⎟ = 2,73
⎝ 110000 ⎠ ⎝ 38000 ⎠ 1160 ⎝ 110000 ⎠ ⎝ 24000 ⎠ 1730
Entonces:
Afijación uniforme
Por tanto, de cada estrato se tomaría un muestra aleatoria simple de 4350 personas.
Afijación proporcional
Nh
Wh = , h = 1, 2, 3
N
N1 48000
n1 = n= 13050 = 5694,5455 5695
N 110000
N2 38000
n2 = n= 13050 = 4508,1818 4508
N 110000
N3 24000
n3 = n= 13050 = 2847,2727 2847
N 110000
Nh Sh
nh = L
n , h = 1, 2, 3
∑ N i Si
i =1
www.FreeLibros.org
184 Muestreo estadístico. Conceptos y problemas resueltos
∑N
h =1
h S h = 48000 15876 + 38000 48841 + 24000 23409 = 18118000
48000 15876
n1 = 13050 = 4356,2424 4356
18118000
38000 48841
n2 = 13050 = 6048,8961 6049
18118000
24000 23409
n3 = 13050 = 2644,8615 2645
18118000
Como la afijación de mínima varianza siempre supera a las demás, esta última es la
afijación más eficiente entre los estratos.
2 N 2 p 2 q 2 1,96 2 (38000)(0,5)(0,5)
n= = = 380,3251 381
e 2p (N 2
1) + 2 p 2 q 2 0,05 2 (37999) + 1,96 2 (0,5)(0,5)
3
1,96 2 (38000)(0,5)(0,5)
n= = 380,3251 381
0,05 2 (37999) + 1,96 2 (0,5)(0,5)
1,96 2 (38000)(0,6)(0,4)
n= = 365,2583 366
0,05 2 (37999) + 1,96 2 (0,6)(0,4)
Cuando no hay información sobe las proporciones poblaciones siempre nos situamos
en la peor de las situaciones para nosotros en términos de coste, es decir, el caso en que más
tamaño muestral se va a necesitar; sin embargo ésta es la situación de más precisión, es
decir, que lo que se pierde en términos de coste se gana en términos de precisión.
www.FreeLibros.org
Muestreo estratificado sin y con reposición 185
14.13. Los 10000 trabajadores de una empresa fueron clasificados en tres grupos de edad,
seleccionándose una muestra aleatoria simple en cada uno de ellos. Se obtuvieron las
características siguientes para los tres grupos:
Realizar una estimación por intervalos al 99% de confianza para el salario total percibido por
los empleados más jóvenes. Hallar también la estimación del salario mensual medio de los
diez mil trabajadores, así como su error de muestreo. Hallar el reparto muestral más eficiente
en los distintos grupos de edad para estimar el salario mensual medio.
Sea X el salario mensual de un trabajador. Para estimar el salario total repartido entre los
trabajadores más jóvenes mediante un intervalo de confianza, utilizaremos la expresión
correspondiente al muestreo aleatorio simple aplicada al primer estrato:
⎡ n S2 n S2 ⎤
I Xˆ = ⎢ N 1 X 1
N 12 (1
1 ) 1 ; N 1 X 1 + N 12 (1
1 ) 1 ⎥
1
⎢⎣ N 1 n1 N 1 n1 ⎥⎦
⎛ 666 ⎞ 38000 2
2900 120500 ± 2,575 2900 2 ⎜1
⎟ = [339799178,2; 359100821,8]
⎝ 2900 ⎠ 66
Para estimar el salario medio de todos los trabajadores utilizamos el estimador del
muestreo aleatorio estratificado:
L
x st = ∑ Wh x h = 0,29 120500 + 0,47 163000 + 0,24 195000 = 158355
h =1
www.FreeLibros.org
186 Muestreo estadístico. Conceptos y problemas resueltos
L
S h2
ˆ ( x st ) = ∑ Wh2 (1
f h )
h =1 nh
La afijación más eficiente a realizar será la de mínima varianza, que siempre supera
en precisión a las demás. Tenemos:
Nh Sh
nh = L
n
∑ Nh Sh
h =1
∑N
h =1
h S h = 2900 38000 + 4700 35000 + 2400 40000 = 370700000
2900 38000
n1 = 2000 = 594,5508 595
370700000
4700 35000
n2 = 2000 = 887,5101 887
370700000
2400 40000
n3 = 2000 = 517,9390 518
370700000
Para estimar la proporción de trabajadores con contrato inferior a dos años, debemos
obtener la estimación de la proporción poblacional en un muestreo aleatorio estratificado
como sigue:
L
Pˆst ∑ Wh Pˆh = 0,29 0,5631 + 0,47 0,1989 + 0,24 0,1552 = 0,2940
h =1
375 150 90
Pˆ1 = = 0,5631 , Pˆ2 = = 0,1989 , Pˆ3 = = 0,1552
666 754 580
L
N h
n h Pˆh Qˆ h
ˆ ( Pˆst ) = ∑W h
2
h =1 N h
1 nh
www.FreeLibros.org
Muestreo estratificado sin y con reposición 187
2900
6660,56310,4369 4700
7540,19890,8011 2400
5800,15520,8448
0,292 + 0,472 + 0,242 = 0,008
2899 666 4699 754 2399 580
Hemos supuesto que p3 = 0,5 puesto que no se tiene información anterior sobre la proporción
de trabajadores de más de 50 años que padecieron enfermedades por motivos laborales.
Hemos llegado a que, para estimar esta proporción con un error de muestreo no superior al 6%
habrá que seleccionar al menos 387 trabajadores entre el grupo de los mayores de 50 años.
4.14. Para estudiar el terreno agrícola de una comarca se consideraron tres zonas según su
localización geográfica y en cada una de ellas, de forma independiente, se seleccionó,
mediante un muestreo aleatorio simple, cierto número de fincas. Se tiene la siguiente
información:
Zonas Número total Número de fincas Superficie media Desviación típica Número de fincas
de fincas seleccionadas muestral (Ha) muestral (Ha) barbecho
A 3200 380 28 3,5 124
B 5600 800 15 6,7 250
C 1200 200 45 8 17
Estimar puntualmente la superficie total del terreno agrícola en cada una de las zonas, así
como su error de muestreo. Hallar los tamaños muestrales necesarios para realizar las
estimaciones anteriores con unos errores de muestreo estimados inferiores a 1000 Ha y un
coeficiente de confianza del 99%.
Realizar una estimación por intervalos al 99% de confianza de la superficie media de las
fincas de la comarca y realizar la afijación más eficiente de la muestra anterior en las tres
zonas para realizar la estimación de la superficie media.
Hallar también el tamaño muestral y la afijación que se debería haber realizado para estimar
del modo más eficiente posible la superficie total del terreno agrícola de la comarca con un
error de muestreo no superior a 1000 Ha y una confianza del 99%.
Sea X la variable superficie de una finca de la comarca. Los estimadores dentro de cada zona
podrán obtenerse a través de las fórmulas del muestreo aleatorio simple y los globales a
partir de las del muestreo estratificado ya que las fincas de la comarca han sido divididas en
tres zonas o estratos, y en cada una de ellas se ha realizado un muestreo aleatorio simple de
forma independiente entre ellas.
www.FreeLibros.org
188 Muestreo estadístico. Conceptos y problemas resueltos
Los estimadores puntuales de la superficie total del terreno agrícola en cada una de
las zonas se calculan mediante Xˆ h = N h x h y su error de muestreo se calcula mediante:
⎛ n ⎞ S
ˆ ( Xˆ h ) = N h2 ⎜⎜1
h ⎟⎟ h , h = 1, 2, 3
⎝ N h ⎠ nh
Xˆ 1 = N 1 x1 = 3200 28 = 89600 Ha
⎛ 380 ⎞ 3,5
ˆ ( Xˆ 1 ) = 3200 2 ⎜1
⎟ = 539,35 Ha
⎝ 3200 ⎠ 380
Xˆ 2 = N 2 x 2 = 5600 15 = 84000 Ha
⎛ 800 ⎞ 6,7
ˆ ( Xˆ 1 ) = 5600 2 ⎜1
⎟ = 1228,13 Ha
⎝ 5600 ⎠ 800
Xˆ 3 = N 3 x 3 = 1200 45 = 54000 Ha
⎛ 200 ⎞ 8
ˆ ( Xˆ 1 ) = 1200 2 ⎜1
⎟ = 619,67 Ha
⎝ 1200 ⎠ 200
Los tamaños muestrales necesarios para realizar las estimaciones anteriores con unos
errores de muestreo estimados inferiores a 1000 Ha y una confianza del 99% se calculan en
cada estrato mediante:
2 N h2 S h2
nh = , h = 1, 2, 3
eT2 + N h 2 S h2
h
1200 2 2,575 2 8 2
n3 = = 404,8936 405
1000 2 + 1200 2,575 2 8 2
www.FreeLibros.org
Muestreo estratificado sin y con reposición 189
Para realizar la estimación por intervalos al 99% de la superficie media de las fincas
de la comarca, utilizaremos el estimador de la media global en el muestreo estratificado y,
por tanto, el intervalo de confianza será:
x st ± ˆ ( x st )
L
x st = ∑ Wh x h = 0,32 28 + 0,56 15 + 0,12 45 = 22,76
h =1
L
N = ∑ N h = 3200 + 5600 + 1200 = 10000
h =1
N1 3200 n 380
W1 = = = 0,32 ; f 1 = 1 = = 0,1188
N 10000 N 1 3200
N2 5600 n 800
W2 = = = 0,56 ; f 2 = 2 = = 0,1429
N 10000 N 2 5600
N3 1200 n 200
W3 = = = 0,12 ; f 3 = 3 = = 0,1667
N 10000 N 3 1200
L
Sh2 3,52 6,72 82
ˆ (xst ) = ∑Wh2 (1
f h )
h=1 nh
= 0,322 (1
0,1188)
380
+ 0,562 (1
0,1429)
800
+ 0,122 (1
1667)
200
= 0,147
Entonces:
La afijación más eficiente de la muestra anterior en las tres zonas para realizar la
estimación de la superficie media será la afijación de mínima varianza definida por:
Nh Sh
nh = L
n , h = 1, …,L
∑N
h =1
h Sh
Tenemos:
∑N
h =1
h S h = 3200 3,5 + 5600 6,7 + 1200 8 = 58320
www.FreeLibros.org
190 Muestreo estadístico. Conceptos y problemas resueltos
3200 3,5
n1 = 1380 = 265,0205 265
58320
5600 6,7
n2 = 1380 = 887,8189 888
58320
1200 8
n3 = 1380 = 227,1605 227
58320
L
N h2 S h2
∑
h =1 wh Nh Sh
n= 2
wh = L
, h = 1, ….,L
e L
2
+ ∑ NhS
h =1
2
h ∑N
i =1
h Sh
3200 3,5
w1 = = 0,1920
58320
5600 6,7
w2 = = 0,6433
58320
1200 8
w3 = = 0,1646
58320
nh = wh n , h = 1, …,L
www.FreeLibros.org
Muestreo estratificado sin y con reposición 191
L
NL
N L Nh
124 250 17
Pˆst = ∑ Wh Pˆh = ∑ h Pˆh = ∑ h ∑A ih = 0,32 + 0,56 + 0,12 = 0,2896
h =1 h =1 N h =1 N i =1 380 800 200
1 n1
124
Pˆ1 = ∑A i1 = = 0,3263
n1 i =1 380
1 n2
250
Pˆ2 = ∑A i2 = = 0,3125
n2 i =1 800
1 n3
17
Pˆ3 = ∑A i3 = = 0,085
n3 i =1 200
L
N h
n h Pˆh Qˆ h
ˆ ( Pˆst ) = ∑ Wh2
h =1 N h
1 nh
3200
3800,3263 0,6737 5600
8000,3125 0,6875 1200
2000,085 0.915
ˆ (Pˆst ) = 0,322 + 0,562 + 0,122 = 0,0011
3200
1 380 5600
1 800 1200
1 200
4.15. En una ciudad turística de temporada con 10000 viviendas se desea conocer la proporción de
viviendas en alquiler al menos una vez al año. Para realizar el estudio, se selecciona en cada
uno de los tres barrios existentes una muestra aleatoria de viviendas de tamaño proporcional
al número total de viviendas en cada uno. En el barrio A se seleccionaron 1050 viviendas, de
las cuales había 800 en alquiler al menos un mes al año. En el barrio B se eligieron 900
viviendas, de las cuales había 600 en alquiler al menos un mes al año. En el barrio C se
seleccionaron 1700 viviendas, de las cuales 1300 estaban en alquiler al menos un mes al año.
Estimar la proporción de apartamentos que estarían dispuestos a ser alquilados al menos una
vez al año y cuantificar el error de muestreo cometido.
Para estimar la proporción de viviendas en alquiler al menos una vez al año, definimos:
www.FreeLibros.org
192 Muestreo estadístico. Conceptos y problemas resueltos
L
N L L
n h ˆ 1050 800 900 600 1700 1300
Pˆst = ∑ Wh Pˆh = ∑ h Pˆh =
{ ∑ Ph = + + = 0,7397
h =1 h =1 N h =1 n 3650 1050 3650 900 3650 1700
Afijación
proporcional
1 n1
800 1 n2
600 1 n3
1300
Pˆ1 = ∑ Ai1 = = 0,7619, Pˆ2 = ∑ Ai 2 = = 0,6667 , Pˆ3 = ∑A i3 = = 0,7647
n1 i =1 1050 n2 i =1 900 n3 i =1 1700
N 1 n1 1050 1050
W1 = = = ⇒ N1 = 10000 = 2877
N n 3650 3650
N n 900 900
W2 = 2 = 2 = ⇒ N2 = 10000 = 2466
N n 3650 3650
N n 1700 1700
W3 = 3 = 3 = ⇒ N3 = 10000 = 4658
N n 3650 3650
L
N h
n h Pˆh Qˆ h
ˆ ( Pˆst ) = ∑W h
2
h =1 N h
1 nh
3200
3800,3263 0,6737 5600
8000,3125 0,6875 1200
2000,085 0.915
ˆ (Pˆst ) = 0,322 + 0,562 + 0,122 = 0,0011
3200
1 380 5600
1 800 1200
1 200
4.16. Una gran empresa sabe que el 40% de las cuentas que recibe es al por mayor y el 60% es al por
menor. Sin embargo, identificar las cuentas individuales sin consultar un archivo es complicado.
Un auditor desea muestrear n = 100 de sus cuentas para estimar la cantidad promedio de las
cuentas por cobrar de la empresa. Una muestra irrestricta aleatoria presenta 70% de cuentas al por
mayor y un 30% de cuentas al por menor. Los datos son separados en cuentas al por mayor y
cuentas al por menor después del muestreo, con los siguientes resultados en unidades monetarias:
Por mayor Por menor
n1 = 70 n2 = 30
y1 = 520 y 2 = 280
Sˆ1 = 210 Sˆ 2 = 90
Estimar la cantidad promedio de las cuentas que recibe la empresa y fijar un límite para el error
de estimación.
www.FreeLibros.org
Muestreo estratificado sin y con reposición 193
Como la proporción observada de cuentas al por mayor (0,7) está muy alejada de la proporción
verdadera (0,4), la estratificación después de seleccionar la muestra irrestricta aleatoria
(estratificación a posteriori) puede ser adecuada, lo cual puede también ser justificado porque n1
y n2 exceden de 20.
L L
Nh
x st = ∑ Wh x h = ∑ x h = 0,4 520 + 0,6 280 = 376
h =1 h =1 N
L
S h2
ˆ ( x st ) = ∑ Wh2 (1
f h )
h =1 nh
2102 90 2
0,4 2 + 0,6 2 = 14,07
70 30
El límite para el error de estimación al 95% será 2 ˆ ( x st ) 28, con lo que un intervalo
de confianza al 95% para la estimación de la cantidad promedio de cuentas que recibe la
empresa será 376 ± 28.
4.17. Un farmacéutico investiga el ingreso en caja obtenido por ventas a jubilados y al resto de sus
clientes. Observa que el último mes ha vendido productos a 750 jubilados y 346 al resto de
sus clientes. Como los jubilados suelen tener tratamientos particulares propios de
enfermedades habituales en ellos, puede considerarse como un estrato homogéneo respecto
de los productos que consumen. Lo mismo ocurre con el resto de los clientes. Como llevaría
tiempo analizar cliente a cliente, se toma una muestra de 24 clientes y se estratifica a
posteriori en función de si se trata de jubilados o no. El ingreso neto en euros por cada
cliente de la muestra se presenta a continuación:
Realizar una estimación del ingreso neto del farmacéutico y de su error de muestreo.
www.FreeLibros.org
194 Muestreo estadístico. Conceptos y problemas resueltos
L
Xˆ ' ' = ∑ N h' x h = 750 303728 + 346 176,8 = 288968,8 euros
h =1
N
n L N ( N
n) L ˆ 2
Vˆ ( Xˆ ' ' ) = ∑ N ' h
Sˆ h2 + ∑ S ' h (1
f h ) = 71689746,68
n h =1 n2 h =1
71689746,68
Cˆ v( Xˆ ' ' ) = = 0,03 3%
288968,8
www.FreeLibros.org
Muestreo estratificado sin y con reposición 195
EJERCICIOS PROPUESTOS
4.1. Sea X la variable salario anual en millones de unidades monetarias. Al medir la variable X
sobre una población de 870 personas se obtiene la siguiente distribución de frecuencias:
Valores de X 2 3 4 7 10 12 16 20 25 30 35 50 60 100
Frecuencias (ni) 20 30 60 100 150 200 120 80 50 20 18 10 8 4
Con el objeto de establecer pautas para futuras encuestas de salarios se estratifica la población
utilizando dos métodos diferentes de estratificación. El método I consiste en realizar tres
estratos según los criterios dados por 2 X 7, 10 X 25, 30 X 100. El método II
consiste en realizar tres estratos según los criterios dados por 2 X 10, 12 X 35,
50 X 100. Se pide lo siguiente:
1º) Suponiendo muestreo con reposición y para un tamaño de muestra n = 100, realizar las
afijaciones uniforme, proporcional y de mínima varianza para los dos métodos de
estratificación. Comentar los resultados. Elegir el mejor método de estratificación y su tipo
de afijación justificando la respuesta. Cuantificar la ganancia en precisión para el método y
afijación elegidos respecto del muestreo aleatorio simple con reposición.
2º) Responder a las mismas cuestiones del apartado anterior suponiendo muestreo sin
reposición. Comentar los resultados comparándolos con los del apartado anterior.
3º) Para la misma muestra de tamaño 100 realizar la afijación óptima para los dos métodos de
estratificación, siendo los costes por unidad en cada estrato los siguientes: C11 = 1, C21 = 16, C31 =
25, C12 = 4, C22 = 9 y C32 = 36, donde Cij = Coste por unidad en el estrato i según el método de
estratificación j. Considerar muestreo sin reposición y con reposición y comparar los resultados.
Para este tipo de afijación ¿cuál es el mejor método de estratificación? Razona la respuesta.
4º) En una encuesta de salarios posterior, ¿qué tamaño de muestra sería necesario para
conseguir un error de muestreo de 0,5 al estimar la media salarial sin reposición y afijación
de mínima varianza? ¿y si el muestreo es con reposición? Comentar los resultados.
5º) En una encuesta de salarios posterior ¿qué tamaño de muestra sería necesario para
conseguir un error relativo de muestreo del 15% al 95% de coeficiente de confianza ( r
=1,96) al estimar el total salarial con reposición y afijación proporcional. ¿Y si el muestreo
es sin reposición? Comentar los resultados.
4.2. Se van a muestrear las familias de un pueblo para estimar la cantidad promedio de bienes por
familia que se pueden convertir en dinero efectivo rápidamente. Las familias se estratifican
en un estrato de renta alta y otro de renta baja. Se piensa que una casa en el estrato de renta
alta tiene cerca de nueve veces más bienes que una casa en el estrato de renta baja, y se
espera que Sh sea proporcional a la raíz cuadrada de la media del estrato. Se sabe que existen
4000 familias en el estrato de renta alta y 20000 familias en el estrato de renta baja. Se pide:
a) ¿Cómo se distribuiría de forma óptima entre los dos estratos una muestra de 1000 familias
extraída de la población?
b) Si el objetivo es estimar la diferencia entre bienes por familia en ambos estratos ¿cómo
debe distribuirse la muestra?
www.FreeLibros.org
196 Muestreo estadístico. Conceptos y problemas resueltos
4.3. Consideramos un proceso de muestreo estratificado con afijación óptima en el que se define
la función de coste total C de la siguiente forma:
L
C = c0 + ∑ c h n h
h =1
donde c0 representa un coste fijo dado y los ch son también conocidos y representan el coste
unitario en el estrato h (h = 1, 2, ..., L). Se pide:
1º Realizar la afijación de mínima varianza para un coste total C fijo al estimar la media
poblacional y hallar la expresión general que nos da la varianza mínima.
Estrato Wh Sh ch
1 0,4 4 1
2 0,3 5 2
3 0,3 6 3
4.4. Supongamos conocidos los siguientes datos de una población dividida en tres estratos: S12 = 9,
S22 = 225, S32 = 1600, N1 = 1000, N2 = 600, N3 = 200, C1 = 1000, C2 = 1200 y C3 = 2000. Se pide
lo siguiente:
b) Contestar a las mismas cuestiones del apartado anterior, pero con reposición, y comparar
los resultados con los obtenidos en el apartado a). Justificar los resultados y comprobar que
la afijación óptima y la de mínima varianza coinciden para costes unitarios.
www.FreeLibros.org
CAPÍTULO
MUESTREO SISTEMÁTICO
OBJETIVOS
1. Presentar el concepto de muestreo sistemático.
www.FreeLibros.org
198 Muestreo estadístico. Conceptos y problemas resueltos
ÍNDICE
1. Muestreo sistemático. Especificaciones.
2. Estimadores y varianzas.
5. Estimación de varianzas.
7. Problemas resueltos.
8. Ejercicios propuestos
www.FreeLibros.org
Muestreo sistemático 199
i \ j 1 2 3 L j L k
1 u 11 u 12 u 13 L u1 j L u 1k
2 u 21 u 22 u 23 L u1 j L u 2k
M M M M M M
i u i1 ui2 u i3 L u1 j L u ik
M M M M M M
n u n1 u n2 u n3 L u nj L u nk
i\j 1 2 3 L j L k
1 u1 u2 u3 u
L j L uk
2 uk +1 uk +2 uk +3 L uk + j L uk +k
3 u2 k +1 u2 k +2 u2 k +3 L u2 k + j u2 k +k
M M M M M M
i u(i
1) k +1 u(i
1) k +2 u(i
1) k +3 L u(i
1) k + j L u(i
1) k +k
M M M M M M
n u( n
1) k +1 u( n
1) k +2 u( n
1) k +3 L u(n
1) k + j L u(n
1) k +k
12
44 3
uN
Para extraer una muestra de tamaño n se elige al azar una unidad en la primera zona, y
para seleccionar las n
1 unidades restantes para la muestra se toma en cada zona la unidad que
ocupa el mismo lugar dentro de su zona que el que ocupaba la primera unidad seleccionada dentro
de la primera zona. Por ejemplo, si la unidad seleccionada para la muestra al azar en la primera
zona es la tercera, se elegirán las n
1 unidades restantes para la muestra tomando la tercera unidad
de cada zona. Las muestras sistemáticas así obtenidas (columnas de la tabla anterior) suelen
denominarse muestras 1 en k.
www.FreeLibros.org
200 Muestreo estadístico. Conceptos y problemas resueltos
( u~ ) = {u
1 1 , u 1+ k , L u 1+ ( n
1 ) k }
LLLLLLLLLLL
( u~ ) = {u
j j , u j + k , L u j + ( n
1) k }
LLLLLLLLLLL
( u~ ) = {u
k k , u k + k , L u k + ( n
1) k }
El muestreo sistemático extiende la muestra a toda la población, recoge el posible
efecto de estratificación debido al orden en que figuran las unidades de la población (cada
fila se puede considerar como un estrato), permite la consideración de conglomerados en la
población (cada columna se puede considerar como un conglomerado), es fácil de aplicar y
comprobar, no presenta problemas de cálculo algebraico y no precisa distinción entre
reposición y no reposición. Además, si la disposición de los elementos en la población es
aleatoria, la selección sistemática equivale a un muestreo aleatorio simple. Por último, el
error de muestreo suele ser menor que en muestreo aleatorio simple o incluso que en
estratificado.
Por otro lado, hay que tener presente la posibilidad de aumento de la varianza si
existe periodicidad en la población y el problema teórico que se presenta en la estimación de
varianzas debido a que no hay independencia en la selección de unidades en las distintas
zonas, ya que la unidades extraídas en cada zona dependen de la seleccionada en la primera
zona. En general sólo hay selección aleatoria para la primera unidad de la muestra.
ESTIMADORES Y VARIANZAS
n 1 Yij n k
$ = ∑ ∑
1
estima insesgadamente el parámetro poblacional = ∑ ∑Y . ij
i j i j
k
www.FreeLibros.org
Muestreo sistemático 201
X ij n n
1 n
1
Total = X ⇒Yij = X ij ⇒ Xˆ = ∑∑ =∑ k X ij = N. ∑ X ij = Nx j
i j =1 1
n i=1
i =1 n
k N
X ij
X ij n 1
1 n
Media = X ⇒Yij = ⇒ Xˆ = ∑∑ nk = ∑ X ij = x j
N
{ i j =1 1 n i=1
nk k
Aij
Aij n 1
1 n
Proporción = P ⇒Yij = ⇒ Pˆ = ∑∑ nk = ∑ Aij = Pˆ j
nk i j =1 1 n i=1
k
n 1 A n
1 n
Totaldeclase = X ⇒Yij = Aij ⇒ Aˆ = ∑∑ =∑ k Aij = N. ∑ Aij = NPˆ j
ij
i j =1 1
n i=1
i =1 n
k N
• Media Xˆ = x j
• Proporción Pˆ = Pˆ j
∑∑ (X ij
X ) = ∑ ∑ ( X ij
x j ) + ∑ ∑ (x j
X ) ⇒
( N
1)S 2 = ( N
k )Sws
2
2 2
+ (k
1)Sbs2
i =1 j =1 i =1 j =1 i =1 j =1
1 442443 1 442443 1 442443
( N
1) S 2 2
( N
k ) S ws 2
( k
1) Sbs
www.FreeLibros.org
202 Muestreo estadístico. Conceptos y problemas resueltos
∑∑ (x ) 2
Entre muestas k
1 j
X S bs2
i j
n k
Dentro de muestras N
k ∑∑ (X
i j
ij
xj ) 2 2
S ws
n k
Total k
1+ (N
k ) = N
1 ∑∑ (X
i j
ij
Xj ) S2
2
S S 2
V ( Xˆ ) = V (x j ) = (1
f ) ,bs
V ( Xˆ ) = V (Nx j ) = N 2V ( x j ) = N 2 (1
f ) bs
n n
2 2 2
( ) ∑( ) ∑∑ ( ) ∑∑ ( )
k n k n k k
1 1 1 1
V ( Pˆ ) = V Pˆ j =
k j
Pˆj
P =
nk i j
Pˆ j
P =
N i j
Pˆ j
P = PQ
k
∑ Pˆ Qˆ
j
j j
2 2
( ) ( ) ∑ (Pˆ
P) = N ∑∑ (Pˆ
P) = N ⎜⎜ PQ
k ∑ Pˆ Qˆ ⎟⎟
⎛ ⎞
k n k k
1 1
V ( Aˆ ) = V NPˆj = N 2V Pˆj = N 2 j j
2
j j
k j i j ⎝ j ⎠
Un concepto interesante en muestreo sistemático es el coeficiente de correlación
intramuestral w, que mide la interrelación entre las unidades dentro de las muestras. Lógicamente,
esta interrelación debe ser lo más pequeña posible, ya que en el muestreo sistemático interesa la
heterogeneidad intramuestral, con la finalidad de que una única muestra sistemática represente lo
mejor posible a toda la población. Para que una muestra sistemática aspire a ser fiel espejo de toda
la población ha de ser heterogénea, y la interrelación entre sus unidades ha de ser baja. Por lo tanto,
inicialmente parece lógico que interesen valores muy pequeños del coeficiente de correlación
intramuestral. La expresión matemática de w es la siguiente:
k n
2∑∑ (X ij
X )(X zj
X ) 2
1 k n
∑∑ (X ij
X ) = varianza poblacional
j i< z
w = , 2 =
N (n
1) 2 nk j i
La varianza de los estimadores puede expresarse en función de w. Para la media
tenemos:
2 2
V (x j ) = [1 + (n
1) w ] = N
1 S [1 + (n
1) w ]
n N n
2 2
( )
V ( Xˆ ) = V Nx j = N 2V x j = N 2( ) [1 + (n
1) w ] = N ( N
1) S [1 + (n
1) w ]
n n
( )
V Pˆ j =
PQ
n
[1 + (n
1) w ] V Aˆ = N 2 ()
PQ
n
[1 + (n
1) w ]
Según esta expresión, la precisión del muestreo sistemático puede analizarse en función
del coeficiente de correlación intramuestral, de tal modo que la precisión máxima se produce para
=
1/(n-1), y la mínima para = 0, igualándose la precisión del muestreo sistemático con la
del muestreo aleatorio simple para = 0. De esta forma, para valores de entre
1/(n-1) y 0,
el muestreo sistemático es más preciso que el aleatorio simple, y para valores de entre 0 y 1, el
muestreo sistemático es menos preciso que el aleatorio simple. Por lo tanto, en cuanto a
precisión, convienen valores negativos del coeficiente de correlación intraconglomerados .
www.FreeLibros.org
Muestreo sistemático 203
Obtener una muestra sistemática sería entonces equivalente a obtener una muestra
estratificada con una unidad por estrato. Debe tenerse en cuenta, sin embargo, que en el
muestreo estratificado aleatorio la selección se efectúa independientemente en cada estrato,
mientras que en el muestreo sistemático todos los elementos seleccionados ocupan el mismo
lugar o número de orden dentro de cada zona de k elementos, con la que no hay aleatoriedad
de selección. Además, sería conveniente que las n zonas sistemáticas de k elementos cada
una (estratos) sean lo más homogéneas posible dentro de ellas y heterogéneas entre ellas.
Esta clasificación de los elementos de la población en n filas de k unidades cada una origina
la siguiente tabla del análisis de la varianza poblacional:
Grados de Cuadrados
Fuente de variación Sumas de cuadrados
libertad medios
∑ ∑ (X
X)
n k
2 2
Entre estratos n
1 i S bst
i j
∑ ∑ (X
Xi)
n k
2
Dentro de estratos N
n ij
2
S wst
i j
∑ ∑ (X )
n k
Total n
1 + ( N
n) = N
1 ij
X j S2
i j
www.FreeLibros.org
204 Muestreo estadístico. Conceptos y problemas resueltos
2
1 n k
2
Swss = ∑∑
N
n i j
Xij
Xi2 ( )
tenemos:
n k n k n k
∑∑(X ij
X ) = ∑∑(X ij
X i ) + ∑∑( X i
X ) ⇒ ( N
1)S = ( N
n)Swst + (n
1)Sbst
2 2 2 2 2 2
() L
h
n
i
n
1 S2 1 ⎛ 1 ⎞ n
V Xˆ = V (xst ) = ∑Wh2V (xh ) = ∑Wi 2V ( xi ) = ∑ 2 (1
f i )
i = 2 ⎜1
⎟∑ Si2 =
i n ni n ⎝ k ⎠ i
2 2 2
1 ⎛ 1⎞ n 1 k 1 n k N
n 2 S wst
⎜1
⎟∑ ( X
X )
∑ ij i n2k ∑∑= ( X ij
X i ) = S wst = (1
f )
n 2 ⎝ k ⎠ i k
1 j i Nn n
1 4j 42443
( N
n)Swst2
1 k n
∑∑(X ij
X i )(X zj
X z ) k n
⎛ n ⎞ j i< z
k ⎜⎜ ⎟⎟ 2∑∑(X ij
X i )(X zj
X z )
cov(X ij ; X zj ) ⎝ 2⎠ j i< z
st = = =
1 k n 1 k n 2
n(n
1)(k
1)S wst
∑∑ (X ij
X i )2 ∑∑ ij i ( X
X )2
N j i=1 N j i=1
1442443
( N
n)Swst
2
Se demuestra que la varianza del estimador de la media en función de st y Sst tiene la
forma siguiente:
2
S
V ( Xˆ ) = V (x j ) = (1
f ) wst (1 + (n
1) st )
n
y lo mismo se calcularían las varianzas del resto de los estimadores en función del
coeficiente de correlación intraestratal st.
www.FreeLibros.org
Muestreo sistemático 205
n
1
ESTIMACIÓN DE VARIANZAS
No podemos decir que en muestreo sistemático haya un método directo para la estimación de
varianzas a partir de una muestra sistemática. Tenemos las siguientes situaciones:
www.FreeLibros.org
206 Muestreo estadístico. Conceptos y problemas resueltos
x1 + x 2 ⎛ x1 + x 2 ⎞
2
⎛ x1 + x 2 ⎞
2
( x1
x2 ) 2
xc = ⇒ V ( x c ) = x1
⎜
$ 2
⎟ + x2
⎜
2
⎟ =
2 ⎝ 2 ⎠ ⎝ 2 ⎠ 4
Se observa que al aumentar el número de arranques aleatorios, manteniendo el mismo
tamaño de muestra, la precisión obtenida se aproxima a la del muestreo aleatorio simple.
1 j k
1 x1 xj xk
2 x1+ k x j +k xk +k
M M M M
i x1+(i
1)k L x j +(i
1)k L x k +(i
1)k
M M M M
n x1+(n
1)k x j +(n
1)k x k +(n
1) k
www.FreeLibros.org
Muestreo sistemático 207
PROBLEMAS RESUELTOS
N º de robot 1 2 3 4 5 6 7 8 9 10 11 12 13
N º de piezas producidas 5 5 4 2 5 4 5 4 3 4 4 3 2
Si definimos una variable dicotómica A a la que asignamos el valor 1 para las piezas
defectuosas y el valor 0 para las piezas correctas, y clasificamos las 50 piezas en 10 filas de
5 piezas cada una (muestreo sistemático 1 en 5) siguiendo el orden del enunciado del
problema, tendremos la tabla de la Figura 5-1.
www.FreeLibros.org
208 Muestreo estadístico. Conceptos y problemas resueltos
1 0 0 0 0 1/ 5
1 0 0 0 0 1/ 5
1 0 0 0 1 2/5
0 1 0 0 0 1/ 5
0 1 0 0 0 1/ 5
1 0 0 0 0 1/ 5
1 0 0 0 1 2/5
0 0 1 0 0 1/ 5
0 1 0 0 0 1/ 5
1 0 0 1 0 2/5
6 / 10 3 / 10 1 / 10 1 / 10 2 / 10 13 / 50
Figura 5-1
Figura 5-2
Figura 5-3
Con la notación que utilizamos habitualmente, la tabla ANOVA será:
Grados de Cuadrados
Fuente Sumas de cuadrados
libertad medios
n k
∑ ∑ (x
X ) = 1,72
2
Entre k
1= 5
1= 4 j S bs2 = 1,72 / 4 = 0,43
i j
n k
∑ ∑ (X
x j ) = 7,9
2
Dentro N
k = 50
5 = 45 ij
2
S ws = 7,9 / 45 = 0,1755
i j
n k
Total N
1 = 50
1 = 49 ∑ ∑ (X
i j
ij
X j ) = 9,62 S 2 = 9,62 / 49 = 0,1963
www.FreeLibros.org
Muestreo sistemático 209
Conocida esta tabla, pueden realizarse ya todos los cálculos. La varianza del
estimador de la proporción puede calcularse como:
( ) ⎛ n ⎞ S2 S2 1 0,43
V ( Pˆ ) = V Pˆ j = ⎜1
⎟ bs = (1
f ) bs = (1
)
N⎠ n n 5 10
= 0,0344
⎝
( )
2
S
V ( Aˆ ) = V NPˆ j = N 2V ( Pˆ j ) = N 2 (1
f ) bs = 50 2 0,0344 = 86
n
Del valor de la varianza puede deducirse el valor del coeficiente de correlación
2
intramuestral a través de la fórmula V ( x j ) = (1 + (n
1) ) . Tendremos:
n
49
0 ,1963
0 , 0344 = 50 (1 + (10
1) ) ⇒ = 0 , 0875
10
Se observa un valor de muy cercano a cero, lo que indica que el muestreo sistemático
va a tener una precisión muy cercana a la del aleatorio simple en la estimación de la proporción de
piezas defectuosas. Esto concuerda con el hecho de que S2 y S2ws también tienen valores muy
cercanos. Concretamente S2 = 0,1963 > S2ws = 0,1755, lo que indica que es más preciso el muestreo
aleatorio simple. La varianza del estimador de la proporción en el muestreo aleatorio simple es
(1
1/5)0,1963/10 = 0,0157, lo que indica que la ganancia en precisión del aleatorio simple será
(0,0344
0,0157)/0,0344 = 54,3%.
Dado el valor del coeficiente de correlación intramuestral, muy cercano a cero, podemos
estimar varianzas mediante la fórmula del muestreo aleatorio simple. Se tiene:
6 ⎛ 6⎞
ˆ 2 ˆ ˆ ⎜1
⎟
ˆ( )
V P1 = (1
f )
ˆ S1
n
= (1
f )
P1Q1 ⎛ 1 ⎞ 10 1 ⎝ 10 ⎠
= ⎜1
⎟
n
1 ⎝ 5 ⎠ 10
1
= 0,0213
3 ⎛ 3⎞
ˆ 2 ˆ Qˆ ⎜1
⎟
ˆ( )
V P2 = (1
f )
ˆ S
n
2
= (1
f )
P2 2 ⎛ 1
= ⎜1
⎟
⎞ 1 ⎝ 10 ⎠
10
n
1 ⎝ 5 ⎠ 10
1
= 0,0186
1 ⎛ 1⎞
ˆ 2 ˆ ˆ ⎜1
⎟
ˆ( )
V P3 = (1
f )
ˆ S3
n
= (1
f )
P3 Q3 ⎛ 1 ⎞ 10 1 ⎝ 10 ⎠
= ⎜1
⎟
n
1 ⎝ 5 ⎠ 10
1
= 0,008
( ) ( )
Vˆ Pˆ4 = Vˆ Pˆ3 = 0,008
2 ⎛ 2⎞
ˆ 2 ˆ Qˆ ⎜1
⎟
( ) S P ⎛ 1
Vˆ Pˆ5 = (1
f ) 5 = (1
f ) 5 5 = ⎜1
⎟
n
10
⎞ 1⎝
n
1 ⎝ 5 ⎠ 10
1
10 ⎠
= 0,0142
www.FreeLibros.org
210 Muestreo estadístico. Conceptos y problemas resueltos
( ) 1
f
Vˆ Pˆ1 = 2
n
∑ (x
2
h
h1
xh 2 ) =
2 1
0,2
10 2
[ ]
(1
1) 2 + (1
0) 2 + (0
1) 2 + (1
0) 2 + (0
1) 2 = 0,032
n
( ) 1
f 2
Vˆ Pˆ2 = 2 ∑ (xh1
xh 2 ) =
n h
2 1
0,2
10 2
[
(0
0) 2 + (0
1) 2 + (1
0) 2 + (0
0) 2 + (1
0) 2 = 0,024 ]
ˆ( )
V P = 0,008(0
1) 2 = 0,008 = Vˆ Pˆ
ˆ
3 ( ) ( )
Vˆ Pˆ = 0,008 (1
0) 2 + (1
0) 2 = 0,016
4 5 [ ]
Las mejores muestras según el método del muestreo estratificado también resultan ser
la tercera y la cuarta, y además coinciden en varianza con el método anterior. Para las restantes
muestras se observa ganancia en precisión del método de estimación utilizando la fórmula del
muestreo aleatorio simple. La proporción estimada de piezas defectuosas producidas será la
derivada de la 3ª o 4ª muestra, esto es: Pˆ = Pˆ3 = Pˆ4 = 1 / 10 ; es decir que se estima un 10%
de producción defectuosa.
mi m1 m2 m3 m4 m5 m6 m7 m8
Xi 1 3 5 2 4 6 2 7
[ ]
3 3
∑ ∑ (x
X ) 2 = 4 (3
3,75 ) + (4,5
3,75 ) = 4,5
2 2
j
1 3 2 i =1 j =1
5 2 3,5 3 3
∑ ∑ (X
x j ) 2 =(1
3) + (5
3) + ... + (6
4,5) + (7
4,5) 2 = 27
2 2 2
4 6 5 ij
i =1 j =1
2 7 4 ,5 3 3
3 4 ,5 3,75
∑ ∑ (X
X ) 2 =(1
3,75 ) + (5
3,75 ) + ... + (7
3,75) 2 = 31,5
2 2
ij
i =1 j =1
Hemos creado un cuadro con las muestras sistemáticas como columnas, colocando
una fila adicional inferior con las medias de las columnas y una columna adicional a la derecha
con las medias de las filas.
www.FreeLibros.org
Muestreo sistemático 211
Figura 5-4
Figura 5-5
∑ ∑ (x )
n k
2
Entre muestras k
1 = 2
1 = 1 j
X = 4,5 S bs2 = 4,5 / 1 = 4,5
i j
∑ ∑ (X
x j ) = 27
n k
2
Dentro de muestras N
k = 8
2 = 6 ij S ws2 = 27 / 6 = 4,5
i j
∑ ∑ (X )
n k
Total N
1 = 8
1 = 7 ij
X j = 31,5 S 2 = 31,5 / 7 = 4,5
i j
www.FreeLibros.org
212 Muestreo estadístico. Conceptos y problemas resueltos
1 k 1
[
V ( Xˆ ) = V ( x j ) = ∑ ( x j
X ) 2 = (3
3,75) + (3,5
3,75) 2 = 0,5625
k j 2
2
]
La varianza del estimador de la media también puede calcularse como:
2
⎛ n⎞S S2 1 4,5
V ( Xˆ ) = V (x j ) = ⎜1
⎟ bs = (1
f ) bs = (1
) = 0,5625
⎝ N⎠ n n 2 4
( )( ) 2∑∑(X )( )
k n k n
2∑∑ X ij
X X zj
X ij
X X zj
X
j i<z j i<z
w = = =
0,14285
N (n
1) 2 ( N
1)(n
1)S 2
Tendremos entonces:
7
4,5
2
V (x j ) = (1 + ( n
1) ) = 8 (1 + 3(
0,14285)) = 0,5625
n 4
Ahora surge el problema de estimar las varianzas. Para ello observamos en primer
lugar que S2ws = 4,5 = S2, por lo que la precisión en muestreo aleatorio simple coincide con la
precisión del muestreo sistemático, y podremos utilizar la fórmula del muestreo aleatorio
simple para estimar varianzas. Por otra parte, el valor del coeficiente de correlación
intramuestral indica que la precisión del muestreo sistemático es buena, ya que éste es
muy bajo y además es negativo. Al ser negativo vemos que no existe interrelación dentro de
las muestras, esto es, que las muestras tienden a ser heterogéneas dentro de sí, lo cual es muy
conveniente en muestreo sistemático a la vista de que la muestra ha de representar fielmente
a toda una población que se supone heterogénea.
Para estimar la varianza de la media podemos utilizar la fórmula del muestreo
aleatorio simple, ya que en este problema coincide en precisión con el sistemático.
Tendremos los siguientes resultados para cada una de las dos muestras:
Sˆ
[ ] 4⎞⎟⎠ = 0,41
2
⎛ 1 ⎞⎛ 1
Vˆ (x1 ) = (1
f )
1 = ⎜1
⎟⎜ (1
3) + (5
3) + (4
3) + (2
3) 2
2 2 2
n ⎝ 2 ⎠⎝ 3
Sˆ
[ ] 4⎞⎟⎠ = 0,71
2
⎛ 1 ⎞⎛ 1
Vˆ (x2 ) = (1
f )
2 = ⎜1
⎟⎜ (3
4,5) + (2
4,5) + (6
4,5) + (7
4,5) 2
2 2 2
n ⎝ 2 ⎠⎝ 3
La mejor muestra sistemática resulta ser la primera, pues es la que presenta menor
varianza.
www.FreeLibros.org
Muestreo sistemático 213
Consideramos ahora cada una de las 4 zonas (filas) como un estrato de 2 unidades.
Tenemos entonces dividida la población en 4 estratos de 2 unidades cada uno, de modo que
la muestra sistemática consta de una unidad por estrato, que de forma general no es elegida
aleatoriamente dentro del mismo. Esta clasificación de los elementos de la población en 4
filas de 2 unidades cada una origina una tabla del análisis de la varianza para la población
que puede calcularse a través de Excel. Como estamos clasificando los datos en 4 filas (estratos),
utilizaremos las variables M2 a M5, que recogen los valores de las cuatro filas. A continuación
elegimos Análisis de la varianza de un factor en la opción Análisis de datos del menú
Herramientas, rellenando su pantalla de entrada como se indica en la Figura 5-6. La Figura 5-7
presenta los resultados.
Figura 5-6
Figura 5-7
www.FreeLibros.org
214 Muestreo estadístico. Conceptos y problemas resueltos
Grados de Cuadrados
Fuente de variación Sumas de cuadrados
libertad medios
∑ ∑ (X
X ) = 10,5 S bst
n k
2 2
Entre estratos n
1= 4
1= 3 i = 10,5 / 3 = 3,5
i j
∑ ∑ (X
X i ) = 21
n k
2
Dentro de estratos N
n=8
4=4 ij
2
S wst = 21 / 4 = 5,25
i j
∑ ∑ (X
X j ) = 31,5
n k
Total N
1= 8
1= 7 ij S 2 = 31,5 / 7 = 4,5
i j
∑∑(X
X ) ( ) [ ]
n k k
2 2
i = k∑ Xi
X = 2 (2
3,75)2 + (3,5
3,75)2 + (5
3,75)2 + (4,5
3,75)2 = 10,5
i j j
∑∑(X )
n k
2
ij
Xi = (1
2)2 + (3
2)2 + (5
3,5)2 + (2
3,5)2 + (4
5)2 + (6
5)2 + (2
4,5)2 + (7
4,5)2 = 21
i j
ˆ S2 ⎛ 1 ⎞ 5,25
V ( X ) = V ( x j ) = (1
f ) wst = ⎜1
⎟ = 0,65625
n ⎝ 2⎠ 4
( )( )
k n
2∑∑ Xij
Xi X zj
X z
2
st = j i<z
2
= ((1
2)(5
3,5) + (1
2)(4
5) + ...+ (6
5)(7
4,5)) =
0,047
n(n
1)(k
1)S wst 4.3.1.5,25
El valor de st es negativo y muy pequeño, lo que indica que la falta de aleatoriedad
en la selección de una unidad por estrato no es muy elevada. Para calcular el valor correcto
de la varianza del estimador de la media considerando la falta de aleatoriedad se utiliza la
siguiente expresión en función de st:
2
S 5,25
V ( Xˆ st ) = V ( x jst ) = (1
f ) wst (1+ (n
1)st ) = (1
0,5) (1
(4
1)0,047) = 0,56
n 4
Se observa que ahora ya coincide la varianza con la calculada sin estratificar.
www.FreeLibros.org
Muestreo sistemático 215
1 3⎫
⎬ Estrato 1
5 2⎭
4 6⎫
Estrato 2
2 7 ⎬⎭
n
1
f 1
0,5
[ ]
2
Vˆ ( x1 ) = 2 ∑ (x
xh2 ) =
2
h1 (1
5) 2 + (4
2) 2 = 0,625
n h 42
n
1
f 1
0,5
[ ]
2
Vˆ ( x 2 ) = 2 ∑ (x
xh2 ) =
2
h1 (3
2) 2 + (6
7) 2 = 0,0625
n h 42
5.3. Una manzana de casas de una ciudad contiene 36 hogares numerados del 1 al 36. Los
hogares con ingresos mensuales superiores a 1500 euros son los que tienen los números 3,
5-7, 11-13, 15-16, 20- 22, 25-26, 28 y 30-34.
1º) Se trata de estimar la proporción de hogares con sueldo mensual superior a 1500 euros
utilizando muestreo sistemático. Comparar la precisión de una muestra sistemática 1 en 4
con una muestra aleatoria simple del mismo tamaño para estimar la proporción de hogares
con sueldo mensual superior a 1500 euros. Justificar la respuesta en función del valor del
coeficiente de correlación intramuestral y en función de la cuasivarianza intramuestral.
2º) Hallar el tamaño de muestra necesario para estimar la proporción de viviendas en las que los
ingresos mensuales son superiores a 1500 euros para un error de muestreo de 16 centésimas.
Hallar ese mismo tamaño para muestreo aleatorio simple y comentar el resultado.
Si definimos una variable dicotómica A a la que asignamos el valor 1 para los hogares en
que los ingresos mensuales superan los 1500 euros y el valor 0 para el resto de los hogares, y
clasificamos los 36 hogares en 9 filas de 4 viviendas cada una (muestreo sistemático 1 en 4)
siguiendo el orden del enunciado del problema, tendremos la siguiente tabla:
0 0 1 0 1/ 4
1 1 1 0 3/ 4
0 0 1 1 1/ 2
1 0 1 1 3/ 4
0 0 0 1 1/ 4
1 1 0 0 1/ 2
1 1 0 1 3/ 4
0 1 1 1 3/ 4
1 1 0 0 1/ 2
5/9 5/9 5/9 5/9 5/9
www.FreeLibros.org
216 Muestreo estadístico. Conceptos y problemas resueltos
1 ⎡⎛ 5 5 ⎞ ⎛ 5 5 ⎞ ⎛ 5 5 ⎞ ⎛ 5 5 ⎞ ⎤
2 2 2 2
V ( Pˆ ) = ⎢⎜
⎟ + ⎜
⎟ + ⎜
⎟ + ⎜
⎟ ⎥ = 0
4 ⎣⎢⎝ 9 9 ⎠ ⎝ 9 9 ⎠ ⎝ 9 9 ⎠ ⎝ 9 9 ⎠ ⎦⎥
Figura 5-9
Figura 5-10
www.FreeLibros.org
Muestreo sistemático 217
Grados de Cuadrados
Fuente Sumas de cuadrados
libertad medios
∑ ∑ (x )
n k
2
Entre k
1 = 4
1 = 3 j
X =0 S bs2 = 0 / 3 = 0
i j
∑ ∑ (X
n k
x j ) = 8,88
2
Dentro N
k = 36
4 = 32 ij S ws2 = 8,88 / 32 = 0,277
i j
∑ ∑ (X ) = 8,88
n k
Total N
1 = 36
1 = 35 ij
X j S 2 = 8,88 / 35 = 0,254
i j
Conocida esta tabla pueden realizarse ya todos los cálculos. Por ejemplo, la varianza
del estimador de la proporción también podría calcularse como:
( )
2
⎛ n⎞S S2 1 0
V ( Pˆ ) = V Pˆ j = ⎜1
⎟ bs = (1
f ) bs = (1
) = 0
⎝ N ⎠ n n 4 9
Estamos ante el caso de máxima precisión del muestreo sistemático, ya que la varianza
1
es nula, o lo que es lo mismo, =
.
n
1
Este hecho concuerda con los valores que toman S2 y S2ws. Concretamente S2 = 0,254 <
S2ws = 0,277, lo que indica que es más preciso el muestreo sistemático que el aleatorio simple.
La varianza del estimador de la proporción en el muestreo aleatorio simple es (1
1/4)*0,254/9
= 0,021.
Para resolver el segundo apartado del problema consideramos ahora cada una de las
9 zonas (filas) como un estrato de 4 unidades. Tenemos entonces dividida la población en 9
estratos de 4 unidades cada uno, de modo que la muestra sistemática consta de una unidad por
estrato que de forma general no es elegida aleatoriamente dentro del mismo. Esta clasificación
de los elementos de la población en 9 filas de 4 unidades cada una origina una tabla del
análisis de la varianza que se puede calcular con Excel.
Como estamos clasificando los datos en 9 filas (estratos), utilizaremos las variables G5 a
G13, que recogen los valores de las nueve filas. A continuación elegimos Análisis de la varianza de
un factor en la opción Análisis de datos del menú Herramientas, rellenando su pantalla de entrada
como se indica en la Figura 5-11. La Figura 5-12 presenta los resultados.
www.FreeLibros.org
218 Muestreo estadístico. Conceptos y problemas resueltos
Figura 5-11
Figura 5-12
Grados de Cuadrados
Fuente de variación Sumas de cuadrados
libertad medios
∑∑ (X )
n k
2 2
Entre estratos n
1 = 9
1 = 8 i
X = 1,388 S bst = 1,388 / 8 = 0,1735
i j
∑∑ (X )
n k
2
Dentro de estratos N
n = 36
9 = 27 ij
Xi = 7,5 2
S wst = 7,5 / 27 = 0,277
i j
∑∑ (X )
n k
Total N
1 = 36
1 = 35 ij
X j = 8,888 S 2 = 8,888 / 35 = 0,254
i j
( )( )
k n
2∑∑ Xij
Xi X zj
X z
j i<z 2 ⎛ 1 3 1 1 3 1 ⎞
st = 2
= ⎜ (0
)(1
) + (0
)(0
) + ... + (1
)(0
) ⎟ =
0,125
n(n
1)(k
1)S wst 9.8.3.0,277⎝ 4 4 4 2 4 2⎠
www.FreeLibros.org
Muestreo sistemático 219
S2 n 0,277
V (Pˆst ) = (1
f ) wst (1 + (n
1)st ) ⇒ 0,162 = (1
) (1 + (n
1)(
0,125) ⇒ n = 5
n 36 n
Para calcular el tamaño de muestra anterior en muestreo aleatorio simple despejamos
n en la expresión que define la varianza de la proporción en ese tipo de muestreo. Tenemos:
S2 n 0,254
V (Pˆst ) = (1
f ) ⇒ 0,162 = (1
) ⇒n =8
n 36 n
Obviamente el tamaño de muestra necesario para cometer el mismo error de muestreo es
mayor en muestreo aleatorio simple que en muestreo sistemático, ya que en este problema el
muestreo sistemático es más preciso que el muestreo aleatorio simple.
5.4. Un investigador desea determinar la calidad del azúcar contenida en la sabia de los árboles
de una finca, que se encuentran situados a lo largo de la misma de forma natural en 7 hileras.
El número total de árboles es desconocido, por lo que no puede realizarse una muestra
irrestricta aleatoria. Como procedimiento alternativo el investigador decide usar una muestra
sistemática de 1 en 7. En la tabla adjunta se encuentran los datos del contenido de azúcar en
la sabia de los árboles muestreados:
∑X
i =1
i = 17066 ∑X
i =1
i
2
= 1486800
ˆ
∑X
i =1
i
X = xj = = 80,5
212
www.FreeLibros.org
220 Muestreo estadístico. Conceptos y problemas resueltos
2
212
⎛ 212 ⎞
∑ i
2
∑
X
⎜⎜ X i
⎝ i =1
⎟⎟
⎠
212
Sˆ 2 = x j =
i =1
= 535,48
212
1
ˆ ⎛ 1 ⎞ 535,48 ˆ
Vˆ ( X ) = Vˆ ( x j ) = ⎜1
⎟ = 2,16 ⇒ ˆ ( X ) = 1,47
⎝ 7 ⎠ 212
ˆ Vˆ ( x j ) 1,47 1,47
Cˆ v( X ) = = = = 0,0182 (1,82%)
E(x j ) ˆ 80,5
X
El error relativo es bajo, por lo que la estimación puede ser buena. Por otra parte, un
intervalo de confianza para la media suponiendo normalidad en la población será:
En caso de no poder suponer normalidad se toma el intervalo más tosco dado por:
ˆ ( Xˆ ) 1.47
Xˆ ± = 80,5 ± = [74, 87]
0,05
www.FreeLibros.org
Muestreo sistemático 221
⎛ 130 ⎞ 0,48
Vˆ ( Xˆ ) = N 2Vˆ ( x j ) = 1300 2 ⎜1
⎟ = 5625 ⇒ ˆ ( Xˆ ) = 75
⎝ 1300 ⎠ 130
Vˆ ( Xˆ ) 75 1,47
Cˆ v( Xˆ ) = = = = 0,016 (1,6%)
Xˆ 4576 80,5
El error relativo es bajo, por lo que la estimación puede ser buena. Por otra parte, un
intervalo de confianza al 95% para la producción total suponiendo normalidad en la
población será:
2 ˆ ( Xˆ ) = 150
5.6. Una muestra sistemática de 1 en 10 es obtenida de una lista de votantes registrados para
estimar la proporción de votantes que están a favor de la emisión de bonos propuesta. Se
utilizan diferentes puntos de inicio aleatorio para asegurar que los resultados de la muestra
no se ven afectados por variación periódica en la población. Los resultados codificados de
esta encuesta de elección previa se muestran en la tabla adjunta. Estimar p, la proporción de
los 5775 votantes registrados que están a favor de la emisión de bonos propuesta (N = 5775).
Establecer un límite para el error de estimación.
Votante Respuesta
4 1
10 0
16 1
. .
. .
. .
5760 0
5766 0
5772 1
962
∑y
i =1
i = 652
www.FreeLibros.org
222 Muestreo estadístico. Conceptos y problemas resueltos
212
∑X i
652
Pˆ = Pˆ j = i =1
= = 0,678
962 962
⎛ n ⎞ Pˆ j (1
Pˆ j ) ⎛ 962 ⎞ 0,678(1
0,678)
Vˆ ( Pˆ ) = Vˆ ( Pˆ j ) = ⎜1
⎟ = ⎜1
⎟ = 0,000196 ⇒ ˆ ( Xˆ ) = 0,014
⎝ N ⎠ n
1 ⎝ 5775 ⎠ 962
1
Vˆ ( Pˆ ) 0,014 1,47
Cˆ v( Pˆ ) = = = = 0,0206 (2,06%)
Pˆ 0,678 80,5
Por otra parte, un intervalo de confianza para la proporción, suponiendo normalidad
en la población será:
Pˆ ± ˆ ( Pˆ ) = 0,678 ± 2 0,014
El límite para el error de estimación será el radio del intervalo de confianza, o sea,
0,028 (2,8%).
5.7. Un parque estatal cobra la admisión por automóvil en lugar de por persona, y un funcionario
del parque quiere estimar el número promedio de personas por automóvil para un día
concreto en particular durante el verano. El funcionario sabe por experiencia que entrarán al
parque alrededor de 400 automóviles y quiere muestrear 80 de ellos. Para obtener una
estimación de la varianza, utiliza el muestreo sistemático replicado con 10 muestras de 8
automóviles cada una. En la tabla siguiente se presentan los datos del número de personas
por automóvil (entre paréntesis):
Estimar el número promedio de personas por automóvil y establezcer un límite para el error
de estimación.
www.FreeLibros.org
Muestreo sistemático 223
1 t 1
xc = ∑
t 1
x t = (3,75 + 3,38 + L + 4,38) = 4,16
10
El estimador insesgado de su varianza mediante la aplicación del método de las
muestras interpenetrantes es:
1 t 2 1 ⎛ t 2 t 2⎞ 1 t 2
Vˆ (xc ) = (1
n / N ) ∑i c
t(t
1) i
x
tx 2
= (1
n / N ) ⎜ ∑ i ∑i c ⎠
t(t
1) ⎝ i
x
x ⎟ = (1
n / N ) ∑(xi
xc2 )
t(t
1) i
1
Vˆ (xc ) = (1
80 / 400) 177410
10* 4,162 = 0,0365
10(9
1)
5.8. Una empresa publicitaria está iniciando una campaña de promoción para un nuevo producto.
La empresa quiere muestrear clientes potenciales en una pequeña comunidad para
determinar la aceptación del producto. Para eliminar algo de los costos asociados con las
entrevistas personales, el investigador decide seleccionar una muestra sistemática de entre N
= 5000 nombres listados en un registro de la comunidad y recolectar los datos mediante
entrevistas por teléfono. Determinar el tamaño de muestra requerido para estimar la
proporción de personas que consideran <<aceptable>> el producto, con un límite para el
error de estimación de magnitud 0,03 (esto es, 3%).
() ()
2 Vˆ Pˆ = 0,03 ⇒ Vˆ Pˆ = 0,000225
NPˆ Qˆ 5000(0,5)(0.5)
n= = = 909,240 910
( N
1)Vˆ ( Pˆ ) + Pˆ Qˆ 4999(0,000225) + (0,5)(0,5)
www.FreeLibros.org
224 Muestreo estadístico. Conceptos y problemas resueltos
EJERCICIOS PROPUESTOS
ui u1 u2 u3 u4 u5 u6 u7 u8 u9
Xi 1 3 5 2 4 6 2 7 3
5.2. En un directorio de 13 casas de una calle las personas están distribuidas hogar a hogar como
sigue:
1 2 3 4 5 6 7 8 9 10 11 12 13
M M M M M M M M M M M M M
F F F F F F F F F F F F F
f f m m f f m m m f f
m m f m m f f f m
f f f m
M=varón adulto, F=mujer adulta, m=hijo varón, f=hija
Se realiza muestreo sistemático de una de cada 5 personas (muestreo 1 en 5), numerando los
elementos de la población por columnas hacia abajo y luego yendo a la parte superior de la
siguiente columna (se empieza por la primera columna de la izquierda). Se pide lo siguiente:
1º) Calcular el valor del coeficiente de correlación st y hallar la varianza del estimador de la
proporción de varones adultos en la población utilizando la relación entre muestreo sistemático
y muestreo estratificado.
2º) ¿Qué muestra sistemática es la mejor? ¿Cuál es la proporción estimada de varones
adultos en la población?
www.FreeLibros.org
CAPÍTULO
OBJETIVOS
1. Presentar el concepto de estimación no lineal.
2. Presentar el concepto de estimación por métodos indirectos.
3. Analizar el estimador de razón, su sesgo y su varianza.
4. Estimar el sesgo y la varianza del estimador por razón.
5. Analizar los estimadores y sus errores en muestreo estratificado con
reposición.
6. Comprender la formación de estimadores de magnitudes poblacionales
basados en la razón.
7. Estudiar los errores y su estimación para estimadores indirectos basados en
la razón.
8. Analizar el estimador de razón, su sesgo y su varianza.
9. Obtener la varianza mínima para el estimador de regresión y su estimación.
10. Comparar la estimación indirecta por regresión con otros tipos de muestreo.
11. Analizar el estimador por diferencia, sesgo, varianza y sus estimaciones.
12. Comprender los métodos indirectos en muestreo estratificado.
13. Analizar la estimación por razón en muestreo estratificado.
14. Analizar la estimación por regresión en muestreo estratificado.
15. Diferenciar entre estimadores separados y estimadores combinados.
16. Comparar las precisiones de los métodos de estimación indirecta con
estratificación.
www.FreeLibros.org
226 Muestreo estadístico. Conceptos y problemas resueltos
ÍNDICE
1. Estimadores no lineales.
2. Muestreo por métodos indirectos. El estimador de razón.
3. Estimaciones de los parámetros poblacionales basadas en la razón y errores.
4. Estimaciones por regresión y errores.
5. Estimaciones por diferencia y errores.
6. Estimadores de razón en el muestreo estratificado.
7. Estimadores de regresión en el muestreo estratificado.
8. Problemas resueltos.
9. Ejercicios propuestos.
www.FreeLibros.org
Muestreo por métodos indirectos. Razón, regresión y diferencia 227
ESTIMADORES NO LINEALES
Al estimar un parámetro poblacional la dificultad principal suele estar en el cálculo del error
de muestreo (raíz cuadrada de la varianza del estimador). Por esta razón, son muchos los
procedimientos analizados para la estimación de varianzas. Según Wotter (1985), podemos
clasificar las situaciones que se pueden presentar atendiendo a la naturaleza del parámetro a
estimar (parámetros lineales o no lineales) y al diseño muestral utilizado (diseños simples o
complejos). Se pueden estimar parámetros lineales en diseños simples, parámetros no
lineales en diseños simples, parámetros lineales en diseños complejos o parámetros no
lineales en diseños complejos. Aunque la mayor parte de la teoría básica de muestreo se basa
en el cálculo de estimadores de parámetros lineales en diseños simples, también se han
desarrollado procedimientos para aproximación lineal de estimadores que están basados en
un desarrollo en serie de Taylor para obtener una aproximación lineal del estimador y así
poder aplicar posteriormente toda la teoría desarrollada para estimadores lineales.
Además existen otras técnicas, como los métodos de exploración intensiva de una
muestra, que consisten en la generación de muestras a partir de la muestra inicial, obtenida
mediante un determinado diseño, usando técnicas muy variadas.
( ) (
ˆ1 ,...,ˆk = ( 1 ,..., k ) + d ˆ1 ,...,ˆk )( 1 ,..., k )
+ Tn
(
ˆ
d ˆ1 ,...,ˆk )( = ∑⎜
k ⎛
(
ˆ1 ,...,ˆk )⎞⎟ (ˆ
r )
1 ,..., k ) ⎜
r =1 ⎝ ˆr ⎟ r
⎠ (1 ,..., k )
www.FreeLibros.org
228 Muestreo estadístico. Conceptos y problemas resueltos
( )⎞⎟
2
⎡ k ⎛ ˆ ,...,ˆ ⎤
() (
V ˆ = E ˆ
)2
E ⎢∑ ⎜
⎜
⎢ r =1 ⎝
1
ˆ
r
k
⎟
( r )
ˆ
⎥
r
⎥
⎣ ⎠ (1 ,..., k ) ⎦
= E ⎢∑∑ ⎜
(
⎡ k k ⎛ ˆ ,...,ˆ ⎞
1 k ⎟ ) ( ⎛ ˆ
) (
ˆ
⎜ 1 ,..., k ⎟
ˆ ⎞ ) ˆl
l (
⎤
)⎥⎥
⎢ r =1 l =1 ⎜⎝ ˆr ⎟ ⎜ ˆ ⎟
r r
⎠ (1 ,..., k ) ⎝ ⎠ (1 ,..., k )
⎣ l
⎦
k
= ∑∑ ⎜
k ⎛
(
ˆ1 ,...,ˆk ⎞⎟ ) ⎜
(
⎛ ˆ1 ,...,ˆk ⎞
⎟
) Cov ˆr ,ˆl ( )
r =1 l =1 ⎝
⎜ ˆr ⎟ ⎜ ˆ ⎟
⎠ (1 ,..., k ) ⎝ l ⎠ (1 ,..., k )
ˆ
Sea R = un parámetro poblacional y Rˆ = un estimador del mismo.
! !ˆ
Observamos que Rˆ = (ˆ , !ˆ ) y R = ( , ! ) , por lo que estamos en condiciones
de aplicar el método general de linealización de varianzas previamente explicado. Haciendo
un desarrollo en serie de Taylor de la función (ˆ , !ˆ ) en el punto ( , ! ) resulta:
⎛ ˆ , !ˆ
Rˆ
R ⎜⎜
( )⎞⎟ (ˆ
) + ⎜⎜ (ˆ, ! )⎟⎟
⎛ ˆ ˆ ⎞
(!ˆ
! )
⎟
⎝ ˆ ⎠ ( , ! ) ⎝ ! ⎠ ( , ! )
!
1 ⎛ ⎞ 1⎛ ⎞
()
= 2 V (ˆ ) + ⎜⎜
2 ⎟⎟ V !ˆ + 2 ⎜⎜
2 ⎟⎟Cov ˆ , !ˆ
!⎝ ! ⎠
( )
⎝ ! ⎠
1
[ ()
= 2 V (ˆ ) + R 2V !ˆ
2 RCov ˆ , !ˆ
!
( )]
Otra expresión alternativa para la varianza de Rˆ = (ˆ , !ˆ ) es:
() ⎡V (ˆ ) V !ˆ
V Rˆ R 2 ⎢ 2 + 2
2
Cov ˆ , !ˆ ⎤
⎥
() ( )
⎣ ! ! ⎦
www.FreeLibros.org
Muestreo por métodos indirectos. Razón, regresión y diferencia 229
Los métodos indirectos utilizan la información conocida relativa a una variable auxiliar Y
(variable de apoyo) correlacionada con la variable en estudio X para conseguir estimaciones
más precisas para X que las calculadas únicamente a partir de la muestra de la variable que
se estudia.
Entre los métodos clásicos de estimación indirecta más utilizados se encuentran el
método de estimación por razón (basado en la razón entre X e Y), el método de estimación
por regresión (basado en la regresión entre X e Y) y el método de estimación por diferencia
(basado en la diferencia entre X e Y). Estos tres métodos serán desarrollados a lo largo de
este capítulo.
( ) ( ) (
f Xˆ G = f Xˆ + b0 f (Y )
f Yˆ ( ))
siendo f una función, X̂ G el estimador indirecto de X , X̂ e Yˆ los estimadores directos
de X e Y , respectivamente, y b0 un coeficiente de corrección que, dependiendo de su
valor, nos dará los diferentes tipos de estimadores indirectos. Como caso particular
(
supongamos f ( x) = x . Entonces Xˆ G = Xˆ + b0 Y
Yˆ . )
Los casos más frecuentes de estimadores indirectos son los siguientes:
1. Si b0 = 0 , se tiene Xˆ G = Xˆ , es decir, el estimador obtenido es el directo.
( )
2. Si b0 = 1 , entonces Xˆ G = Xˆ + Y
Yˆ , denominado estimador de la diferencia o
diferencial.
Xˆ
3. Si b0 = = Rˆ , se obtiene el estimador de razón.
Yˆ
Xˆ Xˆ
Xˆ G = Xˆ +
Yˆ
[ ]
Y
Yˆ = Y = Rˆ Y = Xˆ R
Yˆ
4. Si b0 = b , se obtiene el estimador de regresión.
( )
Xˆ G = Xˆ + b Y
Yˆ = Xˆ rg
www.FreeLibros.org
230 Muestreo estadístico. Conceptos y problemas resueltos
∑x i
Xˆ x
Rˆ = i =1
= =
Yˆ
n
y
∑y
i =1
i
Xˆ R = Rˆ Y
Xˆ R = Rˆ Y
Estos estimadores no son insesgados pero tienen varianza muy pequeña y otras
propiedades que los hacen deseables. Sin embargo, es preciso conocer Y o Y para poder
calcularlos.
Cov( Rˆ , y ) Rˆ y
B ( Rˆ ) =
=
Y Y
B ( Rˆ )
es una medida del sesgo por unidad de desviación típica, es decir, una medida
Rˆ
B ( Rˆ )
relativa del sesgo respecto del error de muestreo. Además, si es del orden del 10%,
Rˆ
entonces el sesgo puede ser considerado despreciable en relación al error estándar.
B( R$ )
B( R$ ) =
( R$ , y ) R$ Cv ( y ) ⇒ = ( R$ , y )
Cv ( y ) Cv ( y )
R$
con lo que el sesgo relativo (módulo del cociente entre el sesgo del estimador de la razón y
su desviación típica) está acotado por el coeficiente de variación de y .
www.FreeLibros.org
Muestreo por métodos indirectos. Razón, regresión y diferencia 231
Entonces, para que el sesgo del estimador de la razón sea despreciable bastará con
que el coeficiente de variación de la media muestral de la variable auxiliar sea menor que
1/10, ya que en este caso:
B( R$ ) 1
Cv ( y ) <
R$ 10
Se observa que el sesgo relativo es tanto menor cuanto menor sea Cv( y ). Además,
para intentar eliminar la influencia del sesgo se tomarán tamaños de muestra tales que el
sesgo sea despreciable, es decir, tamaños de muestra tales que Cv( y ) < 1/10. Para hallar este
tamaño de muestra en el muestreo sin reposición operamos como se indica a continuación:
⎛ n ⎞ S2 SY2
⎜1
⎟ Y 100 N
( y) V ( y) ⎝ N⎠ n 1 100 NSY2 y2
Cv ( y ) = = = < ⇒n> =
E( y) Y Y 10 Ny 2 + 100SY2 SY2
N + 100 2
y
Para hallar el tamaño de muestra para el que el sesgo es despreciable en el muestreo
con reposición operamos como se indica a continuación:
Y2
( y) V ( y) n 1 100 Y2 Y2
Cv ( y ) = = = < ⇒n> = 100 2
E( y) Y Y 10 Y2 Y
La segunda condición de insesgadez del estimador de la razón es que si la recta de
regresión de la variable auxiliar Y sobre la variable en estudio X (o la de X sobre Y) pasa
por el origen de coordenadas entonces el estimador de la razón R$ es insesgado para R.
(1
f )
B( Rˆ ) = (RS Y2
S XY )
nY 2
1
B( Rˆ ) = 2
(R Y2
XY )
nY
www.FreeLibros.org
232 Muestreo estadístico. Conceptos y problemas resueltos
Bˆ ( Rˆ ) =
nY 2
(
1 ˆ ˆ2 ˆ
RS Y
S XY )
Varianza aproximada del estimador de la razón
() 1
f 1
f ⎡N ⎤
N N
V Rˆ = 2
(S x2 + R 2 S y2
2 RS xy ) = 2
⎢∑ X i2 + R 2 ∑ Yi 2
2 R ∑ X i Yi ⎥
Y n Y n(N
1) ⎣ i i i ⎦
Muestreo con reposición
() 1 1 ⎡N ⎤
N N
V Rˆ = 2
( x2 + R 2 y2
2 R xy ) = 2
⎢∑ X i2 + R 2 ∑ Yi 2
2 R ∑ X i Yi ⎥
Y n Y nN ⎣ i i i ⎦
() 1
f
( ) 1
f ⎡n ⎤
n n
Vˆ Rˆ = 2
Sˆ x2 + Rˆ 2 Sˆ y2
2 Rˆ Sˆ xy = 2
⎢∑ X i2 + Rˆ 2 ∑ Yi 2
2 Rˆ ∑ X i Yi ⎥
Y n Y n(n
1) ⎣ i i i ⎦
() 1
( ) 1 ⎡n ⎤
n n
Vˆ Rˆ = 2
Sˆ x2 + Rˆ 2 Sˆ y2
2 Rˆ Sˆ xy = 2
⎢∑ X i2 + Rˆ 2 ∑ Yi 2
2 Rˆ ∑ X i Yi ⎥
Y n Y n(n
1) ⎣ i i i ⎦
www.FreeLibros.org
Muestreo por métodos indirectos. Razón, regresión y diferencia 233
x x x Pˆ Aˆ
Xˆ R = Y = Y = Rˆ Y , Xˆ R = x R = Y = Rˆ Y , PˆRX = X PY = Rˆ PY , Aˆ RX = X PY = Rˆ AY
y y y PˆY Aˆ Y
V ( Xˆ R ) = V ( Rˆ Y ) = Y 2V ( Rˆ ) = N
2 1
f
(
S x2 + R 2 S y2
2RS xy
n
)
V ( Xˆ R ) = V ( Rˆ Y ) = Y 2V ( Rˆ ) =
1
f 2
n
(
S x + R 2 S y2
2 RS xy )
Muestreo con reposición
N2
V(Xˆ R ) =V(RˆY) =Y 2V(Rˆ) = ( x2 + R2 y2
2R xy )
n
ˆ
V(X R ) =V(RˆY ) = Y 2V(Rˆ) = ( x2 + R 2 y2
2R xy )
1
n
Vˆ ( Xˆ R ) = N
2
n
(
1
f ˆ 2 ˆ 2 ˆ 2
S x + R S y
2RˆSˆ xy = N 2 )
1
f ⎡ n
⎢∑ i
n ( n
1) ⎣ i
X 2
+ ˆ2
R
n
∑ Y i
2
2 ˆ
R
n
∑
⎤
X i Yi ⎥
i i ⎦
ˆ
Vˆ ( X R ) =
1
f ˆ 2 ˆ 2 ˆ 2
n
(
S x + R S y
2Rˆ Sˆ xy =
1
f ⎡ n
⎢∑ i
n(n
1) ⎣ i
X )
2
+ ˆ 2 Y 2
2 Rˆ X Y ⎤
R
n
∑i i
n
∑i i i ⎥⎦
1
(
V$ ( X$ R ) = S$ x2 + R$ 2 S$ y2
2 RS ) ⎡ ⎤
n n n
$$ = 1
n xy ⎢
n(n
1) ⎣
∑ i
X i2 + Rˆ 2 ∑
i
Yi 2
2 Rˆ ∑ X Y ⎥⎦
i
i i
www.FreeLibros.org
234 Muestreo estadístico. Conceptos y problemas resueltos
Supongamos ( xi , y i ) i = 1,..., N pares de valores situados sobre una recta que no pasa por el
origen, es decir, xi = a + by i con a 0 . Entonces, para los valores muestrales y poblacionales se
(
cumple, respectivamente x = a + by y X = a + bY por lo que x
X = b y
Y , o lo que es lo )
( )
mismo, X = x
b y
Y . Se tiene:
- Si y = Y , entonces X = x y V ( x ) = 0
- ( )
Si y Y , entonces X x , siendo b y
Y el ajuste.
( )
x rg = x + bo (Y
y ) , Xˆ rg = Nx rg , Pˆrg = PˆX + bo PY
PˆY y Aˆ rg = NPˆrg
www.FreeLibros.org
Muestreo por métodos indirectos. Razón, regresión y diferencia 235
El estimador de regresión es en general sesgado salvo que los puntos (Xi , Yi ) con i = 1,2, .... ,N,
donde Yi representa la variable auxiliar correlacionada con la variable en estudio Xi, estuviesen
situados sobre una línea recta que no pasa por el origen de ecuación Xi = a + b Yi .
V (xrg ) =
1
f 2
n
(
(S x + bo2 S y2
2bo S xy ) , Vˆ (x rg ) = 1
f Sˆ x2 + bo2 Sˆ y2
2bo Sˆ xy
n
)
( ) ( ) ( )
2
V Xˆ rg = (Sx + bo S y
2bo Sxy ) , Vˆ Xˆ rg = N (1
f ) Sˆ x2 + bo2 Sˆ y2
2bo Sˆ xy
N 2 (1
f ) 2 2 2
n n
1
f ˆ2
Vˆmin (x rg ) =
n
( )
S x (1
ˆ 2 ) , Vˆmin Xˆ rg =
N 2 (1
f ) ˆ 2
n
S x (1
ˆ 2 )
V (xrg ) =
1 2
n n
( )
( x + bo2 y2
2bo xy ), Vˆ (x rg ) = 1 Sˆ x2 + bo2 Sˆ y2
2bo Sˆ xy , Vˆmin (x rg ) = 1 Sˆ x2 (1
ˆ 2 )
n
( ) N2 2
( ) ( )
2
( x + bo2 y2
2bo xy ) , Vˆ Xˆ rg = N Sˆ x2 + bo2 Sˆ y2
2bo Sˆ xy , Vˆmin Xˆ rg = N Sˆx2 (1
ˆ 2 )
( )
2
V Xˆ rg =
n n n
Hasta aquí hemos considerado el caso en que b0 es constante. Sin embargo, cuando
se desconoce b0 o es variable, suelen utilizarse los resultados anteriores, estimando b0
mediante la expresión:
n
Sˆ ∑ (X i
x )(Yi
y )
bˆ0 = !ˆ = XY2 = i
SˆY
n
∑ (Y
y)
2
i
i
www.FreeLibros.org
236 Muestreo estadístico. Conceptos y problemas resueltos
( )
V X$ = V ( x ) =
1
f 2
n
Sx
( )
V X$ R =
1
f 2
n
(
S x + R 2 S y2
2 RS x S y
xy )
( ) ( )
Vmin X$ rg = Vmin xrg =
1
f 2
n
(
S x 1
xy2 )
( )
Es evidente que Vmin x rg V ( x ) , ya que 1
xy2 1, correspondiendo el signo
igual al caso xy = 0 , es decir, al caso de correlación nula entre X e Y. Por lo tanto, cuando la
variable auxiliar y la variable en estudio están incorreladas no se gana en precisión por
considerar el método indirecto de estimación por regresión respecto de considerar el muestreo
aleatorio simple. En el resto de los casos la estimación indirecta por regresión supera en
precisión a la estimación aleatoria simple.
Por otra parte:
( ) ( )
Vmin xrg < V ( x R ) V ( x R )
Vmin xrg 0
1
f 2 1
f 2
( S x + R 2 S y2
2 RS x S y xy )
S x (1
2 xy ) 0
n n
1
f 1
f
( ) ( )
2
R 2 S y2
2 RS x S y xy + S x2 xy2 0 RS y
xy S x 0
n n
La desigualdad es siempre cierta, y se produce la iguladad si:
Sx
RS y
xy S x = 0 R = =!
Sy
( ) 1
V X$ = V ( x ) = x2
n
( ) ( 1
V X$ R = x2 + R 2 y2
2 R x y
xy
n
)
( ) ( ) 1
(
Vmin X$ rg = Vmin xrg = x2 1
xy2
n
)
www.FreeLibros.org
Muestreo por métodos indirectos. Razón, regresión y diferencia 237
( )
Es evidente que Vmin x rg V ( x ) , ya que 1
xy2 1, correspondiendo el signo
igual al caso xy = 0 , es decir, al caso de correlación nula entre X e Y. Por lo tanto, cuando
la variable auxiliar y la variable en estudio están incorreladas no se gana en precisión por
considerar el método indirecto de estimación por regresión respecto de considerar el
muestreo aleatorio simple. En el resto de los casos la estimación indirecta por regresión
supera en precisión a la estimación aleatoria simple.
( ) ( )
Vmin xrg < V ( x R ) Vmin ( x R )
V xrg 0
1 2 1
( x + R 2 y2
2 R x y xy )
x2 (1
2 xy ) 0
n n
1 2 2 1
( ) ( )
2
R y
2 R x y xy + x2 xy2 0 R y
xy x 0
n n
x S
R y
xy x = 0 R = = x =!
y Sy
Xˆ = x
y + Y = Dˆ + Y Xˆ = N ( x
y ) + Y = Dˆ T + Y = NDˆ + Y
Las varianzas y sus estimaciones para los estimadores de la media y el total basados
en la diferencia, coinciden con las varianzas y sus estimaciones de los propios estimadores
diferencia. Para muestreo sin reposición tenemos:
1
f 2
V ( Xˆ ) = V ( Dˆ + Y ) = V ( Dˆ ) =
n
(
S x + S y2
2S xy ) ( Y es una constante)
www.FreeLibros.org
238 Muestreo estadístico. Conceptos y problemas resueltos
V ( Xˆ ) = V ( Dˆ T + Y ) = V ( Dˆ T ) = N 2
1
f 2
n
( )
S x + S y2
2 S xy (Y es una constante)
ˆ ()
Vˆ ( X ) = Vˆ Dˆ =
n
(
1
f ˆ2 ˆ2
)
S x + S y
2 Sˆ xy , Vˆ ( Xˆ ) = Vˆ ( Dˆ T ) = N 2 (
1
f ˆ2 ˆ2
n
S x + S y
2 Sˆ xy )
Para muestreo con reposición tenemos:
1 1
(
V ( Xˆ ) = x2 + y2
2 xy
n
) (
V ( Xˆ ) = N 2 x2 + y2
2 xy
n
)
( ) ( 1
Vˆ ( Xˆ ) = Vˆ Dˆ = Sˆ x2 + Sˆ y2
2 Sˆ xy
n
) 1
(
Vˆ ( Xˆ ) = Vˆ ( Dˆ T ) = N 2 Sˆ x2 + Sˆ y2
2 Sˆ xy
n
)
ESTIMADORES DE RAZÓN EN EL MUESTREO ESTRATIFICADO
Existen dos formas de plantear un estimador de razón para el total X , en el caso de muestreo
estratificado. En la primera de ellas se obtiene un estimador de razón para cada el total de cada
estrato y se suman todos ellos. El estimador obtenido se denomina estimador separado de razón.
La principal ventaja de este estimador es que permite que la razón de X a Y varíe de un estrato a
otro. Sin embargo, necesitamos conocer el total de la variable auxiliar, Yh , en cada estrato por
separado. En la segunda de ellas se obtiene una única razón con los totales de X e Y estimados
Xˆ st
mediante muestreo estratificado, es decir, , y se multiplica este cociente por el total de la
Yˆ st
variable auxiliar Y , que se supone conocido. El estimador obtenido se denomina estimador
combinado de razón. Para construir este estimador no es preciso conocer el total de la variable
auxiliar en cada estrato; basta conocer el total de la población. Ésta es una ventaja con respecto al
estimador separado de razón. Sin embargo, el estimador combinado supone, implícitamente, que la
razón permanece constante de un estrato a otro.
4.2.1 Estimador separado de razón
Estimador de razón simple o separado (para el total poblacional)
Se define el estimador separado de razón para el total poblacional X en un
muestreo estratificado como:
L L
x L
Xˆ RS = ∑ Xˆ Rh = ∑ Rˆ hYh = ∑ h Yh
h =1 h =1 h =1 y h
Se observa que es la suma de los estimadores de razón para el total en los diferentes
estratos. En general este estimador es sesgado, por serlo Rˆ h h = 1, ..., L .
∑ E ( Rˆ h )Yh
∑ RhYh = ∑ (1
E ( Rˆ h )
Rh )Yh = ∑ B ( Rˆ h )Yh
4243
h h h B ( Rˆ ) h
h
www.FreeLibros.org
Muestreo por métodos indirectos. Razón, regresión y diferencia 239
Se observa que el sesgo total es la suma de los sesgos en cada estrato ponderados
por los Yh. Para muestreo sin reposición la expresión del sesgo será:
L L
(1
f h ) L
N h2 (1
f h )
B( Xˆ RS ) = ∑ Yh B ( Rˆ h ) = ∑ Yh 2
R S 2
h Yh
S (
XYh = ∑ )
Rh S Yh2
S XYh ( )
h h n h Yh h n hYh
{
Yh2 N h2
N h2 (1
f h ) ˆ ˆ 2 ˆ
( )
L
que puede estimarse como: Bˆ ( Xˆ RS ) = ∑ n Y Rh SYh
S XYh
h h h
N2
( )
L
que puede estimarse como: Bˆ ( Xˆ RS ) = ∑ h Rˆ h SˆYh2
Sˆ XYh
h nh Yh
L L L
1
f
V ( Xˆ RS ) = ∑ V ( Rˆ h
Yh ) = ∑ Y h2
V ( Rˆ h ) = ∑ Y h2
2 h (S xh2 + Rh2 S yh2
2 Rh S xyh ) =
h h h Yh n h
N h2Yh2
2
L
N (1
f h ) 2 L
N h2 (1
f h ) ⎛ N N N
⎞
( )
h h h
∑ n h
S xh + R 2 2
h S yh
2 R S
h xyh = ∑ n ( N
1) ⎜ ∑i hi h ∑i hi
⎜ X 2
+ R 2
Y 2
2 R h ∑ X hi Yhi ⎟
⎟
h h h h h ⎝ i ⎠
N 2 (1
f h ) ˆ 2
( )
L
Vˆ ( Xˆ RS ) = ∑ h S xh + Rˆ h2 Sˆ yh2
2 Rˆ h Sˆ xyh =
h n h
2
L
N (1
f h ) ⎛ n
h n h n
⎞
h
=∑ h ⎜⎜ ∑ X hi2 + Rˆ h2 ∑ Yhi2
2 Rˆ h ∑ X hi Yhi ⎟⎟
h n h (nh
1) ⎝ i i i ⎠
El valor de la varianza del estimador separado del total para muestreo con reposición será:
www.FreeLibros.org
240 Muestreo estadístico. Conceptos y problemas resueltos
L L
1 L
V ( Xˆ RS ) = ∑ V ( Rˆ h
Yh ) = ∑ Y h2
V ( Rˆ h ) = ∑ Y h2
2 ( xh2 + Rh2 yh2
2 Rh xyh ) =
h h h Yh n h
N h2Yh2
2 2
N
L L
N ⎛N N N
⎞
∑ n ( + Rh2 yh2
2 Rh xyh ) = ∑
h h h
h 2
xh ⎜⎜ ∑ X hi2 + Rh2 ∑ Yhi2
2 Rh ∑ X hi Yhi ⎟⎟
h
h h h n h ( N h
1) ⎝ i i i ⎠
La estimación de la varianza para muestreo con reposición será:
L
N h2 $ 2 L
N h2 ⎛ nh 2 nh nh
⎞
V ( X RS ) = ∑
$ $ $ (
S xh + Rh S yh
2 Rh S xyh = ∑
2 $2 $ $ ) ⎜ ∑ X hi + R$ h2 ∑Yhi2
2 R$ h ∑ X hi Yhi ⎟
h nh h nh (nh
1) ⎝ i i i ⎠
Wh2
Wh2 (1
f h ) ⎛ N h 2
L Nh Nh
⎞
∑ n ( N
1) ⎝ ∑ hi h ∑ hi
⎜ X + R 2
Y 2
2 R h ∑ X hi Yhi ⎟
⎠
h h h i i i
www.FreeLibros.org
Muestreo por métodos indirectos. Razón, regresión y diferencia 241
Xˆ X 1 1 L
Y
B ( Xˆ RS ) = E ( Xˆ RS )
X = E ( RS )
= ( E ( Xˆ RS )
X ) = B ( Xˆ RS ) = ∑ B ( Rˆ h ) h
N N N N h N
Se observa que el sesgo total es la suma de los sesgos en cada estrato ponderados
por los Yh/N. Para muestreo sin reposición la expresión del sesgo será:
N 2 (1
f h )
1
(Rh S Yh2
S XYh ) = ∑ Wh (1
f h ) (Rh SYh2
S XYh )
L L
B( Xˆ RS ) = B( Xˆ RS ) = ∑ h
N h Nn h Yh h n h Yh
(
Wh (1
f h ) ˆ ˆ 2 ˆ
)
L
que puede estimarse como: Bˆ ( Xˆ RS ) = ∑ Rh S Yh
S XYh
h nhYh
El valor de la varianza del estimador separado de la media para muestreo con reposición
será:
1 L
⎛ N2 ⎞ 1 2
V ( Xˆ RS ) = 2 V ( Xˆ RS ) = ∑ ⎜⎜ h2 ⎟⎟
n
(
xh + Rh2 yh2
2 Rh xyh = )
N h ⎝1N23⎠ h
Wh2
Wh2
L
⎛ Nh 2 Nh Nh
⎞
∑n N ⎜⎜ ∑ X hi + Rh2 ∑ Yhi2
2 Rh ∑ X hi Yhi ⎟⎟
h h h ⎝ i i i ⎠
W2
( ) Wh2 ⎛n ⎞
L L n n
Vˆ ( Xˆ RS ) = ∑ h Sˆ xh2 + Rˆ h2 Sˆ yh2
2Rˆ h Sˆ xyh = ∑
h h h
⎜⎜ ∑ X hi2 + Rˆ h2 ∑ Yhi2
2Rˆ h ∑ X hi Yhi ⎟⎟
h nh h nh (nh
1) ⎝ i i i ⎠
1 L
N h2 L
W
ˆ ˆ
B ( X RS ) = B ( X RS ) = ∑
N
R h Yh
2
( )
XYh = ∑ h R h Yh
2
XYh ( )
h Nn h Yh h n h Yh
Wh
(Rˆ Sˆ )
L
que puede estimarse como: Bˆ ( Xˆ RS ) = ∑n Y h
2
Yh
Sˆ XYh
h h h
www.FreeLibros.org
242 Muestreo estadístico. Conceptos y problemas resueltos
xst X st $
Se considera inicialmente la razón de los estimadores estratificados R$C = = $ , y se
y st Yst
ˆ ˆ
forma el estimador del total X RC = RC
Y (ya que el estimador del total basado en la razón
es X$ = R$
Y ).
h h h h h h
2 2
W (1
f h ) 2
(S xh + R 2 S yh2
2R S xyh ) = N 2 ∑ W (1
f h ) ⎛⎜⎜ ∑ X hi2 + R 2 ∑ Yhi2
2R∑ X hiYhi ⎞⎟⎟
L L Nh N Nh h
N2∑ h h
h nh h nh ( N h
1) ⎝ i i i ⎠
L
Wh2 (1
fh ) $2 $ 2 $2 L
Wh2 (1
fh ) ⎛ nh 2 2 nh 2 nh
⎞
V( XRC ) = N ∑
$ $ 2
nh
(
Sxh + R Syh
2R Sxyh = N ∑
$ $ 2
) ⎜∑Xhi + R ∑Yhi
2R∑XhiYhi ⎟
h h nh (nh
1) ⎝ i i i ⎠
X
B ( X$ RC ) = E ( X$ RC )
X = E ( R$ C Y )
Y = E ( R$ C )Y
RY = ( E ( R$ C )
R ) Y = B ( R$ C )Y
Y
Se observa que para el sesgo total no se acumulan los sesgos en cada estrato. Para
muestreo sin reposición la expresión del sesgo será:
L L
S2 S
∑ Wh2 (1
f h ) nYhh ∑ Wh2 (1
f h ) nXYhh
h h
67
4 48 6 447 448 2
$ $ R V ( y st )
Cov ( x st , y st ) L W (1
f )
h h
B ( X RC ) = B ( RC )Y =
Y = N 2
∑ 2
( RS Yh
S XYh )
Y{2 h nh Y
Y2 / N2
L
Wh2 (1
f h ) $ $ 2
que puede estimarse como: B ( X RC ) = N ∑
$ $ 2
n Y
( RSYh
S$ XYh )
h h
El valor de la varianza del estimador combinado del total para muestreo con reposición será:
www.FreeLibros.org
Muestreo por métodos indirectos. Razón, regresión y diferencia 243
1
V ( Xˆ RC ) = V ( Rˆ C
Y ) =Y 2
V ( Rˆ C ) = Y 2
2 (V ( x st ) + R 2 V ( y st )
2 R Cov ( x st , y st ) )
{ Y 123 123 142
4 43 4
2 2 L 2 L 2 L
N Y
∑W n ∑W n h
2
∑W n
Xh
h
2 Yh
h
2 XYh
h h h h h h
2 2
W
( xh2 + R 2 yh2
2 R xyh ) = N 2 ∑ W ⎛⎜⎜ ∑ X hi2 + R 2 ∑ Yhi2
2 R ∑ X hi Yhi ⎞⎟⎟
L L N N N h h h
N2∑ h h
h nh h nh N h ⎝ i i i ⎠
L
Wh2 $ 2 $ 2 $ 2 L
Wh2 ⎛ nh 2 $ 2 nh 2 nh
⎞
V ( X RC ) = N ∑
$ $ 2
(
Sxh + R S yh
2 RS xyh = N ∑
$ $ 2
) ⎜ ∑ X hi + R ∑Yhi
2 R$ ∑ X hiYhi ⎟
h nh h nh (nh
1) ⎝ i i i ⎠
6
h
78 647 h h
48 h
2
RV ( y )
Cov ( x st , y st )
L W
B( Xˆ RC ) = B( Rˆ C )Y = st
Y = N 2
∑ h
( R Yh2
XYh )
Y{2 h n Y
h
Y2 / N2
2
Wh $ $ 2 $ L
que puede estimarse como: B$ ( X$ RC ) = N 2 ∑ ( RSYh
S XYh )
h nhY
h
2
f )
n ∑ W
h (1
Xh
f )
n
h
2
h
Yh
h
2
h
XYh
h h h h h h
2 2
W (1
f h ) 2
(S xh + R 2 S yh2
2R S xyh ) = ∑ W (1
f h ) ⎛⎜⎜ ∑ X hi2 + R 2 ∑ Yhi2
2R∑ X hi Yhi ⎞⎟⎟
L L Nh Nh Nh
∑ h
nh
h
h h n h ( N h
1) ⎝ i i i ⎠
(
W 2 (1
fh ) ˆ 2 ˆ 2 ˆ 2
)
W 2 (1
fh ) ⎛ n 2 ⎞
L L n n
Vˆ ( Xˆ RC ) = ∑ h
h h h
Sxh + R S yh
2Rˆ Sˆxyh = ∑ h ⎜⎜ ∑ X hi + R2 ∑Yhi2
2R∑ X hiYhi ⎟⎟
h nh h nh (nh
1) ⎝ i i i ⎠
www.FreeLibros.org
244 Muestreo estadístico. Conceptos y problemas resueltos
2
ˆ R V ( y )
Cov ( x , y st )
L W (1
f )
B ( X RC ) = B ( Rˆ C )Y = st
2
st
Y = ∑ h h
( RS Yh2
S XYh )
Y h nhY
$
L
Wh2 (1
f h ) $ $ 2
que puede estimarse como: B ( X RC ) = ∑
$
n Y
( RSYh
S$ XYh )
h h
h h h h h h
2 2
W
( xh2 + R 2 yh2
2 R xyh ) = ∑ W ⎛ ⎞
L L Nh Nh Nh
∑ h h
⎜⎜ ∑ X hi2 + R 2 ∑ Yhi2
2 R ∑ X hi Yhi ⎟⎟
h nh h nh N h ⎝ i i i ⎠
La estimación de la varianza para muestreo con reposición será:
W2
( )
Wh2 ⎛n ⎞
L L n n
Vˆ ( Xˆ RC ) = ∑ h Sˆ xh2 + Rˆ 2 Sˆ yh2
2 Rˆ Sˆ xyh = ∑
h h h
⎜⎜ ∑ X hi2 + Rˆ 2 ∑ Yhi2
2 Rˆ ∑ X hi Yhi ⎟⎟
h nh h n h (n h
1) ⎝ i i i ⎠
Para muestreo con reposición la expresión del sesgo será:
L 2 L
Yh XYh
∑W n h∑W n
2
h
2
6
h
78 647 4
h h
484 h
2
ˆ RV ( y )
Cov ( x , y st )
L W
B( X RC ) = B( Rˆ C )Y = st st
Y = ∑ h
( R Yh2
XYh )
Y2 h n Y
h
2
$ Wh $ $ 2 $ L
que puede estimarse como: B$ ( X RC ) = ∑ ( RSYh
S XYh )
h nhY
El método de estimación estratificada por razón combinada presenta como principal
ventaja la no acumulación de los sesgos de las estimaciones en los estratos para el cálculo
del sesgo total, lo que reduce el sesgo del estimador final respecto de la estimación separada.
El principal inconveniente de este método es la imposibilidad de obtención de estimaciones
separadas por estratos, lo que no permite disponer de información de la población al
subnivel de estratos. En la práctica suele utilizarse este método cuando los estratos son de tamaño
pequeño (habrá muchos estratos en la población, lo que implica demasiado sesgo por estimación
separada). En general suele utilizarse siempre que la estimación separada presenta demasiado
sesgo. También suele utilizarse cuando los Rh tienden a ser constantes.
www.FreeLibros.org
Muestreo por métodos indirectos. Razón, regresión y diferencia 245
E ( xrgc ) = E ( xst ) + b( Y
E ( yst )) = X + b(Y
Y ) = X
L
Para la estimación separada del total X$ rgst = ∑N h x rgh se tiene:
h
L L
1
f h 2 L
1
f h 2
( ) h
( )
V X$ rgst = ∑ N h2V xrgh = ∑ N h2
h nh
( S Xh + ! h S Xh
2
2 ! h S XYh ) = ∑ N h2
h nh xh
S (1
2 xyh )
www.FreeLibros.org
246 Muestreo estadístico. Conceptos y problemas resueltos
Estimador combinado
( )
V xrgc = V ( xst ) + bo2V ( Y
yst )
2bo cov( xst , Y
yst ) =
L
Wh2 ( 1
f h )
V ( xst ) + bo2V ( yst )
2bo cov( xst , yst ) = ∑
h nh
(
S xh2 + bo2 S yh
2
2bo S xyh )
www.FreeLibros.org
Muestreo por métodos indirectos. Razón, regresión y diferencia 247
Para hallar el valor de bo que minimiza esta expresión, igualamos a cero su derivada
respecto de bo y tenemos:
Wh2 ( 1
f h )
L
L
Wh2 ( 1
f h ) 2 L
Wh2 ( 1
f h )
∑ n
S xyh
2b0 ∑
S yh
2 ∑
h h
S xyh = 0 ⇒ bo =
nh nh Wh2 ( 1
f h ) 2
L
∑ n
S yh
h h
h h
Wh2 ( 1
f h ) 2
L
S xyh ∑ n
S yh ! h
h h
Pero como ! h = S xyh = ! h S yh
2
, se tiene bo =
Wh2 ( 1
f h ) 2
2
S yh L
∑ n
S yh
h h
El valor bo que minimiza la varianza del estimador combinado es entonces una medida
ponderada de los coeficientes de regresión !h, siendo las ponderaciones dadas por
L
W (1
f h ) 2
h
2 ∑ ! h h
h
h =
S yh , de tal forma que se puede escribir bo = L = ! c , pudiendo
nh
∑ h
h
expresarse la varianza mínima como:
l
1
fh
( )
Vmin xrgc = ∑Wh2
h nh
(
S xh2 + ! c2 S yh
2
2 ! c S xyh )
que puede estimarse como:
1
fh $2
( )
l
( )
V$min xrgc = ∑Wh2
h nh
S xh + !$c2 S$yh
2
2 !$c S$xyh
donde:
L
∑$ !$ h h Wh2 ( 1
f h ) 2 S$xyh
!$c = h
L , $h =
S$ yh y !$h = $ 2 .
nh S yh
∑$ h
h
( )
Xˆ rgc = Xˆ st + bo Y
Yˆst = Nx st + bo (NY
Ny st ) = Nx rgc
L Wh2 ( 1
f h )
( ) ( )
V X$ rgc = V Nx rgc = N 2V x rgc = N 2 ∑ ( ) h nh
(
S xh2 + bo2 S yh
2
2bo S xyh )
www.FreeLibros.org
248 Muestreo estadístico. Conceptos y problemas resueltos
1
fh l
( )
Vmin X$ rgc = N 2 ∑Wh2
h nh
S xh2 + ! c2 S yh
2
2 ! c S xyh ( )
que puede estimarse como:
1
fh $2
( )
l
( )
V$min X$ rgc = N 2 ∑Wh2
h nh
S xh + !$c2 S$ yh
2
2 !$c S$ xyh
W2 ∑ ! h h
h = h
yh2 , de tal forma que se puede escribir bo = h
L = ! c , pudiendo expresarse la
nh
∑ h
h
varianza mínima como:
l
1
( )
Vmin x rgc = ∑Wh2
h nh
(
xh2 + ! c2 yh2
2 ! c xyh )
que puede estimarse como:
1 $2
( )
l
( )
V$min x rgc = ∑Wh2
h nh
S xh + !$c2 S$ yh
2
2 !$c S$ xyh
donde:
L
∑$ !$ h h
Wh2 $ 2 S$xyh
!$c = h
L , $h =
S yh y !$h = $ 2 .
nh S yh
∑$ h
h
( ) ( )
V X$ rgc = V Nx rgc = N 2V x rgc = N 2 ∑
h nh
( )
xh2 + bo2 yh2
2bo xyh ( )
pudiendo expresarse la varianza mínima como:
l
1
( )
Vmin X$ rgc = N 2 ∑Wh2
h nh
xh2 + ! c2 yh2
2 ! c xyh( )
que puede estimarse como:
1 $2
( )
l
$ $ ( 2
)
Vmin X rgc = N ∑Wh2
h nh
S xh + !$c2 S$ yh
2
2 !$c S$ xyh
www.FreeLibros.org
Muestreo por métodos indirectos. Razón, regresión y diferencia 249
(1
f h ) 2
[ ]
L
Vmin ( Xˆ rg ,c )
Vmin ( Xˆ rg , s ) = ∑ Wh2 S Xh + ! c2 S Yh2
2 ! c S XYh
h =1 nh
2 (1
f h )
[ ] [ ( ]
L L
∑ Wh
nh
2 2 2
)
S Xh + ! h S Yh
2 ! h S XYh = ∑ u h ! c2
! h2
2u h (! c
! h )! h
h =1 h =1
L
= ∑ u h (! c
! h ) 0
2
h =1
www.FreeLibros.org
250 Muestreo estadístico. Conceptos y problemas resueltos
PROBLEMAS RESUELTOS
6.1. En un estudio para estimar el contenido total de azúcar de una carga de naranjas, se pesó una
muestra de 10 naranjas, y se extrajo su jugo para pesar el contenido de azúcar. Se obtuvieron los
siguientes resultados:
1 0,021 0,40
2 0,030 0,48
3 0,025 0,43
4 0,022 0,42
5 0,033 0,50
6 0,027 0,46
7 0,019 0,39
8 0,021 0,41
9 0,023 0,42
10 0,025 0,44
1) Sabiendo que el peso de todas las naranjas es 1800, estimar el contenido total de azúcar de las
naranjas y su error de muestreo.
2) Estimar dichas varianzas y comparar la precisión de este tipo de muestreo con la del muestreo
aleatorio simple. Seleccionar la muestra más precisa.
www.FreeLibros.org
Muestreo por métodos indirectos. Razón, regresión y diferencia 251
Figura 6-3
Figura 6-4
6.2. Consideramos una población de 500 individuos en la que está definida la característica
bidimensional (Xi,Yi) que mide las ganancias mensuales en miles de euros de los varones (X)
y las mujeres (Y) con título universitario superior. Una muestra aleatoria simple de tamaño
80 proporciona los siguientes datos:
80 80 80 80 80
∑ X i = 420
i =1
∑ Yi = 190
i =1
∑ X i2 = 2284
i =1
∑ Yi 2 = 512
i =1
∑X Y
i =1
i i = 1045
, , , y
2) Se trata de estimar con y sin reposición la media y el total de las ganancias mensuales
femeninas en la población utilizando la información adicional de la variable ganancia
mensual masculina mediante un método de estimación indirecta. ¿Qué método indirecto
sería el más adecuado? ¿Por qué? Realizar las estimaciones de las ganancias femeninas
media y total mensuales mediante los métodos indirectos conocidos ordenándolos en
precisión y sabiendo que la ganancia total masculina es 10000.
1 ⎛⎜ 80 2 1 ⎛ 80 ⎞ ⎞⎟ 1 ⎛⎜ 80 2 1 ⎛ 80 ⎞ ⎞⎟
2 2
Sˆ x2 = ∑ i n ⎜⎝ ∑
X
X i ⎟ = 1 , S ˆ 2
= ∑ i n ⎜⎝ ∑
Y
Yi ⎟ = 0,768
n
1 ⎜⎝ i =1 ⎠ ⎟⎠ n
1 ⎜⎝ i =1 ⎠ ⎟⎠
y
i =1 i =1
1 ⎛ 80 1 ⎛ 80 ⎞⎛ 80 ⎞ ⎞
Sˆ xy = ⎜⎜ ∑ X i Yi
⎜ ∑ X i ⎟⎜ ∑ Yi ⎟ ⎟⎟ = 0,6012
n
1 ⎝ i =1 n ⎝ i =1 ⎠⎝ i =1 ⎠ ⎠
1 80 1 80
x= ∑ X i = 5,25
n i =1
y= ∑ Yi = 2,375
n i =1
www.FreeLibros.org
252 Muestreo estadístico. Conceptos y problemas resueltos
Bˆ ( Rˆ ) =
nx 2
(
(1
f ) ˆ ˆ 2 ˆ
RS x
S XY = )
(1
80 / 500)
80
5,25 2
(0,452
1
0,6012) =
0,0000568
ˆ (Rˆ ) =
nx 2
(
(1
f ) ˆ 2 ˆ 2 ˆ 2
)
S y + R Sx
2Rˆ SˆXY =
(1
80/ 500)
80
5,252
(0,768+ 0,4522
1
2
0,452
0,6012) = 0,0128
Para ver si el sesgo del estimador de la razón es influyente hallamos el valor del sesgo
Bˆ ( Rˆ ) 0,0000568
relativo = = 0,004 < 0,1 , por lo que el sesgo es despreciable.
ˆ ( Rˆ ) 0,0128
Sˆ xy
y
y = ( x
x ) ⇒ y = 0,6012 x
0,78
Sˆ 2 x
www.FreeLibros.org
Muestreo por métodos indirectos. Razón, regresión y diferencia 253
y 10000 y
Yˆ = Rˆ X = X = 0,452
= 9,04 Yˆ = Rˆ X = X = 0,452
10000 = 4520
x 500 x
80
(1
)
Vˆ (Yˆ ) =
n
(
(1
f ) ˆ 2 ˆ 2 ˆ 2
S y + R S x
2Rˆ Sˆ XY = ) ( )
500 0,768 + 0,4522
1
2
0,452
0,6012 = 0,0073
80
Vˆ (Yˆ ) = N 2
n
(
(1
f ) ˆ 2 ˆ 2 ˆ 2
)
S y + R S x
2 Rˆ Sˆ XY = 500 2
0,0073 = 1825
Sˆ xy 0,6012 ⎛ 1000 ⎞
Yˆrg = y + b( X
x ) = y + 2 ( X
x ) = 2,375 + ⎜
5,25 ⎟ = 11,2427
ˆ
Sx 1 ⎝ 500 ⎠
Yˆ = NYˆ = 500
11,2427 = 5621,35
rg rg
80
1
(1
f ) ˆ 2
Vˆmin (Yˆrg ) =
n
S y 1
ˆ 2 = ( ) 500 0,768(1
0,7 2 ) = 0,004
80
Vˆ (Yˆ ) = N Vˆ (Yˆ ) = 500 2
0,004 = 1000
min rg
2
min rg
10000
Yˆ = Dˆ + X = y
x + X = 2,375
5,25 + = 17,125
500
Yˆ = Dˆ + X = N ( y
x ) + NX = NYˆ = 500
17,125 = 8562,5
T
V (Yˆ ) = V ( Dˆ + X ) = V ( Dˆ ) =
(1
f ) ˆ 2 ˆ 2 ˆ
n
(
S y + S x
S XY = 0,009 )
V (Yˆ ) = V ( Dˆ T + X ) = V ( Dˆ T ) = N 2V ( Dˆ ) = 500 2
0,009 = 2250
80
1
(1
f ) ˆ 2
Vˆ (Yˆas ) = Sy = 500 0,768 = 0,008
n 80
Vˆ (Yˆ ) = N 2Vˆ (Yˆ ) = 500 2
0,008 = 2000
as as
www.FreeLibros.org
254 Muestreo estadístico. Conceptos y problemas resueltos
1 Cˆ x
El estimador basado en la razón mejora al aleatorio simple si se cumple ˆ >
2 Cˆ y
1 Cˆ x Sˆ x ˆ 1
0,7 = ˆ > = R= 0,452 = 0,5157
2 Cˆ y Sˆ y 0,678
Por lo tanto, el muestreo basado en la razón es más preciso que el aleatorio simple. Ello
implica que el muestreo basado en la regresión también es más preciso que el aleatorio simple.
Sin embargo, ya hemos visto que el muestreo por diferencia es ligeramente menos preciso que el
aleatorio simple.
La ganancia en precisión del estimador de regresión sobre el aleatorio simple es G =
(0,008/0,004
1)100 = 100%.
La ganancia en precisión del estimador de razón sobre el aleatorio simple es G =
(0,008/0,0073
1)100 = 9,5%.
La ganancia en precisión del estimador aleatorio simple sobre el de diferencia es G =
(0,009/0,008
1)100 = 12,5%.
Muestreo con reposición
Las estimaciones de la media y total valen lo mismo que en muestreo sin reposición.
Calculamos las estimaciones de las varianzas de los estimadores para estimación indirecta
por razón.
1
( )
Vˆ (Yˆ ) = Sˆ y2 + Rˆ 2 Sˆx2
2 Rˆ Sˆ XY = 0,00869
n
1
( )
Vˆ (Yˆ ) = N 2 Sˆ y2 + Rˆ 2 Sˆ x2
2 Rˆ Sˆ XY = 2172,5
n
1 1
( )
Vˆmin (Yˆrg ) = Sˆ y2 1
ˆ 2 = 0,768(1
0,7 2 ) = 0,00476
n 80
ˆ
Vˆ (Yˆ ) = N Vˆ (Y ) = 500 2
0,00476 = 11900
2
min rg min rg
1
( )
V (Yˆ ) = V ( Dˆ + X ) = V ( Dˆ ) = Sˆ y2 + Sˆ x2
Sˆ XY = 0,0107
n
V (Yˆ ) = V ( Dˆ T + X ) = V ( Dˆ T ) = N 2V ( Dˆ ) = 500 2
0,0107 = 2675
1 1
Vˆ (Yˆas ) = Sˆ y2 = 0,768 = 0,0096
n 80
ˆ
Vˆ (Yˆ ) = N Vˆ (Y ) = 500 2
0,0096 = 2400
2
as as
www.FreeLibros.org
Muestreo por métodos indirectos. Razón, regresión y diferencia 255
6.3. De los N = 750 trabajadores de una fábrica se conoce que el número medio de días anuales de
ausencia del trabajo sin justificar para las mujeres (variable X) es 10 y para los hombres
(variable Y) es 8. Se sabe que el error cometido al cuantificar la media de la variable X es 2500
y que la razón de la covarianza de X e Y a la varianza de X es 0,6. Determinar a partir de qué
tamaño muestral el sesgo del estimador de la razón Y/X es despreciable utilizando muestreo sin
y con reposición. ¿Qué método de estimación indirecta sería el más adecuado a utilizar sobre
muestras de esta población?
Determinar a partir de qué tamaño muestral el sesgo del estimador de la razón Y/X es
despreciable utilizando muestreo sin y con reposición. ¿Qué método de estimación indirecta
sería el más adecuado a utilizar sobre muestras de esta población?
xy
X = 10 , Y = 8 , x2 = 2500 y = 0,6
x2
B( Rˆ )
De la condición de que el sesgo relativo sea menor que un décimo se
( Rˆ )
750
750
100
2500
N
100
S x2 749
obtiene que n = = 577 .
NX 2 + 100S x2 2 750
750
10 + 100 2500
749
www.FreeLibros.org
256 Muestreo estadístico. Conceptos y problemas resueltos
En caso de muestreo con reposición la misma condición de sesgo relativo menor que un
2 2500
décimo nos lleva a n 100 x2 = 100 = 2500 , que sobrepasa el tamaño poblacional (con
X 100
los datos del problema nunca podría ser el sesgo despreciable).
Sˆ xy
La recta de regresión de Y sobre X tiene de ecuación y
y = (x
x)
Sˆ 2
x
⇒ y
8 = 0,6( x
10) ⇒ y = 0,6 x + 2 , lo que indica que la estimación por razón podría
ser adecuada al no ser demasiado grande la ordenada en el origen. La estimación por
regresión siempre es el método más adecuado. La pendiente de la recta no es unitaria, con lo
que no es muy apropiada la estimación por diferencia.
6.4. Para estudiar el grado medio de implantación de un determinado cultivo en una región se obtuvo
una muestra de 100 fincas para las que se midió la superficie dedicada al cultivo en estudio
(variable X) y su superficie total (variable Y), obteniéndose los datos que se presentan en la tabla
adjunta. Se pide:
1º) A la vista de la información, justificar si será adecuado el uso de los métodos indirectos de
muestreo respecto del muestreo aleatorio simple y estudiar qué métodos serán los más adecuados
expresándolos por orden de preferencia. Hallar los errores relativos de muestreo para los
diferentes métodos cuantificando sesgos y ganancias en precisión y razonando adecuadamente
los resultados. Contrastar también los resultados obtenidos considerando muestreo con reposición
y sin reposición.
2º) Dada la estructura de las fincas se consideró conveniente realizar una estratificación según la
variable superficie total de la fincas. Se consideraron dos estratos relativos a fincas de superficie
total superior a una hectárea y a fincas de superficie total menor o igual que una hectárea. Los
datos obtenidos también se presentan en la tabla adjunta. A la vista de esta información, justificar
si serán adecuados los métodos de estimación indirecta con estratificación y cuál de entre ellos
puede resultar mejor. Hallar los errores relativos de muestreo para los diferentes métodos de
estimación con muestreo estratificado cuantificando sesgos y ganancias en precisión y razonando
adecuadamente los resultados. Contrastar también los resultados obtenidos considerando
muestreo con reposición y sin reposición.
Superficie
Sˆ yh Sˆ xh
2 2
Estratos Nh ˆ xyh yh xh nh
de las fincas
1 0
1Ht 1580 2055 312 0.62 82.5 19.4 70
2 > 1Ht 430 7357 922 0.3 244.8 51.6 30
Población 7619 620 0.67
www.FreeLibros.org
Muestreo por métodos indirectos. Razón, regresión y diferencia 257
Sˆ xy
Tenemos como dato que ˆ = = 0,67 , por lo que la utilización de métodos
Sˆ Sˆ
x y
1 Cˆ y Sˆ y ˆ 1 7619 26,30
0,67 = ˆ > = R= = 0,393
2 Cˆ x Sˆ x 2 620 117,28
Por lo tanto, el muestreo basado en la razón es más preciso que el aleatorio simple. Ello
implica que el muestreo basado en la regresión también es más preciso que el aleatorio simple. Sin
embargo, ya hemos razonado que el muestreo por diferencia probablemente será menos preciso
que el aleatorio simple, y, por tanto, también será menos preciso que la estimación por razón y
regresión. Vamos a realizar los cálculos de varianzas.
www.FreeLibros.org
258 Muestreo estadístico. Conceptos y problemas resueltos
100
(1
)
Vˆ ( Xˆ ) =
n
(
(1
f ) ˆ 2 ˆ 2 ˆ 2
)
S x + R S y
2Rˆ Sˆ XY = ( )
2010 620 + 0,2242
7619
2
0,224
1453 = 3,335
100
100
1
(1
f ) ˆ 2
Vˆmin ( Xˆ rg ) = S x (1
ˆ 2 ) = 2010 620(1
0,67 2 ) = 3,24
n 100
Ahora estimamos el error del estimador de la media basado en la diferencia.
100
1
V ( Xˆ ) = V ( Dˆ + Y ) = V ( Dˆ ) =
n
(
(1
f ) ˆ 2 ˆ 2 ˆ
S x + S y
S XY = ) 2010 (620 + 7619
1453) = 64,4
100
2010
(1
f ) ˆ 2
Vˆ ( Xˆ as ) = Sx = 100 620 = 5,89
n 100
Se observa que la menor varianza la presenta el estimador basado en la regresión,
seguido del estimador basado en la razón, el estimador aleatorio simple y el estimador
basado en la diferencia. Estos resultados coinciden con los especificados al principio del
problema basados en la recta de regresión.
La ganancia en precisión del estimador de regresión sobre el aleatorio simple es G =
(5,89/3,24
1)100 = 81,8%.
La ganancia en precisión del estimador de razón sobre el aleatorio simple es G =
(5,89/3,335
1)100 = 76,6%.
La ganancia en precisión del estimador de regresión sobre el de razón es G =
(3,335/3,24
1)100 = 2,9%.
En cuanto a la estimación del sesgo de estimador de la razón tenemos:
100
1
Bˆ ( Rˆ ) =
ny 2
(
(1
f ) ˆ ˆ 2 ˆ
RS y
S XY ) = 2010 (0,224
7619
1453) = 0,02
100
117,28
1
(
Vˆ ( Xˆ ) = Sˆx2 + Rˆ 2 Sˆ y2
2 Rˆ Sˆ XY =
n
) 1
100
(
620 + 0,2242
7619
2
0,224
1453 = 3,51 )
Ahora estimamos el error del estimador de la media basado en regresión.
www.FreeLibros.org
Muestreo por métodos indirectos. Razón, regresión y diferencia 259
1 1
n
(
Vˆmin ( Xˆ rg ) = Sˆ x2 1
ˆ 2 =
100
)
620(1
0,67 2 ) = 3,41
Sˆ 2 620
Vˆ ( Xˆ as ) = x = = 6,2
n 100
Se observa que la menor varianza la presenta el estimador basado en la regresión,
seguido del estimador basado en la razón, el estimador aleatorio simple y el estimador
basado en la diferencia. Estos resultados son superiores a los correspondientes a muestreo
sin reposición debido a que el muestreo con reposición es menos preciso.
El sesgo del estimador de la razón se estima mediante:
1
(
Bˆ ( Rˆ ) = 2 Rˆ Sˆ y2
Sˆ XY =
ny
)
(1
600 / 1500)
600
5,58 2
(2
7
3,75) = 0,0005
h nh
(
W 2 (1
f h ) ˆ ˆ 2 ˆ
)
L
Bˆ ( Xˆ RC ) = ∑ h RS Yh
S XYh =0,83/ Y . Las operaciones a realizar son:
h nhY
( )
2
W L
Vˆ ( Xˆ RC ) = ∑ h Sˆ xh2 + Rˆ 2 Sˆ yh2
2 Rˆ Sˆ xyh = 3,1375 .
h nh
www.FreeLibros.org
260 Muestreo estadístico. Conceptos y problemas resueltos
( )
2
W L
Bˆ ( Xˆ RC ) = ∑ h Rˆ SˆYh2
Sˆ XYh =1.00456/ Y
h nhY
El valor del sesgo del estimador simple o separado sin reposición puede estimarse
W (1
f h ) ˆ ˆ 2 ˆ
( )
L
como: Bˆ ( Xˆ RS ) = ∑ h Rh S Yh
S XYh = 0,0029. Y 1 e Y 2 se estimarán mediante y 1
h nh Yh
e y 2 respectivamente. Los cálculos a realizar serían:
La varianza del estimador separado de la media para muestreo con reposición puede
( )
2
estimarse como Vˆ ( Xˆ RS ) = ∑ Wh Sˆxh2 + Rˆh2 Sˆ yh2
2Rˆh Sˆxyh = 3,09792.
L
h nh
Para muestreo con reposición la expresión del sesgo puede estimarse como:
W
( )
L
Bˆ ( Xˆ RS ) = ∑ h Rˆ h SˆYh2
Sˆ XYh = 0,0033.
h n hYh
1
fh $2
( )
l
( )
V$min xrgc = ∑Wh2
h nh
S xh + !$c2 S$yh
2
2 !$c S$xyh
donde:
L
∑ ˆ !ˆ h
h
Wh2 ( 1
f h ) 2 S$xyh
!ˆ c = h
0,16155 con $h =
S$ yh y !$h = $ 2 .
L
nh S yh
∑ ˆ
h
h
ˆ
Calculado ! c ya podemos hallar el valor de la varianza mínima mediante:
1
fh $2
( )
l
( )
V$min xrgc = ∑Wh2
h nh
S xh + !$c2 S$ yh
2
2 !$c S$xyh =1,46407.
www.FreeLibros.org
Muestreo por métodos indirectos. Razón, regresión y diferencia 261
1 $2
( )
l
$ ( )
Vmin x rgc = ∑Wh2
h nh
S xh + !$c2 S$ yh
2
2 !$c S$ xyh
donde:
L
∑ ˆ !ˆ h S$xyh
h
Wh2 $ 2
!ˆ c = h
= 0,18977 con $h =
S yh y !$h = $ 2 .
L
nh S yh
∑ ˆ
h
h
ˆ
Calculado ! c ya podemos hallar el valor de la varianza mínima mediante:
1 $2
( )
l
( )
V$min x rgc = ∑Wh2
h n h
S xh + !$c2 S$ yh
2
2 !$c S$ xyh =3,10321.
www.FreeLibros.org
262 Muestreo estadístico. Conceptos y problemas resueltos
6.5. En una determinada comunidad se intenta estudiar el cambio relativo en el valor catastral de
los bienes inmuebles en los dos últimos años. Se selecciona una muestra irrestricta aleatoria
de n = 20 inmuebles de entre los N = 1000 de la comunidad. De los registros fiscales se
obtiene el valor catastral para este año (X) o valor actual y el valor correspondiente de hace
dos años (Y) o valor calculado, de cada una de las n = 20 casas incluidas en la muestra. Se
desea estimar R, el cambio relativo en el valor catastral para los N = 1000 inmuebles de la
comunidad, usando la información contenida en la muestra.
La estimación del cambio relativo R en el valor catastral desde hace dos años se
obtiene mediante el estimador de razón siguiente:
n
Xˆ x ∑x i
164,7
Rˆ = = = i =1
= = 1,07
Yˆ y
n
154,5
∑y
i =1
i
() 1
f
( ) 1
f ⎡n ⎤
n n
Vˆ Rˆ = 2
Sˆ x2 + Rˆ 2 Sˆ y2
2 Rˆ Sˆ xy = 2
⎢∑ X i2 + Rˆ 2 ∑ Yi 2
2 Rˆ ∑ X i Yi ⎥
Y n Y n(n
1) ⎣ i i i ⎦
()
Vˆ Rˆ =
1
20 / 100
(154,5 / 20) 2 ( 20)(19)
[ ]
1373,71 + 1,07 2 (1210,55)
2(1,07)1288,95 = 0,0001 .
www.FreeLibros.org
Muestreo por métodos indirectos. Razón, regresión y diferencia 263
() ()
Por tanto, el error de muestreo es ˆ Rˆ = Vˆ Rˆ = 0,0001 = 0,01 .
() ()
Cˆ v Rˆ =
ˆ Rˆ 0,01
= = 0,0093 1%
Rˆ 1,07
Como el cambio relativo del valor catastral de los inmuebles se ha estimado en 1,07,
la subida en los dos últimos años se estima que es del 7%, con un error del 1%.
6.6. Una compañía desea estimar la cantidad promedio de dinero x pagado a los empleados por
gastos médicos durante los tres primeros meses del año en curso. Los resultados del
promedio por trimestres y están disponibles en los informes fiscales del año anterior. Una
muestra aleatoria de 100 registros de empleados se seleccionó de una población de 1000
empleados. Los resultados de la muestra se resumen a continuación:
n = 100, N = 1000
100
Total para el trimestre actual: ∑x
i =1
i = 1750
100
Total para el trimestre correspondiente del año anterior: ∑y
i =1
i = 1200
1000
Total poblacional para el trimestre correspondiente del año anterior ∑y
i =1
i = 12500
∑ xi2 = 31650
i =1
∑ yi2 = 15620
i =1
∑y x
i =1
i i = 22059,35 .
Usar los datos para estimar y y establecer un límite para el error de estimación.
Como tenemos información de una variable auxiliar Y, la utilizaremos para realizar una
estimación indirecta de X basada en la razón de X a Y. Tenemos:
100
x
∑x i
12500 1750 12500
Xˆ R = x R = Y = Rˆ Y = i =1
100
= = 18,23
y 1000 1200 1000
∑y
i =1
i
ˆ
Vˆ ( X R ) =
n
(
1
f ˆ 2 ˆ 2 ˆ 2
) ⎡ n
n( n
1) ⎣ i
n n
⎤
S x + R S y
2Rˆ Sˆ xy = 1
f ⎢∑ X i2 + Rˆ 2 ∑ Yi 2
2 Rˆ ∑ X i Yi ⎥
i i ⎦
www.FreeLibros.org
264 Muestreo estadístico. Conceptos y problemas resueltos
100
1
Hemos estimado que la cantidad promedio de dinero pagado a los empleados por
gastos médicos es 18,23 unidades monetarias y tenemos una confianza alta de que el error
cometido no supera las 0,42 unidades monetarias.
6.7. Se trata de realizar un estudio sobre las granjas de cerdos en una determinada comarca
analizando una muestra obtenida en 10 municipios. Para ello se estratifica la comarca en dos
zonas, una de secano y otra de regadío. En cada zona se mide el número de granjas existente
(variable X) y el número de cerdos (variable Y) por municipios muestrales. Se obtienen los
siguientes datos:
Se pide:
2) Hallar el tamaño muestral necesario para cometer un error del 10% al estimar el número
total de cerdos mediante muestreo estratificado con afijación proporcional al número de
granjas existentes en cada municipio y realizar la afijación.
Sean:
Xih= Número de granjas de cerdos existentes en el municipio muestral i-ésimo del estrato h-
ésimo.
Tenemos:
n1 4 n2 6
f1 = ⇒ 0,1 = ⇒ N 1 = 40 f2 = ⇒ 0,2 = ⇒ N 2 = 30
N1 N1 N2 N2
www.FreeLibros.org
Muestreo por métodos indirectos. Razón, regresión y diferencia 265
Vamos a estimar el número total de cerdos en las granjas y sus errores absoluto y
relativo de muestreo mediante muestreo estratificado como sigue:
2
10 + 25 + 22 + 11 55 + 90 + 61 + 77 + 66 + 51
Yˆ = ∑ N h yh =N 1y1 + N 2y2 = 40 + 30 = 2780
h =1 4 6
2 Sˆ yh
2
Sˆ y21 Sˆ y22 7.61 30,15
Vˆ (Yˆ ) = ∑ N h2 = 40 2
+ 30 2
= 40 2 + 30 2 = 7566,5
h =1 nh 4 6 4 6
ˆ (Yˆ ) 87 6357,67
Cˆ v(Yˆ ) = = = = 0,0312 (3,12%)
Yˆ 2780 2780
Yˆ
∑N h yh
2780 2780
Rˆ = = h =1
= = = 10,9
Xˆ 1+ 2 + 3 +1 5+8+6+7+6+5
2
255
∑N
h =1
h xh 40
4
+ 30
6
1 1
Vˆ (Rˆ ) = 2 (Sˆ y2 + Rˆ 2 Sˆ x2
2Rˆ Sˆ xy ) = (
795,51+ 112
6,26
2
11
70,2 = 0,004426 )
10(4,4)
2
nx
ˆ ( Rˆ ) 0,004426
Cˆ v( Rˆ ) = = = 0,006 (0,6%)
Rˆ 11
El muestral para afijación proporcional con reposición para un error relativo del 5%
al estimar el total de cabezas de ganado se halla despejando n en la expresión:
N h2 Sˆ yh
2 2
∑
h=1 n
N 2 253
N ∑ N h Sˆ yh
2
(71
7,61 + 182
30,15)
ˆ
ˆ (Y ) N
h
n h=1 n
0,1 = Cˆv(Yˆ ) = = = = ⇒ n 20
Yˆ 2780 2780 2780
www.FreeLibros.org
266 Muestreo estadístico. Conceptos y problemas resueltos
6.8. Se trata de estudiar el ganado ovino en una determinada comarca en la que existen seis
majadas. Para ello se estratifica la comarca en dos zonas, una de secano a la que corresponden
tres majadas y otra de regadío a la que corresponden las otras tres majadas. En cada majada se
mide el número de ovejas (variable X) y su superficie en unidades cuadradas (variable Y), y se
obtienen los siguientes datos:
Estrato 1 Estrato 2
X 1i Y1i X 2i Y2i
2 1 5 4
4 2 7 5
5 3 12 6
Estrato N h Wh S xh2 S yh
2
X h Yh S xyh f h nh
1 3 1 / 2 7 / 3 1 11 / 3 2 3/ 2 2/3 2
2 3 1 / 2 13 1 8 5 7/2 2/3 2
A continuación se calculan las varianzas del estimador de la media para los distintos
métodos de estimación directos e indirectos y estratificados y sin estratificar.
S x2
Aleatorio simple V1 ( x ) = (1
f ) = 0,98
n
2
S2
Estratific ado V2 ( x ) = ∑ Wh2 (1
f h ) xh = 0,63
h =1 nh
(1
f ) 2
Razón V3 ( x ) = (S x + R 2 S y2
2 RS xy ) = 0,151296
n
2
(1
f h ) 2
Razón separada V4 ( x ) = ∑ Wh2 (S xh + Rh2 S yh2
2 Rh S xyh ) = 0,189
h =1 n
(1
f h ) 2
(S xh + R 2 S yh2
2 RS xyh ) = 0,1759
2
Razón combinada V5 ( x ) = ∑ Wh2
h =1 n
2
S
Regresión V6 ( x ) = (1
f ) x (1
2 ) = 0,15119
n
www.FreeLibros.org
Muestreo por métodos indirectos. Razón, regresión y diferencia 267
2
(1
f h ) 2
Regresión separada V7 ( x ) = ∑ Wh2 (S xh + ! h2 S yh2
2! h S xyh ) = 0,0347
h =1 n
(1
f h ) 2
( )
2
Regresión combinada V8 ( x ) = ∑ Wh2 S xh + ! c2 S yh2
2 ! c S xyh = 0,118
h =1 n
(1
f ) 2
Diferencia V9 ( x ) = (S x + S y2
2S xy ) = 0,28833
n
Ello nos lleva a concluir que en este problema es importante la consideración de los
métodos indirectos de estimación.
1 S
0,9 = > R y = 0,45
2 Sx
lo que indica que el muestreo aleatorio simple va a ser bastante menos preciso que el método
de estimación por razón.
www.FreeLibros.org
268 Muestreo estadístico. Conceptos y problemas resueltos
6.9. Antes del ingreso en un centro educativo se hizo un examen de conocimientos matemáticos a
486 estudiantes. Se seleccionó una muestra irrestricta aleatoria de n = 10 estudiantes y se
observaron sus progresos en cálculo mediante una prueba de conocimientos cuyas
calificaciones constituyen la variable Y. Más adelante se observaron sus calificaciones
finales en cálculo mediante la variable X. Los datos se recogen en la tabla siguiente:
Estudiante x y
1 39 65
2 43 78
3 21 52
4 64 82
5 57 92
6 47 89
7 28 73
8 75 98
9 34 56
10 52 75
Se sabe que la calificación media de la prueba de conocimientos para los 486 estudiantes que
presentaron el examen es 52. Estimar la calificación final media en cálculo para esta
población, y establecer un límite para el error de estimación.
x rg = x + bo (Y
y )
Del enunciado del problema sabemos que Y = 52, y de los datos de la tabla se
deduce que x = 76 e y = 46. Para calcular el estimador por regresión sólo nos faltaría
estimar bo . Tenemos:
n n
Sˆ ∑ ( X i
x )(Yi
y ) ∑ X iYi
nxy 36,854
10(46)(76)
bˆ0 = !ˆ = XY2 = i
= i
= = 0,766
SˆY
n n
23,634
10(46) 2
∑ (Y
y) ∑Y
2 2
i i
ny 2
i i
x rg = x + bo (Y
y ) = 76 + 0,766(52
46) = 80
www.FreeLibros.org
Muestreo por métodos indirectos. Razón, regresión y diferencia 269
6.10. Los auditores frecuentemente están interesados en comparar el valor intervenido de los
artículos con el valor asentado en los libros. Generalmente, los valores en los libros son
conocidos para cada artículo en la población, y los valores intervenidos son obtenidos con
una muestra de esos artículos. Los valores en el libro entonces pueden utilizarse para obtener
una buena estimación del valor intervenido total o promedio para la población. Supóngase
que una población contiene 180 artículos inventariados con un valor establecido en el libro
de $13,320. Denotar por yi el valor en el libro y por xi el valor intervenido del i-ésimo
artículo. Una muestra irrestricta aleatoria de n = 10 artículos produce los resultados que se
muestran en la tabla adjunta. Estimar el valor intervenido medio por el método de diferencia
así como el error cometido. Realizar las mismas estimaciones pero usando un estimador de
regresión y un estimador de razón.
Xˆ = x
y + Y = Dˆ + Y = (72,1-71,7) + 74 = 74,4
Vˆ ( Xˆ ) =
1
f ˆ2 ˆ2
n
(
S x + S y
2 Sˆ xy = 0,59 )
La estimación por regresión se realiza de la siguiente forma:
x rg = x + bo (Y
y ) = 72,1 + 0,99(74
71,7) = 74,38
n n
∑ (X i
x )(Yi
y ) ∑X Y i i
nx y
105,881
10(71,7)(72,1)
bˆ0 = i
n
= i
n
= = 0,99
106,003
10(71,7) 2
∑ (Y
y) ∑Y
2 2
i i
ny 2
i i
www.FreeLibros.org
270 Muestreo estadístico. Conceptos y problemas resueltos
x 721
Xˆ R = x R = Y = Rˆ Y = 74 = 74,41
y 717
ˆ
Vˆ ( X R ) =
n
(
1
f ˆ 2 ˆ 2 ˆ 2
)
S x + R S y
2Rˆ Sˆ xy =
1
f ⎡ n 2 ˆ2 n 2
∑
n(n
1) ⎢⎣ i
X i + R ∑ Yi
2 ˆ ∑ X Y ⎤ = 0,66
R
n
i i⎥
i i ⎦
www.FreeLibros.org
Muestreo por métodos indirectos. Razón, regresión y diferencia 271
EJERCICIOS PROPUESTOS
6.1. Sobre una población de 500 unidades está definida un característica bidimensional (Xi,Yi).
Una muestra aleatoria simple de tamaño 80 proporciona los siguientes datos:
80 80 80 80 80
∑ X i = 420
i =1
∑ Yi = 190
i =1
∑ X i2 = 2284
i =1
∑ Yi 2 = 512
i =1
∑X Y
i =1
i i = 1045
, , , y
6.2. Una empresa está interesada en estimar el total de ganancias por las ventas de televisiones de
color al final de un período de tres meses (variable Y). Se tienen cifras del total de ganancias
de todas las sucursales de la empresa para el período de tres meses correspondiente del año
anterior (variable X). Se selecciona una muestra irrestricta aleatoria de 13 sucursales de entre
las 123 de la empresa. Usando un estimador de razón, estimar el total de ganancias por las
ventas de televisiones de color al final de un período de tres meses y establecer un límite
para el error de estimación. Usar los datos de la tabla adjunta, y considerar que la media
poblacional de la variable X vale 128,200.
Estimar también las ganancias medias para las oficinas de la empresa y establecer un límite
para el error de estimación.
www.FreeLibros.org
272 Muestreo estadístico. Conceptos y problemas resueltos
6.3. Una empresa industrial elabora un producto que es empaquetado, para propósitos de
mercado, en dos marcas comerciales. Estas dos marcas sirven como estratos para estimar el
volumen potencial de ventas para el trimestre siguiente. Una muestra irrestricta aleatoria de
clientes para cada marca es entrevistada para proporcionar una cantidad potencial Y de
ventas (en número de unidades) para el próximo trimestre. La cifra de las ventas verdaderas
del año pasado, para el mismo trimestre, está disponible para cada uno de los clientes
muestreados y se denota por X. Los datos se presentan en la tabla anexa. La muestra para la
marca I fue tomada de una lista de 120 clientes, para quienes el total de ventas en el mismo
trimestre del año pasado fue de 24500 unidades. La muestra de la marca II viene de 180
clientes, con un total trimestral de ventas para el año pasado de 21000 unidades. Hallar una
estimación de razón del total potencial de ventas para el próximo trimestre. Estime la
varianza de su estimador.
Marca I Marca II
Xi Yi Xi Yi
204 210 137 150
143 160 189 200
82 75 119 125
256 280 63 60
275 300 103 110
198 190 107 100
159 180
63 75
87 90
6.4. Se estima el ingreso nacional para 1981 mediante una muestra de n = 10 industrias que
declaran sus ingresos de 1981 antes que las 35 restantes. Se dispone de los datos del ingreso
de 1980 para las 45 industrias y los totales son 2174,2 (en miles de millones). Los datos se
presentan en la tabla adjunta.
a) Hallar un estimador de razón del ingreso total de 1981, y establecer un límite para el
error de estimación.
b) Hallar un estimador de regresión del ingreso total de 1981, y establecer un límite para el
error de estimación.
c) hallar un estimador de diferencia del ingreso total de 1981, y establecer un límite para el
error de estimación.
d) ¿Cuál de los tres métodos es el más apropiado en este caso? ¿Por qué?
www.FreeLibros.org
CAPÍTULO
MUESTREO UNIETÁPICO
DE CONGLOMERADOS
OBJETIVOS
1. Presentar el concepto de muestreo unietápico de conglomerados.
2. Analizar los estimadores y sus errores en muestreo unietápico de
conglomerados del mismo tamaño y con probabilidades iguales.
3. Analizar los errores y su estimación en función del coeficiente de
correlación intraconglomerados.
4. Analizar los estimadores y sus errores cuando se considera muestreo
unietápico de conglomerados con reposición.
5. Estudiar el muestreo unietápico de conglomerados de distinto tamaño y
probabilidades iguales con y sin reposición.
6. Estudiar el muestreo unietápico de conglomerados de distinto tamaño y
probabilidades desiguales con y sin reposición.
7. Estudiar el muestreo unietápico de conglomerados de distinto tamaño y
probabilidades proporcionales al tamaño con y sin reposición.
8. Estudiar el problema del tamaño de la muestra.
www.FreeLibros.org
274 Muestreo estadístico. Conceptos y problemas resueltos
ÍNDICE
1. Muestreo unietápico de conglomerados. Estimadores para conglomerados
del mismo tamaño y probabilidades iguales.
2. Varianza de los estimadores. Coeficiente de correlación intraconglomerados.
Estimación de varianzas.
3. Muestreo de conglomerados del mismo tamaño con reposición. Varianzas
de los estimadores y estimación de las varianzas.
4. Muestreo unietápico de conglomerados de distinto tamaño.
5. Muestreo unietápico de conglomerados de distinto tamaño con probabilidades
desiguales.
6. Tamaño de la muestra.
7. Problemas resueltos.
8. Ejercicios propuestos.
www.FreeLibros.org
Muestreo unietápico de conglomerados 275
Tanto en el muestreo aleatorio simple con reposición como sin reposición, así como en el
muestreo estratificado, sistemático y métodos indirectos de estimación, las unidades de
muestreo son las mismas que las unidades objeto de estudio (unidades simples o
elementales), pero en la práctica nos encontramos con situaciones más generales en las que
las unidades de muestreo comprenden dos o más unidades de estudio. En tal caso a las
unidades de muestreo se las denomina unidades primarias o compuestas.
Por otro lado, en el muestreo por conglomerados solemos tener menor precisión en
las estimaciones, debido a que, aunque lo ideal es que haya heterogeneidad dentro, siempre
va a existir un cierto grado de homogeneidad inevitable dentro de los conglomerados que
disminuirá la precisión. La eficiencia de este tipo de muestreo disminuye al aumentar el
tamaño de los conglomerados, cuando en realidad este tipo de muestreo es más útil en caso
de poblaciones muy numerosas en las que se puedan construir conglomerados grandes.
Vamos a suponer ahora probabilidades iguales y que todos los conglomerados son
del mismo tamaño M , en cuyo caso utilizaremos la siguiente notación:
www.FreeLibros.org
276 Muestreo estadístico. Conceptos y problemas resueltos
N N M
Consideraremos la característica poblacional general = ∑ Yi =∑∑ Yij que,
i i i
suponiendo muestreo sin reposición y probabilidades iguales, puede ser estimada mediante
M
Y n n ∑Y ij
N n M
el estimador lineal insesgado de Horwitz y Thompson ˆHT = ∑ i = ∑ i
= ∑∑ Y ij .
i i i n/ N n i i
Las expresiones iniciales para las varianzas de los estimadores sin reposición y probabilidades
iguales para conglomerados del mismo tamaño son:
N M
∑∑ (X
X)
2
2 i
S
V (x ) = (1
f )
i j
b
con S b2 =
nM N
1
( ) S2
V Xˆ = V (NM
x ) = N 2 M 2
V (x ) = N 2 M 2
(1
f )
b
nM
M N N
∑
N
1 i
( Pi
P )
2
∑ ( Pi
P)
2
V ( P$ ) = ( 1
f )
= (1
f ) i
nM n( N
1)
N
∑( P
P)
2
i
V ( A$ ) = V ( NM
P$ ) = N 2 M 2V ( P$ ) = N 2 M 2
(1
f ) i
n( N
1)
Las expresiones de las varianzas son similares a las obtenidas en el muestreo
aleatorio simple, sustituyendo S2 por S b2 y siendo nM el número total de unidades
elementales en la muestra.
www.FreeLibros.org
Muestreo unietápico de conglomerados 277
Pero las varianzas anteriores pueden expresarse en función del coeficiente de correlación
intraconglomerados, que se define como el coeficiente de correlación lineal entre todos los pares
de valores de la variable en estudio medidos sobre las unidades de los conglomerados y
extendido a todos los conglomerados, de tal forma que dicho coeficiente será una <<medida de la
homogeneidad>> en el interior de los conglomerados. Evidentemente interesará que el
coeficiente de homogeneidad intraconglomerados sea lo más pequeño posible, ya que en
muestreo por conglomerados lo ideal es la heterogeneidad dentro de los conglomerados. La
expresión del coeficiente de correlación intraconglomerados será:
1 N M
∑∑ ( X ij
X )( X iz
X )
⎛ M ⎞ i =1 j < z
N ⎜⎜ ⎟⎟
=
Cov( X ij , X iz )
=
[
E ( X ij
E ( X ij ))( X iz
E ( X iz )) ]= ⎝2 ⎠
( X ij ) ( X iz ) 2 2
2 2
1
(X ij
X ) y 2 = 1
N M N M
de donde al ser S = ∑∑
2
NM
1 i j l NM
∑∑ (X
i j l
ij
X ) se puede expresar
N
M
1 2
la varianza como 2 = S , expresión que puede sustituirse en el denominador del
N
M
coeficiente de correlación intraconglomerados:
1 N M
∑ ∑ ( X ij
X )( X iz
X ) N M
⎛ M ⎞ i =1 j < z
N ⎜⎜ ⎟⎟ 2∑∑ ( X ij
X )( X iz
X )
⎝ 2 ⎠ i =1 j < z
= =
N
M
1 2
S
(M
1)(NM
1)S 2
N
M
S$b2
S$ 2
Este coeficiente se puede estimar mediante $ =
( M
1) S$ 0
2
2
1 n M
( 1
) 1 n M
n M
∑ ∑ ( ( Xi
x ) )
2
S$ 2 = ∑ ∑ ∑ ∑
2
X ij
x , S$w2 = X
X , $
S 2
=
nM
1 i j l nM
n i j ij i b
n
1 i j
N
1 ˆ 2 N (M
1) ˆ 2 n
1 ˆ 2 n(M
1) ˆ 2
Sˆ 0 = Sˆ 2 =
2
Sb +
Sw
Sb +
Sw
NM
1 NM
1 nM
1 nM
1
Sˆ
[ ]
2
S2
V (x ) = (1
f )
nM
[ ]
1 + (M
1) ⇒ Vˆ (x ) = (1
f ) 0 1 + (M
1)ˆ
nM
S 2 ˆ
S 2
V (x ) = (1
f ) b ⇒ Vˆ (x ) = (1
f ) b
nM nM
V ( X ) = V ( NMx ) = N M V ( x ) ⇒ V ( Xˆ ) = N 2 M 2Vˆ ( x )
ˆ 2 2 ˆ
www.FreeLibros.org
278 Muestreo estadístico. Conceptos y problemas resueltos
El cálculo de los términos de las fórmulas anteriores los facilitan los cuadros del
análisis de la varianza para la población y para la muestra siguientes:
∑∑ (X )
N M
Entre conglomerados N
1 i
X
2
Sb2
i j
Dentro de conglomerados (
n M
1 ) ∑∑ (X
N M
ij
Xi ) 2
S w2
i j
∑∑ (X )
N M
Total NM
1 ij
X
2
i j
Sˆb2
n M
Entre conglomerados n
1 ∑ ∑ (X i
x )
2
Sb2
i j
Dentro de conglom. (
n M
1 ) n
∑∑ (X
M
ij
Xi )
2
Sˆ w2 S w2
i j
n M
nM
1 ∑∑ (X ) Ŝ 2
2
Total ij
x
i j
Para el caso de proporciones y totales de clase las fórmulas son las mismas, pero las
magnitudes se obtienen del cuadro del análisis de la varianza siguiente:
N
B ∑ MP (1
P ) i i
Dentro N ( M
1) B = ∑ MPi (1
Pi ) S = 2
w Sˆ w2 = i =1
i =1 N ( M
1) n( M
1)
C
Total NM
1 C = NMP (1
P) 2
S = Sˆ 2 0
NM
1
www.FreeLibros.org
Muestreo unietápico de conglomerados 279
El término M
1 expresa el aumento de la varianza debido a la selección de n
conglomerados de tamaño M en lugar de n M unidades elementales obtenidas por muestreo
aleatorio simple. Ahora bien, si el coeficiente de correlación intraconglomerados fuese
negativo, ello supondría mayor precisión en el muestreo por conglomerados que en el
aleatorio simple.
Pero en la práctica suele ocurrir que los elementos de cada conglomerado tienen
cierto parecido entre sí aunque se intente que sean lo más heterogéneos posible, con lo cual
la correlación es positiva y menor la precisión en el muestreo por conglomerados que en el
aleatorio simple. Este problema ya se había citado al principio del capítulo como una de las
desventajas del muestreo por conglomerados.
Precisamente la cantidad 1 + ( M
1)
por la que hay que multiplicar el tamaño de
una muestra por conglomerados nc para que coincida con el tamaño de muestra necesario en
muestreo aleatorio simple na para igual precisión en ambos tipos de muestreo, se denomina
efecto del diseño.
www.FreeLibros.org
280 Muestreo estadístico. Conceptos y problemas resueltos
1 N
∑i M Xi
X ( )
2
b2
()
Vx = N
nM
=
nM
1 N
1 N M
∑ M( X
X) ∑ ∑( X
X ) es la cuasivarianza entre conglomerados
2 2
=2
b i = i
N i N i j
b2
y la expresión de la varianza de la media V ( x ) = es similar a la obtenida en el muestreo
nM
aleatorio simple, sustituyendo 2 por b2 y siendo nM el número total de unidades
elementales en la muestra.
b2
V ( X$ ) = V ( NM
x ) = N 2 M 2
V ( x ) = N 2 M 2
nM
M N N
∑( P
P) ∑( P
P)
2 2
2
N i i
V ( P$ ) =
b i i
= =
nM nM nN
N
∑ ( P
P)
2
i
V ( A$ ) = V ( NM
P$ ) = N 2 M 2V ( P$ ) = N 2 M 2
i
nN
Sˆ b2
V (x ) =
nM
2
[
1 + (M
1) ⇒ V (x ) =
ˆ ˆ ' 2
]
nM
ˆ [
1 + (M
1) , V (x ) =
b2
nM
⇒ V (x ) =
ˆ
nM
]
ˆ 2 2 ˆ ˆ 2 2 ˆ
V ( X ) = V ( NM x ) = N M V ( x ) ⇒ V ( X ) = N M V ( x )
⎛ 2 S$b2 ⎞
Sb
⎜ S$1w +
$ 2
⎟
b2
2 $ ⎝ M⎠ S$b2
$ ' 2
= = =
(M
1) 2 ⎛ 2 S$b2 ⎞ ( M
1) $ ' 2
( M
1)⎜ S1w + ⎟
$
⎝ M⎠
Sˆb2 ˆ 2 1 N M 1 n M
1 n M
( ) (
( Xi
x ) )
2
ˆ ' 2 = Sˆ12,w + ∑ ∑ ∑ ∑
2
, S1,w = ∑∑ X ij
X i
2
, 2
= X
X , $
S 2
=
w ij i b
M nM i j NM i j n
1 i j
www.FreeLibros.org
Muestreo unietápico de conglomerados 281
NM
1 2 NM
1 NMP (1
P ) NMP (1
P )
2 = S = = = P (1
P )
NM NM NM
1 NM
1 1 1
∑∑ (X
Xi ) =
N M N N
∑ M (P
P ) ∑ (P
P )
2 2 2
w2 = ij i = i
NM i j NM i N i
1 M
∑ ∑ (X
X) = ∑ (X
X) .
N M N
2 2
b2 = i i
N i j N i
M n
ˆ b2 = Sˆ b2 = ∑ (Pi
P )2
n
1 i
1 1 1
∑∑ (X
Xi ) =
n M n n
ˆ w2 = Sˆ12,w = ∑ MP (1
P ) = n ∑ P (1
P )
2
ij i i i i
nM i j nM i =1 i =1
S$b2 1 n M n
$ '2 = S$12,w + = ∑ Pi (1
Pi ) +
M n i =1 ∑ (Pi
P )
2
n
1 i
Probabilidades iguales
∑ (X
n
∑ (X
X)
x)
N 2
2
1 n
1 X 1 n n
1
f i
1
f i
x= ∑ Xi = ∑ i = ∑X i , V (x ) =
i =1
, Vˆ ( x ) = i =1
n i =1 n i =1 M nM i =1 nM 2 N
1 nM 2 n
1
1 n
N n
Para el total se tiene el estimador X$ = NMx = NM
nM
∑ Xi = n ∑X i , que no
i =1 i =1
depende de M .
www.FreeLibros.org
282 Muestreo estadístico. Conceptos y problemas resueltos
∑ (X
n
∑(X
X )
x)
N 2
2
i
1
f i
1
f
V ( Xˆ ) = N 2
i =1
, Vˆ ( Xˆ ) = N 2 i =1
n N
1 n n
1
Muestreo con reposición
∑ (X
X)
N
∑ (X
n
x)
2 2
i i
1 1
V (x ) =
i =1
, Vˆ ( x ) = i =1
nM 2 N nM 2 n
1
∑ (X
n
∑ (X )
x)
N 2
2
i
X 2 i
N 2
N
V ( Xˆ ) =
i =1
, Vˆ ( Xˆ ) =
i =1
n N n n
1
En caso de estimación de totales y proporciones se utilizan las fórmulas ya vistas
N
Mi
anteriormente para conglomerados del mismo tamaño tomando M = ∑ , tanto para
i =1 M
muestreo sin reposición como para muestreo con reposición.
N
b) Los conglomerados varían mucho en tamaño (Mi no similares y M = ∑M i )
i =1
∑X i
Xˆ = x = Rˆ = i
n
∑Mi
i
∑ M (X
X) ∑ M (X
x)
N n
2 2 2
()
2 i i 2 i i
N N
V ( x ) = (1
f )
i
, Vˆ ( x ) = Vˆ Rˆ = (1
f )
i
nM 2 N
1 nM 2 n
1
Para el estimador del total tendremos:
∑ M i2 (X i
X ) M (X
x)
N n
(1
f ) ∑
2 2 2
N (1
f )
( ) ( )
2 2 i i
N
V Xˆ = i
, Vˆ Xˆ = i
n N
1 n n
1
Para el estimador de la proporción y el total de clase tenemos:
www.FreeLibros.org
Muestreo unietápico de conglomerados 283
∑ M (P
P )
N n
N2 ∑ Mi2 (Pi
P) N2 i
2
i
V ( Pˆ ) = (1
f )
i
, Vˆ ( Pˆ ) = (1
f )
i
nM 2 N
1 nM 2 n
1
M (P
P )
N n
M (P
P )
(1
f ) ∑ (1
f ) ∑
2 2 2 2
() ()
2 i i 2 i i
N N
V Aˆ = i
, Vˆ Aˆ = i
n N
1 n n
1
Muestreo con reposición
∑ M (X
X)
N
∑ M (X )
n
2 2 2
2 i i 2
x
N N i i
V (x ) = i
, Vˆ ( x ) i
nM 2 N nM 2 n
1
∑ M i2 (X i
X ) ∑ M (X
x)
N n
2 2 2
( ) ( )
2 2 i i
N N
V Xˆ = i
, Vˆ Xˆ = i
n N n n
1
Para el estimador de la proporción y el total de clase tenemos:
∑ M (P
P )
N n
N2 ∑ M i2 (Pi
P) N2 i
2
i
V ( Pˆ ) = i
⇒ Vˆ ( Pˆ ) = i
,
nM 2 N nM 2 n
1
∑ M (P
P )
N n
∑ M (P
P)
2 2 2 2
() ()
2 i i 2 i i
N N
V Aˆ = i
, Vˆ Aˆ = i
n N n n
1
En este caso se utilizan los estimadores generales de Horvitz Thompson y Hansen Hurweitz.
Muestreo sin reposición
N
Consideramos una población de N conglomerados de tamaños desiguales Mi con M = ∑M
i =1
i .
n
X2 n
X X j ⎛⎜ ij
i j ⎞
Vˆ ( Xˆ HT ) = ∑ 2i (1
i ) + ∑ i ⎟
i =1 i
⎜
i j i j ⎝ ij ⎟
⎠
www.FreeLibros.org
284 Muestreo estadístico. Conceptos y problemas resueltos
∑M
i =1
i . En este caso se utilizará el estimador general de Hansen y Hurwitz, que
Xˆ Xˆ 1 1
Xˆ HH = HH ⇒ V ( Xˆ HH ) = V ( HH ) = 2 V ( Xˆ HH ) ⇒ Vˆ ( Xˆ HH ) = 2 Vˆ ( Xˆ HH )
M M M M
n
X n
M X n
M X 1 n
Xˆ HT = ∑ i = ∑ i i = ∑ i i = M ∑ X i = Mx
i =1 i i M n i =1
i =1 i =1
n i
M
Xˆ Mx
Xˆ = HT = =x
M M
Se observa que las expresiones de los estimadores lineales insesgados para la media
y el total en el caso de probabilidades desiguales proporcionales a los tamaños de los
conglomerados coinciden con sus expresiones para probabilidades iguales.
Como siempre, los estimadores son los mismos que para el caso sin reposición. Las
varianzas y su estimación en el caso de probabilidades proporcionales a los tamaños con
reposición valdrán:
2 n
V ( Xˆ HH ) =
M N
∑ M i ( X i
X ) , Vˆ ( Xˆ ) = M
HH ∑
n(n
1) i =1
(
Xi
x
2
)
n i =1
1 n
∑( )
N
1
∑ ( )
M i X i
X , Vˆ(Xˆ HH ) =
2
ˆ 2
Xi
x
V ( X HH ) =
nM i =1 n(n
1) i=1
www.FreeLibros.org
Muestreo unietápico de conglomerados 285
TAMAÑO DE LA MUESTRA
⎧ ⎡ S2 ⎤
⎪MinV ( x ) = Min ⎢(1
f ) (1
( M
1) )⎥
⎨ ⎣ nM ⎦
⎪
⎩C = co n + c1 n + c 2
n
M
www.FreeLibros.org
286 Muestreo estadístico. Conceptos y problemas resueltos
PROBLEMAS RESUELTOS
7.1. Se trata de estudiar una población de 1000 cajas de tornillos todas ellas con 40 unidades cada
una. Para ello se extrae una muestra sin reposición de 20 cajas, dentro de la cual nueve cajas
no tienen tornillos defectuosos, ocho cajas tienen un tornillo defectuoso, y tres cajas tienen
dos tornillos defectuosos. Se pide:
Sˆ 2 20 0,0134
( ) 2
( )
Vˆ ( Aˆ ) = NM Vˆ ( Pˆ ) = NM (1
f ) b = 400002 (1
nM
)
1000 800
= 26305,26
Figura 7-1
www.FreeLibros.org
Muestreo unietápico de conglomerados 287
Figura 7-2
Vˆ ( Aˆ ) 26305,26
Cˆ v( Aˆ ) = = = 0,2317 (23,17%)
Aˆ 700
ˆ ( Aˆ ) 26305,26
Aˆ ± = 700 ± = [
921,9, 2321,9]
0,01
ˆ2
2 Sb 26305,26 26305,26
V ( A) = (NM ) V ( P) = (NM )
ˆ ˆ ˆ ˆ
2
= = = 26842,1
nM 1
f 20
1
1000
Vˆ ( Aˆ ) 26842,1
Cˆ v( Aˆ ) = = = 0,234 (23,4%)
Aˆ 700
www.FreeLibros.org
288 Muestreo estadístico. Conceptos y problemas resueltos
ˆ ( Aˆ ) 26842,1
Aˆ ± = 700 ± = [
938,35, 2338,35]
0,01
7.2. En una región hay 300 granjas de 50 animales diversos cada una. Se obtiene una muestra de n=5
granjas sin reposición y probabilidades iguales. Las proporciones de animales enfermos en cada
una de las granjas son 0,14, 0,20, 0,18, 0,12, 0,16. Se pide:
Estimar la proporción y el total de animales enfermos en la región y sus errores absoluto y
relativo de muestreo. Realizar las mismas estimaciones para muestreo con reposición.
Comentar los resultados.
M =50 P2=0,2
P5=0,16
SR P3=0,18
N=300
PI
M =50 M =50 P4=0,12 P1=0,14
n=5
SR significa sin reposición y PI probabilidades iguales.
Estamos en un caso de muestreo monoetápico de conglomerados del mismo tamaño.
Se tiene:
1 n 1
Pˆ = ∑ Pi = (0,14 + 0,20 + 0,18 + 0,12 + 0,16) = 0,16
n i =1 5
∑ ( Pi
Pˆ ) 2 =
2 2 2
nM n(n
1) i =1
5 ⎞ (0,14
0,16) 2 + (0,20
0,16) 2 + (0,18
0,16) 2 + (0,12
0,16) 2 + (0,16
0,16) 2
(300
50)2 ⎛⎜1
⎟ = 45000
⎝ 300 ⎠ 5(5
1)
1 45000
Vˆ ( Pˆ ) = Vˆ ( Aˆ ) = = 0,0002
2
N M 2
300 2 50 2
Vˆ ( Aˆ ) 45000
Cˆ v( Pˆ ) = Cˆ v( Aˆ ) = = = 0,088 (8,8%)
ˆA 2400
www.FreeLibros.org
Muestreo unietápico de conglomerados 289
Ahora estimaremos los errores absoluto y relativo de muestreo del total de clase y de
la proporción considerando muestreo con reposición. Tenemos:
2 S
ˆ2 1
Vˆ ( Aˆ ) = (NM ) Vˆ ( Pˆ ) = (NM ) b = (NM )
n
∑ ( Pi
Pˆ ) 2 = 45762,7
2 2
nM n(n
1) i =1
1 45762,7
Vˆ ( Pˆ ) = Vˆ ( Aˆ ) = = 0,000203389
2
N M 2
300 2 50 2
Vˆ ( Aˆ ) 45762,7
Cˆ v( Pˆ ) = Cˆ v( Aˆ ) = = = 0,089 (8,9%)
Aˆ 2400
7.3. En un proceso electoral se toma una muestra aleatoria de 10 urnas, el número de votantes y sus
papeletas favorables a un determinado partido son:
Número de votantes 4 2 6 1 5 3 3 8 1 4
Papeletas favorables 2 1 4 1 2 1 2 5 0 3
Suponiendo muestreo con reposición, estimar la proporción de votos favorables a ese partido
en toda la población y su error de muestreo.
Vamos a considerar las urnas como conglomerados, siendo las unidades elementales las
papeletas introducidos en ellas. Por tanto, los números de papeletas en las distintas urnas
serán los tamaños de los conglomerados Mi. Se considera la clase A de los votantes que
votan a favor del partido en cuestión. Por tanto, las papeletas favorables al partido en cada
urna serán los valores Ai.
Ya que los conglomerados son de distinto tamaño, para estimar la proporción del
total de votantes de la población que votan al partido utilizaremos el estimador de la razón
de A a M siguiente:
10
∑A i
21
Pˆ = i =1
10
= = 0,57
37
∑M
i =1
i
www.FreeLibros.org
290 Muestreo estadístico. Conceptos y problemas resueltos
1 ˆ2 ˆ 2 2 1 10 10 10
Vˆ (Pˆ ) = 2
(SA + R SM
2RˆSˆAM ) = 2
(∑ Ai2 + Rˆ 2 ∑Mi2
2Rˆ ∑ Ai Mi )
nM nM (n
1) i =1 i =1 i =1
1
= (65 + 0,572
181
2
0,57
106) = 0,00242
10
3,72
(10
1)
7.4. Se trata de estudiar la superficie de una región montañosa dedicada a la plantación de pinos.
La región, que tiene un total de 25000 km2, se divide en 100 zonas disjuntas lo más similares
entre sí de tal forma que cada zona contiene plantas de todas las clases que crecen en la región.
Se extrae una muestra de 10 zonas con reemplazamiento y con probabilidades proporcionales
a sus superficies. Las proporciones de superficie total dedicadas a la plantación de pinos en
cada una de las zonas de la muestra son:
0,05, 0,25, 0,10, 0,30, 0,15, 0,25, 0,35, 0,25, 0,10 y 0,20
Se pide un estimador insesgado de la superficie total de la región dedicada a la plantación de
pinos, su error relativo y un intervalo de confianza al nivel = 0,05.
n
X n
Xi M n
Xi 2500
Xˆ HH = ∑ i = ∑ = ∑M = (0,05 + 0,25 + L + 0,20) = 5000
i =1 nPi i =1 M n i =1 10
n i i
M
2 2 2
n ⎛ Xi ˆ ⎞ n ⎛ Xi ⎞ n ⎛ Xi ˆ ⎞
∑ ⎜
X HH ⎟
⎜ ⎟ ∑ ⎜
⎜
Xˆ HH ⎟⎟ ∑ ⎜M ⎟
⎜ M
X HH ⎟
i =1 ⎝ Pi ⎠ = i =1 ⎝ M i M ⎠ = i =1 ⎝ ⎠ =
Vˆ ( Xˆ HH ) = i
n(n
1) n(n
1) n(n
1)
(25000
0,05
5000)2 + (25000
0,25
5000)2 + L + (25000
0,20
5000)2
= 590278
10(10
1)
Vˆ ( Xˆ ) 590278
Cˆ v( Xˆ ) = = = 0,15 (15%)
Xˆ 5000
ˆ ( Xˆ ) 590278
Xˆ ± = 5000 ± = [1564, 8346]
0,05
www.FreeLibros.org
Muestreo unietápico de conglomerados 291
7.5. Una gran empresa tiene sus inventarios de equipo listados separadamente en 15 departamentos.
Se selecciona una muestra de tres departamentos con reposición y probabilidades
proporcionales al número de artículos de equipo en cada departamento. La tabla siguiente
presenta el número de artículos de equipo NA en cada departamento D.
D NA D NA D NA D NA D NA
1 12 4 40 7 18 10 22 13 16
2 9 5 35 8 10 11 22 14 33
3 27 6 15 9 31 12 19 15 6
1) Suponiendo que los tres departamentos seleccionados (que serán los de mayor probabilidad)
tienen cada uno 2 artículos impropiamente identificados, estimar el número total de artículos
impropiamente identificados en la empresa y su error relativo de muestreo.
2) Estimar por intervalos al 95% la media de artículos propiamente identificados, sabiendo que
los tres departamentos seleccionados tienen respectivamente 4, 5 y 6 artículos impropiamente
identificados.
Mi 40 35 33
Pi = ⇒ P1 = , P2 = y P3 =
M 315 315 315
Como el muestreo es con reposición, el estimador insesgado del total de la clase de los
artículos impropiamene clasificados vendrá dado por la fórmula de Hansen y Hurwitz.
ˆ ˆ 1 n M Pˆ 1 n M Pˆ M n
315 ⎛ 2 2 2⎞
Aˆ HH = MPˆHH = ∑ i i = ∑ i i = ∑ Pˆ = i ⎜ + + ⎟ 18
n i Pi n i Mi M n i 3 ⎝ 40 35 33 ⎠
()
Vˆ Aˆ = ⎝ i
n (n
1)
⎠ = ⎝ i
n (n
1)
⎠ = i
n (n
1)
=
315 2 ⎡⎛ 2 18 ⎞
2
⎛ 2 18 ⎞
2
⎛ 2 18 ⎞ ⎤
2
⎢⎜
⎟ +⎜
⎟ +⎜
⎟ ⎥ = 1,04209
3
2 ⎣⎢ ⎝ 40 315 ⎠ ⎝ 35 315 ⎠ ⎝ 33 315 ⎠ ⎦⎥
www.FreeLibros.org
292 Muestreo estadístico. Conceptos y problemas resueltos
Mi Mi
Pi Pi
1 n
M 1 n
1 n 1 ⎛ 36 30 27 ⎞
Pˆ = ∑ = ∑ M = ∑ Pˆi = ⎜ + + ⎟ = 0,858
n i Pi n i Mi M n i 3 ⎝ 40 35 33 ⎠
∑(P
Pˆ )
n 2
1 ⎡⎛ 36 ⎞⎤
2 2 2
() 1 ˆ ˆ
() ⎞ ⎛ 30 ⎞ ⎛ 27
i
ˆ ˆ
V P = 2V A = i
= ⎢⎜
0,858⎟ + ⎜
0,858⎟ + ⎜
0,858⎟ ⎥ = 0,000558
M n(n
1) 3
2 ⎣⎢⎝ 40 ⎠ ⎝ 35 ⎠ ⎝ 33 ⎠ ⎦⎥
7.6. Un fabricante de sierras quiere estimar el costo de reparación promedio mensual para las
sierras que ha vendido a ciertas industrias. El fabricante no puede obtener un costo de
reparación por sierra, pero puede obtener la cantidad total gastada en reparación y el número
de sierras que tiene cada industria. El fabricante decide seleccionar una muestra aleatoria
simple sin reposición de 20 industrias de entre las 96 a las que ofrece servicio. Los datos de gasto
total mensual en reparaciones por industria y el número de sierras por industria se presentan en
la tabla siguiente:
Costo total de Costo total de
N º de N º de
Indus. reparaciones Indus. reparaciones
sierras sierras
mensual mensual
1 3 50 11 8 140
2 7 110 12 6 130
3 11 230 13 3 70
4 9 140 14 2 50
5 2 60 15 1 10
6 12 280 16 4 60
7 14 240 17 12 280
8 3 45 18 6 150
9 5 60 19 5 110
10 9 230 20 8 120
www.FreeLibros.org
Muestreo unietápico de conglomerados 293
∑X
i =1
i
50 + 110 + L + 120 2565
x= n
= = = 19,73
3 + 7 +L+ 8 130
∑M
i =1
i
1
f ˆ2 ˆ 2 2 ˆSˆ ) = 1
f (∑ X 2 + Rˆ 2 ∑ M 2
2Rˆ ∑ X M ) =
10 10 10
Vˆ ( x ) = ( S x + R SM
2R xm i i i i
nM 2 nM 2 (n
1) i =1 i =1 i =1
20
1
N n
96
Xˆ = ∑X i = 2565 = 12312
n i =1 20
2
n
⎛ n ⎞
∑ (X
x) ⎜∑ X i ⎟
2
1
f i =1 i N 2 (1
f ) n ⎝ i =1 ⎠
Vˆ ( Xˆ ) = N 2 (∑ X i
2
=
)=
n n
1 n(n
1) i =1 n
20
96 2 (1
)
96 (460225
(2565) ) = 25200516 ⇒ ˆ ( Xˆ ) = 1587,467
2
20(20
1) 20
∑X i
2565
Xˆ = i =1
n
M =
710 = 14008,846
130
∑M
i =1
i
1
f ˆ2 ˆ 2 2 N 2 (1
f ) 10 2 ˆ 2 10 2 10
Vˆ ( Xˆ ) = N 2 (Sx + R SM
2RˆSˆxm ) = (∑ Xi + R ∑Mi
2Rˆ ∑ Xi Mi )
n n(n
1) i =1 i =1 i =1
⎛ 20 ⎞
962 ⎜1
⎟
= ⎝ 96 ⎠ (460225+ 19,732
1188
2
19,73
22285) = 308467,24⇒ ˆ ( Xˆ ) = 555,4
20
(20
1)
www.FreeLibros.org
294 Muestreo estadístico. Conceptos y problemas resueltos
n
1
7.7. Un sociólogo quiere estimar el ingreso promedio por persona en una ciudad pequeña en la que
no está disponible una lista de residentes. Par ello, se divide la ciudad en 415 bloques
rectangulares de residentes sobre un mapa y se realizan entrevistas en 25 bloques. Se pregunta
a los residentes de cada bloque por su ingreso total. Se obtienen los siguientes resultados:
1) Estimar el ingreso promedio por persona en la ciudad y establecer un límite para el error de
estimación.
2) Estimar el ingreso total de todos los residentes de la ciudad y establecer un límite para el
error de estimación sabiendo que hay 2500 residentes en la ciudad.
3) Estimar el ingreso total de todos los residentes de la ciudad y establecer un límite para el
error de estimación si se desconoce el número de residentes en la ciudad.
www.FreeLibros.org
Muestreo unietápico de conglomerados 295
∑X i
1329000
x= i =1
n
= = 8801
151
∑M
i =1
i
1
f ˆ2 ˆ2 2 1
f 10 10 10
Vˆ ( x ) = 2
( S x + R S M
2 Rˆ Sˆ xm ) = 2
(∑ X i2 + Rˆ 2 ∑ M i2
2 Rˆ ∑ X i M i ) = 653785
nM nM (n
1) i =1 i =1 i =1
Para estimar el ingreso total de todos los residentes de la ciudad hacemos lo siguiente:
Xˆ = Mx = 2500(8801) = 22002500
Xˆ ± 2 Vˆ ( Xˆ ) = 22002500 ± 4042848
N n
415
Xˆ = ∑X i = 1329000 = 22061400
n i =1 25
2
n
⎛ n ⎞
1
f ∑
(X i
x ) N 2 (1
f ) n2
⎜∑ X i ⎟
Vˆ ( Xˆ ) = N 2 (∑ X i
⎝ ⎠ )=
2 i =1
i =1
=
n n
1 n( n
1) i =1 n
25
415 2 (1
)
415 (82039000000
(1329000) ) ⇒ ˆ ( Xˆ ) = 1752960
2
25(25
1) 25
Xˆ ± 2 Vˆ ( Xˆ ) = 22061400 ± 3505920
www.FreeLibros.org
296 Muestreo estadístico. Conceptos y problemas resueltos
7.8. Un auditor desea muestrear los registros de ausencias por enfermedad de una gran empresa,
para estimar el número promedio de días de ausencia por enfermedad por empleado en el
cuatrimestre pasado. La empresa tiene ocho divisiones, con diferentes números de empleados
por división. Ya que el número de días de ausencia por enfermedad dentro de cada división
debe estar altamente correlacionado con el número de empleados, el auditor decide muestrear
n = 3 divisiones con probabilidad proporcional al número de empleados. Mostrar cómo
seleccionar la muestra si los respectivos números de empleados son 1200, 450, 2100, 860,
2840, 1910, 390, 3200.
Supóngase que el número total de días de ausencia por enfermedad registrados en las tres
divisiones muestreadas durante el cuatrimestre pasado son, respectivamente, X1 = 4320, X2 =
4160, X3 = 5790. Estimar el número promedio de días de ausencia por enfermedad requeridos
por persona, de toda la empresa, y establecer un límite para el error de estimación.
Comenzamos listando el número de empleados y el intervalo acumulado para cada división.
Mi
X HH
⎟
∑⎜ ⎜
X ⎟
HH ⎟ ∑ ⎜
i =1 MPi M
⎟
⎟ ⎜M ⎟
1 i =1 ⎝ Pi ⎠ ⎝ ⎠ ⎝ M ⎠
Vˆ ( Xˆ HH ) = 2 = = =
M n(n
1) n(n
1) n(n
1)
2
n ⎛ Xi ˆ ⎞ ⎛ 4220
2
⎞ ⎛ 4160
2
⎞ ⎛ 5790 ⎞
2
∑ ⎜
⎜
i =1 ⎝ M i
X HH
⎟
⎟ ⎜
2,02 ⎟ + ⎜
2 ,02 ⎟ + ⎜
2,02 ⎟
⎠ ⎝ 3100 ⎠ ⎝ 1910 ⎠ ⎝ 3200 ⎠
= = 0,0119
n(n
1) 3(3
1)
www.FreeLibros.org
Muestreo unietápico de conglomerados 297
EJERCICIOS PROPUESTOS
7.1. De una población formada por N conglomerados se selecciona una muestra de tamaño n con
un procedimiento mediante el cual se elige la primera unidad para la muestra con
probabilidades desiguales Pi, y los n
1 conglomerados restantes de la muestra se eligen con
probabilidades iguales, realizándose todas las extracciones sin reposición. Se pide una
estimación insesgada del total poblacional X y sus errores absoluto y relativo de muestreo
siendo N = 50, n = 4, Xi el total del conglomerado i-ésimo y conociendo los siguientes datos
de los conglomerados de la muestra:
7.2. En una población compuesta por 10 conglomerados de 100 elementos se toma una muestra
monoetápica de n conglomerados. Por experiencias anteriores se sabe que el modelo de
Smith S2b = S2 M t se ajusta bien en la proximidad de M =100 y se conoce el valor de S2b
=1173. Se pide:
Calcular el valor de t y S2w en el supuesto de que S2b/ S2 =13,8.
Formar la tabla poblacional del análisis de la varianza y hallar el coeficiente de correlación
intraconglomerados.
7.3. Una industria está considerando la revisión de su política de jubilación y quiere estimar la
proporción de empleados que apoyan la nueva política. La industria consiste de 87 plantas
separadas localizadas en todo Estados Unidos. Ya que los resultados deben ser obtenidos
rápidamente y con poco dinero, la industria decide usar muestreo por conglomerados, con
cada planta como un conglomerado. Se selecciona una muestra irrestricta aleatoria de 15
plantas y se obtienen las opiniones de los empleados en estas plantas a través de un
cuestionario. Los resultados se presentan en la tabla anexa. Estimar la proporción de
empleados en la industria que apoyan la nueva política de jubilación y establecer un límite
para el error de estimación.
www.FreeLibros.org
298 Muestreo estadístico. Conceptos y problemas resueltos
7.5. Se diseña una encuesta económica para estimar la cantidad promedio gastada en servicios
para el hogar en una ciudad. Ya que no se encuentra disponible una lista de hogares, se usa
muestreo por conglomerados, con divisiones (barrios) formando los conglomerados. Se
selecciona una muestra aleatoria de 20 barrios de la ciudad de un total de 60. Los
entrevistadores obtienen el costo de los servicios de cada hogar dentro de los barrios
seleccionados; los costos totales se muestran en la tala anexa. Estimar la cantidad promedio
de gastos en servicios por hogar en la ciudad y establecer un límite para el error de
estimación.
www.FreeLibros.org
CAPÍTULO
MUESTREO BIETÁPICO
DE CONGLOMERADOS
OBJETIVOS
1. Presentar el concepto de muestreo de conglomerados en dos etapas.
2. Analizar los estimadores y sus errores en muestreo bietápico de conglomerados
del mismo tamaño con probabilidades iguales.
3. Analizar los estimadores y sus errores en muestreo bietápico de conglomerados
del mismo tamaño con probabilidades iguales considerando todas las opciones
posibles de reposición o no en ambas etapas.
4. Analizar los estimadores y sus errores en muestreo bietápico de conglomerados
de distinto tamaño con probabilidades iguales.
5. Analizar los estimadores y sus errores en muestreo bietápico de
conglomerados de distinto tamaño con probabilidades iguales considerando
todas las opciones posibles de reposición o no en ambas etapas.
6. Estudiar el tamaño de la muestra en muestreo bietápico.
7. Analizar los estimadores y sus errores en muestreo bietápico de conglomerados
con probabilidades desiguales y con reposición en primera etapa.
8. Analizar los estimadores y sus errores en muestreo bietápico de conglomerados
con probabilidades desiguales y sin reposición en primera etapa.
9. Presentar el concepto de muestreo polietápico.
10. Analizar los estimadores y sus errores en muestreo polietápico.
11. Estudiar diseños polietápicos complejos.
12. Estudiar el muestreo bietápico con estratificación en primera etapa.
www.FreeLibros.org
300 Muestreo estadístico. Conceptos y problemas resueltos
ÍNDICE
1. Muestreo bietápico de conglomerados. Estimadores para probabilidades
iguales y conglomerados del mismo tamaño.
2. Varianzas y su estimación en muestreo bietápico con probabilidades iguales
y conglomerados del mismo tamaño.
3. Muestreo bietápico de conglomerados de distinto tamaño y probabilidades
iguales.
4. Tamaño de la muestra en muestreo bietápico.
5. Muestreo bietápico con probabilidades desiguales y con reposición en 1ª
etapa. Estimadores, varianzas y su estimación.
6. Muestreo bietápico con probabilidades desiguales y sin reposición en 1ª
etapa. Estimadores, varianzas y su estimación.
7. Muestreo polietápico.
8. Diseños complejos: Muestreo bietápico con estratificación en primera
etapa.
9. Problemas resueltos.
10. Ejercicios propuestos.
www.FreeLibros.org
Muestreo bietápico de conglomerados 301
n m
1 1 n
x=
nm
∑∑ X ij =
i j
∑ xi
n i
Para el total poblacional, proporción y total de clase, los estimadores insesgados son
los siguientes:
NM n
1 n NM n
Xˆ = N M x = ∑ xi , Pˆ = ∑ Pˆi , Aˆ = NMPˆ = ∑ Pˆ i
n i n i n i
www.FreeLibros.org
302 Muestreo estadístico. Conceptos y problemas resueltos
S b2 S2
V (x ) = (1
f 1 )
+ (1
f 2 )
w
nM nm
N
∑( X ) ∑ (X
Xi )
M
2
X
n m i
i ij
, S b2 = M
j
f1 = , f 2 = , S w2 =
N M N
1 (M
1)
N
N 2 MS b2 N 2 M 2 S w2
V ( Xˆ ) = N 2V (x ) = (1
f 1 )
+ (1
f 2 )
n nm
1 N 1 N
∑ M ( Pi
P ) ∑ MPi ( 1
Pi )
2
N
1 i N ( M
1) i =1
V ( P$ ) = ( 1
f 1 ) + (1
f 2 ) =
nM nm
N N
∑( P
P) ∑ MP (1
P )
2
i i i
(1
f )1
i
n( N
1)
+ (1
f 2 )
i =1
nm N ( M
1)
N N
∑( P
P) ∑ P (1
P )
2 2 2 3
N M i NM i i
V ( A$ ) = N 2 M 2V ( P$ ) = ( 1
f 1 ) i
+ (1
f 2 ) i =1
n( N
1) nm ( M
1)
∑ ∑( X )
2
“Dentro” n(m
1) ij
xi Sˆ w2 S w2
i j
n m
∑∑ (X )
2
Total nm
1 ij
x Ŝ 2 S2
i j
Las estimaciones de las varianzas para las dos etapas sin reposición son las siguientes:
Sˆ 2 Sˆ 2
Vˆ (x ) = (1
f 1 ) b + f 1 (1
f 2 ) w , y Vˆ ( Xˆ ) = N 2 M 2Vˆ ( x )
nm nm
n n
∑ (P
P ) ∑ PQ
2
()
i i i
Vˆ Pˆ = (1
f1 )
i
+ f1 (1
f 2 )
i
n(n
1) n (m
1)
2
www.FreeLibros.org
Muestreo bietápico de conglomerados 303
V$ ( X$ ) = N 2 M 2V$ ( x ) y V$ ( A$ ) = N 2 M 2V$ ( P$ )
S$b2
Si f1 es muy pequeña, se toma V ( x ) = ( 1
f 1 )
$ .
nm
b2 w2
V (x ) = +
nM nm
N 2 M b2 N 2 M 2 w2
$ ( )
V ( X ) = V NMx = +
n nm
1 N
1 N N N
∑ M ( P
P) ∑ MP (1
P ) ∑( P
P) ∑ P (1
P )
2 2
i i i i i i
N NM
V ( P$ ) =
i i =1 i i =1
+ = +
nM nm nN nm N
N N
NM 2 ∑( Pi
P ) NM 2 ∑ Pi ( 1
Pi )
2
V ( A$ ) = N 2 M 2V ( P$ ) =
i i =1
+
n nm
Las estimaciones de varianzas son:
Sˆ 2
Vˆ (x ) = b , y Vˆ ( Xˆ ) = N 2 M 2Vˆ ( x )
nm
m n
∑i (Pi
P ) ∑ (P
P ) ∑ (P
P )
n n
2 2 2
() ()
i i
n
1
Vˆ Pˆ = = i
y Vˆ Aˆ = N 2 M 2 i
nm n(n
1) n(n
1)
b2 S w2
V (x ) = + (1
f 2 )
nM nm
N 2 M b2 N 2 M 2 S w2
$ ( )
V ( X ) = V NMx = + (1
f 2 )
n nm
1 N 1 N N N
∑ M( Pi
P) ∑ MPi ( 1
Pi ) ∑( Pi
P) ∑ MPi ( 1
Pi )
2 2
N i N ( M
1) i =1
V ( P$) = + (1
f2 ) = i + (1
f2 ) i =1
nM nm nN nmN ( M
1)
N N
NM 2 ∑ ( Pi
P) NM 3 ∑ Pi ( 1
Pi )
2
V ( A$ ) = N 2 M 2V ( P$ ) = i
+ (1
f 2 ) i =1
n nm ( M
1)
www.FreeLibros.org
304 Muestreo estadístico. Conceptos y problemas resueltos
Las estimaciones de varianzas son iguales que para reposición en las dos etapas:
Sˆ 2
Vˆ (x ) = b , y Vˆ ( Xˆ ) = N 2 M 2Vˆ ( x )
nm
m n
(Pi
P )2 ∑ (P
P ) ∑ (P
P )
n n
∑
2 2
() ()
i i
n
1 i
Vˆ Pˆ = = i
y Vˆ Aˆ = N 2 M 2 i
nm n(n
1) n(n
1)
S b2 w2
V (x ) = (1
f1 ) +
nM nm
N 2 MSb2 N 2 M 2 w2
V ( X ) = V ( NMx ) = (1
f 1 )
$ +
n nm
1 N 1 N N N
∑ M (Pi
P) ∑ MPi (1
Pi ) ∑ (Pi
P)2 ∑Pi (1
Pi )
2
()
V Pˆ = (1
f1) N
1 i
nM
+ NM i =1
nm
= (1
f1) i
n(N
1)
+ i =1
nmN
N N
N 2 M 2 ∑ ( Pi
P) NM 2 ∑ Pi ( 1
Pi )
2
V ( A$ ) = N 2 M 2V ( P$ ) = (1
f 1 ) i
+ i =1
n( N
1) nm
Sˆ 2 Sˆ 2
Vˆ (x ) = (1
f 1 ) b + f 1 w , y Vˆ ( Xˆ ) = N 2 M 2Vˆ ( x )
nm nm
N N
∑(P
P) ∑P(1
P)
2
()
i i i
V Pˆ = (1
f1) i
+ i =1
y V ( Aˆ ) = N 2 M 2V ( Pˆ )
n(N
1) nmN
n
m n ∑ m P (1
P )
i i
Para proporciones y totales de clase: Sˆ b2 = ∑ (Pi
P )2 y Sˆ w2 = i =1
.
n
1 i n(m
1)
1 n N n
Para probabilidades iguales se tiene: Xˆ = N ∑ M i x i = ∑M i xi .
n i n i
Las varianzas y sus estimaciones para las dos etapas sin reposición son las siguientes:
www.FreeLibros.org
Muestreo bietápico de conglomerados 305
Mi
∑ (X
Xi )
N
∑ (X
X)
2 2
( )
ij
i
N N
V Xˆ = N 2
(1
f 1 ) ∑ M
(1
f )
(M
2 j
i
+
n(N
1)
1)mi
i 2i
n i i
mi
(X
xi )
n 2
⎛⎜ Xˆ
Xˆ ⎞⎟
∑ ) ∑
2
( ) M (1
f 2i
( )
2 2 ij
N 1
f ⎝ i i
⎠ N n
Vˆ Xˆ = ∑
j
1
i + i
n n
1 n i mi mi
1
⎛ ˆ 1 ⎞ n
⎜ X i = ∑ Xˆ i , Xˆ i = M i x ⎟
⎝ n i ⎠i
∑ (X
X)
2
( ) N M
i N Mi
V Xˆ = N 2
(1
f 1 ) ∑i mi ∑ (X
Xi )
2
i
+
n(N
1)
ij
n i j
mi
∑ (X
xi )
n 2
⎛⎜ Xˆ
Xˆ ⎞⎟
∑
2
( ) N 2
(1
f ) ⎝ i i
⎠ N n
M 2 ij
Vˆ Xˆ = ∑
j
1
i +
i
n n
1 n i mi mi
1
⎛ ˆ 1 n
⎞
⎜ X i = ∑ Xˆ i , Xˆ i = M i x i ⎟
⎝ n i ⎠
( ) N N N M N Mi
V Xˆ =
∑ (X i
X ) + ∑ (X
Xi )
i
∑i mi
2 2
ij
n i n i j
n 2
∑i ⎛⎜⎝ Xˆ i
Xˆ i ⎞⎟⎠
( )
2
N ⎛ ˆ 1 n ⎞
Vˆ Xˆ =
⎜ X i = ∑ Xˆ i y Xˆ i = M i x i ⎟
n n
1 ⎝ n i ⎠
∑ (X
Xi )
2
( )
ij
N N
N N
V Xˆ = ∑ (X
X) + ∑ M
(1
f )
(M
2 2 j
1)mi
i i 2i
n i n i i
n 2
∑i ⎛⎜⎝ Xˆ i
Xˆ i ⎞⎟⎠
( )
2
N ⎛ ˆ 1 n ⎞
Vˆ Xˆ =
⎜ X i = ∑ Xˆ i y Xˆ i = M i xi ⎟
n n
1 ⎝ n i ⎠
www.FreeLibros.org
306 Muestreo estadístico. Conceptos y problemas resueltos
1 n
Para proporciones y totales de clase: Xˆ i = ∑ M i Pˆi y Xˆ i = M i Pˆi
n i
Xˆ N n M i 1 1
Xˆ = = ∑ xi , V ( Xˆ ) = 2 V ( Xˆ ) , Vˆ ( Xˆ ) = 2 Vˆ ( Xˆ )
M n i M M M
N n
Mi ˆ ˆ N n
Pˆ = ∑M Pi , A = MPˆ = ∑Mi Pˆi
n i n i
() N 3 PQ N PQ
N
V Aˆ = (1
f 1 ) + ∑ M
(1
f )
(M
1)m
3 i i
n(N
1) n
i 2i
i i i
2
n
⎛ 1 n ⎞
∑ ⎜ M i Pˆi
∑ M i Pˆi ⎟
N (1
f 1 ) i ⎝ ˆ ˆ
()
2
n i =1 ⎠ +N
n
PQ
Vˆ Aˆ =
n
n
1 n
∑ M (1
f )
m
1
i
i
2
2i
i i
() N 3 PQ N M i2
N
V Aˆ = (1
f 1 ) + ∑i m Pi Qi
n(N
1) n i
2
⎛n
ˆ 1 n ⎞
∑ ⎜ M P
∑ M i Pˆi ⎟
N (1
f 1 ) i ⎝ Pˆi Qˆ i
()
2 i i
n i =1 ⎠ +N
n
Vˆ Aˆ =
∑ M i2
n n
1 n i mi
1
()N2 N M i2
N
V Aˆ = PQ + ∑ Pi Qi
n n i mi
2
⎛ ˆ
1 ∑ M Pˆ ⎞⎟
n n
∑ ⎜ M P
()
i i i i
ˆ ˆ N2 i ⎝ n i =1 ⎠
V A =
n n
1
www.FreeLibros.org
Muestreo bietápico de conglomerados 307
() N2 N PQ
N
V Aˆ =
n
PQ +
n
∑ M
(1
f )
(M
1)m
i
i
3
2i
i i
i i
2
⎛ ˆ
1 ∑ M Pˆ ⎞⎟
n n
∑ ⎜ M P
()
i i i i
ˆ ˆ N2 i ⎝ n i =1 ⎠
V A =
n n
1
1 1
Para proporciones aplicamos V ( Pˆ ) = 2 V ( Aˆ ) y Vˆ ( Pˆ ) = 2 Vˆ ( Aˆ ) .
M M
en donde c0 representa un coste fijo que suele incluir, dependiendo de las encuestas, gastos
de preparación técnica, gastos administrativos previos, cartografía, etc. Puede empezarse
por suponer deducido el coste co del total C, para no preocuparse más que de la distribución
de los costes variables.
Por otra parte, c1 , c2 y c3 son los costes unitarios por unidad primaria, por unidad
secundaria listada y por unidad secundaria que sea objeto de entrevista o medida,
respectivamente.
Como casos particulares típicos de nuestra función de costes tenemos:
1) a1 = a2 = a3 = 1, ⇒ C = c1n + c2 nM + c3 nm
www.FreeLibros.org
308 Muestreo estadístico. Conceptos y problemas resueltos
Nosotros vamos a suponer en los cálculos una función de coste de campo definida
como C = n
c1 + n
m
c2 , y evaluaremos la varianza de la media a optimizar mediante la
S2
expresión aproximada V (x ) = (1 + (m
1)
) . Para obtener los valores de n y m que
nm
hagan mínima V ( x ) con la restricción dada por la función de coste de campo construiremos
la función de Lagrange:
S2
"=
( 1 + ( m
1) ) + ( C
n
c1
n
m c2 )
nm
ˆ n
Xˆ 1 n Xˆ 1 n M x
Un estimador insesgado del total será: Xˆ HH = ∑ i = ∑ i = ∑ i i .
i nPi n i Pi n i Pi
Mi N
Para probabilidades proporcionales al tamaño Pi = con M = ∑ M i , luego:
M i =1
ˆ 1 n M x 1 n M i xi M n
Xˆ HH = ∑ i i = ∑ = ∑x i
n i Pi n i Mi M n i
Mi Mi ˆ
x Pi
ˆ 1 ˆˆ 1 n
Xˆ i 1 n M i ˆˆ ˆˆ 1 n
1 n M Pˆ
Xˆ = X HH = ∑i nP n ∑i P
= , A = M P = M ∑ M = ∑ i i
M M i i n i Pi n i Pi
Mi ˆ
P
ˆˆ 1 n M i
P= ∑
n i Pi
P̂i = proporción muestral en el conglomerado i-ésimo.
www.FreeLibros.org
Muestreo bietápico de conglomerados 309
Varianzas
Como la primera etapa es siempre con reposición, distinguiremos entre si la segunda etapa
es con reposición o sin reposición.
2
ˆ 1 N ⎛X ⎞ N
M 2 (1
f 2i ) 2 ˆ 1 ˆ
V ( Xˆ HH ) = ∑ ⎜⎜ i
X ⎟⎟ Pi + ∑ i
S i , V ( Xˆ HH ) = 2 V ( Xˆ HH )
n i =1 ⎝ Pi ⎠ i nPi mi M
ˆ 1⎛ N A ⎞ N M2 (1
f2i ) Mi PiQi
V( AˆHH) = ⎜⎜ ∑ i
A2 ⎟⎟ + ∑ i
n ⎝ i=1 Pri ⎠ i nPrimi Mi
1
ˆ 1 ˆ
V ( PˆHH ) = 2 V ( Aˆ )
M
Mi
Para el caso particular de probabilidades proporcionales a los tamaños Pi =
M
N
con M = ∑ M , se tiene:
i
i =1
⎞ Mi N Mi2 (1
f2i ) 2 M ⎡ N ⎛ Xi2 X 2 ⎞ N Mi ⎤
2 2
ˆˆ 1 N ⎛ Xi
V ( XHH) = ∑⎜⎜
X ⎟⎟ +∑
Si = ⎢∑⎜⎜
⎟⎟ + ∑ (1
f2i )
Si2 ⎥
n i =1 ⎝ Mi / M ⎠ M i nmi Mi / M n ⎢ i =1 ⎝ Mi M ⎠ i mi ⎥⎦
⎣
2
ˆ 1 N ⎛X ⎞ N
M i2 ˆ 1 ˆ
V ( Xˆ HH ) = ∑ ⎜⎜ i
X ⎟⎟ Pi + ∑
i2 , V ( Xˆ HH ) = 2 V ( Xˆ HH )
n i =1 ⎝ Pi ⎠ i nPi mi M
2
ˆ 1 N ⎛A ⎞ N
M i2
V ( Aˆ HH ) = ∑ ⎜⎜ i
A ⎟⎟ Pri + ∑
Pi Qi
n i =1 ⎝ Pri ⎠ i nPri mi
ˆ 1 ˆ
V ( PˆHH ) = 2 V ( Aˆ )
M
Mi
Para el caso particular de probabilidades proporcionales a los tamaños Pi =
M
N
con M = ∑ M , se tiene:
i
i =1
M ⎡ N ⎛ Xi ⎤
2 2
1 N ⎛ Xi ⎞ Mi N M i2 X2⎞
2
ˆˆ N
M
V ( X HH ) = ∑ ⎜⎜
X ⎟⎟ +∑ 2
i = ⎢∑ ⎜
⎟ + ∑ i
i2 ⎥
n i =1 ⎝ M i / M ⎠ M i nmi M i / M n ⎢ i =1 ⎜⎝ M i M ⎟⎠ i mi ⎥⎦
⎣
www.FreeLibros.org
310 Muestreo estadístico. Conceptos y problemas resueltos
Los estimadores insesgados para las varianzas de los estimadores cuando la primera etapa es con
reposición, no dependen de si la segunda etapa es o no con reposición.
ˆ
ˆ 1 ˆ
Vˆ ⎛⎜ Xˆ ⎞⎟ = ⎝ ⎠
, Vˆ ( Xˆ ) = 2 Vˆ ( Xˆ HH )
i
⎝ ⎠ n(n
1) M
2 2
n ⎛ Aˆ i ˆ ⎞ n ⎛ M i Pˆi ˆ⎞
∑i ⎜⎜ P
Aˆ ⎟⎟ ∑i ⎜⎜ P
MPˆ ⎟⎟
ˆ
Vˆ ⎛⎜ Aˆ ⎞⎟ = ⎝ ⎠ = ⎝ i ⎠
i
⎝ ⎠ n(n
1) n(n
1)
ˆ 1 ˆ
Vˆ ( Pˆ ) = 2 Vˆ ( Aˆ )
M
ˆ n
Xˆ n
M x
Xˆ HT = ∑ i =∑ i i
i i i i
Como casos particulares de este estimador tenemos:
ˆ n
Mxi n
x
Xˆ HT = ∑ = M∑ i
i i i i
N
nM i
Probabilidades proporcionales al tamaño i = con M = ∑ M i
M i =1
ˆ n
M x n
M i xi M n
Xˆ HT = ∑ i i = ∑ = ∑x i
i i i nM i M n i
www.FreeLibros.org
Muestreo bietápico de conglomerados 311
n
Probabilidades iguales i =
N
ˆ n
M x n
M x N n
Xˆ HT = ∑ i i = ∑ i i = ∑M x i i
i i i n N n i
Vemos que las expresiones de los estimadores coinciden en muestreo con y sin
reposición.
Mi
xi
ˆ 1 ˆˆ 1 n
Xˆ i n
Xˆ = X HT = ∑ =∑ M
M M i i i i
Mi ˆ
n Pi
ˆ M
Pˆ = ∑ P̂i = proporción muestral en el conglomerado i-ésimo
i i
Mi ˆ
Pi
ˆ ˆ n
M
n
M Pˆ
Aˆ = MPˆ = M ∑ =∑ i i
i i i i
Varianzas
Como la primera etapa es siempre sin reposición, distinguiremos entre si la segunda etapa es
con reposición o sin reposición.
ˆ N
X2 N
X Xj N
(1
f 2i ) M i2 S i2
V ( Xˆ HT ) = ∑ i (1
i ) + ∑ i ( ij
i j ) + ∑ ,
i =1 i i j i j i mi i
ˆ 1 ˆ
V ( Xˆ HH ) = 2 V ( Xˆ HH )
M
Con reposición en segunda etapa
ˆ N
X2 N
X Xj N
M 2 2 ˆ 1 ˆ
V ( Xˆ HT ) = ∑ i (1
i ) + ∑ i ( ij
i j ) + ∑ i i , V ( Xˆ HH ) = 2 V ( Xˆ HH )
i =1 i i j i j i mi i M
Mi
S i2 = Pi Qi , i2 = Pi Qi
Mi
1
www.FreeLibros.org
312 Muestreo estadístico. Conceptos y problemas resueltos
ˆ ˆˆ n
Xˆ i2 n
Xˆ i Xˆ j n
(1
f 2i ) M i2 Sˆ i2
V ( X HT ) = ∑ (1
i ) + ∑ ( ij
i j ) + ∑
i =1 i i j i j i mi i
ˆ N
Xˆ 2 N
Xˆ Xˆ j N
M 2 Sˆ 2
Vˆ ( Xˆ HT ) = ∑ i (1
i ) + ∑ i ( ij
i j ) + ∑ i i
i =1 i i j i j i mi i
ˆ 1 ˆ
Para las medias se hace Vˆ ( Xˆ HH ) = 2 Vˆ ( Xˆ HH ) .
M
mi ˆ ˆ
Para el caso particular de totales de clase y proporciones se hace Sˆ i2 = Pi Qi .
mi
1
MUESTREO POLIETÁPICO
Muestreo con reposición de unidades primarias y sin reposición en las restantes etapas
ˆ n
Xˆ 1 n Xˆ 1 n M x
Xˆ HH = ∑ i = ∑ i = ∑ i i
i nPi n i Pi n i Pi
n i =1 ⎝ Pi ⎠ i ⎝ ⎠ n(n
1)
www.FreeLibros.org
Muestreo bietápico de conglomerados 313
ˆ n
Xˆ n
M x n
M x N n
Xˆ HT = ∑ i = ∑ i i = ∑ i i = ∑M i xi
i i i i i n N n i
ˆ N
X2 N
X Xj N
V ( Xˆ HT ) = ∑ 2i i + 2∑ i ij
X 2 + ∑ i2 i
i =1 i i< j i j i
ˆ ˆˆ n
Xˆ i2 n
Xˆ i Xˆ j n
(1
f 2i ) M i2 Sˆ i2
V ( X HT ) = ∑ (1
i ) + ∑ ( ij
i j ) + ∑
i =1 i i j i j i mi i
NhM h n m
Wh = f h = h h = f 1h
f 2 h
NM NhM h
L L
1 nh
Un estimador insesgado de la media es x st = ∑ Wh x h = ∑ Wh
∑x ih pues
h h nh i
L L
1 n L L
E (x st ) = ∑ Wh E1 E 2 x h = ∑ Wh E1 ∑ E 2 xih = ∑ Wh E1 x h =∑ Wh X h =X
h h nh i h h
L L ⎡ Sˆ 2 S2 ⎤
Vˆ (x st ) = ∑ Wh2
Vˆ (x h ) = ∑ Wh2 ⎢(1
f 1h )
bh + f 1h (1
f 2 h )
wh ⎥
h i
⎣⎢ nh mh nh mh ⎦⎥
www.FreeLibros.org
314 Muestreo estadístico. Conceptos y problemas resueltos
PROBLEMAS RESUELTOS
8.1. En un barrio de una ciudad se obtiene una muestra de 6 manzanas de 30 casas cada una con
probabilidades iguales. Dentro de cada manzana de la muestra se realiza submuestreo sin
reposición con fracción de muestreo igual a 1/6, y se obtienen los siguientes valores para el
número de casas en las que viven jubilados:
Manzana 1 2 3 4 5 6
N º de casas con jubilados 4 3 5 2 1 5
Se pide:
Consideramos las manzanas como conglomerados de igual tamaño (30 casas cada manzana).
mi 1
Tenemos como datos n = 6, M = 30, f 2i = ⇒ mi = f 2i M = 30 = 5 = m .
M 6
1 n 1 ⎛ 4 3 5 2 1 5⎞ 2
Pˆ = ∑ Pˆi = ⎜ + + + + + ⎟ =
n i =1 6 ⎝ 5 5 5 5 5 5⎠ 3
Para calcular la varianza del estimador realizamos la tabla muestral del análisis de la
varianza. Para ello utilizamos seis variables de clasificación de, C1 a C6, una por cada
conglomerado muestral, de modo que cada variable tiene un número de unos igual al total de
clase del conglomerado muestral correspondiente, y ceros para el resto de las unidades del
conglomerado muestral. Se elige Análisis de la varianza de un factor en Análisis de datos
del menú Herramientas, y se rellena su pantalla de entrada como se indica en la Figura 8-1.
Los resultados se ven en la Figura 8-2.
Sˆ 2 0,53333
La varianza es Vˆ ( Pˆ ) = b = = 0,018 . El error relativo de muestreo es:
nm 6,5
V$ ( P$ ) 0,018 0,134164
Cv ( P$ ) = = = = 0,2 (20%)
P$ 2/3 2/3
www.FreeLibros.org
Muestreo bietápico de conglomerados 315
Figura 8-1
Figura 8-2
Al ser la fracción de muestreo en primera etapa 1/2, tenemos 1/2 = 6/N, de donde el
número de conglomerados en la población es N = 13. Para hacer una estimación por
intervalos del total de la característica A en la población, necesitamos la varianza del
estimador del total. Pero:
(Aˆ
ˆ ( Aˆ ), Aˆ
ˆ ( Aˆ )) = [240
1,96 48,3,
240 + 1,96 48,3] = [145,33, 334,66 ]
2
Aˆ = NMPˆ = 12 30 = 240
3
En el caso de que ambas etapas sean sin reposición, los estimadores de la proporción
y el total de clase no varían, pero sí cambian los errores de muestreo. La varianza del
estimador de la proporción será ahora:
V$ ( P$ ) 0,0112 0,10583
El error relativo es Cv ( P$ ) = = = = 0,1587 (15,87%) y se
P$ 2/3 2/3
observa que en muestreo sin reposición el error resulta ser menor.
www.FreeLibros.org
316 Muestreo estadístico. Conceptos y problemas resueltos
8.2. Una región tiene 1000 hogares agrupados en 50 pequeños municipios de tamaños desiguales
Mi (i = 1, 2, ..., 50). Se trata de estimar la proporción de hogares que están al corriente de
sus obligaciones fiscales mediante muestreo de conglomerados con submuestreo con
probabilidades iguales y sin reposición en las dos etapas. En la primera etapa se obtienen 5
municipios muestrales de tamaños 6, 10, 8, 20 y 60 hogares. En la segunda etapa, realizada
con fracciones de muestreo f2i = 4/Mi, se obtiene en los 5 municipios de la muestra de
primera etapa los valores 1, 3, 2, 2 y 3 para el número de hogares que están al corriente de
sus obligaciones fiscales. Se pide:
Consideramos los municipios como conglomerados de distinto tamaño. Las unidades elementales
son los hogares de los municipios. Tenemos:
mi 4
f 2i = = ⇒ mi = 4 i
Mi Mi
N n
M i ˆ 50 1 5 1 ⎛ 1 3 2 2 3⎞
Pˆ = ∑i M Pi = 5
1000 ∑i M i Pˆi = 100 ⎜⎝ 6 4 + 10 4 + 8 4 + 20 4 + 60 4 ⎟⎠ = 0,68
n
⎡ n
⎛ ˆ 1 n ⎞
2
⎤
⎢ 2 ∑ ˆ
⎜ Mi Pi
∑Mi Pi ⎟ ⎥
1 N (1
f1 ) i ⎝
() n i =1 ⎠ + N M 2 (1
f )
PiQi ⎥ = 0,1458
n
Vˆ Pˆ = 2 ⎢
∑ i 2i m
1⎥
M ⎢ n n
1 n i i
⎢ ⎥
⎢⎣ ⎥⎦
Vˆ ( Pˆ ) 0,1458 0,38
Cv( Pˆ ) = = = = 0,5588 (55,88%)
Pˆ 0,68 0,68
www.FreeLibros.org
Muestreo bietápico de conglomerados 317
∑ Pˆ (1
Pˆ )
n
“dentro” n(m
1) m i i Sˆ w2
i =1
Total nm
1 nm P Q Ŝ 2
8.3. Consideremos una provincia con 400 municipios. Para estimar el total de hogares con
automóvil en la provincia se selecciona una muestra de 10 municipios con igual
probabilidad, y dentro de cada municipio de la muestra se seleccionan aleatoriamente
hogares utilizando una fracción de muestreo f = 1/5. Se obtienen los siguientes datos:
Se pide:
1) Estimar el total de hogares con automóvil en la provincia y sus errores absoluto y relativo
de muestreo.
www.FreeLibros.org
318 Muestreo estadístico. Conceptos y problemas resueltos
El error relativo de muestreo viene dado por el coeficiente de variación del estimador.
Tenemos:
Vˆ ( Aˆ ) 628237 792,614
Cv ( Pˆ ) = = = =0,123 (12,3%)
Aˆ 6440 6440
Para hacer una estimación por intervalos del total de la característica suponiendo
normalidad tendremos:
(Aˆ
ˆ ( Aˆ ), Aˆ
ˆ ( Aˆ )) = [6440
1.96
792,61, 6440 + 1.96
792,61] = [4886.4, 7993.5]
8.4. De una viña formada por 1000 líneos de 50 cepas cada uno, se extrae una muestra de 30
líneos. Dentro de cada líneo de la muestra se analizan cinco cepas, utilizando muestreo con
probabilidades iguales y con reemplazamiento en primera etapa. El análisis de la varianza de
la muestra para una variable medida sobre las cepas presenta los siguientes resultados:
1) Estimar el error de muestreo del estimador de la media de la variable medida sobre las
cepas. Hallar la amplitud de las estimaciones por intervalos al 95% de confianza.
2) Realizar los mismos cálculos para muestreo sin reposición en ambas etapas, comparando
los resultados con los del apartado anterior.
Consideramos cada líneo como conglomerado de 50 cepas (tamaños iguales). Cuando existe
reposición en primera etapa, la fórmula de la estimación de la varianza de la media,
independientemente de que haya o no reposición en segunda etapa, es la siguiente:
Sˆ 2
Vˆ (x ) = b
nm
La tabla del análisis de la varianza para la muestra en el caso del muestreo bietápico
es la siguiente:
www.FreeLibros.org
Muestreo bietápico de conglomerados 319
∑ ∑( X )
2
“dentro” n( m
1) ij
xi Sˆ w2
i j
n m
∑ ∑( X )
2
Total nm
1 ij
x S$ 2
i j
Si consideramos los datos de nuestro problema tenemos S$b2 = 600 y Sˆ w2 = 400. Por tanto:
Sˆ 2 600
Vˆ (x ) = b = =4
nm 29
5
Sˆ 2 Sˆ 2 ⎛ 30 ⎞ 600 30 ⎛ 5 ⎞ 400
()
Vˆ x = (1
f1 ) b + f1 (1
f2 )
w = ⎜1
nm
⎟ + ⎜1
⎟
nm ⎝ 1000⎠ 30
5 1000⎝ 50 ⎠ 30
5
= 3,95
La amplitud del intervalo de confianza al 95% es 2 Vˆ (x ) , que en este caso vale 7,9.
Como es natural, tiene menos varianza el muestreo sin reposición, ya que siempre es más
preciso. Este hecho también se refleja en la anchura de los intervalos de confianza.
8.5. Un fabricante de prendas de vestir tiene 90 plantas localizadas en todo Estados Unidos y
quiere estimar el número promedio de horas que las máquinas de coser estuvieron sin
funcionar por reparación en los meses pasados. Debido a que las plantas están muy
dispersas, el fabricante decide utilizar un muestreo por conglomerados, especificando cada
planta como un conglomerado de máquinas. Cada planta contiene muchas máquinas, y el
verificar los registros de reparación de cada máquina implicaría consumir tiempo. Por tanto
el fabricante usa un muestreo en dos etapas. Se dispone de tiempo y dinero suficientes para
muestrear 10 plantas y aproximadamente un 20% de las máquinas de cada planta. Dados los
siguientes datos sobre el tiempo sin funcionar para las máquinas de coser por plantas
Planta Mi mi Tiempo sin funcionar (en horas) xi S2i
1 so 10 5, 7, 9, 0, 11, 2, 8, 4, 3, 5 5,40 11,38
2 65 13 4, 3, 7, 2, 11, 0, 1, 9, 4, 3, 2, 1, 5 4,00 10,67
3 45 9 5, 6, 4, 11, 12, 0, 1, 8, 4 5,67 16,75
4 48 10 6, 4, 0, 1, 0, 9, 8, 4, 6, 10 4,80 13,29
5 52 10 11, 4, 3, 1, 0, 2, 8, 6, 5, 3 4,30 11,12
6 58 12 12, 11, 3, 4, 2, 0, 0, 1, 4, 3, 2, 4 3,83 14,88
7 42 8 3, 7, 6, 7, 8, 4, 3, 2 5,00 5,14
8 66 13 3, 6, 4, 3, 2, 2, 8, 4, 0, 4, 5, 6, 3 3,85 4,31
9 40 8 6, 4, 7, 3, 9, 1, 4, 5 4,88 6,13
10 56 11 6, 7, 5, 10, 11, 2, 1, 4, 0, 5, 4 5,00 11,80
Estimar el tiempo sin funcionar promedio por máquina y establecer un límite para el error de
estimación. El fabricante sabe que tiene un total de 4.500 máquinas en todas las plantas.
Estimar también la cantidad total de tiempo sin funcionar durante el mes pasado para todas
las máquinas. Estimar el tiempo sin funcionar promedio por máquina en caso de que no se
conozca el número total de máquinas.
www.FreeLibros.org
320 Muestreo estadístico. Conceptos y problemas resueltos
Para la estimación de la cantidad total de tiempo sin funcionar para todas las máquinas
tenemos el estimador Xˆ = Mx = 4500
4,8 = 21600 , siendo la estimación de su varianza
Vˆ ( Xˆ ) = M 2V ( x ) = 4500 2
0,037094 = 751153,5 .
∑M x
i =1
i i
(50
5,4 + 65
4 + L + 56
5)
x= n
= = 4,6
50 + 65 + L56
∑M
i =1
i
10 10 10
1
f ˆ 2 ˆ 2 2 ˆSˆ ) = 1
f
Vˆ ( x ) = ( S x + R S M
2R xm ( (M i xi ) 2
+ x 2
∑M i
2
2x ∑
M i xi M i ) = 0,049 ∑
nM 2 nM 2 (n
1) i =1 i =1 i =1
8.6. Para estimar el total de una magnitud en una población de 100 conglomerados se estratifica la misma
en dos zonas, rural y urbana, con 60 y 40 conglomerados respectivamente. En la zona rural se
selecciona una muestra de cinco conglomerados con probabilidades proporcionales a su tamaño Mi y
con reemplazamiento, mientras que en la zona urbana se selecciona una muestra sistemática de
cuatro conglomerados con coeficiente de correlación intramuestral igual a una milésima. Se tiene:
ZONA RURAL ZONA URBANA
Unidad Unidad
muestral Mi Total muestral Total
1 7 13 1 21
2 6 11 2 15
3 8 18 3 24
4 4 10 4 20
5 5 11
1) Estimar la media por conglomerado en cada zona y sus errores absoluto y relativo de
muestreo. Hallar también un intervalo de confianza del 95% para la media por conglomerado
en cada zona.
2) Estimar el total en la población y sus errores absoluto y relativo de muestreo.
www.FreeLibros.org
Muestreo bietápico de conglomerados 321
1 n Xi 1 1 n Xi 1 n Xi 1 ⎛ 13 11 18 10 11⎞
Xˆ HHR = ∑ =
∑ = ∑ = ⎜ + + + + ⎟ = 2,128
MR i nPi MR n i MiR MR n i MiR 5 ⎝ 7 6 8 4 5 ⎠
2
n ⎛ Xi ˆ ⎞⎟ ⎛ 13
2
⎞ ⎛ 11
2
⎞ ⎛ 18
2
⎞ ⎛ 10
2
⎞ ⎛ 11 ⎞
2
∑ ⎜
⎜
i =1 ⎝ MiR
X HHR ⎟ ⎜
2,128⎟ + ⎜
2,128⎟ + ⎜
2,128⎟ + ⎜
2,128⎟ + ⎜
2,128⎟
⎠ =⎝7 ⎠ ⎝6 ⎠ ⎝8 ⎠ ⎝4 ⎠ ⎝5 ⎠ = 0,016
n(n
1) 20
ˆ ˆ V ( Xˆ HHR ) 0,016
Cv( X HHR ) = = = 0,059 6%
Xˆ HHR 2,128
Un intervalo de confianza al 95% para el gasto medio por hogar en zona rural es:
21 + 15 + 24 + 20
Xˆ U = = 20
4
1
ˆ ˆ 2
S ⎛ 4 ⎞3
[
(21
20)2 + (15
20)2 + (24
20)2 + (20
20)2 ]
V ( XU ) = (1
f ) = ⎜1
⎟ = 3,15
n ⎝ 40 ⎠ 4
ˆ ˆ V ( Xˆ U ) 3,15
Cv ( X U ) = = = 0,0887 8,87%
Xˆ U 20
Un intervalo de confianza al 95% para el gasto medio por hogar en zona urbana es:
www.FreeLibros.org
322 Muestreo estadístico. Conceptos y problemas resueltos
n
V ( Xˆ st ) = ∑ Nh2V ( xh ) = 602V ( Xˆ HHR) + 402V ( Xˆ U ) = 602
0,016+ 402
3,15 = 5097,6
h =1
V ( Xˆ st ) 5097,6
Cˆ v( Xˆ st ) = = = 0,077 7,7%
Xˆ st 927,68
8.7. En las 10 regiones de un país se efectúa muestreo en dos etapas (1ª etapa con reposición). En
la primera etapa se obtienen tres regiones de 50, 60 y 80 distritos. En la segunda etapa se
seleccionan cinco distritos de cada región de la primera etapa en los que se mide el número
de habitantes condenados a cadena perpetua, y se obtienen los siguientes datos:
Sabiendo que el total de distritos es M = 600, se pide formar un estimador insesgado del total
X de condenados a cadena perpetua y calcular el valor particular correspondiente a los datos
del problema en los siguientes casos:
1) Muestreo con probabilidades iguales en las dos etapas.
2) Muestreo con probabilidades proporcionales al tamaño en primera etapa.
3) Estimar el error de muestreo en ambos casos.
N n
10
Xˆ = ∑M i xi = (50
10 + 60
12,4 + 80
11,2) = 7133,33 7134 condenados
n i 3
∑i ⎜⎜ 1 / Ni
Xˆ ⎟⎟ ∑ ⎛⎜ NXˆ i
N 1 ∑ M i xi ⎞⎟ ⎛ 1 n ⎞
n n n n 2
∑i ⎜⎝ M i xi
n ∑i M i xi ⎟⎠ N 2 ∑ ⎛⎜⎝ Xˆ
Xˆ i ⎞⎟
( )
i
⎝ ⎠ i ⎝ n i ⎠ N2 ⎠
Vˆ Xˆ = = = = i
n(n
1) n(n
1) n n
1 n n
1
100 ⎛ (50
10
713,33) 2 + (60
12,4
713,33) 2 + (80
11,2
713,33) 2 ⎞
⎜ ⎟⎟ = 2.19385
107
3 ⎜⎝ 2 ⎠
www.FreeLibros.org
Muestreo bietápico de conglomerados 323
ˆ 1 n M x 1 n M i xi M n
600
Xˆ HH = ∑ i i = ∑ = ∑x i = (10 + 12,4 + 11,2) = 6720 condenados
n i Pi n i Mi M n i 3
2
⎛ Xˆ
2
n ⎞ n ⎛M M n ⎞ 2
∑i xi ⎟⎟ M 2 ∑ ⎛⎜ xi
1n ∑ xi ⎞⎟
n n
∑i ⎜⎜ M /iM
Xˆ ⎟⎟ ∑i ⎜⎜ M M i xi
n
( )
Vˆ Xˆ = ⎝
i
n(n
1)
⎠ = ⎝ i
n(n
1)
⎠ = i ⎝
n(n
1)
i ⎠ =
(
6002 (10
11,2) + (12,4
11,2) + (11,2
11,2)
2 2
= 172800
2
)
6
8.8. Consideramos las 1100 granjas de cerdos de una comarca que se estratifican formando 2
estratos. El primero de ellos (granjas en zona rural) tiene 1.000 granjas de 50 cerdos con 4
meses de edad del que se extrae una muestra de 5 granjas, en cada una de las cuales se obtiene
a su vez una submuestra de 6 cerdos. Los pesos promedios (en arrobas) de los 6 cerdos con 4
meses de las 5 granjas anteriores extraídas del primer estrato son los siguientes:
2
x i1 = {3, 5, 2, 4, 6} i = 1, 2, ..., 5 y S1w =1,5. El segundo estrato (granjas en perímetro
urbano) tiene 100 granjas de 40 cerdos con 4 meses cada una del que se extrae una muestra de
6 granjas, en cada una de las cuales se obtiene a su vez una submuestra de 4 cerdos. Los pesos
promedios (en arrobas) de los 4 cerdos con 4 meses de las 6 granjas anteriores extraídas del
2
segundo estrato son los siguientes: x i 2 = {3, 4, 3, 5, 3, 3} i = 1, 2, ..., 6 y S 2w = 1,33. A partir
de esta información, estimar el peso promedio de los cerdos a los 4 meses en las granjas de la
comarca y sus errores absoluto y relativo de muestreo considerando muestreo sin reposición y
probabilidades iguales en todas las etapas. Hallar también un intervalo de confianza para el
peso promedio de los cerdos a los 4 meses en las granjas de la comarca al 95%.
1 20
x1 = ∑x i1 = =4 Sˆ b2 = i
= 15
n1 i 5 n1
1
Sˆ 2 Sˆ 2 ⎛ 5 ⎞ 15 5 ⎛ 6 ⎞ 1,5
Vˆ (x1 ) = (1
f11 ) 1b + f11(1
f12 )
1w = ⎜1
⎟ + ⎜1
⎟
= 0,5
n1m1 n1m1 ⎝ 1000⎠ 30 1000⎝ 50 ⎠ 30
www.FreeLibros.org
324 Muestreo estadístico. Conceptos y problemas resueltos
1 21
x2 = ∑i xi 2 = 6 = 3,5 Sˆ 22b = i
= 2,8
n2 n2
1
Sˆ 2 Sˆ 2 6 ⎞ 2,8 6 ⎛ 4 ⎞ 1,33
( ) n2m2
⎛
Vˆ x2 = (1
f21) 2b + f21(1
f22 )
2w = ⎜1
⎟ + ⎜1
⎟
n2m2 ⎝ 100⎠ 24 100⎝ 40 ⎠ 24
= 0,113
2
1000 100
x st = ∑ W h x h = W1 x1 + W 2 x 2 =
4+
3,5 = 3,685 arrobas
h =1 1100 1100
Vˆ ( x st ) 0,415
Cˆ v( x st ) = = = 0,1748 (17,48%)
x st 3,685
8.9. Una empresa tiene que realizar una encuesta en la que las unidades primarias de muestreo
son las secciones censales y las unidades de segunda etapa son las familias pertenecientes a
las secciones censales. La empresa dispone de agentes entrevistadores que residen en la
capital de cada provincia en la que tiene sucursales. Se supone que el coste de enviar un
agente a una sección censal es de 500 euros y el de realizar una entrevista a una familia es de
50 euros.
2) Hallar el valor de los números óptimos citados para el coste total dado.
www.FreeLibros.org
Muestreo bietápico de conglomerados 325
0,38(1.0,38) ⎫
MinV ( Pˆ ) = (1
f ) (1 + (m
1)0,05)⎪ c1 1
500 1
0,05
nm ⎬⇒m =
=
14 familias
⎪ c2 50 0,05
3000000 = 500n + 50nm ⎭
3000000 3000000
3000000 = 500n + 50nm ⇒ n = = = 2500 secciones censales
500 + 50m 500 + 50
14
8.10. Una empresa quiere estimar la proporción de máquinas que han sido retiradas del proceso de
producción debido a reparaciones mayores. Para ello utiliza muestreo en dos etapas
considerando unidades de primera etapa las plantas de que dispone y unidades de segunda
etapa las máquinas de las plantas. Se dispone de tiempo y dinero para muestrear 10 plantas y
se obtiene que los tamaños de las plantas Mi, las máquinas muestreadas en cada planta en
segunda etapa mi y las proporciones muestrales de máquinas que requieren reparaciones
mayores son los que se exponen en la siguiente tabla:
Porcentaje de máquinas
Planta Mi mi con reparacion es mayores ( Pˆi )
1 50 10 0, 40
2 65 13 0,38
3 45 9 0, 22
4 48 10 0,30
5 52 10 0,50
6 58 12 0, 25
7 42 8 0,38
8 66 13 0,31
9 40 8 0, 25
10 56 11 0,36
Estimar la proporción de máquinas que han sido retiradas del proceso de producción debido
a reparaciones mayores para todas las plantas y establecer un límite para el error de
estimación al 95%.
www.FreeLibros.org
326 Muestreo estadístico. Conceptos y problemas resueltos
∑M i Pˆi
Pˆ = i =1
n
= 0,34
∑M
i =1
i
(Pˆ
Pˆ )
n 2
) ∑M
2
(1
f 1 ˆ ˆ
() PQ
i i
1 n
Vˆ Pˆ =
nM
2
i
n
1
+
nNM 2
∑ M (1
f )
m
1 = 0,0081
i
i
2
2i
i i
()
Pˆ ± 2 Vˆ Pˆ = 0,34 ± 0,056
www.FreeLibros.org
Muestreo bietápico de conglomerados 327
EJERCICIOS PROPUESTOS
8.1. Se desea estimar el consumo de los hogares españoles a través de una muestra bietápica
formada por conglomerados de 500 hogares cuya unidad primaria de muestreo es la sección
censal. El coeficiente de correlación intraconglomerados es 0,1. El coste de preparación de
listados y planimetría de cada sección censal a incluir en la muestra es de 5.000 unidades
monetarias, y el coste de entrevista por hogar es de 1000 unidades monetarias, no
considerándose más componentes en la función de coste total. Si se dispone de un
presupuesto global de 10000000 de unidades monetarias, se pide:
2) ¿Cuáles serían los tamaños de muestra en cada etapa que optimizasen el diseño? Se
entiende por diseño óptimo aquel que logra la máxima precisión dentro del presupuesto
fijado.
3) Si se estratifican las secciones censales en dos estratos del mismo tamaño correspondientes
a zona rural y zona urbana, de modo que la variabilidad del consumo de los hogares medida a
través de la varianza es tres veces superior en la zona urbana que en la rural, ¿cómo se distribuiría
la muestra en cada estrato y en cada etapa para optimizar el diseño?
8.2. Un investigador desea muestrear tres hospitales de entre los seis que existen en una ciudad,
con el propósito de estimar la proporción de pacientes que han estado (o estarán) en el
hospital por más de dos días consecutivos. Puesto que los hospitales varían en tamaño, éstos
serán muestreados con probabilidades proporcionales al número de sus pacientes. En los tres
hospitales muestreados se examinará un 10% de los registros de los pacientes actuales para
determinar cuántos pacientes permanecerán por más de dos días en el hospital. Con la
información sobre los tamaños de los hospitales dada en la tabla adjunta se selecciona una
muestra de tres hospitales con probabilidades proporcionales al tamaño.
Puesto que serán seleccionados tres hospitales, tres números aleatorios entre el 0001 y el
1559 deben ser seleccionados de la tabla de números aleatorios. Nuestros números elegidos
son 1505, 1256 y 0827. ¿Qué hospitales serán elegidos para la muestra? Supóngase que los
hospitales muestreados dieron los siguientes datos sobre el número de pacientes con
permanencia de más de dos días:
Estimar la proporción de pacientes con permanencia superior a dos días para los seis
hospitales y establecer un límite para el error de estimación.
www.FreeLibros.org
328 Muestreo estadístico. Conceptos y problemas resueltos
8.3. Supongamos que cinco investigadores toman muestras independientes de igual tamaño
constituidas por pequeñas parcelas de un campo de cultivo y obtienen estimaciones del
rendimiento del campo . Sean estas estimaciones: 97, 96, 100, 98, 94. Si tomamos como
estimador de la media de las cinco estimaciones, calcular el error de muestreo relativo.
Realizar el mismo cálculo suponiendo que las muestras son de distintos tamaños, de 3, 1,
10, 10 y 1, respectivamente
14 3 2 3 2 7
Vˆ ( Xˆ ) = ∑ M 2 2
x
i i
∑ s i M i ( M i
5)
∑ M i M j xi x j
45 i =1 3 i =1 45 i j
siendo xi el total muestral y si2 = Sˆi2 la cuasivarianza dentro de la unidad primaria i-ésima de
la muestra. Si consideramos muestreo con reposición en la segunda etapa, ¿cuál es el
estimador del total? ¿Qué expresión toma el estimador de su varianza?
www.FreeLibros.org
CAPÍTULO
MUESTREO BIFÁSICO Y
MUESTREO EN OCASIONES SUCESIVAS
OBJETIVOS
www.FreeLibros.org
330 Muestreo estadístico. Conceptos y problemas resueltos
ÍNDICE
1. Muestreo bifásico.
8. Problemas resueltos.
9. Ejercicios propuestos.
www.FreeLibros.org
Muestreo bifásico y muestreo en ocasiones sucesivas 331
MUESTREO BIFÁSICO
El muestreo doble o bifásico se utiliza cuando queremos obtener estimadores de alguna variable
X y disponemos de información adicional de otra variable de modo similar a lo que ocurría en los
métodos de estimación indirecta. En la práctica, el muestreo doble se lleva a cabo seleccionando
en una primera fase una muestra, relativamente grande, en la que a bajo coste pueden observarse
una o varias características generales de las unidades que nos proporcionan la información que
necesitamos para el estudio de nuestra característica objetivo. En una segunda fase seleccionamos
una submuestra de la primera en la que observamos ya la característica objeto de estimación. Esta
técnica se conoce con el nombre de muestreo en dos fases, muestreo doble o muestreo bifásico.
Para fijar notación consideramos:
1ª fase. Se toma una muestra grande de tamaño n’ relativa a la variable auxiliar Yi
para estimar por ejemplo Y u otras características relativas a la variable Yi con bajo coste.
2ª fase. Se toma una muestra relativa a la variable en estudio Xi de tamaño n
(generalmente submuestra de la muestra preliminar n< n’) con coste mucho más alto.
El uso de esta técnica de muestreo depende de los costes. Si la observación de la
característica Xi que nos interesa no tiene coste, o es muy bajo, sencillamente tomaríamos
una muestra del tamaño no necesario para la precisión deseada y con ella haríamos las
estimaciones relativas a Xi. Supongamos que disponemos de un presuspuesto total C, que el
coste por unidad de la primera muestra, de tamaño n’, es c’ y que el coste por unidad de la
segunda muestra, de tamaño n < n’, es c. Frecuentemente c’ es mucho más pequeño que c,
bien sea porque la primera muestra se utiliza para obtener unos pocos datos generales de las
unidades (en campo o en oficina, si se dispone de un fichero o registro) o bien porque la
observación de la característica objetivo implica un proceso de observación más costoso. En
estas condiciones, si tomamos una sola muestra, tendremos C = cno, y si hacemos muestreo
en dos fases C = c’n’ + cn. Supongamos que los costes totales por el procedimiento bifásico
y por el normal (aleatorio) son los mismos, esto es, cno = c’n + cn. Igualando los dos costes
c'
totales, se obtiene: no = n + n' , lo que nos dice que con la técnica de dos fases la
c
observación efectiva (la referida a la variable Xi) se hace en una muestra de tamaño n, menor
que el tamaño no de la muestra aleatoria simple correspondiente en una sola fase con el
mismo coste total. Luego al introducir las dos fases el tamaño de muestra necesario es más
pequeño que si hubiese una sola fase (muestreo aleatorio normal) y hay una pérdida en la
precisión de los estimadores (al disminuir el tamaño de la muestra).
Se trata de decidir si compensa la disminución del tamaño efectivo de la muestra, con
el incremento de información adquirido en la primera fase (lo que provocará pérdida de
precisión en las estimaciones relativas a Xi). Para ello debe calcularse la varianza
2
correspondiente a muestreo doble y compararla con la del muestreo en una sola fase en
no
caso de estimación de la media. Es obvio que cuanto menor sea la relación c’/c más favorable
es el muestreo doble. Ello es debido a que no
n = (c’ / c ) n’⇒ mientras menor sea c’ / c más
cerca estará n de no y menos disminución habrá del tamaño de muestra comparado el bifásico y
el aleatorio simple, siendo la pérdida en precisión de los estimadores menor al introducir el
bifásico.
www.FreeLibros.org
332 Muestreo estadístico. Conceptos y problemas resueltos
n’h = nº de unidades de entre las n’ de la muestra de primera fase que caen en el estrato h
para h = 1, 2, ..., L
L L
n' = ∑ n' h y n = ∑ nh
h =1 h =1
www.FreeLibros.org
Muestreo bifásico y muestreo en ocasiones sucesivas 333
Estimadores y varianzas
Nh
El estimador usual de la media en muestreo estratificado es X̂ = ∑W x
h
h h con Wh =
N
.
En muestreo doble los Wh se estiman por los W$h obtenidos de la primera muestra, y con la
xh
segunda muestra estimamos las medias x h = ; de esta forma resulta el estimador para la
nh
media:
n' h
X$ = ∑W$h x h ; W$h =
h n'
Utilizaremos la notación EW ' (T ) para expresar la esperanza matemática de un estadístico
T, condicionada al conjunto de muestras de primera fase en las cuales n’1, ....,n’h , ..., n’ son fijos, o
lo que es lo mismo, para un n’ dado, W$1 , L , W$h , L , W$ L son fijos. Análogamente VW ' ( T )
expresará la varianza condicionada.
La varianza del estimador de la media sin reposición en las dos fases es:
S2 ⎛ g 'Wh (1
Wh ) ⎞ g '
V ⎛⎜ Xˆ ⎞⎟ = ∑ (1
f h ) h ⎜Wh2 + ⎟ + ∑ Wh ( X h
X )
2
⎝ ⎠ h nh ⎝ n' ⎠ n' h
N
n' S 2 ⎛ 1 ⎞ S2 nh
V ⎛⎜ Xˆ ⎞⎟ =
+ ∑ ⎜⎜
1⎟⎟
Wh h ; #h =
⎝ ⎠ N n' h ⎝# h ⎠ n' n h'
S2 ⎛ W (1
Wh ) ⎞ 1
V ⎛⎜ Xˆ ⎞⎟ = ∑ (1
f h ) h ⎜Wh2 + h ⎟ + ∑ Wh ( X h
X )
2
⎝ ⎠ h nh ⎝ n' ⎠ n' h
fórmula aproximada para n’ pequeño respecto de N en caso sin reposición en segunda fase.
h2 ⎛ 2 Wh (1
Wh ) ⎞ 1
⎟ + ∑ Wh ( X h
X )
⎛ ˆ ⎞
V ⎜ X ⎟ = ∑ ⎜ Wh +
2
⎝ ⎠ h nh ⎝ n' ⎠ n' h
$
Para el total X = NX , el estimador insesgado es X$ = NX y su varianza es
( )
V ( X$ ) = N 2V X$ .
www.FreeLibros.org
334 Muestreo estadístico. Conceptos y problemas resueltos
Si la muestra de primera fase es de tamaño n’=N, esto es, se observan todas las
unidades de la población para efectuar la estratificación, la fórmula general de la varianza
del estimador en muestreo doble se convierte en:
S h2
( )
$
V X = ∑ ( 1
f h )Wh
h
2
nh
; g' = 0
que coincide con la del muestreo estratificado habitual (una sola fase). Además se observa
que n’ aparece dividiendo, y en consecuencia, cuanto mayor es n’ (n’ < N ) la pérdida de
precisión por el uso de muestreo doble disminuye. Obviamente el coste aumenta, razón por
la cual conviene estudiar los tamaños y la afijación óptimos en función del coste.
La varianza (sin reposición en las dos fases), aplicando el resultado anterior, será:
PQ ⎛ g ' Wh ( 1
Wh ) ⎞ g '
V ( P$ ) = ∑ ( 1
f h ) h h ⎜Wh2 + ⎟ + ∑Wh ( Ph
P)
2
h nh ⎝ n' ⎠ n' h
Nh
con la aproximación S h2 = Ph Qh Ph Qh .
Nh
1
En muestreo con reposición en las dos fases, o sin reposición y tamaños muestrales
pequeños respecto de los correspondientes poblacionales ( f h 1; g ' 1) , se tiene:
PQ ⎛ Wh ( 1
Wh ) ⎞ 1
V ( P$ ) = ∑ h h ⎜Wh2 + ⎟ + ∑Wh ( Ph
P )
2
h nh ⎝ n' ⎠ n' h
⎛ g ' ( 1
Wh ) ⎞ g '
( ) 1
V X$ = ∑ ( 1
f h ) S h2 ⎜Wh +
n h ⎝ n'
⎟ + ∑Wh ( X h
X )
⎠ n' h
2
www.FreeLibros.org
Muestreo bifásico y muestreo en ocasiones sucesivas 335
( ) 1
V X$ = ∑ h2Wh +
n h
1
∑
nn' h
1
h2 ( 1
Wh ) + ∑Wh ( X h
X )
n' h
2
( ) 1 1
V X$ = ∑Wh h2 + ∑Wh ( X h
X )
n h n' h
2
2
1⎛ ⎞ 1
V ⎛⎜ Xˆ ⎞⎟ = ⎜ ∑ Wh h ⎟ + ∑ Wh (X h
X )
2
⎝ ⎠ n⎝ h ⎠ n' h
n n' ⎝ h ⎠ h
⎩ C
Estimación de varianzas
Tenemos:
n' ⎡ sh2 ⎛ 2 Wˆ h ⎞ 1 ⎤
Vˆ ⎛⎜ Xˆ ⎞⎟ = ⎜Wˆ h
⎟ + ∑Wˆ h (xn
X )2 ⎥
⎝ ⎠ n'
1 ⎢∑
⎢ ⎜
⎣ h nh ⎝ n' ⎟⎠ n' h ⎦⎥
n'
El factor prácticamente es próximo a la unidad si n’ no es pequeño. También
( n'
1)
el término que aparece en segundo lugar en la fórmula de la estimación de la varianza puede
ser despreciable respecto de los otros dos, ya que aparece el producto nh
n' en el
denominador. Entonces resulta la aproximación:
www.FreeLibros.org
336 Muestreo estadístico. Conceptos y problemas resueltos
() s2 1
Vˆ Xˆ ∑ Wˆ h2 h + ∑ Wˆ h x h
Xˆ
h n h n'
( )
2
()
2
ˆ ˆ ˆ 2 sh
V X ∑ Wh
h nh
sh2 ph q h
(x )
2
X$ = ( ph
P$ )
2
= ; h
nh nh
1
El estimador usual de razón para la media X utiliza como información conocida previamente
la media Y (o el total) de una característica Y, definida en todas las unidades de la
población, elegida convenientemente de modo que su relación con X sea lineal al menos
aproximadamente. El muestreo doble utiliza la primera muestra de tamaño n’ para obtener una
buena estimación de Y , o de Y, y la segunda muestra de tamaño n para estimar x e y . De esta
forma , el estimador de razón para la media en muestreo doble es:
x
X$ R =
y ' ; y ' = Media de la primera muestra.
y
En el caso de que las muestras de las dos fases sean independientes, se tiene:
1 1
V ⎛⎜ Xˆ R ⎞⎟ = { x2 + R2 y2
2R xy }+ R2 y2
⎝ ⎠ n n'
fórmula válida para muestreo con reposición. En el caso sin reposición sustituimos varianzas
y covarianzas por cuasivarianzas y cuasicovarianzas, multiplicando el primer sumando por el
factor de finitud en segunda fase y el segundo sumando por el de primera fase.
1 1
V ⎛⎜ Xˆ R ⎞⎟ = { x2 + R 2 y2
2 R xy }+ {2 R xy
R 2 y2 }
⎝ ⎠ n n'
www.FreeLibros.org
Muestreo bifásico y muestreo en ocasiones sucesivas 337
X$ R = NX$ R ( )
; V ( X$ R ) = N 2V X$ R
El estimador usual para la media en muestreo indirecto (en una fase) por regresión lineal es
X$ = x + K ( Y
y ) , donde K es una constante prefijada e Y es la media poblacional de la
variable auxiliar. Los estimadores x , y se obtienen de las observaciones de una muestra
( X i , Yi ) de tamaño n. En muestreo doble, al suponer desconocida Y , utilizamos la primera
muestra de tamaño n’ para estimar Y , estimación dada por y' . Con la muestra de tamaño n
en segunda fase estimamos x , y , formando entonces el estimador en muestreo doble por
regresión para la media poblacional:
Xˆ rg = x + K ( y '
y )
1 2 K 2 y2
V ⎜ X rg ⎟ = ( x + K y
2 K xy ) +
⎛ ˆ ⎞ 2 2
⎝ ⎠ n n'
1 1
V ⎛⎜ Xˆ rg ⎞⎟ = ( x2 + K 2 y2
2 K xy ) + (2 K xy
K 2 y2 )
⎝ ⎠ n n'
n
xy ∑ (X i
x )(Yi
y )
Sea el valor óptimo de K = b = 2 estimado por bˆ = 1
.
y n
∑ (X
x ) (Yi
y )
2 2
i
1
www.FreeLibros.org
338 Muestreo estadístico. Conceptos y problemas resueltos
V ⎛⎜ Xˆ rl ⎞⎟ =
(1
2 ) x2 + 2 x2
x2
⎝ ⎠ n n' N
Una estimación para la varianza óptima es la siguiente:
Sˆ x2, y Sˆ x2
Sˆ x2, y Sˆ x2
Vˆ ⎛⎜ Xˆ rl ⎞⎟ = +
⎝ ⎠ n n' N
1 ⎡ n n
⎤ 1 ⎡ n ⎤
Sˆ x2, y = ⎢ ∑ ( X i
x ) 2
b 2
∑ (Yi
y ) 2 ⎥ Sˆ x2 = ⎢ ∑ ( X i
x)2 ⎥
n
2 ⎣ i =1 i =1 ⎦ n
1 ⎣ i =1 ⎦
El estimador por diferencia en muestreo doble resulta del estimador de regresión haciendo K = 1,
por lo que toda la teoría anterior es válida haciendo K=1, resultando el estimador
X$ d = x + ( y '
y ) . Análogamente, las fórmulas de las varianzas se obtienen aplicando a K el
valor 1 en las varianzas del estimador por regresión.
www.FreeLibros.org
Muestreo bifásico y muestreo en ocasiones sucesivas 339
La posibilidad a) nos permitiría conocer los cambios individuales entre las dos
ocasiones. Este esquema presenta serias dificultades cuando hemos de medir un carácter en
ocasiones sucesivas. Prescindiendo del caso en que las mediciones fuesen destructivas, sería muy
difícil mantener indefinidamente las mismas unidades, y aun en el caso de que fuese posible no
sería deseable por los sesgos que una exposición continuada a los métodos de encuesta pueden
originar en la conducta de los entrevistados. En este sentido puede decirse que la muestra se
“contamina” con el tiempo.
S2 S2
V ( x1 ) = , V (x2 ) =
n n
2
c S S c2 S2 c S2
cov( x1 , x 2 ) = 2
cov( x1c , x 2 c ) = 12
2 = 12
= 12
c
n c c n n n n
www.FreeLibros.org
340 Muestreo estadístico. Conceptos y problemas resueltos
()
V ˆ = V ( x1 ) + V ( x 2 )
2 cov( x1 x 2 ) =
S2 S2
n
+
n
2
S2
n
S2
12 c = 2 [1
12 c ]
n
siendo 12 el coeficiente de correlación entre los valores comunes a ambas ocasiones y
c la proporción de unidades comunes. De esta expresión deducimos que para 12 > 0 la
ganancia en precisión es proporcional a c 12 correspondiendo la máxima ganancia a los
valores 12 = +1 y c = 1 . Por lo tanto, la situación ideal es aquella en la que la
proporción de unidades comunes en la muestra en las dos ocasiones es del 100% ( c = 1 ),
lo que significa que la muestra es común en su totalidad en las dos ocasiones. La situación
también es ideal cuando el coeficiente de correlación entre los valores comunes en ambas
ocasiones es máximo ( 12 = +1 ), que en términos prácticos significa que las unidades
muestrales en las dos ocasiones han de estar muy estrechamente relacionadas de forma
positiva (lo mejor es que sean iguales las muestras en las dos ocasiones).
1 ⎡ 2S 2 2S 2 ⎤ S2
V (x ) = ⎢ +
12 c ⎥ =
[1 + 12 c ]
4⎣ n n ⎦ 2n
Como este valor es mínimo cuando c = 0 , vemos que, en el caso 12 < 0 , para
estimar la media sobre dos ocasiones es preferible utilizar muestras independientes.
www.FreeLibros.org
Muestreo bifásico y muestreo en ocasiones sucesivas 341
%$ = W ( x 2 c
x1c ) + ( 1
W )
( x 2 c
x1c )
()
ˆ = W 2V ( x
x ) + (1
W )2 V
( x
x ) .
Tenemos V % 2c 1c 2c 1c
V ( x2c
x1c )
2W
V ( x2c
x1c )
2
(1
W )
V ( x2c
x1c ) = 0 ⇒ W =
V ( x2c
x1c ) + V ( x2c
x1c )
2S 2 2S 2
y sustituyendo las varianzas V ( x2c
x1c ) = y V ( x2c
x1c ) = (1
12 ) ⇒
n
c c
1
n
c c c (1
12 )(1
c )
W= = = ⇒1
W =
1 1
12 c + (n
c)(1
12 ) 1
12 (1
c ) 1
12 (1
c )
+
n
c c
Sustituyendo estos valores en la expresión de la varianza del estimador lineal de
mínima varianza se obtiene:
c 2S 2 (1
12 ) (1
c )
(1
12 ) 2S 2 2
()
V % = W V (x2c
x1c ) + (1
W ) V
(x2c
x1c )
ˆ 2 2
=
[1
12 (1
c )]2
n [1
12 (1
c )]2
n
2S 2 (1
12 ) 2S 2 (1
12 )
=
[ c + (1
c )
(1
12 )] =
(1
12 + c 12 )
[1
(1
)]
n
12 c
2
[1
(1
)] 12 c
2
n
2S (1
)
2
2S (1
) 2
= 12
(1
(1
)) = 12
[1
(1
)]
n
12 c
2 12
[1
(1
)]
n
c
12 c
Hemos obtenido una expresión para la varianza mínima del estimador lineal:
2 S 2 (1
12 )
()
V %ˆ =
[1
12 (1
c )]
n
Vemos que, en este caso, el estimador lineal de mínima varianza combinado %$
proporciona igual precisión que el estimador simple $ cuando c = 1, es decir, cuando se
mantiene la misma muestra para la segunda ocasión.
www.FreeLibros.org
342 Muestreo estadístico. Conceptos y problemas resueltos
V ( x 2 c
bx1c ) = V ( x 2 c ) + b 2V ( x1c )
2 cov( x 2 c ; x1c ) =
S2 S2 S S S2
c
+ 122
c
2 12
12
=
c
1
122 ( )
c c
S2 2 S
2
S
V (bx1 ) = b
V ( x1 ) = b
2
= 12
2
, (S1 = S 2 ⇒ b = 1
12 = 12 )
n n S2
⎛ 1
122 122 ⎞
Sumando ambas componentes se obtiene: V x ( )'
2c =S ⎜ 2
+ ⎟
⎝ c n ⎠
Utilizaremos el estimador lineal de mínima varianza de la media para la segunda
ocasión combinado definido por:
x 2 = Wx 2' c + ( 1
W ) x 2 c
( ) ( )
cuya varianza V x 2 = W 2V x 2' c + ( 1
W ) V x 2 c es mínima para:
2
( )
V(x ) 2c V ( x 2' c )
W= 1
W =
V( x ) +V( x )
'
2c 2c V ( x 2' c ) + V ( x 2 c )
de donde se deduce que el estimador combinado de varianza mínima para estimar la media
en la segunda ocasión toma la forma:
1 1
V ( x 2' c ) V ( x2c )
x2 =
x 2' c + x 2' c
1 1 1 1
+ +
V ( x2c ) V ( x 2' c ) V ( x2c ) V ( x 2' c )
es una media ponderada con los coeficientes de ponderación basados en los valores
recíprocos de las varianzas. Sustituyendo los valores de W y 1
W en V x 2 , calculamos el ( )
valor de la varianza mínima para el estimador de la media en segunda ocasión. Tenemos
V (x2 ) =
V 2 ( x2c )
( )
V 2 x 2' c +
( )
V 2 x 2' c
V 2 (x2c ) =
( )
V ( x 2 c )V x 2' c
(V (x ) + V (x ))
'
2c 2c
2
(V (x ) + V (x ))
'
2c 2c
2
( )
V ( x 2 c )V x 2' c
⎛ 1
122 122 ⎞ S2 S2
( )
y como V x 2' c = S 2 ⎜⎜ + ⎟⎟ y V ( x 2 c ) = = tenemos:
⎝ c n ⎠ n
c c
www.FreeLibros.org
Muestreo bifásico y muestreo en ocasiones sucesivas 343
S 2
⎜⎜
( )
⎛ 1
122 n + c122 ⎞ S 2
⎟⎟
V (x2 ) = ⎝ cn ⎠ c = ( )
1
122
n + c122
S2
( )
⎛ 1
122 n + c122 ⎞ S 2
S 2
⎜⎜ ⎟⎟ + ( )
1
122
n + c122 +
cn c
cn c
⎝ ⎠ c
=
S2
n
122 (n
c )
=
( ) (
S 2
n
122 (n
c ) S 2
n
122 (n
1)
=
)
c cn c n
2 2
c + cn n 2
122 c 2
n
12 (n
c ) +
2 12
c
n
122 c 2
V (x2 ) = S 2
n 2
122 c 2
S2 S 2
n
(1
122 ) S 2
En particular , c = 0 ⇒ V (x 2 ) = y c = n ⇒V (x 2 ) = =
n n 2 (1
122 ) n
Luego podemos decir que para estimar el valor actual de X 2 se obtiene la misma
precisión manteniendo la muestra que cambiándola por completo en cada ocasión.
www.FreeLibros.org
344 Muestreo estadístico. Conceptos y problemas resueltos
PROBLEMAS RESUELTOS
9.1. Se trata de estudiar las casas en alquiler en una población. Para ello se extrae una muestra
aleatoria simple extensa y barata de tamaño 374 de las casas de un distrito y se halla que 272
casas estaban ocupadas por familias de raza blanca y 82 por otras razas. Se extrae una
segunda muestra de aproximadamente una de cada cuatro casas y se obtienen los siguientes
resultados respecto de la proporción de casas en alquiler:
En alquiler Total
Blancos 31 74
Otras razas 4 18
n' ⎡ Pˆh Qˆ h ⎛⎜ ˆ 2 Wˆ h ⎞⎟ 1 2⎤
()
Vˆ Pˆ = ⎢∑
n'
1 ⎣⎢ h nh
1 ⎜⎝
Wh
( )
+ ∑ Wˆ h Pˆn
Pˆ ⎥ =
n' ⎟⎠ n' h ⎥⎦
⎡ 31 43 ⎛ 272 ⎞ 4 14 ⎛ 82 ⎞⎤
⎢
⎜ 2 ⎟
⎜ 2 ⎟⎥
374 74 74 ⎜ ⎛ 272 ⎞ 374 ⎟ 18 18 ⎜ ⎛ 82 ⎞ 374 ⎟⎥ +
⎢ ⎜ ⎟
+ ⎜ ⎟
0,0025
El error relativo de muestreo será = 0,133 (13,3%) .
0,375
www.FreeLibros.org
Muestreo bifásico y muestreo en ocasiones sucesivas 345
9.2. Se trata de estimar una proporción a través de una encuesta para la que se dispone de un
presupuesto de 300000 unidades monetarias utilizando muestreo bifásico con estratificación.
La encuesta principal cuesta 1000 unidades monetarias por unidad de muestreo y se dispone
de información adicional en registros a un coste de 25 unidades monetarias por unidad de
muestreo que permite clasificar las unidades en dos estratos de tamaños casi iguales.
Sabiendo que la proporción verdadera es 0,2 en el primer estrato y 0,8 segundo estrato, se
quiere estimar los tamaños de las muestras en ambas fases n y n’ óptimos y el
correspondiente valor de la varianza del estimador de la proporción. Cuantificar la ganancia
en precisión respecto del muestreo aleatorio simple.
Hallaremos los tamaños óptimos n’ y n correspondientes a un coste total dado tales que
()
V Pˆ sea mínima, escribiendo la función de Lagrange:
1 1 ⎛ ⎞
2
⎧ C A
" A A ⎫ ⎪n =
n
=
2 + c = 0 ⇒ = 2 ⎪
n cn ⎪ c ( Ac + Bc ' )
⎪ ⎪
" B B ⎪ ⎪ C B
=
2 + c' = 0 ⇒ = ⎬⇒ ⎨n ' =
n ' n' c' n' 2 ⎪ ⎪ c' ( Ac + Bc ' )
"
= c ' n '+ cn
C = 0
⎪
⎪
⎭
⎪
⎪V ()
Xˆ =
( Ac + Bc ' )
2
⎪⎩ ópt . C
2
⎛ ⎞
(
A = ⎜ ∑Wh Ph Qh ⎟ = 0,5 0,2
0,8 + 0,5 0,8
0,2 )
2
= 0,16
⎝ h ⎠
B = ∑ Wh (Ph
P ) = 0,5
(0,2
0,5) 2 + 0,5
(0,8
0,5) 2 = 0,09
2
y tenemos:
C A 300000 0,16
n= =
c ( Ac + Bc ' ) 1000 ( 0,16
1000 + 0,09
25 ) = 268
C B 300000 0,09
n' = =
c' ( Ac + Bc ' ) 25 ( 0,16
1000 + 0,09
25 ) = 1272
V ópt . ()
Xˆ =
( Ac + Bc ' ) =(
2
0,16
1000 + 0,09
25 ) 2
= 0,0006673
C 300000
www.FreeLibros.org
346 Muestreo estadístico. Conceptos y problemas resueltos
Obtener una estimación del error relativo de muestreo del estimador de la media así como
una estimación de la media por intervalos al 95% de confianza.
Se considera que para poblaciones grandes, en muestreo bifásico pueden aproximarse todas las
fórmulas por su expresión para reposición en las dos fases. Para estimar la varianza del
estimador de la media tenemos:
()
Vˆ Xˆ =
n' ⎡ s h2 ⎛⎜ ˆ 2 Wˆ h ⎞⎟ 1
⎢∑ ⎜Wh
n'
1 ⎢⎣ h nh ⎝ ⎟
n' ⎠ n' h
2⎤
+ ∑Wˆ h (xn
X ) ⎥ =
400 ⎡15 ⎛
⎢
⎥⎦ 400
1 ⎣ 20 ⎝
2
⎜ 0,55
0,55 ⎞
400 ⎠
⎟
)]
+ 0,13(26
7,54) 2 = 3,96
3
Xˆ = ∑ Wˆ h x h = 0,55
2,8 + 0,32
8,2 + 0,13
26 = 7,544
h =1
Vˆ ( Xˆ ) 3,96
El error relativo será Cˆ v( Xˆ ) = = = 0,264 (26,4%)
Xˆ 7 ,544
Un límite para el error de estimación al 95% vendrá dado por la anchura del intervalo de
confianza, que vale 1,96 3,96 = 3,9.
Hemos visto en este capítulo que para valores grandes de n’ (caso habitual) el
estimador de la varianza del estimador de la media puede aproximarse por la fórmula
correspondiente al estimador de la varianza del estimador de la media en muestreo
estratificado en una sola fase (seguimos suponiendo reposición) sustituyendo Wh por su
estimación. En nuestro caso tendríamos:
() h
Sˆ 2 ⎡
Vˆ Xˆ = ∑Wˆ h2 h = ⎢0,552
nh ⎣
15
20
+ 0,322
200
10
+ 0,132
1000⎤
10 ⎥⎦
= 4,12
www.FreeLibros.org
Muestreo bifásico y muestreo en ocasiones sucesivas 347
Vˆ ( Xˆ ) 4,12
El error relativo será Cˆ v( Xˆ ) = = = 0,269 (26,9%)
Xˆ 7 ,544
Observamos que la pérdida en precisión es mínima por haber utilizado la aproximación
citada.
9.4. Consideremos dos características X e Y medidas sobre los elementos de una población para
las que conocemos los datos x = 2 y = 4 xy = 10 y X = 10. Se lleva a cabo un muestreo
bifásico obteniendo en primera fase una muestra de tamaño n’ = 100 con y ' = 40,6. En la
segunda fase n = 25, x = 9,8 e y = 40,1. Se trata de estimar la media poblacional utilizando
muestreo bifásico por regresión óptimo calculando el error relativo de muestreo y el coste
total para c ’ = 0 y c = 600
xy 6 6 xy 6 6
Se tiene = = = = 0,75 y b = 2 = 2 =
x y 2
4 8 y 4 16
6
Xˆ rg = x + b( y '
y ) = 9,8 + (40,6
40,1) = 9,998
16
La varianza del estimador óptimo de la media se calcula mediante la expresión:
( )
V Xˆ rg =
( +
)
1
2 x2 2 x2
=
( )
1
0,75 2 2 2 0,75 2
2 2
+ = 0,0955
n n' 25 100
ˆ Vˆ ( Xˆ rg ) 0,0955
El error relativo será Cˆ v( X rg ) = = = 0,0309 (3,09%)
ˆ
X rg 9,998
9.5. Se utiliza una muestra aleatoria simple de tamaño 60 extraída de una población sin
reposición y probabilidades iguales, para repetir una encuesta sobre sus elementos en dos
ocasiones distintas. Se supone que no existe falta de respuesta y que los resultados obtenidos
son los que representa la tabla adjunta. Además, se sabe que 2 = 20, = 0,7 y = 0,6.
www.FreeLibros.org
348 Muestreo estadístico. Conceptos y problemas resueltos
El número c de unidades muestrales comunes en las dos ocasiones se puede calcular a partir de la
proporción de unidades muestrales comunes c y del tamaño muestral total n.
c
c = ⇒ c = c
n = 0,6
60 = 36
n
n
c c 60
36 36
x= x ' '+ x ' = 150 + 152 = 0,4
150 + 0,6
152 = 151,2
n n 60 60
n
c c 60
36 36
y= y ' '+ y ' = 160 + 158 = 0,4
160 + 0,6
158 = 158,8
n n 60 60
Para la estimación del cambio y su error tenemos entonces:
ˆ = y
x = 158,8
151,2 = 7,6
() S2 20
V ˆ = 2 [1
12 c ] 2 [1
0,7
0,6] = 0,38666
n 60
El estimador del cambio de mínima varianza y su error vienen dados por:
c 0,6
%ˆ = W ( y '
x ') + (1
W )
( y ' '
x ' ') con W = = = 0,8333
1
12 (1
c ) 1
0,7
0,4
ˆ = 0,8333(158
152 ) + (1
0,8333)
(160
150 ) = 6,66666
luego ya tenemos %
2 S 2 (1
12 ) 2
20(1
0,7 )
()
V %ˆ =
[1
12 (1
c )]
n [1
0,7(1
0,6)]
60
= 0,277
n
c c 60
36 36
y= y ' '+ y ' = 160 + 158 = 0,4
160 + 0,6
158 = 158,8
n n 60 60
S 2 20
V (y) = = 0,333
n 60
Utilizaremos el estimador estimador lineal de mínima varianza de la media para la
segunda ocasión combinado definido por:
y = W [ y'+ ( x
x ')] + (1
W ) y' ' = 0,65[158 + 0,7(151,2
152)] + (1
0,65)160 = 159
⎛ 1
122 122 ⎞ ⎛ 1
0,72 0,72 ⎞ S2 20
( )
V x2' c = S 2 ⎜⎜ + ⎟⎟ = 20⎜⎜ + ⎟⎟ = 0,446 V ( x2c ) = =
n
c 60
36
= 0,833
⎝ c n ⎠ ⎝ 32 60 ⎠
www.FreeLibros.org
Muestreo bifásico y muestreo en ocasiones sucesivas 349
V (y) =
( ) (
S 2
n
122 (n
1) 20
60
0,7 2 (60
1)
= = 0,29
)
n 2
122 c 2 60 2
0,7 2 (60
36) 2
9.6. Se utiliza una muestra aleatoria simple de tamaño 100 de una población de 1000 personas
sin reposición y probabilidades iguales para repetir una encuesta sobre sus elementos en dos
ocasiones sucesivas preguntando sobre un carácter dicotómico. Se obtienen los resultados de
la tabla adjunta.
O1
O2 Sí No Total
Sí 80 5 85
No 10 5 15
Total 90 10 100
Pˆ (1
Pˆ2 )
Dˆ = Pˆ2
Pˆ1 ⇒ Vˆ ( Dˆ ) = Vˆ ( Pˆ2 ) + Vˆ ( Pˆ1 )
2Cov( Pˆ1 , Pˆ2 ) = (1
f ) 2 +
n
1
n
85 85
ˆ ˆ ∑ X 1i
X 2i
nPˆ1 Pˆ2 (1
)
P1 (1
P1 ) ⎛ 10 ⎞ 100 100
(1
f )
2(1
f ) i =1
= ⎜1
⎟ +
n
1 n(n
1) ⎝ 100 ⎠ 100
1
90 90 90 85
(1
) 80
100
⎛ 10 ⎞ 100 100 + 2⎜1
⎛ 10 ⎞ 100 100 = 0,00134
⎜1
⎟ ⎟
⎝ 100 ⎠ 100
1 ⎝ 100 ⎠ n(n
1)
n
Con los datos de la tabla se comprueba fácilmente que ∑X
i =1
1i
X 2i = 80 .
www.FreeLibros.org
350 Muestreo estadístico. Conceptos y problemas resueltos
EJERCICIOS PROPUESTOS
9.1. Se destinan 3000 unidades monetarias a una encuesta para estimar una proporción. La
encuesta principal costará 10 unidades monetarias por unidad de muestreo. Se dispone de
información en registros, a un coste de 0,25 unidades monetarias por unidad de muestreo,
que permite la clasificación de las unidades en dos estratos de tamaños casi iguales. Si la
proporción verdadera es 0,2 en el estrato 1 y 0,8 en el estrato 2, estimar n y n’ óptimas y el
valor resultante de V(pst). ¿Produce el muestreo bifásico alguna ganancia en precisión sobre
el muestreo aleatorio simple?
9.2. Si = 0,8 en muestreo doble para regresión, ¿cómo debe ser n’ con relación a n, si la pérdida
en precisión debida a errores de muestreo en la media de la muestra grande se desea que sea
menor del 10%?
9.3. En una aplicación de muestreo bifásico por regresión la muestra pequeña es de tamaño 87 y
la grande de tamaño 300. Para la muestra pequeña conocemos los siguientes datos:
∑ (X
x ) = 17283 ∑ (X
x )(Yi
y ) = 5114 ∑ (Y
y ) = 3248
2 2
i i i
i i i
9.4. En un muestreo en dos ocasiones se supone que S1=S2=S y que las muestras son grandes de
modo que los coeficientes de regresión de X2i respecto de X1i y de X1i respecto de X2i en la
parte apareada de las muestras en las dos ocasiones son ambas efectivamente iguales a .
Demostrar que si las estimaciones x1 y x2 se construyen usando la regresión de X1i respecto
de X2i se tiene:
2S 2 (1
) 2 S 2 (1 + )
v( x 2
x1 ) = v( x2 + x1 ) =
(n
u ) (n + u )
www.FreeLibros.org
CAPÍTULO
MUESTREO ESTADÍSTICO
MEDIANTE SPSS
OBJETIVOS
www.FreeLibros.org
352 Muestreo estadístico. Conceptos y problemas resueltos
ÍNDICE
1. SPSS y el muestreo estadístico.
www.FreeLibros.org
Muestreo estadístico mediante SPSS 353
En SPSS, una muestra compleja puede ser distinta de una muestra aleatoria simple en
muchos aspectos. En una muestra aleatoria simple, las unidades de muestreo individuales se
seleccionan aleatoriamente con la misma probabilidad y sin reposición (SR) directamente a
partir de la totalidad de la población. Por el contrario, una muestra compleja determinada
puede tener en SPSS alguna o todas las características siguientes:
www.FreeLibros.org
354 Muestreo estadístico. Conceptos y problemas resueltos
Figura 10-1
Figura 10-2
www.FreeLibros.org
Muestreo estadístico mediante SPSS 355
Figura 10-3
Algunos tipos de muestreo permiten elegir entre realizar un muestreo con reposición (CR)
o sin reposición (SR). Si desea obtener más información, consulte las descripciones de los tipos.
Tenga en cuenta que algunos tipos de probabilidad proporcional al tamaño (PPS) están
disponibles sólo cuando se han definido conglomerados y todos los tipos de PPS están
disponibles sólo en la primera etapa de un diseño. Además, los métodos SR están disponibles
sólo en la última etapa de un diseño.
www.FreeLibros.org
356 Muestreo estadístico. Conceptos y problemas resueltos
Figura 10-4
www.FreeLibros.org
Muestreo estadístico mediante SPSS 357
Figura 10-5
www.FreeLibros.org
358 Muestreo estadístico. Conceptos y problemas resueltos
Figura 10-6
Este paso permite elegir las variables que desea guardar cuando se extraiga la muestra.
Tamaño poblacional recoge el número estimado de unidades en la población de una etapa dada.
El nombre raíz de la variable guardada es TamañoPoblación_. Proporción muestral recoge la
tasa de la muestra en una etapa dada. El nombre raíz de la variable guardada es TasaMuestreo_.
Tamaño muestral recoge el número de unidades extraídas en una etapa dada. El nombre raíz de la
variable guardada es TamañoMuestra_. Ponderación muestral recoge la inversa de las
probabilidades de inclusión.
www.FreeLibros.org
Muestreo estadístico mediante SPSS 359
Figura 10-7
Ya estamos en condiciones de extraer la muestra según el diseño definido en los pasos
anteriores. Para ello elegimos Extraer muestra Opciones de selección en la parte izquierda de
la pantalla del Asistente de muestreo. También puede controlar otras opciones del muestreo,
como la semilla aleatoria y el tratamiento de los valores perdidos (Figura 10-8). Extraer muestra,
además de elegir si desea extraer una muestra, también puede elegir ejecutar parte del diseño
muestral. Las etapas se deben extraer en orden; es decir, la etapa 2 no se puede extraer a menos
que ya se haya extraído la etapa 1. Al editar o ejecutar un plan, no puede volver a muestrear
etapas bloqueadas. El campo Semilla permite elegir un valor de semilla para la generación de
números aleatorios. El campo Incluye los valores perdidos definidos por el usuario determina si
los valores perdidos definidos por el usuario son tratados como válidos. Si es así, los valores
perdidos definidos por el usuario se tratan como una categoría diferente. El campo Los datos ya
están ordenados permite acelerar el proceso de selección si el marco muestral está clasificado
previamente por los valores de las variables de estratificación.
Figura 10-8
www.FreeLibros.org
360 Muestreo estadístico. Conceptos y problemas resueltos
Las opciones de ¿Dónde desea almacenar los datos de la muestra? permiten determinar
dónde se escribe el resultado de la muestra. Se puede añadir al archivo de datos de trabajo o
guardar en un archivo externo. Si se especifica un archivo externo, se guardan en el archivo las
variables de los resultados del muestreo y las variables del archivo de datos de trabajo para los
casos seleccionados. Las opciones de ¿Dónde desea guardar las probabilidades conjuntas?
permiten determinar dónde se escriben las probabilidades conjuntas. Las probabilidades
conjuntas se producen si se seleccionan la probabilidad proporcional al tamaño sin reposición,
el muestreo de Brewer proporcional al tamaño, el muestreo de Sampford proporcional al
tamaño o el método de Murthy proporcional al tamaño y la estimación con reposición no se
especifica. En cuanto al campo Guardar reglas de selección de casos, si está construyendo la
muestra por etapas, es posible que quiera guardar las reglas de selección de casos en un
archivo de texto. Son útiles para construir el submarco de las etapas posteriores.
Figura 10-9
www.FreeLibros.org
Muestreo estadístico mediante SPSS 361
Figura 10-10
Al pulsar en Finalizar en la Figura 10-10 se obtiene la salida del procedimiento con la
sintaxis (Figura 10-11) y un resumen para las etapas (Figura 10-12).
www.FreeLibros.org
362 Muestreo estadístico. Conceptos y problemas resueltos
Para modificar un plan de muestreo existente, por ejemplo para guardar la muestra estratificada
anterior en una archivo nuevo de nombre PLAN2.SAV, elija en los menús: Analizar Muestras
complejas Seleccionar una muestra..., seleccione Editar un diseño muestral y elija el archivo de
plan anterior PLAN1.CSPLAN para editar (Figura 10-13). Pulse Siguiente para continuar usando el
Asistente. Revise el plan de muestreo del paso Resumen del plan (Figura 10-14), y a continuación
pulse Siguiente. En Extraer muestra Archivos de resultados especifique el archivo para guardar la
muestra (Figura 10-15). Vaya al paso final y especifique un nombre nuevo para el archivo de plan
editado (Figura 10-16). Si lo desea, tiene la posibilidad de Especificar las etapas que ya se han
muestreado y Eliminar etapas del plan.
Figura 10-13
Figura 10-14
www.FreeLibros.org
Muestreo estadístico mediante SPSS 363
Figura 10-15
Puede ocurrir que al pulsar Finalizar en la Figura 10-16, algunas variables a guardar
coincidan en nombre con las ya existentes. En ese caso, en la pantalla de la Figura 10-17 se hace clic en
Cambiar nombre y SPSS realiza los cambios adecuados. La Figura 10-18 muestra el nuevo archivo
PLAN2.SAV que contiene la muestra aleatoria.
Figura 10-16
www.FreeLibros.org
364 Muestreo estadístico. Conceptos y problemas resueltos
Elija en los menús Analizar Muestras complejas Seleccionar una muestra...(Figura 10-1).
En el Asistente de muestreo seleccione Extraer una muestra (Figura 10-13) y elija un
archivo de plan para ejecutar. Pulse Siguiente para continuar usando el Asistente. Revise el
plan de muestreo del paso Resumen del plan, y a continuación pulse Siguiente. Cuando se
ejecuta un plan de muestreo se omiten los pasos individuales que contienen información de
la etapa. Ya puede pasar al paso de finalización. Si lo desea, tiene la posibilidad de
especificar las etapas que ya se han muestreado.
El Asistente de preparación del análisis le guía a través de los pasos para crear o modificar un
plan de análisis y utilizarlo con los distintos procedimientos de análisis de muestras complejas.
Antes de utilizar el Asistente, debe haber extraído la muestra para el análisis de acuerdo con un
diseño complejo. Es más útil crear un plan nuevo cuando no se tiene acceso al archivo del plan
de muestreo utilizado para extraer la muestra (recuerde que el plan de muestreo contiene un
plan de análisis por defecto). Si no tiene acceso al archivo del plan de muestreo utilizado para
extraer la muestra, puede utilizar el plan de análisis contenido por defecto en el archivo del
plan de muestreo u omitir las especificaciones del análisis por defecto y guardar los cambios
en un archivo nuevo.
Para crear un nuevo plan de análisis, elija en los menús Analizar muestras complejas
Preparar para el análisis... (Figura 10-19), seleccione Crear un archivo de plan en la Figura
10-20 y elija un nombre de archivo de plan para guardar el plan del análisis. Crearemos un
plan de análisis de nombre PLANA.CSAPLAN para la muestra obtenida anteriormente y guardada
en el fichero PLAN2.SAV. Pulse Siguiente para continuar usando el Asistente. Especifique la
variable que contiene las ponderaciones muestrales en el paso Variables del diseño y, si lo desea,
puede definir estratos y conglomerados (Figura 10-21). Es posible seleccionar el método de
estimación de los errores típicos en el paso Método de estimación (Figura 10-22). También
puede especificar el número de unidades muestrales o la probabilidad de inclusión por unidad
en el paso Tamaño (Figuras 10-23 y 10-24).
www.FreeLibros.org
Muestreo estadístico mediante SPSS 365
Figura 10-19
Figura 10-20
Figura 10-21
www.FreeLibros.org
366 Muestreo estadístico. Conceptos y problemas resueltos
Figura 10-22
Figura 10-23
Figura 10-24
www.FreeLibros.org
Muestreo estadístico mediante SPSS 367
Figura 10-25
Figura 10-26
www.FreeLibros.org
368 Muestreo estadístico. Conceptos y problemas resueltos
Para modificar un plan de análisis existente elija en los menús Analizar Muestras
complejas Preparar para el análisis... (Figura 10-19), seleccione Editar un archivo de plan y
elija un nombre de archivo de plan en el que se guardará el plan del análisis (Figura 10-28). Pulse
Siguiente para continuar usando el Asistente. Revise el plan de análisis en el paso Resumen del
plan y, a continuación, pulse Siguiente. Los pasos posteriores son prácticamente iguales que los
de un diseño nuevo. Desplácese al paso de finalización y especifique un nombre nuevo para el
archivo de plan editado o sobrescriba el archivo de plan existente. Si lo desea, tiene la posibilidad
de eliminar etapas del plan.
Una vez seleccionada una muestra mediante el Asistente de muestreo que se activa con
Analizar Muestras complejas Seleccionar una muestra... (Figura 10-1), y preparada la
muestra para su análisis mediante el Asistente de preparación del análisis que se activa con
Analizar Muestras complejas Preparar para el análisis... (Figura 10-19), ya estamos
en disposición de calcular frecuencias, estadísticos, tablas de contingencia y razones a partir
de los datos de nuestra muestra.
www.FreeLibros.org
Muestreo estadístico mediante SPSS 369
www.FreeLibros.org
370 Muestreo estadístico. Conceptos y problemas resueltos
Figura 10-39
www.FreeLibros.org
Muestreo estadístico mediante SPSS 371
Figura 10-40
www.FreeLibros.org
372 Muestreo estadístico. Conceptos y problemas resueltos
www.FreeLibros.org
Muestreo estadístico mediante SPSS 373
www.FreeLibros.org
374 Muestreo estadístico. Conceptos y problemas resueltos
Figura 10-49
Figura 10-50
www.FreeLibros.org
www.FreeLibros.org
www.FreeLibros.org
www.FreeLibros.org
www.FreeLibros.org
www.FreeLibros.org
www.FreeLibros.org