Muestreo Estadistico PDF
Muestreo Estadistico PDF
Muestreo Estadistico PDF
A mis niñas
CONTENIDO
INTRODUCCIÓN ............................................................................................................................. xi
Los más de 150 problemas que contiene el texto, así como los conceptos teóricos, se
dirigen tanto a docentes como a estudiantes universitarios de todos los niveles que imparten o
cursan la materia de muestreo estadístico. El libro es también de utilidad para los profesionales de
la economía, biología, botánica, zoología, marketing, auditoría, agronomía, comercio, transporte,
medicina, control de calidad, etc. En general puede utilizarse en todos los sectores en los que se
aplican las técnicas de muestreo.
MUESTREO E
ESTADÍSTICO: CCONCEPTOS,
ESTIMADORES Y S
SU D
DISTRIBUCIÓN
OBJETIVOS
1. Presentar el concepto de muestreo estadístico en poblaciones finitas.
2. Distinguir claramente los conceptos de población, marco y muestra.
3. Introducir el concepto de estimador y su distribución en el muestreo.
4. Analizar las propiedades de los estimadores.
5. Estudiar la precisión de los estimadores.
6. Comparar estimadores.
7. Cuantificar la precisión de los estimadores.
8. Comprender el concepto de estimación mediante intervalos de confianza.
9. Analizar la influencia del sesgo en la estimación por intervalos de
confianza.
10. Analizar la influencia de la normalidad en la estimación por intervalos de
confianza.
11. Realizar la estimación mediante intervalos de confianza.
2 Muestreo estadístico. Conceptos y problemas resueltos
ÍNDICE
1. Conceptos iniciales en la teoría del muestreo.
2. Muestreo y estimadores. Distribuciones en el muestreo.
3. Propiedades y precisión de los estimadores. Comparación de estimadores.
4. Estimación por intervalos de confianza.
5. Problemas resueltos.
6. Ejercicios propuestos.
Muestreo estadístico: conceptos, estimadores y su distribución 3
Consideramos los sucesos elementales asociados a un fenómeno o experimento aleatorio dado S , 1
S , ..., S , entendiendo por sucesos elementales los más simples posibles, es decir, aquellos que no
2 m
pueden ser descompuestos en otros sucesos. El conjunto {S , S , ..., S } se denomina espacio
1 2 m
N mediante un método de muestreo dado , suele denotarse como s = {u , u , ..., u }. De esta forma,
1 2 n
El conjunto de las N muestras posibles de tamaño n que se pueden formar con los N
n
unidad U i = 1, 2 ,..., n. Consideramos ahora una cierta función de los N valores X , por
i i
ejemplo, el total poblacional ( X , ...,X ) = ∑ X para la característica X , o la media poblacional
1 N i
( X , ..., X ) = (∑ X )/ N para la característica X , que suele denominarse parámetro poblacional .
1 N i
Seleccionamos una muestra s, y a partir de ella queremos estimar el parámetro poblacional
mediante una función = ( s( X ))= ( X , ..., X ), basada en los valores X i = 1, 2 , ..., n, que toma
ˆ ˆ ˆ
1 n i
la característica X sobre las unidades de la muestra s (por ejemplo, el total muestral ( X , ..., X ) ˆ
1 n
= ∑ X , o la media muestral ( X , ..., X ) = (∑ X )/n, para estimar el total poblacional o la media
i
ˆ
1 n i
poblacional, respectivamente. La función que asocia a cada muestra s el valor numérico
ˆ
( s( X )) = ( X , ..., X ) , se denomina estimador del parámetro poblacional . A los valores
ˆ ˆ
1 n
2 2 2 2 1
P ( 4,3) = P {4,3} + P {3,4} = P (4) P (3 / 4) + P (3) P (4 / 3) = + =
6 4 6 4 3
2 1 1 2 3
P ( 4,8) = P {4,8} + P {8,4} = P (4) P (8 / 4) + P (8) P (4 / 8) = + =
6 4 6 5 20
2 1 1 2 3
P (3,8) = P {3,8} + P {8,3} = P (3) P (8 / 3) + P (8) P (3 / 8) = + =
6 4 6 5 20
Las probabilidades anteriores también pueden calcularse mediante la expresión
P(ui,u j) = P(ui)P(u j/ui) + P(u j)P(ui/u j)=P(ui)P(u j)/(1-P(ui))+P(u j)P(ui)/(1-P(u j)) = PiPj/(1-Pi) + PiPj(1-Pj).
T ˆ 3 T ˆ 24 3
P ( M = 5) = P (6,4) = 20 P ( X H =
5
) = P (6,4) =
20
P T ( M
ˆ = 9 ) = P (6,3) = 3 P T ( X ˆ = 4) = P (6,3) =
3
2 20 H
20
ˆ = 7) = P (6,8) = 1
P T ( M P T ( X ˆ =
48
) = P (6,8) =
1
ˆ ˆ
H
15 7 15
M X H
ˆ = 7 ) = P (4,3) = 1
P T ( M P T ( X ˆ =
24
) = P (4,3) =
1
2 3 H
7 3
ˆ = 6) = P (4,8) = 3
P T ( M P T ( X ˆ H
16
= ) = P (4,8) =
3
20 3 20
T T ˆ
P ( M ˆ = 11) = P (3,8) = 3 P ( X H =
48
) = P (3,8) =
3
2 20 11 20
ˆ 24 3 3 48 1 24 1 16 3 48 3
E ( X H ) = + 4 + + + + = 4,37 X H = 4,57
5 20 20 7 15 7 3 3 20 11 20
Vemos que los dos estimadores son sesgados y los valores de sus sesgos son:
ˆ) ˆ ˆ ˆ
B(M = E ( X ) X = 4,78 5 = 0,22 B( X H ) = E ( X H ) X H = 4,37 4,57 = 0,2
ˆ ˆ 24 3 3 48 1
V ( X H ) = E ( X H 4,37) 2 = ( 4,37) 2 + (4 4,37) 2 + ( 4,37) 2
5 20 20 7 15
24 1 16 3 48 3
+ ( 4,37) 2 + ( 4,37) 2 + ( 4,37) 2 = 0,89
7 3 3 20 11 20
Ya que los dos estimadores son sesgados se pueden hacer las comparaciones a través
B i
ˆ
del error cuadrático medio, pero antes se deben calcular las cantidades para ver si el
( )
i
ˆ
ˆ) ˆ
B(M 0,22 B( X H ) 0,2
= = 0.2, = = 0,2
ˆ)
(M 1,19 ˆ 0,89
( X )
H
Los dos valores son superiores a 1/10, con lo que el sesgo no resulta despreciable en
ningún caso (los dos estimadores son igualmente precisos según la razón del sesgo a la
desviación típica). Calculamos ahora los errores cuadráticos medios para aquilatar mejor la
diferencia de precisiones y ver realmente qué estimador es mejor.
ˆ)
ECM (M ˆ 5)2 = (5 5)2 3 + ( 9 5)2 3 + (7 5)2 1 + ( 7 5)2 1 + (6 5)2 3 + (11 5)2 3 = 1,24
= E (M
20 2 20 15 2 3 20 2 20
ˆ ˆ 24 3 3 48 1 24 1
ECM ( X H ) = E ( X H 4,57)2 = ( 4,57)2 + (4 4,57)2 + ( 4,57)2 + ( 4,57)2
5 20 20 7 15 7 3
16 3 48 3
+ ( 4,57)2 + ( 4,57)2 = 0,93
3 20 11 20
El mejor estimador resulta ser la media armónica porque tiene menor error
cuadrático medio. Para cuantificar las ganancias en precisión calculamos:
1, 24
1 100 = 33 ,33
0 ,93
Tenemos:
ˆ [7 / 2 3
M 1,19 | 0,22 |, 7 / 2 + 3 1,19 + | 0,22 |] = [0,004, 6,99]
ˆ
X [24 / 7 3 0,89 | 0,2 |, 24 / 7 + 3 0,89 + | 0,2 |] = [0,39, 6,45]
H
T 1
ˆ
= Proporción de subíndices pares en la muestra
T = Total de subíndices impares en la muestra
ˆ
1, 2 , 3 4, 5
U 1 U 2
Como en la urna U seleccionamos dos bolas sin reposición, las posibilidades son
1
( A A ), ( A A ) y ( A A ). Como para cada par de bolas seleccionadas de la urna U se
1 2 1 3 2 3 1
selecciona una bola en la urna U , las posibles muestras de tres elementos serán ( A A A ), 2 1 2 4
P( A A A ) = P( A A /U )P( A /U ) + P( A A /U )P( A /U ) = P ( A )P ( A /A )P ( A ) +
1 2 4 1 2 1 4 2 2 1 1 4 2 1 1 1 2 1 2 4
P( A A A ) = P( A A /U )P( A /U ) + P( A A /U )P( A /U ) = P ( A )P ( A / A )P ( A ) +
1 2 5 1 2 1 5 2 2 1 1 5 2 1 1 1 2 1 2 5
valores de los dos estimadores del problema sobre las mismas T̂ y T̂ , datos que van a 1 2
A1 A 2 A 4 1 / 6 2 / 3 1
A1 A 2 A 5 1 / 6 1 / 3 2
A1 A 3 A 4 1 / 6 1 / 3 2
A1 A 3 A 5 1 / 6 0 3
A 2 A 3 A 4 1 / 6 2 / 3 1
A 2 A 3 A 5 1 / 6 1 / 3 2
T ˆ 1 1 T ˆ 1 1
P (T 1= 2 / 3) = 2 = P (T 2 = 1) = 2 =
6 3 6 3
ˆ T ˆ = 1 / 3) = 3 1 = 1 ˆ T ˆ = 2) = 3 1 = 1
1 1
T P (T 1
T P (T 2
6 2 6 2
T ˆ 1 T ˆ 1
P (T 1
= 0) = P (T 2
= 3) =
6 6
, que son los parámetros que estamos estimando con los estimadores T y T̂ respectivamente.
2
ˆ
1
,
2
Se tiene:
ˆ) 2 1 1 1 1
E (T
1
=
+ + 0 = 7 / 18 = 0,388888888 2 / 5 = 1
3 3 3 2 6
ˆ ) = 1 1 + 2 1 + 3 1 = 11 / 6 = 1,8333333333 3 =
E (T
2 2
3 2 6
El estimador T es sesgado con sesgo B( T̂ ) = E ( T̂ ) =7/18 2/5 = 1/90 =
ˆ
1 1 1 1
0,0111, y el estimador T̂ también es sesgado con sesgo B( T̂ ) = E ( T̂ ) = 11/6 3 =
2 2 2 2
Como |B( T̂ )/( T̂ )| = 0,0485 < 1/10, el sesgo del estimador T̂ es despreciable, por lo
1 1 1
que este puede considerarse a todos los efectos insesgado. Como | B( T̂ )/( T̂ )| = 1,69 > 1/10
2 2
pues su error cuadrático medio es mucho menor que el de T̂ . La ganancia en precisión por
2
1
ˆ
Para hallar un intervalo de confianza para T̂ (que es insesgado) basado en la primera
1
[T ˆ1 T ˆ1 , T ˆ1 + T ˆ1 ] = [2 / 3 1.96* 0.229, 2 / 3 + 1.96* 0.229] = [0.217, 1.15]
coeficiente de curtosis g de T caen en el intervalo [-2,2]. El coeficiente de asimetría depende
2
ˆ
ˆ) 2 1 1 1 1
m 3(T
1
=( 0,388 ) 3
+ ( 0,388 ) 3 + (0 0,388 ) 3 = 0, 22
3 3 3 2 6
ˆ ) = ( 2 0,388 ) 4 1 + ( 1 0,388 ) 4 1 + ( 0 0,388 ) 4 1 = 0,89
m 4(T 1
3 3 3 2 6
Si no hubiera habido normalidad, el intervalo de confianza para T̂ 1 se habría calculado
como sigue:
ˆ
T 1
( )
T ˆ1 ˆ T ˆ1
, T 1 +
( )
= 2 / 3
0,229
, 2/3+
0,229
= [0.357, 1.69]
0 ,05 0 ,05
Se observa que el intervalo de confianza para T̂ 1 sin existir normalidad es más ancho,
es decir, es menos preciso.
Muestreo estadístico: conceptos, estimadores y su distribución 17
Para hallar un intervalo de confianza para T̂ 2 (que es sesgado) basado en la primera
muestra, realizamos los siguientes cálculos:
[T ˆ2 T ˆ2 | B T ˆ2 |, T ˆ2 + T ˆ2 + | B T ˆ2 |] = [1 1.96* 0.687+ 0.16, 1 + 1.96* 0.687+ 0.16] = [1.513, 3.513]
Se observa que el intervalo de confianza del estimador menos preciso es más ancho.
Los cálculos pueden automatizarse con Excel como sigue:
18 Muestreo estadístico. Conceptos y problemas resueltos
mediante el siguiente método de muestreo: Se extraen al azar 2 bolas de una urna que
contiene 6 bolas (tres con el número 1, dos con el número 2 y una con el número 3), y se
extraen de la población las dos unidades que tengan los mismos números que las dos bolas
extraídas. Se pide:
1) Considerando la extracción de las bolas en la urna con reposición y el estimador por analogía
T= Número de unidades distintas en las muestras, hallar su distribución en el muestreo
analizando su precisión. Obtener una estimación puntual del número de unidades distintas en
la población y otra por intervalos al 99,8% de confianza ( F (0,999) = 3) basándose en la
-1
2) Contestar a las preguntas del apartado anterior suponiendo que la extracción de las bolas en la
urna sin reposición. Comparar las estimaciones en los dos casos comentando los resultados.
Para hallar el espacio muestral asociado a este procedimiento de muestreo sin reposición
consideramos la urna U con 6 bolas (tres con el número 1, dos con el número 2 y una con el
número 3).
1 2
1 1 2
U
Como en la urna U seleccionamos dos bolas sin reposición, las posibilidades son
(1,1), (1,2), (1,3), (2,2) y (2,3).
3 2 1
P (1,1) = P 1 (1) + P 2 (1 / 1) = =
6 5 5
3 2 2 3 2
P (1,2) = P {1,2} + P {2,1} = P 1 (1) P 2 (2 / 1) + P 1 (2) P 2 (1 / 2) = + =
6 5 6 5 5
3 1 1 3 1
P (1,3) = P {1,3} + P {3,1} = P 1 (1) P 2 (3 / 1) + P 1 (3) P 2 (1 / 3) = + =
6 5 6 5 5
2 1 1
P ( 2,2) = P 1 ( 2) P 2 ( 2 / 2) = =
6 5 15
2 1 1 2 2
P (2,3) = P {2,3} + P {3,2} = P 1 (2) P 2 (3 / 2) + P 1 (3) P 2 (2 / 3) = + =
6 5 6 5 15
Ya podemos formar la tabla con las muestras del espacio muestral S_X , sus
probabilidades P y los valores del estimador T del problema sobre las mismas, datos que nos
i
T 1 1 4
P (T = 1) = + =
5 15 15
T
P T (T = 2) = 2 + 1 + 2 = 11
5 5 15 15
4 11
V (T ) = (1 1,733 ) 2 + ( 2 1,733 ) 2 = 0,1955
15 15
3 3 1
P (1,1) = P (1) P (1) = =
6 6 4
3 2 1
P (1,2) = 2 P (1) P ( 2) = 2 =
6 5 3
3 1 1
P (1,3) = 2 P (1) P (3) = 2 =
6 6 6
2 2 1
P (2,2) = P (2) P (2) = =
6 6 9
2 1 1
P (2,3) = 2 P (2) P (3) = 2 =
6 6 9
1 1 1
P (3,3) = P (3) P (3) = =
6 6 36
Ya podemos formar la tabla con las muestras del espacio muestral S_X , sus
probabilidades P y los valores del estimador T del problema sobre las mismas, datos que nos
i
T 1 1 1 7
P (T = 1) = + + =
4 9 36 18
T
P T (T = 2) = 1 + 1 + 1 = 11
3 6 9 18
F(x)
NA
-1
x=F (NA) x
Dado el número aleatoria NA, se toma para la muestra el valor x tal que x= F -1(NA).
64 Muestreo estadístico. Conceptos y problemas resueltos
PROBLEMAS RESUELTOS
2.1. Un investigador desea muestrear tres hospitales de entre los seis que existen en una ciudad,
con el propósito de estimar la proporción de pacientes que han estado (o estarán) en el
hospital por más de dos días consecutivos. Puesto que los hospitales varían en tamaño, éstos
serán muestreados con probabilidades proporcionales al número de sus pacientes. Con la
información sobre los hospitales dada en la tabla adjunta se selecciona una muestra de tres
hospitales con probabilidades proporcionales al tamaño (número de pacientes) con reposición
utilizando el modelo del tamaño acumulativo (o modelo polinomial).
Puesto que serán seleccionados tres hospitales, deben ser elegidos tres números aleatorios entre el
0001 y el 1559 = ∑Pacientes. Nuestros números elegidos son 1505, 1256 y 0827. ¿Qué
hospitales serán elegidos para la muestra? Supóngase que los hospitales muestreados registraron
los siguientes datos sobre el número de pacientes con permanencia de más de dos días:
1) Estimar la proporción de pacientes con permanencia superior a dos días para los seis
hospitales.
2) Establecer un límite para el error de estimación con una confianza del 95%.
Para seleccionar tres hospitales para la muestra se eligen tres números aleatorios
entre 0001 y 1559 que resultan ser el 1505, el 1256 y el 0827. Localizados estos números en
la columna de los intervalos acumulados, seleccionamos para la muestra los hospitales 3, 5 y
6. A continuación se presenta un esquema ilustrativo de la selección de las unidades
muestrales.
Muestreo estadístico: conceptos, estimadores y su distribución 65
M3 = 432
M5=280
M4=220 M2=109 A2 = 150
PPT M3=432 P 2=150/280
M5=280 A3 = 250 A1=80
80
P3=250/432 P1=
190
M6=190 M1=328 M6=190
N = 6, M=1559 n=3
ˆ 1 ˆ 1 n
X i 1 n
M i X i 1 n
ˆ=1
n
1 80 150 250
X = X
HH
= ∑ nP = ∑ = ∑ X i
⇒ P ∑ P ˆ = 3 190 + 280 + 432 = 0,51
i
M M i i
M i
n
M i n i n i
M
Por lo tanto, se estima que un 51% de los pacientes permanece más de dos días en el
hospital. A continuación hallamos el error de esta estimación.
2
X
2
i
1 Y n ˆ 1 M n
ˆ 1 ˆ
n
2
ˆ ( ˆ ) =
V ∑ ˆ i
⇒ V ˆ ( X )= ∑ X = ∑ X X
n(n 1) = P
HH HH HH HH i HH
M
con lo que se tiene:
∑ ( P ˆ P ˆ )
n
2
1 80
2 2 2
150 250
()
i
ˆ P
V ˆ = i
= 0,51 + 0,51 + 0,51 = 0,0022
n n ( 1) 3 2 190 280 432
ˆ P
C ˆ = () V ( )=
ˆ P
ˆ 0,0022
= 0,0091 1%
v
ˆ
P 0,51
ˆ ± V ˆ ( P
P ˆ ) = 0,51 ± 1,96 0,0022 = [0.4, 0.6] 95 % confianza
2.2. Una multinacional tiene un total de 40.000 trabajadores distribuidos en 400 fábricas de 100
obreros cada una. Una muestra aleatoria con probabilidades iguales sin reposición de 25
fábricas presenta la siguiente distribución de obreros mayores de 50 años:
Total de obreros
12 17 23 33 36
mayores de 50 años
N º de fábricas
2 3 9 5 6
de la muestra
Estimar el total y la proporción de obreros de la multinacional con más de 50 años, así como
sus errores de muestreo absolutos y relativos.
Muestreo estadístico: conceptos, estimadores y su distribución 67
9
M2=100 A3 = 23
PI 3
A4 = 33
5 A2 = 17
SR
M400=100 M1=100 A5 = 36 A1 = 12
6 2
N = 400 n = 20
[
= 9,957 2 3(12 17 ) + L + 5 6(33 36) 2 = 386906,5
2
]
Las operaciones anteriores totalmente desarrolladas se muestran a continuación.
ˆ ( Aˆ )
V = 9,957[2*3(12-17)2+2*9(12-23)2+2*5(12-33)2+2*6(12-36)2+3*9(17-23)2+3*5(17-33)2
HT
( Aˆ ) 622
HT
relativo valdrá 100 = 100 = 0,05863 5,8%
ˆ
A 10608
HT
ˆ )
( P 0,0155
HT
relativo valdrá 100 = 100 = 0,05863 5,8% .
ˆ
P 0,2642
HT
68 Muestreo estadístico. Conceptos y problemas resueltos
Grupos ( Población) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
M i
44 33 26 22 76 63 20 44 54 34 46 24 46 100 15
Extraemos una muestra de cinco grupos con probabilidades proporcionales a los tamaños de
los grupos con reemplazo y anotamos el total de horas durante una semana que todos los
estudiantes de cada grupo han empleado para estudiar la materia de Introducción a la
Estadística. Los datos se recogen en la siguiente tabla:
Grupos ( Muestra) a b c d e
Horas 120 203 100 90 40
Podemos realizar la disposición de los cálculos del método del tamaño acumulativo y
la obtención de los cinco números aleatorios, como se indica en la siguiente hoja de Excel.
La muestra estará formada por los grupos {6, 14, 11, 9, 7} cuyos tamaños son los
siguientes:
Grupos ( Muestra) 6 14 11 9 7
Tamaños ( M i ) 63 100 54 46 20
y el número total de horas semanales empleadas por los estudiantes de esos grupos para
estudiar la materia Introducción a la Estadística es el siguiente:
Grupos ( Muestra) 6 14 11 9 7
Horas ( X i ) 120 203 100 90 40
ˆ 1 ˆ 1 n
X i 1 n
X i 1 n
X i 1 n
1 120 203 100 90 40
X HH = X HH
M
=
M
∑ nP = M ∑ M i
=
n
∑ M =
n
∑ X i
=
5 63
+
100
+
54
+
46 20
+ = 1,94
i i i i i i
n
M
Por lo tanto, se estima que el promedio de horas semanales que dedican los
estudiantes a la materia de Introducción a la Estadística es algo inferior a dos horas. A
continuación hallamos el error de esta estimación.
2
X
2
1 1 1 n
1 1 X n
V
ˆ
ˆ ( X )= ˆ ( X
V ˆ )= ∑ ˆ
X i
= ∑ M X
ˆ i
HH 2 HH 2
n(n 1) = HH
M n(n 1) = M
2
HH
M M
P i 1 i
i 1 i
M
2 2
X ˆ X ˆ
2
1 1
n
M
2
1
n
1 ˆ
n
∑ ∑ ∑
i i
= M
M M
X
= HH X =
n(n 1) = X X
HH i HH
2 2
M n(n 1) = i 1 M i
n(n 1) = M
i 1 i i 1
1 120
2 2 2 2 2
ˆ
ˆ X
V
HH
ˆ P
C
v
ˆ ( )= ˆ
=
0,0034
1,94
= 0,03 3%
X HH
ˆ ˆ
X HH ± V ˆ ( X HH ) = 0,51 ± 1,96 0,0034 = [1.83, 2.06 ] 95 % confianza
La muestra estará formada por los grupos {5, 9, 14, 13, 12} cuyos tamaños son los
siguientes:
Grupos ( Muestra) 5 9 14 13 12
Tamaños ( M i ) 76 54 100 46 24
y el número total de horas semanales empleadas por los estudiantes de esos grupos para
estudiar la materia Introducción a la Estadística es el siguiente:
Grupos ( Muestra) 5 9 14 13 12
Horas ( X i ) 120 203 100 90 40
ˆ 1 ˆ 1 n
X i 1 n
X i 1 n
X i 1 n
1 120 203 100 90 40
X HH = X HH = ∑ nP = M ∑ M i
= ∑ M = ∑ X = 5 76 +
i
+ + + = 1,99
M M i i i
n
n i i
n i 54 100 46 24
M
Por lo tanto, se estima que el promedio de horas semanales que dedican los
estudiantes a la materia de Introducción a la Estadística es prácticamente dos horas. A
continuación hallamos el error de esta estimación.
2
X
2
1 n
X n
ˆ
ˆ ( X ˆ )V ˆ ( ˆ ) = 1
) = 2 V ˆ ( X
1
ˆ = 1 1 ˆ
∑ ∑
i i
V X M X
n(n 1) = P
M n(n 1) = M
HH HH HH 2 HH 2 HH
M M
i 1 i i 1 i
M
2 2
X M X
2
1 1 n
ˆ
2
1 n
ˆ 1 ˆ
n
= 2 ∑ M M X i
HH
= 2 ∑ X i
HH
= ∑ X X i HH
M n(n 1) = i 1M i M n(n 1) = M i 1 i n(n 1) = i 1
1 120
2 2 2 2 2
ˆ
ˆ X
V
ˆ X ˆ = HH
0,73
C = = 0,429 43%
v
HH
ˆ
X HH 1,99
ˆ ˆ
X HH ± V ˆ ( X HH ) = 1,99 ± 1,96 0,73 = [0.31, 3.66 ] 95 % confianza
2
Muestreo estadístico: conceptos, estimadores y su distribución 101
6 2 1 3 X i
2
4 1 X X X 4 1 12
3 4 2
2 2 2 2
(ˆ
V X SCG
) = 6 1 2 ∑ P X =
2
+ + 8 = +
1
+ 2
8 = 0,4
3 2 2
=
i 1 i 5 2 P P P 5 2 1/ 6 1/ 3 1/ 2
1 2 3
Para el caso de muestreo con reposición sin importar el orden de colocación de los
elementos en las muestras la probabilidad de cualquier muestra será:
2
P(u ,u
i j ) = P( ui)P(u j )+ P(u j )P(ui) = 2 P( ui)P(u j ) y P(u ,u
i i) = [P( ui)]
Las muestras posibles son ( u1,u1), (u1,u2), (u1,u3), (u2,u2) (u2,u3) y (u3,u3) con P 1 =
p(u1) = 1/6, P 2 = p(u2) = 1/3 y P 3 = p(u3) = 1/2,. Como estamos en muestreo con reposición el
estimador lineal insesgado para el total es el estimador de Hansen y Hurwitz ( X HH = X 1/2 P 1 +
ˆ
X
1 n
2
1 X X 2
2
ˆ ( X
V ˆ
HH
)= ∑ n X ˆ i 2
HH
= +
1 2
2 X ˆ 2
HH
n( n 1) = P 2 ( 2 1) P
P
i 1 i 1 2
1 X 1
2 2
X 1 X 2 X
X 1 X 2 P ij = P ( u i , u j ) ˆ
X = + ˆ ( X
V ˆ )= + 2
2 X ˆ HH 2
2 P
HH HH
2 P 1 2 P 2
1 P 2
1 1 0 ,1666 6 0
1 3 0 ,1666 7 ,5 2 , 25
1 4 0 ,1666 7 1
3 3 0 , 3333 9 0
3 4 0 , 3333 8 ,5 0 , 25
4 4 0 ,5 8 0
ˆ ( X
V (V ˆ )) = (0-0,5)2(0,1666) + … + (0-0,5) 2(0,5) = 0,5.
HH
102 Muestreo estadístico. Conceptos y problemas resueltos
El cálculo de la varianza del estimador del total de Hansen y Hurwitz también puede
realizarse a través de su fórmula correspondiente como sigue:
1 3
2
X i 1 X 12 X 22 X 32 2 1 12 32 42
( )=
ˆ
V X ∑ X =
2
+ + 8 = + + 82 = 0,5
2 i =1 P i
HT
2 P 1 P 2 P 3 2 1/ 6 1/ 3 1/ 2
M n
ˆ
Observando los resultados vemos que se cumple V ( X )= ˆ ) , ya que
V ( X
SCG HH
M 1
0,4=[(6-2)/(6-1)]0,5.
M n ˆ ˆ
Además, V ˆ ( X
ˆ
SCG
)= V ( X HH
ˆ ( X
) , ya que V ˆ
SCG
) = [(6-2)/6] V ˆ ( X ˆ HH ) para
M
todos los elementos correspondientes de las columnas consideradas en las tablas anteriores.
ˆ
Como V ( X ) =0,4 y V X HT =0,5, el método de selección con probabilidades
ˆ
SCG
gradualmente variables con el estimador de Sánchez Crespo y Gabeiras resulta más preciso
que el método de selección con reposición de Hansen y Hurwitz.
2.16. Supongamos que tenemos una población de N = 5 niños para los que sus edades correspondientes en
años son {3, 3, 4, 6, 8} y sus pesos en kilos son {10, 16, 16, 25, 33}. Se toman muestras sin reposi-
ción de tamaño 2 de la población de niños con probabilidades proporcionales a sus pesos. Se pide:
1) Obtener un etimador lineal insesgado para la edad media de los niños basado en la muestra de
mayor probabilidad, así como su error de muestreo.
2) Si consideramos la selección de la primera unidad muestral proporcional al peso y la segunda
con probabilidades iguales, obtener un estimador lineal insesgado para la edad media de los
niños basado en la muestra (4,8) así como su error de muestreo.
Como no se especifica nada respecto al orden de colocación de los elementos en las muestras y
el muestreo es sin reposición, supondremos que el orden no interviene. Habrá entonces
5
=10 muestras posibles, que son: (3,3), (3,4), (3,6), (3,8), (3,4), (3,6), (3,8), (4,6), (4,8) y (6,8).
2
Las probabilidades iniciales de selección P i proporcionales a M 1=10, M 2=16, M 3=16,
M 4=25 y M 5=33 originan los siguientes valores: P i = {M 1/M =1/10, M 2/M =4/25, M 3/M =4/25,
M 4/M =1/4, M 5/M =33/100}. Las probabilidades ij se calcularán de la siguiente forma:
Y como ya conocemos las P i, para calcular las probabilidades ij basta sustituir en la
fórmula anterior. También es posible el cálculo como sigue:
1 = 12+ 13+ 14+ 15=0,0368+0,0368+0,0611+0,0859=0,22069
2 = 12+ 23+ 24+ 25=0,0368+0,0609+0,1009+0,1416=0,34039
3 = 13+ 23+ 34+ 35=0,0368+0,0609+0,1009+0,1416=0,34039
4 = 14+ 24+ 34+ 45=0,0611+0,1009+0,1009+0,2331=0,49614
5 = 15+ 25+ 35+ 45=0,0859+0,1416+0,1416+0,2331=0,60237
También pueden calcularse los i mediante una expresión que los haga depender
solamente de los P i, tal y como se indica a continuación.
i = P (ui ( x~)) = P (ui 1ª ) + P (ui 2ª u j i 1ª ) = P (ui 1ª ) +
P (ui 2ª / u j i 1ª ) P (u j i 1ª ) = P (ui 1ª ) + ∑ P (ui 2ª / u j 1ª ) P (u j 1ª )
j i
P j P
= P i + ∑
M i
P j = P i + ∑
P i
P j = P i 1 + ∑ = P i 1 2 P i + P i + ∑ j
M M j 1 P j j i 1 P
1 P i j i 1 P
j i j i
j j
1 2 P i P i P j
1 2 P i N P j 1 2 P i N P i
= P i
1 P i 1 P i ∑
= P i + + = P i +∑ +∑
1 P 1 P 1 P 1 1
1 44 4
j i
244 4 3
j i j = j 1 P
i i= P
i 1
Y como ya conocemos las P i, para calcular las probabilidades ij basta sustituir en
la fórmula anterior, con lo que se obtienen los mismos resultados. El diseño muestral será el
siguiente:
2 2
X i ˆ 1 X i
ˆ
S ( X ) P ( X ) = ij X HT
= ∑ X HT =
N
∑
i =1 i i =1 i
(3,3) 0,0368 3 / 0,22069 + 3 / 0,34039 = 22 , 41 4, 482
(3,4 ) 0,0368 3 / 0,22069 + 4 / 0,34039 = 25,34 5,068
(3,6 ) 0,0611 3 / 0, 22069 + 6 / 0, 49614 = 25,69 5,138
(3,8) 0,0859 3 / 0, 22069 + 8 / 0,60237 = 26 ,87 5,374
(3,4 ) 0,0609 3 / 0,34039 + 4 / 0,34039 = 20 ,56 4,112
(3,6 ) 0,1009 3 / 0,34039 + 6 / 0, 49614 = 20 ,91 4,182
(3,8) 0,1416 3 / 0,34039 + 8 / 0,60237 = 22 ,09 4, 418
( 4, 6 ) 0,1009 4 / 0,34039 + 6 / 0, 49614 = 23,84 4,768
( 4,8) 0,1416 4 / 0,34039 + 8 / 0,60237 = 25,03 5,006
( 6,8) 0, 2331 6 / 0, 49614 + 8 / 0,60237 = 25,37 5,074
104 Muestreo estadístico. Conceptos y problemas resueltos
Para calcular las varianzas de estos estimadores se pueden utilizar directamente las
fórmulas adecuadas, o bien se puede calcular la distribución en el muestreo de los estimadores.
1
(1 ) + L +
1
5
(1 ) +
5
i =1 i i =1 j >i
X X
2 2
X X 3 8
+ 2 1
( ) + L +
2
12
( ) =
1 2
(1 0,22069) + L +
4 5
(1 0,60237)
45 4 5
1 2
0,22069 4
0,602375
3
+ 2
3
(0,03683 0,22069* 0,34039) + L + 6 8
(0,23313 0,49614* 0,60237)
0,22069 0,34039 0,49614 0,60237
=4,25.
ˆ ˆ ˆ ˆ )
Para la media, como V X HT
= N 2V ( X HT ) ⇒ V ( X HT ) = V ( X HT
/25 = 4,25/25 = 0,17.
ˆ X
V ˆ
2 2
( ) = ∑ (1 ) + 2∑∑
X i 2 2
X i X j ( ) = X (1 ) + X (1 ) + 2 X X (
ij i j
2
1
2
2 1 2 12
)
1 2
= 0,41
HT 2 i
j
2 1 2 2
i =1 i i =1 j > i i ij 1 2 1 2 12
ˆ
Para la media, V ˆ ( X HT ) = V ˆ ( X
ˆ ) /25 = 0,41/25 = 0,016.
HT
Calculamos ahora los i mediante una expresión que los haga depender solamente de
los P i, tal y como se indica a continuación.
1 1 1 3 1
= P i + ∑ P
j
= P i + ∑ P = P + 4 (1 P ) = 4 P + 4
j i i i
j i 4 4 j i
Muestreo estadístico: conceptos, estimadores y su distribución 105
Se observa que estamos ante el método de selección sin reposición de Ikeda para el
caso de tamaño de muestra n=2, con lo que las i y ij también podrían haberse calculado
mediante las expresiones siguientes (se obtendrían los mismos resultados):
n 1 N n n 1
= P + (1 P ) *
i i i
= * P i +
N 1 N 1 N 1
n 1 N n n2
ij = *
N 2 ( P i + P j ) + N 2
N 1
Ya tenemos todos los datos para calcular los valores de i y ij pues sólo dependen de P i ,
y P
j que son datos. También podemos calcular ya el estimador X HT . El diseño muestral será:
ˆ
P i + P j 2
X i 3 1
S ( X ) P ( X ) = ij = ˆ
X =∑ i = P i +
HT
4 i i =1 4 4
(3,3) 0,065 3 / 0,325 + 3 / 0,37 = 17,34
(3,4) 0,065 3 / 0,325 + 4 / 0,37 = 20,04
(3,6) 0,0875 3 / 0,325 + 6 / 0,4375 = 22,95 0,325
(3,8) 0,1075 3 / 0,325 + 8 / 0,4975 = 25,31 0,37
(3,4) 0,08 3 / 0,37 + 4 / 0,37 = 18,92 0,37
(3,6) 0,1025 3 / 0,37 + 6 / 0,4375 = 21,82 0,4375
(3,8) 0,1225 3 / 0,37 + 8 / 0,4975 = 24,19 0,4975
(4,6) 0,1025 4 / 0,37 + 6 / 0,4375 = 24,53
(4,8) 0,1225 4 / 0,37 + 8 / 0,4975 = 26,90
(6,8) 0,145 6 / 0,4375 + 8 / 0,4975 = 29,8
Vemos que para la muestra (4,8) el estimador insesgado de Horvitz y Thompson para
el total poblacional vale 26,90 y para la media 26,90/5 = 5,38. Sigue obteniéndose que la edad
media estimada de los niños es 5 años aproximadamente.
Para hallar la varianza del estimador del total se puede utilizar su distribución en el
muestreo o bien se puede aplicar directamente la fórmula apropiada tal y como se indica a
continuación:
2 2 2
X i X j
5 5 5
( ) = ∑ (1 ) + 2∑∑
ˆ
V X
HT
X i
i
j
( ) =
ij i j
X 1
(1 ) + L +1
X 5
(1 ) +
5
i =1 i i =1 j > i i 1 5
X X 3 8
2 2
+ 2 1
( ) + L + X X ( ) =
2
12 1 2
(1 0,325) + L +
4 5
(1 0,4975)
45 4 5
1
2
0,325 4 5
0,4975
3
+ 2
3
(0,065 0,325* 0,37) + L + 6 8
(0,145 0,4375* 0,4975) = 12,66
0,325 0,37 0,4375 0,4975
ˆ X
V ˆ
HT
i
2 i
i j ij i j 1
2 1
2
2 2
1 2 12 1 2
i =1 i i =1 j >i i j ij 1
2
1 2
12
=
42
(1 0,37) +
82
(1 0,4975) + 2 4 8 (0,1225 0,37 * 0,4975]) = 43,3
2 2
0,37 0,4975 0,37 0,4975 0,1225
EJERCICIOS PROPUESTOS
2.1. Supongamos que tenemos una población de N = 3 unidades primarias de la que se obtienen
todas las muestras posibles de tamaño n = 2 con probabilidades iguales y bajo los siguientes
supuestos:
Muestreo sin reposición sin intervenir el orden
Muestreo sin reposición interviniendo el orden
Muestreo con reposición sin intervenir el orden
Muestreo con reposición interviniendo el orden
Se pide:
Hallar el espacio muestral asociado a los cuatro tipos de muestreo y las probabilidades
asociadas a las muestras.
Si al medir una variable X sobre los elementos de la población se obtienen los valores {1, 3, 4},
¿cuál de todos los métodos de muestreo es más preciso al estimar el total poblacional mediante
un estimador lineal insesgado apropiado?
2.2. Una población consta de 40000 unidades distribuidas en 400 conglomerados de 100 unidades
cada uno. Una muestra aleatoria con probabilidades iguales sin reposición de tamaño 25
conglomerados presenta los siguientes datos:
Total de unidades
12 17 23 33 36
de la clase C
N º de conglomera dos
2 3 9 5 6
de la muestra
Estimar el total y la proporción de unidades de la población que pertenecen a la clase C, así como
sus errores de muestreo absolutos y relativos.
2.3. Supongamos que tenemos una población de N = 5 unidades primarias para las que una variable X
medida sobre ellas proporciona los valores 3, 3, 4, 6 y 8. Se toma una muestra de tamaño n = 2
sin reposición asignando en la primera extracción probabilidades proporcionales a los números
10, 16, 16, 25 y 33, y también en la segunda (prescindiendo de la unidad seleccionada en primer
lugar). Se pide:
Obtener estimadores lineales insesgados para el total y la media (para la muestra de mayor
probabilidad), así como sus errores de muestreo.
2.4. Supongamos que tenemos una población de N = 3 unidades primarias para las que una variable X
medida sobre ellas proporciona los valores {1, 3, 4} con probabilidades de selección
proporcionales a los tamaños 3, 5 y 7. Se toman muestras de tamaño n=2 sin reposición y sin
tener en cuenta el orden de colocación de los elementos mediante el método de selección de
Durbin. A partir de las distribuciones en el muestreo de X y V ˆ ( X
ˆ ) , hallar V ( X ˆ ) ,
ˆ
ˆ )
E ( X y E (V ˆ ( X
ˆ )) . Comentar los resultados.
HT HT
CAPÍTULO
MUESTREO A
ALEATORIO SSIMPLE S
SIN Y
CON R
REPOSICIÓN. S
SUBPOBLACIONES
OBJETIVOS
1. Introducir el concepto de muestreo aleatorio simple.
2. Comprender las especificaciones del muestreo aleatorio simple sin
reposición o muestreo irrestricto aleatorio.
3. Analizar el muestreo aleatorio simple sin reposición.
4. Estudiar las estimaciones, errores y estimación de los errores en muestreo
aleatorio simple sin reposición.
5. Especificar los factores de elevación en muestreo aleatorio simple sin
reposición.
6. Evaluar el tamaño de la muestra en muestreo aleatorio simple sin
reposición.
7. Comprender las especificaciones del muestreo aleatorio simple con
reposición.
8. Analizar el muestreo aleatorio simple con reposición.
9. Estudiar las estimaciones, errores y estimación de los errores en muestreo
aleatorio simple con reposición.
10. Especificar los factores de elevación en muestreo aleatorio simple con
reposición.
11. Evaluar el tamaño de la muestra en muestreo aleatorio simple con
reposición.
12. Comparar el muestreo aleatorio simple con y sin reposición.
13. Obtener estimadores en subpoblaciones con y sin reposición.
14. Calcular errores y estimación de los errores en subpoblaciones con y sin
reposición.
110 Muestreo estadístico. Conceptos y problemas resueltos
ÍNDICE
1. Muestreo aleatorio simple sin reposición. Especificaciones
2. Estimadores, varianzas y estimación de varianzas.
3. Tamaño de la muestra.
4. Muestreo aleatorio simple con reposición. Estimadores
5. Varianzas y su estimación con reposición.
6. Tamaño de la muestra con reposición.
7. Comparación entre muestreo aleatorio sin y con reposición.
8. Subpoblaciones.
9. Problemas resueltos.
10. Ejercicios propuestos.
Muestreo aleatiorio simple sin y con reposición. Subpoblaciones 111
Podríamos resumir las especificaciones del muestro aleatorio simple sin reposición o
muestreo irrestricto aleatorio como sigue:
En la selección de una muestra aleatoria simple sin reposición de n elementos de entre los N
de la población, el espacio muestral asociado tiene un número total de muestras igual a:
N
C N =
n
,
n
Por otra parte, el número de muestras posibles que se pueden formar con los
elementos de la población y que contengan al elemento dado u será: i
N 1
C N 1,n1 =
n1
ya que en este caso se fija el elemento u y las muestras posibles resultan de las formas
i
posibles de seleccionar de entre los N -1 elementos de la población restantes n-1 de ellos para
la muestra (el elemento u ya está fijo en la muestra).
i
Tenemos entonces:
Casos favorables
= P (u ( x~ ) ) =
i i
=
Casos posibles
N º de muestras que contienen la unidad u i
=
N º total de muestras
N 1 ( N 1)! ( N 1)!
=
n 1 = ( n 1)! ( N n )! = ( n 1)! ( N n )! = 1 = n
N N ! N .( N 1)! N N
n n! ( N n )! n ( n 1)! ( N n )! n
n N
Y i
Se tiene que = ∑ ˆ
HT
estima = ∑Y , con i
E
ˆ
= , es decir, insesgadamente,
i =1 i i =1
Entonces podemos deducir los estimadores lineales insesgados para el total ( Y =X ), i i
media (Y =X /N ), proporción (Y =A /N ) y total de clase (Y =A ) como sigue:
i i i i i i
Muestreo aleatiorio simple sin y con reposición. Subpoblaciones 113
N n
X i n
X i 1
n
= X = ∑ ˆ = X
ˆ =∑ =∑
X i ⇒ Y i = X i ⇒
i n
= N
n
∑ X i
= N x
i =1 i =1 i =1 i =1
1
4 243
N x
X i X i
N
X i X i ˆ
n
N
n
N 1
n
= X = ∑ ˆ =∑ =∑
N
⇒ Y i =
N
⇒ = X
i n
=
n
∑ X i
= x
i =1 i =1 i =1 i =1
N
Ai
N
Ai Ai n
N 1
n
= P = ∑ ˆ ˆ
N
⇒ Y
i
=
N
⇒ = P = ∑ n
=
n
∑ A i
i =1 i =1 i =1
N
N n
Ai 1
n
= A = ∑ ˆ = A
ˆ = ˆ
Ai ⇒ Y i = Ai ⇒ ∑ n
= N
n
∑ A i
= N P
i =1 i =1 i =1
N
Sabemos que la varianza del estimador de Horvitz y Thompson está dada por la expresión:
2
N
Y i
N Yi Y j
V ( ) = ∑ (1 ) + 2∑ (
$
HT i ij i j )
i =1 i i < j i j
Para el caso particular del muestreo aleatorio simple sin reposición se sabe que i = n/N
y ij = n(n 1) / [ N ( N 1)]. Considerando el estimador del total y sustituyendo estos valores de i
y ij en la expresión de la varianza tenemos:
X i2 n j n (n 1) n n
N N X X
( )
N
ˆ =∑
i
V X 1 + 2 ∑ ∑ ( )
i =1 n N i =1 j > i n n N N 1 N N
N N N
2
N
1
n N 1
∑ ( X i
X ) S 2
= N 1
2 i =1
= N 2
(1 f )
N n n
n
S
= N (1 f ) N
n
1
= 2
N 1 n
(1 f ) PQ
114 Muestreo estadístico. Conceptos y problemas resueltos
Estimación de varianzas
Sabemos que la varianza del estimador de Horvitz y Thompson está dada por la expresión:
n
Y i
2 n Yi Y j ij i j
V
$
( ) = ∑ (1 ) + ∑
$
HT 2 i
j ij
i =1 i i < j i
n
2 PQ $ $
S n 1
$
1
V ( A) = N (1 f ) = N (1 f )
$ $
2 2
= N 2 (1 f ) PQ $ $
n n n 1
De las fórmulas de las varianzas y sus estimaciones, se deduce que en muestreo
aleatorio simple sin reposición la cuasivarianza muestral
n
1
ˆ2
∑( X x)
2
S = i
n 1 i =1
N
1
∑ ( X ) 2
es un estimador insesgado de la cuasivarianza poblacional S
2
= i
X .
N 1 i =1
TAMAÑO DE LA MUESTRA
Estudiaremos el tamaño de muestra necesario para cometer un error de muestreo e = ( ) ˆ
Media:
La expresión del tamaño muestral n puede ponerse en función de N y del valor n 0
como sigue:
S 2 S 2 e 2 n0 n N
n= 2
= 2 2
= = 0 = f ( N )
S S e n0 n0 + N
e2 + 1+ 1+
N N N
n 02
f ' ( N ) =
( n 0 + N ) 2
es siempre positiva, que no tiene máximos ni mínimos dado que la ecuación definida por
f ’( N ) = 0 no tiene solución en N , que es siempre convexa ya que la segunda derivada:
2 n 02
f ' ' ( N ) =
( n 0 + N ) 3
es siempre negativa y que no tiene puntos de inflexión ya que que la ecuación definida por
f’ ’( N )=0 no tiene solución en N . Por tanto, la representación gráfica de n = f ( N ) es la
siguiente:
n
n = n0
n0
n0 n
n-
O N
adelante los aumentos de N no producen aumentos en n. Precisamente los aumentos de N no
producen aumentos en n cuando |n n|<1. Pero: 0
n0 N n0
2
S
2
S
2
n0 n = n0 = < 1 ⇒ n0 < n 0 +
2
N ⇒ N > n (n 1) = 1
e
0 0 2 2
n0 + N n0 + N e
Luego la misma precisión da una muestra de tamaño n para una población de N
elementos que para una población de N ’ elementos con N ’> N siempre y cuando se cumpla que:
S
2
S 2
N > n 0 (n 0 1) = 1
e
2
e 2
116 Muestreo estadístico. Conceptos y problemas resueltos
Total:
e + 14243
N (
N e 2 + NS 2 )
La expresión anterior también puede escribirse como:
2
S
N 2
2
n=
e = N n = f ( N ) 1
2
S 1 + Nn 1
1 + N
e
Si representamos gráficamente la curva de ecuación n = f ( N ) observamos que pasa
por el origen de coordenadas ya que f (0) = 0, que tiene una asíntota oblicua de ecuación n =
N 1/n ya que:
1
f ( N ) N 1
lim = 1 y lim ( f ( N ) N ) = lim =
N
N N N
1 + n N 1
n 1
2n1 N + n12 N 2
f ' ( N ) =
(1 + n1 N ) 2
es siempre positiva, que no tiene máximos ni mínimos ya que la ecuación definida por
f ’( N )=0 no tiene solución en N , que es siempre cóncava puesto que:
2
2 n1 N
f ' ' ( N ) =
(1 + n1 N ) 3
n= N -1/n1
0 1/n 1 N
Observando la gráfica de n = f ( N ) se ve que n siempre crece al crecer N , es decir,
que al aumentar el tamaño poblacional también aumentará el tamaño de muestra necesario
para cometer un error de muestreo prefijado.
Muestreo aleatiorio simple sin y con reposición. Subpoblaciones 117
Proporción:
Si sustituimos el valor de S para variables A (que sólo toman los valores 0 y 1) en la fórmula
2
i
del tamaño muestral para la media tendremos para la estimación de la proporción el tamaño:
N
2 N PQ
NS N 1 N 2 PQ NPQ
n= = = =
Ne2 + S 2 N 2 NPQ + ( N 1) Ne2 e 2 ( N 1) + PQ
PQ + Ne 14442444
3
N 1
(
N e 2 ( N 1) + PQ )
En el caso de la proporción se observa que cuando N (fracción de muestreo n/N
N
tendiendo a cero) el tamaño muestral n S /e = 2 2
PQ e 2 PQ e 2 =n (n inversamente
0
N 1
proporcional al cuadrado del error de muestreo y directamente proporcional a la proporción
poblacional P ). En este caso, la misma precisión da una muestra de tamaño n para una
población de N elementos que para una población de N ’ elementos con N ’ > N siempre y
cuando se cumpla la desigualdad definida por:
N N
PQ PQ
PQ PQ
N > n0 (n0 1) = N 12 N 12 1
1
e e e 2 e 2
Para la estimación de la proporción es muy interesante tener en cuenta que para
poblaciones grandes o fracción de muestreo pequeña ( N ), el valor máximo de n se
obtiene para P = Q = 1/2. Para constatar este resultado sabemos que si N el tamaño
muestral n tiende al valor n = PQ/e = f ( P ), expresión que tenemos que maximizar en P . Si
0
2
igualamos la primera derivada al valor cero tenemos que como f ( P ) = P (1 P )/e entonces 2
f ’( P ) = (12 P )/e = 0 ⇒ P = 1/2. Por otra parte f ’’( P ) = 2/e < 0, lo que asegura la presencia
2 2
de un máximo para la función f en el punto P = 1/2. Como Q =1 P = 11/2 = 1/2, el valor
máximo de n para poblaciones grandes o fracciones de muestreo pequeñas se obtiene para P =
Q = 1/2. Por lo tanto, para un error prefijado se necesitarán tamaños de muestra más pequeños
cuanto más próximo esté P a cero o a uno. Este resultado es muy importante en la práctica, ya
que cuando se estiman proporciones y no se conoce el valor de la proporción poblacional P
ni se tiene una aproximación suya (proporcionada por una encuesta similar, por una
encuesta piloto, por la misma encuesta realizada anteriormente o por cualquier otro
método), entonces se toma P=1/2 , con lo que estamos situándonos en el caso de máximo
tamaño muestral para el error fijado, lo cual siempre es aceptable estadísticamente. La
dificultad práctica puede ser que se obtenga un tamaño muestral n demasiado grande para el
presupuesto de que se dispone.
Total de clase:
Si sustituimos el valor de S para variables A (que sólo toman los valores 0 y 1) en la fórmula
2
i
del tamaño muestral para el total tendremos para la estimación del total de clase el tamaño:
N
2 2 PQ N 2
N S N 1 N 3 PQ
n= 2 = = 2
e + NS 2 2 N e ( N 1) + N 2 PQ
e + PQN
N 1
118 Muestreo estadístico. Conceptos y problemas resueltos
y el total de clase.
Asimismo, es típico introducir un coeficiente de confianza adicional P al error de
muestreo a cometer (límite de tolerancia). En este caso las fórmulas de los tamaños muestrales
necesarios para cometer un error absoluto o relativo de muestreo dado en presencia del
coeficiente de confianza adicional se derivarán de las expresiones e = ˆ
( ) y er = Cv
( ˆ) .
En general = F (1 /2), siendo F la función de distribución de una normal (0,1).
-1
Media 2 2
Ne 2 + S Ne r2 + C 1,2 x Ne 2 +
2
S Ne r2 +
2
C 1,2 x
N 2 S 2 NC 1,2 x 2 N 2 S 2 2 NC 1,2 x
Total 2 2
e 2 + N S Ne r2 + C 1,2 x e 2 +
2
N S Ne r2 +
2
C 1,2 x
NPQ NQ 2 NPQ 2
NQ
Pr oporción 2
e 2 ( N 1) + PQ P ( N 1)er + Q e 2 ( N 1) +
2
PQ e r2 ( N 1) P +
2
Q
2 3 2
N 3 PQ NQ N PQ NQ
Total de clase
e 2 ( N 1) + N 2 PQ P ( N 1)e r2 + Q e 2 ( N 1) +
2
N 2 PQ e r2 ( N 1) P +
2
Q
P (u1, u2, ..., un) = P (u1) P (u2) ... P (un) = (1/ N )(1/ N ) ... (1/ N ) = 1/( N n)
HH
= ∑ nP
i =1 i
( P = probabilidad de seleccionar la unidad u de la población para la muestra =1/ N ), que estima
i i
N
N n
X i n
X i 1
n
= X = ∑ X i
⇒ Y i = X i
⇒ ˆ = X
ˆ =
∑ =∑ = N ∑ X i
= N x
i =1 i =1 nP i i =1
n n i =1
1
4 243
N x
X i X i
N
X i X i ˆ
n
N
n
N 1
n
= X = ∑ ˆ =∑ =∑
N
⇒ Y i =
N
⇒ = X
nP i n
=
n
∑ X i
= x
i =1 i =1 i =1 i =1
N
Ai
N
Ai Ai n
N 1
n
= P = ∑ ˆ ˆ
N
⇒ Y i =
N
⇒ = P = ∑ n
=
n
∑ A i
i =1 i =1 i =1
N
N n
Ai 1
n
= A = ∑ ˆ = A
ˆ = ˆ
Ai ⇒ Y i = Ai ⇒ ∑ n
= N
n
∑ A i
= N P
i =1 i =1 i =1
N
y considerando que para el caso particular del muestreo aleatorio simple con reposición se
sabe que P = 1/ N, tenemos:
i
2
X
2
X 2 2 2
1 N
1 N
1 N 1 N
ˆ)=
V ( X ∑ X
i
P = ∑ X = ∑
i
( X X ) = N
2
n = 1 N
i i
n = P
i 1 i 1 n N = n i 1
i
N
X
ˆ 2 2
ˆ
V X = Var = 1
N N 2
ˆ
Var X ( )= N
1
2
N
2
n
=
n
N 1
2 S 2
( )=
2
ˆ
V P
n
= N
n
=
PQ
n
()
V A = N
ˆ
2
n
= N 2
PQ
n
Para estimar las varianzas partimos del estimador de la varianza de Hansen y Hurwitz:
Y
2
n
1
V ( ) =
$ $
∑
n ( n 1) = P
Y
i
$
HH HH
i 1 i
120 Muestreo estadístico. Conceptos y problemas resueltos
y considerando que para el caso particular del muestreo aleatorio simple con reposición se
sabe que P = 1/ N, tenemos:
i
2
X 2 2
ˆ2
( )
n n
1 N 1 S
ˆ X
V ˆ = ∑ X =
ˆ i
∑ ( X x ) = N 2
n(n 1) = 1 i
i 1 n n 1 i =1 n
N
X ˆ ˆ2 ˆ2
ˆ
V X
ˆ
= V ˆ = 1
N N 2
V ( )=
ˆ X
ˆ
N
1
2
N
2 S
n
=
S
n
n ˆQ ˆ n ˆQ ˆ
ˆ2 P ˆ2 P
V ()
ˆ P
ˆ =
S
n
= n 1
n
=
1
n 1
ˆQ
P ˆ V ()
ˆ = N
ˆ A 2 S
n
= N n 1 2
n
= N 2 1
n 1
ˆQ
P ˆ
Igual que en el caso de sin reposición, consideraremos el tamaño de muestra necesario para
cometer un error de muestreo e = ( ) dependiendo de si estima la media, el total, la
ˆ ˆ
una normal (0,1). El cuadro siguiente resume las expresiones de los tamaños muestrales.
Tipo de error Absoluto y coeficient e Relativo y
Absoluto Relativo
Parámetro de confianza adicional confianza
e e r
e e r
2 2 2
2
C x 2 C x2
Media
e2 e r 2 e2 er 2
N 2 2 C x2 2 N 2 2 2 C x2
Total
e2 e r 2 e2 er 2
PQ Q 2 PQ 2 Q
Pr oporción
e2 Per 2 e2 Per 2
N 2 PQ Q 2 N 2 PQ 2 Q
Total de clase
e2 Per 2 e2 Per 2
L nh L nh L nh L L
X hi X hi 1
ˆ = ∑∑ = ∑∑ = ∑ N h ˆ
= X ⇒ Y hi = X hi ⇒ X st
hi nh N h nh i =1
∑ X hi
= ∑ N h xh = ∑ X h
h=1 i =1 h=1 i =1 h =1 h=1 h=1
1
4 24 3
ˆ
X h = xh
L nh L nh L nh L
X hi ˆ 1 X hi 1 X hi N h 1
= X ⇒ Y hi = ⇒ X st = x st = ∑ ∑ =∑ ∑ =∑ ∑ X hi
= ∑W h xh
N h=1 N i =1 hi h=1 N i =1 nh N h N nh i =1
h=1 { h=1
W h
L nh L nh L nh L L
Ahi Ahi 1
ˆ
= A ⇒ Y hi = Ahi ⇒ A st = ∑∑
hi
= ∑∑
nh N h
= ∑ N h
nh
∑ A hi
= ∑ N P ˆ = ∑ Aˆ h h h
h=1 i =1 h=1 i =1 h =1 i =1 h=1 h=1
1424 3
ˆ
P
h
L nh L nh L nh L
Ahi 1 Ahi 1 Ahi N h 1
ˆ =∑ ˆ
= P ⇒ Y hi =
N
⇒ P
st
N
∑ =∑
N
∑n N h
=∑
N nh
∑ A hi
= ∑W h P
h
h =1 i =1 hi h =1 i =1 h h =1 { i =1 h =1
1424 3
W h
ˆ
P
h
su vez son los factores de elevación. El estimador del total de clase en muestreo estratificado
aleatorio es la suma de los estimadores del total de clase en cada estrato. El estimador de la
proporció
proporciónn en muestreo
muestreo estratif
estratificad
icadoo aleatori
aleatorioo es la media
media ponderada
ponderada de los estimado
estimadores
res de la
proporció
proporciónn en cada estrato,
estrato, siendo los coeficientes de ponderación W = N /N de suma h h
S h2 2
( ) S
L L L
ˆ
V X st
= ∑ N (1 f ) h
2
, V ( x ) = V ∑ W x = ∑ W (1 f )
h st h h
2
h h
h
= h 1 n = = h
n h 1 h 1 h
V Aˆ
st
2
h h
, V P st = ∑ W h2 (1 f h )
ˆ
h =1 h
1 nh h =1 N h 1 n h
L ˆ2
S L ˆ2
S
( )
V ˆ X
ˆ
st
= ∑ N h (1 f h ) 2
nh
h
, ( )
V ˆ X st = ∑ W h (1 f h ) 2
nh
h
h =1 h =1
L ˆ Qˆ L ˆ Qˆ
( ) = ∑ N (1 f ) n
V ˆ Aˆ st
2
h h
P
h h
1
, ˆ P
V ( )
ˆ =
st ∑ W h (1 f h )
2
P
h
nh 1
h
h =1 h h =1
2
S h = cuasivarianza poblacional en el estrato h, S h
ˆ
2
= cuasivarianza muestral en el estrato h.
Para el caso del muestreo estratificado con reposición los estimadores son los
mismos, y sus varianzas son las siguientes:
L
h2 L
h2 L
P h Qh L
P h Qh
( ) = ∑ N
ˆ
V X st h
2
nh
, V ( x st ) = ∑W h
2
nh
, ˆ
V A( ) = ∑ N
st
2
h
nh
ˆ = W 2
, V P
st
( )
∑ h nh
h =1 h =1 h =1 h =1
152 Muestreo estadístico. Conceptos y problemas resueltos
nh
ˆ ˆ
, V A st = ∑ N h
2 h
nh 1
h ˆ( )
ˆ
, V P st = ∑W h
2 h h
nh 1
( )
h=1 h =1 h =1 h=1
repartir la muestra entre los estratos, pero las más importantes son: la afijación uniforme, la
afijación proporcional, la afijación de varianza mínima y la afijación óptima.
Afijación uniforme
Consiste en asignar el mismo número de unidades muestrales a cada estrato, con lo que se
tomarán todos los n iguales a n/L, aumentando o disminuyendo este tamaño en una unidad
h
L L
nh k
n h = k h = 1L L ⇒ ∑ n h = ∑ k ⇒ n = Lk ⇒ f h = =
h =1 h =1 N h N h
Para este tipo de afijación, las varianzas de los estimadores y sus estimaciones se
hallan sustituyendo en las fórmulas generales f por k/N . Este tipo de afijación da la misma
h h
importancia a todos los estratos, en cuanto a tamaño de la muestra, con lo cual favorecerá a los
estratos de menor tamaño y perjudicará a los grandes en cuanto a precisión. Sólo es conveniente
en poblaciones con estratos de tamaño similar.
Afijación proporcional
nh N h k N h n h k nh
f h = = = k = f W h = = =
N h N h N n k n
{
hi
( ) ( ) (1 k ) W S
L L
ˆ = 1 k ( )
∑ ∑
2 2
V X
st
N S , V x h
= h st h h
k h=1 n h=1
1
P hQh
h=1 h h=1 h
L L
nh 1
L ∑ x h
x Total muestral
ˆ = ∑ N h x h = ∑ ∑ nh xh =
h =1
X st
x h = = =
h =1 h =1 k K h=1 {
xh nh
k f Fraccion demuestreo
L
L L
nh 1
L ∑ x h
Total muestral
ˆ
X st = x st = ∑ W h x h = ∑ x h = ∑n h
x h = h =1
=
h =1 h =1 n n h =1
{
xh nh
n Tamaño de muestra
• Las fracciones de muestreo en los estratos son iguales y coinciden con la fracción global
de muestreo, siendo su valor la constante de proporcionalidad.
pues para
para su cálculo
cálculo sólo son
son necesarios
necesarios valores
valores muestrales
muestrales (n y n). h
• El estimador insesgado para el total poblacional puede expresarse como el cociente entre
el total muestral y la fracción de muestreo, o lo que es lo mismo, como el producto del
total muestral por la inversa de la fracción de muestreo. Similar propiedad tiene el
estimador insesgado para el total de clase (producto del total de clase muestral por la
inversa de la fracción de muestreo).
• El estimador insesgado para la media poblacional puede expresarse como el cociente entre
el total muestral y el tamaño de la muestra. Similar propiedad tiene el estimador insesgado
para la proporción
proporción poblacional
poblacional (cociente
(cociente entre el total de clase muestral
muestral y el tamaño de la
muestra).
nh
• Como hi = = k = f, todas las unidades de la población tienen la misma probabilidad
N h
de figurar en la muestra de n unidades; es decir, estamos en el caso de muestras
autoponderadas.
un tamaño de muestra fijo igual a n la varianza de los estimadores sea mínima.
154 Muestreo estadístico. Conceptos y problemas resueltos
N h
S h
N h S h N W h S h
La expresión para n es h nh =n L
=n L
=n L
.
N h
∑ N h
S h ∑ N S h ∑ W S h h
h =1 h =1 h =1
Una vez calculados los n para afijación de mínima varianza, vamos a ver cuánto
h
Afijación óptima
extraen del estrato h-ésimo para la muestra) de forma que para un coste fijo C la
la varianza de
los estimadores sea mínima. El coste fijo C será la suma de los costes derivados de la
selección de las unidades muestrales de los estratos; es decir, si c es el coste por unidad de h
estrato será c n . Sumando los costes c n para los L estratos tenemos el coste total de
h h h h
∑ N h
S h ch ∑ W h
S h ch
h =1 h =1
óptima coincide con la de mínima varianza, y si además S = S , h = 1, 2, ..., L la afijación h
Una vez calculados los n para afijación óptima, vamos a ver cuánto vale la varianza del
h
1 L 1 L
L
( )=
V x st ∑ W h S h c h ∑ W h S h ch ∑W h S h
2
L L 1 L
ˆ( )
V X st
1
= ∑ N h
n h =
S h c h ∑ N h S h ch ∑ N h S h
2
1 h =1 N h = 1
Dada la forma en que están definidos los cálculos de los n para las afijaciones uniforme y h
Afijación uniforme
V X ( )
ˆ = N
st ∑ h
2
( )
, V x st = ∑W h
2
( )
, V A st ∑ h st ∑ h k
( )
k
h=1 k h=1 k h=1 h=1
Afijación proporcional
L L L
1 1 1 1 L P Q
( ) = k ∑ N , ( ) = k ∑ N P Q , V ( x ) = n ∑W , ( )
ˆ
V X st h
2
h
ˆ
V A st h h h st h h
2 ˆ
V P st = ∑W h h h
n h=1 k
h=1 h=1 h=1
Tenemos:
2 2
W h h L
N h h 1 1 L
nh = n L = n L , V ( x st ) = ∑ W h h , V ( x st ) = ∑ N h h
n h = n h =
∑ W h h ∑ N h h
1 1
h =1 h =1
Afijación óptima
Tenemos:
ch ch L 1 L
nh =n =n , V ( x st ) = ∑ W h h c h ∑ W h h ch ,
L L
W h h N h h n h = h =
∑ ∑
1 1
h =1 ch h =1 ch
L L
ˆ
V X st
( ) 1
= ∑ N h h
n h =
c h ∑ N h h ch
1 h = 1
Si se quiere la afijación óptima y la expresión de la varianza mínima para el estimador de
la proporción y el total de clase basta sustituir en las fómulas anterioriores por P Q .
2
h h h
Vamos a analizar ahora el tamaño de muestra estratificada con reposición necesario para
cometer un determinado error de muestreo conocido de antemano. Distinguiremos los casos
de error de muestreo dado con y sin coeficiente de confianza adicional y, además,
distinguiremos entre los diferentes tipos de afijación de la muestra.
Muestreo estratificado sin y con reposición 157
L L
S 2 1 L
1 L
2
S = ∑ W h S h + ∑ W h X h X
2
( )2
⇒
n
=
n
∑ W h S h +
2
n
(
∑ W h X h X )2
⇒
h =1 h =1 h =1 h =1
S 2 1 f L
1 f L
∑ W h ( X h )2
∑ W h S h
2
(1 f ) = + X ⇒ V MAS ( x ) V MEP ( x )
1424 3
n n 4 2
14
h =1
4 4
3
n h =1
14 4 4 24 4 4 3
La igualdad se da
si X h = X h =1,L, L
V MAS ( x ) V MEP ( x ) 0
Hemos visto que el muestreo estratificado con afijación proporcional es más preciso que el
muestreo aleatorio simple, produciéndose la igualdad de precisiones cuando las medias de los
estratos son todas iguales. Por tanto, la ganancia en precisión del muestreo estratificado respecto del
aleatorio simple será mayor cuanto más distintas entre sí sean las medias de los estratos; es decir,
para
para que el muestr
muestreo
eo estrati
estratific
ficado
ado sea preci
preciso
so es conve
convenie
niente
nte que los estrato
estratoss sean
sean heterog
heterogéne
éneos
os
entre sí en media, afirmación que ya conocíamos desde el comienzo del tema y que constituye una
de las especificaciones clásicas en el muestreo estratificado.
1 L
2
1 f L
1 L
∑ h h n ∑ h h N ∑ h h =
2 2
V MEP ( x ) V MEMV ( x ) = W S W S W S
1
n
23 h =1 h =1 h =1
1 1
n N
1 1 L
2
L
L L
∑
h =1
W h S h ∑ W h S h
2
= ∑ W h S h S
( )2
0 con S = ∑ W h S h
n h =1 n h =1
La igualdad se da h =1
si S h = S h =1,L, L
Luego V MEP
( x ) V MEMV ( x ) 0 ⇒ V MEP ( x ) V MEMV ( x )
158 Muestreo estadístico. Conceptos y problemas resueltos
El muestreo estratificado con afijación de mínima varianza es más preciso que el muestreo
estratificado con afijación proporcional, produciéndose la igualdad de precisiones cuando las
cuasidesviaciones típicas de los estratos son todas iguales. Por tanto, la ganancia en precisión del
muestreo estratificado con afijación de mínima varianza respecto del muestreo estratificado con
afijación proporcional será mayor cuanto más distintas entre sí sean las cuasidesviaciones típicas de
los estratos; es decir, para que el muestreo estratificado sea más preciso es conveniente que los
estratos sean heterogéneos entre sí en desviación típica, afirmación que ya conocíamos desde el
comienzo del tema y que constituye una de las especificaciones clásicas en el muestreo
estratificado.
El muestreo estratificado con afijación de mínima varianza es más preciso que el muestreo
estratificado con afijación proporcional y que el aleatorio simple, siendo además el estratificado con
afijación proporcional más preciso que el aleatorio simple.
S 2 1 f L
1 f L
h =1 h =1
L L
2 1 L
1 L
= ∑W h h + ∑W h
2 2
( X h X )2
⇒
n
=
n
∑ W h h
2
+
n
∑ (
W h X h X )
2
⇒
h =1 h =1 { h =1 h =1
14243 144
4 244 4
3
V MAS ( x ) V MEP ( x ) 0
V MAS ( x ) V MEP ( x )
La igualdad se da
si X h = X h =1,L, L
Hemos visto que el muestreo estratificado con reposición y afijación proporcional es más
preciso que el muestreo aleatorio simple con reposición, produciéndose la igualdad de precisiones
cuando las medias de los estratos son todas iguales.
1
2 2
1 L
L
1 L L
∑ h h n ∑ h h n ∑ h h ∑ h h
2 2
V MEP ( x ) V MEMV ( x ) = W W = W W
n h =1 h =1 h=1 h =1
L L
1
= ∑ W h (
h )2
0 con = ∑ W h h ⇒ V MEP ( x ) V MEMV ( x )
n h =1
La igualdad se da h =1
si S h = S h =1,L, L
2 1 L
1 L
∑ W ( X )
2
∑ W
2
= h h
+ h h
X =
{
n nh =1 n h =1
14 243
V MAS ( x ) V MEP ( x )
L L
1 1
W ( ) W ( X )
2 2
V MEMV ( x ) +
n
∑ h h
+
n
∑ h h
X
h =1 h =1
POSTESTRATIFICACIÓN
Ejemplos típicos son las características personales como la edad, el sexo, la estatura,
etc., y el nivel de educación.
Los tamaños de los estratos N se pueden obtener de manera bastante exacta a partir
h
de las estadísticas oficiales, pero las unidades se pueden clasificar en estratos solamente
después de conocer los datos de la muestra. Por lo tanto, puede suponerse que los W y los h
x ' = ∑ W x h h
h =1
cuya precisión es similar a la obtenida con la afijación proporcional, siempre que todos los
n sean grandes; por ejemplo, superiores a 20 unidades. Si de los W se conocen sólo las
h h
[ ] X = ∑W
E x ' ' '
h
X h ∑W h X h = ∑ (W h W h ) X h '
h =1 h =1 h =1
las cuentas nacionales de Estados Unidos. Los errores se calculan y estiman mediante:
L L
N n N n
∑ N ' ∑ S ' (1 f ' h )
2 2
V ( x ' ' ) = 2 h
S ' h + 2 h
N n h =1 N n h =1
L L
ˆ ' ' ) = N n N ' S ' 2 + N ( N n) S ' 2 (1 f ' )
V ( X ∑ h h
n h =1 n2
∑ h h
h =1
L L
ˆ ( x ' ' ) = N n N ' S
ˆ ' 2 + N n S ˆ ' 2 (1 f ' )
V 2 ∑
N n h =1
h h 2 ∑
N n h =1
h h
L L
ˆ ( X ˆ ' 2 + N ( N n) S
ˆ ' ' ) = N n N ' S ˆ ' 2 (1 f ' )
V ∑
n h =1
h h
n 2 ∑ h h
h =1
n' h
Para totales y proporciones cambiamos S por ˆ
2 ˆ'
P ˆ' )
(1 P y 2
S ' h por
h h h
n ' h 1
N ' h
P ' h (1 P ' h ) . El apóstrofe indica siempre valor de postestratificación.
N ' h 1
Muestreo estratificado sin y con reposición 161
PROBLEMAS RESUELTOS
4.1. Una empresa publicitaria está interesada en medir la influencia de la publicidad televisiva en un
municipio y decide realizar una encuesta por muestreo para estimar el número promedio de horas
por semana que se ve la televisión en los hogares del municipio. Éste comprende dos pueblos A y
B y un área rural, y se sabe que existen 155 hogares en el pueblo A, 62 en el pueblo B y 93 en el
área rural. La empresa publicitaria tiene tiempo y dinero suficientes para entrevistar 30 hogares
(20 del pueblo A, 8 del pueblo B y 12 del área rural) midiendo en cada uno el tiempo que se ve la
televisión en horas por semana. Se obtienen los datos siguientes:
Estimar el tiempo promedio que se ve la televisión, en horas por semana, en cada uno de los
estratos y en todo el municipio fijando límites para el error de estimación a través de intervalos de
confianza al 95%.
Comenzamos introduciendo los datos como tres columnas, una por cada estrato, en
una hoja de cálculo de Excel. A continuación, para calcular los estadísticos necesarios en cada
estrato, en el menú Herramientas de Excel elegimos Análisis de datos, seleccionamos
Estadística descriptiva y rellenamos la pantalla de entrada como se indica en la Figura 13-1.
Al pulsar Aceptar se obtienen los estadísticos muestrales por estrato de la Figura 13-2. Se
observa que el tiempo promedio que se ve la televisión en el pueblo A es 33,9 horas por
semana, en el pueblo es 20,33 y en la zona rural es 19. Las cuasivarianzas muestrales son
33,3578, 285 y 87,63 horas por semana, respectivamente, en cada estrato, y al dividirlas por el
tamaño muestral seleccionado en cada estrato obtenemos los errores de los estimadores en
cada estrato suponiendo muestreo con reposición (33,35/20 = 1,667, 285/8 = 35,62 y 87,63/12
= 7,3). Como los coeficientes de asimetría y curtosis en cada estrato están en el intervalo
[2,2], puede suponerse normalidad, con lo que los límites para el error de estimación en cada
estrato (suponiendo muestreo con reposición) serán los radios de los intervalos de confianza al
95%, es decir, 2,7829, 12,97 y 5,94, respectivamente. Si el muestreo es sin reposición, las
varianzas en cada estrato hay que multiplicarlas por (1 n / N ) h = 1, 2, 3.
h h
Figura 13-1
162 Muestreo estadístico. Conceptos y problemas resueltos
Figura 13-2
L ˆ2
S
( ) = ∑W (1 f )
V ˆ X
st h
2
h
h
h =1 n h
La Figura 13-3 presenta las fórmulas para el cálculo del estimador de la media
estratificada para todo el municipio, su error de muestreo y el radio del intervalo de
confianza al 95%. La Figura 13-4 presenta los resultados.
Figura 13-3
Figura 13-4
L 2
S h
( ) = ∑W
ˆ
2
V X st
ˆ
h
h =1 nh
La Figura 13-5 presenta las fórmulas y la Figura 13-6 presenta los resultados.
Muestreo estratificado sin y con reposición 177
= h 1 h h 2
N + N + N 1 1 2 2 3 3
4.9. Un mayorista del sector de la distribución de comestibles en una gran ciudad desea saber si
la demanda es lo suficientemente grande para justificar la inclusión de un nuevo producto en
sus existencias. Para tomar la decisión, planifica añadir este producto a una muestra de los
almacenes a los que abastece para estimar el promedio de las ventas mensuales (variable X ).
El distribuidor suministra únicamente a cuatro grandes cadenas en la ciudad y, por
conveniencia administrativa, decide utilizar muestreo aleatorio estratificado tomando cada
cadena como un estrato. Hay 24 almacenes en el estrato 1, 36 en el estrato 2, 30 en el estrato
3 y 30 en el estrato 4 ( N = 24, N = 36, N = 30, N = 30 y N = 120). El distribuidor tiene
1 2 3 4
suficiente tiempo y dinero para obtener datos sobre ventas mensuales en una muestra de
tamaño n = 20 almacenes. Dado que no tiene información previa respecto a las varianzas de
los estratos y porque el coste del muestreo es el mismo en cada estrato, decide aplicar la
afijación proporcional, con lo que el nuevo producto es introducido en cuatro almacenes
elegidos al azar de la cadena 1, seis almacenes de la cadena 2, y 5 almacenes de cada una de
las cadenas 3 y 4. Después de un mes, las ventas X presentan los resultados indicados en la
tabla siguiente:
Estimar las ventas promedio para el mes y fijar un límite para el error de estimación.
Realizar la misma estimación y calcular el error suponiendo que se realiza muestreo
aleatorio simple. Comentar los resultados.
N 24 36 30 30
n1 = n 1
= 20 =4, n
2
= 20 =6, n
3
= 20 = 5, n
4
= 20 =5
N 120 120 130 130
V ( )=
ˆ x
st ∑ W h S h ∑ W S = ∑ h
2
h
h
S h ∑ h 2
S h = 2,93
n = h 1 N = n = N
h 1 h 1 N = N h 1
ˆ2
S 20 59,8
ˆ
V ( x ) = (1 f ) = (1 ) = 2,49
n 120 20
Se observa que el error es menor en muestreo aleatorio simple con una ganancia en
precisión dada por:
2,93
GP =
1100 = 17,67%
2,49
4.10. La consejería de medio ambiente de una comunidad está realizando un estudio del número
de personas X que utiliza las instalaciones de campings públicos. La comunidad tiene dos
áreas para acampar, una localizada en las montañas y otra localizada a lo largo de la costa.
La consejería desea estimar el número promedio de personas por camping y la proporción de
campings que albergan personas de fuera de la comunidad durante un particular fin de semana,
cuando se espera que todos los sitios estén ocupados. El número promedio de personas se va a
estimar con un límite de 1 para el error de estimación, y la proporción de personas de fuera
de la comunidad con un límite de 0,1. Las dos áreas para acampar forman convenientemente
dos estratos, la localidad de la montaña como el estrato 1 y la localidad de la costa como el
estrato 2. Se sabe que N = 120 campings para acampar y N = 80. Encuentre el tamaño de
1 2
muestra y la asignación necesarios para lograr estos dos límites. Se supone que la consejería
de medio ambiente conoce por experiencia que la mayoría de los campings contienen de 1 a
9 personas y que los costes de muestreo son los mismos en cada estrato.
Como los costes de muestreo son constantes en los estratos, utlizaremos afijación de mínima
varianza (equivalente a la óptima en este caso). Además, como la desviación típica es
alrededor de 1/4 de la amplitud de variación en una distribución normal, podemos suponer
que su valor para el número de personas que ocupan los campings es constante en todos los
campings y con valor = (9 1)/4 = 2.
i
∑ W S
2
1 1 L h h
e = V ( x st ) = ∑ W S ⇒ n = h =1
2 2
h h L
n N = V ( x )+ 1
∑ W S
h 1 2
st h h
N h =1
Aproximando las cuasivarianzas por las desviaciones estándar por estrato, que son
todas iguales a 2 en este caso, tenemos:
L
N h
∑ N
2
h
n= h =1
L
= 14,8 15
1 N h
V ( x st ) + ∑ N
2
h
N h =1
4.11. Determinar el tamaño n de la muestra estratificada que con afijación de mínima varianza
produzca la misma precisión que una muestra aleatoria simple (no estratificada) de tamaño n’,
para estimar la proporción P de una cierta clase en la población. Suponer en ambos casos
muestreo con reposición y aplicar el resultado a los datos de la tabla con n’=1000.
Estratos
I II III
W h 0,2 0,3 0,5
P h 0,5 0,6 0,4
Resolver el mismo problema para afijación proporcional y comparar resultados realizando los
comentarios pertinentes.
ˆ ) = P (1 P )
V AS ( P y V STMV ˆ ) = =
( P
h 1
n' n
Estratos W h P h1 P h W h P h P h (1 P h ) W h P h (1 P h )
I 0,2 0,5 0,5 0,10 0,5 0,1
II 0,3 0,6 0,4 0,18 0,49 0,147
III 0,5 0,4 0,6 0,20 0,49 0,245
3 3
∑ W P h h
= 48 ∑ W h
P h (1 P h ) = 0,492
h =1 h =1
2
3
n' ∑ W P (1 P )
= 1000 (0,492 ) = 970
h h h 2
n=
= h 1
P (1 P )
∑W P (1 P )
h h h
V AS ˆ) =
( P y V STP ˆ) =
( P h =1
n' n
P (1 P )
∑ W P (1 P )
h h h
V AS ˆ) =
( P V STP ˆ) ⇒
( P = h =1
⇒
n' n
3
n' ∑ W P (1 P )
= 1000 (0,242) = 970
h h h
n=
= h 1
n1
ˆ = 1 124
P
1
n1
∑ Ai1 =
380
= 0,3263
i =1
n2
ˆ = 1 250
P
2
n2
∑ A i2
=
800
= 0,3125
i =1
n3
ˆ = 1 17
P
3
n3
∑ A i3
=
200
= 0,085
i =1
L ˆ Qˆ
N h n h P
ˆ )=
∑ W
2 h h
ˆ ( P
st h
h =1 N h 1 nh
ˆ ) = 0,32 2
3200 3800,3263 0,6737 5600 8000,3125 0,6875 1200 2000,085 0.915
ˆ ( P
st
+ 0,562 + 0,122 = 0,001
32001 380 56001 800 12001 200
4.15. En una ciudad turística de temporada con 10000 viviendas se desea conocer la proporción de
viviendas en alquiler al menos una vez al año. Para realizar el estudio, se selecciona en cada
uno de los tres barrios existentes una muestra aleatoria de viviendas de tamaño proporcional
al número total de viviendas en cada uno. En el barrio A se seleccionaron 1050 viviendas, de
las cuales había 800 en alquiler al menos un mes al año. En el barrio B se eligieron 900
viviendas, de las cuales había 600 en alquiler al menos un mes al año. En el barrio C se
seleccionaron 1700 viviendas, de las cuales 1300 estaban en alquiler al menos un mes al año.
Estimar la proporción de apartamentos que estarían dispuestos a ser alquilados al menos una
vez al año y cuantificar el error de muestreo cometido.
Para estimar la proporción de viviendas en alquiler al menos una vez al año, definimos:
n1 n2 n3
ˆ = 1 800 ˆ = 1
= 0,7619, P
600 ˆ = 1
= 0,6667 , P
1300
P
1
n1
∑ A i1
=
1050
2
n2
∑ A i2
=
900
3
n3
∑ A i3
=
1700
= 0,7647
i =1 i =1 i =1
n = n1 + n2 + n3 = 1050 + 900 + 1700 = 3650, N = 10000
L ˆ Qˆ
N h n h P
ˆ )=
∑ W h
2 h h
ˆ ( P
st
h =1 N h 1 nh
ˆ ) = 0,32 2
3200 3800,3263 0,6737 5600 8000,3125 0,6875 1200 2000,085 0.915
ˆ ( P
st
+ 0,562 + 0,122 = 0,001
32001 380 56001 800 12001 200
4.16. Una gran empresa sabe que el 40% de las cuentas que recibe es al por mayor y el 60% es al por
menor. Sin embargo, identificar las cuentas individuales sin consultar un archivo es complicado.
Un auditor desea muestrear n = 100 de sus cuentas para estimar la cantidad promedio de las
cuentas por cobrar de la empresa. Una muestra irrestricta aleatoria presenta 70% de cuentas al por
mayor y un 30% de cuentas al por menor. Los datos son separados en cuentas al por mayor y
cuentas al por menor después del muestreo, con los siguientes resultados en unidades monetarias:
Por mayor Por menor
n = 70
1 n = 30
2
Estimar la cantidad promedio de las cuentas que recibe la empresa y fijar un límite para el error
de estimación.
Muestreo estratificado sin y con reposición 193
Como la proporción observada de cuentas al por mayor (0,7) está muy alejada de la proporción
verdadera (0,4), la estratificación después de seleccionar la muestra irrestricta aleatoria
(estratificación a posteriori) puede ser adecuada, lo cual puede también ser justificado porque n 1
y n exceden de 20.
2
L
S h2
∑ W (1 f ) n
2
ˆ ( x st ) = h h
h =1 h
El límite para el error de estimación al 95% será 2 ˆ ( x ) 28, con lo que un intervalo st
4.17. Un farmacéutico investiga el ingreso en caja obtenido por ventas a jubilados y al resto de sus
clientes. Observa que el último mes ha vendido productos a 750 jubilados y 346 al resto de
sus clientes. Como los jubilados suelen tener tratamientos particulares propios de
enfermedades habituales en ellos, puede considerarse como un estrato homogéneo respecto
de los productos que consumen. Lo mismo ocurre con el resto de los clientes. Como llevaría
tiempo analizar cliente a cliente, se toma una muestra de 24 clientes y se estratifica a
posteriori en función de si se trata de jubilados o no. El ingreso neto en euros por cada
cliente de la muestra se presenta a continuación:
Cliente Ingreso Cliente Ingreso Cliente Ingreso
Jubilado 271,3 Normal 173,69 Jubilado 277,67
Jubilado 301,29 Normal 133,24 Normal 171,89
Normal 163,17 Jubilado 275,8 Normal 165,22
Normal 141,72 Normal 246,48 Jubilado 235
Jubilado 367,94 Normal 176,7 Normal 181,2
Jubilado 328,63 Jubilado 292,09 Normal 177,37
Normal 179,7 Normal 187,52 Normal 161,37
Jubilado 337,77 Jubilado 349,79 Normal 215,76
Realizar una estimación del ingreso neto del farmacéutico y de su error de muestreo.
194 Muestreo estadístico. Conceptos y problemas resueltos
ˆ v( X
ˆ '') 71689746,68
C = = 0,03 3%
288968,8
Muestreo estratificado sin y con reposición 195
EJERCICIOS PROPUESTOS
4.1. Sea X la variable salario anual en millones de unidades monetarias. Al medir la variable X
sobre una población de 870 personas se obtiene la siguiente distribución de frecuencias:
Valores de X 2 3 4 7 10 12 16 20 25 30 35 50 60 100
Frecuencias (ni) 20 30 60 100 150 200 120 80 50 20 18 10 8 4
Con el objeto de establecer pautas para futuras encuestas de salarios se estratifica la población
utilizando dos métodos diferentes de estratificación. El método I consiste en realizar tres
estratos según los criterios dados por 2 X 7, 10 X 25, 30 X 100. El método II
consiste en realizar tres estratos según los criterios dados por 2 X 10, 12 X 35,
50 X 100. Se pide lo siguiente:
1º) Suponiendo muestreo con reposición y para un tamaño de muestra n = 100, realizar las
afijaciones uniforme, proporcional y de mínima varianza para los dos métodos de
estratificación. Comentar los resultados. Elegir el mejor método de estratificación y su tipo
de afijación justificando la respuesta. Cuantificar la ganancia en precisión para el método y
afijación elegidos respecto del muestreo aleatorio simple con reposición.
2º) Responder a las mismas cuestiones del apartado anterior suponiendo muestreo sin
reposición. Comentar los resultados comparándolos con los del apartado anterior.
3º) Para la misma muestra de tamaño 100 realizar la afijación óptima para los dos métodos de
estratificación, siendo los costes por unidad en cada estrato los siguientes: C = 1, C = 16, C =
11 21 31
25, C = 4, C = 9 y C = 36, donde C ij = Coste por unidad en el estrato i según el método de
12 22 32
estratificación j. Considerar muestreo sin reposición y con reposición y comparar los resultados.
Para este tipo de afijación ¿cuál es el mejor método de estratificación? Razona la respuesta.
4º) En una encuesta de salarios posterior, ¿qué tamaño de muestra sería necesario para
conseguir un error de muestreo de 0,5 al estimar la media salarial sin reposición y afijación
de mínima varianza? ¿y si el muestreo es con reposición? Comentar los resultados.
5º) En una encuesta de salarios posterior ¿qué tamaño de muestra sería necesario para
conseguir un error relativo de muestreo del 15% al 95% de coeficiente de confianza (r
=1,96) al estimar el total salarial con reposición y afijación proporcional. ¿Y si el muestreo
es sin reposición? Comentar los resultados.
4.2. Se van a muestrear las familias de un pueblo para estimar la cantidad promedio de bienes por
familia que se pueden convertir en dinero efectivo rápidamente. Las familias se estratifican
en un estrato de renta alta y otro de renta baja. Se piensa que una casa en el estrato de renta
alta tiene cerca de nueve veces más bienes que una casa en el estrato de renta baja, y se
espera que S h sea proporcional a la raíz cuadrada de la media del estrato. Se sabe que existen
4000 familias en el estrato de renta alta y 20000 familias en el estrato de renta baja. Se pide:
a) ¿Cómo se distribuiría de forma óptima entre los dos estratos una muestra de 1000 familias
extraída de la población?
b) Si el objetivo es estimar la diferencia entre bienes por familia en ambos estratos ¿cómo
debe distribuirse la muestra?
196 Muestreo estadístico. Conceptos y problemas resueltos
4.3. Consideramos un proceso de muestreo estratificado con afijación óptima en el que se define
la función de coste total C de la siguiente forma:
L
C = c0 + ∑ c h nh
h =1
donde c representa un coste fijo dado y los c son también conocidos y representan el coste
0 h
1º Realizar la afijación de mínima varianza para un coste total C fijo al estimar la media
poblacional y hallar la expresión general que nos da la varianza mínima.
Estrato W h S h c
h
1 0,4 4 1
2 0,3 5 2
3 0,3 6 3
4.4. Supongamos conocidos los siguientes datos de una población dividida en tres estratos: S = 9,
12
lo siguiente:
b) Contestar a las mismas cuestiones del apartado anterior, pero con reposición, y comparar
los resultados con los obtenidos en el apartado a). Justificar los resultados y comprobar que
la afijación óptima y la de mínima varianza coinciden para costes unitarios.
CAPÍTULO
MUESTREO S
SISTEMÁTICO
OBJETIVOS
1. Presentar el concepto de muestreo sistemático.
ÍNDICE
1. Muestreo sistemático. Especificaciones.
2. Estimadores y varianzas.
5. Estimación de varianzas.
7. Problemas resueltos.
8. Ejercicios propuestos
Muestreo sistemático 199
i \ j 1 2 3 L j L k
1 u 11 u 12 u 13 L u 1 j L u 1 k
2 u 21 u 22 u 23 L u 1 j L u 2 k
M M M M M M
i u i1 u i2 u i3 L u 1 j L u ik
M M M M M M
n u n1 u n2 u n3 L u nj L u nk
i\j 1 2 3 L j L k
1 u1 u2 u3 L u j L uk
2 uk +1 uk +2 uk +3 L uk + j L uk + k
3 u2k +1 u2 k +2 u2 k +3 L u2k + j u2 k + k
M M M M M M
i u(i 1) k +1 u(i1) k +2 u(i1) k +3 L u(i 1) k + j L u(i1) k +k
M M M M M M
n u( n1) k +1 u( n1) k +2 u( n1) k +3 L u(n1) k + j L u(n1) k +k
12
4 4 3
u N
Para extraer una muestra de tamaño n se elige al azar una unidad en la primera zona, y
para seleccionar las n 1 unidades restantes para la muestra se toma en cada zona la unidad que
ocupa el mismo lugar dentro de su zona que el que ocupaba la primera unidad seleccionada dentro
de la primera zona. Por ejemplo, si la unidad seleccionada para la muestra al azar en la primera
zona es la tercera, se elegirán las n 1 unidades restantes para la muestra tomando la tercera unidad
de cada zona. Las muestras sistemáticas así obtenidas (columnas de la tabla anterior) suelen
denominarse muestras 1 en k .
Conocida esta tabla, pueden realizarse ya todos los cálculos. La varianza del
estimador de la proporción puede calcularse como:
2 2
V ( P ˆ =
ˆ ) = V P ( )
1
n S bs
= (1 f )
S bs 1 0,43
= (1 ) = 0,0344
j
N n n 5 10
( )
V ( Aˆ ) = V N P ˆ ) = N 2 (1 f ) S bs = 50 2 0,0344 = 86
ˆ = N 2V ( P
j j
n
49
0 ,1963
0 ,0344 = 50 (1 + (10 1) ) ⇒ = 0 ,0875
10
cercanos. Concretamente S = 0,1963 > S = 0,1755, lo que indica que es más preciso el muestreo
2 2
ws
3 3
ˆ 2
ˆQ ˆ 1
S P 1 10 1 10
ˆ( )
V P 2 = (1 f )
ˆ
n
2
= (1 f ) 2 2
= 1
n 1 5 10 1
= 0,0186
1 1
ˆ 2 ˆQ ˆ 1
S P 1 10 1 10
V ( )
ˆ = (1 f )
ˆ P
3
3
= (1 f ) 3 3
= 1 = 0,008
n n 1 5 10 1
ˆ P
V ˆ = V ˆ P
ˆ = 0,008
4 3
2 2
ˆ 2
ˆQ ˆ 1
S P 1 10 1 10
ˆ( )
V P 5 = (1 f )
ˆ
n
5
= (1 f ) 5 5
= 1
n 1 5 10 1
= 0,0142
1 f 2 1 0,2
( )
V P 1 = 2 ∑ ( xh1 xh 2 ) =
ˆ ˆ
n
2
10 2
[
(1 1) 2 + (1 0) 2 + (0 1) 2 + (1 0) 2 + (0 1) 2 = 0,032 ]
h
de producción defectuosa.
mi m1 m2 m3 m4 m5 m6 m7 m8
X i 1 3 5 2 4 6 2 7
5 2 3,5 3 3
Hemos creado un cuadro con las muestras sistemáticas como columnas, colocando
una fila adicional inferior con las medias de las columnas y una columna adicional a la derecha
con las medias de las filas.
Muestreo sistemático 211
Figura 5-4
Figura 5-5
∑ ∑ ( x j X )
2
2
Entre muestras k 1 = 2 1 = 1 = 4,5 S bs = 4,5 / 1 = 4,5
i j
n k
∑ ∑ ( X ij x j )
2
Dentro de muestras N k =82 = 6 = 27 S ws
2
= 27 / 6 = 4,5
i j
n k
El cálculo de la varianza también puede realizarse a través del valor del coeficiente de
2
correlación intramuestral como V ( x j ) = (1 + (n 1) ) . Tenemos:
n
k n k n
2∑∑ X ij X ( )( X zj
X ) 2∑∑ X ij X ( )( X
zj X )
j i < z j i < z
w = 2
= = 0,14285
N (n 1) ( N 1)(n 1)S 2
Tendremos entonces:
7
2 4,5
V ( x j ) = (1 + (n 1) ) = 8 (1 + 3(0,14285)) = 0,5625
n 4
Ahora surge el problema de estimar las varianzas. Para ello observamos en primer
lugar que S = 4,5 = S , por lo que la precisión en muestreo aleatorio simple coincide con la
2
ws
2
precisión del muestreo sistemático, y podremos utilizar la fórmula del muestreo aleatorio
simple para estimar varianzas. Por otra parte, el valor del coeficiente de correlación
intramuestral indica que la precisión del muestreo sistemático es buena, ya que éste es
muy bajo y además es negativo. Al ser negativo vemos que no existe interrelación dentro de
las muestras, esto es, que las muestras tienden a ser heterogéneas dentro de sí, lo cual es muy
conveniente en muestreo sistemático a la vista de que la muestra ha de representar fielmente
a toda una población que se supone heterogénea.
Para estimar la varianza de la media podemos utilizar la fórmula del muestreo
aleatorio simple, ya que en este problema coincide en precisión con el sistemático.
Tendremos los siguientes resultados para cada una de las dos muestras:
ˆ 2 1 1
ˆ S 2 2
[
V ( x1 ) = (1 f ) 1 = 1 (1 3) + (5 3) + (4 3) + (2 3) 2
2
] 4 = 0,41
n 2 3
ˆ 2 1 1
ˆ S
n 2 3
2 2
[
V ( x2 ) = (1 f ) 2 = 1 (3 4,5) + (2 4,5) + (6 4,5) + (7 4,5) 2
2
] 4 = 0,71
La mejor muestra sistemática resulta ser la primera, pues es la que presenta menor
varianza.
Consideramos ahora cada una de las 4 zonas (filas) como un estrato de 2 unidades.
Tenemos entonces dividida la población en 4 estratos de 2 unidades cada uno, de modo que
la muestra sistemática consta de una unidad por estrato, que de forma general no es elegida
aleatoriamente dentro del mismo. Esta clasificación de los elementos de la población en 4
filas de 2 unidades cada una origina una tabla del análisis de la varianza para la población
que puede calcularse a través de Excel. Como estamos clasificando los datos en 4 filas (estratos),
utilizaremos las variables M a M , que recogen los valores de las cuatro filas. A continuación
2 5
Figura 5-6
Figura 5-7
238 Muestreo estadístico. Conceptos y problemas resueltos
1 f
ˆ)
V ( X = V ( Dˆ T + Y ) = V ( Dˆ T ) = N 2
n
S x2 + S y2 2 S xy ( ) (Y es
es una constante)
V
ˆ
ˆ ( X ) ()
= V ˆ Dˆ =
n
(
1 f ˆ 2
S x
ˆ 2 2S
+ S
y
ˆ
xy
), ˆ ( X
V ˆ) = V ˆ ( Dˆ T ) = N 2
1 f ˆ 2
n
(
ˆ 2 2S
S x + S
y
ˆ
xy
)
Para muestreo con reposición tenemos:
1 1
ˆ
V ( X ) =
n
( x
2
+ y2 2 xy ) ˆ)
V ( X = N 2
n
( x
2
+ y2 2 xy )
V ( ) (
ˆ = V ˆ Dˆ =
ˆ ( X ) 1
n
ˆ2
S
x
+ S ˆ y2 2S ˆ xy ) ˆ ( X
V ˆ) = V ˆ ( Dˆ T ) = N 2
1
n
(
ˆ2
S
x
+ S ˆ y2 2S ˆ xy )
ESTIMADORES DE RAZÓN EN EL MUESTREO ESTRATIFICADO
Existen dos formas de plantear un estimador de razón para el total X , en el caso de muestreo
estratificado. En la primera de ellas se obtiene un estimador de razón para cada el total de cada
estrato y se suman todos ellos. El estimador obtenido se denomina estimador separado de razón.
La principal ventaja de este estimador es que permite que la razón de X a Y varíe de un estrato a
otro. Sin embargo, necesitamos conocer el total de la variable auxiliar, Y , en cada estrato por h
separado. En la segunda de ellas se obtiene una única razón con los totales de X e Y estimados
X st
ˆ
variable auxiliar Y ,
que se supone conocido. El estimador obtenido se denomina estimador
combinado de razón. Para construir este estimador no es preciso conocer el total de la variable
auxiliar en cada estrato; basta conocer el total de la población. Ésta es una ventaja con respecto al
estimador separado de razón. Sin embargo, el estimador combinado supone, implícitamente, que la
razón permanece constante de un estrato a otro.
4.2.1 Estimador separado de razón
Estimador de razón simple o separado (para
(para el total poblacional)
poblacional)
Se observa que es la suma de los estimadores de razón para el total en los diferentes
estratos. En general este estimador es sesgado, por serlo Rˆ h = 1, ..., L . h
Se observa que el sesgo total es la suma de los sesgos en cada estrato ponderados
por los Y . Para muestreo sin reposición la expresión
h expresión del sesgo será:
L L
(1 f h ) L
N h2 (1 f h )
ˆ )=
B ( X RS ∑ Y h B( Rˆ h ) = ∑ Y h n Y 2 Rh S Yh S XYh = ∑ ( 2
) n hY h
( R S
h
2
Yh
S XYh )
h h h h h {
2 2
Y h N h
L
N h2 (1 f h ) ˆ ˆ 2
ˆ ˆ
que puede estimarse como: B( X RS ) = ∑
n Y
ˆ
Rh S Yh S XYh
( )
h h h
(ˆ )
L
N h
que puede estimarse como: Bˆ ( X ˆ ) = ∑ ˆ
Rh S
2
S ˆ XYh
RS Yh
h nh Y h
L
N h2 (1 f h ) L
N h2 (1 f h ) N N h N h
(S )
h
∑
2
xh + R h S yh 2 Rh S xyh = ∑
2 2
∑ X hi + Rh ∑ Y hi 2 Rh ∑ X hi Y hi 2 2 2
h nh n (
h h h N 1) i i i
N h2 (1 f h ) ˆ 2
( )
L
ˆ ˆ
V ( X RS ) = ∑ ˆ 2 2 Rˆ S
S xh + Rˆ h2 S ˆ
yh h xyh =
h nh
L
N h2 (1 f h ) n h
nh
nh
h nh (nh 1) i i i
El valor de la varianza del estimador separado del total para muestreo con reposición será:
240 Muestreo estadístico. Conceptos y problemas resueltos
L L L
1
ˆ ) = V ( Rˆ Y ) = Y 2V ( Rˆ ) =
V ( X RS ∑ h h ∑ h h ∑ Y h Y 2 n xh + Rh yh 2 Rh xyh =
2 2 2 2
( )
h h h h h
N h2Y h2
L
N h
2 L
N h
2
N N N
( )
h h h
∑
2
xh + Rh yh 2 Rh xyh = ∑
2 2
∑ X hi + Rh ∑ Y hi 2 Rh ∑ X hi Y hi
2 2 2
h nh h n h ( N h 1) i i i
La estimación de la varianza para muestreo con reposición será:
L
N h
2 L
N h
2
n n h n h h
V ( X RS ) =
$ $
∑n (
S xh
$
2
+ Rh S yh 2 Rh S xyh = ∑
$
2 $
2 $ $
) ∑ X + Rh ∑Yhi 2 Rh ∑ X hiYhi
1) i hi
2
$
2 2 $
h h h nh (nh i i
Se consideran estimaciones para la media basadas en la razón en cada estrato definidas como
x h
X Rh =
$
yh
sumando las estimaciones de las medias en cada estrato ponderadas por los W =N /N h h
L
( Xst = ∑W
$
h
X h
$
X RS
$
= ∑W h
X Rh
$
= ∑W R h
$
h
Y h
h h
X RS
$
= ∑W h
X Rh
$
= ∑W R h
$
h
Y h = ∑ Rh
$
= ∑ R Y $
h h
=
h h h N N h N h N
Luego todas las fórmulas para el estimador de la media pueden obtenerse a partir de
las fórmulas correspondientes ya vistas para el estimador del total.
Muestreo sin reposición
W h2
L
Wh2 (1 f h ) N h
N h N h
∑n ( N h 1)
∑ X hi + R h 2 2
∑ Yhi 2 R h ∑ X hi Y hi
2
h h i i i
L
W h2 (1 f h ) n
ˆ
n
ˆ
n h
h h
=
∑ n ( n 1) ∑ hi
X + R h ∑ Y
hi 2 R
h ∑ X hi Y hi
2 2 2
h h h i i i
Muestreo por métodos indirectos. Razón, regresión y diferencia 241
Se observa que el sesgo total es la suma de los sesgos en cada estrato ponderados
por los Y /N. Para muestreo sin reposición la expresión
h expresión del sesgo será:
1 L
N h2 (1 f h ) L
W (1 f h )
ˆ ˆ
B( X RS ) = B( X RS ) = ∑
N
Rh S Yh S XYh = ∑ h
2
( 2
Rh S Yh S XYh ) ( )
h Nn h Y h h n h Y h
L
ˆ ˆ
que puede estimarse como: B( X RS ) = ∑ h
W (1 f h ) ˆ ˆ 2
nhY h
ˆ
Rh S Yh S XYh
( )
h
El valor de la varianza del estimador separado de la media para muestreo con reposición
será:
1 L
N h 1 2 2
ˆ
V ( X RS ) =
2
V ( X RS ) = ∑
ˆ
N
2
xh + 2 2
Rh yh 2 Rh xyh =
N n h
( )
h
1 2 3
W h2
L
W h
2
N
h
N N
h
h
h h h i i i
W h L 2 L
W h
2
n n n
ˆ
( )
h h h
ˆ ( X ˆ 2 + Rˆ 2 S
ˆ2 ˆ ˆ ˆ ˆ
∑ X hi + Rh ∑ Y hi 2 Rh ∑ X hi Y hi
RS ) = ∑ h yh 2 Rh S xyh = ∑
2 2 2
V S
xh
h nh h n h (n h 1) i i i
L 2 L
1 N h W h
ˆ
B ( X RS ) =
N
ˆ )=
B ( X RS ∑ ( R
h
2
Yh
XYh = ∑ ) ( R h
2
Yh
XYh )
h Nn h Y h h n h Y h
L
x st X st
$
C
= , y se
y st Y st
$
es X = R Y ).
$ $
h h h h
L
W h2 (1 f h ) L
W h2 (1 f h ) N N h N h
(S )
h
N 2
∑
2
xh
2 2
+ R S 2 R S xyh = N
yh
2
∑n ∑ X + R ∑ Y 2 R∑ X hi Y hi
2
hi
2 2
hi
h nh h h ( N h 1) i i i
V( X RC ) = N ∑
$ $
2
(S
$
2
xh
2 2
= N ∑
+ R Syh 2R Sxyh
$ $
xyh
$ $
)
∑ Xhi + R
2 2 2
∑Yhi 2R∑XhiY hi
2
h nh h nh (nh 1) i i i
Y
Se observa que para el sesgo total no se acumulan los sesgos en cada estrato. Para
muestreo sin reposición la expresión del sesgo será :
L 2 L
S Yh S XYh
∑W h
2
( 1 f h )
nh
∑W h
2
( 1 f h )
nh
h h
67
4 48 6447 44 8 2
R V ( y st ) Cov( x st , y st ) L W (1 f )
B ( X$ RC ) = B ( R$ C )Y = 2 h h 2
2 Y = N ∑ ( RSYh S XYh )
Y h
{
nh Y
Y 2 / N 2
L
Wh2 (1 f h )
que puede estimarse como: B ( X RC ) = N $ $
2
∑ nh Y
( RS $ $
2
Yh
S XYh )$
El valor de la varianza del estimador combinado del total para muestreo con reposición será:
Muestreo por métodos indirectos. Razón, regresión y diferencia 243
nh
∑ W h
2
nh
∑ W h
2
nh
h h h
L
W h
2 L
W h2 N N h N h
( )
h
N 2
∑
2
xh
2 2
+ R yh 2 R xyh = N 2
∑ n N ∑ hi
X + R ∑ hi
Y 2 R ∑ hi hi
X Y 2 2 2
h nh h h h i i i
V ( X RC ) = N
$ $
2
∑n (S $
xh
2
+R$
2
S yh
$
2
2 RSxyh = N
$ $
) 2
∑ n (n 1) ∑ X hi + R
i
2
$
2
∑Yhi 2 R∑ X hiYhi
2
$
h h h h h i i
nh
∑ W h
2
nh
h h
678 64748
2
L 2
W h
que puede estimarse como: B ( X RC )
$ $
= N
2
∑ n Y ( RS $ $
Yh
2
S XYh )
$
h h
C
= , y se
y st Y st
$
razón es X = $
R Y ).
$
L
W h2 (1 f h ) L
W h2 (1 f h ) N N N
(S ) = ∑ n ( N
h h h
∑
2
xh
2
+ R S 2 R S xyh 2
yh
∑ X hi 2 + R 2 ∑ Y hi 2 2 R∑ X hi Y hi
h nh h h h 1) i i i
ˆ
V ( X RC ) = ∑ ˆ ˆ
S xh + R S yh 2 R S xyh = ∑ ∑ X hi + R ∑Y hi 2 R∑ X hiY hi
2 2 2
h nh h nh (nh 1) i i i
244 Muestreo estadístico. Conceptos y problemas resueltos
X
B ( X RC ) = E ( X RC ) X = E ( RC Y ) Y = E ( RC ) Y RY = ( E ( RC ) R Y ) = B( RC ) Y
$ $
$ $ $ $
Y
Se observa que para el sesgo total no se acumulan los sesgos en cada estrato. Para
muestreo sin reposición la expresión del sesgo será :
L 2 L
S Yh S XYh
∑ W h
2
(1 f h )
nh
∑ W h
2
(1 f h )
nh
h h
678 647
4 48
4
nh Y
( RS
$ $
2
Yh
S XYh ) $
h
Muestreo con reposición
El valor de la varianza del estimador combinado de la media para muestreo con reposición
será:
ˆ 1
V ( X RC ) = V ( Rˆ C Y ) =Y 2V ( Rˆ C ) = Y 2 2 (V ( x st ) + R 2 V ( y st ) 2 RCov ( x st , y st ))
Y 123 1 2 3 142
4 43 4
L 2 L 2 L
Xh Yh XYh
∑ W h
2
nh
∑ W h
2
nh
∑ W h
2
nh
h h h
L
W h2 L
W h2 N N h N h
( )
h
∑
2
xh + R yh 2 R xyh = ∑
2 2
∑ X hi + R 2 2
∑ Y hi 2 R ∑ X hi Y hi
2
h nh h n h N h i i i
La estimación de la varianza para muestreo con reposición será:
2 2
n nh nh
W h
( ) W h
L L
ˆ
ˆ ( X ˆ 2 + Rˆ 2 S ˆ 2 2 Rˆ S ˆ
h
V RC ) = ∑ S
xh yh xyh = ∑
∑ X hi + Rˆ 2 2
∑ Y hi
2
2 Rˆ ∑ X hi Y hi
h nh h n h (n h 1) i i i
reposición la expresión del sesgo será:
Para muestreo con reposición
L 2 L
Yh XYh
∑ W ∑ W
2 2
h h
nh nh
h h
678 647
4 48
4
2
ˆ ˆ RV ( y st ) Cov( x st , y st ) L W
h 2
B( X RC ) = B ( RC )Y = 2
Y = ∑ ( R Yh XYh )
Y h n Y
h
L 2
W h
que puede estimarse como: B ( X RC )
$
$
=∑
n Y
( RS $ $
Yh
2
S XYh )
$
h h
estimaciones de regresión en cada estrato, cuya expresión será x rgst = ∑Wh xrgh , y el
h
estimador combinado, obtenido directamente a partir de las medias estratificadas, que vale
x rgc = x st + b( Y y st ) .
L L
E ( xrgc ) = E ( x st ) + b( Y E ( y st ) ) = X + b(Y Y ) = X
L L
1 f h 2
( h
)
V xrgst = ∑Wh V xrgh = ∑ Wh2
h nh
2
( )2
( S Xh + bo S Xh 2bo S XYh
)
S XYh
que será mínima cuando lo sean las ( ) , es decir, cuando b
V x rgh o
= h =
S Yh
2
h nh
(1 2 xyh )
nh
( S Xh + h S Xh 2 h S XYh ) = ∑Wh2
$
2 $ $
2 $ $
h
nh
S xh (1 2 xyh )
$
$
L
L L L
1 f h 2 1 f h 2
( $
)
V X rgst = ∑ N hV xrgh
h
2
( ) = ∑ Nh
h nh
( S Xh + h S Xh 2 h S XYh ) = ∑ N h2 S xh
2 2
h nh
(1 2 xyh )
246 Muestreo estadístico. Conceptos y problemas resueltos
nh
( S Xh + h S Xh 2 h S XYh ) = ∑ N h2
$
2 $ $
2 $ $
h
nh
S xh (1 2 xyh )
$
$
L L
1
(
V xrgst ) = ∑W V ( x ) = ∑ W
h
2
h rgh
h
2
h ( Xh
nh
2 2
+ bo Xh 2bo XYh )
XYh
que será mínima cuando lo sean las ( ) , es decir, cuando b = = S S
V xrgh o h
XYh
2
=
Yh2
Yh
h nh
2
xh (1 2 xyh )
nh
( S Xh + h S Xh 2 h S XYh ) = ∑Wh2
$
2 $ $
2 $ $
h nh
$
2
S xh (1 2 xyh )
$
) = ∑ N V( x ) = ∑ N
h
2
h rgh
h
h
2
nh
( Xh + h Xh 2 h XYh ) = ∑ N h2
2 2
h nh
2
xh (1 2 xyh )
L L
1 1
$
(
Vmin X rgst
$
) = ∑ N h
2
h
nh
( S Xh + h S Xh 2 h S XYh ) = ∑ N h2
$
2 $ $
2 $ $
h nh
$
2
S xh (1 2 xyh )
$
Estimador combinado
( )
V xrgc = V ( x st ) + bo2V ( Y y st ) 2bo cov( x st , Y y st ) =
L
Wh2 (1 f h )
V ( x st ) + bo V ( yst ) 2bo cov( x st , y st ) = ∑
2
h nh
( 2
S xh + bo2 S yh
2
2bo S xyh )
Muestreo por métodos indirectos. Razón, regresión y diferencia 247
Para hallar el valor de b que minimiza esta expresión, igualamos a cero su derivada
o
respecto de b y tenemos:
o
L
Wh
2
(1 f )
L
Wh
2
(1 f ) L
Wh
2
(1 f ) ∑ nh
h
S xyh
∑ 2∑
h 2 h h
2b0 S yh S xyh = 0 ⇒ bo =
h nh h nh L
Wh2 ( 1 f h )
∑ nh
2
S yh
h
L
Wh2 ( 1 f h )
S xyh
∑ nh
2
S yh h
2 h
Pero como h = S xyh = h S yh , se tiene bo =
Wh2 ( 1 f h )
2
S yh L
∑ nh
2
S yh
h
El valor b que minimiza la varianza del estimador combinado es entonces una medida
o
ponderada de los coeficientes de regresión , siendo las ponderaciones dadas por h
L
2 c S xyh
$
$
$
)
donde:
L
∑h h $
$
h
c =
$
L , h =
$ S yh y h =
$
2 $
2
.
nh S yh
∑ h
$
ˆ
X ˆ ˆ = N
rgc = X st + bo Y Y st x st + bo N Y N y st = N x rgc ( )
Su varianza puede entonces expresarse en función de la varianza para la estimación
de la media de la siguiente forma:
L
Wh2 ( 1 f h )
( $
) (
V X rgc = V Nx rgc = N V x rgc = N ∑ ) 2
( ) 2
h nh
( 2
S xh + bo2 S yh
2
2bo S xyh )
248 Muestreo estadístico. Conceptos y problemas resueltos
)
Muestreo con reposición
El valor b que minimiza la varianza del estimador combinado para la media es una media
o
ponderada de los coeficientes de regresión , siendo las ponderaciones dadas por h
L
W h
2 ∑h h
2 h
h = yh , de tal forma que se puede escribir bo = L = c , pudiendo expresarse la
nh
∑ h
h
varianza mínima como:
l
1
Vmin x rgc ( ) = ∑
h
W h
2
nh
(
2
xh + c2 yh
2
2 c xyh )
que puede estimarse como:
l
1
Vmin x rgc
$
( ) = ∑W h
h
2
nh
( S xh
$
2
+ c2 S yh
$2
2 c S xyh
$
$
$
)
donde:
L
∑h h $
$
W h
2
S xyh
$
h 2
c =
$
L , h =
$ S yh y h =
$ $
2
.
nh S yh
∑ h
$
)
258 Muestreo estadístico. Conceptos y problemas resueltos
100
(1 )
(1 f ) ˆ 2 ˆ 2 ˆ 2
ˆ
ˆ ( X
V )=
n
( ˆ =
S x + R S y 2 Rˆ S )
XY
100
( )
2010 620 + 0,2242 7619 2 0,224 1453 = 3,335
n 100
Se observa que la menor varianza la presenta el estimador basado en la regresión,
seguido del estimador basado en la razón, el estimador aleatorio simple y el estimador
basado en la diferencia. Estos resultados coinciden con los especificados al principio del
problema basados en la recta de regresión.
La ganancia en precisión del estimador de regresión sobre el aleatorio simple es G =
(5,89/3,24 1)100 = 81,8%.
La ganancia en precisión del estimador de razón sobre el aleatorio simple es G =
(5,89/3,335 1)100 = 76,6%.
La ganancia en precisión del estimador de regresión sobre el de razón es G =
(3,335/3,24 1)100 = 2,9%.
En cuanto a la estimación del sesgo de estimador de la razón tenemos:
100
1
Bˆ ( Rˆ ) =
n y 2
(
(1 f ) ˆ ˆ 2 ˆ
RS y S )
XY =
2010 (0,224 7619 1453) = 0,02
100 117,28
ˆ
ˆ ( X )
V =
n
(
1 ˆ2 ˆ2 ˆ2 ˆ S ˆ
S x + R S y 2 R XY
)=
1
100
(
620 + 0,224 2 7619 2 0,224 1453 = 3,51 )
Ahora estimamos el error del estimador de la media basado en regresión.
Muestreo por métodos indirectos. Razón, regresión y diferencia 259
1 ˆ2 1
ˆ ( X )
V min rg
ˆ =
n
S x 1 (
ˆ2 =
100
)
620(1 0,67 2 ) = 3,41
Bˆ ( Rˆ ) =
1 ˆ ˆ2 ˆ
n y 2
R S
y
( S
XY =
(1 600 / 1500)
600 5,58 2
)(2 7 3,75) = 0,0005
2
S xy1
ˆ
= xy1S xS y = 496,4 y
ˆ
ˆ ˆ
S xy2
ˆ
= xy2S xS y = 781,3.
ˆ
ˆ ˆ
nh
h
xh
2 2 2
yh xyh
h
W h2 (1 f h ) ˆ ˆ 2
( )=0,83/
L
ˆ ˆ ˆ
B( X RC ) = ∑ RS Yh S XYh
Y . Las operaciones a realizar son:
h nhY
(ˆ )
L
ˆ W h
ˆ ( X
V RC ) = ∑ S xh
2
+ Rˆ S ˆ yh 2 Rˆ S ˆ xyh = 3,1375 .
2 2
h nh
260 Muestreo estadístico. Conceptos y problemas resueltos
B
ˆ )=
ˆ ( X
RC ∑
W h
nh Y
(ˆ ˆ
RS Yh
2
)
S ˆ XYh =1.00456/ Y
h
La estimación de la varianza del estimador de la media para muestreo sin reposición será:
W h2 (1 f h ) ˆ 2
( )
L
ˆ ˆ 2 2 Rˆ S
ˆ
V ˆ ( X RS ) = ∑ S xh + Rˆ h2 S yh h xyh =
1,49.
h n h
El valor del sesgo del estimador simple o separado sin reposición puede estimarse
W (1 f h ) ˆ ˆ 2
( ) = 0,0029.
L
ˆ ˆ
como: Bˆ ( X RS ) = ∑ h Rh S Yh S XYh
Y e
1 Y 2 se estimarán mediante y 1
h nhY h
e y 2 respectivamente. Los cálculos a realizar serían:
La varianza del estimador separado de la media para muestreo con reposición puede
L 2
Para muestreo con reposición la expresión del sesgo puede estimarse como:
L
ˆ ( X
B ˆ )=
RS ∑
W h
(ˆ ˆ
Rh S Yh
2
S ˆ XYh = 0,0033.)
h nh Y h
)
donde:
L
∑ ˆ ˆ h h
Wh2 ( 1 f h ) S xyh
$
ˆ 2
0,16155 con h = S yh y h = .
h
c = L
$
$ $
2
nh S yh
$
∑ ˆ h
h
l
1 f h
$
( )
Vmin xrgc = ∑W h2
h nh
(
2
S xh + c2 S yh
$
2
2 c S xyh =1,46407.
$
$
$
$
)
La estimación de la varianza mínima del estimador de la media viene expresada en
muestreo con reposición por la expresión:
Muestreo por métodos indirectos. Razón, regresión y diferencia 261
l
1
Vmin x rgc
$
( ) = ∑W h
2
h
nh
( S xh
$
2
+ c2 S yh
$ 2
2 c S xyh
$
$
$
)
donde:
L
∑ ˆ ˆ h h
W h
2
S xyh
$
ˆ
c = h
L
= 0,18977 con h = $ S yh y h =
$
2 $
2
.
nh S yh
$
∑ ˆ h
h
l
1
Vmin x rgc
$
( ) = ∑W h
h
2
nh
( S xh
$
2
+ c2 S yh
$ 2
2 c S xyh =3,10321.
$
$
$
)
Estimador separado en regresión
h h h h
SIN REPOSICIÓN 1,49
SEPARADA
CON REPOSICIÓN 3,09792
RAZÓN
SIN REPOSICIÓN 1,51593
COMBINADA
CON REPOSICIÓN 3,1375
ESTRATIFIC
ADO
SIN REPOSICIÓN 1,40509
SEPARADA
CON REPOSICIÓN 2,97591
REGRESIÓN
SIN REPOSICIÓN 1,46407
COMBINADA
CON REPOSICIÓN 3,10321
SIN REPOSICIÓN 3,335
RAZÓN
SIN ESTRATIFIC AR CON REPOSICIÓN 3,51
SIN REPOSICIÓN 3,24
REGRESIÓN
CON REPOSICIÓN 3,41
262 Muestreo estadístico. Conceptos y problemas resueltos
6.5. En una determinada comunidad se intenta estudiar el cambio relativo en el valor catastral de
los bienes inmuebles en los dos últimos años. Se selecciona una muestra irrestricta aleatoria
de n = 20 inmuebles de entre los N = 1000 de la comunidad. De los registros fiscales se
obtiene el valor catastral para este año ( X ) o valor actual y el valor correspondiente de hace
dos años (Y ) o valor calculado, de cada una de las n = 20 casas incluidas en la muestra. Se
desea estimar R, el cambio relativo en el valor catastral para los N = 1000 inmuebles de la
comunidad, usando la información contenida en la muestra.
La estimación del cambio relativo R en el valor catastral desde hace dos años se
obtiene mediante el estimador de razón siguiente:
n
ˆ
X x
∑ x i
164,7
Rˆ = = = i =1
= = 1,07
ˆ
Y y
n
154,5
∑ y i
i =1
() 1 f
( ) 1 f n n n
Como Y
2
no se conoce, se estima mediante y
2
. Tenemos:
6.3. Una empresa industrial elabora un producto que es empaquetado, para propósitos de
mercado, en dos marcas comerciales. Estas dos marcas sirven como estratos para estimar el
volumen potencial de ventas para el trimestre siguiente. Una muestra irrestricta aleatoria de
clientes para cada marca es entrevistada para proporcionar una cantidad potencial Y de
ventas (en número de unidades) para el próximo trimestre. La cifra de las ventas verdaderas
del año pasado, para el mismo trimestre, está disponible para cada uno de los clientes
muestreados y se denota por X . Los datos se presentan en la tabla anexa. La muestra para la
marca I fue tomada de una lista de 120 clientes, para quienes el total de ventas en el mismo
trimestre del año pasado fue de 24500 unidades. La muestra de la marca II viene de 180
clientes, con un total trimestral de ventas para el año pasado de 21000 unidades. Hallar una
estimación de razón del total potencial de ventas para el próximo trimestre. Estime la
varianza de su estimador.
Marca I Marca II
Xi Yi Xi Yi
204 210 137 150
143 160 189 200
82 75 119 125
256 280 63 60
275 300 103 110
198 190 107 100
159 180
63 75
87 90
6.4. Se estima el ingreso nacional para 1981 mediante una muestra de n = 10 industrias que
declaran sus ingresos de 1981 antes que las 35 restantes. Se dispone de los datos del ingreso
de 1980 para las 45 industrias y los totales son 2174,2 (en miles de millones). Los datos se
presentan en la tabla adjunta.
Industria 1980 1981
Productos de fábricas textiles 13,6 14,5
Productos químicos y relacionados 37,7 42,7
Madera aserrada y leña 15,2 15,1
Equipo eléctrico y electrónico 48,4 53,6
Vehículos automotores y equipo 19,6 25,4
Transporte y almacenaje 33,5 35,9
Banca 44,4 48,5
Bienes raíces 198,3 221,2
Servicios de salud 99,2 114
Servicios de educación 15,4 17
a) Hallar un estimador de razón del ingreso total de 1981, y establecer un límite para el
error de estimación.
b) Hallar un estimador de regresión del ingreso total de 1981, y establecer un límite para el
error de estimación.
c) hallar un estimador de diferencia del ingreso total de 1981, y establecer un límite para el
error de estimación.
d) ¿Cuál de los tres métodos es el más apropiado en este caso? ¿Por qué?
CAPÍTULO
MUESTREO U
UNIETÁPICO
DE C
CONGLOMERADOS
OBJETIVOS
1. Presentar el concepto de muestreo unietápico de conglomerados.
ÍNDICE
1. Muestreo unietápico de conglomerados. Estimadores para conglomerados
del mismo tamaño y probabilidades iguales.
6. Tamaño de la muestra.
7. Problemas resueltos.
8. Ejercicios propuestos.
Muestreo unietápico de conglomerados 275
Tanto en el muestreo aleatorio simple con reposición como sin reposición, así como en el
muestreo estratificado, sistemático y métodos indirectos de estimación, las unidades de
muestreo son las mismas que las unidades objeto de estudio (unidades simples o
elementales), pero en la práctica nos encontramos con situaciones más generales en las que
las unidades de muestreo comprenden dos o más unidades de estudio. En tal caso a las
unidades de muestreo se las denomina unidades primarias o compuestas.
Por otro lado, en el muestreo por conglomerados solemos tener menor precisión en
las estimaciones, debido a que, aunque lo ideal es que haya heterogeneidad dentro, siempre
va a existir un cierto grado de homogeneidad inevitable dentro de los conglomerados que
disminuirá la precisión. La eficiencia de este tipo de muestreo disminuye al aumentar el
tamaño de los conglomerados, cuando en realidad este tipo de muestreo es más útil en caso
de poblaciones muy numerosas en las que se puedan construir conglomerados grandes.
Vamos a suponer ahora probabilidades iguales y que todos los conglomerados son
del mismo tamaño M , en cuyo caso utilizaremos la siguiente notación:
∑ X i
1329000
i =1
x = n
= = 8801
151
∑ M i
i =1
Para estimar el ingreso total de todos los residentes de la ciudad hacemos lo siguiente:
ˆ
X = M x = 2500(8801) = 22002500
ˆ ( X
V ˆ) = M V ˆ ( x ) = 2500 (653785)
2 2
ˆ
X ± 2 V ˆ ( X
ˆ ) = 22002500 ± 4042848
Si no se conocen los residentes en la ciudad M , para estimar el ingreso total de todos
los residentes de la ciudad utilizamos el estimador:
n
N 415
ˆ
X =
n
∑ X i =
25
1329000 = 22061400
i =1
2
n
n
∑ ( X ) 2
x 2
∑ X i
= ) =
i
ˆ ( X
ˆ ) = N 2 1
f N (1 f ) n
2 i 1
V i =1
= (∑ X i
n n 1 n( n 1) i =1 n
25
415 2 (1 )
415 (82039000000 (1329000) ) ⇒
2
ˆ ) = 1752960
ˆ ( X
25(25 1) 25
ˆ
X ± 2 V ˆ ( X
ˆ ) = 22061400 ± 3505920
296 Muestreo estadístico. Conceptos y problemas resueltos
7.8. Un auditor desea muestrear los registros de ausencias por enfermedad de una gran empresa,
para estimar el número promedio de días de ausencia por enfermedad por empleado en el
cuatrimestre pasado. La empresa tiene ocho divisiones, con diferentes números de empleados
por división. Ya que el número de días de ausencia por enfermedad dentro de cada división
debe estar altamente correlacionado con el número de empleados, el auditor decide muestrear
n = 3 divisiones con probabilidad proporcional al número de empleados. Mostrar cómo
seleccionar la muestra si los respectivos números de empleados son 1200, 450, 2100, 860,
2840, 1910, 390, 3200.
Supóngase que el número total de días de ausencia por enfermedad registrados en las tres
divisiones muestreadas durante el cuatrimestre pasado son, respectivamente, X 1 = 4320, X2 =
4160, X 3 = 5790. Estimar el número promedio de días de ausencia por enfermedad requeridos
por persona, de toda la empresa, y establecer un límite para el error de estimación.
X i
ˆ 1 n
X i n
M 1 n
X i 1 4220 4160 5790
X HH =
M
∑ nP = ∑ M i
=
n
∑ M =
3 3100
+
1910
+
3200
= 2,02
i =1 i i =1 i =1 i
n
M
2
n
X
∑ M X
2 i ˆ
X n
2
X X ˆ
n
∑ MP M
HH
∑ P X ˆ
i i HH
=
i 1 i
HH M
ˆ
ˆ ( X 1 = i 1 i
=
i 1 i M
V HH
)= 2
= = =
M n(n 1) n(n 1) n(n 1)
2
n
X ˆ 4220 4160 5790
2 2 2
∑ M i
X
2,02 +
HH 2,02 + 2,02
=
i 1 = 3100
i 1910 3200
= 0,0119
n(n 1) 3(3 1)
EJERCICIOS PROPUESTOS
7.1. De una población formada por N conglomerados se selecciona una muestra de tamaño n con
un procedimiento mediante el cual se elige la primera unidad para la muestra con
probabilidades desiguales P i, y los n 1 conglomerados restantes de la muestra se eligen con
probabilidades iguales, realizándose todas las extracciones sin reposición. Se pide una
estimación insesgada del total poblacional X y sus errores absoluto y relativo de muestreo
siendo N = 50, n = 4, X i el total del conglomerado i-ésimo y conociendo los siguientes datos
de los conglomerados de la muestra:
7.2. En una población compuesta por 10 conglomerados de 100 elementos se toma una muestra
monoetápica de n conglomerados. Por experiencias anteriores se sabe que el modelo de
2 2 2
Smith S b = S M t se ajusta bien en la proximidad de M =100 y se conoce el valor de S b
=1173. Se pide:
2 2 2
Calcular el valor de t y S w en el supuesto de que S b/ S =13,8.
Formar la tabla poblacional del análisis de la varianza y hallar el coeficiente de correlación
intraconglomerados.
7.3. Una industria está considerando la revisión de su política de jubilación y quiere estimar la
proporción de empleados que apoyan la nueva política. La industria consiste de 87 plantas
separadas localizadas en todo Estados Unidos. Ya que los resultados deben ser obtenidos
rápidamente y con poco dinero, la industria decide usar muestreo por conglomerados, con
cada planta como un conglomerado. Se selecciona una muestra irrestricta aleatoria de 15
plantas y se obtienen las opiniones de los empleados en estas plantas a través de un
cuestionario. Los resultados se presentan en la tabla anexa. Estimar la proporción de
empleados en la industria que apoyan la nueva política de jubilación y establecer un límite
para el error de estimación.
7.5. Se diseña una encuesta económica para estimar la cantidad promedio gastada en servicios
para el hogar en una ciudad. Ya que no se encuentra disponible una lista de hogares, se usa
muestreo por conglomerados, con divisiones (barrios) formando los conglomerados. Se
selecciona una muestra aleatoria de 20 barrios de la ciudad de un total de 60. Los
entrevistadores obtienen el costo de los servicios de cada hogar dentro de los barrios
seleccionados; los costos totales se muestran en la tala anexa. Estimar la cantidad promedio
de gastos en servicios por hogar en la ciudad y establecer un límite para el error de
estimación.
ÍNDICE
1. Muestreo bietápico de conglomerados. Estimadores para probabilidades
iguales y conglomerados del mismo tamaño.
7. Muestreo polietápico.
9. Problemas resueltos.
n m n
1 1
x =
nm
∑ ∑ X ij =
n
∑x i
i j i
Para el total poblacional, proporción y total de clase, los estimadores insesgados son
los siguientes:
n n n
ˆ = N M x = N M ˆ =1 ˆ = N M
ˆ = N M P
ˆ , A
X
n
∑ xi , P
n
∑ P i
n
∑ P ˆi
i i i
S b2 S w2
()
V x = (1 f 1 ) + (1 f ) 2
nM nm
N M
∑ ( X ) ∑ ( X )
2
i
X X i
n m 2 i 2 j
ij
N N
1 1
∑ MP ( 1 P )
2
N 1
∑ M ( P P ) i
N ( M 1) i i
V ( P ) = ( 1 f 1 ) + ( 1 f 2 )
i i =1
$
=
nM nm
N N
2
∑ ( P P )
i ∑ MP ( 1 P ) i i
(1 f ) 1
i
n( N 1)
+ ( 1 f 2 )
i =1
n m N( M 1)
N N
2
N M ∑ ( Pi P ) NM ∑ Pi ( 1 P i )
2 2 3
V ( A) = N M V ( P) = ( 1 f 1 ) + ( 1 f 2 )
2 2 i i =1
$ $
n( N 1) nm ( M 1)
i
M
n m
∑ ∑( X )
2
“ Dentro” n m ( 1) ij
xi S
ˆ
w
2
S
2
w
i j
n m
∑ ∑ ( X )
2 2 2
Total nm 1 ij x S ˆ
S
i j
Las estimaciones de las varianzas para las dos etapas sin reposición son las siguientes:
ˆ2
S ˆ2
S
V ( ) = (1 f ) nm + f (1 f ) nm ,
ˆ x
1
b
1 2
w
y ˆ ( X
V ˆ) = N 2 ˆ ( x )
M V
2
n n
∑ ( P P )
2
∑ P Q
( ) = ( f )
i i i
ˆ P
V ˆ 1
i
+ f (1 f ) i
n(n 1) n 2 (m 1)
1 1 2
Muestreo bietápico de conglomerados 303
V ( X ) = N 2 M 2V ( x )
$ $ $
y V ( A ) = N 2 M 2V ( P )
$ $ $ $
S b2
$
2 2
b w
V x( )= +
nM nm
2 2 2 2
N M b N M w2
V ( X ) = V NMx $
( )= +
n nm
i i i i i i
N NM i =1
( )=
V P $
i
nM
+
nm
=
i
nN
+
i =1
nm N
N N
∑( P ) ∑ P (1 P )
2
2 2
NM i
P NM i i
2 2 i i =1
V ( A) $
= N M V ( P ) $
= +
n nm
V x
ˆ
, ˆ ( X
y V ˆ ) = N 2 M 2V
ˆ ( x )
nm
n n n
m
∑ ( P P ) ∑ ( P P ) ∑ ( P P )
2 2 2
i i
() ()
i
ˆ P
ˆ = n 1 ˆ = N 2 M 2
V i
= i
y V ˆ A i
nm n(n 1) n( n 1)
2
b S w2
V x = () + (1 f ) 2
nM nm
N 2 M b2 N 2 M 2 S w2
V ( X ) = V ( NMx ) =
$
+ (1 f 2 )
n nm
N N N N
1 2 1 2
∑M( P P ) i
∑MP(1 P i )
N ( M 1) i =1 i
∑( P P ) i ∑MP(1 P ) i i
N
V( P ) =
i i i =1
$
+ (1 f 2 ) = + (1 f 2 )
nM nm nN nmN( M 1)
N N
2
NM 2
∑ ( P P ) i
NM 3
∑ P ( 1 P )
i i
2 2 i i =1
V ( A) = N M V ( P) =
$ $
+ (1 f 2 )
n nm ( M 1)
304 Muestreo estadístico. Conceptos y problemas resueltos
Las estimaciones de varianzas son iguales que para reposición en las dos etapas:
2
S b
( )=
ˆ
V x
ˆ
, y ˆ ( X
V ˆ) = N 2 ˆ ( x )
M V
2
nm
n n n
m
∑ ( P P ) ∑ ( P P ) ∑ ( P P )
2 2 2
( )= ()
i i i
ˆ P
ˆ n 1 ˆ = N 2 M 2
V
i
= i
y V ˆ A i
nm n( n 1) n( n 1)
S b2 w 2
()
V x = (1 f 1 ) +
nM nm
N 2 MS b2 N 2 M 2 w2
V ( X ) = V ( NMx ) = (1 f 1 )
$
+
n nm
N N N N
1 1
∑M ( P i P ) ∑M P i (1 P i ) ∑( P P ) ∑ P (1 P )
2 2
i i i
()
ˆ = (1 f ) N 1
V P 1
i
nM
+
N M i =1
nm
= (1 f 1) i
n( N 1)
+ i =1
nm N
N N
2
N M ∑ ( Pi P ) NM 2 2 2
∑ P (1 P ) i i
i i =1
V ( A) = N 2 M 2V ( P) = (1 f 1 )
$ $
+
n( N 1) nm
nm
+ f 1
nm
w
, y ˆ ( X
V ˆ) = N 2 ˆ ( x )
M V
2
N N
i i i
()
ˆ = (1 f )
V P 1
i
n( N 1)
+ i =1
nm N
y ˆ)
V ( A = N 2 2 ˆ)
M V ( P
m
n ∑ m P (1 P ) i i
∑ ( P P )
2
Para proporciones y totales de clase: S ˆ b2 = y ˆ2
S = i =1
.
n 1 i
i w
(
n m 1)
Las varianzas y sus estimaciones para las dos etapas sin reposición son las siguientes:
Muestreo bietápico de conglomerados 305
M i
∑ ( X )
N
∑ ( X ) 2 2
i
X ij
X i
( )
N
ˆ = N 2 (1 f )
N
∑ M (1 f ) (M
i 2 j
V X +
n( N 1) 1)mi
1 i 2i
n i i
2 mi
( X )
n
) ∑
xi
( )
ˆ X
ˆ =
N 2
(1 f ) N n
M i 2
(1 f ij
∑
1 i 2i j
V +
n n 1 n i mi mi 1
ˆ 1 n
∑ ( X ) 2
X
( ) = N ( f )
i M i
N N
M i
∑ ( X ) 2
ˆ
∑
2 i
V X 1 + X i
n( N 1)
1 ij
n i mi j
2 mi
∑ ( X )
n
∑
1 i
V +
n n 1 n i mi mi 1
ˆ 1 n
X = ∑ X ˆ ,i i
ˆ
X i
= M i
xi
n i
( )=
N i N M i
N N M i
( X ) ∑ ( X )
2 2
V X ˆ
∑ i
X + ∑ ij
X i
n i n i mi j
n 2
∑ ( X )
2
ij
X i
( ) = n ∑ ( X X )
N N
N N
∑ M (1 f ) (M
2
ˆ
V X + 2 j
1)mi
i i 2i
i n i i
n 2
( )=
n
N 1
ˆ X
V ˆ i ˆ y X
X = ∑ X
i i i i i
n n 1 n i
306 Muestreo estadístico. Conceptos y problemas resueltos
n
ˆ 1
ˆ y X
ˆ ˆ
totales de clase: X =
Para proporciones y totales i
n
∑ M P i i i
= M P i i
i
X ˆ
N
n
M i ˆ 1 ˆ 1 ˆ ˆ
ˆ ) , V ˆ ( X )
X = = ∑ M x , V ( X ) = V ( X = V ( X )
ˆ
i 2 2
M n i M M
n
N
n
M i N
P =
ˆ
n
∑ M
P i ˆ
, A = M
ˆ
P = ˆ
n
∑M P i
ˆ
i
i i
N 3 PQ
( ) = ( f ) n( N ) + N n ∑ M P i Qi
N
V Aˆ 1
3
(1 f )
1
1 i
i 2i
(M i
1)m i
2
ˆ 1 n
ˆ
n
(1 f )
2 ∑ M P ∑ M P i i i i
ˆQ ˆ
() N P
n
n N
V ˆ =
ˆ A 1 = i
+ ∑ M
i 1 2
i
(1 f ) 2i
i i
n n 1 n i m 1i
N 3 PQ M i2
( ) = ( f ) n( N
N
ˆ N
V A 1 1
1 )
+
n
∑ mi
P i Qi
i
2
ˆ 1 ˆ
n n
(1 f )
2 ∑ M P ∑ M P ˆQ ˆ i i i i
() N P n
ˆ =
ˆ A
n = N
+ ∑ M
1 i i 1 2 i i
V i
n n 1 n i m 1 i
2 2
()
N
N N M i
V A = ˆ
n
PQ +
n
∑ mi
P i Qi
i
2
n
1 n
2 ∑ M P ˆ n ∑ M P ˆ
i i i i
V ˆ
ˆ A ( )= N
n
i =
n 1
i 1
Muestreo bietápico de conglomerados 307
N 2
( )= P i Qi
N
N
V Aˆ ∑ M (1 f ) (M
3
PQ +
1)m
i 2i
n n i i i
2
n
1 n
2 ∑ M P ˆ n ∑ M P ˆ
i i i i
V ( )=
ˆ
ˆ A
N
n
i =
n 1
i 1
ˆ) 1 ˆ) ˆ ) = 1 V ˆ ( Aˆ ) .
Para proporciones aplicamos V ( P = 2
V ( A y V ˆ ( P 2
M M
como:
= c + c1n + c2 ( nM ) + c3 ( nM )
a a
a 2 3
C o
1
en donde c0 representa un coste fijo que suele incluir, dependiendo de las encuestas, gastos
de preparación técnica, gastos administrativos previos, cartografía, etc. Puede empezarse
por suponer deducido el coste c del total C , para no preocuparse más que de la distribución
o
Por otra parte, c1 , c2 y c3 son los costes unitarios por unidad primaria, por unidad
secundaria listada y por unidad secundaria que sea objeto de entrevista o medida,
respectivamente.
Nosotros vamos a suponer en los cálculos una función de coste de campo definida
como C = n c1 + n m c2 , y evaluaremos la varianza de la media a optimizar mediante la
2
S
expresión aproximada V x( ) = nm (1 + (m 1) ) . Para obtener los valores de n y m que
hagan mínima V ( x ) con la restricción dada por la función de coste de campo construiremos
la función de Lagrange:
2
S
= ( 1 + ( m 1) ) + ( C n c1 n m c2 )
nm
etapa con reposición (la segunda etapa puede ser con o sin reposición). Así, un estimador
insesgado del total será:
n ˆ
X 1
n ˆ
X 1
n
M i x i
ˆˆ
Un estimador insesgado del total será: X HH
=∑ i
= ∑ P
i
= ∑ .
i nP i n i i
n i P i
N
M i
Para probabilidades proporcionales al tamaño P i =
M
con M = ∑ M , luego:
i
i =1
n
ˆˆ 1 M i x i 1
n
M i x i M
n
X HH
=
n
∑ P i
=
n
∑ M M
=
n
∑x i
i i i i
M i M i
x i ˆ
P
ˆˆ 1 1
n ˆ
X 1
n
1
n i
1
n ˆ
M i P
ˆˆ M ˆˆ ˆˆ M
∑ nP ∑ ∑ ∑
i i
X = X HH
= = , A = M P = M =
M M i i
n i P i n i P i n i P i
M i
ˆ
P
n
ˆˆ 1 M
i
P =
n
∑ P i
i
Varianzas
Como la primera etapa es siempre con reposición, distinguiremos entre si la segunda etapa
es con reposición o sin reposición.
ˆ )ˆ 1 ˆ
ˆ)
V ( P
HH
= 2
V ( A
M
M i
Para el caso particular de probabilidades proporcionales a los tamaños P i =
M
N
con M = ∑ M , se tiene:
i
i =1
M i N M i2 (1 f 2i ) 2 M N X i2 X 2 N M i
2 2
ˆˆ 1 N X i
V ( X HH ) = ∑ X +∑ S i = ∑ + ∑ (1 f 2i ) S i
2
ˆˆ 1 X
N
N
M i
2
ˆˆ 1 ˆ
V ( X HH
) = ∑ X i
P i +∑ i2 , V ( X HH ) = 2
ˆ )
V ( X HH
n = P nP i mi M
i 1 i i
1 N Ai 2
ˆˆ N
M i
V ( A HH ) = ∑ A P ri + ∑ P i Qi
n i =1 P ri i nP
ri
m i
ˆ )ˆ 1 ˆ
ˆ)
V ( P
HH
= 2
V ( A
M
M i
Para el caso particular de probabilidades proporcionales a los tamaños P i =
M
N
con M = ∑ M , se tiene:
i
i =1
ˆˆ 1 N X i
2
M i N
M i
2
M
X
N
X
2 2
M
2
N
∑ X +∑ ∑ +∑
2 i i 2
V ( X HH ) = i = i
n i =1 M
i
/ M M i nmi M i / M n =
i 1 M M
i m i i
310 Muestreo estadístico. Conceptos y problemas resueltos
Los estimadores insesgados para las varianzas de los estimadores cuando la primera etapa es con
reposición, no dependen de si la segunda etapa es o no con reposición.
ˆˆ
HH
ˆ
ˆ X i
i
ˆ ( X 1 ˆ ˆˆ
V ˆ= , V )= V ( X )
n(n 1)
2 HH
M
2 2
Aˆ
n
ˆˆ
n M P
ˆ
ˆˆ
∑ P A i
∑ P M
P
i
i
ˆ A
ˆ i
i i
i
V ˆ = =
(
n n 1) n n ( 1)
ˆ ( P
ˆ) ˆ 1 ˆ ( Aˆ ) ˆ
V = 2
V
M
n n
X iˆ
M i x i
=∑ =∑
ˆ
X HT
ˆ
i i i i
n n
M xi xi
=∑ = M ∑
ˆ
X HT
ˆ
i i i i
N
nM i
Probabilidades proporcionales al tamaño i = con M = ∑ M i
M i =1
n n n
M i xi M i xi M
=∑ =∑ = ∑x
ˆ
X HT
ˆ
i
i i i nM i M n i
Muestreo bietápico de conglomerados 311
n
Probabilidades iguales i =
N
n n n
M i x i M i xi N
=∑ =∑ = ∑
ˆ
X HT
ˆ
M x i i
i i i n N n i
Vemos que las expresiones de los estimadores coinciden en muestreo con y sin
reposición.
M i
ˆ x i
ˆˆ 1 ˆˆ 1
n
X
n
M
∑ =∑
i
X = X HT
=
M M i i i i
M i
n P i
ˆ
M
P = ∑
ˆ
ˆ
P i = proporción muestral en el conglomerado
ˆ
i-ésimo
i i
M i
n P i
ˆ
n
M M i P iˆ
= M P = M ∑ =∑
ˆ ˆ
A
ˆ ˆ
i i i i
Varianzas
Como la primera etapa es siempre sin reposición, distinguiremos entre si la segunda etapa es
con reposición o sin reposición.
ˆˆ N
X i2 N
X i X j N
(1 f 2i ) M i2 S i2
V ( X HT ) = ∑ (1 i ) + ∑ ( ij i j ) + ∑ ,
i =1 i i j i j i mi i
ˆˆ 1 ˆ
V ( X HH ) = ˆ )
V ( X
2 HH
M
ˆˆ N
X i
2 N
X i X j N 2
M i i
2
ˆˆ 1 ˆ
V ( X HT ) = ∑ (1 i ) + ∑ ( ij i j ) + ∑ , V ( X HH ) = ˆ )
V ( X
2 HH
i =1 i i j i j i mi i M
2
M i 2
S i = P i Qi , i = P i Qi
M i 1
Muestreo bietápico de conglomerados 321
ˆ 1 n
X i 1 1 n
X i 1 n
X i 1 13 11 18 10 11
X HHR =
M R
∑ nP = M
n
∑ M M R
=
n
∑ M =
5 7
+
6
+
8
+
4
+
5
= 2,128
i i R i iR i iR
2 2
X ˆ n
X
n
ˆ
∑ P X
∑ M M
i i
HHR
M X
R HHR
ˆ
ˆ ( X 1 1 = i 1 = 1 =
i 1 =
) = 2 V ˆ ( X
ˆ i iR R
V HHR HHR
)= 2 2
M R M R n(n 1) M R n(n 1)
2
n
X ˆ 13 11 18 10
2
11
2 2 2 2
ˆ
ˆ V ( X HHR ) 0,016
ˆ v( X )
C = = = 0,059 6%
HHR
ˆ 2,128
X HHR
Un intervalo de confianza al 95% para el gasto medio por hogar en zona rural es:
ˆ ˆ
X HHR ± V ( X HHR ) = 2,128 ± 1,96 0,016 = [1,880, 2,376]
ˆ 21 + 15 + 24 + 20
X U = = 20
4
1
ˆ ˆ2
S 4 3
[(21 20) 2
+ (15 20)2 + (24 20)2 + (20 20)2 ]
V ( X U ) = (1 f ) = 1 = 3,15
n 40 4
ˆ
ˆ V ( X U ) 3,15
ˆ v( X
C )= = = 0,0887 8,87%
U
ˆ 20
X U
Un intervalo de confianza al 95% para el gasto medio por hogar en zona urbana es:
322 Muestreo estadístico. Conceptos y problemas resueltos
ˆ ˆ
X U ± V ( X U ) = 20 ± 1,96 3,15 = [16,5214, 23,4786]
n
ˆ
ˆ ) = N 2V ( x ) = 602V ( X ˆ
V ( X
st ∑ h h HHR
) + 402V ( X U ) = 602 0,016+ 402 3,15 = 5097,6
h =1
ˆ )
V ( X 5097,6
ˆ v( X
C ˆ )= st
= = 0,077 7,7%
st
ˆ
X 927,68
st
8.7. En las 10 regiones de un país se efectúa muestreo en dos etapas (1ª etapa con reposición). En
la primera etapa se obtienen tres regiones de 50, 60 y 80 distritos. En la segunda etapa se
seleccionan cinco distritos de cada región de la primera etapa en los que se mide el número
de habitantes condenados a cadena perpetua, y se obtienen los siguientes datos:
Sabiendo que el total de distritos es M = 600, se pide formar un estimador insesgado del total
X de condenados a cadena perpetua y calcular
calcular el valor particular correspondiente a los datos
datos
del problema en los siguientes casos:
1) Muestreo con probabilidades iguales en las dos etapas.
2) Muestreo con probabilidades proporcionales al tamaño en primera etapa.
3) Estimar el error de muestreo en ambos casos.
V ( )=
ˆ X
ˆ
i
(
n n 1 )
=
i
(
n n 1 )
i
=
N
n
i
n 1
i
=
N
n
i
n 1
= 2.1938510 7
3 2
Muestreo bietápico de conglomerados 323
n n n
ˆˆ 1 M i x i 1 M i x i M 600
X HH
= ∑ = ∑ M = ∑x i
= (10 + 12,4 + 11,2) = 6720 condenados
n i P i n i i
M n i 3
2
X ˆ
2
n n
M M n n
1 n
2
∑ M / M ˆ i
∑ M M x n ∑ x
X
∑ x n ∑ x
2
i i i M i i
ˆ ( )
ˆ
V X =
i
i
(
=
n n 1 )
i i =
(
n n 1 )
i i
(
n n 1
=
)
i
2
(
600 (10 11,2) + (12,4 11,2) + (11,2 11,2)
2 2 2
) = 172800
6
8.8. Consideramos las 1100 granjas de cerdos de una comarca que se estratifican formando 2
estratos. El primero de ellos (granjas en zona rural) tiene 1.000 granjas de 50 cerdos con 4
meses de edad del que se extrae una muestra de 5 granjas, en cada una de las cuales se obtiene
a su vez una submuestra de 6 cerdos. Los pesos promedios (en arrobas) de los 6 cerdos con 4
meses de las 5 granjas anteriores extraídas del primer estrato son los siguientes:
2
x
i1
= {3, 5, 2, 4, 6} i = 1, 2, ..., 5 y S 1 =1,5. El segundo estrato (granjas en perímetro
w
urbano) tiene 100 granjas de 40 cerdos con 4 meses cada una del que se extrae una muestra de
6 granjas, en cada una de las cuales se obtiene a su vez una submuestra de 4 cerdos. Los pesos
promedios
promedios (en arrobas)
arrobas) de los 4 cerdos con 4 meses de las 6 granjas
granjas anteriores extraídas
extraídas del
2
segundo estrato son los siguientes: x
i2
= {3, 4, 3, 5, 3, 3} i = 1, 2, ..., 6 y S 2 w
= 1,33. A partir
de esta información, estimar el peso promedio de los cerdos a los 4 meses en las granjas de la
comarca y sus errores absoluto y relativo de muestreo considerando muestreo sin reposición y
probabilidade
probabilidadess iguales
iguales en todas las etapas.
etapas. Hallar también un intervalo
intervalo de confianza
confianza para el
peso promedi
promedio o de los cerdos
cerdos a los 4 meses
meses en las granjas
granjas de la comarca
comarca al 95%.
∑ ( x )2
m1 i1
x1
1 20 ˆ2
∑
i
x
1
= x
i1
= =4 S
b
= = 15
n
1 i 5 n1 1
ˆ2
S ˆ2
S 5 15
5 6 1,5
ˆ ( )
V x1 = (1 f 11 ) 1b
+ f 11 (1 f 12 ) 1w = 1 + 1 = 0,5
n1m1 n1m1 1000 30 1000 50 30
324 Muestreo estadístico. Conceptos y problemas resueltos
∑ ( x )
2
m2 i2
x 2
1 21 ˆ
∑
2 i
x
2
= x
i2
= = 3,5 S 2b
= = 2,8
n
2 i 6 n2 1
ˆ2
S ˆ2
S 6 2,8 6 4 1,33
ˆ ( ) (
V x2 = 1 f 21 2b
n2m2
) (
+ f 21 1 f 22 2w = 1 + )
1
n2m2 100 24 100 40 24
= 0,113
2
1000 100
x st = ∑ W h x h = W x + W x = 1 1 2 2
4+ 3,5 = 3,685 arrobas
h =1 1100 1100
ˆ ( x )
V 0,415
ˆ v( x )
C =
st
= = 0,1748 (17,48%)
st
x st 3,685
8.9. Una empresa tiene que realizar una encuesta en la que las unidades primarias de muestreo
son las secciones censales y las unidades de segunda etapa son las familias pertenecientes a
las secciones censales. La empresa dispone de agentes entrevistadores que residen en la
capital de cada provincia en la que tiene sucursales. Se supone que el coste de enviar un
agente a una sección censal es de 500 euros y el de realizar una entrevista a una familia es de
50 euros.
2) Hallar el valor de los números óptimos citados para el coste total dado.
Muestreo bietápico de conglomerados 325
PQ
$ $
V ( P ) = (1 f )
$
(1 + ( m 1) )
nm
El problema se resuelve minimizando la varianza para el coste dada a través del
problema de optimización
optimización de Lagrange:
Lagrange:
8.10. Una empresa quiere estimar la proporción de máquinas que han sido retiradas del proceso de
producción debido a reparaciones mayores. Para ello utiliza muestreo en dos etapas
considerando unidades de primera etapa las plantas de que dispone y unidades de segunda
etapa las máquinas de las plantas. Se dispone de tiempo y dinero para muestrear 10 plantas y
se obtiene que los tamaños de las plantas M i, las máquinas muestreadas en cada planta en
segunda etapa mi y las proporciones muestrales de máquinas que requieren reparaciones
mayores son los que se exponen en la siguiente tabla:
Porcentaje de máquinas
Planta M i
m i
ˆ)
con reparacion es mayores ( P i
1 50 10 0, 40
2 65 13 0,38
3 45 9 0,22
4 48 10 0,30
5 52 10 0,50
6 58 12 0,25
7 42 8 0,38
8 66 13 0,31
9 40 8 0,25
10 56 11 0,36
Estimar la proporción de máquinas que han sido retiradas del proceso de producción debido
a reparaciones mayores para todas las plantas y establecer un límite para el error de
estimación al 95%.
326 Muestreo estadístico. Conceptos y problemas resueltos
∑ M P ˆ i i
ˆ=
P
i =1
= 0,34
n
∑ M i
i =1
( )
n
2
∑ M P ˆ P ˆ
2
ˆ = (1 f 1 )
i i ˆQ ˆ
() P
n
1
ˆ P
∑ M (1 f ) m
i 2 i i
V 2
+ 2 i 2i
= 0,0081
nM n 1 nN M i i
1
ˆ±
P 2 V ˆ P ()
ˆ = 0,34 ± 0,056
EJERCICIOS PROPUESTOS
8.1. Se desea estimar el consumo de los hogares españoles a través de una muestra bietápica
formada por conglomerados de 500 hogares cuya unidad primaria de muestreo es la sección
censal. El coeficiente de correlación intraconglomerados es 0,1. El coste de preparación de
listados y planimetría de cada sección censal a incluir en la muestra es de 5.000 unidades
monetarias, y el coste de entrevista por hogar es de 1000 unidades monetarias, no
considerándose más componentes en la función de coste total. Si se dispone de un
presupuesto global de 10000000 de unidades monetarias, se pide:
2) ¿Cuáles serían los tamaños de muestra en cada etapa que optimizasen el diseño? Se
entiende por diseño óptimo aquel que logra la máxima precisión dentro del presupuesto
fijado.
3) Si se estratifican las secciones censales en dos estratos del mismo tamaño correspondientes
a zona rural y zona urbana, de modo que la variabilidad del consumo de los hogares medida a
través de la varianza es tres veces superior en la zona urbana que en la rural, ¿cómo se distribuiría
la muestra en cada estrato y en cada etapa para optimizar el diseño?
8.2. Un investigador desea muestrear tres hospitales de entre los seis que existen en una ciudad,
con el propósito de estimar la proporción de pacientes que han estado (o estarán) en el
hospital por más de dos días consecutivos. Puesto que los hospitales varían en tamaño, éstos
serán muestreados con probabilidades proporcionales al número de sus pacientes. En los tres
hospitales muestreados se examinará un 10% de los registros de los pacientes actuales para
determinar cuántos pacientes permanecerán por más de dos días en el hospital. Con la
información sobre los tamaños de los hospitales dada en la tabla adjunta se selecciona una
muestra de tres hospitales con probabilidades proporcionales al tamaño.
Puesto que serán seleccionados tres hospitales, tres números aleatorios entre el 0001 y el
1559 deben ser seleccionados de la tabla de números aleatorios. Nuestros números elegidos
son 1505, 1256 y 0827. ¿Qué hospitales serán elegidos para la muestra? Supóngase que los
hospitales muestreados dieron los siguientes datos sobre el número de pacientes con
permanencia de más
más de dos días:
Estimar la proporción de pacientes con permanencia superior a dos días para los seis
hospitales y establecer un límite para el error de estimación.
328 Muestreo estadístico. Conceptos y problemas resueltos
8.3. Supongamos que cinco investigadores toman muestras independientes de igual tamaño
constituidas por pequeñas parcelas de un campo de cultivo y obtienen estimaciones del
rendimiento del campo . Sean estas estimaciones: 97, 96, 100, 98, 94. Si tomamos como
estimador de la media de las cinco estimaciones, calcular el error de muestreo relativo.
Realizar el mismo cálculo suponiendo que las muestras son de distintos tamaños, de 3, 1,
10, 10 y 1, respectivamente
ˆ ˆ 14 3 2 3 2 7
∑ i i 3∑ i i i ∑ M i M j xi x j
2 2
V ( X ) = M x s M ( M 5)
45 i =1 i =1 45 i j
2
siendo xi el total muestral y s
i
= S 2 la cuasivarianza dentro de la unidad primaria i-ésima de
ˆ
2 10 5 1
3 18 9 4
4 16 8 2
MUESTREO B
BIFÁSICO Y
MUESTREO E
EN O
OCASIONES S
SUCESIVAS
OBJETIVOS
ÍNDICE
1. Muestreo bifásico.
8. Problemas resueltos.
9. Ejercicios propuestos.
332 Muestreo estadístico. Conceptos y problemas resueltos
ˆ
nh
' Número de elementos de la primera muestra que caen en el estrato h
W h = =
n ' Número total de elementos de la primera muestra
n’ h = nº de unidades de entre las n’ de la muestra de primera fase que caen en el estrato h
para h = 1, 2, ..., L
L L
n' = ∑ n'
h
y n = ∑ n
h
h =1 h =1
La segunda muestra (segunda fase) es una muestra aleatoria estratificada de tamaño
n. Consiste en tomar una submuestra aleatoria de tamaño nh n h en cada estrato '
independientemente (o sea, las n h las elegimos de entre las n’ h para valores de h = 1, ..., L).
L
Tendremos n = ∑ n
h
$
. Ahora n’ es dado y n’ 1 ....n’ h ....n’ L son fijos y W1
$ $
LWh LW L
h =1
también serán fijos (por serlo n’ h y n’ ) y lo que se hace es considerar todas las submuestras
aleatorias de nh unidades que pueden extraerse de entre las n’ h unidades dadas.
Muestreo bifásico y muestreo en ocasiones sucesivas 333
Estimadores y varianzas
N h
El estimador usual de la media en muestreo estratificado es X = ∑ W h x h con W h = .
ˆ
h N
En muestreo doble los W h se estiman por los W h obtenidos de la primera muestra, y con la
$
x
h
segunda muestra estimamos las medias x
h
= ; de esta forma resulta el estimador para la
n
h
media:
n' h
X
$
= ∑ Wh xh
$
; W h
$
=
n'
h
T , condicionada al conjunto de muestras de primera fase en las cuales n’ 1, ....,n’ h , ..., n’ son fijos, o
$ $ $
lo que es lo mismo, para un n’ dado, W1
, L , Wh , L , W L son fijos. Análogamente VW ( T ) '
V
X = ∑ (1 f ) W + + ∑ W ( X X )
ˆ h 2 h h
2
h
h
n h
n'
h
n' h
h h
donde g’ es el factor de finitud g’ = ( N n’ )/( N 1). Por otro lado, Rao expresó esta varianza
de la media de la siguiente forma:
ˆ N n' S + 2 2
1 S h nh
V X =
∑ 1 W ; h =
N n' h h
h
n' nh
'
W (1 W ) 1
2
S
V
X = ∑ (1 f ) + ∑ W ( X X )
ˆ 2
h
W + 2 h h
h n
h
h n
h
' n' h
h h
fórmula aproximada para n’ pequeño respecto de N en caso sin reposición en segunda fase.
W (1 W )
2
ˆ 1
V X = ∑
W +h 2
h
+ h h
∑ (
W h X h X )
2
n
h h
n' n' h
fórmula aproximada para nh pequeño respecto de N h, en todo h, y n’ pequeño respecto de N .
( )=N
V X $
2
( )
V X .
$
334 Muestreo estadístico. Conceptos y problemas resueltos
Si la muestra de primera fase es de tamaño n’=N , esto es, se observan todas las
unidades de la población para efectuar la estratificación, la fórmula general de la varianza
del estimador en muestreo doble se convierte en:
S h2
( )
V X = ∑ ( 1 f h )Wh
$
h nh
2
; g ' = 0
que coincide con la del muestreo estratificado habitual (una sola fase). Además se observa
que n’ aparece dividiendo, y en consecuencia, cuanto mayor es n’ (n’ < N ) la pérdida de
precisión por el uso de muestreo doble disminuye. Obviamente el coste aumenta, razón por
la cual conviene estudiar los tamaños y la afijación óptimos en función del coste.
P =
$
∑W $
h
ph ; ph = proporción muestral en segunda fase.
h
La varianza ( sin reposición en las dos fases), aplicando el resultado anterior, será:
N h
con la aproximación S h2 = P h Qh P h Qh .
N h 1
En muestreo con reposición en las dos fases, o sin reposición y tamaños muestrales
pequeños respecto de los correspondientes poblacionales ( f h 1; g ' 1) , se tiene:
Ph Qh 2 Wh (1 W h ) 1 2
V ( P ) = ∑
$
W h + + ∑Wh ( Ph P )
h nh n' n' h
1
g ' ( 1 W h ) g '
( )
V X = ∑ ( 1 f h ) S h W h +
n h
$
n
2
+ ∑Wh ( X h X )
2
' n' h
ˆ2 = 1 n n
ˆ2 = 1 n
∑ ( X i x ) b ∑ (Y i y ) 2 ∑
2 2 2
S
x , y S
x ( X x )
i
n 2 i =1 i =1 n 1 =
i 1
El estimador por diferencia en muestreo doble resulta del estimador de regresión haciendo K = 1,
por lo que toda la teoría anterior es válida haciendo K=1, resultando el estimador
( )
X d = x + y y . Análogamente, las fórmulas de las varianzas se obtienen aplicando a K el
$
'
Supongamos que se pretende estimar el cambio de la media entre dos ocasiones, que
designaremos por t 1 y por t 2, con una muestra de n unidades. Si utilizamos el estimador
simple del cambio:
n
1
= x 2 x1 =
$
n
∑( x
2i
x1i )
i
La posibilidad a) nos permitiría conocer los cambios individuales entre las dos
ocasiones. Este esquema presenta serias dificultades cuando hemos de medir un carácter en
ocasiones sucesivas. Prescindiendo del caso en que las mediciones fuesen destructivas, sería muy
difícil mantener indefinidamente las mismas unidades, y aun en el caso de que fuese posible no
sería deseable por los sesgos que una exposición continuada a los métodos de encuesta pueden
originar en la conducta de los entrevistados. En este sentido puede decirse que la muestra se
“contamina” con el tiempo.
Para la posibilidad b), si representamos por c el número de unidades comunes, por
n c = c el número de las no comunes, y con los subíndices 1 y 2 las correspondientes
ocasiones, se puede hacer la representación gráfica siguiente sobre los solapamientos en los
totales muestrales en ambas ocasiones.
x
1c
+ x1 x
1c
x
1c
n c c
x
1
= c
= + = x
1c
+ x
1c
n n n n n
x
2c
+ x 2 x
2c
x
2c
n c c
x
2
= c
= + = x
2c
+ x
2c
n n n n n
y prescindiendo del factor de corrección para poblaciones finitas 1 f y suponiendo por
comodidad que la cuasivarianza poblacional en las dos ocasiones es la misma, tendremos
para las varianzas y covarianzas las expresiones:
2 2
S S
( )=
V x1 , V x 2 ( )=
n n
2 2 2 2
c S S c S c S
(
cov x1 , x 2 )= 2
cov( x1 c
, x 2 c ) = 12
2
= 12 = 12
c
n c c n n n n
340 Muestreo estadístico. Conceptos y problemas resueltos
2 2 2 2
( ) =
ˆ
V ( ) + V ( x ) 2 cov( x x ) =
V x1 2 1 2
S
n
+
S
n
2
S
n
12 = 2
c
S
n
[1
12
c
]
siendo 12 el coeficiente de correlación entre los valores comunes a ambas ocasiones y
la proporción de unidades comunes. De esta expresión deducimos que para 12 > 0 la
c
lo que significa que la muestra es común en su totalidad en las dos ocasiones. La situación
también es ideal cuando el coeficiente de correlación entre los valores comunes en ambas
ocasiones es máximo ( 12 = +1 ), que en términos prácticos significa que las unidades
muestrales en las dos ocasiones han de estar muy estrechamente relacionadas de forma
positiva (lo mejor es que sean iguales las muestras en las dos ocasiones).
1
x = ( x
1
+ x2 )
2
1
V ( x) =
4
[V ( x ) + V ( x ) + 2 cov( x , x )]
1 2 1 2
2
S
y sustituyendo en la fórmula los valores obtenidos en la sección anterior ( V ( x1 ) = ,
n
2 2
S S
( )=
V x 2 y (
cov x1 , x 2 )= 12 ), tenemos:
c
n n
2 S
1 2 S
2
2
S
2
V ( x ) = + = 12 c
[1 + 12 c
]
4 n n 2n
Como este valor es mínimo cuando = 0 , vemos que, en el caso 12 < 0 , para c
Figura 10-4
Figura 10-5
Figura 10-6
Este paso permite elegir las variables que desea guardar cuando se extraiga la muestra.
Tamaño poblacional recoge el número estimado de unidades en la población de una etapa dada.
El nombre raíz de la variable guardada es TamañoPoblación_. Proporción muestral recoge la
tasa de la muestra en una etapa dada. El nombre raíz de la variable guardada es TasaMuestreo_ .
Tamaño muestral recoge el número de unidades extraídas en una etapa dada. El nombre raíz de la
variable guardada es TamañoMuestra_ . Ponderación muestral recoge la inversa de las
probabilidades de inclusión.
Figura 10-9
Figura 10-10
Figura 10-13
Figura 10-14