Unidad 4 Muestreo
Unidad 4 Muestreo
Unidad 4 Muestreo
EOUEPO:
BA BO A A EZPE TE E A DE JE Ũ .
CAMPO NAVA #AND A.
CA MONA GA CẼA GAB EELA.
COYOTE VELLABA JE Ũ EDUA DO.
LǑPEZ AND Ẽ VẼCTO KAGO.
PLATA DE LA O A DULCE AB EL.
G UPO: 4CJJ.
UNIDAD 4. MUESTREO Y ESTIMACIONES
Es un procedimiento empleado para obtener una o más muestras de una población. Por
ejemplo: religión y sexo de los estudiantes de educación del núcleo San Carlos de la
UNESR.
Para población finita: Una muestra seleccionada de tal manera que cada muestra posible de
tamaño n tiene la misma probabilidad de ser seleccionada.
Para población infinita: Una muestra seleccionada de tal manera que cada elemento
proviene de la misma población y los elementos sucesivos se seleccionan en forma
independiente.
EJEMPLO
Una característica mas importante del muestreo al azar es que puede determinarse el tipo
de “no representatividad” que, a la larga, cabe esperar de numerosos muestreos similares,
cosa que no es posible con otros tipos de selección.
EJEMPLO
Una base de formación de los estratos puede ser por departamentos, ubicación, edad, giro
industrial, etc., queda a discreción de quien diseña la muestra, sin embargo los mejores
resultados se obtienen cuando los elementos dentro de cada estrato son tan semejantes
como sea posible.
Después de formar los estratos se toma una muestra aleatoria simple de cada uno. Se
dispone de formulas para combinar los resultados para la muestra de estrato individual en
un estimado del parámetro poblacional de interés. El valor del muestreo aleatorio
estratificado depende de cuán homogéneos sean los elementos dentro de los estratos. Si
son similares, los estratos tendrán bajas varianzas. Si los estratos son homogéneos, el
procedimiento de muestreo aleatorio estratificado producirá resultados tan precisos como
el muestreo aleatorio simple, pero con menor tamaño total de muestra.
Muestreo sistemático
EJEMPLO
Si se desea una muestra de tamaño de 50 de una población con 5,000 elementos, podríamos
muestrear un elemento de cada 5,000/50 = 100 en la población. Una muestra sistemática
en este caso implica seleccionar al azar uno de los primeros 100 elementos de la lista de la
población. Se identifican los demás elementos de la muestra comenzando por el
primero obtenido al azar y a continuación
seleccionando cada 100□. elementos. En efecto, se identifica la muestra de 50
recorriendo la población en forma sistemática, e identificando cada 100□. elemento
después del primero que se selecciono al azar.
Cuando se realiza el muestreo de áreas, en los que los conglomerados son manzanas
urbanas, u otras áreas, bien definida. Por lo general, el muestreo de conglomerados requiere
un tamaño de muestra total mayor que el muestreo aleatorio simple o el muestreo aleatorio
estratificado. Sin embargo, puede originar ahorros porque cuando se manda a un
entrevistador a aplicar un cuestionario a un conglomerado muestreado (por ejemplo, una
manzana urbana), se puede obtener muchas observaciones muéstrales en un tiempo
relativamente corto. En consecuencia, se puede obtener un mayor tamaño de muestra con
un costo bastante menor por elemento, y por ende, probablemente un costo total menor.
Estadístico de la prueba de la diferencia entre dos medias con muestras grandes. Formula:
𝑥̅1 − 𝑥̅2
𝑧=
𝑆2 𝑆2
√ 1𝑛1+ 𝑛22
EJEMPLO 1:
64.20 − 71.40
𝑧= = −2.53
(168.000)2 (221.0103)2
√ +
Y como este valor es menor que -1.96, se deduce que la diferencia observada de
$7.21 entre los saldos promedio de las dos sucursales es significativa. El valor de z= -2.53
es de 0.0057.
Formula:
𝑡=
∑( 𝑥̅1 − 𝑥̅2
2 2 1 1
𝑥1 − 𝑥̅1) + ∑(𝑥2 − 𝑥̅2) ∙ ( + )
√
𝑛1 + 𝑛2 − 2 𝑛1 𝑛2
EJEMPLO 2:
Las siguientes son mediciones de la capacidad de producción (en millones de calorías por
tonelada) de muestras aleatorias ejemplares cada una de carbón proviene de dos minas:
Utilice un nivel de significación de 0.05 para probar si es importante la diferencia entre las
medias de estas dos muestras.
Las medias de las muestras son 𝑥̅1 = 8140 𝑦 𝑥̅2 = 7760 y para calcular “t” de
acuerdo a la formula anterior, primero se determina.
∑(𝑥1 − 𝑥̅1)2 = (8380 − 8140)2) + ⋯ + (7910 − 8140)2 = 253 800
Y
∑(𝑥2 − 𝑥̅2)2 = (7540 − 7760)2) + ⋯ + (7690 − 7760)2 = 170 600
Ahora bien, al sustituir estas sumas junto con 𝑛1 = 5, 𝑛2 = 5, 𝑥̅1 = 8140, 𝑥̅2 =
7760 en la fórmula de “t”, se obtiene:
8140 − 7760
𝑡= = 2.61
253 850+0 +5 −1720 600 15 15
√ ∙( + )
Sea X1, X2,..., Xn una muestra aleatoria de una distribución con media 𝜇 y varianza
𝜎2 Entonces, si es suficientemente
𝑛 grande, tiene aproximadamente
𝑥 una distribución normal
con, 𝜇 𝜇 𝜎 ² 2
y T0 𝑥tiene
= también
𝑦 𝑥 = aproximadamente
𝜎 /n una distribución normal con
=2𝑛 * 𝜇 , 𝜎𝑇o = 𝑛 * 𝜎 . Cuanto mas grande sea el
2
𝜇𝑇o
valor de n, mejor será la aproximación.
52) =
𝑥̅ − 𝜇 52 − 50
𝑃( ≥ ) Þ P(Z ≥ 4) = 0
𝜎 1.5
√𝑛 √9
P(x1 ≤ x ≤ x2) =
𝑥̅ − 𝜇
𝑃(𝑧1 ≤ ≤ 𝑧2)Þ P(z1 ≤ z ≤ z2) = 𝜑(z)
𝜎
√𝑛
≥ 52) =
𝑥̅ − 𝜇 52 − 50
𝑃( ≥ ) Þ P(Z ≥ 8,4327) = 0
𝜎 5
√ 𝑛 √40
EJEMPLO 2:
𝜇 = 0,10
Por tanto, la suma de las 100 variables se distribuye según una normal cuya media y
varianza son:
Luego:
Es decir, la probabilidad de tener que salir más de 15 veces a la pizarra a lo largo del curso
es tan sólo del 4,75%.
El tamaño de la muestra para un diseño de encuesta basado en una muestra aleatoria simple,
puede calcularse mediante la siguiente fórmula:
𝑧2𝑝𝑞
𝑛=
Donde: 𝐵2
n= Tamaño de la muestra,
z= 1.96 para el 95% de confianza, 2.56 para el 99% p=
Frecuencia esperada del factor a estudiar
q= 1- p
B= Precisión o error admitido
El valor de n obtenido por esta fórmula indica el tamaño de la muestra para una población
infinita, a efectos prácticos se considera población infinita cuando la muestra supone menos
del 5% de la población total.
EJEMPLO 1:
Supongamos que se desea realizar una encuesta sobre la brucelosis ovina. Se estima una
prevalencia del 15% y se requiere un 5% de precisión sobre una población de 2.000.000 de
cabezas. El nivel de confianza se fija en el 95%.
Formula:
𝑧2𝑝𝑞
𝑛=
𝐵2
Datos:
EJEMPLO 2:
En un proyecto realizado en una determinada comunidad se ha calculado que cerca del 30%
(0,3) de los niños de la zona del proyecto padecen de malnutrición crónica. Este dato se
basa en estadísticas nacionales sobre malnutrición en las zonas rurales. Si el nivel de
confianza se fija en el 95%.
Formula:
𝑧2𝑝𝑞
𝑛=
𝐵2
Datos:
Z= 1.96, p=0.30, q=0.70, B=0.05
Distribución normal
EJEMPLO 1:
Se encuentra que la concentración promedio de zinc que se saca del agua a partir de la
muestra de mediciones de zinc en 36 sitios diferentes es de 2.6 gramos por mililitro.
Encuentre el intervalo de confianza de 95% para la concentración media de zinc en el rio.
Suponga que la desviación estándar de la población es de 0.3
Datos:
𝑥 = 2.6
𝑛 = 36
Z = .90/2=.475=1.96
𝜎 = .3
Formula:
𝑧𝜎
𝜇= 𝑥±
√ (1.96)(. 3)
𝑛
𝜇 = 2.6 ± = 2.50 𝑦 2.70
√36
EJEMPLO 2:
Una empresa eléctrica fabrica focos que tienen una duración aproximadamente distribuida
de forma normal con una distribución estándar de 40 horas. Si una muestra de 30 focos
tiene una duración promedio de 780 horas, encuentre un intervalo de confianza de 96%
para la media de la población de todos los focos que produce esta empresa.
Datos:
𝑥 = 780
𝑛 = 30
Z = .96/2=.48=2.06
𝜎 = 40
FORMULA:
𝑧𝜎
𝜇= 𝑥±
√ (2.06)(40)
𝑛
“t” student.
EJEMPLO 1:
Formula: 𝑆
𝜇 = 𝑥 ± t 1−L/2 , n − 1
√𝑛 . 09
/
𝜇 = .32 ± 𝑡 1 − .95 2 , 10 − 1
. 09 √10
𝜇 = .32 ± 𝑡. 025,9
√10
.
𝜇 = .32 ± 𝑡2.262 09
√10
𝜇 = .32 ± .064
𝜇 = (. 256 , .384)
EJEMPLO 2:
El dueño de una tienda de abarrotes desea estimar la cantidad madia que gastan los
clientes que le consumen sus productos. Una muestra de 20 clientes revelo que gastan
$50, con una desviación estándar de 9.01. Determine un intervalo de 95% de confianza
para la media poblacional.
Datos:
𝑛 = 20
𝑥 = 50
𝑆 = 9.01
L = 95%
Formula: 𝑆
𝜇 = 𝑥 ± 𝑡 1−L/2 , 𝑛 − 1
/ √𝑛 9.01
𝜇 = 50 ± 𝑡 1 − .95 2 , 20 −
1 √20
9.01
𝜇 = 50 ± 𝑡. 025,19
√20
9.01
𝜇 = 50 ± 𝑡2.093
√20
𝜇 = 50 ± 4.22
𝜇 = (45.78 , 54.22)
Partiendo del primer ejemplo dado con la distribución “z” tenemos: Datos:
µ = 2.6
𝑛 = 36
Z = .90/2=.475=1.96
𝜎 = .3
Formula:
𝑧𝜎
𝐼𝐶 = 𝜇 ± √
𝑛(1.96)(. 3)
𝐼𝐶 = 2.6 ± = 2.50 𝑦 2.70
√36
Para nuestro segundo ejemplo tomaremos los datos del ejemplo N°2 “z”:
Datos:
µ = 780
𝑛 = 30
Z = .96/2=.48=2.06
𝜎 = 40
Formula:
𝑧𝜎
𝐼𝐶 = 𝜇 ±
√𝑛(2.06)(40)
𝐼𝐶 = 780 ± = 765 𝑦 795
√30
𝜇𝑥̅1−𝑥̅2 = 𝜇1 − 𝜇2
Y la varianza.
𝜎2 − 𝜎12 𝜎 2
𝑥1 𝑥2 = 𝑛1 +𝑛2 2
Se deduce que
Tiene una distribución normal estándar. Sustituyendo esta expresión por z en:
1+ 2< 𝑛1 𝑛2
𝑛 𝑛
Así mismo, en virtud del teorema del límite central, este resultado puede usarse con
muestras aleatorias independientes de poblaciones no normales con las varianzas
conocidas 𝜎12 𝑦 𝜎22 , siempre que 𝑛1 𝑦 𝑛2 sean lo suficientemente grandes, esto es,
cuando 𝑛1 𝑦 𝑛2 ≥ 30
EJEMPLO 1:
Construya un intervalo de confianza del 94% de la diferencia real entre las duraciones en
promedio de dos tipos de focos eléctricos, dado que una muestra tomada al azar de 40
focos de un tipo duro en promedio 418 horas de uso continuo y 50 focos de otra clase
duraron en promedio 402 horas. Las desviaciones estándar de las poblaciones, según se
sabe, son 𝜎1 = 26 𝑦 𝜎2 = 22.
Solución
Para a=0.06, tenemos a partir de la tabla III que 𝑧.03 = 1.88. por lo tanto, el intervalo de
confianza del 94% de 𝜇1 − 𝜇2 e𝑠
26 22 26 22
(418 − 402) − 1.88( 2+ 2 < 𝜇1 − 𝜇2 < (418 − 402 + 1.88 ∙ √ 2+ 2
40 50 40 50
Que se reduce a
Por lo tanto, tenemos el 94% de confianza en que el intervalo de 6.3 a 25.7 contiene la
diferencia verdadera entre las duraciones en promedio de los dos tipos de focos eléctricos.
El hecho que ambos limites de confianza sean positivos sugiere que, en promedio, el
primes tipo de focos es superior al del segundo tipo.
EJEMPLO 2.
Solución:
Que se reduce a
Por lo tanto, tenemos el 94% de confianza en que el intervalo de 7.1 a 64.5 a contiene la
diferencia verdadera entre las duraciones en promedio de los dos tipos de pilas. El hecho de
que ambos límites de confianza sean positivos sugiere que, en promedio la primera pila es
superior al segundo tipo.
Con el fin de sustituir un intervalo de confianza del (1-a) 100% para 𝜇1 − 𝜇2 cuando se
desconoce 𝜎1 𝜎2 pero 1 𝑦 2 𝑛 𝑦 𝑛 ≥ 30, sustituimos 𝜎1 𝑦𝜎2 por los
valores de las desviaciones estándar de la muestra y 𝑠continuamos
𝑦 𝑠1 como antes. El
procedimiento de estimaciones de la diferencia entre dos medias, 2cuando se desconoce 𝜎 𝜎
y los tamaños de𝑦1la muestra son pequeños, no es directo a monos que las desviaciones
estándar desconocidas2 de las dos poblaciones normales sean iguales. Si 𝜎1 = 𝜎2, entonces.
Es una variable aleatoria que tiene una distribución normal estándar y 𝜎2 puede obtenerse
ponderando las desviaciones cuadradas (o elevadas al cuadrado) de las medias de las dos
muestras.
(𝑥̅1−𝑥̅2) − (𝜇1−𝜇2)
=
𝑠𝑝 𝑛 𝑛1
√ +
1 2
1
Tiene una distribución t con 𝑛 +𝑛 − grados de libertad. Al sustituir esta
expresión por t en: 21 2
Dado que los cálculos necesarios de complican, haremos una aproximación más al
𝑥
𝑛 p en √𝑛𝑝(1 − 𝑝). Esto produce
sustituir por
𝑥
𝑥 𝛼/2 (1 𝑛 𝑥 √𝑛 −
− − 𝑧 √𝑛 𝑥) < 𝑝 < + 𝑧𝛼/2 𝑥 (1
𝑛𝑥
)
𝑛 𝑛 𝑛 𝑛
Ejemplo 1:
Solución:
𝑥 36
Sustituyendo = = 0.36 𝑦 𝑧𝛼/2 = 1.96 en la fórmula anterior, se obtiene
𝑛 100
(0.36)(0.64) (0.36)(0.64)
0.36 − 196√ < p < 0.36 + 196√
100 100
O bien
𝑛 𝑛
𝑝(1−𝑝) 𝑥
Se cumplirá, es decir, que el error será lo mismo de 𝑧𝛼/2 √ . Con sustituido
𝑛 𝑛
por p, esto produce
𝑥 𝑥
(1− )
Error máximo de Estimación 𝐸 = 𝑍𝛼/2√𝑛
Ejemplo 2:
𝑛𝑛
En una encuesta en una gran ciudad, 136 de 400 personas respondieron afirmativamente a
la pregunta de si el servicio de transporte público es adecuado. Con una confianza del
99%,
𝑥 ¿qué se puede decir acerca del error máximo, si
139
= = 0.34 se emplea como una estimación de la correspondiente proporcional
𝑛 400
real?
Solución
𝑥 136
Sustituyendo = = 0.34 y 𝑧𝛼/2 = 2.575 en la fórmula anterior, se tiene que el
𝑛 400
error es a lo sumo
(0.34)(0.66)
𝐸 = 2.575 √ 400 = 0.061
La fórmula anterior de R puede utilizarse también para determinar el tamaño muestral que
es necesario para alcanzar un grado deseado de precisión. Despejando n, obtenemos
𝑍𝛼/2
𝑛 = 𝑝(1 − 𝑝) [ ]2
𝐸
Pero esta fórmula no puede utilizarse como se estableció, a menos de que tengamos alguna
información acerca de la posible magnitud de p (con base en datos auxiliares; digamos,
una muestra previa). Si no se dispone de tal 1
información, podemos valernos del hecho de que 𝑝(1 − 𝑝) es a lo sumo ,
1 4
correspondiente a 𝑝 = ,
como puede mostrarse con métodos de cálculo
2
elemental. Por tanto, si
1 𝑍𝛼/2
𝑛= [ ]2
4 𝐸
Donde 𝑧𝑎/2 es el valor z que corresponde a un área a/2 en el extremo derecho de una
z que se desconocen los valores de p y q, se estiman
distribución normal estándar . puesto
por medio de los mejores estimadores puntuales: .se considera 𝑝^
que𝑦 el tamaño de la
muestra es grande cuando es adecuada la aproximación normal a la distribución
𝑞^ binomial;
a saber, cuando 𝑛𝑝^ > 5 𝑦 𝑛𝑞^ > 5.
𝑝𝑞
𝑝^ ± 𝑧𝑎/2 √𝑛
EJEMPLO 1:
Una muestra aleatoria de 985 votantes “probables” – aquellos que votarían en las próximas
elecciones—fue encuestada un “fonatón o encuesta telefónica” dirigido por el partido
republicano. De los encuestados, 592 indicaron que piensan votar por el candidato
republicano en la próxima elección. Construya un intervalo de
confianza de 90% para , la𝑝proporción de votantes probables en la población, que piensa
votar por el candidato republicano. Con base en esta información,
¿concluirá que el candidato ganara la elección? Solución:
la estimación puntual para 𝑝es entonces
𝑥 592
𝑝^ = = = .601
𝑛 985
𝑛 985
El valor de 𝑧 para un intervalo de confianza de 90% es el valor que tiene el área a/2 =.05
en el extremo superior de la distribución de 𝑧 o 𝑏ie𝑛 𝑧.05 = 1.645 de la
tabla. El intervalo de confianza de 90% para p es entonces.
𝑝^ 𝑞^
𝑝^ ± 1.645 √
2
. 601 ± .026
O . 575 < 𝑝 < . . Usted estima que el porcentaje de votantes probables del candidato
republicano
627 está entre 57.5 y 62.7%. ¿El candidato ganara la elección? Si se supone que
necesita más de 50% de los votas para ganar, y puesto que los limites de confianza superior
e inferior excede este valor mínimo podría decir que tiene 90% de confianza de que ganara
el candidato.
EJEMPLO 2:
Una muestra aleatoria de 999 votantes “probables” aquellos que votarían en próximas
elecciones que se van a realizar en el Tecnológico de Estudios Superiores del Oriente del
Estado de México de la Licenciatura en Contaduría Pública con motivo del día del contador
para elegir a su nueva jefa de carrera fueron encuestadas durante dos días por el grupo
4C11. De los encuestados, 659 indicaron que piensan votar por la jefa de carrera actual en
las próximas elecciones. Construya un intervalo de confianza de 90% para p, la proporción
de votantes probables en la población, que piensa votar por la jefa de carrera actual. Con
base en esta información. ¿Concluirá que la jefa de carrera ganará la elección?
659
𝑝^ =999 = .659 1-.659= .341
Y el error estándar es:
𝑛 999
El valor z para un intervalo de confianza de 90% es el valor que tiene el ares a/2=.05 en el
extremo superior de la distribución de z, o bien .05 𝑧 = 1.645 de la
tabla. El intervalo de confianza para p es entonces.
𝑝^ 𝑞^
𝑝^ ± 1.645 √
𝑛
1.645 ∙ .015 = .025
. 659 ± .025
. 659 + .025 = .684
. 659 − .025 = .
O
634. 634 < 𝑝 < .684. usted estima que el porcentaje de votantes probables del la jefa de
carrera está entre 63.4 y 68.4% la jefa de carrera actual será la ganadora.
BIBLIOGRAFIA
Técnicas de muestreo
William G. Cochran
Editorial continental S.A
Página 149
Métodos estadísticos
Said Infante G.I Guillermo P. Zarate de Lara
Editorial Trillas
335-337 páginas