Portafolio Unidad 4
Portafolio Unidad 4
Portafolio Unidad 4
PORTAFOLIO DE EVIDENCIAS
I Muestras Aleatorias
Cuando interesa estudiar características de poblaciones grandes, se utiliza el muestreo por muchas razones, entre otras, una
enumeración completa de la población suele ser económicamente imposible.
II Errores en el Muestreo
El error muestral se refiere a la variación natural existente entre muestras tomadas de la misma población. Cuando una muestra no es
una copia exacta de la población; aún si se ha tenido gran cuidado para asegurar que dos muestras del mismo tamaño sean
representativas de una cierta población, no esperaríamos que las dos sean idénticas en todos sus detalles. Los errores que surgen al
tomar las muestras no pueden clasificarse como errores muestrales y se denominan errores no muestrales.
El sesgo de las muestras es un tipo de error no muestral, se refiere a una tendencia sistemática inherente a un método de muestreo que
da estimaciones de un parámetro que son, en promedio, menores (sesgo negativo), o mayores (sesgo positivo) que el parámetro real.
El sesgo muestral puede suprimirse, o minimizarse, usando la aleatorización.
La aleatorización se refiere a cualquier proceso de selección de una muestra de la población en el que la selección es imparcial o no
está sesgada; una muestra elegida con procedimientos aleatorios se llama muestra aleatoria. Tipos comunes de muestreo aleatorio:
Simple, Estratificado, Conglomerado y Sistemático.
Una muestra aleatoria simple se elige de tal forma que todos los elementos de la población tengan la misma probabilidad de ser
seleccionados.
E1.1 Suponga que nos interesa elegir una muestra aleatoria de 5 estudiantes en un grupo de 20 alumnos. La combinación 20C5
da el número total de formas de elegir una muestra no ordenada y este resultado es 15504 maneras diferentes de tomar la muestra. Un
procedimiento más simple para elegir una muestra aleatoria sería escribir cada uno de los 20 nombres en pedazos separados de papel,
colocarlos en un recipiente, revolverlos y después extraer cinco papeles al mismo tiempo. Hay muchas situaciones en las cuales el
muestreo aleatorio simple es poco práctico, imposible o no deseado; aunque sería deseable usar muestras aleatorias simples para las
encuestas de opinión sobre productos o sobre elecciones, sería muy costoso o tardado.
El muestreo estratificado requiere de separar a la población según grupos que no se traslapen llamados estratos, y de elegir después una
muestra aleatoria simple en cada estrato. La información de las muestras aleatorias simples de cada estrato constituiría entonces una
muestra global.
E1.2 Suponga interesa obtener una muestra de las opiniones de los profesores de una universidad. Puede ser difícil obtener
una muestra con todos los profesores, así que supongamos que elegimos una muestra aleatoria de cada departamento académico; los
estratos serían los departamentos académicos.
El muestreo por conglomerados requiere de elegir una muestra aleatoria simple de unidades heterogéneas entre sí de la población
llamadas conglomerados. Cada elemento de la población pertenece exactamente a un conglomerado, y los elementos dentro de cada
conglomerado son usualmente heterogéneos o disímiles.
E1.3 Una compañía de televisión por cable piensa abrir una sucursal en la ciudad; la compañía planea un estudio para
determinar el porcentaje de familias que utilizarían sus servicios, la empresa decide seleccionar una parte de la ciudad al azar, la cual
forma un conglomerado. En el muestreo por conglomerados, éstos se forman para representar, tan fielmente como sea posible, a toda
la población; entonces usa una muestra aleatoria simple de conglomerados para estudiarla. Los estudios de instituciones sociales como
iglesias, hospitales, escuelas y prisiones se realizan, generalmente, con base en el muestreo por conglomerados.
El muestreo sistemático es una técnica de muestreo que requiere de una selección aleatoria inicial de observaciones, seguida de otra
selección de observaciones obtenida usando algún sistema o regla.
E1.4 Para obtener una muestra de suscriptores telefónicos en una ciudad, puede obtenerse primero una muestra aleatoria de
los números de las páginas del directorio telefónico; al elegir el cuadragésimo nombre de cada página obtendríamos un muestreo
sistemático, un número al azar entre los primeros 100, entonces seleccionamos los nombres del directorio que corresponden a los
números 40, 140, 240, 340 y así sucesivamente.
Error Muestral
Muestras Error
Cualquier medida conlleva algún error. Si se usa la media muestral () para estimar la media poblacional ordenadas
-µ=Є
(µ), entonces la media muestral, como medida, presentara algún error muestral (Є). Una media muestral (2,2) 2 2 – 4 = -2
puede pensarse como la suma de la media poblacional µ y el error muestral; Si Є denota el error muestral, (2,4) 3 3 – 4 = -1
entonces: = µ + Є (2,6) 4 4–4=0
(4,2) 3 3 – 4 = -1
E1.5 Se toman muestras de tamaño 2 de una población consistente en tres valores, 2, 4 y 6, para simular (4,4) 4 4–4=0
una población "grande" de manera que el muestreo pueda realizarse un gran número de veces, éste se hace (4,6) 5 5–4=1
con remplazo, además, se seleccionan muestras ordenadas. La tabla contiene una lista de todas las muestras (6,2) 4 4–4=0
ordenadas de tamaño 2 que es posible seleccionar con remplazo y también contiene las medias y los (6,4) 5 5–4=1
correspondientes errores muestrales. La media = (2+4+6) /3 = 4. (6,6) 6 6–4=2
Nótese las interesantes relaciones siguientes contenidas en la tabla:
=μ=4
La media de la colección de medias muestrales es 4.
Si µx denota la media de las medias muestrales tenemos: µx = (3+4+3+4+5+5+2+4+6) /9 =4
La suma de los errores muestrales es cero. Є1+Є2+Є3+. . .+Є9 = (-2) +(-1) +0+(-1) +0+1+0+1+2=0
Entonces, si x se usa para estimar la media poblacional El promedio de todos los errores muestrales = 0.
0+2+4 +6
Media poblacional es: µ = =3
4
σ 2.236
Podemos deducir que: σx = = = 1.58
√n 2
15 de junio de 2021
ESTADISTICA INFERENCIAL
El objetivo de la estadística inferencial es la estimación, esto es que, mediante el estudio de una muestra, se generalizan las
conclusiones acerca de una población.
La inferencia estadística está concentrada en obtener algún tipo de conclusión acerca de uno o más parámetros (características
poblacionales).
Los estadísticos varían dentro de sus distribuciones muestrales, mientras menor sea el error estándar de un estadístico, más cercanos
serán unos de otros sus valores.
Procedimientos de estimación;
Estimación puntual
Estimación por intervalo.
Estimación Puntual
Una estimación puntual es un valor único estadístico, se usa para estimar un parámetro. El objetivo de la estimación puntual es
seleccionar sólo un número, basados en la muestra, que represente el valor más razonable del parámetro.
E1: Una muestra presenta las siguientes observaciones; 44.2, 43.9, 44.7, 44.2, 44.0, 43.8, 44.6, 43.1.
Estimación puntual de la media; =
∑ Xi = (44.2 + 43.9 + … +43.1) / 8 = 352.5 / 8 = 44.0625
n
El valor calculado de la media muestral es = 44.06.
Es razonable considerar 44.06 como el valor más adecuado de media (μ)?
Una estimación puntual de un parámetro ϴ es un sólo número que se puede considerar como el valor más razonable de ϴ, se obtiene al
seleccionar una estadística apropiada y calcular su valor a partir de datos de la muestra dada, la estadística seleccionada se llama
estimador puntual de ϴ.
El símbolo ō se utiliza para representar el estimador de ϴ y la estimación puntual resultante de una muestra dada. Entonces µ = , se
lee "el estimador puntual de μ es la media muestral ". El enunciado "la estimación puntual de la media poblacional es 44.0625" se
escribe en forma abreviada µ = 44.0625
Representamos con μ (media poblacional) el verdadero promedio, Podría tomarse una muestra de n observaciones para determinar
(media muestral), y esta podría emplearse para sacar una conclusión acerca del valor de μ. De forma similar, si σ 2 es la varianza de la
distribución, el valor de la varianza muestral s2 se podría utilizar para inferir algo acerca de σ2.
En el mejor de los casos, se encontrará un estimador ō para el cual ō = Ɵ. Sin embargo, ō es una función de las Xi muestrales, por lo
que en sí misma una variable aleatoria. ō = Ɵ + error de estimación, entonces el estimador preciso sería uno que produzca sólo
pequeñas diferencias de estimación, de modo que los valores estimados se acerquen al valor verdadero.
La variabilidad de la media se puede medir por su desviación estándar σ, esta medida se conoce como el error de estimación y tiende
a disminuir cuando aumenta el tamaño de la muestra.
σ = σ/√n sí conocemos la desviación estándar de la población,
σ = s/√n sí usamos la desviación estándar de la muestra.
n: número de observaciones
Estimación por Intervalos
Esta es una construcción repetida de intervalos de confianza de 95% y se observa que de 11 intervalos calculados sólo dos intervalos
no contienen el valor de μ.
De acuerdo con esta interpretación, el IC no es un enunciado sobre cualquier intervalo en particular, se refiere a lo que sucedería si se
tuvieran que construir un gran número de intervalos semejantes.
Un IC = 95% implica la probabilidad de que las muestras darían lugar a un intervalo del parámetro que se
esté estimando, y sólo 5% de las muestras producirá un intervalo erróneo. Una interpretación correcta radica
en la frecuencia: es decir, si el experimento donde A está definido se realiza una y otra vez, A ocurrirá 95%
de las veces.
σ s
La desviación estándar de la media es σ = σ = = 1.2197.
√n √n
El error estándar es, el rango de valores que caen dentro de una desviación estándar en la curva normal del error, es decir que hay una
probabilidad de que el valor real esté dentro del rango reportado.
Podemos construir el intervalo dentro del cual encontramos el valor de la media.
Entonces, la media de la población (μ) debe estar en el intervalo estimado por la media de la muestra:
zσ (1.96)(0.3)
Z95% =1.96. μ=± = 2.6 ± = 2.50 … 2.70
√n √36
zσ (2.58)(0.3)
Z99% = 2.58 μ=± = 2.6± = 2.47… 2.73 el intervalo será más amplio:
√n √36
El IC proporciona la precisión de nuestra estimación. Si μ es realmente el valor central de intervalo, entonces estima μ sin error. Sin
embargo, no será exactamente igual a μ y la estimación puntual es errónea.
σ
La confianza de que esta diferencia no excederá el error de estimación = z
√n
Ejemplo Con una muestra de 48 observaciones, se obtuvo una resistencia promedio de 17.17 unidades, la desviación estándar fue
3.38 unidades. Utilice un nivel de confianza inferior del 95% para estimar la μ real.
Este ejercicio nos presenta dos situaciones diferentes; Primera, desconoce σ de la población.
Segunda, nos piden un intervalo de confianza unilateral.
Para el intervalo de confianza unilateral, se cargará el área bajo la curva hacia un solo lado:
16.39 17.17
zσ 1.645∗3.38
- = 17.17 - = 16.39
√n √ 48
Con un nivel de confianza de 95%, el valor de la μ está en el intervalo (16.39, ∞).
El estimador puntual de la proporción P está dado por la estadística P = x / n donde x representa el número de éxitos en n
pruebas. Si no se espera que la proporción P desconocida esté demasiado cerca de 0 o de 1, se puede establecer un intervalo de
confianza para P al considerar la distribución muestral de proporciones.
p−P
pq
Z=
√ pq
n
Al despejar P P = p ± z
√ n
Se necesita el valor del parámetro P y es precisamente lo que queremos estimar, por lo que lo sustituiremos por la proporción de la
muestra p siempre que el tamaño de muestra sea grande.
(Cuando n es pequeña y la proporción P cercana a 0 o a 1, el procedimiento del IC que se establece aquí no es confiable, se debe requerir que np o
nq sea mayor o igual a 5.)
El error de estimación será la diferencia absoluta entre p y P, y podemos tener el nivel de confianza de Pq
que esta diferencia no excederá el error de estimación → z
√ n
Ejemplo Un fabricante de reproductores de cds utiliza un conjunto de pruebas amplias para evaluar la función eléctrica de su
producto. Todos los reproductores deben pasar todas las pruebas. Una muestra de 500 reproductores tiene como resultado 15 que fallan
en una o más pruebas.
Encuentre un intervalo de confianza de 90% para la proporción de los reproductores de la población que no pasan todas las pruebas.
Pq 0.03∗0.97
P=p±z
√ n
= 0.03 ± (1.645)
√ 500
= 0.0237 < P < 0.0376
Con un nivel de confianza del 90%, la proporción de reproductores defectuosos que no pasan la prueba en esa población está entre
0.0237 y 0.0376.
Se tienen dos poblaciones con medias μ 1, μ2 y varianzas σ 12, σ 22, un estimador puntual de la diferencia entre μ 1 y μ2 está dado por la
estadística; 1 - 2.
Para obtener una estimación puntual de μ1 - μ2, se seleccionan dos muestras aleatorias independientes, una de cada población, de
tamaño n1 y n2, se calcula la diferencia 1 - 2, de las medias muestrales.
2 2
μ1−¿ μ ¿= ¿ ¿) ± σ 1 + σ 2 Z
Z =( x́ ¿ ¿ 1− x́ 2)−¿ ¿ ¿ Al despejar se tiene: 2
√n1 n2
En el caso en que se desconozcan las varianzas de la población y los tamaños de muestra sean mayores a 30, se podrá utilizar la
varianza de la muestra como una estimación puntual.
Ejemplo Se compara el rendimiento de gasolina en millas por galón en dos tipos de motores, A y B. Se realizan 50 experimentos
con el motor A y 75 con el motor B. El rendimiento promedio para el motor A es de 36 m/g, para el motor B es 42 m/g. Encuentre un
intervalo de confianza de 96% sobre la diferencia promedio real para los motores A y B. Suponga desviaciones estándar 6 y 8 para los
motores A y B respectivamente. Es deseable que la diferencia de medias sea positiva, se recomienda restar a la media mayor la media
menor. En este caso será la media del motor B menos la media del motor A. Z para nivel de confianza del 96% es de 2.05.
σ 2a σ 2b 36 64
µB - µA = b - a ± z
√ + = (42 – 36) ± 2.05
na nb
+
50 75 √ = 3.43<(µB-µA) <8.57
Con un nivel de confianza del 96% la diferencia del rendimiento promedio esta entre 3.43 y 8.57 m/g a favor del motor B, da mejor
rendimiento que el motor A, ya que los valores del intervalo son positivos.
Si se tienen dos poblaciones con proporciones P 1 y P2, un estimador puntual de la diferencia entre P 1 y P2 está dado por la estadística. p1
- p2
Se utilizará distribución muestral de diferencia de proporciones. Z =( p ¿ ¿ 1− p2 )−¿ ¿ ¿
Despejando P1-P2, nos queda las dos proporciones poblacionales que queremos estimar, se utilizarán las proporciones de la muestra
como estimadores puntuales:
p1q1 p2q2
P1 - P2 = (p1 - p2) ± z
n1
+
√
n2
Ejemplo Cambio en un proceso de fabricación de partes. Se encuentra que 75 de 1500 artículos del procedimiento actual son
defectuosos y 80 de 2000 artículos del procedimiento nuevo también lo son, encuentre un intervalo de confianza de 90% para la
diferencia real en la fracción de defectuosos entre procesos. Sean P 1 y P2 proporciones reales de defectuosos para los procesos actual y
nuevo.
p1 = 75/1500 = 0.05 p2 = 80/2000 = 0.04 Z (90%) = 1.645.
Como el intervalo contiene el valor de cero, no hay razón para creer que el nuevo procedimiento producirá una disminución
significativa en la proporción de artículos defectuosos comparada con el método existente.
Ejemplo. Un artículo relacionado con la salud, reporta datos sobre la incidencia de disfunciones en recién nacidos con madres fumadoras
y no fumadoras:
P1 = proporción de nacimientos donde aparecen disfunciones entre fumadoras. Fuma No Fuma
P2=proporción de nacimientos donde aparecen disfunciones entre no fumadoras. Muestra 1246 11178
Encuentre el intervalo de confianza del 99% para la diferencia de proporciones. disfunciones 42 294
El valor de z para un 99% de confianza es de 2.58. Proporción 0.0337 0.0263
p1q1 p2q2
P1 - P2 = (p1 - p2) ± z
√
n1
+
n2
( 0.0337 ) (0.9663) (0.0263)(.9737)
= (0.0337-0.0263) ± 2.58
√ 1246
+
11178
= -0.0064<P1 - P2<0.0212
Este intervalo es bastante angosto, lo cual sugiere que P1-P2 ha sido estimado de manera precisa.
Ejemplo. Los hombres y mujeres difieren en opinión sobre la promulgación de la pena de muerte para culpables de asesinato. Se
cree que el 12% de los hombres están a favor de la pena de muerte, mientras que sólo 10% de las mujeres lo están. Se seleccionan dos
muestras de 100 hombres y 100 mujeres, determine la probabilidad de que el porcentaje de hombres a favor sea al menos 3% mayor
que el de las mujeres.
PH =0.12, PM =0.10, nH =100, nM =100, p (pH-pM ≥ 0.03) =x
(0.25)−(0.12−0.10)
Z =( p ¿ ¿ H− p M )−¿ ¿ ¿ = ( 0.12)(0.88) (0.10)(0.90) = 0.11
√
100
+
100
Se está incluyendo el factor de corrección de 0.5 por ser una distribución binomial y se está utilizando la distribución normal.
Se concluye que la probabilidad de que el porcentaje de hombres a favor de la pena de muerte, al menos 3% mayor que el de mujeres
es de 0.4562
Ejemplo. Se sabe que 3 de cada 6 productos fabricados por la máquina1 son defectuosos y que 2 de cada 5 objetos fabricados por
la máquina2 son defectuosos; se toman muestras de 120 objetos de cada máquina, determine la probabilidad de que la proporción de
artículos defectuosos:
a. de la máquina 2 rebase a la máquina1 en por lo menos 0.10
b. de la máquina 1 rebase a la máquina2 en por lo menos 0.15
a. p (p2-p1 ≥ 0.10) = x
(0.0958)−(−0.10)
Z = ( p ¿ ¿ 2− p1 )−¿ ¿ ¿ = ( 0.50)(0.50) (0.40)(0.60) = 3.06
√ 120
+
120
−0.0958−0.10 ¿ ¿
Z = ( p ¿ ¿ 1− p2 )−¿ ¿ ¿ = (0.50)(0.50) ( 0.40)( 0.60) = - 3.06
√ 120
+
120
La probabilidad de que exista una diferencia de proporción de artículos defectuosos de por lo menos 10% a favor de la máquina 2 es de
0.0011.
b. p (p1-p2 ≥ 0.15) =x
0.1458−0.10 ¿ ¿
Z = ( p ¿ ¿ 1− p2 )−¿ ¿ ¿ = (0.50)(0.50) (0.40)( 0.60) = 0.
√ 120
+
120
21 de junio del 2021
Cálculo del Tamaño de la Muestra para Estimar una Media
¿Qué tan grande debe ser una muestra si la media muestral se va a usar para estimar la media poblacional? La respuesta depende del error estándar
de la media, si este fuera cero, entonces se necesitaría una sola media que será igual necesariamente a la media poblacional desconocida μ, porque
σ = 0. Este caso extremo no se encuentra en la práctica, pero refuerza el hecho de que mientras menor sea el error estándar de la media, menor es el
tamaño de muestra necesario para lograr un cierto grado de precisión.
Se estableció que una forma de disminuir el error de estimación es aumentar el tamaño de la muestra, si éste incluye el total de la población,
entonces │ x́ –μ│ sería igual a cero. Con esto en mente, parece razonable que para un nivel de confianza fijo, sea posible determinar un tamaño de
la muestra tal que el error de estimación sea tan pequeño como queramos, para ser más preciso, dado un nivel de confianza y un error fijo de
estimación ϵ, se puede escoger un tamaño de muestra n tal que P (│ x́ –μ│<ϵ) = Nivel de confianza.
zσ
Con el propósito de determinar n. El error de estimación está dado por: ϵ=
√n
2
zσ
Si se despeja n de la ecuación resultante, obtenemos: n= ( )ϵ
Como n debe de ser un número entero, redondeamos hacia arriba todos los resultados zσ N −n
fraccionarios. En el caso de que se tenga una población finita y un muestreo sin
reemplazo, el error de estimación se convierte en:
ϵ=
√n √ N −1
z2 σ 2 N
Se eleva al cuadrado ambos lados y se despeja la n: n=
ϵ 2 ( N −1 ) + z 2 σ 2
Ejemplo: Se quiere estimar el peso promedio de los ciervos. Un estudio de diez ciervos mostró que la desviación estándar de sus pesos es de 12.2
libras. ¿Qué tan grande debe ser una muestra para que se tenga el 95% de confianza de que el error de estimación es a lo más de 4 libras?
2 En consecuencia, si el tamaño de la muestra es 36, se puede tener un
zσ 2 ( 1.96 ) ( 12.2 )
n= ( ) (
ϵ
=
4 )
= 35.736 ≈ 36 95% de confianza en que μ difiere en menos de 4 libras de .
TAMAÑO DE LA MUESTRA PARA ESTIMAR LA MEDIA CON MUESTREO SIMPLE
Para estimar la media poblacional utilizando una variable aleatoria continua se utiliza la siguiente relación:
n = tamaño de la muestra.
NS Z2 2 N = tamaño de la población.
α/ 2
n= 2 2 2
Zα/2 = variable estandarizada de distribución normal.
N d +S Z α /2 S² = varianza de la muestra,
d (e) = precisión del muestreo.
Donde: α = Nivel de significancia.
Generalmente es necesario hacer un premuestreo de 30 elementos, con el objetivo de hacer una primera estimación de S².
Cálculo del Tamaño de la Muestra para Estimar una Proporción
Se desea saber que tan grande se requiere que sea una muestra pq
para asegurar que el error al estimar P sea menor que una cantidad
específicaϵ
ϵ =z ∑
√ n
z2 pq
Elevando al cuadrado la ecuación, se despeja n y nos queda: n =
∈2
Esta fórmula está algo engañosa, pues debemos utilizar p para determinar el tamaño de la muestra, pero p se calcula a partir de la muestra.
Existen ocasiones en las cuales se tiene una idea del comportamiento de la proporción de la población y ese valor se puede sustituir en la fórmula,
pero si no se sabe nada referente a esa proporción entonces se tienen dos opciones:
1 Tomar una muestra preliminar mayor o igual a 30 para proporcionar una estimación de P, luego con el uso de la fórmula se podría determinar
aproximadamente el número de observaciones necesarias para proporcionar el grado de precisión que se desea.
2 Tomar el valor de p como 0.5 ya que sustituyendo este en la fórmula se obtiene el tamaño de muestra mayor posible.
Ejemplo:Se desconoce el valor de P, por lo que se utilizarán diferentes valores y se sustituirán en la fórmula para observar los diferentes tamaños de
muestras. El nivel de confianza que se utilizará es del 95% con un error de estimación de 0.30.
Como se puede observar en la tabla cuando P vale 0.5 el tamaño de la muestra alcanza su máximo valor.
En el caso de que se tenga una población finita y un muestreo sin reemplazo.
z 2 pqN
despeja n; n= 2 2
∈ ( N−1 ) + z pq
La distribución muestral de diferencia de medias tiene que el error está dado por:
σ 21 σ 21
ϵ=z
√ +
n1 n2
Se quiere comparar la efectividad de métodos de entrenamiento para una operación de montaje. Se divide el número de operarios en dos
Ejemplo:
grupos iguales: método 1, y método 2. Cada uno realizará la operación de montaje y se registrará el tiempo de trabajo. Se espera que las
mediciones para ambos grupos tengan una desviación estándar aproximadamente de 2 minutos. Si se desea que la estimación de la diferencia en
tiempo medio de montaje sea correcta hasta por un minuto, con una probabilidad igual a 0.95, ¿cuántos trabajadores se tienen que incluir en cada
grupo de entrenamiento?
z2 (σ 21+ σ 22 ) (1.96)2 (22 +22)
n= = = 31empleados debe contener cada grupo.
∈2 12
La distribución muestral de diferencia de proporciones tiene que error está dado por:
p1 q p1 q
ϵ=z
√ n1
1
+
n2
2
Ejemplo:Se muestrean dos mercados, I y II, a fin de comparar las proporciones de consumidores que prefieren la comida congelada de la compañía
con los productos de sus competidores. No hay información previa acerca de la magnitud de las proporciones P 1 y P2. Si la empresa de productos
alimenticios quiere estimar la diferencia dentro de 0.04, con una probabilidad de 0.95, ¿cuántos consumidores habrá que muestrear en cada
mercado?
z2 ( p1 q1 + p2 q2 ) ( 1.96 )2 (0.5)(0.5)+(0.5)(0.5)
n= = = 1200.5
∈2 0.04 2
Se tendrá que realizar encuestas a 1201 consumidores de cada mercado para tener una estimación con una confianza del 95% y un error máximo de
0.04.
TAMAÑO DE LA MUESTRA A la hora de determinar el tamaño que debe alcanzar una muestra hay que tomar en cuenta varios factores: el tipo de
muestreo, el parámetro a estimar, el error muestral admisible, la varianza poblacional y el nivel de confianza. Por ello antes de presentar algunos casos sencillos
de cálculo del tamaño muestral delimitemos estos factores.
Para calcular el tamaño de una muestra hay que tomar en cuenta tres factores:
1. El % de confianza con el cual se quiere generalizar los datos desde la muestra.
2. El % de error que se pretende aceptar al momento de hacer la generalización.
3. El nivel de variabilidad que se calcula para comprobar la hipótesis.
La confianza o el % de confianza es el % de seguridad que existe para generalizar los resultados obtenidos. Esto quiere decir que un % del 100% equivale a decir
que no existe ninguna duda para generalizar tales resultados, pero también implica estudiar a la totalidad de los casos de la población. Para evitar un costo muy
alto para el estudio o debido a que en ocasiones llega a ser prácticamente imposible el estudio de todos los casos, entonces se busca un porcentaje de confianza
menor.
Comúnmente en las investigaciones sociales se busca un 95%.
El error o % de error equivale a elegir una probabilidad de aceptar una hipótesis que sea falsa como si fuera verdadera, o la inversa: rechazar a hipótesis verdadera
por considerarla falsa. Al igual que en el caso de la confianza, si se quiere eliminar el riesgo del error y considerarlo como 0%, entonces la muestra es del mismo
tamaño que la población, por lo que conviene correr un cierto riesgo de equivocarse.
Comúnmente se aceptan entre el 4% y el 6% como error, no son complementarios la confianza y el error.
Al utilizar muestras en lugar de universos tenemos grandes ventajas, algunas de las más importantes son:
· El costo se reduce, pues los gastos serán únicamente los ocasionados por una parte del universo (muestra tomada) y no por la totalidad de él.
· Si la muestra es representativa, las deducciones resultantes sobre el universo serán confiables.
· Como solamente se estudia una parte del universo, la información obtenida se realiza en menor tiempo.
Nivel de Confianza 99.73% 99% 98% 96% 95.45% 95% 90% 68.27% 50%
Valores de Z 3.00 2.58 2.33 2.05 2.00 1.96 1.645 1.00 0.675
obtener el tamaño de la muestra?
1. Determinar el nivel de confianza.
2. Evaluar la probabilidad a favor (p) de que suceda un evento o situación esperada.
3. Evaluar la probabilidad en contra (q) de que suceda en un evento o situación esperada.
4. Determinar el error de estimación (e).
5.- Se elige la fórmula a utilizar para calcular el tamaño de la muestra.
Para determinar el tamaño de muestra para estimar µ con un error máximo permisible є y conocida la varianza poblacional (σ2) podemos utilizar la formula:
n = (σ Zα/2 / є)2
є es el error máximo prefijado y está dado por la expresión є = Zα/2 (σ / √n)
Ejemplo: De una población de 1176 adolescentes de una ciudad X se desea conocer la aceptación por los programas humorísticos televisivos y para ello
se desea tomar una muestra por lo que se necesita saber la cantidad de adolescentes que deben entrevistar para tener una información adecuada con error estándar
menor de 0.015 al 90 % de confiabilidad.
N = 1 176
e = 0.015
σ2 = є2 = (0.015)2 = 0.000225 n´= S2 / σ2 = 0.09/0.000225 = 400
2=
S pq = (0.9)*(0.1) = 0.09n = n´/1+ (n´/N) = 400/1+(400/1176) = 298.49
Es decir para realizar la investigación se necesita una muestra de al menos 298 adolescentes.
A la hora de determinar el tamaño que debe alcanzar una muestra hay que tomar en cuenta varios factores: el tipo de muestreo, el parámetro a estimar, el error
muestral admisible, la varianza poblacional y el nivel de confianza. Por ello antes de presentar algunos casos sencillos de cálculo del tamaño muestral
delimitemos estos factores.
Si esta condición se cumple el proceso termina aquí, y ese es el tamaño adecuado que debemos muestrear.
Si no se cumple, pasamos a una tercera fase:
3.- Obtener el tamaño de la muestra según la siguiente fórmula:
n∞
n=
1+ n∞/N
Veamos un ejemplo: La Consejería de Trabajo planea un estudio con el interés de conocer el promedio de horas semanales trabajadas por las mujeres del servicio
doméstico. La muestra será extraída de una población de 10000 mujeres que figuran en los registros de la Seguridad Social y de las cuales se conoce a través de
un estudio piloto que su varianza es de 9.648. Trabajando con un nivel de confianza de 0.95 y estando dispuestos a admitir un error máximo de 0,1, ¿cuál debe ser
el tamaño muestral que Empleemos?.
Buscamos en las tablas de la curva normal el valor de Z α/2 que corresponde con el nivel de confianza elegido: = Zα/2 ± 1.96 y seguimos los pasos propuestos
arriba.
1.
(1.96)2 (9.648)
n∞= = 3706
(0.1)2
2.- Comprobamos que no se cumple, pues en este caso 10000 < 3706 (3706 - 1); 10000 < 13730730
3.-
n∞ 3706
n= = = 2704
1+ n∞/N 1+ (3706/10000)
Tamaño de muestra para estimar la proporción de la población Para calcular el tamaño de muestra para la estimación de proporciones
poblaciones hemos de tener en cuenta los mismos factores que en el caso de la media. La fórmula que nos permitirá determinar el tamaño muestral es la siguiente:
Siguiendo con el estudio planteado en el punto anterior, supongamos que tratamos de estimar la proporción de mujeres que trabajan diariamente 10 horas o más.
De un estudio piloto se dedujo que P=0.30, fijamos el nivel de confianza en 0.95 y el error máximo 0.02.
POBLACIÓN Llamado también universo o colectivo, es el conjunto de todos los elementos que tienen una característica común. Una población puede ser
finita o infinita.
Es población finita cuando está delimitada y conocemos el número de elementos que la integran.
Representativa.- Se refiere a que todos y cada uno de los elementos de la población tengan la misma oportunidad de ser tomados en cuenta para formar dicha
muestra.
Adecuada y válida.- Se refiere a que la muestra debe ser obtenida de tal manera que permita establecer un mínimo de error posible respecto de la población.
Para que una muestra sea fiable, es necesario que su tamaño sea obtenido mediante procesos que eliminen la incidencia del error.
ELEMENTO Unidad mínima que compone una población, puede ser una entidad simple (una persona) o una entidad compleja (una familia), y se denomina
unidad investigativa.
Multiplicando fracciones:
Eliminando denominadores:
Eliminando paréntesis:
Transponiendo n a la izquierda:
Factor común de n:
Despejando n:
Ordenando se obtiene la fórmula para calcular el tamaño de la muestra:
Dónde:
n = el tamaño de la muestra.
N = tamaño de la población.
σ = Desviación estándar de la población (generalmente suele utilizarse un valor constante de 0,5).
Z = Valor obtenido mediante niveles de confianza.
e = Límite aceptable de error muestral (suele utilizarse un valor que varía entre el 1% y 9%).
22 de junio de 2021
PRUEBA DE HIPÓTESIS
Una hipótesis estadística es una proposición o supuesto sobre los parámetros de una o más poblaciones. Es importante recordar que
las hipótesis siempre son proposiciones sobre la población bajo estudio, no proposiciones sobre la muestra. Por lo general, el valor del
parámetro de la población especificado en la hipótesis nula se determina en una de tres maneras diferentes:
La hipótesis nula, Ho, Afirmación sobre una o más características de población que se supone cierta.
La hipótesis alternativa, H1, Afirmación contradictoria a Ho, y ésta es la hipótesis del investigador.
La hipótesis nula se rechaza en favor de la hipótesis alternativa, sólo si la evidencia muestral sugiere que H o es falsa. Si la muestra no
contradice a Ho, se continúa creyendo en la validez de la hipótesis nula. Entonces, las conclusiones posibles de un análisis de prueba de
hipótesis son rechazar Ho o no rechazar Ho.
Suponga que se tiene interés en la rapidez de combustión de un agente propulsor sólido utilizado en los sistemas de salida de
emergencia para la tripulación de aeronaves. El interés se centra sobre la rapidez de combustión promedio. De manera específica, el
interés recae en decir si la rapidez de combustión promedio es o no 50 cm/s. Esto puede expresarse de manera formal como:
Ho; μ = 50 cm/s (hipótesis nula)
H1; μ ≠ 50 cm/s (hipótesis alterna)
La hipótesis alterna específica valores de μ que pueden ser mayores o menores que 50 cm/s, lo que se conoce como hipótesis alterna
bilateral.
En algunas situaciones, lo que se desea es formular una hipótesis alterna unilateral, como en
Ho; μ = 50 cm/s Ho; μ = 50 cm/s
H1; μ < 50 cm/s o H1; μ > 50 cm/s
Prueba de una Hipótesis Estadística
La hipótesis nula es que la rapidez promedio de combustión es 50 cm/s, mientras que la hipótesis alterna es que ésta no es igual a 50
cm/s.
Suponga realiza una prueba sobre una muestra de 10 piezas, y que se observa cual es la rapidez de combustión promedio muestral.
La media muestral es un estimador de la media verdadera de la población.
Un valor de la media muestral próximo al valor hipotético μ = 50 cm/s es evidencia de que el verdadero valor de la media μ es 50
cm/s; esto es, tal evidencia apoya la hipótesis nula H o. 48.5 ≤ ≤ 51.5, entonces no se rechaza la hipótesis nula H o; μ = 50 cm/s. Por
otra parte, una media muestral diferente de 50 cm/s constituye una evidencia que apoya la hipótesis alternativa H 1. La media muestral
puede tomar valores diferentes.
Si < 48.5 o > 51.5, entonces se acepta la hipótesis alternativa H1; μ ≠ 50 cm/s.
Los valores de menores que 48.5 o mayores que 51.5 constituyen la región crítica de la
prueba, mientras que todos los valores que están en el intervalo 48.5 ≤ ≤ 51.5 forman la
región de aceptación.
La costumbre es establecer conclusiones con respecto a la hipótesis nula H o. Se rechaza Ho en
favor de H1 si el estadístico de prueba cae en la región crítica, de lo contrario, no se rechaza Ho.
Es posible que el valor verdadero sea igual a 50 cm/s. Sin embargo, para todos los especímenes bajo prueba, puede observarse un valor
del estadístico de prueba que cae en la región crítica.
En este caso, la hipótesis nula Ho será rechazada en favor de la alternativa H1 cuando, Ho es cierto.
Este tipo de conclusión equivocada se conoce como error tipo I, α o nivel de significancia.
(Nivel de confianza del 95% = nivel de significancia de 5%. Análogamente confianza es del 90% = significancia del 10%).
Ahora suponga que la rapidez promedio es diferente de 50 cm/s, aunque la media muestral caiga dentro de la región de aceptación.
En este caso se acepta Ho cuando ésta es falsa.
Este tipo de conclusión recibe el nombre de error tipo II o β.
Ho Ho
Decisión
Al probar cualquier hipótesis estadística, existen cuatro situaciones diferentes verdadera falsa
Aceptar Ho No hay error Error β tipo II
Rechazar Ho Error α tipo I No hay error
que determinan si la decisión final es correcta o errónea.
E1: Una muestra aleatoria de 100 defunciones registradas muestra una vida promedio de 71.8
años, y una desviación estándar de 8.9 años, ¿esto indica que la vida media hoy es mayor que 70
años? Utilice un nivel de significancia de 0.05.
Se trata de una distribución muestral de medias con desviación estándar conocida.
μ = 70 años, σ = 8.9 años, = 71.8 años, n = 100, α = 0.05
Como 2.02 > 1.645 se rechaza Ho y se concluye con un nivel de significancia del 0.05 que la
vida media hoy en día es mayor que 70 años.
Existe otra manera de resolver este ejercicio, tomando la decisión en base al estadístico real, en
este caso la media de la muestra.
x́−μ
σ ( 8.9)
Z= σ = μ+ Z = 70+ (1.645) = 71.46
√n √ 100
√n
Regla de decisión: Si x́ R ≤ 71.46 No se rechaza Ho
Si x́ R > 71.46 Se rechaza Ho
Como la media de la muestral es de 71.8 años y es mayor al valor de la media muestral límite de 71.46 por lo tanto se rechaza
Ho y se llega a la misma conclusión.
Ejemplo5 Un fabricante de semiconductores produce controladores que se emplean en aplicaciones de motores. El cliente requiere
que la fracción de controladores defectuosos en uno de los pasos de manufactura no sea mayor que 0.05, y que el fabricante demuestre
esta característica del proceso de fabricación utilizando α= 0.05. En una muestra aleatoria de 200 dispositivos cuatro son defectuosos.
¿El fabricante puede demostrar al cliente la calidad del proceso?
p−P 0.02−0.05
Cálculos: zR = Pq = ( 0.05 ) ( 0.95 ) =-1.946
√ √
n 200
Justificación y decisión:
Puesto que 2.52>1.645, se rechaza Ho, y se concluye con un nivel de significancia de 0.05 que la
adición del nuevo ingrediente a la pintura si disminuye de manera significativa el
tiempo promedio de secado.
Solución por el otro método:
σ 21 σ 22 82 8 2 = 5.88
(1 - 2) = (μ1 – μ2) + z
√ + = (0) + 1.645
n1 n2 √+
10 10
Regla de decisión:
Ejemplo7: Se utilizan dos máquinas para llenar botellas de plástico con un volumen neto de 16.0 onzas. Las distribuciones de los
volúmenes de llenado pueden suponerse normales, con desviaciones estándar σ 1= 0.020 y σ2 = 0.025 onzas. Un miembro del grupo de
ingeniería de calidad sospecha que el volumen neto de llenado de ambas máquinas es el mismo, sin importar si éste es o no de 16
onzas. De cada máquina se toma una muestra aleatoria de 10 botellas. ¿Se encuentra el ingeniero en lo correcto? Utilice α= 0.05
MAQUI 16.0 16.0 16.0 15.9 16.0 15.9 16.0 16.0 16.0 15.9
NA 1 3 1 4 6 5 8 5 2 2 9
MAQUI 16.0 16.0 15.9 16.0 15.9 16.0 16.0 16.0 15.9 16.0
NA 2 2 3 7 4 6 2 1 1 9 0
Datos:
σ1 = 0.020
σ2 = 0.025
x́ 1 =16.015
x́ 2 =16.005
n1 = n2 = 10
α = 0.05
Ensayo de hipótesis
Ho; μ1-μ2 = 0
H1; μ1-μ2 ≠0
Justificación y decisión:
Como –1.96≤ 0.987≤ 1.96 entonces no se rechaza Ho y se concluye con un nivel de significancia de 0.05 que las dos máquinas tienen
en promedio la misma cantidad de llenado.
Regla de decisión:
Al probar hipótesis en las que la estadística de prueba es discreta, la región crítica se puede elegir de forma arbitraria y determinar su
tamaño. Si α es demasiado grande, se puede reducir al hacer un ajuste en el valor crítico. Puede ser necesario aumentar el tamaño de la
muestra para compensar la disminución que ocurre de manera automática en la potencia de la prueba (probabilidad de rechazar H o
dado que una alternativa específica es verdadera).
Por generaciones enteras de análisis estadístico, se ha hecho costumbre elegir un nivel de significancia de 0.05 ó 0.01 y seleccionar la
región crítica en consecuencia. Entonces, por supuesto, el rechazo o no rechazo estricto de Ho dependerá de esa región crítica.
Un valor P es el nivel (de significancia) más bajo en el que el valor observado de la estadística de prueba es significativo. El valor P es
el nivel de significancia más pequeño que conduce al rechazo de la hipótesis nula H o. El valor P es el mínimo nivel de significancia en
el cual Ho sería rechazado cuando se utiliza un procedimiento de prueba especificado con un conjunto dado de información.
Una vez que el valor de P se haya determinado, la conclusión en cualquier nivel α particular resulta de comparar el valor P con α
Ejemplo 1.
Calcular el valor de P para el primer ejemplo de ensayo de hipótesis en donde se quería probar que la edad media de los habitantes de
Estados Unidos es superior a 70 años.
Ensayo de hipótesis
Ho; μ = 70 años.
H1; μ > 70 años.
Regla de decisión:
Si P ≤ 0.05 se rechaza Ho.
Si P > 0.05 No se rechaza Ho.
x́−μ 71.8−70
Cálculos: zR = σ = 8.9 = 2.02
√n √100
Esta es el valor de Z que se utilizará para calcular el valor de P, como es un ensayo unilateral derecho se calculará el área a la derecha
de este valor.
Justificación y decisión:
Como el valor de P es 0.217 y es menor al valor del nivel de significancia de 0.05 por lo
tanto se rechaza Ho. Y se concluye que la edad media de los habitantes es mayor a 70
años.
Relación funcional
Relación estadística Distribuciones bidimensionales
Variables (x, y) están relacionadas
funcionalmente cuando conocida la Variables (x, y) están relacionadas Aquellas en las que a cada individuo le
primera se puede saber con exactitud el estadísticamente cuando conocida la corresponden los valores de dos variables,
valor de la segunda. (Si se deja caer una primera (independiente) se puede estimar (xi, yi). Si representamos gráficamente
piedra, existe una fórmula que permite el valor de la segunda (dependiente). cada par de valores como las coordenadas
calcular la altura en función del tiempo. de un punto, sobre el diagrama puede
h = ½ g t². (Ingresos y gastos. Producción y ventas. trazarse una recta que se ajuste, llamada
Gastos en publicidad y beneficios). recta de regresión.
E. Las notas de 12 alumnos de una clase en Matemáticas y Física son las siguientes:
Alumno 1 2 3 4 5 6 7 8 9 10 11 12
Matemáticas 2 3 4 4 5 6 6 7 7 8 10 10
Física 1 3 2 4 4 4 6 4 6 7 9 10
La recta de regresión es la que mejor se ajusta a la nube de puntos.
Pasa por el punto (, ) llamado centro de gravedad.
La recta de regresión de Y sobre X se utiliza para estimar los La recta de regresión de X sobre Y se utiliza para estimar los
valores de Y a partir de los de la X. valores de X a partir de los de la Y.
σ xy σ xy
(y - ) = 2 (x - ) (x - ) = 2 (y - )
σx σy
La pendiente de la recta es el cociente entre la covarianza y la La pendiente de la recta es el cociente entre la covarianza y la
varianza de la variable X. varianza de la variable Y.
Coeficiente de correlación lineal
covarianza. σxy =
∑ ( xy ) –[() ()] = (431 /12) –[(6)(5)] =5.92
n
2 x2 2
varianzas. σ x =∑ − x́ = (504 /12) –(36) = 6
n
2 y2 2
σ y =∑ − ý = (380 /12) –(25) = 6.66
n
σ xy
(y - ) = (x - )y – 5 = (5.92 / 6) (x-6)
σ 2x
y = 0.987 x – 0.92
σ xy
(x - ) = (y - ) x – 6 = (5.92 / 6.67) (y - 5)
σ 2y
x = 0.889 y – 1.56
E. Cinco niños de 2, 3, 5, 7 y 8 años de edad pesan respectivamente, 14, 20, 32, 42 y 44 kilos.
Hallar la ecuación de la recta de regresión de la edad sobre el peso.
¿Cuál sería el peso aproximado de un niño de seis años? X Y x2 y2 x*y
2 14 4 196 28
Medias = ∑ x / n = 25 /5 = 5 = ∑ y / n = 125 /5 = 30.4 3 20 9 400 60
5 32 25 1024 160
covarianza. σxy =
∑ ( xy ) –[() ()]= (894 /5) –[(5) (30.4)] =26.8 7 42 49 1764 294
N 8 44 64 1936 352
25 152 151 5320 894
2 x2 2 2 y2 2
varianzas. σ x =∑ − x́ = (151 /5) - 25 = 5.2 σ y =∑ − ý = (5320 /5) -30.42 =139.84
N N
σ xy
Recta de regresión Y sobre X. (y - ) = (x - ) x - 5 = 0.192 (y-30) x = 0.192 y – 0.76
σ 2x
σ xy
Recta de regresión X sobre Y. (x - ) = (y - ) y – 30.4 = 5.15 (x - 5) y = 5.15 x + 4.65
σ 2y
N° de clientes 8 7 6 4 2 1
E. Un conjunto de datos bidimensionales (X, Y) tiene coeficiente de Distancia 15 19 25 23 34 25
correlación r =- 0.9,
Las medias de las distribuciones marginales = 1, = 2.
Una de las siguientes cuatro ecuaciones corresponde a la recta de regresión Y sobre X:
Y = -x + 2, 3x - y = 1, 2x + y = 4, y = x + 1. Seleccionar razonadamente esta recta.
Como el coeficiente de correlación lineal es negativo, la pendiente de la recta también será negativa
por tanto, descartamos la 2ª y 4ª.
2º Calculamos la covarianza.
σxy = 431 / 12 – (6 * 5) = 5.92