Portafolio Unidad 4

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 38

UNIDAD IV.

TEORIA DEL MUESTREO PROYECCIÓN


ESTIMACIÓN PROYECCIÓN
DETERMINACIÓN DEL TAMAÑO DE LA
MUESTRA

PORTAFOLIO DE EVIDENCIAS

INGENIERIA EN SISTEMAS COMPUTACIONALES


PROFESOR: Macias Aboytes Jorge
MATERIA: Probabilidad & estadística
Grupo: A
Alumna: Montoya Zuñiga Reyna Sarahi
No. Control: 20030785
7 de junio del 2021
TAREA

TEORÍA DEL MUESTREO


Uno de los propósitos de la estadística inferencial es estimar características poblacionales desconocidas, examinando información
obtenida en una muestra de la población. La muestra debe reflejar características de la población, ya que solo se pueden hacer
observaciones probabilísticas sobre una población cuando se usan muestras representativas de la misma.

I Muestras Aleatorias
Cuando interesa estudiar características de poblaciones grandes, se utiliza el muestreo por muchas razones, entre otras, una
enumeración completa de la población suele ser económicamente imposible.

Algunos usos del muestreo en diversos campos:


Política. Opiniones de votantes para medir el apoyo en las elecciones.
Educación. Evaluaciones para determinar la eficiencia de la enseñanza.
Industria. Muestra de producto de línea de ensamble para controlar calidad.
Medicina. Análisis de sangre prueban la eficacia de un fármaco nuevo.
Agro. La cosecha proyecta los efectos de un fertilizante nuevo.
Gobierno. Opiniones para determinar criterios relacionados con bienestar.

II Errores en el Muestreo
El error muestral se refiere a la variación natural existente entre muestras tomadas de la misma población. Cuando una muestra no es
una copia exacta de la población; aún si se ha tenido gran cuidado para asegurar que dos muestras del mismo tamaño sean
representativas de una cierta población, no esperaríamos que las dos sean idénticas en todos sus detalles. Los errores que surgen al
tomar las muestras no pueden clasificarse como errores muestrales y se denominan errores no muestrales.

El sesgo de las muestras es un tipo de error no muestral, se refiere a una tendencia sistemática inherente a un método de muestreo que
da estimaciones de un parámetro que son, en promedio, menores (sesgo negativo), o mayores (sesgo positivo) que el parámetro real.
El sesgo muestral puede suprimirse, o minimizarse, usando la aleatorización.

La aleatorización se refiere a cualquier proceso de selección de una muestra de la población en el que la selección es imparcial o no
está sesgada; una muestra elegida con procedimientos aleatorios se llama muestra aleatoria. Tipos comunes de muestreo aleatorio:
Simple, Estratificado, Conglomerado y Sistemático.

Una muestra aleatoria simple se elige de tal forma que todos los elementos de la población tengan la misma probabilidad de ser
seleccionados.
E1.1 Suponga que nos interesa elegir una muestra aleatoria de 5 estudiantes en un grupo de 20 alumnos. La combinación 20C5
da el número total de formas de elegir una muestra no ordenada y este resultado es 15504 maneras diferentes de tomar la muestra. Un
procedimiento más simple para elegir una muestra aleatoria sería escribir cada uno de los 20 nombres en pedazos separados de papel,
colocarlos en un recipiente, revolverlos y después extraer cinco papeles al mismo tiempo. Hay muchas situaciones en las cuales el
muestreo aleatorio simple es poco práctico, imposible o no deseado; aunque sería deseable usar muestras aleatorias simples para las
encuestas de opinión sobre productos o sobre elecciones, sería muy costoso o tardado.

El muestreo estratificado requiere de separar a la población según grupos que no se traslapen llamados estratos, y de elegir después una
muestra aleatoria simple en cada estrato. La información de las muestras aleatorias simples de cada estrato constituiría entonces una
muestra global.
E1.2 Suponga interesa obtener una muestra de las opiniones de los profesores de una universidad. Puede ser difícil obtener
una muestra con todos los profesores, así que supongamos que elegimos una muestra aleatoria de cada departamento académico; los
estratos serían los departamentos académicos.

El muestreo por conglomerados requiere de elegir una muestra aleatoria simple de unidades heterogéneas entre sí de la población
llamadas conglomerados. Cada elemento de la población pertenece exactamente a un conglomerado, y los elementos dentro de cada
conglomerado son usualmente heterogéneos o disímiles.
E1.3 Una compañía de televisión por cable piensa abrir una sucursal en la ciudad; la compañía planea un estudio para
determinar el porcentaje de familias que utilizarían sus servicios, la empresa decide seleccionar una parte de la ciudad al azar, la cual
forma un conglomerado. En el muestreo por conglomerados, éstos se forman para representar, tan fielmente como sea posible, a toda
la población; entonces usa una muestra aleatoria simple de conglomerados para estudiarla. Los estudios de instituciones sociales como
iglesias, hospitales, escuelas y prisiones se realizan, generalmente, con base en el muestreo por conglomerados.

El muestreo sistemático es una técnica de muestreo que requiere de una selección aleatoria inicial de observaciones, seguida de otra
selección de observaciones obtenida usando algún sistema o regla.
E1.4 Para obtener una muestra de suscriptores telefónicos en una ciudad, puede obtenerse primero una muestra aleatoria de
los números de las páginas del directorio telefónico; al elegir el cuadragésimo nombre de cada página obtendríamos un muestreo
sistemático, un número al azar entre los primeros 100, entonces seleccionamos los nombres del directorio que corresponden a los
números 40, 140, 240, 340 y así sucesivamente.
Error Muestral
Muestras Error
Cualquier medida conlleva algún error. Si se usa la media muestral () para estimar la media poblacional ordenadas

-µ=Є
(µ), entonces la media muestral, como medida, presentara algún error muestral (Є). Una media muestral  (2,2) 2 2 – 4 = -2
puede pensarse como la suma de la media poblacional µ y el error muestral; Si Є denota el error muestral, (2,4) 3 3 – 4 = -1
entonces:  = µ + Є (2,6) 4 4–4=0
(4,2) 3 3 – 4 = -1
E1.5 Se toman muestras de tamaño 2 de una población consistente en tres valores, 2, 4 y 6, para simular (4,4) 4 4–4=0
una población "grande" de manera que el muestreo pueda realizarse un gran número de veces, éste se hace (4,6) 5 5–4=1
con remplazo, además, se seleccionan muestras ordenadas. La tabla contiene una lista de todas las muestras (6,2) 4 4–4=0
ordenadas de tamaño 2 que es posible seleccionar con remplazo y también contiene las medias y los (6,4) 5 5–4=1
correspondientes errores muestrales. La media  = (2+4+6) /3 = 4. (6,6) 6 6–4=2
Nótese las interesantes relaciones siguientes contenidas en la tabla:
=μ=4
La media de la colección de medias muestrales es 4.
Si µx denota la media de las medias muestrales tenemos: µx = (3+4+3+4+5+5+2+4+6) /9 =4
La suma de los errores muestrales es cero. Є1+Є2+Є3+. . .+Є9 = (-2) +(-1) +0+(-1) +0+1+0+1+2=0
Entonces, si x se usa para estimar la media poblacional El promedio de todos los errores muestrales = 0.

III Distribuciones Muestrales


Las muestras obtenidas de una población son impredecibles. No se esperaría que dos muestras del mismo tamaño y tomadas de la
misma población tenga la misma media muestral o que sean completamente parecidas; puede esperarse que cualquier estadístico, como
la media muestral calculado a partir de las medias en una muestra aleatoria cambie su valor de una muestra a otra, por ello se quiere
estudiar la distribución de todos los valores posibles de un estadístico.
Tales distribuciones serán importantes en el estudio de la estadística inferencial, porque las inferencias sobre las poblaciones se harán
usando estadísticas muestrales, con el análisis de las distribuciones asociadas con los estadísticos muestrales podremos juzgar la
confiabilidad de un estadístico muestral como un instrumento para hacer inferencias sobre un parámetro poblacional desconocido.
Como los valores de un estadístico como x, varían de una muestra aleatoria a otra, se le puede considerar como una variable aleatoria
con su correspondiente distribución de frecuencias.
La distribución de frecuencia de un estadístico muestral se denomina distribución muestral.
En general es la de todos sus valores posibles calculados a partir de muestras del mismo tamaño.

Se han seleccionado muestras aleatorias Se han seleccionado muestras aleatorias


de tamaño x en una población. de tamaño x en una población.
Se calcula la media muestral  para cada Se calcula la desviación estándar s de cada
muestra. una.
La colección de estas medias recibe el nombre de La colección de estas desviaciones se llama;
Distribución muestral de medias Distribución muestral de la desviación
estándar

E1.6 Se eligen muestras ordenadas de tamaño 2, con reemplazo, de valores 0, 2, 4 y 6.


Encuentre: La media poblacional µ, La desviación estándar poblacional σ, La desviación estándar de la distribución muestral de
medias σx, La media de la distribución muestral de medias µx, Grafique las frecuencias para la población y para la distribución de
medias.

0+2+4 +6
Media poblacional es: µ = =3
4

(0−3)2 +(2−3)2 +( 4−3)2+(6−3)2


Desviación estándar poblacional es: σ = √ = 2.236
4

Desviación estándar de la distribución muestral de medias es:


∑ ( x́−μ x)2 f = (0−3)2 1+(1−3)2 2+(2−3)2 3+(3−3)2 4+( 4−3)2 3+(5−3)2 2+(6−3)2 1 = 1.58
σx=
√ ∑f √ 16

σ 2.236
Podemos deducir que: σx = = = 1.58
√n 2

La media de la distribución muestral de medias es: μ x =


∑ x́ f ¿
0∗1+1∗2+2∗3+ 3∗4+ 4∗3+5∗2+ 6∗1
= 48/16 =3
∑f 16

La distribución muestral de medias tiene


una media, una varianza y una desviación
estándar, se puede demostrar que la
distribución muestral de medias tiene
una media igual a la µ poblacional.

Esto es: μx =E () ¿ μ =3.

15 de junio de 2021
ESTADISTICA INFERENCIAL
El objetivo de la estadística inferencial es la estimación, esto es que, mediante el estudio de una muestra, se generalizan las
conclusiones acerca de una población.

La inferencia estadística está concentrada en obtener algún tipo de conclusión acerca de uno o más parámetros (características
poblacionales).
Los estadísticos varían dentro de sus distribuciones muestrales, mientras menor sea el error estándar de un estadístico, más cercanos
serán unos de otros sus valores.

Procedimientos de estimación;
Estimación puntual
Estimación por intervalo.

Estimación Puntual

Una estimación puntual es un valor único estadístico, se usa para estimar un parámetro. El objetivo de la estimación puntual es
seleccionar sólo un número, basados en la muestra, que represente el valor más razonable del parámetro.
E1: Una muestra presenta las siguientes observaciones; 44.2, 43.9, 44.7, 44.2, 44.0, 43.8, 44.6, 43.1.
Estimación puntual de la media; =
∑ Xi = (44.2 + 43.9 + … +43.1) / 8 = 352.5 / 8 = 44.0625
n
El valor calculado de la media muestral es  = 44.06.
Es razonable considerar 44.06 como el valor más adecuado de media (μ)?

Estimador puntual de la varianza; s2 =∑ ¿¿ ¿ =

((44.2-44.06)2 +(43.9–44.06)2 +…+(43.1 – 44.06)2) / (8 – 1) =0.251

Una estimación puntual de un parámetro ϴ es un sólo número que se puede considerar como el valor más razonable de ϴ, se obtiene al
seleccionar una estadística apropiada y calcular su valor a partir de datos de la muestra dada, la estadística seleccionada se llama
estimador puntual de ϴ.
El símbolo ō se utiliza para representar el estimador de ϴ y la estimación puntual resultante de una muestra dada. Entonces µ = , se
lee "el estimador puntual de μ es la media muestral ". El enunciado "la estimación puntual de la media poblacional es 44.0625" se
escribe en forma abreviada µ = 44.0625
Representamos con μ (media poblacional) el verdadero promedio, Podría tomarse una muestra de n observaciones para determinar 
(media muestral), y esta podría emplearse para sacar una conclusión acerca del valor de μ. De forma similar, si σ 2 es la varianza de la
distribución, el valor de la varianza muestral s2 se podría utilizar para inferir algo acerca de σ2.
En el mejor de los casos, se encontrará un estimador ō para el cual ō = Ɵ. Sin embargo, ō es una función de las Xi muestrales, por lo
que en sí misma una variable aleatoria. ō = Ɵ + error de estimación, entonces el estimador preciso sería uno que produzca sólo
pequeñas diferencias de estimación, de modo que los valores estimados se acerquen al valor verdadero.

Propiedades de un Buen Estimador

 Insesgado. ō es estimador insesgado de ϴ, si ō=ϴ, para todo valor de ϴ.


 Eficiente o con varianza mínima. Aquel con menor error estándar. Variabilidad es la distancia entre la estimación y el valor del
parámetro.
 Coherente. Es coherente y confiable si tenemos muestras grandes.
 Suficiente. Sí utiliza la cantidad de información contenida en la muestra de tal modo que ningún otro estimador podría
extraer información adicional de la muestra sobre el parámetro que se está estimando.

La variabilidad de la media se puede medir por su desviación estándar σ, esta medida se conoce como el error de estimación y tiende
a disminuir cuando aumenta el tamaño de la muestra.
σ = σ/√n sí conocemos la desviación estándar de la población,
σ = s/√n sí usamos la desviación estándar de la muestra.
n: número de observaciones
Estimación por Intervalos
Esta es una construcción repetida de intervalos de confianza de 95% y se observa que de 11 intervalos calculados sólo dos intervalos
no contienen el valor de μ.
De acuerdo con esta interpretación, el IC no es un enunciado sobre cualquier intervalo en particular, se refiere a lo que sucedería si se
tuvieran que construir un gran número de intervalos semejantes.
Un IC = 95% implica la probabilidad de que las muestras darían lugar a un intervalo del parámetro que se
esté estimando, y sólo 5% de las muestras producirá un intervalo erróneo. Una interpretación correcta radica
en la frecuencia: es decir, si el experimento donde A está definido se realiza una y otra vez, A ocurrirá 95%
de las veces.

Distribución muestral de la media


Ejemplo. Una muestra aleatoria de 30 observaciones; 163, 171, 171, 167, 164, 160, 153, 176, 162, 171, 166,164, 169, 160, 151, 155,
156, 150, 162, 170, 164, 160, 158, 159, 157, 159, 156, 162, 159, 174. determinar su media, desviación y error de estimación.

El estimador puntual de la media está dado por la estadística =


∑ xi =162.3
n
El estimador puntual de la desviación estándar está dado por la estadística s= √∑ ¿ ¿ ¿ ¿= 6.68
Cuando se desconoce σ lo correcto es utilizar la distribución "t" de student, si la población de donde provienen los datos es normal. En caso de
tamaño de muestra grande, se iguala la desviación de la muestra y de la población (s=σ).

σ s
La desviación estándar de la media  es σ = σ = = 1.2197.
√n √n
El error estándar es, el rango de valores que caen dentro de una desviación estándar en la curva normal del error, es decir que hay una
probabilidad de que el valor real esté dentro del rango reportado.
Podemos construir el intervalo dentro del cual encontramos el valor de la media.
Entonces, la media de la población (μ) debe estar en el intervalo estimado por la media de la muestra:

σ Límites de confianza para la estimación


 ± Zα 1-α α Z α/2 Intervalo LIC LSC
2 √n
σ σ σ
0.9000 0.1000 1.645  ± 1.645  - 1.645  + 1 .645
Con un 90% de confianza √n √n √n
162.3 ± 1.645 * 1.2197 → 160.29 … 164.31 σ σ σ
0.9500 0.0500 1.96  ± 1.96  - 1.96  + 1.96
Con un 95% de confianza √n √n √n
162.3 ± 1.960 * 1.2197 → 157.95 … 166.65 σ σ σ
Cota de error 2.00  ± 2.00  - 2.00  + 2.00
Con un 99% de confianza √n √n √n
162.3 ± 2.580 * 1.2197 → 153,99 … 170.61 σ σ σ
0.9900 0.0100 2.58  ± 2.58  - 2.58  + 2.58
√n √n √n
Ejemplo. La concentración promedio de zinc al analizar 36 muestras es de 2.6 gr/ml., con
desviación estándar de 0.3 gr/ml. Encuentre los intervalos de confianza de 95% y
99% para la concentración media de zinc. =2.6.

zσ (1.96)(0.3)
Z95% =1.96. μ=± = 2.6 ± = 2.50 … 2.70
√n √36
zσ (2.58)(0.3)
Z99% = 2.58 μ=± = 2.6± = 2.47… 2.73 el intervalo será más amplio:
√n √36
El IC proporciona la precisión de nuestra estimación. Si μ es realmente el valor central de intervalo, entonces  estima μ sin error. Sin
embargo,  no será exactamente igual a μ y la estimación puntual es errónea.
σ
La confianza de que esta diferencia no excederá el error de estimación = z
√n

Ejemplo Con una muestra de 48 observaciones, se obtuvo una resistencia promedio de 17.17 unidades, la desviación estándar fue
3.38 unidades. Utilice un nivel de confianza inferior del 95% para estimar la μ real.

Este ejercicio nos presenta dos situaciones diferentes; Primera, desconoce σ de la población.
Segunda, nos piden un intervalo de confianza unilateral.

El primer caso ya se había comentado y se solucionará utilizando la desviación estándar de


la muestra como estimación puntual de sigma.

Para el intervalo de confianza unilateral, se cargará el área bajo la curva hacia un solo lado:
16.39 17.17
zσ 1.645∗3.38
- = 17.17 - = 16.39
√n √ 48
Con un nivel de confianza de 95%, el valor de la μ está en el intervalo (16.39, ∞).

Estimación de una Proporción

El estimador puntual de la proporción P está dado por la estadística P = x / n donde x representa el número de éxitos en n
pruebas. Si no se espera que la proporción P desconocida esté demasiado cerca de 0 o de 1, se puede establecer un intervalo de
confianza para P al considerar la distribución muestral de proporciones.
p−P
pq
Z=
√ pq
n
Al despejar P P = p ± z
√ n

Se necesita el valor del parámetro P y es precisamente lo que queremos estimar, por lo que lo sustituiremos por la proporción de la
muestra p siempre que el tamaño de muestra sea grande.
(Cuando n es pequeña y la proporción P cercana a 0 o a 1, el procedimiento del IC que se establece aquí no es confiable, se debe requerir que np o
nq sea mayor o igual a 5.)

El error de estimación será la diferencia absoluta entre p y P, y podemos tener el nivel de confianza de Pq
que esta diferencia no excederá el error de estimación → z
√ n
Ejemplo Un fabricante de reproductores de cds utiliza un conjunto de pruebas amplias para evaluar la función eléctrica de su
producto. Todos los reproductores deben pasar todas las pruebas. Una muestra de 500 reproductores tiene como resultado 15 que fallan
en una o más pruebas.
Encuentre un intervalo de confianza de 90% para la proporción de los reproductores de la población que no pasan todas las pruebas.

n = 500 p = 15/500 = 0.03 Z90% = 1.645

Pq 0.03∗0.97
P=p±z
√ n
= 0.03 ± (1.645)
√ 500
= 0.0237 < P < 0.0376

Con un nivel de confianza del 90%, la proporción de reproductores defectuosos que no pasan la prueba en esa población está entre
0.0237 y 0.0376.

Estimación de la Diferencia entre dos Medias

Se tienen dos poblaciones con medias μ 1, μ2 y varianzas σ 12, σ 22, un estimador puntual de la diferencia entre μ 1 y μ2 está dado por la
estadística; 1 - 2.
Para obtener una estimación puntual de μ1 - μ2, se seleccionan dos muestras aleatorias independientes, una de cada población, de
tamaño n1 y n2, se calcula la diferencia 1 - 2, de las medias muestrales.
2 2
μ1−¿ μ ¿= ¿ ¿) ± σ 1 + σ 2 Z
Z =( x́ ¿ ¿ 1− x́ 2)−¿ ¿ ¿ Al despejar se tiene: 2

√n1 n2

En el caso en que se desconozcan las varianzas de la población y los tamaños de muestra sean mayores a 30, se podrá utilizar la
varianza de la muestra como una estimación puntual.

Ejemplo Se compara el rendimiento de gasolina en millas por galón en dos tipos de motores, A y B. Se realizan 50 experimentos
con el motor A y 75 con el motor B. El rendimiento promedio para el motor A es de 36 m/g, para el motor B es 42 m/g. Encuentre un
intervalo de confianza de 96% sobre la diferencia promedio real para los motores A y B. Suponga desviaciones estándar 6 y 8 para los
motores A y B respectivamente. Es deseable que la diferencia de medias sea positiva, se recomienda restar a la media mayor la media
menor. En este caso será la media del motor B menos la media del motor A. Z para nivel de confianza del 96% es de 2.05.
σ 2a σ 2b 36 64
µB - µA = b - a ± z
√ + = (42 – 36) ± 2.05
na nb
+
50 75 √ = 3.43<(µB-µA) <8.57

Con un nivel de confianza del 96% la diferencia del rendimiento promedio esta entre 3.43 y 8.57 m/g a favor del motor B, da mejor
rendimiento que el motor A, ya que los valores del intervalo son positivos.

Estimación de la Diferencia de dos Proporciones

Si se tienen dos poblaciones con proporciones P 1 y P2, un estimador puntual de la diferencia entre P 1 y P2 está dado por la estadística. p1
- p2
Se utilizará distribución muestral de diferencia de proporciones. Z =( p ¿ ¿ 1− p2 )−¿ ¿ ¿

Despejando P1-P2, nos queda las dos proporciones poblacionales que queremos estimar, se utilizarán las proporciones de la muestra
como estimadores puntuales:
p1q1 p2q2
P1 - P2 = (p1 - p2) ± z
n1
+

n2

Ejemplo Cambio en un proceso de fabricación de partes. Se encuentra que 75 de 1500 artículos del procedimiento actual son
defectuosos y 80 de 2000 artículos del procedimiento nuevo también lo son, encuentre un intervalo de confianza de 90% para la
diferencia real en la fracción de defectuosos entre procesos. Sean P 1 y P2 proporciones reales de defectuosos para los procesos actual y
nuevo.
p1 = 75/1500 = 0.05 p2 = 80/2000 = 0.04 Z (90%) = 1.645.

p1q1 p2q2 ( 0.05 ) (0.95) (0.04 )( 0.96)


P1 - P2 = (p1 - p2) ± z
√ n1
+
n2
= (0.05 - 0 .04) ±1.645
√ 1500
+
2000
= -0.0017<P1-P2<0.021

Como el intervalo contiene el valor de cero, no hay razón para creer que el nuevo procedimiento producirá una disminución
significativa en la proporción de artículos defectuosos comparada con el método existente.
Ejemplo. Un artículo relacionado con la salud, reporta datos sobre la incidencia de disfunciones en recién nacidos con madres fumadoras
y no fumadoras:
P1 = proporción de nacimientos donde aparecen disfunciones entre fumadoras. Fuma No Fuma
P2=proporción de nacimientos donde aparecen disfunciones entre no fumadoras. Muestra 1246 11178
Encuentre el intervalo de confianza del 99% para la diferencia de proporciones. disfunciones 42 294
El valor de z para un 99% de confianza es de 2.58. Proporción 0.0337 0.0263

p1q1 p2q2
P1 - P2 = (p1 - p2) ± z

n1
+
n2
( 0.0337 ) (0.9663) (0.0263)(.9737)
= (0.0337-0.0263) ± 2.58
√ 1246
+
11178
= -0.0064<P1 - P2<0.0212

Este intervalo es bastante angosto, lo cual sugiere que P1-P2 ha sido estimado de manera precisa.

Ejemplo. Los hombres y mujeres difieren en opinión sobre la promulgación de la pena de muerte para culpables de asesinato. Se
cree que el 12% de los hombres están a favor de la pena de muerte, mientras que sólo 10% de las mujeres lo están. Se seleccionan dos
muestras de 100 hombres y 100 mujeres, determine la probabilidad de que el porcentaje de hombres a favor sea al menos 3% mayor
que el de las mujeres.
PH =0.12, PM =0.10, nH =100, nM =100, p (pH-pM ≥ 0.03) =x

(0.25)−(0.12−0.10)
Z =( p ¿ ¿ H− p M )−¿ ¿ ¿ = ( 0.12)(0.88) (0.10)(0.90) = 0.11

100
+
100
Se está incluyendo el factor de corrección de 0.5 por ser una distribución binomial y se está utilizando la distribución normal.

Se concluye que la probabilidad de que el porcentaje de hombres a favor de la pena de muerte, al menos 3% mayor que el de mujeres
es de 0.4562
Ejemplo. Se sabe que 3 de cada 6 productos fabricados por la máquina1 son defectuosos y que 2 de cada 5 objetos fabricados por
la máquina2 son defectuosos; se toman muestras de 120 objetos de cada máquina, determine la probabilidad de que la proporción de
artículos defectuosos:
a. de la máquina 2 rebase a la máquina1 en por lo menos 0.10
b. de la máquina 1 rebase a la máquina2 en por lo menos 0.15

P1 =3/6 =0.5 P2 =2/5 =0.4 n1 = n2 = 120

a. p (p2-p1 ≥ 0.10) = x

(0.0958)−(−0.10)
Z = ( p ¿ ¿ 2− p1 )−¿ ¿ ¿ = ( 0.50)(0.50) (0.40)(0.60) = 3.06
√ 120
+
120

Otra manera de hacer este ejercicio es poner P1-P2:

−0.0958−0.10 ¿ ¿
Z = ( p ¿ ¿ 1− p2 )−¿ ¿ ¿ = (0.50)(0.50) ( 0.40)( 0.60) = - 3.06
√ 120
+
120

La probabilidad de que exista una diferencia de proporción de artículos defectuosos de por lo menos 10% a favor de la máquina 2 es de
0.0011.

b. p (p1-p2 ≥ 0.15) =x

0.1458−0.10 ¿ ¿
Z = ( p ¿ ¿ 1− p2 )−¿ ¿ ¿ = (0.50)(0.50) (0.40)( 0.60) = 0.
√ 120
+
120
21 de junio del 2021
Cálculo del Tamaño de la Muestra para Estimar una Media

¿Qué tan grande debe ser una muestra si la media muestral se va a usar para estimar la media poblacional? La respuesta depende del error estándar
de la media, si este fuera cero, entonces se necesitaría una sola media que será igual necesariamente a la media poblacional desconocida μ, porque
σ = 0. Este caso extremo no se encuentra en la práctica, pero refuerza el hecho de que mientras menor sea el error estándar de la media, menor es el
tamaño de muestra necesario para lograr un cierto grado de precisión.

Se estableció que una forma de disminuir el error de estimación es aumentar el tamaño de la muestra, si éste incluye el total de la población,
entonces │ x́ –μ│ sería igual a cero. Con esto en mente, parece razonable que para un nivel de confianza fijo, sea posible determinar un tamaño de
la muestra tal que el error de estimación sea tan pequeño como queramos, para ser más preciso, dado un nivel de confianza y un error fijo de
estimación ϵ, se puede escoger un tamaño de muestra n tal que P (│ x́ –μ│<ϵ) = Nivel de confianza.


Con el propósito de determinar n. El error de estimación está dado por: ϵ=
√n
2

Si se despeja n de la ecuación resultante, obtenemos: n= ( )ϵ

Como n debe de ser un número entero, redondeamos hacia arriba todos los resultados zσ N −n
fraccionarios. En el caso de que se tenga una población finita y un muestreo sin
reemplazo, el error de estimación se convierte en:
ϵ=
√n √ N −1
z2 σ 2 N
Se eleva al cuadrado ambos lados y se despeja la n: n=
ϵ 2 ( N −1 ) + z 2 σ 2

Ejemplo: Se quiere estimar el peso promedio de los ciervos. Un estudio de diez ciervos mostró que la desviación estándar de sus pesos es de 12.2
libras. ¿Qué tan grande debe ser una muestra para que se tenga el 95% de confianza de que el error de estimación es a lo más de 4 libras?
2 En consecuencia, si el tamaño de la muestra es 36, se puede tener un
zσ 2 ( 1.96 ) ( 12.2 )
n= ( ) (
ϵ
=
4 )
= 35.736 ≈ 36 95% de confianza en que μ difiere en menos de 4 libras de .
TAMAÑO DE LA MUESTRA PARA ESTIMAR LA MEDIA CON MUESTREO SIMPLE

Para estimar la media poblacional utilizando una variable aleatoria continua se utiliza la siguiente relación:
n = tamaño de la muestra.  
NS Z2 2 N = tamaño de la población.
α/ 2
n= 2 2 2
Zα/2 = variable estandarizada de distribución normal.
N d +S Z α /2 S² = varianza de la muestra,
d (e) = precisión del muestreo.
Donde:   α = Nivel de significancia.
Generalmente es necesario hacer un premuestreo de 30 elementos, con el objetivo de hacer una primera estimación de S².
Cálculo del Tamaño de la Muestra para Estimar una Proporción

Se desea saber que tan grande se requiere que sea una muestra pq
para asegurar que el error al estimar P sea menor que una cantidad
específicaϵ
ϵ =z ∑
√ n
z2 pq
Elevando al cuadrado la ecuación, se despeja n y nos queda: n =
∈2

Esta fórmula está algo engañosa, pues debemos utilizar p para determinar el tamaño de la muestra, pero p se calcula a partir de la muestra.
Existen ocasiones en las cuales se tiene una idea del comportamiento de la proporción de la población y ese valor se puede sustituir en la fórmula,
pero si no se sabe nada referente a esa proporción entonces se tienen dos opciones:
1 Tomar una muestra preliminar mayor o igual a 30 para proporcionar una estimación de P, luego con el uso de la fórmula se podría determinar
aproximadamente el número de observaciones necesarias para proporcionar el grado de precisión que se desea.
2 Tomar el valor de p como 0.5 ya que sustituyendo este en la fórmula se obtiene el tamaño de muestra mayor posible.
Ejemplo:Se desconoce el valor de P, por lo que se utilizarán diferentes valores y se sustituirán en la fórmula para observar los diferentes tamaños de
muestras. El nivel de confianza que se utilizará es del 95% con un error de estimación de 0.30.
Como se puede observar en la tabla cuando P vale 0.5 el tamaño de la muestra alcanza su máximo valor.
En el caso de que se tenga una población finita y un muestreo sin reemplazo.

El error de estimación se convierte en:


pq N −n
ϵ =z ∑
√ √n N−1

z 2 pqN
despeja n; n= 2 2
∈ ( N−1 ) + z pq

Cálculo del Tamaño de la Muestra para Estimar la Diferencia de Medias

La distribución muestral de diferencia de medias tiene que el error está dado por:

σ 21 σ 21
ϵ=z
√ +
n1 n2

Esta ecuación puede presentar dos casos:


 Tamaños de muestra iguales.
 Tamaños de muestra diferentes.

Para el primer caso no se tiene ningún problema, se eleva al z2 (σ 21+ σ 22 )


cuadrado la ecuación y se despeja n ya que n1 es igual a n2. n=
∈2

Para el segundo caso se pondrá una n en función de la otra. Este z2 (σ 21+ kσ 22 )


caso se utiliza cuando las poblaciones son de diferente tamaño y se n2 =
sabe que una es K veces mayor que la otra. k ∈2

Se quiere comparar la efectividad de métodos de entrenamiento para una operación de montaje. Se divide el número de operarios en dos
Ejemplo:
grupos iguales: método 1, y método 2. Cada uno realizará la operación de montaje y se registrará el tiempo de trabajo. Se espera que las
mediciones para ambos grupos tengan una desviación estándar aproximadamente de 2 minutos. Si se desea que la estimación de la diferencia en
tiempo medio de montaje sea correcta hasta por un minuto, con una probabilidad igual a 0.95, ¿cuántos trabajadores se tienen que incluir en cada
grupo de entrenamiento?
z2 (σ 21+ σ 22 ) (1.96)2 (22 +22)
n= = = 31empleados debe contener cada grupo.
∈2 12

Cálculo del Tamaño de la Muestra para Estimar la Diferencia de Proporciones

La distribución muestral de diferencia de proporciones tiene que error está dado por:

p1 q p1 q
ϵ=z
√ n1
1
+
n2
2

Esta ecuación puede presentar dos casos:


 Tamaños de muestra iguales.
 Tamaños de muestra diferentes.

Para el primer caso no se tiene ningún problema, se eleva al z2 ( p1 q1 + p2 q2 )


cuadrado la ecuación y se despeja n ya que n1 es igual a n2. n=
∈2

sabe que una es K veces mayor que la otra.


Para el segundo caso se pondrá una n en función de la otra. Este z2 ( p1 q1 + k p2 q 2)
caso se utiliza cuando las poblaciones son de diferente tamaño y se n2 =
k ∈2

Ejemplo:Se muestrean dos mercados, I y II, a fin de comparar las proporciones de consumidores que prefieren la comida congelada de la compañía
con los productos de sus competidores. No hay información previa acerca de la magnitud de las proporciones P 1 y P2. Si la empresa de productos
alimenticios quiere estimar la diferencia dentro de 0.04, con una probabilidad de 0.95, ¿cuántos consumidores habrá que muestrear en cada
mercado?

z2 ( p1 q1 + p2 q2 ) ( 1.96 )2 (0.5)(0.5)+(0.5)(0.5)
n= = = 1200.5
∈2 0.04 2

Se tendrá que realizar encuestas a 1201 consumidores de cada mercado para tener una estimación con una confianza del 95% y un error máximo de
0.04.
TAMAÑO DE LA MUESTRA A la hora de determinar el tamaño que debe alcanzar una muestra hay que tomar en cuenta varios factores: el tipo de
muestreo, el parámetro a estimar, el error muestral admisible, la varianza poblacional y el nivel de confianza. Por ello antes de presentar algunos casos sencillos
de cálculo del tamaño muestral delimitemos estos factores.

Para calcular el tamaño de una muestra hay que tomar en cuenta tres factores:
1. El % de confianza con el cual se quiere generalizar los datos desde la muestra.
2. El % de error que se pretende aceptar al momento de hacer la generalización.
3. El nivel de variabilidad que se calcula para comprobar la hipótesis.

La confianza o el % de confianza es el % de seguridad que existe para generalizar los resultados obtenidos. Esto quiere decir que un % del 100% equivale a decir
que no existe ninguna duda para generalizar tales resultados, pero también implica estudiar a la totalidad de los casos de la población. Para evitar un costo muy
alto para el estudio o debido a que en ocasiones llega a ser prácticamente imposible el estudio de todos los casos, entonces se busca un porcentaje de confianza
menor.
Comúnmente en las investigaciones sociales se busca un 95%.

El error o % de error equivale a elegir una probabilidad de aceptar una hipótesis que sea falsa como si fuera verdadera, o la inversa: rechazar a hipótesis verdadera
por considerarla falsa. Al igual que en el caso de la confianza, si se quiere eliminar el riesgo del error y considerarlo como 0%, entonces la muestra es del mismo
tamaño que la población, por lo que conviene correr un cierto riesgo de equivocarse.
Comúnmente se aceptan entre el 4% y el 6% como error, no son complementarios la confianza y el error.

Al utilizar muestras en lugar de universos tenemos grandes ventajas, algunas de las más importantes son:
· El costo se reduce, pues los gastos serán únicamente los ocasionados por una parte del universo (muestra tomada) y no por la totalidad de él.
· Si la muestra es representativa, las deducciones resultantes sobre el universo serán confiables.
· Como solamente se estudia una parte del universo, la información obtenida se realiza en menor tiempo.

Diferentes niveles de confianza utilizados en la práctica

Nivel de Confianza 99.73% 99% 98% 96% 95.45% 95% 90% 68.27% 50%
Valores de Z 3.00 2.58 2.33 2.05 2.00 1.96 1.645 1.00 0.675
obtener el tamaño de la muestra?
1. Determinar el nivel de confianza.
2. Evaluar la probabilidad a favor (p) de que suceda un evento o situación esperada.
3. Evaluar la probabilidad en contra (q) de que suceda en un evento o situación esperada.
4. Determinar el error de estimación (e).
5.- Se elige la fórmula a utilizar para calcular el tamaño de la muestra.

Para determinar el tamaño de muestra para estimar µ con un error máximo permisible є y conocida la varianza poblacional (σ2) podemos utilizar la formula:
n = (σ Zα/2 / є)2
є es el error máximo prefijado y está dado por la expresión є = Zα/2 (σ / √n)

Para el nivel de confianza 1 – α y constituye una medida de la precisión de la estimación

Ejemplo: De una población de 1176 adolescentes de una ciudad X se desea conocer la aceptación por los programas humorísticos televisivos y para ello
se desea tomar una muestra por lo que se necesita saber la cantidad de adolescentes que deben entrevistar para tener una información adecuada con error estándar
menor de 0.015 al 90 % de confiabilidad.

N = 1 176
e = 0.015
σ2 = є2 = (0.015)2 = 0.000225 n´= S2 / σ2 = 0.09/0.000225 = 400
2=
S pq = (0.9)*(0.1) = 0.09n = n´/1+ (n´/N) = 400/1+(400/1176) = 298.49

Es decir para realizar la investigación se necesita una muestra de al menos 298 adolescentes.

Cálculo del tamaño de la muestra

A la hora de determinar el tamaño que debe alcanzar una muestra hay que tomar en cuenta varios factores: el tipo de muestreo, el parámetro a estimar, el error
muestral admisible, la varianza poblacional y el nivel de confianza. Por ello antes de presentar algunos casos sencillos de cálculo del tamaño muestral
delimitemos estos factores.

Parámetro. Son las medidas que se obtienen sobre la población.


Estadístico. medidas sobre una muestra y por lo tanto una estimación de los parámetros.
Error Muestral, de estimación o standard. Es la diferencia entre un estadístico y su parámetro correspondiente. Es una medida de la variabilidad de las
estimaciones de muestras repetidas en torno al valor de la población, nos da una noción clara de hasta dónde y con qué probabilidad una estimación basada en una
muestra se aleja del valor que se hubiera obtenido por medio de un censo completo. Siempre se comete un error, pero la naturaleza de la investigación nos
indicará hasta qué medida podemos cometerlo (los resultados se someten a error muestral e intervalos de confianza que varían muestra a muestra). Varía según se
calcule al principio o al final. Un estadístico será más preciso en cuanto y tanto su error es más pequeño. Podríamos decir que es la desviación de la distribución
muestral de un estadístico y su fiabilidad.
Nivel de Confianza. Probabilidad de que la estimación efectuada se ajuste a la realidad. Cualquier información que queremos recoger está distribuida según una
ley de probabilidad (Gauss o Student), así llamamos nivel de confianza a la probabilidad de que el intervalo construido en torno a un estadístico capte el
verdadero valor del parámetro.
Varianza Poblacional. Cuando una población es más homogénea la varianza es menor y el número de entrevistas necesarias para construir un modelo reducido del
universo, o de la población, será más pequeño. Generalmente es un valor desconocido y hay que estimarlo a partir de datos de estudios previos.
Tamaño de muestra para estimar la media de la población
Veamos los pasos necesarios para determinar el tamaño de una muestra empleando el muestreo aleatorio simple. Para ello es necesario partir de dos supuestos: en
primer lugar el nivel de confianza al que queremos trabajar; en segundo lugar, cual es el error máximo que estamos dispuestos a admitir en nuestra estimación.
Así pues los pasos a seguir son:
Veamos los pasos necesarios para determinar el tamaño de una muestra empleando el muestreo aleatorio simple. Para ello es necesario partir de dos supuestos: en
primer lugar el nivel de confianza al que queremos trabajar; en segundo lugar, cual es el error máximo que estamos dispuestos a admitir en nuestra estimación.
Así pues los pasos a seguir son:

1.- Obtener el tamaño muestral imaginando que N

(Zα/2)( σ2) Donde:


n∞= Zα/2 : z correspondiente al nivel de confianza elegido
e2 σ2: Varianza poblacional
e: error máximo

2.- Comprobar si se cumple N > n∞ (n∞ - 1)

Si esta condición se cumple el proceso termina aquí, y ese es el tamaño adecuado que debemos muestrear.
Si no se cumple, pasamos a una tercera fase:
3.- Obtener el tamaño de la muestra según la siguiente fórmula:

n∞
n=
1+ n∞/N

Veamos un ejemplo: La Consejería de Trabajo planea un estudio con el interés de conocer el promedio de horas semanales trabajadas por las mujeres del servicio
doméstico. La muestra será extraída de una población de 10000 mujeres que figuran en los registros de la Seguridad Social y de las cuales se conoce a través de
un estudio piloto que su varianza es de 9.648. Trabajando con un nivel de confianza de 0.95 y estando dispuestos a admitir un error máximo de 0,1, ¿cuál debe ser
el tamaño muestral que Empleemos?.
Buscamos en las tablas de la curva normal el valor de Z α/2  que corresponde con el nivel de confianza elegido: = Zα/2  ± 1.96 y seguimos los pasos propuestos
arriba.
1.
(1.96)2 (9.648)
n∞= = 3706
(0.1)2

2.- Comprobamos que no se cumple, pues en este caso 10000 < 3706 (3706 - 1); 10000 < 13730730
3.-
n∞ 3706
n= = = 2704
1+ n∞/N 1+ (3706/10000)
Tamaño de muestra para estimar la proporción de la población Para calcular el tamaño de muestra para la estimación de proporciones
poblaciones hemos de tener en cuenta los mismos factores que en el caso de la media. La fórmula que nos permitirá determinar el tamaño muestral es la siguiente:

Donde: Zα/2 : z correspondiente al nivel de confianza elegido


N Z2α/2 P (1-P) P: proporción de una categoría de la variable
n=
(N-1)e2+ Z2α/2 P (1-P) e: error máximo
N: tamaño de la población

Siguiendo con el estudio planteado en el punto anterior, supongamos que tratamos de estimar la proporción de mujeres que trabajan diariamente 10 horas o más.
De un estudio piloto se dedujo que P=0.30, fijamos el nivel de confianza en 0.95 y el error máximo 0.02.

POBLACIÓN Llamado también universo o colectivo, es el conjunto de todos los elementos que tienen una característica común. Una población puede ser
finita o infinita.

Es población finita cuando está delimitada y conocemos el número de elementos que la integran.

Es infinita cuando a pesar de estar delimitada, se desconoce el número de elementos.

MUESTRA La muestra es un subconjunto de la población. Sus principales características:

Representativa.- Se refiere a que todos y cada uno de los elementos de la población tengan la misma oportunidad de ser tomados en cuenta para formar dicha
muestra.

Adecuada y válida.- Se refiere a que la muestra debe ser obtenida de tal manera que permita establecer un mínimo de error posible respecto de la población.

Para que una muestra sea fiable, es necesario que su tamaño sea obtenido mediante procesos que eliminen la incidencia del error.

ELEMENTO Unidad mínima que compone una población, puede ser una entidad simple (una persona) o una entidad compleja (una familia), y se denomina
unidad investigativa.

2) FÓRMULA PARA CALCULAR EL TAMAÑO DE LA MUESTRA


La fórmula del tamaño de la muestra se obtiene de la fórmula para calcular la estimación del intervalo de
confianza para la media, la cual es:

Donde el error de estimación es:

De esta fórmula se despeja n, para lo cual se sigue el siguiente proceso:

Elevando al cuadrado a ambos miembros se obtiene:

Multiplicando fracciones:

Eliminando denominadores:

Eliminando paréntesis:

Transponiendo n a la izquierda:

Factor común de n:

Despejando n:
Ordenando se obtiene la fórmula para calcular el tamaño de la muestra:

Dónde:
n = el tamaño de la muestra.
N = tamaño de la población.
σ = Desviación estándar de la población (generalmente suele utilizarse un valor constante de 0,5).
Z = Valor obtenido mediante niveles de confianza.
e = Límite aceptable de error muestral (suele utilizarse un valor que varía entre el 1% y 9%).

22 de junio de 2021
PRUEBA DE HIPÓTESIS
Una hipótesis estadística es una proposición o supuesto sobre los parámetros de una o más poblaciones. Es importante recordar que
las hipótesis siempre son proposiciones sobre la población bajo estudio, no proposiciones sobre la muestra. Por lo general, el valor del
parámetro de la población especificado en la hipótesis nula se determina en una de tres maneras diferentes:

Puede ser resultado de la experiencia o conocimiento del proceso;


El objetivo de la prueba es determinar cambios en el valor del parámetro.
Se obtiene a partir de alguna teoría o modelo que se relaciona con el proceso.
El objetivo de la prueba es verificar la teoría o modelo.
Cuando el valor del parámetro proviene de consideraciones externas, (especificaciones de diseño, ingeniería, obligaciones contractuales,
etc.).
El objetivo de la prueba es probar el cumplimiento de las especificaciones.

La hipótesis nula, Ho, Afirmación sobre una o más características de población que se supone cierta.

La hipótesis alternativa, H1, Afirmación contradictoria a Ho, y ésta es la hipótesis del investigador.

La hipótesis nula se rechaza en favor de la hipótesis alternativa, sólo si la evidencia muestral sugiere que H o es falsa. Si la muestra no
contradice a Ho, se continúa creyendo en la validez de la hipótesis nula. Entonces, las conclusiones posibles de un análisis de prueba de
hipótesis son rechazar Ho o no rechazar Ho.

Suponga que se tiene interés en la rapidez de combustión de un agente propulsor sólido utilizado en los sistemas de salida de
emergencia para la tripulación de aeronaves. El interés se centra sobre la rapidez de combustión promedio. De manera específica, el
interés recae en decir si la rapidez de combustión promedio es o no 50 cm/s. Esto puede expresarse de manera formal como:
Ho; μ = 50 cm/s (hipótesis nula)
H1; μ ≠ 50 cm/s (hipótesis alterna)

La hipótesis alterna específica valores de μ que pueden ser mayores o menores que 50 cm/s, lo que se conoce como hipótesis alterna
bilateral.

En algunas situaciones, lo que se desea es formular una hipótesis alterna unilateral, como en
Ho; μ = 50 cm/s Ho; μ = 50 cm/s
H1; μ < 50 cm/s o H1; μ > 50 cm/s
Prueba de una Hipótesis Estadística

La hipótesis nula es que la rapidez promedio de combustión es 50 cm/s, mientras que la hipótesis alterna es que ésta no es igual a 50
cm/s.

Esto es, se desea probar: Ho; μ = 50 cm/s Contra: H1; μ ≠ 50 cm/s

Suponga realiza una prueba sobre una muestra de 10 piezas, y que se observa cual es la rapidez de combustión promedio muestral.
La media muestral es un estimador de la media verdadera de la población.

Un valor de la media muestral  próximo al valor hipotético μ = 50 cm/s es evidencia de que el verdadero valor de la media μ es 50
cm/s; esto es, tal evidencia apoya la hipótesis nula H o. 48.5 ≤  ≤ 51.5, entonces no se rechaza la hipótesis nula H o; μ = 50 cm/s. Por
otra parte, una media muestral diferente de 50 cm/s constituye una evidencia que apoya la hipótesis alternativa H 1. La media muestral
puede tomar valores diferentes.
Si  < 48.5 o  > 51.5, entonces se acepta la hipótesis alternativa H1; μ ≠ 50 cm/s.

Los valores de  menores que 48.5 o mayores que 51.5 constituyen la región crítica de la
prueba, mientras que todos los valores que están en el intervalo 48.5 ≤  ≤ 51.5 forman la
región de aceptación.
La costumbre es establecer conclusiones con respecto a la hipótesis nula H o. Se rechaza Ho en
favor de H1 si el estadístico de prueba cae en la región crítica, de lo contrario, no se rechaza Ho.

Este procedimiento de decisión puede conducir a una de dos conclusiones erróneas.

Es posible que el valor verdadero sea igual a 50 cm/s. Sin embargo, para todos los especímenes bajo prueba, puede observarse un valor
del estadístico de prueba  que cae en la región crítica.
En este caso, la hipótesis nula Ho será rechazada en favor de la alternativa H1 cuando, Ho es cierto.
Este tipo de conclusión equivocada se conoce como error tipo I, α o nivel de significancia.
(Nivel de confianza del 95% = nivel de significancia de 5%. Análogamente confianza es del 90% = significancia del 10%).
Ahora suponga que la rapidez promedio es diferente de 50 cm/s, aunque la media muestral  caiga dentro de la región de aceptación.
En este caso se acepta Ho cuando ésta es falsa.
Este tipo de conclusión recibe el nombre de error tipo II o β.
Ho Ho
Decisión
Al probar cualquier hipótesis estadística, existen cuatro situaciones diferentes verdadera falsa
Aceptar Ho No hay error Error β tipo II
Rechazar Ho Error α tipo I No hay error
que determinan si la decisión final es correcta o errónea.

 Los errores tipo I y tipo II están relacionados.


Una disminución en la probabilidad de uno da como resultado un aumento en la probabilidad del otro.
 El tamaño de la región crítica, y por tanto la probabilidad de cometer un error tipo I siempre se puede reducir al ajustar el o los
valores críticos.
 Un aumento en el tamaño muestral n reducirá α y β de forma simultánea.
 Si Ho es falsa, β es un máximo cuando el valor del parámetro se aproxima al hipotético.
Entre más grande sea la distancia entre el valor real y el valor hipotético, será menor β.

PASOS PARA ESTABLECER UN ENSAYO DE HIPOTESIS

 Interpretar que distribución muestral ajusta los datos del enunciado.


 Interpretar los datos del enunciado diferenciando los parámetros de los estadísticos.
 Establecer simultáneamente el ensayo de hipótesis y planteamiento gráfico del problema.
 El ensayo de hipótesis está en función de parámetros ya que se quiere evaluar el universo de donde proviene la muestra. Se
determina el tipo de ensayo (unilateral o bilateral).
 Establecer la regla de decisión. En función del valor crítico, α (Error tipo I o nivel de significancia) o en función del estadístico
límite de la distribución muestral. Argumentar hipótesis correctamente, la decisión estará en función de la hipótesis nula Ho.
 Calcular el estadístico real, y situarlo para tomar la decisión.
 Justificar la toma de decisión y concluir.

Unilateral Derecho: El investigador desea comprobar la hipótesis de un aumento en el


parámetro, en este caso el nivel de significancia se carga todo hacia el lado derecho, para definir las
regiones de aceptación y de rechazo.

Ensayo de hipótesis: Ho; Parámetro ≤ x


H1; Parámetro > x

Unilateral Izquierdo: El investigador desea comprobar la hipótesis de una disminución


en el parámetro, en este caso el nivel de significancia se carga hacia el lado izquierdo, para
definir las regiones de aceptación y de rechazo.
Ensayo de hipótesis: Ho; Parámetro ≥ x
H1; Parámetro < x

Bilateral: El investigador desea comprobar la hipótesis de un cambio en el


parámetro. El nivel de significancia se divide en dos y existen dos regiones de rechazo.

Ensayo de hipótesis: Ho; Parámetro = x


H1; Parámetro ≠ x

E1: Una muestra aleatoria de 100 defunciones registradas muestra una vida promedio de 71.8
años, y una desviación estándar de 8.9 años, ¿esto indica que la vida media hoy es mayor que 70
años? Utilice un nivel de significancia de 0.05.
Se trata de una distribución muestral de medias con desviación estándar conocida.
μ = 70 años, σ = 8.9 años,  = 71.8 años, n = 100, α = 0.05

Ensayo de hipótesis Ho; μ= 70 años. Regla de decisión:


H1; μ > 70 años. Si ZR ≤ 1.645 No se rechaza Ho
Si ZR > Ho Se rechaza Ho
x́−μ 71.8−70
Cálculos: zR = σ = 8.9 = 2.02
√n √100
Justificación y decisión.

Como 2.02 > 1.645 se rechaza Ho y se concluye con un nivel de significancia del 0.05 que la
vida media hoy en día es mayor que 70 años.

Existe otra manera de resolver este ejercicio, tomando la decisión en base al estadístico real, en
este caso la media de la muestra.
x́−μ
σ ( 8.9)
Z= σ  = μ+ Z  = 70+ (1.645) = 71.46
√n √ 100
√n
Regla de decisión: Si x́ R ≤ 71.46 No se rechaza Ho
Si x́ R > 71.46 Se rechaza Ho

Como la media de la muestral es de 71.8 años y es mayor al valor de la media muestral límite de 71.46 por lo tanto se rechaza
Ho y se llega a la misma conclusión.

Ejemplo5 Un fabricante de semiconductores produce controladores que se emplean en aplicaciones de motores. El cliente requiere
que la fracción de controladores defectuosos en uno de los pasos de manufactura no sea mayor que 0.05, y que el fabricante demuestre
esta característica del proceso de fabricación utilizando α= 0.05. En una muestra aleatoria de 200 dispositivos cuatro son defectuosos.
¿El fabricante puede demostrar al cliente la calidad del proceso?

Se trata de una distribución muestral de proporciones.


P= 0.05 p = 4/200 = 0.02 n = 200 α= 0.05

Ensayo de hipótesis Regla de decisión:

Ho; P = 0.05 Si ZR ≥-1.645 No se rechaza Ho


H1; P < 0.05 Si ZR < -1.645 Se rechaza Ho

p−P 0.02−0.05
Cálculos: zR = Pq = ( 0.05 ) ( 0.95 ) =-1.946
√ √
n 200

Justificación y decisión:

Puesto que –1.946<-1.645, se rechaza Ho y se concluye con un nivel de significancia del


0.05 que la fracción de artículos defectuosos es menor que 0.05.
Justificación y decisión:

Puesto que 2.52>1.645, se rechaza Ho, y se concluye con un nivel de significancia de 0.05 que la
adición del nuevo ingrediente a la pintura si disminuye de manera significativa el
tiempo promedio de secado.
 
Solución por el otro método:

σ 21 σ 22 82 8 2 = 5.88
(1 - 2) = (μ1 – μ2) + z
√ + = (0) + 1.645
n1 n2 √+
10 10

Regla de decisión:

Si (x́ 1- x́ 2) ≤ 5.88 No se rechaza Ho


Si (x́ 1- x́ 2) > 5.88 Se rechaza Ho

Puesto que (x́ 1- x́ 2) = 9 > 5.88, se rechaza Ho.

Ejemplo7: Se utilizan dos máquinas para llenar botellas de plástico con un volumen neto de 16.0 onzas. Las distribuciones de los
volúmenes de llenado pueden suponerse normales, con desviaciones estándar σ 1= 0.020 y σ2 = 0.025 onzas. Un miembro del grupo de
ingeniería de calidad sospecha que el volumen neto de llenado de ambas máquinas es el mismo, sin importar si éste es o no de 16
onzas. De cada máquina se toma una muestra aleatoria de 10 botellas. ¿Se encuentra el ingeniero en lo correcto? Utilice α= 0.05

MAQUI 16.0 16.0 16.0 15.9 16.0 15.9 16.0 16.0 16.0 15.9
NA 1 3 1 4 6 5 8 5 2 2 9
MAQUI 16.0 16.0 15.9 16.0 15.9 16.0 16.0 16.0 15.9 16.0
NA 2 2 3 7 4 6 2 1 1 9 0

Solución: Distribución muestral de diferencia de medias con desviación estándar


conocida.

Datos:
σ1 = 0.020
σ2 = 0.025
x́ 1 =16.015
x́ 2 =16.005
n1 = n2 = 10
α = 0.05

Ensayo de hipótesis

Ho; μ1-μ2 = 0
H1; μ1-μ2 ≠0

Ho desea probar que el volumen de llenado es el mismo en las dos máquinas.

Regla de Decisión: Si –1.96 ZR 1.96 No se rechaza Ho


Si ZR < -1.96 ó si ZR > 1.96 Se rechaza Ho

Cálculos: zR = (x́ 1- x́ 2)-(μ1 – μ2) / √ σ12/n1+σ22/n2


zR = (16.015−16.005)-(0) / √ 0.0202/10+0.0252/10 = 0.987

Justificación y decisión:

Como –1.96≤ 0.987≤ 1.96 entonces no se rechaza Ho y se concluye con un nivel de significancia de 0.05 que las dos máquinas tienen
en promedio la misma cantidad de llenado.

Solución por el otro método: (x́ 1- x́ 2) = (μ1 – μ2) + z√ σ12/n1+σ22/n2


= (0) + 1.96√0.0202/10+0.0252/10
= -0.019…. 0.019

Regla de decisión:

Si –0.019 ≤ (x́ 1- x́ 2) ≤ 0.019 No se rechaza Ho


Si (x́ 1- x́ 2) < -0.019 ó (x́ 1- x́ 2) > 0.019 Se rechaza Ho
Como (x́ 1- x́ 2) = 16.015 – 16.005 = 0.01

Entonces cae en región de aceptación y no se rechaza Ho.

Uso de valores P para la toma de decisiones

Al probar hipótesis en las que la estadística de prueba es discreta, la región crítica se puede elegir de forma arbitraria y determinar su
tamaño. Si α es demasiado grande, se puede reducir al hacer un ajuste en el valor crítico. Puede ser necesario aumentar el tamaño de la
muestra para compensar la disminución que ocurre de manera automática en la potencia de la prueba (probabilidad de rechazar H o
dado que una alternativa específica es verdadera).

Por generaciones enteras de análisis estadístico, se ha hecho costumbre elegir un nivel de significancia de 0.05 ó 0.01 y seleccionar la
región crítica en consecuencia. Entonces, por supuesto, el rechazo o no rechazo estricto de Ho dependerá de esa región crítica.

Un valor P es el nivel (de significancia) más bajo en el que el valor observado de la estadística de prueba es significativo. El valor P es
el nivel de significancia más pequeño que conduce al rechazo de la hipótesis nula H o. El valor P es el mínimo nivel de significancia en
el cual Ho sería rechazado cuando se utiliza un procedimiento de prueba especificado con un conjunto dado de información.

Una vez que el valor de P se haya determinado, la conclusión en cualquier nivel α particular resulta de comparar el valor P con α

1. Valor P ≤ α rechazar Ho al nivel α.


2. Valor P > α No rechazar Ho al nivel α.
 

Una vez que el valor de P se haya


determinado, la conclusión en cualquier Ensayo Unilateral Derecho:
nivel α particular resulta de comparar el
valor P con α

1. Valor P ≤ α rechazar Ho al nivel α.


2. Valor P > α No rechazar Ho al nivel α.
Ensayo Unilateral Izquierdo: Ensayo Bilateral:

Ejemplo 1.

Calcular el valor de P para el primer ejemplo de ensayo de hipótesis en donde se quería probar que la edad media de los habitantes de
Estados Unidos es superior a 70 años.

Ensayo de hipótesis
Ho; μ = 70 años.
H1; μ > 70 años.

Regla de decisión:
Si P ≤ 0.05 se rechaza Ho.
Si P > 0.05 No se rechaza Ho.
x́−μ 71.8−70
Cálculos: zR = σ = 8.9 = 2.02
√n √100
Esta es el valor de Z que se utilizará para calcular el valor de P, como es un ensayo unilateral derecho se calculará el área a la derecha
de este valor.

Justificación y decisión:

Como el valor de P es 0.217 y es menor al valor del nivel de significancia de 0.05 por lo
tanto se rechaza Ho. Y se concluye que la edad media de los habitantes es mayor a 70
años.

28 de junio del 2021


REGRESIÓN
Distribuciones bidimensionales

Relación funcional
Relación estadística Distribuciones bidimensionales
Variables (x, y) están relacionadas
funcionalmente cuando conocida la Variables (x, y) están relacionadas Aquellas en las que a cada individuo le
primera se puede saber con exactitud el estadísticamente cuando conocida la corresponden los valores de dos variables,
valor de la segunda. (Si se deja caer una primera (independiente) se puede estimar (xi, yi). Si representamos gráficamente
piedra, existe una fórmula que permite el valor de la segunda (dependiente). cada par de valores como las coordenadas
calcular la altura en función del tiempo. de un punto, sobre el diagrama puede
h = ½ g t². (Ingresos y gastos. Producción y ventas. trazarse una recta que se ajuste, llamada
Gastos en publicidad y beneficios). recta de regresión.
E. Las notas de 12 alumnos de una clase en Matemáticas y Física son las siguientes:

Alumno 1 2 3 4 5 6 7 8 9 10 11 12
Matemáticas 2 3 4 4 5 6 6 7 7 8 10 10
Física 1 3 2 4 4 4 6 4 6 7 9 10
La recta de regresión es la que mejor se ajusta a la nube de puntos.
Pasa por el punto (, ) llamado centro de gravedad.

La recta de regresión de Y sobre X se utiliza para estimar los La recta de regresión de X sobre Y se utiliza para estimar los
valores de Y a partir de los de la X. valores de X a partir de los de la Y.
σ xy σ xy
(y - ) = 2 (x - ) (x - ) = 2 (y - )
σx σy
La pendiente de la recta es el cociente entre la covarianza y la La pendiente de la recta es el cociente entre la covarianza y la
varianza de la variable X. varianza de la variable Y.
Coeficiente de correlación lineal

El coeficiente de correlación lineal es el cociente entre la covarianza y el producto de σ xy


las desviaciones típicas de ambas variables. r=
σxσ y

El coeficiente de correlación no varía al hacerlo la escala de medición.

El signo del coeficiente de correlación es el mismo que el de la covarianza.


Si la covarianza es positiva, la correlación es directa.
Si la covarianza es negativa, la correlación es inversa.
Si la covarianza es nula, no existe correlación.

El coeficiente de correlación lineal es un número real comprendido entre −1 ≤ r ≤ 1


Si el coeficiente toma valores cercanos a −1 la correlación es fuerte e inversa.
Si el coeficiente toma valores cercanos a 1 la correlación es fuerte y directa.
Si el coeficiente toma valores cercanos a 0, la correlación es débil. MATH FISICA
ALUMN xy x2 y2
Si r = 1 o −1, Entre variables hay dependencia funcional. O
X Y

Si la correlación es nula, r = 0, las rectas son perpendiculares, y sus 1 2 1 2 4 1


ecuaciones son: y = , x= 2 3 3 9 9 9
3 4 2 8 16 4
4 4 4 16 16 16
E1. Notas de 12 alumnos de una clase en Matemáticas y Física son las
5 5 4 20 25 16
siguientes: Hallar las rectas de regresión.
6 6 4 24 36 16
7 6 6 36 36 36
Medias  = ∑ x / n = 72 /12 = 6
8 7 4 28 49 16
9 7 6 42 49 36
10 8 7 56 64 49
11 10 9 90 100 81
12 10 10 100 100 100
72 60 431 504 380
 = ∑ y / n = 60 /12 = 5

covarianza. σxy =
∑ ( xy ) –[() ()] = (431 /12) –[(6)(5)] =5.92
n

2 x2 2
varianzas. σ x =∑ − x́ = (504 /12) –(36) = 6
n
2 y2 2
σ y =∑ − ý = (380 /12) –(25) = 6.66
n

Recta de regresión Y sobre X.

σ xy
(y - ) = (x - )y – 5 = (5.92 / 6) (x-6)
σ 2x
y = 0.987 x – 0.92

Recta de regresión X sobre Y.

σ xy
(x - ) = (y - ) x – 6 = (5.92 / 6.67) (y - 5)
σ 2y
x = 0.889 y – 1.56

E. Cinco niños de 2, 3, 5, 7 y 8 años de edad pesan respectivamente, 14, 20, 32, 42 y 44 kilos.
Hallar la ecuación de la recta de regresión de la edad sobre el peso.
¿Cuál sería el peso aproximado de un niño de seis años? X Y x2 y2 x*y
2 14 4 196 28
Medias  = ∑ x / n = 25 /5 = 5  = ∑ y / n = 125 /5 = 30.4 3 20 9 400 60
5 32 25 1024 160
covarianza. σxy =
∑ ( xy ) –[() ()]= (894 /5) –[(5) (30.4)] =26.8 7 42 49 1764 294
N 8 44 64 1936 352
25 152 151 5320 894
2 x2 2 2 y2 2
varianzas. σ x =∑ − x́ = (151 /5) - 25 = 5.2 σ y =∑ − ý = (5320 /5) -30.42 =139.84
N N

σ xy
Recta de regresión Y sobre X. (y - ) = (x - ) x - 5 = 0.192 (y-30) x = 0.192 y – 0.76
σ 2x

σ xy
Recta de regresión X sobre Y. (x - ) = (y - ) y – 30.4 = 5.15 (x - 5) y = 5.15 x + 4.65
σ 2y

y = 5.15(6) + 4.65 = 35.55 Kg.

N° de clientes 8 7 6 4 2 1
E. Un conjunto de datos bidimensionales (X, Y) tiene coeficiente de Distancia 15 19 25 23 34 25
correlación r =- 0.9,
Las medias de las distribuciones marginales  = 1,  = 2.
Una de las siguientes cuatro ecuaciones corresponde a la recta de regresión Y sobre X:
Y = -x + 2, 3x - y = 1, 2x + y = 4, y = x + 1. Seleccionar razonadamente esta recta.

Como el coeficiente de correlación lineal es negativo, la pendiente de la recta también será negativa
por tanto, descartamos la 2ª y 4ª.

Un punto de la recta ha de ser (, ), es decir, (1, 2).


2≠-1+2
X y xy x2 y2 2*1 + 2 = 4
2 1 2 4 1 La recta pedida es: 2x + y = 4.
3 3 9 9 9
4 2 8 16 4 Ejemplo1 Las notas de 12 alumnos de una clase en Matemáticas y Física 7 4
4 4 16 16 16 son las siguientes: 7 6
5 4 20 25 16 Hallar el coeficiente de correlación de la distribución e interpretarlo.
8 7
6 4 24 36 16
10 9
6 6 36 36 36
10 10
7 4 28 49 16
7 6 42 49 36
8 7 56 64 49
10 9 90 100 81
10 10 100 100 100
72 60 431 504 380
1º Hallamos las medias aritméticas.
 = 72/12= 6,
 = 60 / 12 = 5

2º Calculamos la covarianza.
σxy = 431 / 12 – (6 * 5) = 5.92

3º Calculamos las desviaciones típicas.

4º Aplicamos la fórmula del coeficiente de correlación lineal.


Al ser el coeficiente de correlación positivo, la correlación es directa.
Como coeficiente de correlación está muy próximo a 1 la correlación es muy fuerte.

Los valores de dos variables X e Y se distribuyen según la tabla siguiente:


Determinar el coeficiente de correlación.
Convertimos la tabla de doble entrada en tabla simple.
x y f x f x2 f y f y2 f x y f
0 1 2 0 0 2 2 0  = 40 / 20 = 2  = 41 / 20 = 2.05
0 2 1 0 0 2 4 0
0 3 2 0 0 6 18 0
2 1 1 2 4 1 1 2
2 2 4 8 16 8 16 16
2 3 5 10 20 15 45 30
4 1 3 12 48 3 3 12
4 2 2 8 32 4 8 16
  20 40 120 41 97 76 Al ser el coeficiente de correlación negativo, la correlación es inversa.
Como coeficiente de correlación está muy próximo a 0 la correlación es muy débil.

También podría gustarte