UC0305 - Estadística Aplicada PDF
UC0305 - Estadística Aplicada PDF
UC0305 - Estadística Aplicada PDF
MANUAL AUTOFORMATIVO
ASIGNATURA
ESTADÍSTICA APLICADA
Autores
DORIS PILAR TOYKIN URBINA
CESAR FERNANDO SOLIS LAVADO
ÍNDICE
ÍNDICE
INTRODUCCIÓN
ORGANIZACIÓN DE LA ASIGNATURA
Resultado de aprendizaje de la asignatura
Unidades didácticas
Tiempo mínimo de estudio
UNIDAD I: ESTIMACIÓN DE PARÁMETROS
Diagrama de organización de la unidad
Organización de los aprendizajes
Tema N° 1: MUESTREOS
1.1. Definiciones básicas
1.2. Muestreo
1.3. Tipos de muestreo
1.3.1. Muestreos probabilísticos
1.3.2. Muestreos no probabilísticos
1.4. Errores de muestreo
Actividad Auto formativa N° 1
Auto Evaluación 1
Tema N° 2: DISTRIBUCIONES MUESTRALES
2.1. Distribuciones muestrales de proporciones
2.2. Distribuciones de medias - teorema de límite
2.3. Distribución chi cuadrada
2.4. Distribución t studen
Lectura N° 1 ¿Cómo identificamos límites de seguridad para los pasajeros?
Actividad N° 1
Actividad Auto formativa N° 2
Auto Evaluación N° 2
Tema N° 3: ESTIMADORES
3.1 Estimador puntual
3.2 Propiedades de los estimadores
3.2.1. Estimadores insesgados
3.2.2. Varianza de errores cuadráticos medios de un estimador puntual
3.3. Método de máxima verosimilitud
Tema N°4: Intervalo de confianza para un parámetro
4.1. Intervalo de confianza
4.2. Intervalo de confianza para una porción de una población
4.3. Intervalo de confianza para una media de población
4.3.1. Intervalo de confianza para una media de población con varianza co-
nocida.
4.3.2. Intervalo de confianza para una media de población con varianza des-
conocida. – t student
4.3.3. Intervalo de confianza para varianza conocida poblacional - chi cua-
drada
Actividad Auto formativa N° 4
Auto Evaluación N° 4
Tema N° 5: Intervalo de confianza para dos parámetros
5.1. Intervalo de confianza para una porción de una población
5.2. Intervalo de confianza para una media de población
Actividad N° 2
Auto Evaluación 5
PRUEBA DE DESARROLLO UNIDAD I
Glosario de la Unidad I
Bibliografía de la Unidad I
La capacidad para “decir algo” sobre poblaciones con base en muestras, está basada
en el supuesto con respecto a algún modelo de probabilidad que permite explicar las
características del fenómeno bajo observación. Al conjunto de procedimientos esta-
dísticos en los que interviene la aplicación de modelos de probabilidades y mediante
los cuales se realiza alguna afirmación sobre poblaciones con base en la información
producida por muestras se le llama Inferencia Estadística o Estadística Inferencial.
La estadística se estudia como una materia en muchos planes de estudio en las di-
versas profesiones y forma parte de especializaciones y posgrado en las más diversas
disciplinas. Es, de hecho, casi imposible que un profesional no haya recibido en for-
mación al menos un curso de estadísticas, esto implica que pongamos más la aten-
ción e importancia a esta signatura porque nos provee de los métodos y técnicas en
las aplicaciones de nuestro quehacer profesional.
El autor
ORGANIZACIÓN DE LA ASIGNATURA
UNIDADES DIDÁCTICAS
Glosario de la Unidad I
TEMA N° 1: MUESTREO
Para poder entender y desarrollar la técnica del muestreo, debemos conocer algunas
definiciones básicas que nos permita comprender la magnitud del tema a desarrollar.
1.1.1. DATOS:
1.1.3. ESTADÍSTICA:
1.1.4. POBLACIÓN:
1.1.6. PARÁMETRO:
denota con las letras minúsculas latinas como por ejemplo: Media aritmética: X ; Des-
DATOS CUALITATIVOS:
DATOS CUANTITATIVOS:
DEFINICIONES:
1.2 MUESTREO
Hacer conclusiones hacia una población mucho más grande de la que origi-
nalmente se tomó la muestra, se denomina error de inferencia.
La manera mucho más fácil de obtener una muestra, es simplemente elegirla, sin
ningún mecanismo aleatorio. Su utilización se justifica por la comodidad y economía,
pero tiene el inconveniente de que no hay una teoría que le permita tener intervalos
de confianza. Los casos más comunes son:
N población 120
4
n (muetra) 30
3° Seleccionas un número del 1 al 4. Suponiendo que sale 3. El primer alumno se-
leccionado para la muestra será el número 3, luego los siguientes alumnos se
obtendrían sumando 3, hasta llegar a los tener los 30 alumnos.
4° Finalmente los alumnos seleccionados para la muestra serian a los que les
corresponden los números 3, 6, 9, 12, 15, 18, 21, 24, 27, 30, 33, 36, 39, 42, 45,
48, 51, 54, 57, 60, 63, 66, 69, 72, 75, 78, 81, 84, 87, 90.
En este caso, la muestra deberá tener estratos del mismo tamaño, sin importar el
peso que tienen estos estratos en la población. Para una muestra de 1 000 personas,
los estratos deben de tener un tamaño como se indica en el cuadro.
0, 045 0,955
E 1,96
200
E 0, 0287
El error muestral es del 2,87%
ACTIVIDAD AUTOFORMATIVA N° 1
Instrucción: De las siguientes preguntas contesten y fundamente su respuesta.
1.- ¿Cuál es la diferencia entre una muestra aleatoria y una muestra aleatoria simple?
2.- ¿Cuál es la diferencia entre un estudio observacional y un experimento?
3.- Determine si las siguientes descripciones corresponde a un estudio observable o
experimental?
a) Ha surgido una gran controversia en torno a estudios de pacientes con sífilis
que no ha recibido un tratamiento que los habría curado. Su salud fue vigilada
por años después de que se descubrió que padecían esa enfermedad.
b) A los pasajeros de un Barco de crucero se les dan brazaletes magnéticos, que
aceptan usar en un intento por disminuir o eliminar los efectos del mareo.
4.- Identifique el tipo de muestreo, corresponde las siguientes situaciones.
a) Un investigador de la Universidad Johns Hopkins obtiene datos sobre los efec-
tos del alcohol al conducir, examinando informes de accidentes automovilísti-
cos de los cinco años.
b) Un economista reúne datos de ingreso al seleccionar y entrevistar actualmente
a un grupo de sujetos, después se remonta al pasado para ver si tuvieron la
sabiduría de tomar un curso de estadísticas entre 1980 y 2005.
c) En épocas de elecciones presidenciales, los medios noticiosos organizan una
encuesta de salida, en la que se eligen estaciones de sondeo al azar y se
encuesta y se encuesta a todos los votantes conforme abandonen el lugar.)
d) Un experto en marketing de MTV está planeando una encuesta en la que se
elegirá a 500 personas al azar de cada uno de los siguientes grupos de edad:
10-19,20 -29 y así sucesivamente.
e) El autor encuesto a todos sus estudiantes para obtener datos muéstrales que
consistían en el número de tarjetas de crédito que posee cada uno.
g) La Universidad de Newport, motivada por un estudiante que murió en estado
de ebriedad, realizo una investigación de estudiantes que beben seleccionado
al azar 10 diferentes salones de clase y entrevistando a todos los estudiantes
en cada uno de esos grupos.
TEMA N° 2: DISTRIBUCIONES MUESTRALES
Podemos afirmar que el costo promedio para construir una piscina está entre 4 a 4,5
millones de soles, con base en las estimaciones de tres contratistas seleccionados al
azar de 30 que construyen piscinas residenciales actualmente. La población que
será muestreada aquí es finita pero muy pequeña.
de la población infinita de posibles bebidas que esta máquina servirá. En cada uno
de estos ejemplos calculamos una estadística a partir de una muestra seleccionada
de la población, y de estas estadísticas hacemos varias afirmaciones con respecto a
los valores de los parámetros de la población que pueden ciertos o no.
DISTRIBUCIONES MUESTRALES
La media muestral es una estadística; esto es, una variable aleatoria que depende
de los resultados obtenidos de cada muestra particular. Dado que una estadística es
una variable aleatoria, entonces tiene una distribución de probabilidades. La distri-
bución de probabilidades de una estadística recibe el nombre de distribución mues-
tral.
Solución:
X P(x)
0 0.25
1 0.50
2 0.25
Proporción de
niñas en 2 Probabilidad
nacimientos
X P(x)
0 0,25
0,5 0,50
1 0,25
0 0,5 1
0 1,5 10 Y 0,5 1
p(1 p)
Distribución Muestral de Proporciones, que se ajusta a una normal N p,
n
0,03(1 0,03)
N 0,03,
Remplazando valores se tiene que: 500
N 0,03,0,0076
0, 05 0, 03
P( p 0,5) P Z
0, 0076
P( p 0, 05) P Z 2, 63
Resolviendo: P( p 0, 05) 1 P Z 2, 63
P( p 0, 05) 1 0,9957
P( p 0, 05) 0, 0043
Recuerda que para obtener P Z 2, 63 , hemos tipificado la variable y se ha hecho
2 2 2 ... 2 2
media x
...
Y varianza
n
x
n2 n
grande. Éste es uno de los teoremas más útil en estadística, se le conoce como el
teorema del límite central.
x
entonces la forma límite de la distribución de: z
/ n
Cuando n , es la distribución normal estándar.
Aplicación del Teorema de Límite Central en una población
2° Cálculo de la probabilidad pedida: P x 3 130
Como la distribución muestral es una normal N (3 100, 150)
x 3100
Tipificando: Z
15
Resolviendo:
3130 3100
P x 3130 P Z
15
P x 3130 P ( Z 2)
P x 3130 1 P ( Z 2)
P x 3130 1 0, 9772
P x 3130 0, 0228
1 / 2, 4 x 6
f x
0, en cualquier otro caso
Encuentre la distribución de la media muestral de una muestra aleatoria de tamaño
n = 40.
6 4
2
Solución: La media y la varianza de X son: 1
5 y 2
12 3
El Teorema del límite central indica que la distribución de X es aproximadamente
5 2
2
normal con media 1 1 . La siguiente figura presenta
x
n 3 40 120
4 5 6 X
5
1
2
x
120
Figura 5. Distribución de X y X
INGENIEROS DE ANTIGÜEDAD
MINAS (AÑOS)
Carlos 6
Pedro 4
Manuel 2
Suponga, además, que se seleccionan muestras aleatorias de tamaño 2 sin reem-
plazo. Calcule el error estándar o la desviación estándar de la distribución muestral.
Solución: Como las muestras son aleatorias de tamaño 2, entonces se puede cons-
truir la siguiente tabla con todas las muestras posibles y sus respectivas medias
muéstrales:
ANTIGÜEDAD
MUESTRA MEDIA MUESTRAL
(AÑOS)
CARLOS, PEDRO 6, 4 5
CARLOS, MANUEL 6, 2 4
MANUEL, PEDRO 2, 4 3
Z
X1 X2 1 2 es aproximadamente normal estándar, si se aplican las
2 2
1 2
n1 n2
condiciones del Teorema del Límite Central. Si las dos poblaciones, entonces la dis-
medias muestrales X1 X2 , sea menos que 25 horas? Supóngase que los procesos
antiguos y mejorados pueden considerarse como poblaciones independientes.
P X2 X1 25 ?
Luego:
n2 n1
2 2
De donde se tiene: X2 X1 25 , 2 1 50 horas y 2 1 136 horas2
n2 n1
Reemplazando en:
Z
X1 X2 1 2
2
2
1 2
n1 n2
25 50
Se tiene: Z 2,14
136
Donde la probabilidad es:
P X2 X1 25 P Z 2,14 0,9838
ción estándar / n.
x
mente, utilice los métodos de distribuciones normales. Use: z
Cuando trabaje con una media del alguna muestra (o grupo), asegúrese de uti-
lizar el valor de / n para que las desviación estándar de las medias mués-
x
trales : Use: z
/ n
1
f x x
k /21
.e x/2 , para x0 y se dice que sigue
k
2k /2
2
una distribución ji-cuadrada con K grados de libertad, lo que se abrevia como
xk2 .
La media y la varianza de la distribución xk2 son K y 2 2k .
Figura 7. Funciones de densidad de probabilidad
de varias distribuciones x2
La figura 7 presenta varias distribuciones chi cuadrada. Estas distribuciones se di-
bujaron utilizando el procedimiento de graficación del paquete Statgraphics. Nótese
que la variable aleatoria chi cuadrada es no negativa, y que la distribución de la
probabilidad tiene un sesgo hacia la derecha. Sin embargo, a medida que K aumenta,
la distribución se vuelve más simétrica. Conforme k , la forma límite de la dis-
tribución ji-cuadrada es la distribución normal.
Los puntos críticos de la distribución xk2 .están en la tabla A – 4 del anexo. Se define
x 2 ,k como un valor crítico de la variable aleatoria ji-cuadrada con k grados de liber-
tad talque la probabilidad de que x sea a mayor que este valor es . Esto es,
P X x2,k 2 f u du
x ,k
0 x 2 ,k X
derecha es x2
0.05,10 18,13
. A menudo este valor recibe el nombre de punto crítico
P X x20.05,10 P X 18,31 0,05 .
p
igual a k ki .
i1
n 17 s2 2 1 r : Grado de libertad r n 1 16
Valor de (1 - )
2.4. DISTRIBUCIÓN t
Supóngase que se toma una muestra de una población normal con media y
TEOREMA DE LA DISTRIBUCIÓN t
Sea Z una variable aleatoria con distribución N 0,1 y V una variable alea-
de varias distribuciones t
mayor que la ordenada de los percentiles 5 y 95. Por ejemplo, con 10 grados de
libertad para t , esta relación es 4,8; con 20 grados de libertad es de 4,3, y con 30
grados de libertad es 4,1. Por comparación, este factor es 3,9 para la distribución
normal.
t1,k t ,k t ,k
La tabla A - 3 del anexo proporciona los puntos críticos de la distribución t . Sea t ,k
, el valor de la variable aleatoria con k grados de libertad para el que se tiene un
distribución t con k grados de libertad. Este punto crítico aparece en la figura 2,4 –
2. En la tabla A - 3 del anexo, los valores de son encabezados de las columnas,
mientras que los grados de libertad aparecen en la columna de la parte izquierda.
Para ilustrar el uso de la tabla, nótese que el valor t con 10 grados de libertad que
P T10 t 0.05,10 P T10 1,812 0, 05
por tanto, un área a la izquierda) es igual al negativo del valor t que tiene el
área en la cola derecha de la distribución. En consecuencia
lado cae entre t0.05 y t 0.05 , queda satisfecho con su afirmación. ¿Qué conclusión
extraería de una muestra que tiene una media de 518 gramos por milímetro y una
desviación estándar de 40 gramos? Suponga que la distribución de rendimientos es
aproximadamente normal.
Solución: Del enunciado se tiene los siguientes datos:
x : Media de la muestra x 518
: Media de la población 500
n : Tamaño de la muestra n 25
s : Desviación estándar s 40
r : Grado de libertad r n 1 24
1°) Necesitamos calcular el valor t usando nuestra fórmula:
x 518 500 18
t t 2, 25
s 40 8
n 25
siendo este un valor muy por arriba del valor de t 0,05 de la tabla de T de Student
que es 1,711. El ingeniero químico podría afirmar que el proceso produce un mejor
producto del que piensa.
Instrucciones
Ingrese al foro y participe con comentarios críticos y analíticos del tema ¿Cómo
identificamos límites de seguridad para los pasajeros?
a) Calcule la probabilidad que en algún día reciba una multa por exceso de
velocidad.
b) Cierto día, la persona recibió una multa por exceso de velocidad. Deter-
mine el sitio en que hay la mayor probabilidad de haber sido multado
2
( x 2) ; 0 x 1
f ( x ) 5
0 ; otro " x "
630 x 4 (1 x ) 4 ; 0 x 1
f (x)
0 ; otro " x "
Frente a esta situación surge en cuestión ¿Qué es una estimación?. Cuando queremos
realizar un estudio de una población cualquiera de la que desconocemos sus pará-
metros, por ejemplo su media poblacional o la probabilidad de éxito, si la población
sigue una distribución binomial, debemos tomar una muestra aleatoria de dicha po-
blación a través de la cual calcular una aproximación a dichos parámetros que des-
conocemos y queremos estimar. Bien, pues esa aproximación se llama estimación.
Además, junto a esa estimación, y dado que muy probablemente no coincida con el
valor real del parámetro, acompañaremos el error aproximado que se comete al rea-
lizarla.
En este tema se presenta los métodos para estimar los valores de los principales
parámetros de la población: proporciones, medias y varianzas.
Una estimación puntual de algún parámetro de la población es un valor de
la estadística .
Notación:
Parámetro no conocido
h X1 ,X2 ,...,Xn Estimador puntual de
Ejemplo N° 1: Sea una variable aleatoria X tiene una distribución normal con media
no conocida . La media muestral es un estimador puntual de la media no conocida
de la población. Esto es X . Después de tomar la muestra, el valor numérico
25 29,5 28 29,5 33 29,5 32 29,5
2 2 2 2
10, 25 S 10,25
2 2 2
2
S
4
El estimador puntual es un estimador insesgado para el parámetro , si E
, si el estimador no es insesgado, entonces la diferencia E es conocida como
sesgo del estimador .
Cuando el estimador es insesgado, E 0 , esto es el sesgo es cero. Un estima-
DEFINICIÓN
El error cuadrático medio de un estimador del parámetro está definido por
2
ECM E .
Sean 1 y 2 dos estimadores del parámetro , y E 1
y E 2 los errores
cuadráticos medios de 1 y 2 . Entonces la eficiencia relativa de 2 , con respecto
Si la eficiencia relativa es menor que uno, entonces puede ocurrir que 1 es un
estimador más eficiente de que 2 en el sentido de que tiene un error cuadrático
medio más pequeño.
DEFINICIÓN
es
L f X1 , f X2 , ... f Xn , .
Nótese que la función de verosimilitud es ahora una función del parametro descono-
la probabilidad
P X1 x1 ,X2 x2 ,...,Xn xn ,
Esto es, L es la probabilidad de obtener los valores muestrales x1 ,x2,...,xn . Por
lo tanto en el caso discreto, el estimador de máxima verosimilitud es un estimador
que maximiza la probabilidad de ocurrencia de los valores muestrales.
ESTIMADOR
DESCIP- FUNCIÓN DE MÁXIMA
CIÓN VEROSIMILITUD
Variable Función de probabilidad:
1 n
aleatoria de p 1 p , si : x 0,1
x 1x p Xi
n i1
Bernoulli fx x,p
0 , en cuarquier otro caso
mal, media
L , 2 e
1 n
2
2
y varianza
2 i1
Xi X
2
desconocidas
n i1
i n i1
1/2
n 2
estimadores
n i1
así como el estimador de máxima verosimilitud de la desviación estándar no es
nominal de 42,5 kg entonces podría ser por ejemplo cualquier número entre
azar que sale de cierta tienda de video, el verdadero número promedio de películas
por cliente podría ser entre 0,5 y 4,0, por ejemplo la verdadera proporción p de
clientes que rentan por lo menos una película podría ser cualquier número entre 0 y
1. Esto significa que sustituir la estimación puntual, un solo número, por un intervalo
de posibles valores y esto es lo que exactamente es una estimación por intervalo o
intervalo de confianza, es decir, un intervalo de valores posibles para el parámetro
que se estima. El grado de posibilidades se especifica por un nivel de confianza, de
modo que hablaremos de un intervalo de confianza de 95% (nivel de confianza de
95%) o intervalo al 99%.
, estimamos sus valores utilizando la porción muestral, de manera que este re-
quisito es una forma de verificar que np 5 nq 5 se cumpla para la distribución
normal sea una aproximación adecuada para la distribución binomial.
VALORES CRITICOS
Cola derecha
Cola izquierda
cular la puntuación Z crítica para un nivel de confianza del 95%, solo busque el valor
de 0,9750 en el cuerpo de la tabla A-2, y no en el valor de 0,95.
= 0,025 = 0,025
Como se conoce se procede a calcular el área total a la izquierda de la si-
2
guiente manera ( 1 0,025 0,975 ), este resultado se busca en la tabla A-2 y en-
contrar que el área de 0,9750 (que se encuentra en el cuerpo de la tabla) corres-
ponde exactamente a una puntuación z de 1,96, por consiguiente, z 1, 96 . Para
2
un nivel de confianza del 95%,
MARGEN DE ERROR
Cuando se utiliza los datos de una muestra aleatoria simple para estimar un porción
p , el margen de error, denotado por E , es la diferencia máxima probable (con
probabilidad 1 ) entre la porción muestral p observada y el valor real de la porción
Sea: p E p p E donde E Z p.q el intervalo de confianza se expresa por
/2
n
p E o p E,p E
Redondee los límites del intervalo de confianza para p a tres dígitos significativos.
confianza deseado.
5°Redondee los límites del intervalo de confianza resultantes a tres dígitos significa-
tivos.
Tamaño de muestra para la estimación de la proporción p
2
Z p q
Cuando se conoce un estimado p n /2
E2
2
Z 0,25
Cuando se desconoce un estimado p n /2
E2
Solución:
1°) El estudio previo sugiere que p 0,169 , entonces q 1 p 0.831 . Con un
z
2
pq
/2
les"). Puesto que tenemos un valor estimado de p , usamos: n
E2
1, 962 0,169 0,831
n 337,194 Redondeando se tiene que: n = 338
0, 042
Debemos encuestar al menos 338 hogares seleccionados al azar.
2°) El estudio previo sugiere que z 1, 96 , el margen de error es E = 0.04 (el
2
equivalente decimal de "cuatro puntos porcentuales, pero sin conocimiento previo
z
2
0,25
/2 1, 962 0, 25
de p (o q ), usamos: n n 600, 25
E2 0, 042
INTERPRETACIÓN: Para tener una confianza del 95% de que nuestro porcentaje
muestral está dentro de cuatro puntos porcentuales del porcentaje verdadero para
todos los hogares, debemos seleccionar al azar y encuestar 601 hogares. Compa-
rando este resultado con el tamaño muestral de 338 calculado en el inciso a), pode-
mos ver que si no tenemos conocimiento de un estudio previo, se requiere una mues-
tra más grande para obtener los mismos resultados que cuando se puede estimar el
valor de p .
p
límite de confianza sup erior límite de confianza inf erior
2
Margen de error:
E
límite de confianza sup erior límite de confianza inf erior
2
Solución: Del enunciado vemos que el intervalo de confianza del 95% es 0,58 < p
< 0,81. El estimado puntual p es el valor medio entre los límites superior e inferior
Si: X E X E donde E Z /2
o XE
n
o X E,X E
Los dos valores X E y X E se llaman límites del intervalo de confianza.
PROCEDIMIENTOS PARA CONSTRUIR UN INTERVALO DE CONFIANZA PARA
La varianza 2 es conocida
La población pueda estar distribuida normalmente o n > 30.
2° Remítase a la tabla A – 2 y calcule el valor crítico Z /2 que corresponde al nivel de
confianza deseado.
E E
Solución:
Z
2,6
1,96 0,3 2,30 y 2,70
X min máx
n 36
2°) Para un nivel de confianza de 99% el valor de z es de 2,575 por lo que el intervalo
será más amplio:
Z
2,6
2,575 0,3 2,47 y 2,73
X min máx
n 36
Figura 19. Estimación puntual al 0,99
t de Student), los cuales son más grandes que los valores críticos Z /2 de la distri-
bución muestral.
PROCEDIMIENTOS PARA CONSTRUIR UN INTERVALO DE CONFIANZA PARA
datos. Si utiliza un resumen de estadísticas (n,X,S) , redondee los límites del intervalo
X 10 y S 0,283 .
2°) En la tabla se encuentra que t0,025=2,447 con 6 grados de libertad, de aquí, el
Distribución
Normal Distribución
Estándar T de Student
1)
5° Conforme el tamaño muestral n se hace más grande, la distribución t de Student
se acerca más a la distribución normal estándar.
Cálculo del estimado puntual y el E a partir un intervalo de confianza
entre estos límites (ya que el límite superior es XE y el límite inferior es X E ,
y la distancia que los separa es 2E ).
Estimado puntual de :
X
límite de confianza sup erior límite de confianza inf erior
2
Margen de error:
E
límite de confianza sup erior límite de confianza inf erior
2
4.3.3. INTERVALO DE CONFIANZA PARA LA VARIANZA POBLACIONAL
REQUISITOS
De la definición se extrae que para realizar la estimación de intervalos de confianza
para la varianza poblacional, se tiene en cuenta los siguientes requisitos:
La muestra es aleatoria simple
La población debe estar distribuidos normalmente (aun si la muestra es muy
grande)
ESTIMADORES DE 2
La varianza muestral S2 es el mejor estimado puntual de la varianza poblacional 2
nal 2
(𝒏−𝟏)𝑺𝟐 (𝒏−𝟏)𝑺𝟐
< <
𝟐
𝑿𝟐𝑫 𝑿𝟐𝒍
(𝒏−𝟏)𝑺𝟐 (𝒏−𝟏)𝑺𝟐
√ < 𝟐 <√
𝑿𝟐𝑫 𝑿𝟐𝒍
Evalúe los límites del intervalo de confianza superior e inferior utilizando el si-
guiente formato para el intervalo de confianza:
(𝒏−𝟏)𝑺𝟐 (𝒏−𝟏)𝑺𝟐
< <
𝟐
𝑿𝟐𝑫 𝑿𝟐𝒍
3°) Usando los valores críticos de 2,700 y 19,023, la desviación estándar muestral
𝟐,𝟕𝟎𝟎
4°) La evaluación de la expresión anterior produce
ACTIVIDAD AUTOFORMATIVA N° 4
1. Los contenidos de 5 latas de café instantáneo de un productor han dado los si-
guientes pesos netos en gramos: 280; 290; 285; 275; 284.
a). Encuentre un intervalo de confianza del95% para la media de todos los
contenidos de latas de café del productor.
b).¿Con qué grado de confianza se estima que el contenido promedio de café
tenga los límites de confianza 277,432 y 288,168?. Suponga una distribución
normal.
2. Se tiene que diez objetos de forma cilíndrica elegidos al azar entre los productos
en la planta industrial los cerditos han mostrado los siguientes diámetros:
10,1cm; 9,7cm; 10,3 cm; 10,4 cm; 9,9 cm; 9,8 cm; 9,9 cm; 10,1 cm;
10,3 cm; 9,9 cm. Encuentre un intervalo de confianza del 95% para la varianza
de los diámetros de todos los objetos producidos por esta planta. Suponga que
los diámetros de tales objetos se distribuyen según la normal.
3. En una empresa electrónica para estimar la vida media de un transistor BJT3456
se selecciona una muestra aleatoria de 10 unidades, se les somete a prueba y
se encuentra que 6 de ellos siguen funcionando después de 3000 horas. Supo-
niendo que la vida útil de los transistores BJT es una variable aleatoria T con
distribución exponencial de parámetro “”, estimar la vida media de tales tran-
sistores producidos.
4. La Defensoría del pueblo pretende implantar un programa de ayuda a familias
con familiares dependientes. Dado que la mayor parte de los Servicios Sociales
son competencia de los municipios, la Junta proporcionará los medios económi-
cos, pero serán éstos los encargados de ejecutar el programa.
Los Servicios Sociales de cualquier municipio asumen que, por errores inevita-
bles, no todas las familias a las que subvencionan reúnen los requisitos exigidos,
pero la Defensoría del pueblo les responsabiliza de que esto no ocurra en más
del 4% de ellas. Si se supera este porcentaje, penalizará al municipio. En un
municipio se muestrean 200 familias y se detecta que 12 de ellas (6 %) no cum-
plen las condiciones exigidas. ¿Debe la Junta sancionar al municipio?
5. Un analista de investigación de mercado quiere estimar el promedio del ingreso
familiar mensual de una determinada población. Determine el intervalo de con-
fianza del 95%, si en una muestra aleatoria de tamaño 100 de esa población se
encontró que el promedio del ingreso familiar era de $500. Suponga que el in-
greso familiar mensual se distribuye normalmente con desviación estándar igual
a $100
6. Un inspector de alimentos seleccionó aleatoriamente 30 paquetes de carne de
res 95% magra. La muestra dio como resultado una media de 96,2% con una
desviación estándar muestral de 0,8%. Calcule un intervalo de predicción del
99% para la condición baja en grasa de un paquete nuevo. Suponga normalidad.
7. Una máquina produce piezas de metal que tienen forma cilíndrica. Se toma una
muestra de tales piezas y se encuentra que los diámetros son 1,01; 0,97; 1,03;
1,04; 0,99; 0,98; 0,99; 1,01 y 1,03 centímetros. Utilice estos datos para calcular
tres tipos de intervalos y hacer interpretaciones que ilustren las diferencias entre
ellos en el contexto del sistema. Para todos los cálculos suponga una distribución
aproximadamente normal. La media muestral y la desviación estándar para los
datos dados son x¯ = 1.0056 y s = 0.0246.
a) Calcule un intervalo de confianza del 99% sobre la media del diámetro.
b) Calcule un intervalo de predicción del 99% sobre el diámetro medido de
una sola pieza de metal tomada de la máquina.
c) Calcule los límites de tolerancia del 99% que contengan 95% de las piezas
de metal producidas por esta máquina.
8. Una máquina produce piezas metálicas de forma cilíndrica. Se toma una muestra
de las piezas y los diámetros son 1,01; 0,97; 1,03; 1,04; 0,99; 0,98; 0,99; 1,01
y 1,03 centímetros. Calcule un intervalo de confianza del 99% para la media del
diámetro de las piezas que se manufacturan con esta máquina. Suponga una dis-
tribución aproximadamente normal.
9. Se registran las siguientes mediciones del tiempo de secado, en horas, de cierta
marca de pintura vinílica: 2,8 3,3 5,6 3,7 2,8 4,4 4,0 5,2 3,0 4,8 3,4 2,5 4,8 2,9
3,6. Suponga que las mediciones representan una muestra aleatoria de una po-
blación normal y con base en esto calcule el intervalo de predicción del 95% para
el tiempo de secado de la siguiente prueba de pintura.
10. Se están estudiando las propiedades de resistencia a la tensión de un determi-
nado tipo de hilo. Con ese fin se prueban 50 piezas en condiciones similares y
los resultados que se obtienen revelan una resistencia a la tensión promedio de
78.3 kilogramos y una desviación estándar de 5.6 kilogramos. Suponga que la
resistencia a la tensión tiene una distribución normal y con base en esto calcule
un límite de predicción inferior al 95% de un solo valor observado de resistencia
a la tensión. Además, determine un límite inferior de tolerancia del 95% que sea
excedido por el 99% de los valores de resistencia a la tensión.
TEMA N° 5: INTERVALOS DE CONFIANZA PARA DOS
PARÁMETROS
𝑛1 tamaño muestral
𝑞1 = 1 − 𝑝
̂ ̂1
Se adjunta los significados correspondientes a
𝑝2 ;𝑛2 ;𝑋2 ;𝑝
̂2 ; 𝑞
̂2 que provienen de la población 2
(𝑝
̂−𝑝
1 ̂)−(𝑝
2 1 − 𝑝2 )
ESTIMADOR 𝑧= 𝑝̂ ̂
𝑞 𝑝̂ ̂
𝑞
√ 1𝑛 1 + 2𝑛 2
1 2
̂1 − 𝑝
(𝑝 ̂) ̂ ̂)
2 − 𝐸 < (𝑝1 − 𝑝2 ) < (𝑝1 − 𝑝2 +𝐸
Donde el margen de error 𝐸 está dado por:
𝑝1 ̂
̂ 𝑞1 𝑝̂2 ̂
𝑞2
𝐸 = 𝑍𝛼/2 . √ +
𝑛1 𝑛2
EJEMPLO N° 2: Un sociólogo quiere determinar el porcentaje actual de hogares en
Estados Unidos que utilizan el correo electrónico. ¿Cuántos hogares deben encues-
tarse para tener una confianza del 95% de que el porcentaje muestral es erróneo por
no más de 4 puntos porcentuales?
a. Utilice el siguiente resultado de un estudio pionero: en 1997, el 16,9% de los
hogares estadounidenses usaban correo electrónico (según datos de The World
Almanac and Book of Facts).
b. Suponga que no tenemos información previa que sugiera un posible valor de p.
SOLUCIÓN:
1°) El estudio previo sugiere que p 0,169 , entonces q 1 p 0,831 . Con un ni-
vel de confianza del 95%, tenemos = 0,05, entonces z 1, 96 . Además, el mar-
2
z /2
2
pq 1, 962 0,169 0,831
n n 337,194
E2 0, 042
Redondeando se tiene que: n = 338. Debemos encuestar al menos 338 hogares se-
leccionados al azar.
2°) El estudio previo sugiere que z 1, 96 , el margen de error es E = 0,04 (el
2
z /2 0,25
2
1, 962 0, 25
de p (o q ), usamos: n n 600, 25
E2 0, 042
Redondeando se tiene que: n = 601. Debemos encuestar al menos 601 hogares se-
leccionados al azar.
INTERPRETACIÓN: Para tener una confianza del 95% de que nuestro porcentaje
muestral está dentro de cuatro puntos porcentuales del porcentaje verdadero para
todos los hogares, debemos seleccionar al azar y encuestar 601 hogares. Compa-
rando este resultado con el tamaño muestral de 338 calculado en el inciso a), pode-
mos ver que si no tenemos conocimiento de un estudio previo, se requiere una mues-
tra más grande para obtener los mismos resultados que cuando se puede estimar el
valor de p.
𝑛1 tamaño muestral
GRADOS DE LIBERTAD
𝑆12 𝑆22 2
( + )
𝑛1 𝑛2
𝑔𝑙 = 2 2
𝑆12 𝑆12
( ) ( )
𝑛1 𝑛1
+
𝑛1 − 1 𝑛1 − 1
𝑆12 𝑆22
Donde el margen de error 𝐸 está dado por: 𝐸 = 𝑡𝛼/2 . √ 𝑛 +
1 𝑛2
12 22 1202 602
El error estándar es: 42, 43
X1 X 2
n1 n2 10 10
X 1
X 2 E 40 1, 96 42, 43 40 83,1628
43,16 1 2 123,16
1. Una noticia en el periódico dice que, de 1000 personas encuestadas sobre una
cuestión, 556 se muestran a favor y 444 en contra, y concluye afirmando que el
55.6 % de la población se muestra a favor con un margen de error de ±3 %.
¿Cuál es el nivel de confianza de esta afirmación?
2. Se llevan a cabo pruebas de resistencia a la tensión sobre dos diferentes clases
de largueros de aluminio utilizados en la fabricación de aviones comerciales pe-
queños. De la experiencia pasada con el proceso de fabricación de largueros y
del procedimiento de prueba, se supone que la desviación estándar de las resis-
tencias a la tensión son conocidas. Los datos obtenidos aparecen en la siguiente
tabla:
Medicamento A Medicamento B
nA = 12 nB = 12
5. La siguiente tabla presenta los resultados de dos muestras aleatorias para com-
parar el contenido de nicotina de dos marcas de cigarrillos. Suponiendo que los
conjuntos de datos provienen de muestras tomadas al azar de poblaciones nor-
males con varianzas desconocidas e iguales, construya un intervalo de confianza
del 95% para la diferencia real de nicotina de las dos marcas.
6. Cierto metal se produce, por lo común, mediante un proceso estándar. Se desa-
rrolla un nuevo proceso en el que se añade una aleación a la producción del
metal. Los fabricantes se encuentran interesados en estimar la verdadera dife-
rencia entre las tensiones de ruptura de los metales producidos por los dos pro-
cesos. Para cada metal se seleccionan 12 ejemplares y cada uno de éstos se
somete a una tensión hasta que se rompe. La siguiente tabla muestra las ten-
siones de ruptura de los ejemplares, en kilogramos por centímetro cuadrado:
Proceso
449 401 476 421 459 438 481 411 456 427 459 445
Estándar
Proceso
462 448 435 465 429 472 453 459 427 468 452 447
Nuevo
BIBLIOGRAFÍA DE LA UNIDAD I
2. La tabla adjunta muestra las utilidades (en dólares) obtenidas en todos los con-
tratos ejecutados por una empresa de Huancayo, en el año 2016:
Nº Monto Nº Monto Nº Monto Nº Monto
1 147,81 19 43,67 37 93,48 55 734,42
2 470,71 20 229,34 38 65,17 56 346,76
3 148,67 21 559,37 39 170,42 57 466,77
4 106,92 22 88,31 40 271,94 58 166,80
5 138,02 23 900,30 41 966,28 59 884,39
6 94,24 24 411,51 42 680,30 60 391,47
7 268,45 25 564,60 43 208,44 61 404,08
8 256,22 26 367,07 44 98,11 62 238,89
9 120,61 27 240,56 45 533,82 63 950,45
10 673,09 28 400,60 46 261,33 64 560,70
11 157,39 29 152,72 47 749,13 65 188,50
12 340,23 30 181,59 48 350,76 66 500,40
13 581,64 31 256,22 49 345,23 67 420,00
14 284,56 32 113,61 50 783,45 68 666,40
15 440,48 33 202,50 51 450,32 69 980,15
16 564,87 34 445,52 52 130,00 70 80,18
17 240,06 35 45,17 53 90,25 71 115,19
18 586,81 36 202,50 54 250,40 72 250,20
Notación:
H0
Ejemplo N° 1: Hipótesis nulas que incluyen proporciones, medias y desviaciones
estándar:
INICIO
verdadera.
En esta unidad emplearemos los siguientes estadísticos de prueba:
ESTADISTICOS DE PRUEBA
Proporciones Medias Desviación estándar
X X n 1 S2
p p Z ,o t X2
Z / n S/ n 2
pq / n
El estadístico de prueba para una media usa la distribución normal o la de
t
distribución de Student, dependiendo de los requisitos que se satisfagan.
1.5. REGIÓN CRÍTICA, NIVEL DE SIGNIFICANCIA, VALOR CRÍTICO Y
VALOR P
Valor crítico
Zona de no
Rechazo Región crítica
o zona de rechazo
Región crítica (o región de rechazo): Es el conjunto de todos los valores del es-
tadístico de prueba que pueden provocar que rechacemos la hipótesis nula.
Nivel de significancia (denotado por ): Es la probabilidad de que el estadístico
de prueba caiga en la región crítica, cuando la hipótesis nula es verdadera. Si el
estadístico de prueba cae en la región crítica, rechazamos la hipótesis nula, de ma-
nera que es la probabilidad de cometer el error de rechazar la hipótesis nula
cuando es verdadera. Se trata de la misma presentada en la unidad I, donde defi-
nimos el nivel de confianza para un intervalo de confianza como la probabilidad
1 . Las opciones comunes para son 0.05, 0.01 y 0.10, aunque la más común
es 0.05.
Valor crítico: Es cualquier valor que separa la región crítica (donde rechazamos la
hipótesis nula) de los valores del estadístico de prueba que no conducen al rechazo
de la hipótesis nula. Los valores críticos dependen de la naturaleza de la hipótesis
nula, de la distribución muestral que se aplique y del nivel de significancia . Observe
la 24, donde el valor crítico de z = 1.645 corresponde a un nivel de significancia de
0, 05 (Valores mencionados en la unidad I)
Cálculo de los valores críticos:
Para el cálculo de los valores críticos debemos tener en cuenta la distribución que se
nos presenta a través de las colas.
Las colas en una distribución son las regiones extremas limitadas por los valores
críticos. Algunas pruebas de hipótesis incluyen dos colas, otras la cola derecha y otras
la cola izquierda.
Zona crítica
/2 /2
ZL ZL
Valores críticos
Signo usado H1 Pr uebas de dos colas
Prueba de dos colas: La región crítica se encuentra en las dos regiones extremas
(colas) bajo la curva. En la prueba de dos colas, el nivel de significancia a está divi-
dido equitativamente entre las dos colas que constituyen la región crítica. Por ejem-
plo, en una prueba de dos colas con un nivel de significancia de = 0.05, existe
una área de 0.025 en cada una de las dos colas.
ERRORES DE TIPOS I Y II
Verdadero estado de las cosas
H0 Es verda- H0 Es falsa
dera
Decimos Error de tipo I Decisión
(Rechazo H
rechazar la H 0 Correcta
0
Decisión verdadera)
Decimos no Decisión Error de tipo II
rechazar la H (Rechazo H falsa)
0 Correcta 0
verdadera)
P error tipo I P rechazar H0 |H0 es verdadera
Error tipo II: El error de no rechazar la hipótesis nula cuando en realidad es falsa.
Notación: (beta) Probabilidad de un error tipo II (la probabilidad de rechazar
H0 falsa)
P error tipo II P aceptar H0 |H0 es falsa
1.7. POTENCIA DE UNA PRUEBA DE HIPOTESIS: Es la probabilidad de rechazar
la hipótesis nula H , cuando la hipótesis nula es verdadera.
0
H0 : Parametro X
H1 :Parametro x
Ejm.: H0 : 0 ; H0 : p p0
H1 : 0 H1 : p p0
Figura 27. Prueba de hipótesis bilaterales
H0 : Parametro X
H1 :Parametro x
Ejm.: H0 : 0 ; H0 : p p0
H1 : 0 H1 : p p0
Figura 28. Prueba de hipótesis unilateral izquierda
H0 : Parametro X
H1 :Parametro x
Ejm.: H0 : 0 ; H0 : p p0
H1 : 0 H1 : p p0
Figura 29. Prueba de hipótesis unilateral derecha
Solución:
X 11,5 kg
H0 : 12 12 kg
Sea: Además:
H1 : 12 0,5 kg
n4
a) Para calcular la probabilidad del error tipo I, se tiene los siguientes pasos:
1° Dada que la desviación estándar de la elongación del hilo es 0,5 , como la
elongación de hilo presenta tiene una distribución, para que se aplique las condicio-
nes del teorema de límite central, de modo que la distribución de la media muestral
es aproximadamente normal con media 12 kg y desviación estándar de
/ n 0,5 / 4 0,25
X
2° Como se presenta una distribución normal, es estadístico es: Z
/ n
3° Representación de la región crítica para X 11,5 kg . La zona sombreada corres-
ponde a la región crítica.(cola a la izquierda)
X 11,5 12
Z 2
/ n 0,25
Buscando en la Tabla A – 2, se tiene:
Z 2 Z 0,0228
5° Cálculo de la probabilidad de cometer del error tipo I, se tiene:
P error tipo I P rechazar H0 |H0 es verdadera
P X 11,5| 12
P Z 2
0,0228
Esto implica que el 2,28% de todas las muestras aleatorias conduci-
rán a un rechazo de la hipótesis H0 : 12 kg cuando la verdadera elon-
gación del hilo es en realidad 12 kg.
/ n 0,5 / 4 0,25
X
2° Como se presenta una distribución normal, es estadístico es: Z
/ n
3° Representación de la región crítica para X 11,25 kg . La zona sombreada corres-
ponde a la región crítica.(cola a la izquierda)
X 11,25 12
Z 1
/ n 0,25
Buscando en la Tabla A – 2, se tiene:
Z 1 Z 0,1587
5° Cálculo de la probabilidad de cometer del error tipo II, se tiene:
P error tipo II P aceptar H0 |H0 es falsa
P X 11,25| 12
P Z 1
0,1587
Esto implica que el 15,87% de todas las muestras aleatorias conduci-
rán a una aceptación de la hipótesis H0 : 12 kg cuando la verdadera
elongación del hilo es en realidad 11,25 kg.
ACTIVIDAD AUTOFORMATIVA N° 1
Existen tres métodos para realizar la aseverancia de hipótesis: El método del Valor
P, método tradicional y método por intervalos de confianza. Estos métodos nos per-
miten tener una aproximación donde se diseña una alternativa a la simple conclusión
de "rechazo" o "no rechazo" de una proposición (hipótesis) que ayuda en la toma de
decisiones. En esta sección mostraremos los pasos a seguir en cada método, y cons-
tatará que tienen casi cierta similitud, es por ello que usted decidirá cuál de ellos es
más práctico para realizar la prueba de hipótesis de diverso situaciones problemati-
zadas.
1.4. MÉTODO DEL VALOR P
Gráfica
Valor e P
2 1 Z0 Z0
1 Z0
Planteamiento H0 : 0 H0 : 0 H0 : 0
de Hipótesis Ejm: Ejm.: Ejm.:
H1 : 0 H1 : 0 H1 : 0
Nota: Sea: Z Función de una distribución acumulada normal. Significa
Este método está basado en el cálculo del valor P, estudiado en la sección anterior,
para determinar la aseveración de la prueba de hipótesis.
Pasos a seguir en este método.
1° Identificación de la hipótesis especifica que será probada y expresarla en forma
simbólica.
2° De la forma simbólica que debe ser verdadera cuando la hipótesis original es
falsa.
3° De las dos expresiones simbólicas obtenidas hasta este momento, permite que la
hipótesis alternativa H1 sea la que contenga igualdad, de manera que la H1 , em-
plea los símbolos > o < o . Permite que la hipótesis nula H0 sea la expresión
simbólica de que el parámetro es igual al valor fijo considerado.
4° Elije el nivel de significancia
con base en la gravedad de cometer un error de
tipo I. Disminuye si las consecuencias de rechazar una H0 verdadera son gra-
ves. Los valores 0,05 y 0,01 son muy comunes.
5° Identifique el estadístico que se revela para esta prueba y determina su distribu-
ción muestral (normal, t, chi cuadrada).
6° Calcule el estadístico de prueba y el valor de P. Dibuje una gráfica y muestre
el estadístico de prueba y el valor P.
7° Rechace H0 si el valor de P es menor o igual que el nivel de significancia . No
rechace H0 si el valor P es mayor que .
8° Replantee esta decisión previa en términos sencillo y sin tecnicismos y retome la
hipótesis original.
Intervalos de Confianza
Bilateral
P Z /2 XZ
/2
Dos colas
Unilateral P X Z 1
Cola a la izquierda
P X Z 1
Cola a la derecha
Como observamos estos tres métodos coinciden desde el primer paso hasta el
cuarto o quinto, de ahí se aplica la particularidad del método mostrado. Todos
estos métodos se aplicaran indistintamente en la resolución de problemas en la
siguiente sección, para poder corroborar los pasos que hay que tener en cuenta
para determinar el rechazo o no rechazo de una hipótesis. Estos métodos se
muestran su aplicación en la siguiente sección.
Tema N° 3: PRUEBA DE HIPOTESIS PARA UNA MUESTRA
3.1. PRUEBA DE HIPOTESIS SOBRE UNA PROPORCIÓN POBLACIONAL p
Requisitos
Las observaciones muestrales son una muestra aleatoria simple.
Se satisfacen las condiciones para una distribución binomial.
Se satisface las condiciones np 5 y nq 5 de la población (utilizada en la
hipótesis nula)
Donde: np y npq
Notación
n Tamaño de la muestra
X
p Proporción muestral
n
p Proporción de la población (ulitizada en H0 )
q 1p
pp
Estadístico de prueba: Z
pq / n
Valor P: Utilice la distribución normal estándar (Tabla A – 2) y remítase a la figura
2.1
Valores Críticos: Utilice la distribución normal estándar (Tabla A – 2)
0,02 0,05
Luego, reemplazando: Z 1,95
0,05 0,95 / 20
Por lo tanto: : Z 1,95
Utilizando este valor procedemos al calculo del valor P. Según el diagrama de flujo
de la figura 2.1, se resume el calculo del valor P. Se trata de una prueba de una cola
de manera que P es el área a la izquierda, ahora nos remitimos a la tabla A – 2 para
encontrar el valor de P que equivale a 0,0256
Luego si: P No se rechaza H0 al nivel de significancia
si: P Se rechaza H0 al nivel de significancia
Por lo tanto: Z 9
De paso 3° se menciona H1 : 5,5 onzas , entonces se determine que la región
critica esta en la cola izquierda de la distribución normal. Para ello determinamos los
valores críticos, con el nivel de significancia de 0,05 , donde los valores criticos
son ZL = - 1,645, y lo representamos en la gráfica siguente:
Luego
Si: Z 1,645 No se rechaza H0
Si : Z 1,645 Se rechaza H0
Figura 35. Región de rechazo unilateral
H0 : 0 si : X a 0 X b Rechazar la H0
a 0 Z /2. / n
Donde:
b 0 Z /2. / n
Ejemplo N° 2: Una empresa eléctrica fabrica focos que tienen una duración que se
distribuye de forma aproximadamente normal con una media de 800 horas y una
desviación estándar de 40 horas. Si una muestra aleatoria de 30 focos tiene una
duración promedio de 788 horas, ¿muestran los datos suficiente evidencia para decir
que la duración media ha cambiado? Utilice un nivel de significancia del 0.04.
Solución: Para solucionar, se observa que es una distribución muestral de medias
con desviación estándar conocidas, donde se sigue los siguientes pasos:
1° La aseveración original dice que la duración media de los focos ha cambiado:
800 horas
2° El opuesto de la aseveración original: 800 horas
3° Como 800 horas y no es igual, entoces se convierte en una hiposesis
H0 : 800 horas
alternativa, opteniendose:
H1 : 800 horas
X 800
2,052 40 800 14,98
Luego, reemplazando:
30
X 800 14,98
X 800 14,98 814,98 y X 200 14,98 785,02
Por lo tanto: 785,02 X 814,98
Luego
Si: 785,02 X 8,14,98 No se rechaza H0
Si : X 785,98 o X 814,02 Se rechaza H0
X x
Estadístico de prueba: t
S/ n
Valor P y valores críticos: Utilice la distribución normal estándar (Tabla A – 3) y
utilice gl n 1 para el número de grados de libertad, remítase a la figura 2.1 para
el cálculo de P
Ejemplo N° 1: El Instituto Eléctrico Edison publica cifras del número anual de Kilo-
watt-hora que gastan varios aparatos electrodomésticos. Se afirma que una aspira-
dora gasta un promedio de 46 kilowatt-hora al año. Si una muestra aleatoria de 12
hogares que se incluye en un estudio planeado indica que las aspiradoras gastan un
promedio de 42 kilowatt-hora al año con una desviación estándar de11.9 kilowatt-
hora, ¿esto sugiere con un nivel de significancia de 0.05 que las aspiradoras gastan,
en promedio, menos de 46 kilowatt-hora anualmente? Suponga que la población de
kilowatt-hora es normal.
Solución:
Se trata de una distribución muestral de medias con desviación estándar descono-
cida, pero como el tamaño de muestra es menor a 30. Para cual se utilizará una
distribución t de Student .Se puede tomar la desviación muestral como un esti-
mador puntual para la poblacional, donde se sigue los siguientes pasos:
1° La aseveración original dice que las aspiradoras gastan, en promedio, menos de
46 kilowatt-hora anualmente: 46 kilowatt hora
2° El opuesto de la aseveración original: 46 kilowatt hora
3° De las dos expresiones simbolicas anteriores, la expresión
46 kilowatt hora . No contiene igualdad por lo que se combierte en la
hipótesis alternativa . la hipotesis nula es la afirmación de que igual al valor fijo
de 46. Como consecuencia se expresa:
H0 : 46 kilowatt hora
Opteniendose:
H1 : 46 kilowatt hora
X
tL .S
46
1,79611,9 39,83
n 12
Luego: Si: XL 39,83 No se rechaza H0
Si : XL 39,83 Se rechaza H0
rechaza la H0
X 2
n 1 S2
Estadístico de prueba:
2
Valor P y valores críticos: Utilice la Tabla A – 4, con gl n 1 para el número de
grados de libertad (La tabla A – 4 está basada en áreas acumuladas de la derecha).
Tener en cuenta la distribución de las colas, por ejemplo: Nivel de significancia de
0,05
Prueba unilateral
Prueba Prueba con cola Prueba con cola
Bilateral a la derecha a la izquierda
Divida el nivel de manera Como el área de la Como el área de la
que las de significancia de derecha del valor izquierda del valor
0,05 entre la cola derecha e crítico es 0,05, crítico es 0,05, el
izquierda, de manera que las localice 0,05 en la área a la derecha
áreas a la derecha de los dos parte superior del valor crítico es
valores críticos sean 0,975 y de la tabla A – 4 0,95, así que loca-
0,025, respectivamente. Lo- lice 0,95 en la parte
calice 0,975 y 0,05 en la superior de la tabla
parte superior de la tabla A–4
A – 4.
Ejemplo N° 1: Una compañía que produce una parte de máquina para un motor,
afirma que tiene una varianza de diámetro no mayor a 0.0002 pulgadas. Una muestra
aleatoria de 10 de dichas partes dio una varianza de muestra s 2 = 0.0003. Si se
supone que las medidas del diámetro se distribuyen en forma normal, ¿hay evidencia
para refutar lo que afirma el proveedor? Use 0,05 . Calcule el valor P.
Solución: En este caso se considera prueba de hipótesis respecto a una varianza de
la población 2 . Aquí se utiliza la distribución Chi cuadrada. Para ello se sigue los
pasos siguientes:
1° La aseveración original dice que la compañía produce máquina para un motor
que tiene una varianza de diámetro no mayor a 0.0002 pulgadas: 0,0002
2° El opuesto de la aseveración original: 0,0002
3° De las dos expresiones simbolicas anteriores, la expresión 0,0002 No
.
contiene igualdad por lo que se combierte en la hipótesis alternativa . la hipotesis
nula es la afirmación de que 2 es igual al valor fijo de 0,0002. Como consecuencia
se expresa:
H0 : 2 0,0002
Opteniendose:
H1 : 2 0,0002
4° El nivel de significancia es 0,05
5° Dado que la aseveración implica una varianza poblacional 2 , y como los
2
requisitos para utilizar el estadistico relevante prueba X satisface empleamos la
distribución Chi cuadrata . Remitase a la Unidad I.
X 2
n 1 S2
6° El estadistico de prueba es:
2
Para este ejercicio de vemos calcular la media y la desviación estándar muestral,
haciendo uso de una calculadora.
2 0,0002 0,05
Donde:
S2 0,0003 n 10
Luego, reemplazando: X2
10 1 0,0003 13,5
0,0002
Por lo tanto: X2 13,5
De paso 3° se menciona H1 : 2 0,0002 , entonces se determine que la región
critica esta en la cola derecha de la distribución chi cuadrada . Para ello determinamos
los valores críticos, con el nivel de significancia de 0,05 , y grados de libertad :
gl n 1 10 1 9 donde los valores criticos son X2L = 16,919, y lo representamos
en la gráfica siguente:
Luego
X 2
n 1 S2
6° El estadistico de prueba es:
2
2 18 0,05
Donde:
S 4,8 n 10
10 1 4,8
2
Luego, reemplazando: X 2
11,52
18
Por lo tanto: X2 11,52
De paso 3° se menciona H1 : 2 18 mg2 , entonces se determine que la región
critica esta en las dos colas de la distribución chi cuadrada . Para ello determinamos
los valores críticos, con el nivel de significancia de 0,05 , y grados de libertad :
gl n 1 10 1 9 donde los valores criticos son X2L = 2,7 y 19,023, y lo
representamos en la gráfica siguente:
Luego
PROPORCIÓN np 5 nq 5 p p Tabla A - 2
Z
pq / n
2 conocida
o X x
y n 30 Z Tabla A – 2
Población / n
distribuida
normalmente
2 desconocida
t Student
MEDIA y n 30 Tabla A – 3
X x
o t
Población S/ n
distribuida nor-
malmente
Población no Usar método no
Distribuida para métrico o
normalmente Bootstrapping
n 30
VARIANZA Población Chi cuadrada
distribuida
normalmente X 2
n 1 S2 Tabla A – 4
2
ACTIVIDAD N° 3
Ho: π = 0,40
H1: π ≠ 0,40
Una muestra de 120 observaciones reveló que p = 0,30. ¿Puede rechazar la hi-
pótesis nula en el nivel de significancia de 0,05?
a) Formule la regla de decisión
b) Calcule el valor del estadístico de prueba
c) ¿Cuál es su decisión respecto de la hipótesis nula?
2. Un artículo reciente de USA Today informó que sólo hay un trabajo disponible por
cada tres nuevos graduados de universidad. Las principales razones fueron una
sobrepoblación de graduados universitarios y una economía débil. Una encuesta
de 200 recién graduados reveló que 80 estudiantes tenían trabajo. Con un nivel
de significancia de 0,02. ¿Puede concluir que una proporción mayor de estudiantes
de su escuela tienen empleo?
Nota: se recomienda utilizar el procedimiento de los cinco pasos para la prueba
de hipótesis.
3. Una investigación de la universidad de Toledo indica que el 50% de los estudiantes
cambia de área de estudios después del primer año en un programa. Una muestra
aleatoria de 100 estudiantes de la Facultada de Administración reveló que 48 ha-
bían cambiado de área de estudio después del primer año del programa de estu-
dios. ¿Hubo una reducción significativa en la proporción de estudiantes que cam-
bian de área el primer año en este programa? Realice una prueba con un nivel de
significancia de 0,05.
Nota: se recomienda utilizar el procedimiento de los cinco pasos para la prueba
de hipótesis.
4. Un constructor afirma que se instalan bombas de calor en 70% de todas las casas
que se construyen hoy en día en la ciudad de Lima. ¿Estaría de acuerdo con esta
afirmación si una investigación casas nuevas en esta ciudad muestra que 8
de 15 tienen instaladas bombas de calor? utilice un nivel de significancia de 0.10.
II. Resuelva los siguientes ejercicios aplicando estimación de me-
dias con desviación estándar:
5. Se selecciona una muestra de 36 observaciones de una población normal. La me-
dia muestral es de 12, y el tamaño de la muestra 36. La desviación estándar de
la población es 3. Utilice el nivel de significancia 0,02.
Ho: u <= 10
H1: u > 10
a) Es una prueba de una o de dos colas?
b) Cuál es la regla de decisión?
c) Cuál es el valor del estadístico de prueba?
d) Cuál es su decisión al respecto de Ho?
e) Cuál es el valor p? Interpreta este valor
6. Se selecciona una muestra de 64 observaciones de una población normal. La me-
dia de la muestra es de 215, y la desviación estándar de la población, 15. Lleve a
cabo la prueba de hipótesis, utilice el nivel de significancia 0,03.
Ho: u >= 220
H1: u < 220
a) Es una prueba de una o de dos colas?
b) Cuál es la regla de decisión?
c) Cuál es el valor del estadístico de prueba?
d) Cuál es su decisión al respecto de Ho?
e) Cuál es el valor p? Interpreta este valor
7. En el momento en que fue contratada como mesera en el Grumney Family Res-
taurant, a Beth Brigden le dijeron: “Puedes ganar en promedio más de $80 al día
en propinas”. Suponga que la desviación estándar de la distribución de población
es de $3,24. Los primeros 35 días de trabajar en el restaurante, la suma media
de sus propinas fue de $84,85. Con el nivel de significancia de 0,01. ¿La señora
Brigden puede concluir que gana un promedio de más de $80 en propinas?.
8. Una empresa eléctrica fabrica focos que tienen una duración que se distribuye de
forma aproximadamente normal con una media de 800 horas y una desviación
estándar de 40 horas. Pruebe la hipótesis de que µ≠800 horas si una muestra
aleatoria de 30 focos tiene una duración promedio de 788 horas. Utilice un nivel
de significancia de 0.04.
9. Una muestra aleatoria de 100 muertes registradas en Estados Unidos el año pa-
sado muestra una vida promedio de 71.8 años. Suponga una desviación estándar
poblacional de 8.9 años. Queremos probar si la vida media hoy en día es mayor a
70 años con base en esa muestra. La muestra parecería indicar que es así pero
¿Cuál es la probabilidad de que la media de la muestra no refleje la verdadera
media de la población? Utilizar un nivel de significancia de 0.05.
10. Las puntuaciones en un test que mide la variable creatividad siguen, en la
población general de adolescentes, una distribución Normal de media 11,5. En un
centro escolar que ha implantado un programa de estimulación de la creatividad
una muestra de 30 alumnos ha proporcionado las siguientes puntuaciones:
11, 9, 12, 17, 8, 11, 9, 4, 5, 9, 14, 9, 17, 24, 19, 10, 17, 17, 8, 23, 8, 6,
14, 16, 6, 7, 15, 20, 14, 15.
A un nivel de confianza del 95% ¿Puede afirmarse que el programa es efectivo?
11. En una muestra de 1000 nacimientos el número de varones ha sido 542
¿Puede considerarse, con un nivel de significación del 10%, que en general nacen
más niños que niñas?
12. En una muestra de 66 alumnos se ha calculado el coeficiente de correlación
de Pearson entre sus puntuaciones en el primer parcial de Análisis de Datos y el
tiempo que se emplea en desplazarse desde su domicilio hasta la Facultad, obte-
niéndose que r vale 0,24. Podemos mantener, con un nivel de confianza del 95%,
la idea de que estas variables son incorreladas, o por el contrario debemos recha-
zarla.
13. Las puntuaciones en un test de razonamiento abstracto siguen una distribu-
ción Normal de media 35 y varianza 60. Para evaluar un programa de mejora de
las capacidades intelectuales, a 101 individuos que están realizando este pro-
grama se les pasa el test, obteniéndose una media de 50 puntos y una varianza
de 80 ¿Puede asegurarse, a un nivel de confianza del 90%, que el programa in-
crementa las diferencias individuales en esta variable?
14. Un criador de pollos sabe por experiencia que el peso de los pollos de cinco
meses de 4,35 libras. Los pesos siguen una distribución normal. Para tratar de
aumentar el peso de dichas aves se le agrega un aditivo al alimento. En una mues-
tra de pollos de cinco meses se obtuvieron los siguientes pesos en libras
4,41 4,37 4,33 4,35 4,30 4,39 4,36 4,38 4,40 4,39
Ho: μ =400
H1: μ ≠ 400
En el caso de una muestra aleatoria de 12 observaciones seleccionada de una
población normal, la media muestral fue de 407, y la desviación estándar de la
muestra, de 6. Utilice el nivel de significancia 0,01.
a) Formule la regla de decisión?
b) Calcule el valor de estadístico de prueba
c) Cuál es su decisión respecto de la hipótesis nula?
18. La administración de White Industries analiza una nueva técnica para armar
un carro de golf; la técnica actual requiere 42,3 minutos de trabajo en promedio.
El tiempo medio de montaje de una muestra aleatoria de 24 carros, con la nueva
técnica, fue de 40,6 minutos, y la desviación estándar, de 2,7 minutos. Con un
nivel de significancia de 0,10, ¿puede concluir que el tiempo de montaje con la
nueva técnica es más breve?
19. En la actualidad, la mayoría de los que viajan por avión compra sus boletos
por internet. De esta forma, los pasajeros evitan la preocupación de cuidar un
boleto de papel, además de que las aerolíneas ahorran. No obstante, en fechas
recientes, las aerolíneas han recibido quejas relacionadas con los boletos, en par-
ticular cuando se requiere hacer un enlace para cambiar de línea. Para analizar el
problema, una agencia de investigación independiente tomó una muestra aleatoria
de 20 aeropuertos y recogió información relacionada con la cantidad de quejas
que hubo sobre los boletos durante marzo. A continuación se presenta la informa-
ción.
14 14 16 12 12 14 13 16 15 14
12 15 15 14 13 13 12 13 10 13
Recuerda de la Unidad I:
ESTIMADO DEL INTERVALO DE CONFIANZA DE: p1 p 2 , es:
p1 p2 E p1 p2 p1 p2 E
p1 q1 p2 q2
Donde el margen de error E es: E Z /2
n1 n2
Z
0,60 0, 48 0 2,87
0,51 0, 49 0,51 0, 49
200 500
X1 Media muestral
1 Media poblacional
Estadístico de prueba, 1 2 : Z
X X
1 2 1 2
12 22
n1 n2
Valor P y valores críticos: Remítase a la Tabla A – 2
secado, por eso se pone la diferencia mayor a cero para probar que 2 es menor
que 1
H0 : 1 2 0
Opteniendose:
H1 : 1 2 0
4° El nivel de significancia es 0,05
5° Dado que la aseveración implica dos medias poblacionales 1 y 2 , el estadistico
relevante de esta prueba es la diferencia de las medias muestrales X1 X2 . Como
se supone que conocemos las desviaciones estándares 1 2 8 min y las
poblaciones se distribuye normalemente, el límite del teorema central indica que la
distribución de medias muestrales pueden ser aproximarse por medio de una
distribución normal.
6° El estadistico de prueba es:
12 22
X1 X2 1 2 Z
n1 n2
8 8
2 2
CASO 1: Si:
1 2
En este caso se considera prueba de hipótesis sobre las dos medias poblaciones,
desconociendo las desviaciones estándares ( 1 y 2 ), si se puede suponer que
1 2 , las varianzas muestrales S12 y S22 pueden agrupar es para obtener un esti-
X1 Media muestral
1 Media poblacional
12 Varianza poblacional
Estadístico de prueba, 1 2 : t
X X
1 2 1 2
Sp2 Sp2
n1 n2
Sp2 Sp2
n1 n2
Grados de libertad: gl n1 n2 2
1 85 2 81 n1 12 0,05
Donde:
S1 4 S2 5 n2 10
Calculando la varianza común (agrupada):
12 1 4 10 1 5
2 2
S 2
20,05
p
12 1 10 1
Luego, reemplazando: t
85 81 2 1,04
20,05 20,05
12 10
Por lo tanto: t 1,04
De paso 3° se menciona H1 : 1 2 2 , entonces se determine que la región
critica esta en la cola a la derecha de la distribución normal. Para ello determinamos
los valores críticos, con el nivel de significancia de 0,05 y con grados de libertad:
gl n1 n2 2 12 10 2 20 , donde el valor critico es ZL = 1,725, y lo
representamos en la gráfica siguente:
Luego
Si: H1 : 1 2 2 No se rechaza H0
Si : H1 : 1 2 2 Se rechaza H0
CASO 2: Si:
1 2
Se trata de distribuciones muestrales de dos medias con desviaciones estándares
desconocidos y diferentes ( 1 2 ), ambas distribuciones normalmente distribui-
das, para este caso no existe un estadístico t exacto para probar H0 :1 2 , el
estadístico es:
X X
1 2 1 2
Estadístico de prueba 1 2 : t
S12 S22
n1 n2
Grados de libertad: Para el cálculo del Valor P o valores críticos, utilice el número
de grados de libertad teniendo en cuenta:
Grado de libertad el más pequeño: gl : n1 1 y n2 1
Programas de cómputo utilizan el estimado más exacto y está fundamentado en:
A B
2
S12 S2
gl , donde: A y B 2
A2 B2 n1 n2
n1 1 n2 1
Valor P: Remítase a la Tabla A – 3. Utilice el procedimiento resumido en la figura
2.1
Valores críticos: Remítase a la Tabla A – 3
Espécimen 1 2 3 4 5 6 7 8
Prueba 1 1,2 1,3 1,5 1,4 1,7 1,8 1,4 1,3
Prueba 2 1,4 1,7 1,5 1,3 2,0 2,1 1,7 1,6
Solución: Se trata de distribuciones muestrales de dos medias con desviaciones es-
tándares desconocidos y diferentes ( 1 2 ), ambas distribuciones normalmente
distribuidas, para este caso se aplica el estadístico t exacto con grados de libertad
establecido; y se sigue los siguientes pasos:
1° La aseveración original dice que existe suficiente evidencia para concluir que
ambas pruebas dan el mismo nivel de impureza promedio: 1 2
1 : Promedio del nivel de impureza en aleación de acero, en Prueba 1
S12 S22
n1 n2
Donde el grado de libertad se calcule mediante:
A B
2
S12 S2
gl , donde: A y B 2
A2 B2 n1 n2
n1 1 n2 1
Calculando las medias y desviaciones estándar muestrales haciendo uso de la
calculadora tenemos:
X1 1,45 X2 1,66 n1 n2 8 0,05
Donde:
S1 0,21 S2 0,28
0,21 0,28
2 2
0,0055 0,0098
2
gl 12,98 13
0,0055 0,0098
2 2
81 81
Luego, reemplazando: t
85 81 2 1,04
20,05 20,05
12 10
Por lo tanto: t 1,04
De paso 3° se menciona H1 : 1 2 , entonces se determine que la región critica
esta en dos colas de la distribución normal. Para ello determinamos los valores
críticos, con el nivel de significancia de 0,10 / 2 0,05 y con grados de
libertad: gl 13 , donde el valor critico es ZL = 1,746, y lo representamos en la
gráfica siguente:
Luego
Si: 1,746 t 1,746 No se rechaza H0
Si : t 1,746 o t 1,746 Se rechaza H0
Figura 48. Región de rechazo
2
1 Varianza de la población donde se obtiene la muestra con la
varianza más grande
Se adjunta los significados correspondientes a n2 ,S22 ,22 provienen de la población 2.
2
S
Estadístico de prueba: F 1
2
S
2
Ejemplo N° 1: Se realiza un estudio para comparar el tiempo que les toma a hom-
bres y mujeres ensamblar cierto producto. La experiencia indica que la distribución
del tiempo tanto para hombres como para mujeres es aproximadamente normal,
pero que la varianza del tiempo para las mujeres es menor que para los hombres.
Una muestra aleatoria de los tiempos de 11 hombres y 14 mujeres produce los si-
guientes datos:
Hombres Mujeres
n1 11 n2 14
S1 6,1 S2 5,3
Pruebe la hipótesis de que 12 22 contra la alternativa de que 12 22 . Utilice un
valor P en su conclusión.
S1 6,1 n1 11 0,05
Donde:
S2 5,3 n 2 14
6,1 1,32
2
Luego, reemplazando: F
5,3
2
Luego
conocida o
Z
X X
1 2 1 2 Tabla A – 2
y n 30 12 22
Población n1 n2
distribuida
normalmente
M Distribución t Student :
E
Si: 1 2 :
D
I
A
S
12 y 22
t
X X
1 2 1 2
desconocida
Sp2 Sp2
y n 30
n1 n2
o
Varianza agrupada:
Población
distribuida
normalmente
S 2
n 1
1 S12 n2 1 S22
p
n 1 n
1 2 1
Tabla A – 3
gl n1 n2 2
Población no Distribución t Student :
Distribuida
normalmente Si: 1 2 :
n 30
X X
1 2 1 2
t
S12 S22
n1 n2
Tabla A - 3
A B
2
gl , donde:
A2 B2
n1 1 n2 1
S12 S2
A y B 2
n1 n2
ACTIVIDAD N° 5
29 10 27 8 26 11 25 7 13 9 28 24 7 22 9
Muestra A
12 9 13 15 8 11 19 20 25 18 23 29 26 8 11
9 14 11 8 15 19 21 13 10 8 17 22 19 11 7
Muestra B
24 18 15 11 26 17 7 14 12 10 8 11 6 9 12
Según los datos obtenidos y suponiendo normalidad, ¿podríamos decir que el im-
pacto fue mayor en las mujeres del asentamiento humano ubicado en el área
urbana? Utilizar un nivel de significación del 5%.
GRUPO A 3 4 3 4 4 4 5
GRUPO B 4 1 2 3 1 3 2 3
EQUIPO DE
131 135 146 165 136 142 148
VENTAS (S/.)
PERSONAL DE
COBRANZAS 130 102 129 143 149 120 139
(S/.)
a) ¿Al nivel de significancia de 0,10, puede concluirse que los gastos medios
diarios del equipo de ventas son mayores?
b) ¿Cuál es el valor p?
8. Se lleva a cabo un experimento para comparar el desgaste por abrasivo de dos
diferentes materiales laminados. Se prueban 12 piezas del material 1 mediante
la exposición de cada pieza a una máquina para medir el desgaste. 10 piezas del
material 2 se prueban de manera similar. En cada caso, se mide la profundidad
del desgaste. Las muestras del material 1 dan un desgaste promedio de 85 uni-
dades con una desviación estándar muestral de 4, mientras que las muestras del
material 2 dan un promedio de 81, desviación estándar muestral de 5. ¿Podemos
concluir con un nivel de significancia del 0,05 que el desgaste abrasivo del ma-
terial 1 excede el del material 2 en 2 unidades?
¿Se puede decir en el nivel de significancia del 0,05 que el suero es efectivo?
Suponga que las dos poblaciones se distribuyen normalmente con varianzas
iguales.
10. Los tiempos de respuesta en días de dos procesos de atención al cliente se mues-
tran a continuación:
Proceso A
2,95 3,16 3,12 3,45 3,2 3,22 3,5 3,22 2,98 3,75
3,38 3,45 3,48 3,9 3,7 3,26 3,36 3,34 3,33 3,25
3,18 3,2 3,28 3,35 3,12
Proceso B
3,22 3,3 3,34 3,28 3,29 3,25 3,3 3,27 3,38 3,34
3,35 3,19 3,35 3,05 3,36 3,258 3,3 3,28 3,3 3,3
3,2 3,16 3,33
Probar a un 95% de confianza si hay diferencia entre las varianzas de las dos
muestras.
Tema N° 5: PRUEBAS DE BONDAD, TABLAS DE CONTINGEN-
CIAS
Estadístico de prueba: X
2
E
Valores críticos:
Los valores críticos se encuentran en la Tabla A – 4. Utilice:
Grados de libertad: k 1 K: Número de categorías
Las pruebas de hipótesis de bondad siempre son de cola dere-
cha.
Ejemplo N° 1: Una moneda fue lanzada al aire 1000 series, de 5 veces cada serie y
se observó el número de caras de cada serie. El número de series en los que se
presentaron 0, 1, 1, 3, 4 y 5 caras se muestra en la siguiente tabla.
N° caras 0 1 2 3 4 5 Total
N° de series (fi) 38 144 342 287 164 25 1 000
Es: X .f1 i
2, 47 p
2, 47
0, 494
n 5 5
q 1 p 0,506
3° Probabilidad de la distribución Binomial:
P x 5 Cx 0, 494 0,506
x 5x
0 0,0332 33,2 38
5 0,0294 29,4 25
4° Para los grados de libertad el valor de m será uno, ya que se tuvo que estimar la
media de la población para poder obtener el valor de P y así poder calcular los va-
lores esperados.
Grados de libertad: k-1-m = 6-1-1 = 4
5° Si: X2 9, 49 No se rechaza H0
X2 9, 49 Se rechaza H0
n
O
2
j Ej
j1
6° Cálculo de X :
2
X2
Ej
38 33,2 144 161,9 342 316,2 287 307,7 184 150,7 25 29,4
2 2 2 2 2 2
X2
33,2 161,9 316,2 307,7 150,7 29,4
X 8,1358 8,14
2
¿Muestran estos datos suficiente evidencia para decir que provienen de una distribu-
ción Poisson?. Haga la prueba de la bondad del ajuste con un 0,05
Solución:
1° H0; La forma de la distribución de los defectos es Poisson.
H1; La forma de la distribución de los defectos no es Poisson.
2° La media de la distribución Poisson propuesta en este ejemplo es desconocida y
debe estimarse a partir de los datos contenidos en la muestra.
30 0 15 1 9 2 4 3
0,75
60
3° A partir de la distribución Poisson con parámetro 0.75, pueden calcularse las pro-
babilidades asociadas con el valor de x. Esto es la fórmula de la Poisson es:
x .e 0,75x.e0,75
P x
x! x!
Con esta fórmula se calculan las probabilidades, mismas que se multiplican por 60
para obtener los valores esperados.
Número de Frecuencia Frecuencia
Probabilidad
defectos esperada observada
0 0.472 28.32 32
1 0.354 21.24 15
2 0.133 7.98 9
0 28.32 32
1 21.24 15
2 ó más 10.44 13
O
2
j Ej
j1
6° Cálculos de X :
2
X2
Ej
32 28,32 15 21,24 13 10, 44
2 2 2
X 2
28,32 21,24 10, 44
X2 2,94
7° Como el 2.94 no es mayor a 3.84, no se rechaza H 0 y se concluye con
un 0,05 que la distribución de defectos en las tarjetas de circuito impreso es
Poisson.
ESTADISTICO DE PRUEBA: X
2
E
VALORES CRÍTICOS:
Para los valores críticos remítase a la Tabla A – 4,
Grados de libertad = (r – 1)(c - 1),
donde: r Número de renglones
c Número de columnas
En una prueba de independencia de una tabla de contingencia, región crítica se
localiza sólo en la cola derecha
Ejemplo N° 1:
1. Una asociación de profesores universitarios quiere determinar si la satisfacción en
el trabajo es independiente del rango académico. Para ello realizó un estudio na-
cional entre los académicos universitarios y encontró los resultados mostrados son
la tabla siguiente. Con 0,05 haga una prueba para saber si son dependientes
la satisfacción en el trabajo y el rango.
Rango
Poca 57 63 66 64
Solución:
1° Ho; La satisfacción en el trabajo y el rango son independientes.
H1; La satisfacción en el trabajo y el rango son dependientes.
2° Grados de libertad: (r-1)(c-1) = (3-1)(4-1)=(2)(3) = 6
3° Si: X2 12,592 no se rechaza Ho
X2 12,592 se rechaza Ho
Figura 54. Región de rechazo
4° Se procederá a calcular los valores esperados de cada celda. Como los grados de
libertad son 6, esto quiere decir que necesitamos calcular únicamente 6 frecuencias
esperadas, y las faltantes se encuentran por diferencia.
5° Se calcularán los valores esperados E11, E12, E13, E21, E22 y E23.
Como se necesitan los totales de renglón y columna se mostrarán en la tabla:
Rango
Profe-
Profesor
Instruc- sor
Aso- Profesor Total
tor asis-
ciado
tente
Satisfac-
ción en el
Mucha 40 60 52 63 215
trabajo
Regular 78 87 82 88 335
Poca 57 63 66 64 250
1 t r
Eij n i j
n i1
Oij . Oij
j1
E11
215175 47,03 E12
215 210 56,44 E13
215 200 53,75
800 800 800
E21
335175 73,28 E 335 210 87,94 E 335 200 83,75
22 23
800 800 800
....
Rango
Profe- Profe-
Satisfac- Instruc- sor sor Profe-
Total
ción tor asis- aso- sor
tente ciado
40 60 52 63
Mucha 215
(47,03) (56,44) (53,75) (57,78)
78 87 82 88
Regular 335
(73,28) (87,94) (83,75) (90,03)
57 63 66 64
Poca 250
(54,69) (65,62) (62,50) (67,19)
6° Los valores entre paréntesis son los esperados, los que no se calcularon por
fórmula se obtuvieron por diferencia con respecto a los totales.
O
2
t r Eij
X .
2 ij
X 2
...
47,03 56, 44 67,19
X 2,75
2
7° Como el valor de 2.75 es menor que el de tabla 12.592, por lo tanto no se rechaza
Ho y se concluye con un 0,05 que la satisfacción en el trabajo y el rango son
independientes.
X2 5,991 se rechaza Ho
Figura 55. Región de rechazo
4° Se procederá a calcular los valores esperados de cada celda. Como los grados de
libertad son 2, esto quiere decir que necesitamos calcular únicamente 2 frecuencias
esperadas, y las faltantes se encuentran por diferencia.
5° Se calcularán los valores esperados E11, E12, E21, E22, E31 E32.
Como se necesitan los totales de renglón y columna se mostrarán en la tabla:
1 t r
Eij n i j ij
n i1
O .
j1
Oij
E11
49100 16,33 E12
251100 83,67
300 300
E21
49100 16,33 E 251100 83,67
22
300 300
E31
49100 16,33 E 251100 83,67
32
300 300
Las frecuencias esperadas bajo homogeneidad son las representadas entre parénte-
sis.
Componentes Componentes
defectuosos correctos Total
Distribuidor 1 16 (16,33) 84 (83,67) 100
Distribuidor 2 24 (16,33) 76 (83,67) 100
Distribuidor 3 9 (16,33) 91 (83,67) 100
Total 49 251 300
6° Los valores entre paréntesis son los esperados, los que no se calcularon por
fórmula se obtuvieron por diferencia con respecto a los totales.
O
2
t r Eij
X2 .
ij
X 2
...
16,33 16,33 83,67 83,67
X2 8,9632
7° Como el valor de 8,9632 es mayor que el de tabla 5,991, por lo tanto debemos
concluir que no existe homogeneidad y por lo tanto que hay diferencias entre los tres
distribuidores a un nivel de significancia del 5%.
ACTIVIDAD N° 6
1. Cierto tipo de linterna de mano se vende con las cuatro pilas incluidas. Se obtiene
una muestra aleatoria de 152 linternas. Sea X la variable aleatoria que representa
el número de pilas defectuosas de una linterna seleccionada al azar. De las 150
linternas se determina el número de pilas defectuosas por linterna, resultando los
siguientes datos:
N° DE PILAS DEFECTUOSAS 0 1 2 3 4
FRECUENCIA OBSERVADA 24 54 28 26 10
BIBLIOGRAFÍA DE LA UNIDAD I
Respuesta
No Si Duda No sabe
El Tambo 2 31 2 5
Chilca 11 20 7 2
ANEXOS
Respuestas de la Autoevaluación n°1
Pregunta 1:
a) F, ya que en el estudio prospectivo se realizan proyecciones a futuro.
b) V
c) V
d) F, ya que en el estudio a ciegas el sujeto no sabe que está recibiendo el trata-
miento.
Pregunta 2:
a) Intervalo de selección: N/n=72/18=4
Elemento de arranque: 4
La muestra de los contratos está conformada por: 4; 8; 12; 16; 20; 24; 28; 32;
36; 40; 44; 48; 52; 56; 60; 62; 64 y 72. En la tabla sería los datos sombreados
Nº Monto Nº Monto Nº Monto Nº Monto
1 147,81 19 43,67 37 93,48 55 734,42
2 470,71 20 229,34 38 65,17 56 346,76
3 148,67 21 559,37 39 170,42 57 466,77
4 106,92 22 88,31 40 271,94 58 166,80
5 138,02 23 900,30 41 966,28 59 884,39
6 94,24 24 411,51 42 680,30 60 391,47
7 268,45 25 564,60 43 208,44 61 404,08
8 256,22 26 367,07 44 98,11 62 238,89
9 120,61 27 240,56 45 533,82 63 950,45
10 673,09 28 400,60 46 261,33 64 560,70
11 157,39 29 152,72 47 749,13 65 188,50
12 340,23 30 181,59 48 350,76 66 500,40
13 581,64 31 256,22 49 345,23 67 420,00
14 284,56 32 113,61 50 783,45 68 666,40
15 440,48 33 202,50 51 450,32 69 980,15
16 564,87 34 445,52 52 130,00 70 80,18
17 240,06 35 45,17 53 90,25 71 115,19
18 586,81 36 202,50 54 250,40 72 250,20
24+15
𝑝̅ = = 0,14 ; 𝑞̅ = 0,86
160+120
En la fórmula:
(0,15 − 0,125) − 0
𝑧𝑐 = = 0,597
√(0,14)(0,86) + (0,14)(0,86)
160 120
Respuesta
Total
No Si Duda No sabe
El Tambo 2/ 6,5 31/ 25,5 2/ 4,5 5/ 3,5 40
Chilca 11/ 6,5 20/ 25,5 7/ 4,5 2/ 3,5 40
Total 13 51 9 7 80
Pregunta 1: a) rs=0,964;
a) El diagrama de dispersión presenta una nube de puntos con pen-
diente positiva.
b) Se rechaza H0, ya que 0,964>0,893
Conclusión: Para un 98% de nivel de confianza se rechaza H0, por lo
que se asevera que existe una correlación significativa entre el nú-
mero de anuncios y las ventas generadas.
Pregunta 2: Con la calculadora se obtienen los datos:
a) Ecuación: 𝑦̂ = 16,2 − 0,36𝑥
b) El mejor puntaje predicho: 𝑦̂ = 13,32
c) r=-0,87: Existe una correlación negativa alta.
r2=75,36%: La variación del promedio se explica por la variación
de las inasistencias.
El diagrama es una nube de puntos con pendiente negativa.
Pregunta 3: a) El índice estimado de satisfacción es: y´=497,736
b) Para un ingreso adicional de 10 000 soles: y´=525,736
Para dos actividades sociales más: y´=551,336
Proporciona más satisfacción dos actividades sociales más por se-
mana.
Pregunta 4: Los modelos matemáticos son:
Modelo lineal Modelo logarítmico
A=-19,67 A=-10,42
B=14 B=36,25
Modelo: y=-19,67-14x Modelo: y=-10,42+36,25lnx
r= 0,9789 r= 0,8978
r2=0,9583≈95,83% r2=0,8061≈80,61%
Promedio móvil
Año Ventas Total móvil 3 años
de 3 años
1 202
2 204 202+204+163=569 569/3=189,67
3 163 204+163+161=528 528/3=176
4 161 163+161+146=470 470/3=156,67
5 146 161+146+184=491 491/3=163,67
6 184 146+184+170=500 500/3=166,67
7 170
El gráfico es:
250
200
150
100
50
0
2010 2011 2012 2013 2014 2015 2016
5,00
Luego: 𝐹𝑐 = = 0,2010
24,88
8,79
Luego: Fc = = 0,3533
24,88
Pieza de
Hora muestra Media Rango
1 2 3 4
9:00 51 50 20 40 40,25 31
10:00 47 45 30 41 40,75 17
11:00 46 42 30 37 38,75 16
12:00 44 25 38 41 37,00 19
Media 39,19 20,75
Luego: x̅ = 39,19 y R
̅ = 20,75, de la tabla se tiene que A2=0,729 para subgrupos de
tamaño 4
Las fórmulas: Límite de control superior: LCS = x̿ + A2 R
̅
LCS=39,19+0,729(20,75)=54,32
LCI=39,19-0,729(20,75)=24,06
Conclusión: Las medias de los diámetros exteriores se encuentran dentro de los lí-
mites de control.
Las fórmulas: Límite de control superior: LCS=D 4R
̅
Límite de control inferior: LCI=D3R
̅
Límites de control:
̅ .q
p ̅ (0,26)(0,74)
Límite de control superior: p̅ + 3√ = 0,26 + 3√ = 0,68
n 10
̅ .q
p ̅ (0,26)(0,74)
Límite de control inferior: p̅ − 3√ = 0,26 − 3√ = −0,16 ~0,00
n 10
Figura 56. Correlación positiva muy alta (r=0,92) Correlación negativa moderada
(r=-0,54)
H0: ρ=0 (No existe una correlación lineal entre las variables)
r √n − 2
t=
√1 − r 2
Conclusión: Si │t│> tα/2 (valor crítico de la tabla A-3), rechace H0 y concluya que
existe una correlación lineal. Si │t│≤ tα/2, no rechace H0 y concluya que no hay
evidencia suficiente para afirmar que existe una correlación lineal.
Ejemplo 1: La tabla presenta el peso y la presión sanguínea de una muestra aleatoria
de 7 universitarios.
a) Halle e interprete el coeficiente de correlación de Pearson y grafique el diagrama
de dispersión.
b) Halle e interprete el coeficiente de determinación.
c) Realice la prueba de significancia para α=0,02.
Peso (kg) 99 78 83 111 75 107 95
Presión sanguínea (mm Hg) 170 130 138 180 160 150 100
Solución
a) Coeficiente de correlación de Pearson:
Sujetos Peso (x) Presión (y) x2 y2 xy
1 99 170 9 801 28 900 16 830
2 78 130 6 084 16 900 10 140
3 83 138 6 889 19 044 11 454
4 111 180 12 321 32 400 19 980
5 75 160 5 625 25 600 12 000
6 107 150 11 449 22 500 16 050
7 95 100 9 025 10 000 9 500
Total 648 1028 61 194 155 344 95 954
Paso 1: Formulación de H0 y H1
H0: No existe una correlación significativa entre el peso y la presión san-
guínea.
H1: Si existe una correlación significativa entre el peso y la presión san-
guínea.
Paso 2: Nivel de significancia α=0,02
Paso 3: Se utiliza la prueba t de Student para la correlación de Pearson.
Paso 4: Para los grados de libertad: g.l.=7-2=5; α=0,02 se tiene en la tabla A-3:
tα/2=3,365
Cantidad de intentos 1 2 3 4 5 6 7 8
Cantidad de errores 14 9 8 10 8 7 5 6
b) El coeficiente de correlación r=-0,85 indica que entre el número de intentos y los
errores cometidos por la señorita existe una correlación negativa alta, lo que indica
que a más intentos en resolver el test de 40 preguntas menos errores se cometen.
c) El coeficiente de determinación: cd= r2, luego cd= (-0,85)2= 0,7225≈72,25%
Existe una alta asociación negativa entre las variables. La variación de cerca del
72,25% del número de errores cometidos se explica por la variación del número
de intentos realizados.
Paso 1: Formulación de H0 y H1
H0: No existe una correlación significativa entre el número de intentos y la can-
tidad de errores cometidos.
H1: Existe una correlación significativa entre el número de intentos y la cantidad
de errores cometidos.
Paso 2: Nivel de significancia α=0,05
Paso 3: Se utiliza la prueba t de Student para la correlación de Pearson.
Paso 4: Para los grados de libertad: g.l.=8-2=6; α=0,05 se tiene en la tabla A-3:
tα/2=2,447
ACTIVIDAD N° 1
1. En base a la tabla para la interpretación del coeficiente de correlación, determine
el valor de Verdad (V) o Falsedad (F) de las siguientes proposiciones:
No de agentes No de delitos
15 17
17 13
25 5
27 7
17 7
12 21
11 19
22 6
a) Halle e interprete el coeficiente de correlación de Pearson.
b) Trace el diagrama de dispersión.
c) Calcule e interprete el coeficiente de determinación (Cd).
d) Realice la prueba de significancia para α=0,01.
TEMA N° 2: CONSTRUCCIÓN DEL MODELO LINEAL DE REGRE-
SIÓN
En la primera parte de esta unidad se explicó los procedimientos estadísticos para
determinar la intensidad y la dirección de la relación que existe entre dos variables
cuantitativas. En esta segunda parte se determinará una ecuación para expresar para
expresar la relación lineal entre dos variables cuantitativas, por lo que se desea es-
timar el valor de la variable dependiente y, en base a un valor de la variable inde-
pendiente x. A esta técnica que sirve para desarrollar la ecuación y dar las estima-
ciones se conoce como análisis de regresión.
1. Ecuación de regresión: Es una ecuación que define la relación lineal entre dos
variables.
La ecuación: 𝑦̂ = 𝑏0 + 𝑏1 𝑥
describe algebraicamente la relación entre las dos variables. La gráfica de la ecuación
de regresión se denomina recta de regresión, recta del mejor ajuste o recta de míni-
mos cuadrados.
Notación para la ecuación de regresión:
Parámetro Estadístico
poblacional muestral
Intercepto y de la ecuación de regresión 𝛽0 b0
Pendiente de la ecuación de regresión 𝛽1 b1
Ecuación de la recta de regresión 𝑦 = 𝛽0 + 𝛽1 𝑥 + 𝑦̂ = 𝑏0 + 𝑏1 𝑥
Donde:
n(∑ xy) − (∑ x) (∑ y)
b1 =
n (∑ x 2 ) − (∑ x)2
b0 = 𝑦̅ − 𝑏1 𝑥̅
Se debe saber que:
Si no existiera una correlación lineal entre dos variables, el mejor valor predicho
de y es 𝑦̅.
Si existiera una correlación lineal, el mejor valor predicho de y se obtiene reem-
plazando el valor de x en la ecuación de regresión.
Solución
a) Obtención de la ecuación estimada de regresión lineal:
Inver- Ingresos
Bodegas x2 y2 xy
sión brutos
1 78 22 6 084 484 1 716
2 95 27 9 025 729 2 565
3 58 20 3 364 400 1 160
4 29 12 841 144 348
5 103 31 10 609 961 3 193
6 80 28 6 400 784 2 240
7 60 23 3 600 529 1 380
8 70 24 4 900 576 1 680
Total 573 187 44 823 4 607 14 282
b1 = 0,23
Velocidad del aire (cm/s) 90 100 140 180 220 260 300 340 380
Coeficiente de evapora-
0,35 0,37 0,78 0,70 0,75 1,18 1,32 1,45 1,65
ción (mm2/s)
b1 = 0,00438
b0= 0,95–0,00438(223,33)=-0,0281854≈-0,02818
b0= -0,02818
Reemplazando en el modelo de la ecuación: 𝑦̂ = 𝑏0 + 𝑏1 𝑥
Se obtiene la ecuación estimada de regresión: 𝑦̂ = −0,02818 + 0,00438𝑥
b) El mejor coeficiente de evaporación predicho para una velocidad del aire de 400
cm/s:
Reemplazando en la fórmula: 𝑦̂ = −0,02818 + 0,00438𝑥
𝑦̂ = −0,02818 + 0,00438(400) = 1,72382~1,72
Por lo tanto, el mejor coeficiente de evaporación de gotas de combustible quemado
en un motor de impulso predicho para una velocidad del aire de 400 cm/s de 1,72
mm2/s.
c) Diagrama de dispersión de las variables:
1 n(x0 − x̅)2
E = t ∝/2 . se √1 + +
n n(∑ x 2 ) − (∑ x)2
1 8(90 − 71,62)2
E = 2,447(2,23)√1 + + = 6,0132~6,01
8 8(44 823) − 5732
E = 6,01
El intervalo de predicción de los ingresos brutos: ŷ − E < y < ŷ + E donde se co-
noce que: ŷ =27,61:
27,61 − 6,01 < y < 27,61 + 6,01
21,60<y<33,62
Conclusión: Para una inversión de 90 000 soles, se tiene la certeza del 95% de
que el intervalo de los ingresos brutos de las bodegas esta entre 21 600 y 33 620
soles.
∑ y 2 − b0 ∑ y − b1 ∑ xy
𝑠𝑒 = √
n−2
Tenemos:
9,98 − (−0,02818)(8,55) − 0,00438(2291,5)
𝑠𝑒 = √ = 0,1622~0,16
9−2
Se tiene:
1 9(200 − 223,33)2
E = 2,365(0,16)√1 + + = 0,3999~0,40
9 9(536 100) − 20102
E = 0,40
El intervalo de predicción del coeficiente de evaporación de los ingresos brutos,
donde hallamos en: 𝑦̂ = −0,02818 + 0,00438𝑥
𝑦̂ = −0,02818 + 0,00438(200) = 0,84782~0,85
ŷ = 0,85
Reemplazando: ŷ − E < y < ŷ + E
0,85 − 0,40 < y < 0,85 + 0,40
0,35<y<1,25
Conclusión: Para una velocidad de 200 cm/s, se tiene la certeza del 98% de que
el intervalo del coeficiente de evaporación de gotas de combustible quemado en
el motor de impulso se encuentra en el intervalo de 0,35 a 1,25 de mm 2/s.
ACTIVIDAD N° 2
1. Determine el valor de Verdad (V) o Falsedad (F) de las siguientes proposiciones:
1. Regresión múltiple
En este capítulo se amplía el estudio de la correlación y de la regresión, analizando
la influencia de dos o más variables independientes sobre la variable dependiente, al
cual se denomina análisis de regresión y correlación múltiples.
Según Triola (2009, p.566) una ecuación de regresión múltiple expresa una relación
lineal entre una variable de respuesta y y dos o más variables de predicción (x1; x2;
….xk)
La forma general de la ecuación de regresión múltiple estimada:
ŷ = b0 + b1 x1 + b2 x2 + ⋯ . + bk xk
Donde:
n: tamaño de la muestra
k: número de variables de predicción o variables independientes.
ŷ : valor predicho de y
x1; x2; … ; xk: son las variables de predicción
β0: intercepto y, o el valor de y cuando todas las variables de predicción son 0
(este valor es un parámetro poblacional)
β1; β2;…; βk: son los coeficientes de las variables de predicción: x1; x2;…; xk
Variable x1 1
Variable x2 rx2 x1 1
(n − 1)
R2 ajustado = 1 − (1 − R2 )
[n − (k + 1)]
Solución
a) Reemplazando en la fórmula:
2
rYX1 2 + rYX2 2 − 2rYX1 rYX2 rX1 X2
R =
1 − rX1 X2 2
ACTIVIDAD N° 3
1. El ingeniero de control de calidad de una empresa desea estimar la resistencia a
la tensión mecánica de un alambre de acero, en función de su diámetro exterior y
al contenido de molibdeno en el acero. Para hacer un experimento seleccionó cinco
trozos de alambre, midió su diámetro exterior y determinó el contenido de molib-
deno y luego midió la resistencia a la tensión de cada trozo. Los resultados fueron:
Diámetro
Resistencia Cantidad de
Tramo exterior
(lb/pulg2) (ŷ) Molibdeno (x2)
(mm) (x1)
A 19 0,5 9
B 12 0,3 6
C 9 0,2 5
D 16 0,4 8
E 13 0,3 7
Con la ayuda de un software estadístico obtuvo la ecuación de regresión:
ŷ = −0,05 + 20x1 + x2
Complete:
a) Variables independientes:
……………………………………………………………………………………………..
……………………………………………………………………………………………..
b) Variable dependiente: ………………………………………………………………………………
c) Manera en que se relaciona las variables: (directa o inversa)
La resistencia y el diámetro exterior: …………………………………………………
La resistencia y la cantidad de molibdeno: …………………………………………………….
2. La tabla muestra las correlaciones de las variables de la ecuación para estimar la
resistencia a la tensión mecánica de un alambre de acero:
a) Halle e interprete el coeficiente múltiple de determinación ajustado si la mues-
tra es de tamaño 5.
b) Realice el análisis de multicolinealidad.
2.1. Elabore el gráfico de puntos y elija el modelo que visualmente más se ajuste
a los puntos observados, es decir a un modelo lineal, cuadrático, exponen-
cial, potencial, etc.
2.2. Con la calculadora halle los coeficientes de determinación (r2) de cada mo-
delo y elija el modelo que tenga el mayor coeficiente de determinación, ya
que éste será el mejor modelo
2.3. Si trabaja con un software estadístico (como el SPSS) elija el modelo que
tenga el menor p-valor.
Ejemplo 1: Un ingeniero descubrió que, al incluir pequeñas cantidades de un com-
puesto en baterías recargables para computadoras portátiles, podría extender su
tiempo de vida. Experimentó con diferentes cantidades de aditivo y los datos fueron:
Cantidad de aditivo Vidas (horas)
1 4
2 3
3 7
4 9
5 10
Construya el diagrama de dispersión e identifique el modelo que se ajusta mejor a
los datos.
Solución
Visualizamos el diagrama de dispersión y observamos que los puntos se acomodan a
un modelo lineal:
Con una calculadora científica evaluamos a qué modelo se ajusta los datos. Presen-
tamos los resultados para los modelos lineal, logarítmico, potencial y exponencial.
Modelo lineal Modelo logarítmico
A=1,2 A=2,60
B=1,8 B=4,17
Modelo: y=1,2+1,8x Modelo: y=2,60+4,17lnx
r= 0,9333 r= 0,8699
r2=0,8710≈87,10% r2=0,7567≈75,67%
Modelo potencial Modelo exponencial
A=3,11 A=2,48
B=0,68 B=1,34
Modelo: y=3,11x0,68 Modelo: y=2,48(1,34)x
r= 0,8276 r= 0,8863
r2=0,6849≈68,49% r2=0,7855≈78,55%
De los resultados se observa que el modelo lineal presenta el mayor coeficiente de
determinación (r2=87,10%), seguido del modelo exponencial (r2=78,55%). Por lo
tanto se concluye que la ecuación: y=1,2 + 1,8x describe mejor la relación entre la
cantidad de aditivo y el tiempo de vida adicional de las baterías.
Ejemplo 2: Lucía está realizando un experimento en el laboratorio y monitorea cada
hora que pasa la cantidad que tenía de cierto isótopo radiactivo y registró los datos
que se muestran en la tabla:
Solución
El diagrama de dispersión nos indica que los puntos se acomodan a un modelo loga-
rítmico o exponencial:
Mediante una calculadora científica evaluamos a qué modelo se ajusta mejor los da-
tos de Lucía:
Modelo lineal Modelo logarítmico
A=71,43 A=70,60
B=-7 B=-22,31
Modelo: y=71,43-7x Modelo: y=70,60-22,31lnx
r= 0,9824 r= 0,9926
r2=0,9650≈96,50% r2=0,9852≈98,52%
𝑦̂ = -206+2,66x1+2,15x2
ACTIVIDAD N° 4
1. Determine el valor de Verdad (V) o Falsedad (F) de las siguientes proposiciones:
a) Si el coeficiente de determinación está cerca a 0 el ajuste de la recta ( )
es malo
b) La expresión: y = axb corresponde al modelo exponencial. ( )
c) Si el coeficiente de determinación se aproxima a 1 el ajuste de la ( )
recta es bueno.
d) Modelo matemático es una función matemática que se “ajusta” o ( )
describe datos del mundo real.
2. La tabla muestra los días de inasistencia al trabajo y el bono de reconocimiento
(x100 soles) recibido por una muestra de empleados de una empresa por motivo
de fiestas patrias:
Consumo de vino (x) 2,5 6,5 2,9 2,4 2,4 7,9 9,1 0,8 0,8
Muertes enf. cardiaca (y) 211 86 131 191 220 107 71 297 211
a) Grafique el diagrama de dispersión.
b) Identifique el mejor modelo matemático (lineal, exponencial, logarítmico o po-
tencial) que mejor se ajuste a los datos de la tabla. Justifique su decisión.
Modelo lineal Modelo logarítmico
Modelo: y=251,9-21,63x Modelo: y=-75,44lnx+248,42
r2=0,7854≈78,54% r2=0,8187≈81,87%
Modelo potencial Modelo exponencial
Modelo: y=256,82x-0,485 Modelo: y=271,98e-0,146x
r2=0,8133≈81,33% r2=0,8601≈86,01%
4. A partir de la observación de cinco años de las variables producción industrial (y)
en millones de toneladas y el tiempo (x):
Nota:
Uno de los problemas que intenta resolver las series de tiempo es la predicción.
Existen diversos tipos de cambios y movimientos en una serie de tiempo, los cuales
son causados por factores o componentes con repercusiones a largo plazo o a corto
plazo. La finalidad de estudiar este tema es determinar la ecuación de tendencia
lineal y la evaluación de los tipos de cambio que influyen en la serie a través del
tiempo.
En la gráfica de líneas una serie de tiempo se destacan picos y valles.
Pico: se produce en un punto cuando de una tendencia creciente cambia a una ten-
dencia decreciente.
Valle: Se produce cuando de una tendencia decreciente cambia a una tendencia
creciente.
Ejemplo: Se muestra en la tabla la producción anual (en millones de unidades) de
juguetes de una empresa desde el año 2003 hasta el año 2012. Elabore el grafique
de líneas de la serie de tiempo.
Producción
Año x
y
2003 1 4
2004 2 8
2005 3 11
2006 4 15
2007 5 12
2008 6 9
2009 7 16
2010 8 13
2011 9 21
2012 10 23
En la tabla se observa que el año 2003 tiene el código x=1, el año 2004 tiene el
código x=2, así sucesivamente. La producción anual de millones de juguetes es la
variable y.
Al observar el gráfico de líneas se tiene que existen dos picos, uno en el año 2006
(x=4) y otro en el año 2009 (x=7). También se observan dos valles, uno en el año
2008 (x=6) y otro en el año 2010 (x=8).
3.2. Modelo multiplicativo: supone que el valor de los datos originales “Y” es el
producto de las cuatro componentes, es decir:
Y=TxCxExI
Nota: Este modelo es apropiado cuando la magnitud de las fluctuaciones estacionales
de la serie crece y decrece proporcionalmente con los crecimientos y decrecimientos
de la tendencia.
Este modelo es el que se utiliza más a menudo debido a que caracteriza a la mayoría
de las series de tiempo económicas y de negocios. También se debe aclara que en
este modelo sólo la componente de tendencia se expresa en unidades originales y
los otros componentes se expresan en números relativos o porcentajes, como se ve
en el siguiente ejemplo:
Ejemplo: La producción y venta de 48 060 pares de zapatillas en una empresa de
calzados en el año 2015, se descompone en sus cuatro componentes:
T=50 000 pares de zapatillas.
C=100%, ya que no existe efecto del ciclo de negocios.
E=108%, ya que la producción por campaña escolar tiene una variación esta-
cional del 8%.
I=89% la producción sufre una variación irregular del -11% por razones des-
conocidas.
50 000(1,00)(1,08)(0,89)=48 060 pares de zapatillas
4. Análisis de tendencia
El análisis de la tendencia es el procedimiento mediante el cual se determina la
dirección del movimiento de la serie de tiempo a largo plazo y permute deducir el
desarrollo de la serie de tiempo en el futuro. La tendencia puede ser ascendente,
descendente o constante. Lo primero que se debe decidir es si la tendencia es una
línea recta o una curva.
El análisis de series de tiempo permite:
Detectar patrones de cambio en la información estadística en intervalos regula-
res.
Proyectar los patrones para obtener una estimación para el futuro.
Ayuda a manejar la incertidumbre asociada con los acontecimientos futuros.
La estimación de la tendencia se puede realizar por muchos métodos entre los que
están: el método de mano libre o alzada, el método de los dos promedios, (o semi
promedios), el método de las medias móviles y el método de los mínimos cuadrados.
4.1. Tendencia lineal
La tendencia a largo plazo de muchas series de negocios (industriales y comercia-
les), como ventas, exportaciones y producción, con frecuencia se aproxima a una
línea recta. Esta línea de tendencia muestra que algo aumenta o disminuye a un
ritmo constante. El método que se utiliza para obtener la línea recta de mejor
ajuste es el método de mínimos cuadrados.
23
22
21
20
19
18
17
16
15
14
1 2 3 4 5 6 7 8 9 10
Figura 66. Gráfico de las ventas reales y los pronósticos mediante el suavizamiento
exponencial
ACTIVIDAD N° 5
1. Determine el valor de Verdad (V) o Falsedad (F) de las siguientes proposiciones:
a) La suma de los factores de ponderación a veces debe ser igual a 1. ( )
b) El método de promedios ponderados consiste en asignar un factor de ( )
ponderación distinto para cada dato.
c) Uno de los problemas que intenta resolver las series de tiempo es la ( )
predicción.
d) El promedio móvil es un método de suavizamiento de series de ( )
tiempo.
e) Cuando la serie de tiempo presenta un comportamiento curvilíneo se ( )
dice que corresponde a una tendencia lineal.
f) El análisis de las series de tiempo permite proyectar los patrones para ( )
obtener una estimación para el futuro
g) Cuando de una tendencia creciente cambia a una tendencia decre- ( )
ciente se dice que en ese punto ocurre un pico en la serie.
2. En la tabla se presentan datos que corresponden a la cantidad de muertes a causa
de accidentes mensualmente en los Estados Unidos desde el año 1973 a 1978
(Fuente National Sadety Council).
Media mensual
Meses del año
de muertes
Enero 8044,00
Febrero 7283,83
Marzo 8063,83
Abril 8264,83
Mayo 9126,17
Junio 9595,33
Julio 10452,80
Agosto 9749,17
Septiembre 8700,33
Octubre 8984,67
Noviembre 8467,17
Diciembre 8720,67
Conteste:
a) ¿En qué mes del año es menos frecuente las muertes? ..............................
b) ¿En qué mes del año ocurren más muertes? .......................................
c) ¿En qué meses del año ocurren picos? ………………………………………………………………
d) ¿En qué meses del año ocurren valles? ………………………………………………………..
3. A partir de los datos de la tabla anterior aplique el método de suavizamiento de la
serie del promedio móvil trimestral y realice los pronósticos a partir del mes de
febrero hasta noviembre. Grafique la tendencia de las muertes por accidentes y el
correspondiente suavizamiento trimestral.
4. Halle el promedio móvil de cuatro años y de cinco años para la siguiente produc-
ción, en miles de unidades. Grafique tanto los datos originales, como los prome-
dios móviles.
,
Cantidad producida
Año
(miles)
2007 1
2008 2
2009 6
2010 3
2011 7
2012 3
2013 8
2014 5
2015 10
5. Una compañía presenta en la siguiente tabla el reporte de ventas (en miles de
soles) correspondiente al año 2015.
Meses Ventas
Enero 80
Febrero 90
Marzo 85
Abril 70
Mayo 80
Junio 105
Julio 100
Agosto 105
Setiembre 100
Octubre 105
Noviembre 100
Diciembre 150
Teniendo en cuenta los datos anteriores, se debe calcular un pronóstico mediante
la técnica de promedio móvil utilizando un periodo de 3 meses (a partir de abril)
y un periodo de 6 meses (a partir de Julio). Grafique los datos reales y los pro-
nósticos.
LECTURA SELECCIONADA N° 1
Investigación correlacional: Características y etapas
1. Análisis de correlación
Es un conjunto de técnicas estadísticas empleado para medir la intensidad de la
asociación entre dos variables.
2. Variable dependiente (y)
Es la variable que se predice o calcula.
3. Variable independiente (x)
Es la variable que proporciona las bases para el cálculo. Es la variable que permite
predecir.
4. Ecuación de regresión
Es una ecuación que define la relación lineal entre dos variables.
5. Ecuación de regresión múltiple
Expresa una relación lineal entre una variable de respuesta y y dos o más variables
de predicción (x1; x2; ….xk)
6. Matriz de correlación
Es una matriz que contiene los coeficientes de correlación entre todos los pares
de variables, la cual ayuda a identificar cuáles son las variables relativamente más
importantes.
7. Coeficiente múltiple de determinación (R2)
Es una medida que denota lo bien que se ajusta la ecuación de regresión múltiple
a los datos muestrales.
8. Multicolinealidad
Es la correlación que existe entre las variables independientes, las que se deben
analizar mediante el uso de una matriz de correlación entre las variables. Es un
método práctico que se utiliza es que las correlaciones entre variables indepen-
dientes, cuyo valor está comprendido entre -0,70 y 0,70, no ocasionan dificulta-
des.
9. Coeficiente de correlación múltiple (R)
Es la raíz cuadrada positiva del coeficiente de determinación (R) y mide la relación
entre las variables independientes consideradas como grupo y la variable depen-
diente (y).
36
10. Modelo matemático: es una función matemática que se “ajusta” o describe
datos del mundo real.
11. Series de tiempo
Es un conjunto de datos observados en forma secuencial, generalmente en in-
tervalos de tiempo iguales.
12. Pico
Se produce en un punto cuando de una tendencia creciente cambia a una ten-
dencia decreciente.
13. Valle
Se produce cuando de una tendencia decreciente cambia a una tendencia cre-
ciente.
14. La tendencia (T)
Es el movimiento general creciente o decreciente de los valores de la serie de
tiempo Y, que persiste en un periodo largo de tiempo.
15. Las fluctuaciones cíclicas (C)
Son movimientos hacia arriba y hacia debajo de la línea de tendencia, y que
ocurren en periodos cortos de tiempo. Son secuencias repetidas.
16. Las variaciones estacionales (E)
Son las oscilaciones en la extensión de un año y tiene más o menos la misma
forma año tras año. La periodicidad pueden ser de horarios, diarios, semanales,
mensuales o trimestrales dependiendo de la naturaleza de la serie pero no duran
más de un año.
17. Movimientos irregulares (I)
Son movimientos con respecto a la tendencia que se deben a causas aleatorias
o esporádicas (cómo huelgas, terremotos, inundaciones, etc.) y por lo tanto no
pueden adjudicarse a efectos estacionales o cíclicos.
18. Tendencia lineal
La tendencia a largo plazo de muchas series de negocios (industriales y comer-
ciales), como ventas, exportaciones y producción, con frecuencia se aproxima a
una línea recta. Esta línea de tendencia muestra que algo aumenta o disminuye
a un ritmo constante. El método que se utiliza para obtener la línea recta de
mejor ajuste es el método de mínimos cuadrados.
19. Tendencia no lineal
Cuando la serie de tiempo presenta un comportamiento curvilíneo se dice que
este comportamiento es no lineal. Dentro de estas tendencias tenemos: polino-
mial, logarítmica, exponencial, potencial, etc.
20. El método promedio móvil
Emplea el promedio de los n valores más recientes de datos en la serie de tiem-
pos como pronósticos para el siguiente periodo. Es uno de los indicadores más
versátiles y de mayor uso dentro de todos los indicadores.
21. Promedios móviles ponderados
Este método consiste en asignar un factor de ponderación distinto para cada
dato. Generalmente, a la observación o dato más reciente a partir del cual se
quiere hacer el pronóstico, se le asigna el mayor peso, y este peso disminuye en
los valores de datos más antiguos.
22. Suavizamiento exponencial
37
Este método emplea el promedio ponderado de la serie de tiempo pasado como
pronóstico, es un caso especial del método de promedios móviles ponderados en
el cual sólo se selecciona el peso o factor de ponderación más reciente.
38
Autoevaluación n°3
1. Una empresa comercial tiene varias tiendas dedicadas a la venta de electrodomés-
ticos. El gerente de ventas ha realizado anuncios publicitarios por la radio al menos
tres veces antes de realizar la campaña gigante de ventas. Una vez culminada la
campaña realiza una investigación con el objetivo de determinar si existe alguna
relación entre el número de anuncios publicitarios emitidos en la radio y las ventas
generadas. Los pares de datos se muestran en la tabla.
a) Halle e interprete el coeficiente de correlación de Spearman.
b) Grafique el diagrama de dispersión.
c) Realice la prueba de significancia para α=0,02 (Utilice la tabla A-9 de Mario
Triola)
No anuncios Ventas
7 8
3 6
15 14
9 10
11 9
6 7
13 12
39
b) ¿Qué proporciona más satisfacción: un ingreso adicional de 10 000 soles anua-
les o dos actividades sociales más por semana?
x 1 2 3 4 5 6
y 1 7 17 31 49 71
5. La tabla muestra el promedio de las ventas de cemento (en miles de TM) en los
últimos 7 años. Realice el suavizamiento de la serie mediante el método de pro-
medios móviles de tres años para el pronóstico de ventas a partir del segundo
año. Grafique.
Año Ventas
2010 202
2011 204
2012 163
2013 161
2014 146
2015 184
2016 170
40
UNIDAD IV: DISEÑOS EXPERIMENTALES Y CONTROL ESTADÍS-
TICO DE PROCESOS
41
TEMA N° 1: DISEÑO DE EXPERIMENTOS. DEFINICIONES Y
PRINCIPIOS BÁSICOS
En los métodos estadísticos, por lo general se toman datos que se obtienen de dos
fuentes distintas: las investigaciones observacionales y los experimentos.
Según Triola (2009):
En un estudio observacional, vemos y medimos las características específicas,
pero no se intenta modificar a los sujetos que se está estudiando. Entre estos
estudios se tienen los estudios retrospectivos, los estudios transversales y
los estudios prospectivos.
En un experimento se aplican algunos tratamientos y luego se procede a ob-
servar los efectos sobre los sujetos o unidades experimentales. Los experi-
mentos son realizados prácticamente en todos los campos del saber humano,
con la finalidad de descubrir algo sobre un proceso o sistema.
42
1. DISEÑOS EXPERIMENTALES
De acuerdo a Hernández y otros (2014) el diseño señala al investigador lo que debe
hacer para alcanzar sus objetivos de estudio, contestar las interrogantes que se ha
planteado y analizar la certeza de la hipótesis formulada en un contexto particular.
Es decir, un diseño viene a ser el plan o estrategia concebida para responder a las
preguntas de investigación.
1.1. Definición: El diseño de experimentos es un conjunto de técnicas que per-
miten manipular un proceso para inducirlo a proporcionar la información que se re-
quiere para mejorarlo mediante cambios en sus variables y su interacción o secuencia
de ejecución. En suma, es la aplicación del método científico para generar conoci-
miento acerca de un proceso o sistema.
El diseño de un experimento es concebido como los procedimientos previstos para
garantizar que los datos se obtendrán de manera que permitan un análisis objetivo
y que conduzca a deducciones válidas en relación al problema de investigación.
Prosiguiendo con Hernández y otros (2014) es un estudio de investigación en el que
se manipulan deliberadamente una o más variables independientes (posibles cau-
sas), para analizar las consecuencias que la manipulación tiene sobre una o más
variables dependientes (supuestos efectos), dentro de una situación de control para
el investigador.
La metodología del diseño de experimentos se basa en la experimentación. Se sabe
que, si se repite un experimento, en condiciones indistinguibles, los resultados pre-
sentan cierta variabilidad. Si la experimentación se realiza en un laboratorio donde
la mayoría de las causas de variabilidad están controladas, el error experimental
será pequeño y habrá poca variación en los resultados del experimento.
1.2. Tipos de diseños
Por lo general, lo diseños experimentales se clasifican en diseños pre-experimentales,
cuasi experimentales y experimentales, los cuales a su vez se dividen en otros dise-
ños más específicos.
Carrasco, S. (2014) sostiene que los tipos de diseños experimentales son las dife-
rentes formas de resolver problemas de interés científico en el campo experimental,
en los que se tiene los pre-experimentales, los cuasi experimentales y los experi-
mentales puros, como se aprecia a continuación:
Son aquellas investigacio- Son aquellos que no asig- Son aquellos que reúnen
nes en la que su grado de nan al azar los sujetos los dos requisitos para lo-
control es mínimo y no que forman parte del grar el control y la validez
cumplen con los requisitos grupo de control y experi- interna: grupos de control
de un verdadero experi- mental, ni son empareja- (manipulación de la varia-
mento. dos, puesto que los gru- ble o variables indepen-
pos de trabajo ya están dientes) y equivalencia de
formados. grupos.
43
Ejemplo 1: Un investigador está interesado en estudiar el efecto de los contenidos
televisivos antisociales sobre la conducta agresiva de los niños, para lo cual establece
dos grupos de niños, uno que ven solo programas televisivos con contenidos antiso-
ciales y otro grupo que ven solo programas televisivos con contenidos prosociales. Al
finalizar la experiencia se observará cuál de los dos grupos muestra una mayor con-
ducta agresiva, si ocurriera que el grupo de niños que vieron programas antisociales
muestran mayor conducta agresiva, frente a los niños que vieron programas proso-
ciales, y si no hay otra causa posible que hubiera afectado a los grupos de niños se
comprobaría la hipótesis.
Hipótesis de investigación: Los programas televisivos con contenidos antiso-
ciales influyen sobre la conducta agresiva de los niños.
Variable independiente: Programas televisivos antisociales.
Variable dependiente: Conducta agresiva de los niños.
Diseño de investigación: El diseño es cuasi experimental, pudiéndose utilizar
de dos maneras, así:
Diseño cuasi-experimental
solo con post-test
Diseño cuasi-experimental
solo con pre-test y post-test
44
En las dos situaciones plateadas tienen en común que su interés está centrado en un
solo factor con varios tratamientos que pueden producir efectos distintos en la varia-
ble dependiente.
En los ejemplos desarrollados, aparte del factor señalado, también hay la posibilidad
que otros factores puedan influir, obviamente suponen tener poca importancia, a los
que se llama variables intervinientes. El resultado de todas estas causas no contro-
ladas (variables intervinientes) también influyen en la variable dependiente.
1.4. Diseño experimental completamente aleatorio
Es el diseño más simple y sencillo de realizar, en el cual los tratamientos se asignan
entre las unidades experimentales. Este diseño tiene una amplia aplicación cuando
las unidades experimentales son muy homogéneas, es decir, la mayoría de los fac-
tores actúan por igual entre las unidades.
El diseño completamente al azar es una prueba basada en el análisis de varianza, en
donde la varianza total se descompone en “la varianza de los tratamientos” y la “va-
rianza del error”. El objetivo es determinar si existe una diferencia significativa entre
los tratamientos, para lo cual se compara si la “varianza del tratamiento” contra la
“varianza del error” y se determina si la primera es lo suficientemente alta.
En este diseño los sujetos o unidades de observación se asignan a diferentes grupos
de tratamiento de manera aleatoria.
1.4.1. Características:
a) Se definen los tratamientos que se van aplicar a las n unidades experimentales,
de tal forma que a r unidades experimentales les va a corresponder un tipo de
tratamiento.
b) Las unidades experimentales se sortean para la asignación a cada tratamiento.
c) Se define la variable a medir.
1.4.2. Ventajas de los diseños completamente aleatorios:
a) Es flexible, el número de observaciones puede variar de un tratamiento para
otro.
b) El análisis estadístico es simple, aunque se tengan tratamientos con diferente
número de observaciones.
c) El análisis no se complica cuando se pierde algún dato o todo un tratamiento.
d) Los grados de libertad son máximos y en experimentos pequeños con pocos
tratamientos y repeticiones representan una ventaja.
Una de las desventajas es que es ineficaz en experimentos donde las unidades ex-
perimentales no son homogéneas, es decir si presentan mucha heterogeneidad.
1.4.3. Hipótesis de un diseño completamente al azar
En este diseño la hipótesis nula (H0) es que los efectos del tratamiento son todos
iguales, lo que se expresa por:
45
ACTIVIDAD AUTOFORMATIVA N° 1
1. Determine el valor de Verdad (V) o Falsedad (F) de las siguientes proposiciones:
46
TEMA N° 2: PRUEBA PARA LA DIFERENCIA DE MEDIAS
(ANOVA)
1. Introducción
El análisis de varianza (ANOVA) de un factor sirve para comparar varios grupos en
una variable cuantitativa. Se trata, por lo tanto, de una generalización de la prueba
“t” de Student para dos muestras independientes al caso de diseños con más de dos
muestras.
El nombre “análisis de varianza” se basa en el enfoque en el cual el procedimiento
utiliza las varianzas para determinar si las medias son diferentes. El procedimiento
funciona comparando la varianza entre las medias de los grupos y la varianza dentro
de los grupos como una manera de determinar si los grupos son todos parte de una
población más grande o poblaciones separadas con características diferentes.
El análisis de la varianza permite contrastar la hipótesis nula de que las medias de K
poblaciones (K>2) son iguales, frente a la hipótesis alternativa de que por lo menos
una de las poblaciones difiere de las demás en cuanto a su valor esperado.
De acuerdo a Triola (2009, p.636) el análisis de varianza es un método de prueba de
igualdad de tres o más medias poblacionales, por medio del análisis de las varianzas
muestrales.
Formulación de la hipótesis nula (H0) y la hipótesis alterna (H1)
H0: µ1=µ2=µ3= µ4=….
H1: No todas las medias son iguales
Si el valor estadístico de prueba (ANOVA) nos impulsa a aceptar la hipótesis nula
(H0), se concluye que las diferencias observadas entre las medias muestrales se de-
ben a la variación casual en el muestreo (por lo que se asevera que los valores medios
de la población son iguales). Si se rechaza la hipótesis nula (H0), se concluye que las
diferencias entre los valores medios de la muestra son demasiado grandes como para
deberse únicamente a la casualidad (por lo que se asevera que, no todas las medias
de la población son iguales)
47
Se utiliza para probar la hipótesis de que tres o más medias poblacionales son
iguales y porque se emplea una sola propiedad o característica para categorizar
las poblaciones.
Tabla ANOVA
Con otros
Cerca de Cerca de
limpiado-
panadería la cerveza
res
20 12 25
15 18 28
24 10 30
18 15 32
Solución
Paso 1: Formulación de la hipótesi nula (H0)y la hipótesis alterna (H1)
H0: La media del número de botellas vendidas no difieren según el punto
de venta.
H0: µ1 = µ2 = µ3
H1: No todas las medias del número de botellas vendidas en los puntos
de ventas son iguales.
Paso 2: Nivel de significación α=0,025
Paso 3: Prueba análisis de varianza de un factor (ANOVA).
Paso 4: Utilizando la tabla A-5 para un nivel de significación 0,025 hallamos la
región crítica para 2 y 9 grados de libertad F(2; 9)= 5,7147
Paso 5: Se halla los datos:
Cerca de Cerca de Con otros
panade- la cer- limpiado- (𝑥1 − 𝑥̅1 )2 (𝑥2 − 𝑥̅2 )2 (𝑥3 − 𝑥̅3 )2
ría veza res
20 12 25 0,56 3,06 14,06
15 18 28 18,06 18,06 0,56
24 10 30 22,56 14,06 1,56
48
Me- 18 15 32 1,56 1,56 10,56
dia 19,25 13,75 28,75 42,74 36,74 26,74
Media total=20,58 SCD=106,22
230,34
Hallamos la razón F: 𝐹𝑐 = = 19,5203
11,80
1-α=0,975 α=0,025
0 5,7147 19,5203
Circuitos
49
1 2 3 4
25 40 17 23
20 33 18 25
18 27 26 21
22 21 16 19
20 22
Solución
Paso 1: Formulación de H0 y H1
H0: Los circuitos tienen una respuesta media homogénea.
H1: No todas las medias de los circuitos son iguales.
Paso 2: Nivel de significación α=0,05
Paso 3: Prueba análisis de varianza de un factor (ANOVA).
Paso 4: Utilizando la tabla A-5 para un nivel de significación 0,05 hallamos la
región crítica para 3 y 14 grados de libertad F(3; 14)= 3,3439
Paso 5: Los datos necesarios:
69,97
La razón F: 𝐹𝑐 = = 2,4971
28,02
50
Zona de aceptación H0 Zona de rechazo de H0
1-α=0,975 α=0,025
0 2,4971 3,3439
Figura 71. Zona de aceptación y de rechazo de H0
Figura 3
Conclusión: Para un 95% de nivel de confianza no es posible rechazar la hipótesis
nula (H0), por lo que se asevera que los cuatro tipos de circuitos utilizados en la
calculadora electrónica tienen una respuesta media homogénea.
ACTIVIDAD AUTOFORMATIVA N° 2
1. Complete los valores: (utilice la tabla A-5)
1 2 3 4
51
180 163 158 147
173 170 146 152
175 158 160 143
182 162 171 155
181 170 155 160
4. Se desea investigar los efectos del ejercicio sobre el estrés. En la tabla adjunta se listan
las lecturas de la presión sanguínea sistólica (en milímetros de mercurio) de sujetos antes
de iniciar los ejercicios aeróbicos y antes de generarles estrés por medio de una prueba
psicotécnica. Utilice un nivel de significancia de 0,05 para probar la aseveración de que
los diferentes grupos de sujetos tienen la misma presión sanguínea media (mm Hg). ¿se
puede considerar que los grupos provienen de la misma población?
Grupo A Grupo B Grupo C
97 135 99
110 130 100
102 133 87
93 121
124
52
TEMA N° 3: EXPERIMENTO FACTORIAL AxB (ANOVA en dos direcciones)
En un análisis de varianza en dos direcciones se considera una segunda variable
de tratamiento. La segunda variable de tratamiento se denomina la variable de
bloqueo.
La ventaja de considerar otros factores reside en que se puede reducir la varianza
del error.
El valor estadístico F para la variable de tratamiento y la variable de bloqueo, se
determinan en la siguiente tabla:
53
Rojas 20 23 25 23 4 1 0 0,64
Buendía 25 21 28 25 9 1 9 1,44
Gutiérrez 26 24 28 25 16 4 9 1,44
Medias 22 22 25 23,8 46 10 44 6,80
Media total=23,20 SCD=106,80
Donde: Media total= (22+22+25+23,8)/4=23,20
SCD=46+10+44+6,80=106,80
SCE=5(22-23,2)2+5(22-23,2)2+5(25-23,2)2 +5(23,8-23,2)2 = 32,40
En la tabla ANOVA para los tratamientos:
Suma de Cuadrados me-
Fuente de variación g.l.
cuadrados dios
Entre grupos SCE=32,40 4-1=3 32,40/3=10,80
Dentro de los grupos SCD=106,80 20-4=16
Total SCtotal=139,20 19
Sánchez 21 22 24 24 22,75
Rojas 20 23 25 23 22,75 23,20
Buendía 25 21 28 25 24,75
Gutiérrez 26 24 28 25 25,75
Hallamos la suma de cuadrados entre bloques (SCEB):
SCB=4(20-23,2)2+4(22,75-23,2)2+4(22,75-23,2)2+4(24,75-23,2)2
+4(25,75-23,2)2
SCB=78,20
En base a los datos de la tabla ANOVA anterior tenemos:
Fuente de va- Suma de Cuadrados
g.l.
riación cuadrados medios
Tratamientos Rutas SCT= 32,40 4-1= 3 32,4/3=10,80
Bloques Conductores SCB= 78,20 5-1= 4 78,2/4=19,55
Error SCR= 28,60 3x4=12 28,6/12=2,38
Total SCtotal=139,20 n-1=19
54
Se rechaza H0 para un 95% de confianza, es decir se asevera que el tiempo
medio de viaje no es el mismo en las cuatro rutas.
19,55
Luego: Fc = = 8,2143
2,38
55
Completamos la tabla para el bloque de los años de experiencia:
Experiencia de Máquinas
los operadores Medias Media total
1 2 3
1 año 27 21 25 24,33
Bloques
5 años 31 33 35 33,00
34,00
10 años 42 39 39 40,00
15años 38 41 37 38,67
152,32
Luego: Fc = = 23,3978
6,51
56
ACTIVIDAD N° 3
1. Una empresa de publicidad desea saber si el tamaño de un anuncio y su colorido
producen diferencia en la respuesta de los lectores de revistas. A una muestra
aleatoria de lectores les fue presentada una serie de anuncios con cuatro colores
distintos y tres tamaños diferentes. A cada lector se le pide que asigne una califi-
cación, de 1 a 10, a cada combinación de color y tamaño. Supóngase que las
calificaciones se distribuyen en forma aproximadamente normal. Las puntuaciones
de cada combinación se muestran en la siguiente tabla. Utilice α=0,025
Tamaño del Color del anuncio
anuncio Rojo Azul Naranja Verde
Pequeño 2 3 3 8
Mediano 3 5 6 7
Grande 6 7 8 8
Tipo de fósforo
Tipo de cristal
1 2 3
280 300 290
1 290 310 285
285 295 290
230 260 220
2 235 240 225
240 235 230
57
TEMA N° 4: GRÁFICOS DE CONTROL PARA LA VARIACIÓN Y LA
MEDIA
1. Datos de proceso: son datos ordenados de acuerdo con alguna secuencia de
tiempo. Son mediciones de una característica de bienes o servicios que resultan
de alguna combinación de equipo, personas, materiales, métodos y condiciones.
2. Gráfica de rachas: es una gráfica secuencial de valores de datos individuales a
lo largo del tiempo. Un eje (generalmente el eje vertical) se utiliza para los valores
de los datos y el otro eje (generalmente el eje horizontal) se emplea para la se-
cuencia de tiempo).
58
Tabla 4. Tomado de Triola (2009)
Ejemplo 1: Una empresa ofrece un servicio telefónico gratuito para asesorar a sus
clientes respecto a problemas con el uso de sus productos, desde las 8:00 a.m. hasta
las 5:00 p.m. todos los días. Es imposible que un representante técnico conteste
inmediatamente a cada llamada, por lo que se presenta un malestar en los clientes.
La empresa decide elaborar un diagrama de control que describa el tiempo (en mi-
nutos) que transcurre desde que se recibe una llamada hasta que un representante
responda al cliente. Cierto día se tomó una muestra de cinco llamadas cada hora, el
resultado se muestra a continuación:
Muestras
Hora
1 2 3 4 5
8 7 10 7 6 8
9 11 12 10 9 10
10 12 8 6 9 12
11 11 10 6 14 11
12 7 7 10 4 11
13 10 7 4 10 10
14 8 11 11 7 7
15 8 11 8 14 12
16 12 9 12 17 11
17 7 7 9 17 13
59
En base a esta información elabore una gráfica de control (Gráfica de la x̅) para la
duración media de la llamada, ¿parece haber una tendencia en los tiempos de las
llamadas?, ¿Existe algún periodo en el que parezca que algunos clientes esperan más
tiempo que otros?
Solución
Hallamos la media y la amplitud o rango de cada una de las filas, así:
60
De acuerdo a Triola (2009), un proceso está fuera de control estadístico cuando:
1. Hay un patrón, una tendencia o un ciclo que evidentemente no es aleatorio.
2. Hay un punto que está fuera de la región entre los límites superior e inferior.
3. Si cumplen una de las siguientes rachas:
Existen ocho puntos consecutivos, todos por encima o por debajo de la línea
central (Regla de racha de 8).
Existen seis puntos consecutivos, todos crecientes o decrecientes.
Hay 14 puntos consecutivos alternantes que se incrementan o disminuyen
sucesivamente.
Dos de cada tres puntos consecutivos están más allá de los límites de control
que se encuentran a dos desviaciones estándar de la línea central.
Cuatro de cada cinco puntos consecutivos están más allá de los límites de
control que están a una desviación estándar de la línea central.
Ejemplo 2: El gráfico de rachas muestra la media de los errores de medición de 4
altímetros durante 20 días hábiles consecutivos. Los altímetros fueron elegidos al
azar. Observe el gráfico y determine si el proceso de producción de altímetros para
aviones está bajo control estadístico.
𝐱̅ = 𝟐𝟏, 𝟐 𝐩𝐢𝐞𝐬
LCI=0
Días
Figura 74. Gráfico de la media de errores
Solución
El proceso de producción de altímetros para aviones no se encuentra bajo control
estadístico.
Las medias están bajo control estadístico en las primeras muestras, pero hay
una tendencia hacia el límite de control superior (LCS). La media es la última
muestra está fuera de control estadístico.
4. Fuentes de variación
4.1. Variación aleatoria: se debe al azar, este tipo de variación inherente a
cualquier proceso que no es capaz de producir un bien o servicio exacta-
mente de la misma forma cada vez.
61
4.2. Variación asignable: Resulta de causas identificables como maquinaria de-
fectuosa, empleados sin capacitación adecuada, entre otros.
4.3. Gráfica R
Es una gráfica de control para supervisar la variación.
Una gráfica de control de una característica de proceso (como la media o la variación)
consiste en valores graficados en secuencia a lo largo del tiempo e incluye una línea
central, así como un límite de control inferior (LCI) y un límite de control superior
(LCS).
Notación:
n: tamaño de cada muestra o subgrupo.
Puntos graficados son los rangos muestrales.
Línea central: R
̅
Límite de control superior: LCS=D4R ̅
Límite de control inferior: LCI=D3R
̅
Solución
De la tabla 14-2 hallamos el valor D3=0,000 y D4=2,114
Del ejemplo 1 ya se conoce que R
̅ = 6,2 𝑚𝑖𝑛𝑢𝑡𝑜𝑠
Figura 75. Gráfico que muestra que todas las amplitudes se encuentran dentro de
los límites de control
62
Ejemplo 4: Interprete el diagrama de amplitud de variación de los grados brix en
la fabricación de bebidas gaseosas. Argumente si las situaciones mostradas están
bajo control estadístico.
Solución
ACTIVIDAD AUTOFORMATIVA N° 4
5. Determine el valor de Verdad (V) o Falsedad (F) de las siguientes proposiciones:
a) La variación aleatoria es inherente a todo proceso de producción. ( )
b) Cuando se aprecia un ciclo que no es aleatorio se afirma que el pro- ( )
ceso es estable.
c) Contar con maquinaria defectuosa es una causa de la variación alea- ( )
toria.
d) Los límites de control de un gráfico son fronteras que indican puntos ( )
extremos.
e) El gráfico de rachas permite asegurar que las características de un ( )
proceso si cambian.
6. Un fabricante de triciclos selecciona diariamente al azar 8 armazones y determina
la cantidad de defectos. El número de armazones defectuosos encontrado en los
últimos 15 días es: 4; 3; 2; 4; 3; 3; 9; 3; 1; 4; 6; 3; 0; 5; 3. Elabore un diagrama
de control para este proceso y determine si está “bajo control”.
7. Una empresa que produce papel higiénico evalúa su producto sometiendo 12 rollos
a una prueba de esfuerzo en humedad y verificando si el papel se rompe durante
la prueba y con qué frecuencia. A continuación, se presenta en número de rollos
defectuosos encontrado en los últimos 13 días: 0; 0; 1; 2; 2; 1; 2; 2; 3; 1; 2; 2
y 1. Elabore el diagrama de control para el proceso y determine si está o no “bajo
control”.
8. Se ha instalado un nuevo horno industrial en una empresa panadera. Para adquirir
experiencia respecto a las temperaturas del horno, un ingeniero toma lecturas de
la temperatura en 6 sitios diferentes del horno, cada media hora. La primera lec-
tura tomada a las 9:00 a.m. fue de 351 oF. (En la tabla sólo se dan sólo los dos
últimos dígitos de las lecturas para facilitar los cálculos). Determine los límites de
63
control superior e inferior de la lectura media de la temperatura, con su corres-
pondiente gráfica e interpretación. Además, elabore la gráfica de control de am-
plitudes (o rangos) e interprete fundamentando sus razones.
Lecturas (oF)
Hora
1 2 3 4 5 6
9:00 51 50 20 40 30 45
9:30 38 45 21 44 25 38
10:00 47 45 30 41 20 43
10:30 41 39 48 40 40 45
11:00 46 42 30 37 60 41
11:30 39 41 22 40 31 40
12:00 44 25 38 41 39 48
64
TEMA N° 5: GRÁFICAS DE CONTROL PARA ATRIBUTOS
1. Gráfica de Control de p: es una gráfica de se dibuja en secuencia en función del
paso del tiempo y que incluye una línea central, un límite de control inferior (LCI)
y un límite de control superior (LCS).
Notación:
̅ .q
p ̅
Límite de control inferior: p̅ − 3√
n
Nota: Si el valor del límite de control inferior saliera negativo, utilice 0 en su lugar.
Si el valor del límite de control superior excediera a 1, utilice 1 en su lugar.
Ejemplo 1: El departamento de crédito de un banco se encarga de ingresar cada
transacción al estado de cuenta mensual del cliente. La exactitud es decisiva y los
errores causarían el descontento de los clientes. Para evitar equivocaciones, cada
empleado que ingresa los datos teclea una muestra de 1500 de su lote de trabajo
una segunda vez, y un programa de computación verifica que los números concuer-
den. El programa imprime además un informe acerca del número y tamaño de cual-
quier discrepancia. Siete personas trabajaron durante la última hora y los siguientes
son los resultados:
o o
Empleado N N que no
inspeccionado concuerdan
1 1500 4
2 1500 6
3 1500 6
4 1500 2
5 1500 15
6 1500 4
7 1500 4
a) Elabore un diagrama de porcentaje de defectuosos para este proceso ¿Cuáles son
los límites de control superior e inferior? Interprete los datos.
b) ¿Parecería que algunos de los encargados de ingresar los datos están “fuera de
control”?
Solución
Completamos la tabla:
o o
Proporción de de-
Empleado N N que no
fectos
inspeccionado concuerdan
1 1500 4 4/1500=0,0027
2 1500 6 6/1500=0,0040
65
3 1500 6 0,0040
4 1500 2 0,0013
5 1500 15 0,0100
6 1500 4 0,0027
7 1500 4 0,0027
Total 10500 41
41
Luego: 𝑝̅ = = 0,0039
10500
0,0039(1 − 0,0039)
LCS = 0,0039 + 3. √ = 0,0087
1500
0,0039(1−0,0039)
LCS = 0,0039 − 3. √ = −0,0009 ~ 0 (No hay proporción negativa).
1500
Figura 77. Diagrama de control para las proporciones de los ingresos defectuosos
de datos
Conclusión:
Si la proporción de defectos se encuentran entre los límites 0,0000 y 0,0087, se
dice que el proceso está bajo control.
Se observa que el desempeño del empleado 5 está fuera de control estadístico,
debido a que la proporción de defectos que él muestra es de 0,0100 o 1% cifra
que se encuentra fuera del límite superior de control, por lo que se sugiere un
entrenamiento o capacitación adicional o debe ser transferido a otra área de
trabajo en el banco.
66
Ejemplo 1: El director de un periódico de Huancayo está interesado en determinar el
número de palabras mal escritas que se publican en ese diario. Para controlar el
problema y promover la necesidad de una escritura correcta, se utilizará un diagrama
de control. El número de palabras con errores en la edición final del diario durante
los últimos 10 es días es: 9; 10; 7; 4; 8; 9; 5; 6; 11; y 9. Determine los límites de
control adecuados e interprete el diagrama. ¿Hubo algunos días en ese periódico en
los que el número de palabras mal escritas haya estado fuera de control?
Solución
9+10+7+4+8+9+5+6+11+9
Hallamos 𝑐̅: 𝑐̅ = = 7,80
10
Luego: 𝐿𝐶𝐼 = 7,8 − 3(√7,8) = −0,58~0,00 porque el número de palabras mal escritas no
puede ser negativo.
𝐿𝐶𝑆 = 7,8 + 3(√7,8) = 16,18
Por tanto, el límite inferior de control es 0 y el límite superior de control es 16,18.
El diagrama c se muestra a continuación:
ACTIVIDAD AUTOFORMATIVA N° 5
1. Determine el valor de Verdad (V) o Falsedad (F) de las siguientes proposiciones:
a) Un diagrama de c con barras se refiere al número de defectos por ( )
unidad.
b) El objetivo del control estadístico de calidad es controlar la calidad ( )
del producto, mas no así el servicio que se ofrece.
c) El objetivo de los diagramas de control es monitorear en forma grá- ( )
fica la calidad de un producto o servicio.
d) Un diagrama para la media muestra la amplitud de variación de la ( )
variable.
e) La gráfica de atributos es un diagrama de porcentajes de defectos. ( )
2. Una empresa que fabrica acumuladores para vehículos está interesada en evaluar
la calidad el producto que ofrece al mercado, para lo cual selecciona una muestra
67
de acumuladores y los prueba. El número de acumuladores defectuosos encontra-
dos en los últimos 14 turnos es: 4; 3; 2; 4; 3; 3; 9; 3; 3; 4; 8; 3; 4 y 6. Elabore
el diagrama de control para el proceso y determine si está o no bajo control.
3. Una cadena de supermercados evalúa el trabajo de sus cajeros examinando al
azar los recibos impresos para verificar si hay errores. Los siguientes datos indican
el número errores observados en 12 recibos elegidos aleatoriamente: 0: 1; 1; 0;
0; 2; 1; 0; 1; 1; 0; 0. Elabore el diagrama de control para el proceso y determine
si el proceso está “bajo control”.
LECTURA SELECCIONADA N° 1
Investigación experimental: Características y etapas
La investigación experimental se ha de observación controlada o simple-
ideado con el propósito de determinar, mente por razones éticas.
con la mayor confiabilidad posible, rela- Ejemplos de este tipo de investiga-
ciones de causa-efecto, para lo cual uno ción son los siguientes:
o más grupos, llamados experimentales, Probar que el alquitrán del tabaco pro-
se exponen a los estímulos experimen- duce cáncer cuando es aplicado en de-
tales y los comportamientos resultantes terminadas condiciones a la piel de las
se comparan con los comportamientos ratas.
de ese u otros grupos, llamados de con-
Investigar los efectos de dos métodos
trol, que no reciben el tratamiento o es-
de enseñanza de la historia de Colom-
tímulo experimental.
bia en el aprendizaje en grupos de ni-
Características de la investigación ños de 5° de primaria, controlando el
experimental tamaño de la clase y el nivel de inteli-
a. Requiere de una manipulación rigu- gencia de los niños, y asignando profe-
rosa de las variables o factores expe- sores y estudiantes al azar a los grupos
rimentales, y del control directo o por de control y experimental.
procedimientos estadísticos al azar, Investigar los efectos de una clase de
de otros factores que pueden afectar abonos en el crecimiento precoz de un
el experimento. Estos procedimientos tipo de maíz, controlando otros facto-
al azar incluyen la selección de los su- res que también puedan afectar el cre-
jetos, la asignación al azar de los su- cimiento, suministrando el abono a un
jetos a los grupos experimental y de grupo de plantas experimentales y no
control y la asignación al azar del tra- suministrándolo al grupo de plantas de
tamiento experimental a uno de los control.
grupos.
Etapas en la investigación experi-
b. Emplea un grupo de control para com- mental:
parar los resultados obtenidos en el
Revisar la literatura relativa al pro-
grupo experimental, teniendo en
blema. Identificar y definir el pro-
cuenta que, para los fines del experi-
blema.
mento, ambos grupos deben ser
iguales, excepto en que uno recibe Formular la hipótesis explicativa, dedu-
tratamiento (el factor causal) y el otro cir sus consecuencias en términos ob-
no. servables y definir términos básicos.
c. La investigación experimental es el Elaborar plan experimental.
procedimiento más indicado para in- Identificar todos los factores o va-
vestigar relaciones de causa-efecto, riables no experimentales que pue-
pero a la vez tiene la desventaja de dan afectar el experimento y deter-
ser artificial y restrictivo, viéndose li- minar cómo controlarlas.
mitada su aplicación a los seres hu- Seleccionar el diseño experimental
manos, bien sea porque estos actúan apropiado.
de manera diferente bajo condiciones
68
Seleccionar una muestra represen- Organizar los resultados en forma es-
tativa de sujetos, asignarlos a los tadísticamente apropiada, de modo
grupos y a uno de éstos asignarle el que se pueda apreciar claramente el
tratamiento experimental. efecto.
Seleccionar o elaborar instrumentos 4. Aplicar la prueba de significación
para realizar el experimento y medir estadística apropiada.
sus resultados. Informar los resultados por escrito.
Elaborar procedimientos para reco- Fuente: https://sites.google.com/site/ciefim/ inves-
ger los datos del experimento. tigaci%C3%B3nexperimental
Enunciar la hipótesis nula.
Realizar el experimento.
ACTIVIDAD N° 2
Foro de discusión sobre la lectura: ¿Cuáles son características y etapas de la
investigación experimental?
Instrucciones
Ingrese al foro y responda la pregunta: ¿Cuál es la característica más importante de
la investigación experimental?
Determine un ejemplo de investigación experimental relacionado a su carrera pro-
fesional:
Formule la hipótesis explicativa.
Describa el plan experimental.
Deduzca sus consecuencias en términos observables.
69
GLOSARIO DE LA UNIDAD IV
1. Estudio observacional
Cuando vemos y medimos las características específicas, pero no se intenta mo-
dificar a los sujetos que se está estudiando.
2. Experimento
Son realizados prácticamente en todos los campos del saber humano, con la
finalidad de descubrir algo sobre un proceso o sistema.
3. Diseño experimental
Es un conjunto de técnicas que permiten manipular un proceso para inducirlo a
proporcionar la información que se requiere para mejorarlo mediante cambios en
sus variables y su interacción o secuencia de ejecución.
4. El análisis de varianza (ANOVA) de un factor
Sirve para comparar varios grupos en una variable cuantitativa. Se utiliza para
probar la hipótesis de que tres o más medias poblacionales son iguales y porque
se emplea una sola propiedad o característica para categorizar las poblaciones.
5. Experimento factorial AxB (ANOVA en dos direcciones)
En un análisis de varianza en dos direcciones se considera una segunda variable
de tratamiento. La segunda variable de tratamiento se denomina la variable de
bloqueo.
6. Datos de proceso
Son datos ordenados de acuerdo con alguna secuencia de tiempo. Son mediciones
de una característica de bienes o servicios que resultan de alguna combinación de
equipo, personas, materiales, métodos y condiciones.
7. Gráfica de rachas
Es una gráfica secuencial de valores de datos individuales a lo largo del tiempo.
Un eje (generalmente el eje vertical) se utiliza para los valores de los datos y el
otro eje (generalmente el eje horizontal) se emplea para la secuencia de tiempo).
8. Variación aleatoria
Se debe al azar, este tipo de variación inherente a cualquier proceso que no es
capaz de producir un bien o servicio exactamente de la misma forma cada vez.
9. Variación asignable
Resulta de causas identificables como maquinaria defectuosa, empleados sin ca-
pacitación adecuada, entre otros.
10. Gráfica R
Es una gráfica de control para supervisar la variación.
11. Gráfica de Control de p
Es una gráfica del que se dibuja en secuencia en función del paso del tiempo y
que incluye una línea central, un límite de control inferior (LCI) y un límite de
control superior (LCS).
12. Diagrama de c con barra
El diagrama llamado c con barra representa gráficamente el número de defectos
o fallas por unidad.
Autoevaluación de la Unidad IV
Instrucciones:
1. Suponga que usted es un nutricionista a quien se le ha pedido que determine si
existe una diferencia en el contenido de azúcar de las tres principales marcas de
cereal para el desayuno (A; B; y C). Para evaluar la cantidad de azúcar en los
cereales, usted realiza una muestra aleatoria de 5 paquetes de cada marca y lleva
a cabo un análisis físico-químico del contenido de azúcar y se determinó los valores
que se muestran. ¿Cuál es su conclusión para un nivel de significancia de 0,05?
Marcas A B C
6 4 8
de azúcar
5 2 7
Niveles
(%)
3 4 4
8 2 5
4 3 3
Total
2. Una empresa automotriz tiene en su almacén tres automóviles de la misma marca
y modelo. Al gerente le gustaría comparar el consumo de gasolina de los tres
vehículos (A; B y C) utilizando cuatro tipos diferentes de gasolina. Para cada
prueba, se depositó un galón de combustible en el tanque vacío de cada automóvil
y se manejó hasta agotar la gasolina. La tabla muestra el número de kilómetros
recorridos en cada prueba.
Distancia (en km)
Tipo de gasolina
Auto 1 Auto 2 Auto 3
Regular 36,0 33,5 34,6
Súper regular 27,4 31,2 33,3
Sin plomo 30,9 32,5 34,1
Premium sin plomo 32,7 29,9 32,8
Pieza de
Hora muestra
1 2 3 4
9:00 51 50 20 40
10:00 47 45 30 41
11:00 46 42 30 37
12:00 44 25 38 41
a) Calcule la media del diámetro exterior, la media de la amplitud de variación y
determine los límites de control para la media y la amplitud de variación.
b) ¿Se encuentran las mediciones dentro de los límites control? Interprete el grá-
fico 𝑥̅ y R
̅
Pregunta 1: a) rs=0,964;
b) El diagrama de dispersión presenta una nube de puntos con pen-
diente positiva.
c) Se rechaza H0, ya que 0,964>0,893
Conclusión: Para un 98% de nivel de confianza se rechaza H0, por lo
que se asevera que existe una correlación significativa entre el nú-
mero de anuncios y las ventas generadas.
Pregunta 2: Con la calculadora se obtienen los datos:
a) Ecuación: 𝑦̂ = 16,2 − 0,36𝑥
b) El mejor puntaje predicho: 𝑦̂ = 13,32
c) r=-0,87: Existe una correlación negativa alta.
r2=75,36%: La variación del promedio se explica por la variación
de las inasistencias.
El diagrama es una nube de puntos con pendiente negativa.
Pregunta 3: a) El índice estimado de satisfacción es: y´=497,736
b) Para un ingreso adicional de 10 000 soles: y´=525,736
Para dos actividades sociales más: y´=551,336
Proporciona más satisfacción dos actividades sociales más por se-
mana.
Pregunta 4: Los modelos matemáticos son:
Modelo lineal Modelo logarítmico
A=-19,67 A=-10,42
B=14 B=36,25
Modelo: y=-19,67-14x Modelo: y=-10,42+36,25lnx
r= 0,9789 r= 0,8978
r2=0,9583≈95,83% r2=0,8061≈80,61%
Promedio móvil
Año Ventas Total móvil 3 años
de 3 años
1 202
2 204 202+204+163=569 569/3=189,67
3 163 204+163+161=528 528/3=176
4 161 163+161+146=470 470/3=156,67
5 146 161+146+184=491 491/3=163,67
6 184 146+184+170=500 500/3=166,67
7 170
El gráfico es:
250
200
150
100
50
0
2010 2011 2012 2013 2014 2015 2016
5,00
Luego: 𝐹𝑐 = = 0,2010
24,88
8,79
Luego: Fc = = 0,3533
24,88
Pieza de
Hora muestra Media Rango
1 2 3 4
9:00 51 50 20 40 40,25 31
10:00 47 45 30 41 40,75 17
11:00 46 42 30 37 38,75 16
12:00 44 25 38 41 37,00 19
Media 39,19 20,75
Luego: x̅ = 39,19 y R
̅ = 20,75, de la tabla se tiene que A2=0,729 para subgrupos de
tamaño 4
Las fórmulas: Límite de control superior: LCS = x̿ + A2 R
̅
LCS=39,19+0,729(20,75)=54,32
LCI=39,19-0,729(20,75)=24,06
Conclusión: Las medias de los diámetros exteriores se encuentran dentro de los lí-
mites de control.
Las fórmulas: Límite de control superior: LCS=D 4R
̅
Límite de control inferior: LCI=D3R
̅
Límites de control:
̅ .q
p ̅ (0,26)(0,74)
Límite de control superior: p̅ + 3√ = 0,26 + 3√ = 0,68
n 10
̅ .q
p ̅ (0,26)(0,74)
Límite de control inferior: p̅ − 3√ = 0,26 − 3√ = −0,16 ~0,00
n 10