Prueba de Hipótesis - Taller

Descargar como pptx, pdf o txt
Descargar como pptx, pdf o txt
Está en la página 1de 73

PRUEBA DE

HIPÓTESIS
¿Qué es una hipótesis?

Es una suposición o conjetura respecto del modo de darse una


realidad, y que admite un si o un no como respuesta
¿Qué es una hipótesis?

¿El salario medio en Europa es menor que el salario medio en Estados


Unidos?

¿Beber frecuentemente alcohol está relacionada con padecer cáncer?

¿Las visitas en una web es la causa de éxito en un proyecto?


Tipos de hipótesis

Comparación: ¿El salario medio en Europa es menor que el salario


medio en Estados Unidos?

Relación o asociación: ¿Beber frecuentemente alcohol está


relacionada con padecer cáncer?

Causalidad: ¿Las visitas en una web es la causa de éxito en un


proyecto?
Media poblacional Media muestral

𝜇=
∑ 𝑥𝑖 ∑ 𝑥𝑖
𝑁 𝑥=
𝑛
El promedio se calcula con todos El promedio se calcula solo con
los datos de la población los datos de la muestra obtenida
Suponga una empresa que fabrica bombillos.
Todos los días produce miles de bombillos.
Se espera que estos bombillos tengan una vida de 1000 horas, ya que cuando se venden, eso es lo que se
ofrece a los compradores.
La gerencia tiene algunas dudas, pues algunos clientes se han quejado, por lo que se debe determinar si
efectivamente la vida media de los bombillos es inferior a la ofrecida.
Entonces, se toma una muestra aleatoria de bombillos. Estos bombillos serán probados para determinar su
vida media

Esta decisión debe tomarse con base en datos de una muestra,


pues si probara todos los bombillos que se producen, no se
vendería ninguno, lo cual no tendría sentido
Al tomar la decisión con base a datos muestrales se corre el riesgo de que, por causa del azar, esos bombillos
tengan una vida mayor, o menor, que la real (media poblacional).
En esta situación se debe determinar si la afirmación:

La vida media de los bombillos es 1000 horas

es verdadera o es falsa

Esta afirmación cuya veracidad se prueba se conoce como prueba de hipótesis

El procedimiento para realizar esta evaluación se llama

Prueba de hipótesis
Entonces, podemos definir:

Hipótesis: es una afirmación o conjetura acerca de un parámetro


de una o más poblaciones y que está sujeta a verificación

Prueba de hipótesis: procedimiento basado en evidencia de la


muestra y la teoría de probabilidades para determinar si la
hipótesis es una afirmación razonable
El temor de la empresa es que la vida media de los bombillos sea inferior a
1000 horas, pues esa ha sido la queja de los clientes.

Entonces, si se rechaza la hipótesis nula de que:

La vida media de los bombillos es 1000 horas

Se estaría tomando por válida la hipótesis alternativa:

La vida media de los bombillos es menor que 1000 horas.


También podemos definir:

Hipótesis nula: es cualquier hipótesis que se desea probar

Se denota

Hipótesis alternativa: es la hipótesis que se acepta cuando la


hipótesis nula es rechazada.

Se denota
En este caso:
Hipótesis nula:

La vida media de los bombillos es 1000 horas

Hipótesis alternativa:

La vida media de los bombillos es menor que 1000 horas.

Simbólicamente se representa:
Suponga que la empresa tomó una muestra de 24 bombillos y los probó para determinar la vida
media. Y así contar con datos para la prueba de hipótesis.

En la muestra se obtuvo una vida media de 970 horas.

¿Se puede concluir que la vida media de los bombillos es menor que 1000
horas?
La hipótesis nula se rechaza sólo si los datos ofrecen suficiente
evidencia para no considerarla verdadera
¿Por qué esto es así? Muestra 1

Vida media:
Población 985 hr. Dado que las muestras se
obtienen al azar, la media
en cada muestra será
Muestra 2 distinta, por lo que esas
diferencias no se
atribuyen a problemas en
Vida media: el producto, sino que son
1012 hr. causadas por el azar

Muestra 3

Vida media:
1007 hr.
¿Cómo se sabe qué tanto es " suficiente evidencia" ?

Para esto tenemos que agregar algunos conceptos adicionales.

Nivel de significancia: Es la probabilidad de rechazar la hipótesis


nula cuando es verdadera.

Se denota por . El nivel de confianza es


Este nivel de significancia permite establecer, con base en probabilidades, un criterio para
determinar si se tiene " suficiente evidencia" para descartar la hipótesis nula.

Esto sería rechazar que la diferencia de 30 horas menos se debe al azar ( o sea, por cuestión del azar la muestra contenía
bombillos de menor duración).
¿Cuánto es un nivel de significancia “aceptable"?

No se desea que la probabilidad de rechazar la hipótesis nula cuando es verdadera


sea alta

Generalmente las pruebas de hipótesis se realizan con niveles de significancia


de

5% o de 1%
¿Es confiable esta decisión basada en
datos de una muestra ?
Al basarse en datos de la muestra es posible cometer dos tipos de errores:

Error tipo II: se comete


Error tipo I: se comete
cuando se acepta una
cuando se rechaza una
hipótesis que es
hipótesis que es correcta.
incorrecta.
La probabilidad de
La probabilidad de
cometer este error se
cometer este error se
denota por
denota por
Error tipo I y error tipo II

Decisiones con respecto a


Se acepta Se rechaza
Verdadera
Error
Decisión correcta
Hipótesis nula

tipo I

Falsa
Error
Decisión correcta
tipo II
¿Qué significa estos errores para esta empresa?

Población Muestra

Error tipo I:

Por causa del azar los


bombillos de la muestra
tenían una vida muy baja
y se rechaza que la vida
media es de 1000 horas
siendo verdadera esta
hipótesis.

Consecuencia:
La empresa va a tratar de mejorar su proceso de producción innecesariamente, lo cual le hará incurrir en
costos mayores
¿Qué significa estos errores para esta empresa?

Población Muestra

Error tipo II:

Por causa del azar los


bombillos tenían una vida
muy alta y se acepta que
la vida media es de 1000
horas siendo falsa esta
hipótesis.

Consecuencia:
La empresa no va a tratar de mejorar su proceso de producción, pero debería hacerlo, lo cual le generará
clientes insatisfechos.
Las hipótesis y el p – valor

El valor de p es una simple


medida de la probabilidad de
que la diferencia de resultado
se deba al azar.

Se calcula con base a los


Se mantiene a Ho
datos de la muestra Se rechaza Ho
como cierta
Pasos para aprobar una hipótesis

1 Se establece la hipótesis nula y la hipótesis alternativa.

2 Se selecciona un nivel de significancia para la prueba.

3 Se identifica el estadístico de prueba.

Con base a la muestra se toma una decisión: se acepta o se


4 rechaza la hipótesis nula.
Prueba de hipótesis para la
media
Ejemplo 1: Datos sobre par de torsión para retirar
tapas
Un ingeniero especializado en control de
calidad debe garantizar que las tapas de las
Columna de la
botellas de champú queden ajustadas hoja de
trabajo Descripción
correctamente. Si las tapas quedan flojas,
Torsión El par de torsión
podrían caerse durante el envío. Si se necesario para retirar
la tapa.
aprietan demasiado, será difícil retirarlas. El
Máquina La máquina que ajustó
valor objetivo del par de torsión para ajustar la tapa: 1 ó 2.
las tapas es 18. El ingeniero recolecta una
muestra aleatoria de 68 botellas y prueba la
cantidad de par de torsión que se necesita Base de datos: TorsiónTapa.MTW

para quitar las tapas.


Paso 1. Plantear la hipótesis.

La hipótesis nula se plantea como:

La hipótesis alternativa entonces podría ser alguna de las siguientes


En el ejemplo se desea probar que el valor del par de torsión para ajustar las
tapas es 18:

Como en la muestra la media es 21.265 mayor que 18, la hipótesis alternativa


lógica es:
Paso 2. Especificar el nivel significancia (la probabilidad de error tipo I) con
que se desea trabajar.

Los valores usualmente usados son 5% y 1%.

- Si se escoge una probabilidad de error tipo I muy pequeña esto hace que la
probabilidad de error tipo II sea muy grande

En el ejemplo se aplica =5%


Paso 3. Se define el estadístico de prueba apropiado para la determinación del
p-valor

Con conocida:
En el ejemplo la es desconocida,
= entonces:

Con desconocida y
:
Ejecución de la prueba en Minitab
Paso 4. Se toma una decisión con respecto a la
Gráfica de caja de Torsión
(con Ho e intervalo de confianza t de 95% para la media)

_
X
Ho

10 15 20 25 30 35 40
Torsión

Como Valor p es menor al 5%, se rechaza la hipótesis


nula, existe evidencia suficiente para afirmar que el par
de torsión media es mayor a 18
Prueba de hipótesis para la
comparación de dos medias
poblacionales
Diferencia entre medias

Muchas veces se debe decidir si la diferencia entre dos medias


muestrales se puede atribuir al azar o si en realidad las dos
muestras provienen de poblaciones con medias diferentes
Comparar rendimiento Comparar efectividad de un Comparar dos métodos de
de dos tipos de llantas plan de seguridad ocupacional soldadura
(antes vs. Después) ¿Cuál es la más resistente?

Comparar dos métodos Comparar condiciones Comparar el


de enseñanza socioeconómicas de rendimiento de dos
dos poblaciones planes de marketing
Diferencia entre medias
Se plantea la hipótesis nula como:

La hipótesis alternativa entonces podría ser alguna de las siguientes:


Diferencia entre medias

Comparación de dos medias


Comparación de dos medias
dependientes
independientes
Prueba t pareada Los dos grupos deben
La prueba t pareada es útil para
ser independientes. Esto quiere
analizar el mismo conjunto de
decir que cada elemento debe
elementos que se midieron bajo dos
pertenecer a solo uno de los dos
condiciones diferentes, las
grupos y no tiene relación con los
diferencias en las mediciones
elementos del otro grupo.
realizadas en el mismo sujeto antes
y después de un tratamiento o las
diferencias entre dos tratamientos
administrados al mismo sujeto.
Ejemplo 1: Datos sobre par de torsión para retirar
tapas
Un ingeniero especializado en control de
calidad debe garantizar que las tapas de las
Columna de la
botellas de champú queden ajustadas hoja de
trabajo Descripción
correctamente. Si las tapas quedan flojas,
Torsión El par de torsión
podrían caerse durante el envío. Si se necesario para retirar
la tapa.
aprietan demasiado, será difícil retirarlas. El
Máquina La máquina que ajustó
valor objetivo del par de torsión para ajustar la tapa: 1 ó 2.
las tapas es 18. El ingeniero recolecta una
muestra aleatoria de 68 botellas y prueba la
cantidad de par de torsión que se necesita Base de datos: TorsiónTapa.MTW

para quitar las tapas.


Ejecución de la prueba en Minitab
Gráfica de caja de Torsión
40

35

Torsión 30

25

20

15

10

1 2
Máquina
Se observa que la torsión media
necesaria aplicando la maquina 1 es
menor que la torsión media necesaria
aplicando la máquina 2, la hipótesis
alternativa lógica es:

Como Valor p es menor al 5%, se rechaza la hipótesis nula,


existe evidencia suficiente para afirmar que la torsión media
necesaria aplicando la máquina 1 es inferior que la torsión
media necesaria aplicando la máquina 2.
Ejemplo 1: Datos sobre ritmo cardíaco en reposo

Un investigador médico estudia


la obesidad en las chicas
adolescentes. Puesto que el Columna de la
hoja de trabajo Descripción
porcentaje de grasa corporal es
difícil y costoso de medir Antes El ritmo cardíaco en reposo de la
persona antes del programa de
directamente, el investigador correr.
desea determinar si el índice de
masa corporal (IMC), una Después El ritmo cardíaco en reposo de la
persona después del programa de
medición que es fácil de tomar, correr.
es un predictor adecuado del
Diferencia La diferencia entre el ritmo
porcentaje de grasa corporal. El cardíaco en reposo de la persona
investigador recopila el IMC, el antes y después del programa de
porcentaje de grasa corporal y correr.
otras variables personales de
92 chicas adolescentes. Base de datos: RitmoCarRep.MTW
Ejecución de la prueba en Minitab
Gráfica de caja de Antes. Después
85

80

Datos 75

70

65

60
Antes Después
Como Valor p es menor al 5%, se rechaza la hipótesis nula,
existe evidencia suficiente para afirmar que el ritmo cardiaco
promedio antes del programa es diferente al ritmo cardiaco
promedio después del programa.
Ejemplo 2: Datos sobre grosor del recubrimiento

Un ingeniero de manufactura Columna de la Tipo de


hizo un experimento para hoja de trabajo Descripción variable
determinar la manera en que Grosor El grosor del recubrimiento. Respuesta
varias condiciones afectan el
Tiempo La hora del día en que Factor
grosor de una sustancia de realizó el experimento:
recubrimiento. Tres 1 = mañana, 2 = tarde.
operadores diferentes hacen el
Operador El operador que midió el Factor
experimento dos veces. Cada grosor: 1, 2 o 3.
operador mide el grosor dos
Posición La configuración de la Factor
veces para cada tiempo y máquina: 35, 44 o 52.
configuración

Base de datos: GrosorRecub.MTW


Prueba de hipótesis para la
comparación de más de dos
medias poblacionales
(ANOVA)
Usualmente, el ANOVA de un factor se emplea cuando tenemos una única
variable o factor independiente y el objetivo es investigar si las variaciones o
diferentes niveles de ese factor tienen un efecto medible sobre una variable
dependiente.

Factor: Tipo de llanta (A, B o C)

Variable dependiente:
Rendimiento
Comparar rendimiento de más de dos
tipos de llantas
Diferencia entre medias
Se plantea la hipótesis nula como:

No existe efector del factor sobre la variable de respuesta

La hipótesis alternativa se plantearía de la forma:

Si existe efecto de los niveles del factor sobre la variable de respuesta


Ejemplo 1: Datos sobre crecimiento de plantas
Un fabricante de fertilizantes para plantas desea Columna
de la hoja Tipo de
desarrollar una fórmula de fertilizante que produzca el de trabajo Descripción variable
mayor aumento en la altura de las plantas. Para Fertilizante El fertilizante Factor
probar las fórmulas de fertilizantes, un científico utilizado: Ninguno, Gro
wFast (el fertilizante
prepara tres grupos de 50 plántulas idénticas: un sometido a prueba)
o SuperPlant (el
grupo de control sin ningún tipo de fertilizante, un fertilizante de la
competencia).
grupo con el fertilizante del fabricante,
llamado GrowFast, y un grupo con un fertilizante Altura La altura de la planta. Respuesta

llamado SuperPlant, de un fabricante de la
competencia. Después de que las plantas han Base de datos: CreciPlantas.MTW
permanecido tres meses en un ambiente de
invernadero controlado, el científico mide la altura de
las plantas.
Gráfica de caja de Altura
40

35

30

25
Altura

20

15

10

GrowFast Ninguno SuperPlant


Fertilizante

La aplicación del fertilizante GrowFast resulta en un crecimiento adicional sobre la planta, ya que el crecimiento
promedio de las plantas a las que se aplicaron este fertilizante es superior respecto a otros grupos.
Diferencia entre medias
Se plantea la hipótesis nula como:

No existe efector del fertilizante (factor) sobre la altura de la planta (variable de


respuesta)

La hipótesis alternativa se plantearía de la forma:

Si existe efecto del fertilizante aplicado sobre el crecimiento de la planta


Ejecución de la prueba ANOVA
en Minitab
Como Valor p es menor al 5%, se rechaza la
hipótesis nula, existe evidencia suficiente para
afirmar que si existe efecto del tipo de fertilizante
sobre el crecimiento de la planta.
Prueba de independencia
Chi-cuadrado
Prueba de independencia entre dos variables cualitativas

Se plantea la hipótesis nula como:

La hipótesis alternativa se plantearía de la forma:

Una variable se distribuye de modo diferente para diversos niveles de la otra


Ejemplo 1: Desayuno de preferencia

Este archivo de datos hipotéticos trata sobre Columna de la


una encuesta realizada a 880 personas sobre hoja de trabajo Descripción
sus preferencias en el desayuno, teniendo Menor de 31, 31-45,
también en cuenta su edad, sexo, estado Edad
civil y si tienen un estilo de vida activo o no 46 – 60 o Más de 60
(en función de si practican ejercicio al menos Género Mujer o Hombre
dos veces a la semana). Cada caso
representa un encuestado diferente. El Estado Civil Soltero, Casado
objetivo de la presente investigación es
identificar el perfil del consumidor de cada Estilo de vida Activo, Sin actividad
tipo de desayuno.
Desayuno preferido Cereales, Barrita de
desayuno o Cereales
Prueba de independencia
Desayuno de preferencia según la edad
Se plantea la hipótesis nula como:

La hipótesis alternativa se plantearía de la forma:

El desayuno de preferencia difiere por categoría de edad


Gráfica de Edad. Desayuno preferido

20

Porcentaje
15

10

0
Desayuno preferido
na no l es na no les na no les na no les
ve yu rea ve yu rea ve yu rea ve yu rea
A sa e A sa e A sa e A sa e
de C de C de C de C
de de de de
ta ta ta ta
rri rri rri r ri
Ba B a Ba Ba
Edad
31 -4
5
- 60 60
e
rd 31
46 de
o ás
en M
M

Porcentaje en todos los datos.

Como Valor p es menor al 5%, se rechaza la


hipótesis nula, el desayuno de preferencia difiere
por categoría de edad.
Gráfica de Edad. Desayuno preferido Menores de 46: El desayuno de
preferencia puede ser los cereales y la
20
barrita de desayuno.
Porcentaje

15

10
De 46 a 60: El desayuno de
preferencia puede ser la avena y los
5
cereales.
0
Desayuno preferido
na no l es na uno al es na no les na uno al es
A
ve yu rea
sa C e
ve
A say ere A
ve yu rea
s a Ce
ve
A say ere Mayores de 60: El desayuno de
de de C de de C

ita
de
ita
de
ita
de
ita
de preferencia es la avena.
arr arr arr arr
B B B B
Edad
31 -4
5 60 60
o rd
e
31 46
-
ás
de Avena: Es mayor a 45 años.
en M
M

Porcentaje en todos los datos.


Barrita de desayuno: Es menor a
45años

Cereales: Es menor a 60 años


Prueba de independencia
Desayuno de preferencia según género
Se plantea la hipótesis nula como:

La hipótesis alternativa se plantearía de la forma:

El desayuno de preferencia difiere por género


Gráfica de Género. Desayuno preferido
140

120

100

Conteo
80

60

40

20

0
Desayuno preferido a o s a s
en un le en no le
Av ay r ea Av yu r ea
s Ce sa Ce
de de
de de
a ta
rit rri
B ar Ba
Género
br
e er
uj
om M
H

Como Valor p es mayor al 5%, se mantiene


la hipótesis nula como cierta, no existen
diferencias significativas entre hombre y
mujeres en cuanto al desayuno de
preferencia.
Prueba de independencia
Desayuno de preferencia según el estado civil
Se plantea la hipótesis nula como:

La hipótesis alternativa se plantearía de la forma:

El desayuno de preferencia difiere por estado civil


Gráfica de Estado Civil. Desayuno preferido
200

150

Conteo
100

50

0
Desayuno preferido s s
na n o le na un
o le
ve yu ea ve ea
A sa er A say er
de C de C
de de
rr i ta rri
ta
Ba Ba
Estado Civil
do er
o
sa lt
Ca So

Como Valor p es menor al 5%, se rechaza


la hipótesis nula, el desayuno de
preferencia difiere por estado civil.
Gráfica de Estado Civil. Desayuno preferido Casado: Prefiere la avena o los
200 cereales

150
Soltero: No se observa
diferencias significantes
Conteo

100

50

Avena: Es casado
0
Desayuno preferido a s a s
en no le en no le
Av
esa
yu
C
er ea Av
esa
yu
C
er ea Barrita de desayuno: No se observa
d d
i ta
de
ita
de diferencias significantes
arr arr
B B
Estado Civil
do o
C asa
S o lt
er Cereales: Es casado
Prueba de independencia
Desayuno de preferencia según el estilo de vida
Se plantea la hipótesis nula como:

La hipótesis alternativa se plantearía de la forma:

El desayuno de preferencia difiere por estilo de vida


Gráfica de Estilo de vida. Desayuno preferido
200

150

Conteo
100

50

0
Desayuno preferido s s
na n o
le na no le
ve yu ea ve yu ea
A
esa er A
esa er
d C d C
de de
ita i ta
rr rr
Ba Ba
Estilo de vida o
iv ad
t id
ac ti
v
En ac
n
Si

Como Valor p es menor al 5%,


se rechaza la hipótesis nula, el
desayuno de preferencia
difiere de acuerdo al estilo de
vida.
Gráfica de Estilo de vida. Desayuno preferido
Activo: No hay diferencias
200
significativas.

150
Sin actividad: El desayuno de
Conteo

100 preferencia es la avena o cereales


50

0
Desayuno preferido a o es a o es
Avena: Sin actividad.
ven yu
n
eal ven yun eal
A a r A sa r
de
s Ce de Ce

ita
de
ita
de Barrita de desayuno: En
rr rr
Ba Ba actividad.
Estilo de vida o d
t iv i da
ac ti v
En
n
ac Cereales: No se encuentra
Si
diferencias significativas.
Perfil del consumidor
Avena: El consumidor es una persona mayor a 45 años, es casado y tiene un
estilo de vida sin actividad.

Barrita de desayuno: Es menor a 45 años y tiene un estilo de vida activo.

Cereales: El consumidor es una persona es menor a 60 años y casado.

Avena: Es mayor a 45 Avena: Es casado Avena: Sin actividad.


años.
Barrita de desayuno: No se Barrita de desayuno: En
Barrita de desayuno: Es observa diferencias significantes actividad.
menor a 45años
Cereales: Es casado
Cereales: Es menor a 60 Cereales: No se encuentra
años diferencias significativas.

También podría gustarte