0% encontró este documento útil (0 votos)
491 vistas83 páginas

Chi Cuadrado

Descargar como pptx, pdf o txt
Descargar como pptx, pdf o txt
Descargar como pptx, pdf o txt
Está en la página 1/ 83

El estadístico Chi-

cuadrado y contrastes
asociados ING. RAÚL ALVAREZ GUALE, MPC
Estimación de Intervalos y
Prueba de Hipótesis para
Varianzas Poblaciones

ING. RAÚL ALVAREZ GUALE, MPC


Estimación y prueba de hipótesis de dos medias o
proporciones poblacionales

Análisis del valor de una varianza poblacional o de la


relación entre dos varianzas poblacionales
Ejemplos
 Conocer el volumen promedio que una máquina llena las
botellas de soda puede no ser suficiente para el gerente de
producción. La variabilidad del contenido puede ser también
de alta importancia:
 Una alta variabilidad implicará un alto número de botellas con bajo
contenido, las cuales producen molestias y reclamos de los clientes; así
como un alto número de botellas con exceso de soda, en perjuicio de
la empresa.
 Se requiere controlar tanto la media como la variabilidad del
volumen de llenado de las botellas.

 Un gerente puede requerir conocer si hay diferencias en la


variabilidad de las ventas entre dos áreas geográficas distintas.

 Se puede requerir saber si un proceso genera una producción


de mayor variabilidad que otro.
Se presentarán métodos que pueden ser usados para
efectuar inferencias respecto de una o dos varianzas
poblacionales.

Se presentarán dos nuevas distribuciones:


 Chi-cuadrado
 F
Objetivos

 Formular y probar hipótesis para una varianza


poblacional
 Hallar el(los) valor(es) crítico(s) chi-cuadrado(s)
de la tabla Chi-cuadrado
Prueba de Hipótesis para
Varianzas

Prueba de Hipótesis
para Varianzas

Prueba para Una Prueba para Dos


Varianza Poblacional Varianzas Poblacionales

Estadístico de prueba
Estadístico de prueba F
Chi-cuadrado
Caso de una Varianza
Poblacional
 Los casos que involucran una varianza
poblacional emplean uno de dos procedimientos
estadísticos:
Prueba de hipótesis
Estimados de intervalos de confianza
 El gerente de un banco puede creer que la
varianza poblacional del tiempo de servicio al
cliente es no mayor a 36 minutos al cuadrado. Se
plantea la hipótesis nula que la varianza es mayor
o igual a 36 min2 y, en base a data muestral, se
debe estar en capacidad de rechazar o no la
hipótesis nula.
Caso de una Varianza
Poblacional
 Un gerente requiere tomar una muestra de los
clientes del restaurante para determinar el número
de veces al mes que cenan fuera de casa. Para
esto requiere determinar el tamaño de la muestra,
lo cual depende de la varianza poblacional.
Puede tomar una muestra piloto y construir un
intervalo de confianza para la estimación de la
varianza poblacional.
 Lo ideal serían pruebas sobre la desviación estándar, sin
embargo no se disponen de las mismas, se debe recurrir
a pruebas sobre la varianza para a partir de las mismas
inferir sobre la desviación estándar.

 Interrogantes como ¿σ2 ≤ 36? Pueden analizarse a través


de pruebas de hipótesis con los procedimientos llamados
Pruebas Chi-cuadrado.

 Cuando una muestra aleatoria proviene de una


población distribuida normalmente, la distribución de la
varianza muestral estandarizada es una distribución chi-
cuadrado.
Distribución Chi-cuadrada

 Una variable continua X tiene una


distribución chi cuadrada, con v grados
de libertad, si su función de densidad es
dada por
Teorema

 Si S2 es la varianza de una muestra aleatoria de


tamaño n que se toma de una población normal que
tiene la varianza 𝜎 2 , entonces el estadístico
𝑛 − 1 𝑆 2 𝑛 (𝑋 − 𝑋)
𝑖
ത 2
𝑋2 = =෍
𝜎2 𝑖=1 𝜎2
Prueba de Hipótesis para Una Varianza:
Estadístico de Prueba Chi-cuadrado

El estadístico de prueba chi-cuadrado para una varianza poblacional


como se mencionó es:

(n  1)s 2
 
2

σ 2

Donde
2 = Variable chi-cuadrada estandarizada
n = Tamaño de muestra
s2 = Varianza muestral
El estadístico de prueba estandariza
σ2 = Varianza (supuesto) la varianza muestral (similar a los
estadísticos z y t de los capítulos
anteriores)
Gráfico de la Distribución
Chi Cuadrado
Hallando el Valor Crítico
 El valor crítico, , puede obtenerse de la Tabla Chi-cuadrado
2
Prueba Unilateral
Derecha:
H0: σ2 ≤ σ02
HA: σ2 > σ02

0 2
No rechazar H0 Rechazar H0
2 
Distribución Chi-cuadrado
 La distribución chi-cuadrado es una familia de distribuciones, que
depende de los grados de libertad:

 g.l. = n – 1

 Supuesto: La población es normal

0 4 8 12 16 20 24 28 2 0 4 8 12 16 20 24 28 2 0 4 8 12 16 20 24 28 2

g.l. = 1 g.l. = 5 g.l. = 15


Problemas para obtener 𝑋 2

 Obtener el valor de 𝑋 2 con un nivel de significancia del


5% de una cola a la derecha y n =14
𝑋 2 = 22.362
v=14-1=13
 Obtener el valor de 𝑋 2 con un nivel de significancia del
5% de una cola a la izquierda y n =14
𝑋 2 = 5.892
v=14-1=13
 Obtener el valor de 𝑋 2 con un nivel de significancia del
5% de dos colas y n =14
𝑙𝑖 = 𝑋 2 = 5.009; 𝑙𝑠 = 24.736
v=14-1=13
Problemas para obtener 𝑋 2

 Obtener el valor de 𝑋 2 con un nivel de significancia


del 1% de una cola a la derecha y v =7
𝑋 2 = 18,475
 Obtener el valor de 𝑋 2 con un nivel de significancia
del 5% de una cola a la izquierda y n =17
𝑋 2 = 7.962
v=17-1=16
 Obtener el valor de 𝑋 2 con un nivel de significancia
del 10% de dos colas y v =27
𝑙𝑖 = 𝑋 2 = 16.151; 𝑙𝑠 = 40.113
Teorema

 Si S2 es la varianza de una muestra aleatoria de


tamaño n, se puede escribir:
Prueba de Hipótesis de Una
Varianza, Chi-cuadrado

1. Formular las hipótesis en términos de s2


2. Fijar el nivel de significancia
3. Construir la región de rechazo
4. Calcular el estadístico de prueba, 2
5. Tomar una decisión
6. Interpretar los resultados
Hipótesis concernientes a
una varianza
Regiones críticas para probar
𝝈𝟐 = 𝝈𝟐𝒐 (población normal)
Hipótesis Rechazar la
alternativa hipótesis nula
si:
2
𝝈𝟐 < 𝝈𝟐𝒐 𝑋 2 < 𝑋1−𝛼
𝝈𝟐 > 𝝈𝟐𝒐 𝑋 2 > 𝑋𝛼2
2
𝝈𝟐 ≠ 𝝈𝟐𝒐 𝑋 2 < 𝑋1−𝛼/2
O bien 𝑋 2 >
2
𝑋𝛼/2
Ejemplo: Solución
Hipótesis: H0: σ2 ≤ 16, HA: σ2 > 16
Región de rechazo: Usar la tabla Chi-cuadrado para hallar el valor crítico:
2 = 24.9958 ( = 0.05 y 16–1=15 g.l.)

2 = 24.9958
 = 0.05
0 2
No rechazar H0 Rechazar H0
Estadístico de prueba:
(n  1)s 2 (16  1)24
 
2
  22.5
σ 2
16
Decisión: Como 2 = 22.5 < 24.9958 =   , no rechazamos H0
2

Conclusión: No hay evidencia significativa al nivel  = 0.05 para concluir


que la varianza excede a 16 grados2.
Prueba de Hipótesis de Una Varianza,
Chi-cuadrado: Unilateral y Bilateral
Prueba Unilateral Izquierda: Prueba Bilateral:
H0: σ2  σ02 H0: σ2 = σ02
HA: σ2 < σ02 HA: σ2 ≠ σ02

 /2
/2

0 2 0 2
Rechazar No rechazar H0 Rechazar No rechazar Rechazar H0
H0 H0 H0
21-  1-/2
2 2/2
(2L) (2U)
Ejemplo
 Una congeladora comercial debe mantener
la temperatura seleccionada con poca
variación. Las especificaciones indican que la
desviación estándar no debe ser mayor a 4
grados (o la varianza a 16 grados2).
 Una muestra de 16 datos
es evaluada y da una varian-
za muestral de s2 = 24. Evalúe
si la desviación estándar espe-
cificada ha sido excedida. Use
 = 0.05.
Problema 1
 Un fabricante de baterías para automóvil garantiza que su
producto durará, en promedio 3 años con una desviación
estándar de 1 año. Si cinco de estas baterías tienen duraciones
de 1.9, 2.4, 3.0, 3.5 y 4.2, ¿el fabricante continuará convencido
de que sus baterías tienen una desviación estándar de 1 año?
Suponga que las duraciones de las baterías tienen una
distribución normal.
Solución
Datos:
𝜎=1
𝑛=5
1
𝑆2 = 5 1.92 + 2.42 +32 +3.52 + 4.22 − 152 = 0.815
5 4
Solución: Problema 1
 Se declaran las hipótesis
Ho: 𝜎=1
H1: 𝜎 ≠1
 Se determinan los estadísticos-comprobación

𝑛 − 1 𝑆2
𝑋2 =
𝜎2

5 − 1 (0.815)
𝑋2 =
1

𝑋 2 = 3.26
Solución: Problema 1
 Con un nivel de significancia del 5%: No existe
evidencia de que la duración de las baterías no sea
de un año
Problema 2
 El proceso de bruñido (que se utiliza para desbastar
ciertas obleas de silicio al grosos adecuado) es
aceptable solo si 𝜎, la desviación estándar poblacional
del grosor del cubo cortado de las obleas, es cuando
mucho 0.50 mil. Use el nivel de significancia de 0.05 para
probar la hipótesis nula 𝜎=0.50 contra la hipótesis
alternativa 𝜎>0.50, si el grosor de 15 cubos cortados de
tales obleas tienen una desviación estándar de 0.64 mil.
Solución
Datos:
𝜎 = 0.5
𝑛 = 15
𝑆 = 0.64
Solución: problema 2
 Se declaran las hipótesis
Ho: 𝜎=0.50
H1: 𝜎>0.5
 Se determinan los límites de confianza
Se rechaza la hipótesis nula si X2>23.685 para un 𝑋0.05
2
para
14 grados de libertad
Solución: problema 2
Solución: problema 2
 Se determinan los estadísticos-comprobación

2
𝑛 − 1 𝑆
𝑋2 =
𝜎2

15 − 1 (0.64)2
𝑋2 =
(0.50)2

𝑋 2 = 22.94

 Se toma la decisión Se acepta Ho


Solución Problema 2
 Al 10% de nivel de significancia, se rechaza Ho
Hipótesis respecto a varias
proporciones
 Cuando se compara la respuesta del
consumidor (porcentaje favorable y porcentaje
desfavorable) a dos productos diferentes,
cuando se decide si la proporción de
defectuosos de un proceso dado permanece
constante de un día a otro, cuando se juzga si
hay diferencia en persuasión política entre
varios grupos de nacionalidad y muchas
situaciones similares, se está probando si dos o
más poblaciones binomiales tienen el mismo
parámetro p. DE hecho se está interesado
probar la hipótesis nula:
𝐻0 : 𝑝1 = 𝑝2 = ⋯ = 𝑝𝑘 = 𝑝
Tabla de varias
proporciones
Muestra Muestra Muestra Total
1 2 k
Éxitos 𝑥1 𝑥2 𝑥𝑘 𝑥
Fracaso 𝑛1 − 𝑥1 𝑛2 − 𝑥2 𝑛𝑘 − 𝑥𝑘 𝑛−𝑥
s
Total 𝑛1 𝑛 𝑥 𝑛2 𝑛𝑘 𝑛
𝑥 𝑗 𝑛𝑗 (𝑛 − 𝑥)
𝑝Ƹ = 𝑒1𝑗 = 𝑛𝑗 𝑝Ƹ = 𝑒2𝑗 = 𝑛𝑗 (1 − 𝑝)Ƹ =
𝑛 𝑛 𝑛

2 𝑘
( 𝑜𝑖𝑗 − 𝑒𝑖𝑗 )2
𝛸2 = ෍෍
𝑒𝑖𝑗
𝑖=1 𝑗=1
Problema 3:
 Muestras de tres tipos de materiales, sometidos
a cambios extremos de temperatura, dieron los
resultados que se presentan en la siguiente
tabla:
𝐻0 : 𝑝1 = 𝑝2 = ⋯ = 𝑝𝑘 = 𝑝
Material Materi Material Total
A al B C
Desmonorami 41 27 22 90
ento
Permanece 79 53 78 210
Intacto
Total 120 80 100 300
Solución Problema 3:
 Se plantean las hipótesis
𝐻0 : 𝑝1 = 𝑝2 = 𝑝3
𝐻1 : 𝑝1 , 𝑝2 𝑦 𝑝3 𝑛𝑜 𝑠𝑜𝑛 𝑡𝑜𝑑𝑎𝑠 𝑖𝑔𝑢𝑎𝑙𝑒𝑠
 Establecer los límites de confianza
Rechazar la hipótesis nula
Si 𝛸 2 > 5.991, oara el valor de 𝛸0.05
2
𝑝𝑎𝑟𝑎 3 − 1 =
2 𝑔𝑟𝑎𝑑𝑜𝑠 𝑑𝑒 𝑙𝑖𝑏𝑒𝑟𝑡𝑎𝑑
 Se determinan los número esperados de éxito y fracasos

(90)(120) (90)(80) (90)(100)


𝑒11 = = 36 𝑒12 = = 24 𝑒13 = = 30
300 300 300

(210)(120) (210)(80) (210)(100)


𝑒21 = = 84 𝑒22 = = 56 𝑒23 = = 70
300 300 300
 Se determina el estadístico
2 𝑘 2
( 𝑜𝑖𝑗 − 𝑒𝑖𝑗 )
𝛸2 = ෍ ෍
𝑒𝑖𝑗
𝑖=1 𝑗=1

( 41 − 36 )2 ( 27 − 24 )2 ( 22 − 30 )2
𝛸2 = + + +
36 24 30

( 79 − 84 )2 ( 53 − 56)2 ( 78 − 70)2
+ + = 4.575
84 56 70
 Se toma una decisión: dados que 𝛸 2 =4.575 no supera
5.991, la hipótesis nula no puede rechazarce.
Forma resumida de Cálculos

Material Materi Materia Total


A al B lC
Desmonoramiento 41 27 22 90 Tabla
Permanece Intacto 53 78 Real
79 210
Total 120 80 100 300
Material A Material Material Total
B C Tabla
Desmonoramiento 36 24 30 90 Esperada
Permanece Intacto 84 56 70 210
Total 120 80 100 300
𝛸 2 =Suma total
( 41 − 36 )2 ( 27 − 24 )2 ( 22 − 30 )2 𝛸2
36 24 30
( 79 − 84 )2 ( 53 − 56)2 ( 78 − 70)2
84 56 70
Problema 4:
 Están en desarrollo cuatro métodos para fabricar discos
de un material superconductor. Se elaboran cincuenta
discos con cada método y se comprueba su
superconductividad cuando se enfrían con nitrógeno
líquido:
Métod Métod Métod Métod Total
o1 o2 o3 o4
Supercond 31 27 22 25 120
uctores
Fallas 19 8 28 25 80
Total 50 50 50 50 200
Realice una prueba chi cuadrada con un nivel de
significancia del 5%. Si hay diferencia significativa entre las
proporciones de los superconductores fabricados, grafique
los intervalos de confianza.
Solución Problema 4:
 Se plantean las hipótesis
𝐻0 : 𝑝1 = 𝑝2 = 𝑝3 = 𝑝4
𝐻1 : 𝑝1 , 𝑝2 , 𝑝3 𝑦 𝑝4 𝑛𝑜 𝑠𝑜𝑛 𝑡𝑜𝑑𝑎𝑠 𝑖𝑔𝑢𝑎𝑙𝑒𝑠
 Establecer los límites de confianza
Rechazar la hipótesis nula
Si 𝛸 2 > 7.815, opra el valor de 𝛸0.05
2
𝑝𝑎𝑟𝑎 4 − 1 =
3 𝑔𝑟𝑎𝑑𝑜𝑠 𝑑𝑒 𝑙𝑖𝑏𝑒𝑟𝑡𝑎𝑑
 Se determinan los número esperados de éxito y
fracasos (50)(120)
𝑒11 = 𝑒12 = 𝑒13 = 𝑒14 = = 30
200

(50)(80)
𝑒21 = 𝑒21 = 𝑒21 = 𝑒21 = = 20
200
 Se determina el estadístico
2 𝑘 2
( 𝑜𝑖𝑗 − 𝑒𝑖𝑗 )
𝛸2 = ෍ ෍
𝑒𝑖𝑗
𝑖=1 𝑗=1

𝛸2
( 31 − 30 )2 ( 42 − 30 )2 ( 22 − 30 )2 ( 25 − 30 )2
= + + + +
30 30 30 30

( 19 − 20)2 ( 8 − 20)2 ( 28 − 20)2 ( 25 − 20)2


+ + + += 4.575
20 20 20 20
 Se toma una decisión: dados que 𝛸 2 =4.575 no
supera 5.991, la hipótesis nula no puede rechazarce.
Forma resumida de Cálculos

Material Material Material Total


A B C
Desmonoramiento 41 27 22 90 Tabla
Permanece Intacto 53 78 Real
79 210
Total 120 80 100 300
Material Material Material Total
A B C Tabla
Desmonoramiento 36 24 30 90 Esperada
Permanece Intacto 84 56 70 210
Total 120 80 100 300
𝛸 2 =Suma total
( 41 − 36 )2 ( 27 − 24 )2 ( 22 − 30 )2
𝛸2
36 24 30
( 79 − 84 )2 ( 53 − 56)2 ( 78 − 70)2
84 56 70
Estimación del Intervalo de
Confianza para una Varianza
Poblacional
Intervalo de Confianza para σ2

 El intervalo de confianza para σ2 es:

/2
/2

21-/2 2/2 2
(2L) (2U)
(n  1)s 2 (n  1)s 2
Donde 2L y 2U pertenecen a la  σ 2

distribución 2 con n -1 grados de
libertad
χU
2
χL2
Intervalo de Confianza: Ejemplo

 Una muestra de 16 datos de una congeladora da una


varianza muestral de s2 = 24.
 Formar un intervalo de confianza al 95% para la varianza
poblacional.
Intervalo de Confianza: Ejemplo
(Solución)
 Usar la tabla chi-cuadrado para hallar 2L y 2U:
( = 0.05 y 16 – 1 = 15 g.l.)

/2=0.025 /2=0.025

20.975 20.025
(2L) 6.2621 27.4884 (2U)
(n  1)s 2 (n  1)s 2 (16  1)24 (16  1)24
σ 
2
  σ2   13.096  σ 2  57.489
χ U2 χ L2 27.4884 6.2621

Estamos 95% seguros que la varianza poblacional está entre 13.096 y


57.489 grados2. (Tomando la raíz cuadrada, estamos 95% seguros que
la desviación estándar poblacional está entre 3.619 y 7.582 degrees).
Prueba de Bondad de Ajuste y
Análisis de Contingencia
Bondad de Ajuste
Distintos procedimientos estadísticos
requieren que la data muestral provengan
de poblaciones normalmente distribuidas.
Cuando se emplea la distribución t en la
estimación de intervalos de confianza o
en pruebas de hipótesis sobre una o dos
medias poblacionales, las poblaciones
de interés se asumen normalmente
distribuidas.
En distintos procedimientos ANOVA se
asumen poblaciones normalmente
distribuidas.
Bondad de Ajuste
¿Cómo se puede verificar que estos supuestos son
satisfechos?

 En diversas situaciones se requiere conocer si la


data muestral proviene o no de una determinada
distribución probabilística.

¿Cómo proceder?
Bondad de Ajuste

La prueba de bondad de ajuste Chi-cuadrado es


una prueba estadística que permite determinar si una
data muestral proviene o no de una hipotética
distribución.
Objetivos

 Usar la prueba chi-cuadrado de bondad de


ajuste para determinar si los datos se ajustan
a una distribución específica.

 Desarrollar una tabla de análisis contingencia


y evaluar la independencia a través de la
prueba chi-cuadrado.
Prueba Chi-cuadrado de Bondad
de Ajuste
¿Los datos de la muestra son coherentes
con una distribución supuesta?

Ejemplos:
¿Las llamadas al soporte técnico tienden a
ser iguales todos los días de la semana? (¿Las
llamadas siguen una distribución uniforme?)
¿Las medidas en un proceso de producción
siguen una distribución normal?
Prueba Chi-cuadrado de Bondad
de Ajuste (continuación)
 ¿Las llamadas al soporte técnico tienden a ser iguales
todos los días de la semana? (Es decir: ¿Las llamadas
siguen una distribución uniforme?).
 Para cada día de la semana se tomó una muestra de
10 días:
Total de llamadas (muestra):
Lunes 290
Martes 250
Miercoles 238
Jueves 257
Viernes 265
Sábado 230 Total = 1722
Domingo 192
Lógica de la Prueba Chi-cuadrado
de Bondad de Ajuste
 Si las llamadas estuvieran uniformemente dis-
tribuidas, se esperaría que las 1,722 llamadas se
distribuyan equitativamente en los 7 días:

1,722
 246 llamadas esperadas por día
7
 Prueba chi-cuadrado de bondad de ajuste: Evalúa
si los resultados muestrales son consistentes con los
resultados esperados.
(Es decir, datos observados = datos esperados)
Frecuencias Observadas vs.
Esperadas
Observado Esperado
oi ei
Lunes 290 246
Martes 250 246
Miercoles 238 246
Jueves 257 246
Viernes 265 246
Sábado 230 246
Domingo 192 246
Total 1,722 1,722
Estadístico de prueba chi-
cuadrado
H0: La distribución de llamadas es uniforme respecto
a los días de la semana (observado = esperado)
HA: La distribución de llamadas no es uniforme

 El estadístico de prueba es:


(o i  ei ) 2
 
2
(gl  k  1)
ei
Donde:
k = Número de categorías
oi = Frecuencia observada en la categoría i
ei = Frecuencia esperada en la categoría i
Región de Rechazo
H0: La distribución de llamadas es uniforme
respecto a los días de la semana
HA: La distribución de llamadas no es uniforme

( o  e ) 2
2   i i
ei

0 2
No rechazar H0 Rechazar H0
2 
(con k-1 grados de libertad)

Rechazar H0 si  
2 2
α
Estadístico de Prueba Chi-
Cuadrado
H0: La distribución de llamadas es uniforme respecto a los días de la semana
HA: La distribución de llamadas no es uniforme

20.05 = 12.5916 (gl = k – 1 = 6)

 = 0.05

0 No rechazar H0 Rechazar H0
2
Estadístico de prueba:
(290  246)2 (250  246)2 (192  246)2
 
2
  ...   23.05
246 246 246
Decisión: Como 2 = 23.05 > 2 = 12.5916 entonces se rechaza H0

Conclusión: Hay suficiente evidencia para concluir que la distribución no sea uniforme
Prueba Chi-cuadrado de Bondad
de Ajuste: Pasos

1. Formular hipótesis
2. Fijar el nivel de significancia
3. Determinar el valor crítico
4. Calcular el estadístico de prueba, 2
5. Tomar una decisión
6. Interpretar el resultado
Ejemplo: Distribución Normal
 ¿Las medidas obtenidas de un proceso de
producción siguen una distribución normal con
μ = 50 y σ = 15?,  = 0.05.
 Proceso:
Obtener datos muestrales.
Agrupar los datos muestrales en clases
(celdas). La frecuencia esperada en cada
celda debe ser al menos 5.
Comparar las frecuencias observadas
(datos muestrales) con las frecuencias
esperadas.
Ejemplo: Distribución Normal
(continuación)
 Datos muestrales y agrupados en clases:

150 medidas Clase Frecuencia


muestrales Menos de 30 10
80 [30 – 40> 21
65 [40 – 50> 33
36
[50 – 60> 41
66
50 [60 – 70> 26
38 [70 – 80> 10
57
[80 – 90> 7
77
59 De 90 a más 2
…etc… Total 150
Ejemplo: Distribución Normal
(continuación)
 ¿Cuáles son las frecuencias esperadas para las clases si
se asume distribución normal con μ = 50 y σ = 15?
Frecuencia Frecuencia
Clase Observada Esperada
Menos de 30 10
[30 – 40> 21
[40 – 50> 33 ?
[50 – 60> 41
[60 – 70> 26
[70 – 80> 10
[80 – 90> 7
De 90 a más 2
Total 150
Ejemplo: Distribución Normal
(Frecuencias Esperadas)
Frecuencia Frecuencias espera-
Clase P(X Є clase) esperada das para un tamaño
muestral n=150 de
Menos de 30 0.09121 13.68
una distribución nor-
[30 – 40> 0.16128 24.19 mal con μ=50 y σ=15
[40 – 50> 0.24751 37.13
[50 – 60> 0.24751 37.13 Ejemplo:
[60 – 70> 0.16128 24.19  30  50 
P(x  30)  P z  
[70 – 80> 0.06846 10.27  15 
 P(z  1.3333)
[80 – 90> 0.01892 2.84
 0.0912
De 90 a más 0.00383 0.57
Total 1.00000 150.00 (0.0912)(1 50)  13.68
Ejemplo: Distribución Normal
(Estadístico de Prueba)
Frecuencia Frecuencia
Clase observada, oi esperada, ei Estadístico de prueba:
10 ( o  e ) 2
2   i
Menos de 30 13.68 i
[30 – 40> 21 24.19 ei
[40 – 50> 33 37.13
[50 – 60> 41 37.13
[60 – 70> 26 24.19 Rechazar H0 si
[70 – 80> 10 10.27
[80 – 90> 7 2.84  
2 2
α
De 90 a más 2 0.57
(con k – 1 grados de
Total 150 150.00
libertad)
Ejemplo: Distribución Normal
(Región de Rechazo)
H0: La distribución de las medidas es normal con μ = 50 y σ = 15
HA: La distribución no es normal con μ = 50 y σ = 15

Región de Rechazo:
 2
14.0671 = 0.05 (7 g.l., 8 clases)

=0.05

0 No rechazar H0 Rechazar H0 2
Estadístico de prueba:
(oi  ei ) 2 (10  13.68) 2 (2  0.57) 2
 
2
  ...   12.057
ei 13.68 0.57

Decisión: Como 2 = 12.097 < 2 = 14.0671 entonces no se rechaza H0

Conclusión: No hay suficiente evidencia para concluir que la distribución de


las medidas no es normal con μ = 50 y σ = 15
13-66
Ejemplo: Distribución Normal
Importante:

 En el ejemplo desarrollado, la hipótesis


especificaba tanto la media, como la desviación
estándar, las probabilidades de la distribución
normal se calcularon empleando esos valores.

 Si la media y/o la desviación estándar no fuesen


especificadas, se usarían los datos de la muestra
para su cálculo, en cuyo caso se perderían
unidades adicionales de grados de libertad, una
por cada parámetro estimado a partir de la
muestra.
Análisis de Contigencia

Se ha visto pruebas de hipótesis referidas a una o


dos proporciones poblacionales,

¿Qué de las situaciones que involucran múltiples


proporciones poblacionales?
Ejemplos
 Una compañía de fondos mutuos ofrece 6 tipos diferentes de
fondos. Se desea determinar si la proporción de clientes que
selecciona cada fondo está vinculada o no a las 4 regiones de
venta en que opera la compañía.

 El administrador de un hospital recolecta data de satisfacción


con el servicio de los pacientes a través de ratings por
departamento y desea saber si hay diferencias significativas
entre los mismos.

 Un gerente de personal está interesado en determinar si hay


una relación entre el nivel de satisfacción del trabajador con su
trabajo y el tipo de trabajo.

En estos tres casos las proporciones se refieren a características


categóricas de la variable de interés.
Análisis de Contingencia

El procedimiento estadístico de Análisis de


Contingencia puede ser adecuado para la toma de
decisiones en contextos de múltiples proporciones,
con data de tipo nominal u ordinal y valores
determinados por conteo de número de ocurrencias
en cada categoría.
Análisis de Contingencia
 Se aplica en situaciones que involucran propor-ciones poblacionales
múltiples.
 Los datos deben ser categóricos.
 Usado para clasificar observaciones muestrales de acuerdo a dos o
más características.
 Usa el estadístico Chi-cuadrado para determinar independencia de
las características de interés.
 Los datos son resumidos en una tabla de contingencia (también
llamada tabla cruzada).
Análisis de Contingencia:
Ejemplo

Preferencia manual vs. Género (dos


variables), =0.05.
 Preferencia manual: Izquierda vs. Derecha
 Género: Masculino vs. Femenino

H0: La preferencia manual es independiente del


género
HA: La preferencia manual no es independiente
del género
Análisis de Contingencia:
Ejemplo
(continuación)
Los resultados muestrales se encuentran
organi-zados en una tabla de contingencia:

Preferencia manual
Tamaño muestral n =300
Género Izquierda Derecha
De 120 mujeres, 12
son zurdas
Femenino 12 108 120
De 180 hombres, 24
son zurdos Masculino 24 156 180

36 264 300
Lógica de la Prueba

H0: La preferencia manual es independiente del género


HA: La preferencia manual no es independiente del género

 Si H0 es verdadera, entonces la proporción de


mujeres zurdas debería ser la misma como la
proporción de hombres zurdos
 Las dos proporciones anteriores deberían ser las
mismas como la proporción de zurdos (femenino y
masculino) del total
Hallando Frecuencias Esperadas

De 120 mujeres, 12 Total:


son zurdas
De 180 hombres, 24 P(Zurdos)
son zurdos = 36/300 = 0.12
Si fueran independientes, entonces
P(Zurdas | Femenino) = P(Zurdos | Masculino) = 0.12

Se esperaría que el 12% de 120 (femenino) y el 12% de 180


(masculino) sean zurdos…

Es decir: (120)(0.12) = 14.4 mujeres serían zurdas


(180)(0.12) = 21.6 hombres serían zurdos
Hallando Frecuencias Esperadas
(continuación)
 Frecuencias esperadas:

(Total de la fila i ma )(Total de la columna j ma )


eij 
Tamaño muestral total

Total de mujeres Total de zurdos


Ejemplo: Frecuencia
esperada de
(120)(36)
e11   14.4 mujeres
zurdas
300
Total muestral
Frecuencias Observadas vs.
Esperadas

Preferencia manual
Género Izquierda Derecha
Observado = 12 Observado = 108
Femenino 120
Esperado = 14.4 Esperado = 105.6
Observado = 24 Observado = 156
Masculino 180
Esperado = 21.6 Esperado = 158.4

36 264 300

(Total de la fila i ma )(Total de la columna j ma )


eij 
Tamaño muestral total
Frecuencias Marginales
 Una frecuencia marginal es la suma de las
celdas de una fila o columna
Ejemplo, la frecuencia marginal
(femenino) en el estudio fue 12+108=120

 La frecuencia marginal esperada para una


categoría DEBE SER IGUAL a la frecuencia
marginal observada de la misma categoría
Es decir, la frecuencia marginal esperada
(femenino) en el estudio debe también ser
120
Estadístico de Prueba Chi-
cuadrado

El estadístico de prueba Chi-cuadrado es:

r c (oij  eij )2
  
2
con g.l.  (r  1)(c  1)
i1 j1 eij
Donde:
oij = Frecuencia observada en la celda (i, j)
NOTA: Todas las
eij = Frecuencia esperada en la celda (i, j) filas y columnas
r = Número de filas deben ser usadas
c = Número de columnas
Estadístico de Prueba
Chi-cuadrado (continuación)
Preferencia manual
Género Izquierda Derecha
Observado = 12 Observado = 108
Femenino 120
Esperado = 14.4 Esperado = 105.6
Observado = 24 Observado = 156
Masculino 180
Esperado = 21.6 Esperado = 158.4

36 264 300

(12  14.4) 2 (108  105.6) 2 (24  21.6) 2 (156  158.4) 2


 
2
    0.7576
14.4 105.6 21.6 158.4
Análisis de Contingencia

Regla de decisión:
Si 2 > 3.841,
rechazar H0;
3.841= 20.05, g.l.=(r-1)(c-1)=1
en otro caso,
no rechazar H0  = 0.05

No rechazar H0 Rechazar H0
2
Estadístico de prueba: 0.7576
Decisión: Como 2 = 0.7576 < 3.841, no se rechaza H0
Conclusión: No hay suficiente evidencia para concluir que el género y la
preferencia manual no son independientes
Prueba Chi-cuadrado:
Consideraciones
 La distribución chi-cuadrado es solamente
una aproximación de la verdadera
distribución
 Pero es aceptable cuando todas las frecuencias esperadas
son mayores que o iguales a 5
 Cuando las frecuencias son menores que 5, el valor del
estadístico de prueba chi-cuadrado podría incrementar la
probabilidad del error tipo I
 Como regla, si la hipótesis nula no es rechazada, acepte el
resultado así se tenga celdas con frecuencias esperadas
menores a 5.9.

 Si las frecuencias esperadas son pequeñas:


 Primero, incrementar el tamaño muestral
 Si es necesario, combinar las categorías de las variables
Resumen

 Se usó la prueba chi-cuadrado de bondad de


ajuste para determinar si los datos se ajustan a
una distribución específica:
 Ejemplo de una distribución uniforme (discreta)
 Ejemplo de una distribución normal (continua)
 Se usó la prueba chi-cuadrado en tablas de
contingencia para evaluar independencia (análisis
de contingencia)
 Se comparó las celdas de frecuencias observadas con
las esperadas.
Gracias

También podría gustarte