Pruebas de Bondad de Ajuste
Pruebas de Bondad de Ajuste
Pruebas de Bondad de Ajuste
de ajuste
e independencia
CAPTULO 11
INTRODUCCIN
En este captulo se examinarn pruebas de hiptesis en las que la
caracterstica que se desconoce es alguna propiedad de la forma
funcional de la distribucin que se muestrea. Adems se discutirn
pruebas de independencia de dos variables aleatorias en las cuales la
evidencia muestral se obtiene mediante la clasificacin de cada
variable aleatoria en un cierto nmero de categoras. Este tipo de
prueba recibe el nombre de bondad de ajuste. Para un tamao
especfico del error de tipo I, la hiptesis nula ser rechazada si existe
una diferencia suficiente entre las frecuencias observadas y las
esperadas.
Como en otras pruebas de hiptesis, en stas se comparan los
resultados muestrales con los esperados si la hiptesis nula es
verdadera. La conclusin de la prueba de hiptesis se basa en qu tan
cerca se encuentran los resultados muestrales de los resultados
esperados.
ESTADSTICO
para n grande, esta variable aleatoria se distribuye segn
una N(0;1). Adems sabemos que el cuadrado de una
variable aleatoria N(0,1) se distribuye segn una chicuadrado con un grado de libertad. Entonces el
estadstico
CONCLUSIONES
CASO CONTINUO
De acuerdo con lo anterior, si F0(x) es continua, la
prueba no compara las frecuencias que se observan
aisladas con la funcin de densidad propuesta tal y
como implica la hiptesis nula; sino, ms bien, la
comparacin se lleva a cabo aproximando la
distribucin continua bajo H0 con un nmero finito de
intervalos de clase.
No obstante, esta prueba es un procedimiento
razonablemente adecuado para probar suposiciones de
normalidad siempre y cuando el tamao de la muestra
sea suficientemente grande.
Otro caso
Ejemplo 1
Solucin
39
45
40
40
Suma
0,025
0,625
4,9
Ejemplo 2.- las calificaciones obtenidas en la prueba de matemticas SAT por los estudiantes de tercer ao son :
478193
1,00000
Intervalo normal
Probabilidad Nmero
estndar
del intervalo esperado
-2,425
-2,017
0,0142
6795,55
-2,008
-1,600
0,0325
15539,08
-1,592
-1,183
0,0626
29939,08
-1,175
-0,767
0,1016
48604,67
-0,758
-0,350
0,1390
66489,75
-0,342
0,067
0,1603
76642,67
0,075
0,483
0,1557
74444,01
0,492
0,900
0,1274
60930,11
0,908
1,317
0,0879
42021,58
1,325
1,733
0,0511
24420,10
1,742
2,150
0,0250
11957,60
2,158
2,575
0,0104
4991,80
0,9678
462776,00
Solucin
Nmero de
Probabilidad
Nmero
exmenes
del intervalo
esperado
3423
0,0223
10665,55
18434
0,0334
15984,05
39913
0,0643
30732,32
51603
0,1041
49793,4
61691
0,1422
67987,23
72186
0,1636
78228,44
72804
0,1586
75855,65
58304
0,1296
61986,47
46910
0,0893
42686,09
30265
0,0518
24771,49
16246
0,0253
12113,8
6414
0,0155
7388,52
478193
478193
(Ni-npi)2/npi
4918,1271
375,515279
2742,54873
65,7647833
583,087621
466,723881
122,766962
218,766858
417,967907
1218,28167
1409,55578
128,535787
12667,6424
El estadstico de Kolmogorov-Smirnov
La prueba de bondad de ajuste de Pearson se encuentra
limitada cuando F0(x) es continua y la muestra aleatoria
disponible es de tamao pequeo. Una prueba de
bondad cuando F0(x) es continua es la de KolmogorovSmirnov. No necesita que los datos esten agrupados en
intervalos y es aplicable cuando la muestra es pequea.
sta se basa en una comparacin entre las funciones
de distribucin acumulativas que se observan en la
muestra ordenada y en la distribucin propuesta bajo la
hiptesis nula.
Consideremos la hiptesis nula H0: F(x)=F0(x), en donde
F0(x) se especifica de forma completa. Dentese por x(1),
x(2), , x(n) a las observaciones ordenadas de una
muestra aleatoria de tamao n; y defnase la funcin de
Ejemplo 3
A continuacin se dan los valores ordenados de una
muestra aleatoria con las respuestas correctas de los
estudiantes que ingresaron en la universidad en la
prueba del SAT: 852, 875, 910, 933, 957, 963, 981, 998,
1010, 1015, 1018, 1023, 1035, 1048, 1063. En aos
anteriores el nmero de respuestas correctas estaba
representado por una N(985; 50). Con base en la
muestra, existe alguna razn para creer que ha ocurrido
un cambio en la distribucin de respuestas correctas en
las pruebas del SAT? Emplese un nivel =0,05.
Solucin
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
Valores
F0(x)
|Sn(x)-F0(x)|
ordenados Sn(x)
852
0,0625
0,0039
0,0586
875
0,1250
0,0139
0,1111
910
0,1875
0,0668
0,1207
933
0,2500
0,1492
0,1008
957
0,3125
0,2877
0,0248
963
0,3750
0,3300
0,0450
981
0,4375
0,4681
0,0306
998
0,5000
0,6026
0,1026
1007
0,5625
0,6700
0,1075
1010
0,6250
0,6915
0,0665
1015
0,6875
0,7257
0,0382
1018
0,7500
0,7454
0,0046
1023
0,8125
0,7764
0,0361
1035
0,8750
0,8413
0,0337
1048
0,9375
0,8962
0,0413
1063
1,0000
0,9406
0,0594
Tablas de contingencia
Ejemplo 4
ora
observada( a
(Oi Ei) (Oi
Oi)
esperada(
Ei)/Ei
Ei)
X1
O1
E1
X2
O2
E2
...
...
Xk
Ok
Ek
Prueba de independencia
El anlisis de una tabla de este tipo supone que las dos
clasificaciones son independientes. Esto es, bajo la
hiptesis nula de independencia se desea saber si existe
una diferencia entre las frecuencias que se observan y
las correspondientes frecuencias que se esperan. La
prueba chi-cuadrada da los medios apropiados.
Sea n una muestra que se clasifica segn A y B, cada uno
de los cuales tiene r y c categoras. Adems, sea Nij el
nmero de observaciones de las categoras i, j de A y B.
Se pueden tabular los datos en una matriz de r x c. El
total del i-simo rengln es la frecuencia de la i-sima
categora de A, de manera similar para las columnas. Sea
cuando n es grande.
Sin embargo, la mayora de las veces no se conocen las probabilidades marginales,
y de esta forma se estiman con base en una muestra.
Afortunadamente, la prueba de bondad de ajuste de la chi-cuadrado permanece
como la estadstica apropiada siempre que se empleen los estimados de mxima
verosimilitud y se reste un grado de libertad del total para cada parmetro que se
est estimando. Dado que
al sustituir se obtiene
Ejercicio 5
Una compaa evala una propuesta para fusionarse con una corporacin. El
consejo de directores desea muestrear la opinin de los accionistas para
determinar si esta es independiente del nmero de acciones que posee cada uno.
Una muestra aleatoria de 250 accionistas da los siguientes resultados:
Nmero de
Opinin
acciones
A favor En contra
Indecisos
Totales
Menos de 200
38
29
9
76
200-1000
30
42
7
79
Ms de 1000
32
59
4
95
Totales
100
130
20
250
Con base en esta informacin, existe alguna razn para dudar de que la opinin
con respecto a la propuesta es independiente del nmero de acciones que posee el
accionista? sese a =0,1.
Solucin
i=1,2,3; j=1,2,3.
Nmero de
Opinin
acciones
A favor En contra Indecisos Totales
Menos de
200
38
29
9
76
200-1000
30
42
7
79
Ms de 1000
32
59
4
95
Totales
100
130
20
250
Sumas
para 2=10,7957323.
Suma Total
10,7957323
El valor obtenido de la muestra
El valor
crtico
que se obtiene en la distribucin chi-cuadrado es 0,9;4=
PRUEBA.CHI.INV(0,1;4)= 7,77943396. Como 10,795 > 7,779 el
estadstico de prueba se encuentra dentro de la regin crtica y por
tanto la hiptesis nula debe rechazarse.
Ejemplo 6.- Sea la tabla siguiente en la que se indican el nmero de anotaciones de 6 puntos en un
partido de rugby americano en la temporada de 1979
Nmero de
anotaciones
0
1
2
3
4
5
6
7 mas
Nnero de
veces
35
99
104
110
62
25
10
3
448
Solucin
0
1
2
3
4
5
6
7 mas
veces
35
99
104
110
62
25
10
3
448
(Ni-npi)2/npi
relativa
terica
esperado
0,078125
0,08759775
39,2437907
0,45891997
0,22098214
0,21330051
95,5586303
0,12393465
0,23214286
0,25969338
116,342632
1,30941316
0,24553571
0,21078446
94,4314366
2,56673174
0,13839286
0,12831504
57,485137
0,35459579
0,05580357
0,06248942
27,9952617
0,32046826
0,02232143
0,02536029
11,3614104
0,16313452
0,00669643
0,01245915
5,58170083
1,19411258
1
448
6,49131068
0,95; 6
= PRUEBA.CHI.INV(0,05;6)= 12,5915774.
Ejemplo 7
k
)
e
consecuencia, se estim = 0.93.
k!
0 , 93
N impactos (k)
Probabilidad
0
1
2
3
4
5
0,3946 0,3669 0,1706 0,0529 0,0123 0,0023
227
211
98
30
Se puede comprobar que las predicciones concuerdan muy bien con los
datos observados, con lo cul el modelo obtenido es razonable.
Obsrvese que el modelo predice una media de impactos en cada rea
casi igual a 1 (concretamente, 093); en otras palabras, que es raro que
un mismo rea reciba ms de 1 impacto.
pasos para la prueba de bondad de ajuste usando Minitab son los siguientes.
Paso 1. Seleccionar el men Calc
Paso 2. Elegir Calculator
Paso 3. Cuando aparezca el cuadro de dilogo Calculator:
Ingresar ChiSquare en el cuadro Store result in variable
Ingresar Sum((C1-C2)**2/C2) en el cuadro Expression Clic en OK
Paso 4. Seleccionar el men Calc
Paso 5. Elegir Probability Distributions
Paso 6. Elegir Chi-Square
Paso 7. Cuando aparezca el cuadro de dilogo Chi-Square Distribution:
Seleccionar Cumulative probability
Ingresar 2 en el cuadro Degree of freedom
Seleccionar Input column e ingresar ChiSquare en el cuadro
Clic en OK
Prueba de independencia
.
Paso 1. Seleccionar el men Stat
Paso 2. Seleccionar Tables
Paso 3. Elegir Chi-Square Test (Table in
Worksheet)
Paso 4. Cuando aparezca el cuadro de dilogo ChiSquare Test
Ingresar C1-C3 en el cuadro Columns containing the
table
Clic en OK
Apndice