Regresión Lineal y Métodos No Parametricos
Regresión Lineal y Métodos No Parametricos
Regresión Lineal y Métodos No Parametricos
Septiembre 2005
Capítulo 1
1
que las Yi ; i = 1; 2; : : : ; n son independientes y que i N (0; 2 ), es decir
2
E ( i ) = 0 y V ar ( i ) = para i = 1; 2; : : : ; n.
Entonces una forma alterna de expresar el modelo de regresión lineal simple
es Y =x = E (Y =x ) + . Se sigue que
2
Y = 0 + 1x + ; Y N 0 + 1 x; (1.2)
2
los estimadores de mínimos cuadrados de 0 y 1, por ejemplo b0 y b1 deben
satisfacer
!
@W X X
n
= 2 yi nb0 b1 xi =0
@ 0 (b0 ;b1 ) i=1
!
@W X
n X
n X
n
= 2 yi xi b xi b x2i =0
0 1
@ 1 (b0 ;b1 ) i=1 i=1 i=1
b = y b1 X
0
Pn Pn
yi xi nxy (xi x) (yi y)
b1 i=1 i=1 Sxy
= P n = P
n =
Sxx
x2i nx2 (xi x)2
i=1 i=1
P P P P
xi ) 2
(2n) (2 x2i ) (2 xi )2 = 4n x2i (
n
P
n
= 4n (xi x)2 > 0
i=1
3
Tabla 1.1
x (o C) y (gramos)
0 8
0 6
0 8
15 12
15 10
15 14
30 25
30 21
30 24
45 31
45 33
45 28
60 44
60 39
60 42
75 48
75 51
75 44
4
n = 18
X
50 X
X X
X
40 X
X
X
30 X
X
X
Gramos disueltos
20 X
X
X
10 X
X
X
15 30 45 60 75
0
a) Temperatura 0C
Solución 2
yb = 5;825 + 0; 567x
5
Se puede estimar la cantidad media de compuesto químico se disolverá.
2
1.3. Estimación de
El parámetro 2 determina la cantidad de variabilidad inherente en el
modelo de regresión.
Muchas desviaciones grandes (pequeñas) sugieren un valor grande (pequeño)
de 2 .
Se llama residuos (errores) a las desviaciones verticales ei = yi ybi ; i =
1; 2; : : : ; n de la recta estimada.
Se usa la suma de los cuadrados de los residuos, SSE, para calcular la esti-
mación de 2 .
Pn
(yi ybi )2
SSE
b2 = = i=1 .
n 2 n 2
6
De aquí SSE < SST y la proporción SSE SST
es la variación total que no puede
ser “explicada”por el modelo de regresión lineal simple, luego R2 = 1 SSE SST
es la proporción de variación en y, la cual puede ser explicada por el modelo
de regresión lineal simple.
R2 se llama Coe…ciente de Determinación.
El coe…ciente de determinación puede escribirse de un modo diferente al
introducir una tercera suma de cuadrados, la suma de cuadrados de re-
gresión
X
n
SSR = (b
yi y)2
i=1
X X 2 X 2
SSR = (b
yi y)2 = b + b xi y = b x + b xi
0 1 1 1
2 X
= b1 (xi x)2 = b1 Sxy = SST SSE
SSE SST SSE SSR b Sxy
Así R2 = 1 = = = 1
SST SST SST Syy
Ejemplo 3 (Continuación del ejemplo 1)
El diagrama de dispersión de los datos de la cantidad de compuesto químico
que se disuelven en 100 gramos de agua a varias temperaturas, expresan un
coe…ciente de determinación muy grande.
b1 Sxy b1 (P xi yi nxy)
R2 = = P 2
Syy yi ny 2
0; 567 6705; 75 3801; 73
= 2 = = 0; 97293
17142 18 (27; 11) 3911; 78
Esto es, el modelo lineal explica 97; 29 % de la variabilidad de los datos.
7
(a) E b1 = 1 ; E b0 = 0
h i
(b) V b =
2
; V b = 2 1 2
+ Sxxx
1 Sxx 0 n
2 2
Al sustituir por su estimador b se obtiene un estimador de b
1
(error estándar)
b
b = p
1
Sxx
h i
b
(c) 1 N
2
1 ; Sxx ; b 0 N 0;
2 1 x2
+ Sxx
n
8
Entonces por la ecuación (6.1) se encuentra
r r
6; 877 6; 877
0; 567 2; 12 1 0; 567 + 2; 12
11812; 5 1812; 5
0; 5158 1 0; 618
(1) H0 : 1 =0
H1 : 1 6= 0
(2) Valor del estadístico de prueba.
b1 1
t0 = q 2
b
Sxx
(3) Valor P
P = 2P (T > jt0 j) ; T t (n 2)
Ejemplo 5 Se probará la utilidad del modelo para los datos del ejemplo 1.
Las hipótesis son
H0 : 1 =0
H1 : 1 6= 0
9
Y se usará = 0; 01 por los ejemplos anteriores se tiene
b1 = 0; 567 ; n = 18; Sxx = 11812; 5 ; b2 = 6; 877
X
n (yi ybi )2
SSE i=1
H0 : 1 = 0 ; SSR = (b
yi y)2 y =
i=1
n 2 n 2
10
Ejemplo 6 Tabla ANOVA para los datos del ejemplo (1).
Fuente de Suma de Grados de Cuadrados f Valor
Variación Cuadrados Libertad Medios P
Regresión 3801; 73 1 3801; 73 552;82 0
Error 110; 045 16 6; 877
Total 3911; 78 17
11
la suma total de los cuadrados del error puro se obtendría haciendo la suma
en todos los niveles de x como
Xm X ni
SSP E = (yik y i )2
i=1 k=1
P
m
hay nP E = (ni 1) = n m : grados de libertad asociados con la suma
i=1
de cuadrados del error puro.
La suma de los cuadrados de la falta de ajuste es simplemente
SSLF = SSE SSP E
con n 2 (n m) = m 2 grados de libertad.
El estadístico de la prueba de la falta de ajuste sería entonces.
(SSLF ) = (m 2)
F = F (m 2; n m)
SSP E= (n m)
observese que la falta de ajuste se re‡eja en los valores incrementados de
SSLF y un valor alto de F . Se rechaza H0 con valores de la razón F de-
masiado altos para haber ocurrido del azar.
Este procedimiento de prueba puede introducirse sin di…cultades en el ANO-
VA realizado para probar la utilidad del modelo.
Ejemplo 7 ANOVA del ejemplo (anterior).
Fuente de Suma de Grados de Cuadrados f Valor
Variación Cuadrados Libertad Medios P
Regresión 3801; 73 1 3801; 73 552;82 0
Error 110; 04 16 6; 877
Falta de ajuste 40; 706 4 10; 176 1; 76 0; 20145
Error puro 69; 334 12 5; 777
Total 17
La suma de los cuadrados del error puro se calcula como sigue:
P
ni
Nivel de x (yik y i )2 Grados de Libertad
k=1
0 2; 666 2
15 8 2
30 8; 665 2
45 12; 67 2
60 12; 666 2
75 24; 6667 2
Totales 69; 334 12
12
1.9. Intervalo de con…anza para Y =xo
V ar Y =x0 = V ar b0 + b1 x0
= V ar Y b x + b x0
1 1
Esta fórmula puede usarse para elaborar lo que se llama banda de con…anza
en torno a la línea de regresión estimada.
Para tal efecto, basta determinar intervalos de con…anza de (1 ) 100 %
de varios puntos selectos y luego unir los puntos de estos intervalos con una
curva continua, la regresión verdadera debe estar al interior de esa banda.
13
razonables para una futura Y como intervalo de pronóstico en lugar de
intervalo de con…anza.
El error de estimación es Y =x0 Yb =x0 una diferencia entre una cantidad …ja
(pero desconocida) y una variable aleatoria.
El error de pronóstico es Y =x0 Yb =x0 , una diferencia entre dos variables
aleatorias. Por lo que hay más incertidumbre en el pronóstico que en la
estimación, así un intervalo de pronóstico es más amplio que un intervalo de
con…anza.
Se hace uso del error de pronóstico para calcular el intervalo de pronóstico
así:
V Y =x0 Yb =xo = V (Y =x0 ) + V b0 + b1 x0
2 2 1 (x0 x)2
= + n
+ Sxx
2 1 (x0 x)2
= 1+ n
+ Sxx
Además, como
E Y =x0 Yb =x0 = 0
se tiene que
Y =x Yb =x0
T = q 0 2
t (n 2)
b 1 + n1 + (x0Sxxx)
A partir de lo anterior se puede desarrollar el siguiente intervalo de predicción
de (1 ) 100 % para una observación futura Y =x0 :
s
b + b x0 1 (x0 x)2
0 1 t 2 ;n 2 b 1 + +
n Sxx
14
Suponga que hay interés en predecir la cantidad de compuesto químico prome-
dio que se disolverá cuando x0 = 500 C. Entonces
b Y =x 0C
= 5;825 + 0; 567 (50) = 34; 175
0 =50
y el intervalo de con…anza de 95 % es
v !
u
u 1 (50 37; 5)2
34; 175 2; 12t6; 877 +
18 11812; 5
o bien
o bien
1.11. Correlación
En el análisis de regresión desarrollado aquí, el problema fundamental ha
sido expresar el valor medio de una variable aleatoria Y como función lineal
de una variable no aleatoria x.
En un estudio de correlación tanto X como Y deben ser variables aleatorias
15
y no se busca una relación lineal de X con la media Y , sino más bien se
intenta medir la intensidad de la relación lineal que existe entre X y Y .
El parámetro teórico usado para medir la intensidad de la relación lineal de X
con Y es el Coe…ciente de Correlación de Pearson, . Dicho parámetro
está di…nido por:
Cov (X; Y ) XY
=p =
V ar (X) V ar (Y ) X Y
Se observa una correlación positiva débil, es decir no hay una buena relación
lineal entre X y Y .
16
Capítulo 2
17
P
K P
K
valores nk ; k = 1; 2; : : : ; K. Nótese que nk = n y naturalmente pk = 1.
k=1 k=1
Tabla (2.1) Valores de celda observado y esperado.
X
K
(Nk npk0 )
X2 = 2
(K 1)
k=1
npk0
con = 0; 05; indica esta muestra que cambiaron los porcentajes de acci-
dentes?
Solución 11 1.
p1 = 0; 75 ; p2 = 0; 15 ; p3 = 0; 10
18
(2) Cálculos
X = N 0 de accidentes 0 1 más de 1
frecuencia observada 291 65 44
frecuencia esperada 300 60 40
H0 : pk = pk ( ) ; k = 1; 2; : : : ; K;
19
X = N 0 de defectos 0 1 2 3
Frecuencia observada 32 15 9 4
¿El supuesto de una distribución de Poisson parece apropiado para los datos?.
Solución 13 (1) H0 : La forma de la distribución de los defectos es de
Poisson. x
e
p (x; ) = ; x = 0; 1; : : : ;
x
H1 : La forma de la distribución no es de Poisson.
(2) debe estimarse a partir de los datos
b=x= 0 32 + 1 15 + 2 9+3 4
= 0; 75
64
con b = 0; 75 las probabilidades de celda son
e 0;75
(0; 75)k 1
pk b = ; k = 1; 2; 3 y
(k 1)!
X3
p4 b = 1 pk b
k=1
Por ejemplo
b e (0; 75)0
0;75
p1 = = 0; 472
0!
p4 b = 1 (p1 + p2 + p3 ) = 0; 041;
se obtiene
X = N o de defectos 0 1 2 3 ó más
Frecuencia observada 32 15 9 4
Frecuencia esperada 28; 32 21; 24 7; 98 2; 46
20
(3)
21
La región crítica de la prueba será
c
Dn > p .
n
x = 14; 3 ; s = 1; 21
22
X S (x) F0 (x) jS (x) F0 (x)j
12; 5 0; 125 0; 068 0; 056
12; 9 0; 25 0; 123 0; 127
13; 7 0; 375 0; 31 0; 065
14; 4 0; 5 0; 533 0; 033
14; 6 0; 625 0; 598 0; 027
14; 9 0; 75 0; 69 0; 06
15; 3 0; 875 0; 795 0; 08
16; 1 1;00 0; 932 0; 068
(1)
H0 : pjk = pj+ p+k ; i = 1; 2; : : : ; J ; k = 1; 2; : : : ; K
Siendo pjk la probabilidad conjunta P (X1 = j; X2 = k) ; pj+ la proba-
bilidad marginal P (X1 = j) y p+k la probabilidad marginal P (X2 = k).
23
representar en una tabla de contingencia con J renglones y K colum-
nas.
X2
1 2 K
1 n11 n12 n1K n1+
2 n21 n22 n2K n2+
X1 .. .. .. ..
. . . .
J nJ1 nJ2 nJK nJ+
n+1 n+2 n+k n
npj+ p+k
P
K P
K
njk njk
nj+ k=1 n+k k=1
pbj+ = = y pb+k = =
n n n n
Esto proporciona valores esperados estimado de celdas
nj+ n+k nj+ n+k
pj+ pb+k = n
ejk = nb =
n n n
(total j ésima renglón) (total k ésima columna)
=
n
El estadístico de prueba también tiene la forma que en anteriores situa-
ciones.
X
J X
K
(njk eij )2
2 2
X = ((J 1) (K 1))
j=1 k=1
eij
24
Ejemplo 17 En un experimento para estudiar la dependencia de la hiperten-
sión de los hábitos de fumar, se tomaron los siguientes datos de 180 indivi
duos:
No Fumadores Fumadores
fumadores moderados empedernidos
Con hipertensión 21 36 30
Sin hipertensión 48 26 19
Solución 18 1.
No Fumadores Fumadores
fumadores moderados empedernidos
Con hipertensión 21 (33; 35) 36 (29; 96) 30 (23; 68) 87
Sin hipertensión 48 (35; 65) 26 (32; 03) 19 (25; 31) 93
69 62 49 180
87 69 6003
e11 = = = 33;35
180 180
62 87
e12 = = 29; 9667
180
El estadístico de prueba es
25
2.5. Prueba de homogeneidad.
Suponga que se puede caracterizar un problema por medio de una variable
X2 de K categorías y que, además, se consideran J poblaciones de individuos,
donde cada individuo de las J poblaciones pertenece a exactamente una de
las K categorias. Se denota la variable “población”por X1 y la probabilidad
(condicional) de que un individuo tenga la categoria k, dado que se sabe que
es de la población j, por
X
J X
K
(njk ejk )2
2 2
X = ((J 1) (K 1))
j=1 k=1
ejk
26
con renglón de rechazo
2 2
;(J 1)(K 1)
Solución 20 1.
(1) H0 : los métodos de grabación son homogéneos con respecto a las cuatro
categorías de calidad.
H1 :los métodos de grabación no son homogéneos respecto a las cate-
gorías de calidad.
27
(2) Calidad
E B N D
1 113 (120) 34 (35) 21 (22) 32 (23) 200
2 117 (120) 31 (35) 25 (22) 27 (23) 200
3 130 (120) 40 (35) 20 (22) 10 (23) 200
360 105 66 69 600
360 200
e11 = = 120
600
105 200
e12 = = 35
600
El estadístico de prueba es
2 2 2
X 2 = (113120120) + (34 3535) + + (10 2323) = 14; 72
P (X 2 (6) > 14; 72) = 0; 0226 2 % < 5 %
28
Capítulo 3
Pruebas no paramétricas.
29
Ejemplo 21 Una serie de símbolos de más y menos ocurrida en este orden:
++ + ++ +
1 2 3 4 5 6 7
se observa que \r" el número de rachas es 7.
El número total de rachas de una muestra de cualquier tamaño nos señala si
la muestra es o no aleatoria. Si hay pocas rachas como si hay muchas, puede
deberse a falta de independencia.
Las hipótesis en este caso son:
H0 : La muestra es aleatoria.
H1 : La muestra no es aleatoria
La prueba de las rachas con SPSS se realiza mediante los menús.
Analizar ! pruebas no paramétricas ! rachas.
30
Ejemplo 22 Los siguientes datos representan el número de horas que un
compensador opera antes de requerir una recarga:
1; 5 2; 2 0; 9 1; 3 2; 0 1; 6 1; 8 1; 5 2; 0 1; 2 y 1; 7
Solución 23 1.
(1) H0 : = 1; 8
H1 : 6= 1; 8
(2) = 0; 05
(4) Cálculos
Xi 1,5 2,2 0,9 1,3 2,0 1,6 1,5 2,0 1,2 1,7
Xi -1,8 -0,3 0,4 -0,9 -0,5 0,2 -0,2 -0,3 0,2 -0,6 -0,1
Rango con
-5,5 7 -10 -8 3 -3 -5,5 3 -9 -1
signo
31
sus medias, entonces Di tendrá una distribución simétrica continua (no es
necesario que las distribuciones X y Y sean simétricas individualmente). La
hipótesis nula es H0 : D = 1 2 = 40 , el estadístico de prueba es
+
W = m n (W ; W ).
Ejemplo 24 Se a…rma que una nueva dieta reducirá el peso de una persona
4; 5 kilogramos, en promedio, en un período de dos semanas. Se registran los
pesos de 10 mujeres que siguen esta dieta antes y después de un período de
dos semanas, y se obtienen los siguientes datos.
Mujer Peso antes Peso después
1 58; 5 60; 0
2 60; 3 54; 9
3 61; 7 58; 1
4 69; 0 62; 1
5 64; 0 58; 5
6 62; 6 59; 9
7 56; 7 54; 4
8 63; 6 60; 2
9 68; 2 62; 3
10 59; 4 58; 7
Utilice la prueba del rango con signo al nivel de signi…cancia de 0; 05 para
probar la hipótesis de que la dieta reduce la media de la diferencia en pesos
en 4; 5 kg contra la hipótesis alternativa de que la media de la diferencia en
pesos es menor que 4; 5 kg.
Solución 25 1.
(1) H0 : D = 4; 5 Kg.
H1 : D < 4; 5 Kg.
(2) = 0; 05
(3) Como n = 10, la región crítica es W+ 11.
(4) Cálculos
par 1 2 3 4 5 6 7 8 9 10
di 1; 5 5; 4 3; 6 6; 9 5; 5 2; 7 2; 3 3; 4 5; 9 0; 7
di 4; 5 6 0; 9 0; 9 2; 4 1 1; 8 2; 2 1; 1 1; 4 3; 8
Rango
10 1; 5 1; 5 8 3 6 7 4 5 9
con signo
32
Encontramos que W + = 1; 5 + 8 + 3 + 5 = 17; 5 > 11 luego no puede
rechazarse la hipótesis nula de que la dieta reducve el peso en una per-
sona en 4; 5 kg, en promedio.
Cuando n 15, la distribución muestral de W + ó W se aproxima a
la distribución normal con media
n (n + 1)
=
4
y varianza
2 n (n + 1) (2n + 1)
=
24
Por lo tanto, la prueba puede basarse en el estadístico
n(n+1)
W 4
Z=q N (0; 1)
n(n+1)(2n+1)
24
DESPUÉS
SI NO
NO A B
ANTES
SI C D
Las letras son frecuencias. La primera casilla indica que A individuos han
pasado del NO al SI.
En este caso, hemos considerado los valores de la variable, como SI y NO, pero
pueden ser otros valores, siempre que sea posible evaluarlos dicotomicamente.
33
Las casillas de interés son las A y D, puesto que en ellas se re‡ejan los cam-
bios ocurridos.
Las Hipótesis son:
H0 : p A = p D
H0 : pA 6= pD
(A D)2
X2 = 2
(1)
A+D
Si la muestra es menor que 200, debe realizarse la corrección por continuidad,
también conocida como la corrección de Yates. En este caso el estadístico
de prueba es
2 (jA Dj 1)2 2
X = (1)
A+D
Ejemplo 26 Suponga que antes de un discurso de un candidato se sele-
ccionan 100 personas y se les pregunta si estan (SI) o no (NO) a favor del
candidato. Después, tras el discurso, se hace a las mismas 100 personas la
anterior pregunta, las respuestas se anotan en una tabla como sigue.
DESPUÉS
SI NO
NO 20 30
ANTES
SI 35 15
34
(2) Para estos datos A = 20; D = 15
35
expresiones:
n1 (n1 + 1)
U1 = n 1 n 2 + R1
2
n2 (n2 + 1)
U2 = n1 n2 + R2
2
Una vez calculamos U1 y U2 , se elige el menor; a este valor lo denominamos
U y, mediante la correspondiente tabla, se comprueba si las diferencias son
signi…cativas.
Cuando las muestras son grandes (n2 > 20), se consigue una buena aproxi-
mación a una distribución normal con media
n1 n2
U =
2
y desviación estandar
r
n1 n2 (n1 + n2 + 1)
U =
12
Es decir, podemos determinar la signi…cación de un valor observado de U por
medio de:
U n1 n2
2
Z=q
n1 n2 (n1 +n2 +1)
12
Solución 29 n1 = 8; n2 = 10
(1) H0 : 1 = 2
H1 : 1 6= 2
(2) = 0; 05
región crítica : U 17 (según tabla).
36
(3) Cálculos
Datos ordenados y rangos correspondientes
n1 (n1 + 1)
U1 = n 1 n 2 + R1
2
8 9
U1 = 80 + 93
2
U1 = 23 ; U2 = 57
37
3.5. Prueba de dos muestras de Kolmogorov
- Smirnov.
La prueba de dos muestras de Kolmogorov - Smirnov puede con…rmar
que dos muestras independientes han sido extraidas de la misma población,
ó de poblaciones con la misma distribución. La prueba es sensible a cualquier
clase de diferencia en las distribuciones de las que se sacaron las dos mues-
tras: diferencia en tendencia central, en dispersión, etc.
La prueba de Kolmogorov - Smirnov se basa en la diferencia máxima abso-
luta entre las funciones de distribución acumulada observadas para ambas
muestras. Cuando esta diferencia es signi…cativamente grande se consideran
diferentes las dos distribuciones.
Las hipótesis son
H0 : Las distribuciones son iguales (F1 (x) = F2 (x))
H1 :Las distribuciones son distintas (F1 (x) 6= F2 (x))
El estadístico de prueba es
n1 n2
X 2 = 4D2 2
(2)
n1 + n2
38
(2)
Muestra 1 Muestra 2 S1 (x) S2 (x)
1 1
0; 6 0 10 = 10 = 808
2 2
1; 6 0 10 = 10 = 8016
3 3
1; 9 0 10 = 10 = 2480
1 3
2; 1 8 10
= 8014
1 4
2; 2 8 10
= 8022
1 5
2; 5 8 10
= 8030
1 6
3; 1 8 10
= 8038
2 6
3; 3 8 10
= 8028
3 6
3; 7 8 10
= 8018
4 7
4; 0 4; 0 8 10
= 8016
4 8
4; 1 8 10
= 8024
5 8
4; 8 8 10
= 8016
6 9
5; 4 5; 4 8 10
= 8012
7 9
6; 1 8 10
= 802
7 10
6; 2 8 10
= 8010
8 10
6; 3 8 10
=0
De aqui se tiene
38 19
D = max jS1 (x) S2 (x)j = =
x 80 40
De la tabla el valor P para este valor observado de D es 0; 20, luego
no se rechaza la hipótesis nula y podemos suponer que las poblaciones
están idénticamente distribuidas.
39
cualquier sucesión de puntajes del mismo grupo (ya sea del 1 o del 2). la
prueba se basa en que, si las distribuciones de los datos son iguales, las
rachas estarán uniformemente repartidas; por el contrario, si hay diferen-
cias entre ellas, las rachas de cada grupo se encontrarán repartidas de forma
desequilibrada.
Las hipótesis son:
H0 : las dos muestras vienen de poblaciones identicamente distribuidas.
H1 :Las dos poblaciones no están idénticamente distribuidas.
El contraste se resuelve para muestras pequeñas (menores que 20) consultan-
do la distribución muestral del número de rachas (r). Hay tablas de valores
críticos de r.
Cuando n1 y n2 son mayores que 20, la distribución muestral conforme a H0
para r es aproximadamente normal, con
2n1 n2
media = r = +1
n1 + n2
y s
2n1 n2 (2n1 n2 n1 n2 )
desviación estandar = r =
(n1 + n2 )2 (n1 + n2 1)
esto es
r r
Z= N (0; 1)
r
Esta aproximación puede mejorarse mediante la corrección por continuidad
que se realiza sustrayendo 0; 5 de diferencia absoluta entre r y r :
jr rj 0; 5
Z=
r
40
Ejemplo 32 A continuación vemos unas muestras de sueldos anuales ini-
ciales, para quienes se inician en las profesiones de contador público y de
plani…cador …nanciero (Fortune, 26 de Junio de 1995). Los sueldos anuales
están expresados en miles de doláres.
Contador público Plani…cador …nanciero
25; 2 24; 0
33; 8 24; 2
31; 3 28; 1
33; 2 30; 9
29; 2 26; 9
30; 0 28; 6
25; 9 24; 7
34; 5 28; 9
31; 7 26; 8
26; 9 23; 9
Con nivel de signi…cancia de 0; 05 compruebe el supuesto de que no hay dife-
rencia entre los sueldos anuales iniciales de contadores públicos y de plani…-
cadores …nancieros.
Solución 33 En este caso n1 = n2 = 10
(1) H0 : Los sueldos anuales iniciales de contadores públicos y de plani…-
cadores …nancieros están identicamente distirbuidos.
H1 : Las distribuciones no son iguales.
(2) = 0; 05, región crítica r 6
(3) Cálculos
Sueldo: 23; 9 24; 0 24; 2 24; 7 25; 2 25; 9 26; 8 26; 9
Muestra: 2 2 2 2 1 1 2 1 2
2 1
28; 1 28; 6 28; 9 29; 2 30; 0 30; 9 31; 3 31; 7
2 2 2 1 1 2 1 1
33; 2 33; 8 34; 5
1 1 1
rmax = 8
rm n = 8
Decisión: No se rechaza la hipótesis nula.
41
3.7. Prueba de Moses de reacciones extremas.
La prueba de Moses trata de determinar si el comportamiento en los va
lores extremos, mayores y menores, de dos variables es igual o distinto.
A uno de los grupos se le denomina grupo experimental, y al otro control.
Las observaciones de ambos grupos se combinan y ordenan. Esta prueba se
centra en la amplitud del grupo control. Si no hay diferencias signi…cativas
entre los valores extremos, esperamos que los rangos mayores y menores es-
tén repartidos equitativamente entre los dos grupos; en caso contrario habrá
diferencias que podrán ser detentadas por la prueba de Moses.
Las hipótesis son:
H0 : No hay diferencias en los valores extremos.
H1 : Hay diferencias en los valores extremos.
El estadístico de prueba es la amplitud del grupo control que se calcula co-
mo la diferencia entre los rangos de los valores mayor y menor del grupo de
control más uno:
S 0 = RM Rm + 1
Debido a que los valores atípicos ocasionales pueden distorsionar fácilmente
el rango de la amplitud, Moses propuso que para el cálculo de S 0 previamente
se descontaría un número pequeño \L" de los valores extremos del grupo de
control.
42
Ejemplo 35 n individuos son sometidos a K pruebas. cada una de ellas
sólo puede evaluarse con éxito o fracaso.
Tabla de contingencia para la prueba Q de Cochran.
Pruebas
Individuos 1 2 K Total
1 X11 X12 S1 S12
2 X21 X22 S2 S22
.. ..
. .
n Xn1 Xn2 XnK Sn Sn2
T1 T2 TK
Total N
T12 T22 TK2
Xik 2 f0; 1g
43
Expertos A B C D Si Si2
1 0 0 1 0 1 1
2 1 0 1 1 3 9
3 1 0 1 1 3 9
4 1 1 1 1 4 16
5 0 1 0 0 1 1
6 1 0 1 1 3 9
7 1 0 1 1 3 9
8 1 0 1 0 2 4
9 1 0 1 0 2 4
10 0 0 0 0 0 0
Tk 7 2 8 5
Tk2 49 4 64 25
(4 1) 4 (142) (22)2
Q= = 9; 69
4 (22) 62
El valor
P = P X 2 (3) > 9; 69 = 0; 021 < 0; 05:
Luego rechazamos la hipótesis nula a un nivel de signi…cancia de 5 % y
aceptamos que, según los expertos, el valor de los artículos es distinto.
44
una permutación de los enteros de uno a K. La suma de los rangos en cada
bloque será igual a
K (K + 1)
1+2+ +K =
2
Si la hipótesis nula
H0 : e 1 = e 2 = = ek
es verdadera se puede esperar que los rangos estén repartidos en cada colum-
na de manera uniforme y sólo encontraremos entre ellas pequeñas diferen-
cias debidas al azar, si las diferencias son demasiado grandes, rechazamos la
hipótesis nula y concluiremos que existen diferencias signi…cativas entre las
variables. esto es, cuando H0 es verdadera, las medias de los rangos dentro
de cada muestra (columna) Rk se acercan a la media K+1 2
, y cuando H0 es
K+1
falsa, las Rk tenderán a ser bastante diferentes de 2 . El estadístico de
prueba para la prueba de Friedman está dado por
12n X K
K +1
2
2
S= Rk (K 1)
K (K + 1) k=1 2
12 X K
S= R2 3n (K + 1)
nK (K + 1) k=1 k
Evaluador
45
Propiedad I II III
A 58; 9 63; 7 65; 3
B 63; 1 62; 9 63; 5
C 76; 4 81; 2 77; 1
D 81; 0 83; 4 81; 5
E 90; 5 91; 4 86; 2
F 225; 0 276; 5 245; 5
Solución 38 1.
(1) H0 : Los precios medios de las propiedades son iguales para los tres
evaluadores.
H1 : Los precios medios no son iguales.
(2)
Evaluador
Propiedad I II II
A 1 2 3
B 2 1 3
C 1 3 2
D 1 3 2
E 2 3 1
F 1 3 2
R1 = 8 R2 = 15 R3 = 13
12
S= 82 + 152 + 132 3 6 4 = 4; 33
6 3 4
El valor P es P = P (X 2 (2) > 4; 33) = 0; 1145 > 0; 005
No hay evidencia su…ciente para rechazar la hipótesis nula.
46
la igualdad de las medianas poblacionales. Así pues, la hipótesis nula y
alternativa se expresan como:
H0 : e i = e 2 = = eK
H1 : al menos medianas poblacionales no son iguales.
12 X R2
K
i
H= 3 (n + 1)
n (n + 1) i=1 ni
47
5 + 7 + 6 = 18 observaciones son las siguientes:
Calculadora
A B C
4; 9 (4) 5; 5 (8; 5) 6; 4 (15)
6; 1 (12) 5; 4 (7) 6; 8 (18)
4; 3 (1) 6; 2 (13) 5; 6 (10)
4; 6 (2) 5; 8 (11) 6; 5 (16)
5; 3 (6) 5; 5 (8; 5) 6; 3 (14)
5; 2 (5) 6; 6 (17)
4; 8 (3)
R1 = 4 + 12 + 1 + 2 + 6 = 25
R2 = 8; 5 + 7 + + 3 = 56
R3 = 15 + 18 + + 17 = 90
El valor P es
2
P =P (2) > 10; 473 = 0; 0053 0; 5 %
48
REFERENCIAS BIBLIOGRÁFICAS.
49