Análisis Multidimensional
Análisis Multidimensional
Análisis Multidimensional
ANÁLISIS MULTIDIMENSIONAL
10.1 El modelo de regresión múltiple
En el modelo de regresión múltiple, se supone que existe una relación lineal entre
alguna variable Y, a la cual se da el nombre de variable dependiente, y k variables
independientes, X1, X2, . . . Xk. A veces, las variables independientes se conocen como
variables explicativas debido a que se utilizan para explicar la variación en Y, y como
variables de predicción, por su uso en predecir Y.
y j 0 1 x1 j 2 x2 j ... k xkj e j
Donde
yj es un valor típico de una de las subpoblaciones de los valores de Y,
βi se conocen como coeficientes de regresión, x1j, x2j, . . . , xkj son, respectivamente, los
valores particulares de las variables independientes X1, X2, . . . , Xk, y
ej es una variable aleatoria con media de 0 y variancia σ2, que es la variancia común de
las subpoblaciones de los valores de Y.
Las estimaciones b0, b1, b2, ... , bk de los coeficientes de regresión se obtienen
resolviendo la siguiente serie de ecuaciones normales:
b0 x2 j b1 x1 j x2 j b2 x2 j ... b1 x2 j xkj x2 j yi
2
b0 xkj b1 xkj x1 j b2 xkj x2 j ... bk xkj x2 j yi
2
nb0 b1 x1 j b2 x2 j yi
b0 x1 j b1 x1 j b2 x1 j x2 j x1 j yi
2
b0 x2 j b1 x1 j x2 j b2 x2 j x2 j yi
Si
b0' 0 , se tiene que
b0 y b1 x1 b2 x2
nb0 b1 x1 j b2 x2 j yi
b0 x1 j b1 x1 j b2 x1 j x2 j x1 j yi
2
Número de
Duración de la
admisiones Edad
hospitalización
previas (X2)
(Y)
(X1)
15 0 21
15 0 18
21 0 22
28 1 24
30 1 25
35 1 25
40 1 26
35 2 34
30 2 25
45 2 38
50 3 44
60 3 51
45 4 39
60 4 54
50 5 55
x '2
2j ( x2 j x2 )2 x22 j ( x2 j ) 2 n 18975 5012 15 2241.60
x '
1j x2' j ( x1 j x1 )( x2 j x2 ) x1 j x2 j x1 j x2 j n 1226 (29)(501) 15 257.40
x '
1j y 'j ( x1 j x1 )( y j y ) x1 j y j x1 j y j n 1353 (29)(501) 15 272.27
x '
2j y 'j ( x2 j x2 )( y j y ) x2 j y j x2 j y j n 21039 (501)(559) 15 2368.40
Cuando se sustituyen estos valores en las ecuaciones
b1 x1'2j b2 x1' j x2' j x1' j y 'j
b1 x1' j x2' j b2 x2'2j x2' j y 'j
Se obtiene que
34.93b1 257.40b2 272.27
257.40b1 2241.60b2 2368.40
Luego de resolver las ecuaciones, se obtienen:
b1 0.06
b2 1.05
b0 se obtiene a partir de la relación:
b0 y b1 x1 b2 x2
b0 37.27 (0.06)(1.93) (1.05)(33.40) 2.08
La ecuación de regresión múltiple de la muestra es entonces:
y j 0 1 x1 j 2 x2 j e j
y j b0 b1 x1 j b2 x2 j
y j 2.08 0.06 x1 j 1.05 x2 j
Ry2;1,2,3,..,k
10.4 Coeficiente de determinación múltiple
(yi y)2 (yc y)2 (y j yc ) 2
SCTOTAL SCEXPLIDACA SC INEXPLICADA
SCTOTAL (yi y) 2 y 2j ( y j )2 n
SCEXPLICADA (yc y) 2 b1 x1' j y 'j b2 x2' j y 'j ... bk xkj' y 'j
SCINEXPLICADA SCTOTAL SC EXPLICADA
Reemplazar datos en
SCTOTAL y 2j ( y j ) 2 n 23775 559 2 15 2942.93
SCEXPLICADA b1 x1' j y 'j b2 x2' j y 'j (0.06)(272.27) (1.05)(2368.40) 2503.16
SCINEXPLICADA SCTOTAL SCEXPLICADA 2942.93 2503.16 439.77
Ry2;1,2,3,..,k
(y y)
c
2
(y y)
i
2
2503.16
Ry2;1,2 0.85
2942.93
Se dice que el 85% de la variación toral en los valores Y es explicada por el plano de
regresión ajustado.
ANOVA
Para determinar si la regresión en conjunto es significativa, puede llevarse a cabo un
análisis de varianza.
Hipótesis
H 0 : 1 2 0
H1 : i 0 para al menos una j
Gráfica de distribución
F, df1=2, df2=12
1.0
0.8
Densidad
0.6
0.4
0.2
0.05
0.0
0 3.885
X
Salida de Minitab
Análisis de regresión: (Yj) vs. (X1), (X2)
Análisis de Varianza
R-cuad. R-cuad.
S R-cuad. (ajustado) (pred)
6.05904 85.03% 82.54% 75.61%
Coeficientes
EE del
Término Coef coef. Valor T Valor p FIV
Constante 2.09 6.74 0.31 0.762
(X1) 0.06 2.61 0.02 0.983 6.50
(X2) 1.050 0.326 3.22 0.007 6.50
Ecuación de regresión
Resid
Obs (Yj) Ajuste Resid est.
15 50.00 60.12 -10.12 -2.05 R
Residuo grande R
10.5 Análisis de los coeficientes:
Pruebas de los coeficientes de regresión individuales
H0 : j 0
H1 : j 0
Para el ejemplo:
H 0 : 1 0 H1 : 1 0
H0 : 2 0 H1 : 2 0
H : 0
Para X1: No se rechaza la 0 1 . Se concluye entonces que puede no haber una
relación lineal significativa entre Y y X1 cuando X2 permanece constante. En otras
palabras, los datos de la presente muestra no proporcionan evidencia suficiente que
indique que el número de admisiones previas, cuando se utiliza en una ecuación de
regresión junto con la edad, es una variable útil para predecir la duración de la
hospitalización.
H : 0
Para X2: Se rechaza la 0 2 . Se concluye que existe una relación lineal entre X2
y Y cuando X1 permanece constante, y que la edad, utilizada de esta manera, es una
variable útil para predecir la duración de la hospitalización.
Y X
X ' X ˆ X 'Y
ˆ ( X ' X )1 X ' Y
X’=
X’X=
X= Y=
(X’X)-1= (X’Y)= ˆ =
ˆ ( X ' X ) 1 X ' Y
ˆ0
2.086
1 ˆ 0.057
ˆ ˆ
ˆ
2 1.050
De esta manera podemos obtener los coeficientes de regresión.