Análisis Multidimensional

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 8

10.

ANÁLISIS MULTIDIMENSIONAL
10.1 El modelo de regresión múltiple
En el modelo de regresión múltiple, se supone que existe una relación lineal entre
alguna variable Y, a la cual se da el nombre de variable dependiente, y k variables
independientes, X1, X2, . . . Xk. A veces, las variables independientes se conocen como
variables explicativas debido a que se utilizan para explicar la variación en Y, y como
variables de predicción, por su uso en predecir Y.

y j   0  1 x1 j   2 x2 j  ...   k xkj  e j
Donde
yj es un valor típico de una de las subpoblaciones de los valores de Y,
βi se conocen como coeficientes de regresión, x1j, x2j, . . . , xkj son, respectivamente, los
valores particulares de las variables independientes X1, X2, . . . , Xk, y
ej es una variable aleatoria con media de 0 y variancia σ2, que es la variancia común de
las subpoblaciones de los valores de Y.

10.2 Obtención de la ecuación de regresión múltiple

Las estimaciones b0, b1, b2, ... , bk de los coeficientes de regresión se obtienen
resolviendo la siguiente serie de ecuaciones normales:

nb0  b1  x1 j  b2  x2 j  ...  bk  xkj   yi 



b0  x1 j  b1  x1 j  b2  x1 j x2 j  ...  bk  x1 j xkj   x1 j yi 
2



b0  x2 j  b1  x1 j x2 j  b2  x2 j  ...  b1  x2 j xkj   x2 j yi 
2


         
b0  xkj  b1  xkj x1 j  b2  xkj x2 j  ...  bk  xkj   x2 j yi 
2


Cuando tenemos dos variables independientes se genera el siguiente conjunto de


ecuaciones normales.

nb0  b1  x1 j  b2  x2 j   yi 


b0  x1 j  b1  x1 j  b2  x1 j x2 j   x1 j yi 
2


b0  x2 j  b1  x1 j x2 j  b2  x2 j   x2 j yi 

Si
b0'  0 , se tiene que
b0  y  b1 x1  b2 x2

Las tres ecuaciones normales se condensan en las siguientes:


b1  x1'2j  b2  x1' j x2' j   x1' j y 'j 

b1  x1' j x2' j  b1  x2'2j   x2' j y 'j 
x '2
1j   ( x1 j  x1 ) 2   x12j  ( x1 j )2 n
x '2
2j   ( x2 j  x2 ) 2   x22 j  ( x2 j )2 n
x ' '
1j 2 jx   ( x1 j  x1 )( x2 j  x2 )   x1 j x2 j   x1 j  x2 j n
x '
1j y 'j   ( x1 j  x1 )( y j  y )   x1 j y j   x1 j  y j n
x '
2j y 'j   ( x2 j  x2 )( y j  y )   x2 j y j   x2 j  y j n

10.3 Aplicaciones de la regresión múltiple


Ejemplo 9.3.1
En un estudio de la duración de la hospitalización para los pacientes que estaban en un
hospital de enfermedades crónicas, un investigador deseaba saber cómo podría predecir
la duración del internado (Y), dadas las variables independientes, número de admisiones
previas (X1) y edad (X2). Los datos de la tabla 9.3.1 se obtuvieron de una muestra de n =
15 pacientes.
Para obtener la ecuación de los mínimos cuadrados, deben resolverse las siguientes
ecuaciones normales para los coeficientes de regresión de la muestra:

nb0  b1  x1 j  b2  x2 j   yi
b0  x1 j  b1  x1 j  b2  x1 j x2 j   x1 j yi
2

Tabla 9.3.1 Duración de la hospitalización


b0  x2 j  b1  x1 j x2 j  b2  x2 j   x2 j yi
2

en días, edad en años y número de


admisiones previas de 15 pacientes admitidos a un hospital de enfermedades crónicas.

Número de
Duración de la
admisiones Edad
hospitalización
previas (X2)
(Y)
(X1)
15 0 21
15 0 18
21 0 22
28 1 24
30 1 25
35 1 25
40 1 26
35 2 34
30 2 25
45 2 38
50 3 44
60 3 51
45 4 39
60 4 54
50 5 55

Reducción a un conjunto de dos ecuaciones transformando cada valor en una desviación


respecto de su media.
b1  x1'2j  b2  x1' j x2' j   x1' j y 'j 

b1  x1' j x2' j  b1  x2'2j   x2' j y 'j 

Utilizando los datos de la tabla 9.3.2, se calcula lo siguiente:


yj x1 j x2 j ( x1 j x2 j ) ( x1 j y j ) ( x2 j y j ) x12j x 22 j y 2j
15 0 21 0 0 315 0 441 225
15 0 18 0 0 270 0 324 225
21 0 22 0 0 462 0 484 441
28 1 24 24 28 672 1 576 784
30 1 25 25 30 750 1 625 900
35 1 25 25 35 875 1 625 1225
40 1 26 26 40 1040 1 676 1600
35 2 34 68 70 1190 4 1156 1225
30 2 25 50 60 750 4 625 900
45 2 38 76 90 1710 4 1444 2025
50 3 44 132 150 2200 9 1936 2500
60 3 51 153 180 3060 9 2601 3600
45 4 39 156 180 1755 16 1521 2025
60 4 54 216 240 3240 16 2916 3600
50 5 55 275 250 2750 25 3025 2500
Totales 559 29 501 1226 1353 21039 91 18975 23775
Media 37.266666 1.9333333
s 7 3 33.4
x '2
1j   ( x1 j  x1 ) 2   x12j  ( x1 j ) 2 n  91  292 15  34.93

x '2
2j   ( x2 j  x2 )2   x22 j  ( x2 j ) 2 n  18975  5012 15  2241.60

x '
1j x2' j   ( x1 j  x1 )( x2 j  x2 )   x1 j x2 j   x1 j  x2 j n  1226  (29)(501) 15  257.40

x '
1j y 'j   ( x1 j  x1 )( y j  y )   x1 j y j   x1 j  y j n  1353  (29)(501) 15  272.27

x '
2j y 'j   ( x2 j  x2 )( y j  y )   x2 j y j   x2 j  y j n  21039  (501)(559) 15  2368.40
Cuando se sustituyen estos valores en las ecuaciones
b1  x1'2j  b2  x1' j x2' j   x1' j y 'j 

b1  x1' j x2' j  b2  x2'2j   x2' j y 'j 

Se obtiene que
34.93b1  257.40b2  272.27
257.40b1  2241.60b2  2368.40
Luego de resolver las ecuaciones, se obtienen:

b1  0.06
b2  1.05
b0 se obtiene a partir de la relación:

b0  y  b1 x1  b2 x2
b0  37.27  (0.06)(1.93)  (1.05)(33.40)  2.08
La ecuación de regresión múltiple de la muestra es entonces:

y j   0  1 x1 j   2 x2 j  e j
y j  b0  b1 x1 j  b2 x2 j
y j  2.08  0.06 x1 j  1.05 x2 j
Ry2;1,2,3,..,k
10.4 Coeficiente de determinación múltiple
 (yi  y)2   (yc  y)2   (y j  yc ) 2
SCTOTAL  SCEXPLIDACA  SC INEXPLICADA

SCTOTAL   (yi  y) 2  y 2j  ( y j )2 n
SCEXPLICADA   (yc  y) 2 b1  x1' j y 'j  b2  x2' j y 'j  ...  bk  xkj' y 'j
SCINEXPLICADA  SCTOTAL  SC EXPLICADA

Reemplazar datos en
SCTOTAL   y 2j  ( y j ) 2 n  23775  559 2 15  2942.93
SCEXPLICADA  b1  x1' j y 'j  b2  x2' j y 'j  (0.06)(272.27)  (1.05)(2368.40)  2503.16
SCINEXPLICADA  SCTOTAL  SCEXPLICADA  2942.93  2503.16  439.77

Ry2;1,2,3,..,k 
 (y  y)
c
2

 (y  y)
i
2

2503.16
Ry2;1,2   0.85
2942.93
Se dice que el 85% de la variación toral en los valores Y es explicada por el plano de
regresión ajustado.

ANOVA
Para determinar si la regresión en conjunto es significativa, puede llevarse a cabo un
análisis de varianza.
Hipótesis
H 0 : 1   2  0
H1 :  i  0 para al menos una j

Es decir que ninguna variable independientemente tiene valor al explicar la variación en


los totales de Y.

Tabla. ANOVA para la regresión múltiple.


Fuente g.l. SC CM R.V. = F
Debida a la k SCEXPLICADO CMR= SCEXPLICADO/k CMR/ CME
regresión
En torno a la n-k-1 SCINEXPLICADO CME= SCINEXPLICADO/n-k-1
regresión=error
Total n-1 SCTOTAL

Fuente g.l. SC CM R.V. = F


Debida a la 2 2503.16 1251.58 34.15
regresión
En torno a la 12 439.77 36.65
regresión
Total 14 2942.93

Gráfica de distribución
F, df1=2, df2=12

1.0

0.8
Densidad

0.6

0.4

0.2

0.05
0.0
0 3.885
X

Cuando se consulta la tabla de la distribución F con 2 y 12 grados de libertad, se


encuentra que la F calculada de 34.15 es significativa al nivel de .005 (es decir, p <
0.005). Por lo tanto, se concluye que la regresión explica una proporción significativa de
la variación total en Y.

Salida de Minitab
Análisis de regresión: (Yj) vs. (X1), (X2)

Análisis de Varianza

Fuente GL SC Ajust. MC Ajust. Valor F Valor p


Regresión 2 2502.39 1251.20 34.08 0.000
(X1) 1 0.02 0.02 0.00 0.983
(X2) 1 380.37 380.37 10.36 0.007
Error 12 440.54 36.71
Falta de ajuste 11 428.04 38.91 3.11 0.418
Error puro 1 12.50 12.50
Total 14 2942.93

Resumen del modelo

R-cuad. R-cuad.
S R-cuad. (ajustado) (pred)
6.05904 85.03% 82.54% 75.61%

Coeficientes

EE del
Término Coef coef. Valor T Valor p FIV
Constante 2.09 6.74 0.31 0.762
(X1) 0.06 2.61 0.02 0.983 6.50
(X2) 1.050 0.326 3.22 0.007 6.50

Ecuación de regresión

(Yj) = 2.09 + 0.06 (X1) + 1.050 (X2)

Ajustes y diagnósticos para observaciones poco comunes

Resid
Obs (Yj) Ajuste Resid est.
15 50.00 60.12 -10.12 -2.05 R

Residuo grande R
10.5 Análisis de los coeficientes:
Pruebas de los coeficientes de regresión individuales
H0 :  j  0
H1 :  j  0
Para el ejemplo:
H 0 : 1  0 H1 : 1  0
H0 : 2  0 H1 :  2  0

H : 0
Para X1: No se rechaza la 0 1 . Se concluye entonces que puede no haber una
relación lineal significativa entre Y y X1 cuando X2 permanece constante. En otras
palabras, los datos de la presente muestra no proporcionan evidencia suficiente que
indique que el número de admisiones previas, cuando se utiliza en una ecuación de
regresión junto con la edad, es una variable útil para predecir la duración de la
hospitalización.

H : 0
Para X2: Se rechaza la 0 2 . Se concluye que existe una relación lineal entre X2
y Y cuando X1 permanece constante, y que la edad, utilizada de esta manera, es una
variable útil para predecir la duración de la hospitalización.

10.6 Estimación de los coeficientes por el método matricial


 Y 1   X 0 X 11 X 21  X k 1    0   1 
      
            
 Yn   X X X  X       
   0 1n 2 n kn   k   n 

Y  X   

X ' X ˆ  X 'Y
ˆ  ( X ' X )1 X ' Y

X’=

X’X=

X= Y=

(X’X)-1= (X’Y)= ˆ =

ˆ  ( X ' X ) 1 X ' Y

 ˆ0 
   2.086 
   1  ˆ  0.057 
ˆ ˆ
ˆ   
  2  1.050 
De esta manera podemos obtener los coeficientes de regresión.

También podría gustarte