Tema 9a - 2019 - Regresi+ N Lineal Multiple JAM

Regresión Lineal Múltiple
Prof. Ing. Henry Hernández, MSc

(Fuente: Ing. José Pablo Aguiar, PhD, Ing. Henry Hernández, MSc,
Ing. Jaime Allen Monge, PhD)
Introducción
• Muchas aplicaciones que involucran un
análisis de regresión incluyen situaciones en
las cuales hay más de una variable regresor.
•A los modelos de regresión que contienen

más de una variable regresor son llamados
modelos de regresión múltiple.
2
Introducción
•Por ejemplo, suponga que la vida efectiva de una

herramienta cortadora depende de la velocidad de
cortado y del ángulo de la herramienta.
•Un posible modelo de regresión múltiple podría ser
Y = β 0 + β1 x 1 + β2 x 2 + ε
donde
Y – vida efectiva de la herramienta
x1 – velocidad de corte
x2 – ángulo de la herramienta
3

En general la variable dependiente, o respuesta, Y

puede relacionarse a k variables, o regresores,
independientes
Y = β0 + β1x1 + β2 x 2 +…+ βK x K + ε.
Es llamado un modelo de regresión lineal multiple

con k variables independientes. Los parámetros βj,
j=0, 1, 2, …, k son llamados los coeficientes de
regresión.
4

Y = β0 + β1x1 + β2 x 2 +…+ βK x K + ε.
Este modelo describe un hiperplano de k

dimensiones. Los parámetros βj representan el
cambio esperado en la respuesta Y por cambio
unitario en xj cuando todos los demás regresores xi
(i ≠ j) se mantienen constantes.
5
Plano de regresión para el modelo:
6
𝐸𝐸 𝑌𝑌 = 50 + 10𝑥𝑥1 + 7𝑥𝑥2
Gráfica de Contornos:
7 𝐸𝐸 𝑌𝑌 = 50 + 10𝑥𝑥1 + 7𝑥𝑥2
8
𝐸𝐸 𝑌𝑌 = 50 + 10𝑥𝑥1 + 7𝑥𝑥2 + 5𝑥𝑥1 𝑥𝑥2
9 𝐸𝐸 𝑌𝑌 = 50 + 10𝑥𝑥1 + 7𝑥𝑥2 + 5𝑥𝑥1 𝑥𝑥2
𝐸𝐸 𝑌𝑌 = 800 + 10𝑥𝑥1 + 7𝑥𝑥2 − 8,5𝑥𝑥12 − 5𝑥𝑥22 + 4𝑥𝑥1 𝑥𝑥2
10
11
𝐸𝐸 𝑌𝑌 = 800 + 10𝑥𝑥1 + 7𝑥𝑥2 − 8,5𝑥𝑥12 − 5𝑥𝑥22 + 4𝑥𝑥1 𝑥𝑥2


Estimación de Parámetros por mínimos cuadrados
El método de mínimos cuadrados puede ser usado
para estimar los coeficientes de regresión. En el
modelo de regresión lineal múltiple.
Y = β0 + β1x1 + β2 x 2 +…+ βK x K + ε.
Suponga que n > k observaciones están disponibles,

y supongase que xij denote la i-ésima observación o
nivel de la variable xj. Las observaciones son:
(xi1, xi2, …, xik, yi), i = 1, 2, …, n y n > k

12


Estimación de parámetros por mínimos cuadrados
Usualmente los datos se presentan en una tabla

como la siguiente:
Datos para la regresión lineal múltiple
y x1 x 2 … xk
y1 x11 x12 … x1k
y2 x21 x22 … x2k
yn xn1 xn2 … xnk

13
• La función de mínimos cuadrados es
2
n n  k 
L = ∑ εi2 = ∑ y −β − β j xij 
 i 0 ∑ 
i =1 i =1  j =1 
• Las estimaciones de mínimos cuadrados deben
satisfacer:
n  
∂L k
= − 2 ∑  yi − βˆ 0 − ∑ βˆ j xij  = 0
∂β0 βˆ , βˆ ,, βˆ  
0 1 k i =1  j = 1 
y
∂L n  k 
=−2∑  y − βˆ − βˆ x  x = 0
 i 0 ∑
j = 1, 2, , k
∂β j 
j ij ij
βˆ 0 , βˆ 1 ,, βˆ k i =1  j =1 
14
• Las ecuaciones normales de mínimos cuadrados:

n n n n
nβˆ 0 + βˆ 1 ∑ xi1 + βˆ 2 ∑ xi 2 +  + βˆ k ∑ xik = ∑ yi
i =1 i =1 i =1 i =1
n n n n n
βˆ 0 ∑ xi1 + βˆ 1 ∑ i1 + βˆ 2
x 2
∑ xi1 xi 2 + + βˆ k ∑ xi1 xik = ∑ xi1 yi
i =1 i =1 i =1 i =1 i =1

   
n n n n n
βˆ 0 ∑ xik + βˆ 1 ∑ xik xi1 + βˆ 2 ∑ xik xi 2 +  + βˆ k ∑ xik2 = ∑ xik y i (12-5)
i =1 i =1 i =1 i =1 i =1
•La solución a estas ecuaciones son los estimadores

de mínimos cuadrados de los coeficientes de
15 regresión.
•La solución a estas ecuaciones se resuelve

mediante cualquier método de solución para
ecuaciones lineales.
•En general, cualquier modelo de regresión que es

lineal en los parámetros (las β) es un modelo de
regresión lineal, sin importar la forma de la
superficie que éste genera.
16
Ejemplo Conexiones Circuitos
Utilizaremos datos de resistencia al jalado (o a

la tensión) de la pega de un cable en un
proceso de manufactura, la altura del dado o
pastilla (die) y la longitud del cable, para ilustrar
la construcción de un modelo empírico.
17
Usaremos los datos de la siguiente tabla.
También podemos hacer gráficos para ver las

relaciones existentes entre las variables.
Este tipo de gráficos nos permiten visualizar

relaciones entre las variables en sets de datos
multivariados.
Por ejemplo, el gráfico muestra una fuerte

relación lineal entre fuerza y longitud del cable.
18
Datos obtenidos
Número de Resist. Long. Cable Altura del Número de Resist. Long. Altura del
Observación Tensión x1 dado Observación Tensión Cable dado
y x2 y x1 x2
1 9,95 2 50 14 11,66 2 360

2 24,45 8 110 15 21,65 4 205
3 31,75 11 120 16 17,89 4 400
4 35,00 10 550 17 69,00 20 600
5 25,02 8 295 18 10,30 1 585
6 16,86 4 200 19 34,93 10 540
7 14,38 2 375 20 46,59 15 250
8 9,60 2 52 21 44,88 15 290
9 24,35 9 100 22 54,12 16 510
10 27,50 8 300 23 56,63 17 590
11 17,08 4 412 24 22,13 6 100
12 37,00 11 400 25 21,15 5 400
13 41,95 12 500
19
Figure 12-4 Matriz de gráficos de dispersión para la resistencia de

jalado de la unión del cable.
20
Ejemplo
Específicamente, ajustamos el modelo de regresión lineal múltiple
Y= β0 + β1x1 + β2x 2 + ε
donde Y = resistencia de la pega del cable (tensión), x1 = longitud del

cable, y
x2 = altura del dado (die).
De los datos de la tabla obtenemos:
25 25 25
= =
n 25, ∑ yi 725.82,
=i 1
= ∑ xi1 206,=
∑ xi 2 8, 294
=i 1 =i 1
25 25 25
=∑ x 2,=
396, ∑ x
2
i1 =
3, 531,848,
i 1 =i 1
∑ xi1 xi 2 77,177
2
i2
=i 1
25 25
∑ xi1 yi 8,=
= 008.47, ∑ xi 2 yi 274,816.71
i 1 =i 1
21
Ejemplo
Para el modeloY = β0 + β1x1 + β2 x 2 + ε, Las ecuaciones serían:
n n n
nβ
ˆ +β
0
ˆ
1 ∑ xi1 + βˆ 2 ∑ xi 2 = ∑ yi
i =1 i =1 i =1
n n n n
β
ˆ
0 ∑ xi1 + βˆ 1 ∑ xi21 +β
ˆ
2 ∑ xi1xi 2 = ∑ xi1 yi
i =1 i =1 i =1 i =1
n n n n
β
ˆ
0 ∑ xi 2 +β
ˆ
1 ∑ xi1 xi 2 +β
ˆ
2 ∑ xi22 = ∑ xi 2 yi
i =1 i =1 i =1 i =1
Introduciendo los valores previamente calculados, tenemos

25βˆ 0 + 206βˆ 1 + 8294βˆ 2 = 725.82
206βˆ 0 + 2396βˆ 1 + 77,177βˆ 2 = 8,008.47
8294βˆ 0 + 77,177βˆ 1 + 3,531,848βˆ 2 = 274,816.71
22
Ejemplo
Resolviendo las ecuaciones:
βˆ 0 = 2.26379, βˆ 1 = 2.74427, βˆ 2 = 0.01253
Entonces, el modelo de regresión es el siguiente
yˆ = 2.26379 + 2.74427 x1 + 0.01253 x2
Interpretación práctica: La ecuación puede ser usada para

predecir la resistencia al jalado (tensión) para pares de
valores de las variables regresoras longitud del cable (x1) y
altura del dado (x2).
23
Enfoque matricial para la regresión lineal múltiple
Suponga que el modelo que relaciona los

regresores con la respuesta es:
yi = β0 + β1xi1 + β2 xi 2 +  + βk xik + εi i = 1, 2, , n
Este es un modelo de n ecuaciones que puede

expresarse en notación matricial
y = Xβ + ε (12-6)
24
donde
 y1  1 x11 x12  x1k  β0   ε1 

y  1 x x  x  β  ε 
y =  2 X= 21 22 2k 
β =  1  and ε =  2 
       
       
 yn  1 x n1 xn2  x nk  β
 k ε n 
25
Queremos encontrar el vector de los estimadores

de mínimos cuadrados que minimice:
n
( )′ (y − Xβ )
L= ∑ i
ε 2
= ε ′ε = y − Xβ
i =1
El estimador de mímimos cuadrados 𝛽𝛽̂ es la

solución para β en las ecuaciones:
𝛿𝛿𝐿𝐿
=0
𝛿𝛿𝛿𝛿
Resolviendo
26 β̂ = (X′X)−1 X′y
El modelo de regresión ajustado es:
k
yî = βˆ 0 + ∑ βˆ j xij i = 1, 2, , n (12-8)
j =1
En notación matricial este modelo es:

ˆ = Xβ
y ˆ
La direfencia entre la observación yi y el valor ajustado yˆ i

es un residuo ei = yi − yî . El vector de residuos (n × 1) se
denota como:
(12-9)
e = y − yˆ
27
 En Excel:
 Marque el área de la matriz resultante.
 Escriba =
 Luego ingrese la operación o función respectiva. Por
ejemplo MMULT
 Finalmente presione simultáneamente
CTRL+SHIFT+ENTER.
https://www.youtube.com/watch?v=uJGOc_CvnB4
28
Ejemplo
En el ejemplo anterior se ilustró el ajuste del
modelo de regresión lineal múltiple
y = β0 + β1x1 + β2x2 + ε
donde y es la resistencia observada del cable, x1 es

la longitud del cable, and x2 es la altura del dado.
Ahora utilizaremos el enfoque matricial para ajustar
el modelo de regresión a esos datos.
La matriz X y el vector y para el modelo son:
29
Ejemplo
1 2 50   9.95
1 8 
110   24.45
  
1 11 120   31.75
   
1 10 550   35.00 
1 8 295  25.02 
   
1 4 200   16.86 
1 2 375  14.38
   
1 2 52   9.60 
1 9 100   24.35
   
1 8 300   27.50 
   
1 4 412   17.08
1 11 400   37.00 
   
X = 1 12 500  y =  41.95
1 2 360   11.66 
   
1 4 205  21.65
1 4 400   17.89 
   
1 20 600   69.00 
   
1 1 585  10.30 
1 10 540   34.93
   
1 15 250   46.59 
1 15 290   44.88
   
1 16 510   54.12 
1 17 590   56.63
   
1 6 100   22.13
1 400   
 5   21.15
30
Ejemplo
La matriz X′X es 1 2 50 
1 1  1 
110 
X′X =  2 8  5  
1 8
   
50 110  400  
1 5 400
 25 206 8,294 
=  206 2,396 77,177 
8,294 77,177 3,531,848
y el vector X′y es
 9.95 
1 1  1    725.82 
X′y =  2 8  5  
24 . 45 =  8,008.47 
    
50 110  400   274,816.71
21.15
Los estimadores de mínimos cuadrados se obtienen de la siguiente
ecuación:
β̂ = (X ′X) −1 X ′y
31
Ejemplo
βˆ 0   25 −1
8, 294   725.82 
O:   
206
 βˆ 1  =  206 2,396 77,177   8, 008.37 
 ˆ  8, 294 77,177 3,531,848  274,811.31
β2     
 0.214653 −0.007491 −0.000340   725.82 
=  −0.007491 0.001671 − 0.000019   8, 008.47 
  
 −0.000340 −0.000019 +0.0000015  274,811.31
 2.26379143
=  2.74426964 
 0.01252781
Por consiguiente, el modelo de regresión ajustado con los

coeficientes de regresión redondeados a cinco cifras es:
yˆ = 2.26379 + 2.74427 x1 + 0.01253 x2
¡Es el mismo resultado con el método anterior!
(Ver diapositivas 22 y 23)
32
Ejemplo
El modelo de regresión puede emplearse para predecir la resistencia observada
de la pega (y) del cable, la longitud del cable (x1), y la altura del dado (x2).
También pueden obtenerse los valores ajustados mediante la sustitución de
cada observación (xi1, xi2), i = 1, 2, …, n, en la ecuación.
Por ejemplo, la primera observación tiene x11 = 2 y x12 = 50, y el valor ajustado
es:
yˆ1 = 2.26379 + 2.74427 x11 + 0.01253 x12
= 2.26379 + 2.74427(2) + 0.01253(50)
= 8.38
El valor observado correspondiente es y1 = 9.95. El residuo correspondiente a la
primera observación es: e1 = y1 − yˆ1
= 9.95 − 8.38
= 1.57
La siguiente tabla muestra los 25 valores ajustados y los residuos
correspondientes. Los valores ajustados y los residuales tienen la misma
precisión que los datos originales.
33
Ejemplo
Observaciones, valores ajustados y residuos
Número de Número de
Observación yi ŷi ei = yi − yî Observación yi ŷi ei = yi − yî
1 9,95 8,38 1,57 14 11,66 12,26 –0.60
2 24,45 25,60 –1,15 15 21,65 15,81 5.84
3 31,75 33,95 –2,20 16 17,89 18,25 –0,36
4 35,00 36,60 –1,60 17 69,00 64,67 4,33
5 25,02 27,91 –2,89 18 10,30 12,34 –2,04
6 16,86 15,75 1,11 19 34,93 36,47 –1,54
7 14,38 12,45 1,93 20 46,59 46,56 0,03
8 9,60 8,40 1,20 21 44,88 47,06 –2,18
9 24,35 28,21 –3,86 22 54,12 52,56 1,56
10 27,50 27,98 –0,48 23 56,63 56,31 0,32
11 17,08 18,40 –1,32 24 22,13 19,98 2,15
12 37,00 37,46 –0,46 25 21,15 21,00 0,15
13 41,95 41,46 0,49
34
Salida de Minitab
Regression Analysis: Strength versus :Length, Height
The regression equation is

Strength = 2.26 + 2.74 Length + 0.0125 Height
Predictor β̂ 0 Coef SE Coef T P VIF

Constant 2.264 1.060 2.14 0.044
Length
β̂ 1 2.74427 0.09352 29.34 0.000 1.2
Height β̂ 2 0.012528 0.002798 4.48 0.000 1.2
S = 2.288 R-Sq = 98.1% R-Sq (adj) = 97.9%

PRESS = 156.163 R-Sq (pred) = 97.44%
Analysis of Variance
σ̂ 2
Source DF SS MS F P
Regression 2 5990.8 2995.4 572.17 0.000
Residual Error 22 115.2 5.2
Total 24 6105.9
Source DF Seq SS
Length 1 5885.9
Height 1 104.9
Predicted Values for New Observations
New Obs Fit SE Fit 95.0% CI 95.0% PI

1 27.663 0.482 (26.663, 28.663) (22.814, 32.512)
Values of Predictors for New Observations
News Obs Length Height

1 8.00 275
35
Estimación de σ2
Un estimador insesgado de σ2 es
n
∑ i
e 2
SS E
ˆ2 =
σ i =1 =
n− p n− p
El error cuadrático medio (MSE)
𝑆𝑆𝑆𝑆𝐸𝐸 𝑦𝑦 𝑇𝑇
𝑦𝑦 − ̂
𝛽𝛽 𝑇𝑇 𝑇𝑇
𝑋𝑋 𝑦𝑦
2
𝜎𝜎 = 𝑀𝑀𝑀𝑀𝑀𝑀 = =
𝑛𝑛 − 𝑝𝑝 𝑛𝑛 − 𝑝𝑝
36
Estimación de σ2
Ejemplo
𝑦𝑦 − ̂
𝑋𝑋 𝑦𝑦
2
𝜎𝜎 = =
25
𝑦𝑦 𝑇𝑇 𝑦𝑦 = � 𝑦𝑦12 = 27117,9510
𝑖𝑖=1
725,82
𝛽𝛽̂ 𝑇𝑇 𝑋𝑋 𝑇𝑇 𝑦𝑦 = 2,26379143 2,74426964 0,01252781 8008,37
274811,31
37
𝛽𝛽̂ 𝑇𝑇 𝑋𝑋 𝑇𝑇 𝑦𝑦 = 27062,7775
Estimación de σ2
Ejemplo
𝑦𝑦 − ̂
𝑋𝑋 𝑦𝑦
2
𝜎𝜎 = =
𝑆𝑆𝑆𝑆𝐸𝐸 = 𝑦𝑦 𝑇𝑇 𝑦𝑦 − 𝛽𝛽̂ 𝑇𝑇 𝑋𝑋 𝑇𝑇 𝑦𝑦 = 27117,9510 − 27062,7775
𝑆𝑆𝑆𝑆𝐸𝐸 = 115,1735
2
𝑆𝑆𝑆𝑆𝐸𝐸 115,1735
𝜎𝜎 = = = 5,2352
𝑛𝑛 − 𝑝𝑝 25 − 3
38
Salida de Minitab


Constant 2.264 1.060 2.14 0.044
Length
β̂ 1 2.74427 0.09352 29.34 0.000 1.2
Height β̂ 2 0.012528 0.002798 4.48 0.000 1.2
S = 2.288 R-Sq = 98.1% R-Sq (adj) = 97.9%

PRESS = 156.163 R-Sq (pred) = 97.44%
σ̂ 2
Source DF SS MS F P
Regression 2 5990.8 2995.4 572.17 0.000
Total 24 6105.9
Source DF Seq SS
Length 1 5885.9
Height 1 104.9

1 27.663 0.482 (26.663, 28.663) (22.814, 32.512)

1 8.00 275
39
Propiedades de los estimadores de mínimos
cuadrados
Estimadores
insesgados: [
E (βˆ ) = E (X′X )−1 X′Y ]
= E [(X′X )−1
]
X′(Xβ + ε )
= E [(X′X )−1
X′Xβ + (X′X )−1 X′ε ]
=β
Matriz de covarianza
(pxp): C00 C01 C02 
C = ( X′X) −1 =  C10 C11 C12 
C20 C21 C22 
40
Covarianza
La covarianza entre las variables aleatorias X y Y,
denotada por COV(X,Y) o 𝝈𝝈𝒙𝒙𝒙𝒙
La covarianza es una medida de asociación lineal

entre las variables aleatorias.
41
Covarianza
42
Propiedades de los estimadores de mínimos
cuadrados
Varianzas y covarianzas individuales:
Varianzas: V (βˆ j ) = σ 2 C jj , j = 0, 1, 2
Covarianzas indiv.: cov(βˆ i , βˆ j ) = σ 2 Cij , i≠ j
En general, −1
ˆ 2
′
cov(β ) = σ ( X X) = σ C
2
𝑠𝑠𝑠𝑠 𝛽𝛽̂𝑗𝑗 = 𝜎𝜎� 2 𝐶𝐶𝑗𝑗𝑗𝑗

43
Pruebas de hipótesis en la Regresión Lineal Multiple
Prueba para la significancia de la regresión

La prueba para la significancia de la
regresión es una prueba para
determinar si existe una relación lineal
entre la variable respuesta y un
subconjunto de variables de regresión.
El rechazo de Ho implica que al menos

una de las variables de regresión tiene
una contribución significativa en el
proceso.
44
Las hipótesis apropiadas son:

H 0 : β1 = β 2 =  = β k = 0
H1: βj ≠ 0 al menos para una j (1211)
El estadístico de prueba para Ho es:

SS R /k MS R
F0 = = (1212)
SS E /(n − p ) MS E
45
En general, el procedimiento se resumen en una tabla

de análisis de varianza para la prueba de significancia
de la regresión lineal multiple (RLM).
Fuente de la Suma de Grados de Media de

variación Cuadrados Libertad Cuadrados F0
Regresión SSR k MSR MSR / MSE
Error o residuo SSE n–p MSE
Total SST n–1
46
A continuación se prueba la significancia de la regresión de
los ejemplos anteiores (con un α = 0.05) utilizando los datos de
jalado de la unión del cable. La suma total de cuadrados es:
2
 n 
 ∑ yi 
  (725.82) 2
 i =1 
SST = y ′y − = 27,178.5316 −
n 25
= 6105.9447
47
Tenemos estos datos de la estimación de σ2
Ejemplo
𝑦𝑦 − ̂
𝑋𝑋 𝑦𝑦
2
𝜎𝜎 = =
25
𝑦𝑦 𝑇𝑇 𝑦𝑦 = � 𝑦𝑦12 = 27117,9510
𝑖𝑖=1
725,82
𝛽𝛽̂ 𝑇𝑇 𝑋𝑋 𝑇𝑇 𝑦𝑦 = 2,26379143 2,74426964 0,01252781 8008,37
274811,31
48
𝛽𝛽̂ 𝑇𝑇 𝑋𝑋 𝑇𝑇 𝑦𝑦 = 27062,7775
Tenemos estos datos calculados en el Ejemplo
Específicamente, ajustamos el modelo de regresión lineal múltiple
Y= β0 + β1x1 + β2x 2 + ε
donde Y = resistencia de la pega del cable (tensión), x1 = longitud del

cable, y
x2 = altura del dado (die).
De los datos de la tabla obtenemos:
25 25 25
= =
n 25, ∑ yi 725.82,
=i 1
= ∑ xi1 206,=
∑ xi 2 8, 294
=i 1 =i 1
25 25 25
=∑ x 2,=
396, ∑ x
2
i1 =
3, 531,848,
i 1 =i 1
∑ xi1 xi 2 77,177
2
i2
=i 1
25 25
∑ xi1 yi 8,=
= 008.47, ∑ xi 2 yi 274,816.71
i 1 =i 1
49
La suma de cuadrados de la regresión se calcula de la siguiente

manera: 2
 n 
 ∑ yi 
  2
SS R = βˆ ′ X′ y −  i =1  = 27,063.3581 −
( 725 . 82)
n 25
= 5990.7712
Por sustracción, tenemos que:
SS E = SST − SS R = y′ y − β′ X′ y = 115.1716
50
Resultados
Prueba de significancia para la regresión

variación Cuadrados Libertad Cuadrados f0 Pvalue
Regresión 5990.7712 2 2995.3856 572.17 1.08E-19
Error o 115.1735 22 5.2352
residuo
Total 6105.9447 24

variación Cuadrados Libertad Cuadrados F0
Regresión SSR k MSR MSR / MSE
Error o residuo SSE n–p MSE
51 Total SST n–1
Ejemplo
Para realizar la prueba de hipótesis H0: β1 = β2 = 0, se calcula el
estadístico de prueba
MS R 2995.3856
f0 = = = 572.17
MS E 5.2352
Dado que f0 > f0,05;2;22= 3,44 (o dado que el valor de P es
considerablemente menor que α = 0,05), se rechaza la hipotesis nula y
se concluye que la resistencia al jalado de la unión está linealmente
relacionada con la longitud del cable, o con la altura del dado, o con
ambos.
Interpretación práctica: El rechazo de H0 no necesariamente implica que

la relación encontrada es un modelo apropiado para predecir la
resistencia al jalado como una función de la longitud del cable y la altura
del dado. Se requieren pruebas adicionales antes de que estemos
cómodos usando el modelo.
52
Salida de Minitab


Constant 2.264 1.060 2.14 0.044
Length
β̂ 1 2.74427 0.09352 29.34 0.000 1.2
Height β̂ 2 0.012528 0.002798 4.48 0.000 1.2
S = 2.288 R-Sq = 98.1% R-Sq (adj) = 97.9%

PRESS = 156.163 R-Sq (pred) = 97.44%
Source DF SS MS F P
Regression 2 5990.8 2995.4 572.17 0.000
Total 24 6105.9
Source DF Seq SS
Length 1 5885.9
Height 1 104.9

1 27.663 0.482 (26.663, 28.663) (22.814, 32.512)

1 8.00 275
53
Ejemplo
Para realizar la prueba de hipótesis H0: β1 = β2 = 0, se calcula el
estadístico de prueba
MS R 2995.3856
f0 = = = 572.17
MS E 5.2352
En Excel:
54
R2 y R2 Ajustado
El coeficiente de determinación multiple
SS R SS E
R = 2
=1−
SST SST
• Para los datos de resistencia al jalado, se tiene
que
R2 = SSR / SST = 5990,7712/6105,9447 = 0,9811.
•Entonces, alrededor del 98% de la variabilidad

en la respuesta de la resistencia al jalado queda
explicada cuando se usan las dos variables de
55
regresión.
Salida de Minitab


Constant 2.264 1.060 2.14 0.044
Length
β̂ 1 2.74427 0.09352 29.34 0.000 1.2
Height β̂ 2 0.012528 0.002798 4.48 0.000 1.2
S = 2.288 R-Sq = 98.1% R-Sq (adj) = 97.9%

PRESS = 156.163 R-Sq (pred) = 97.44%
Source DF SS MS F P
Regression 2 5990.8 2995.4 572.17 0.000
Residual Error 22 115.2 5.2 σ̂ 2
Total 24 6105.9
Source DF Seq SS
Length 1 5885.9
Height 1 104.9

1 27.663 0.482 (26.663, 28.663) (22.814, 32.512)

1 8.00 275
56
R2 y R2 Ajustado
El R2 ajustado es
SS E / (n − p )
2
Radj =1− (1214)
SST / (n − 1)
• El estadístico “R2 ajustado” penaliza el análisis

cuando se suman términos en el modelo.
• Puede ser de ayuda para evitar sobre ajustes

(overfitting) (es decir, agregar regresores que no
son realmente necesarios)
57
Pruebas sobre los coeficientes individuales de

regresión y sobre los subconjuntos de coeficientes.
La hipótesis para la prueba de la significancia de

cualquier coeficiente de regresión individual, son:
H0: βj = βj0
H1: βj ≠ βj0
58
Pruebas sobre los coeficientes individuales de

regresión y sobre los subconjuntos de coeficientes.
El estadístico de prueba es:
β
ˆ −β
j j0 β
ˆ −β
j j0
T0 = =
σ 2C jj se(β
ˆ )
j
• Rechazar H0 si |t0| > tα/2,n-p.
•Esto se conoce como prueba parcial or marginal.
59
Ejemplo
Considere la resistencia al jalado de la unión del cable.
Se quiere probrar la hipótesis de que el coeficiente para x2 (altura
del dado) es cero. Las hipótesis son:
H0: β2 = 0
H1: β2 ≠ 0
El elemento diagonal principal de la matriz (X′X)−1 que

corresponde a β̂2 es C22 = 0,0000015, de modo que el estadístico
t es:
βˆ 2 0.01253
t0 = = = 4.477
σˆ 2C22 (5.2352)(0.0000015)
60
Ejemplo
Puesto que t0,025;22 = 2,074, se rechaza H0: β2 = 0 y se concluye que la
variable x2 (altura del dado) contribuye significativamente al modelo.
También puede emplearse el valor de P para obtener conclusiones. El

valor de P para for t0 = 4,477 es P = 0,0002, así que con un α = 0,05
debe rechazarse la hipótesis nula.
INTERPRETACIÓN PRÁCTICA: Esta prueba mide la contribución

parcial o marginal de x2 dado que x1 es en el modelo.
Es decir, la prueba t mide la contribución de agregar la variable x2 =
altura del dado al modelo que ya contiene x1 = longitud del cable.
Los valores de Minitab muestra los resultados del estadístico t. Note

que la computadora produce un valor de t para cada coeficiente en el
modelo de regresión.
61
Salida de Minitab


Constant 2.264 1.060 2.14 0.044
Length
β̂ 1 2.74427 0.09352 29.34 0.000 1.2
Height β̂ 2 0.012528 0.002798 4.48 0.000 1.2
S = 2.288 R-Sq = 98.1% R-Sq (adj) = 97.9%

PRESS = 156.163 R-Sq (pred) = 97.44%
Source DF SS MS F P
Regression 2 5990.8 2995.4 572.17 0.000
Total 24 6105.9
Source DF Seq SS
Length 1 5885.9
Height 1 104.9

1 27.663 0.482 (26.663, 28.663) (22.814, 32.512)

1 8.00 275
62
Intervalos de confianza en la RLM
Intervalos de confianza para los coeficientes
de regresión.
Definición
Un intervalo de confianza del 100(1 - α)% para el
coeficiente de regresión βj, j = 0, 1, …, k en el
modelo de RLM está dado por:
βˆ j − tα/2, n − p σ
ˆ 2C jj ≤ β j ≤ βˆ j + tα/2, n − p σ
ˆ 2C jj (12-22)
63
Intervalos de confianza en la RLM
Ejemplo
Se construye un intervalo de confianza al 95% para el parámetro β1 del ejemplo
analizado. LA estimación puntual de β1 es βˆ 1 = 2.74427 y que el elemento de la
diagonal de (X′X)-1 que corresponde a β1 es C11 = 0.001671. La estimación de σ2
es σˆ 2 = 5.2352 , y t0.025,22 = 2.074. Entonces el 95% CI para β1 se calcula como
2.74427 − (2.074 ) (5.2352 )(.001671) ≤ β1 ≤ 2.74427

+ (2.074 ) (5.2352 )(.001671)
Expresión que se reduce a :
2,55029 ≤ β1 ≤ 2,93825
También las salidas de software estadístico sirve para calcular el intervalo de

confianza.
Vemos la salida de Minitab. Tenemos que βˆ 1 = 2.74427y que el error estándar (SE)
es: βˆ 1 = 0.0935 . Este valor corresponde a 0.0935 = (5.2352)(0.001671) . Por lo que
muchas veces tenemos los datos suficientes para calcular los intervalos de
confianza.
64
Salida de Minitab


Constant 2.264 1.060 2.14 0.044
Length
β̂ 1 2.74427 0.09352 29.34 0.000 1.2
Height β̂ 2 0.012528 0.002798 4.48 0.000 1.2
S = 2.288 R-Sq = 98.1% R-Sq (adj) = 97.9%

PRESS = 156.163 R-Sq (pred) = 97.44%
Source DF SS MS F P
Regression 2 5990.8 2995.4 572.17 0.000
Total 24 6105.9
Source DF Seq SS
Length 1 5885.9
Height 1 104.9

1 27.663 0.482 (26.663, 28.663) (22.814, 32.512)

1 8.00 275
65
Aspectos de la RLM
Modelos de Regresión Polinomiales
El modelo general Y = Xβ + ε es un modelo general que puede
emplearse para ajustar cualquier relación que sea lineal en los
parámetros desconocidos β. Esto incluya a la importante clase de
modelos de regresión polinomial. Por ejemplo, el polinomio en
segundo grado en una variable:
Y = β0 + β1x + β11x2 + ε (12-31)
y el polinomio de segundo grado en dos variables
Y = β0 + β1 x1 + β 2 x2 + β11 x12 + β 22 x22 + β12 x1 x2 + ε (12-32)
Son modelos de regresión lineal.
66
Aspectos de la RLM
Ejemplo
Los paneles de las paredes laterales del interior de un aeroplano
se forman en una prensa de 1500 toneladas. El costo de
fabricación de cada unidad cambia con el tamaño del lote de
producción. La tabla proporciona el costo promedio por unidad de
producción ($x100) para este producto (y) y el tamaño del lote de
producción (x). El gráfico indica que es adecuado usar un
polinomoio de segundo orden.
y 1 .8 1 1.70 1.65 1 .5 5 1.48 1.40
x 20 25 30 35 40 50
y 1.30 1.26 1.24 1 .2 1 1 .2 0 1.18
x 60 65 70 75 80 90
67
Aspectos de la RLM
68
Ejemplo
Para ello se ajusta el modelo
Y = β0 + β1x + β11x2 + ε
El vector y, la matriz X y el vector b son:

1.81 1 20 400
1.70 1 25 625
  
1.65 1 30 900
   
 1 . 55  1 35 1225
1.48 1 40 1600
    β0 
2500
y =   X =  β = β1 
1 . 40 1 50
1.30 1 60 3600
    β11 
1.26 1 65 4225
1.24 1 70 4900
   
1.21 1 75 5625
   
 1 . 20  1 80 6400
1.18 1 90 8100
69
Aspectos de la RLM
Ejemplo
Resolviendo las ecuaciones X′ X β̂ = X′ y nos da el modelo
yˆ = 2.19826629 − 0.02252236 x + 0.00012507 x 2
Conclusiones: La prueba para la significancia para la regresión
aparece abajo. Puesto que f0 = 1762.3 es significante al 1%, se
concluye que al menos uno de los parámetros β1 y β11 no es cero.
Fuente
Variación Suma Cuad. Grados de libertad Media Cuad. f0 P-value
Regresión 0.52516 2 0.26258 1762.28 2.12E-12
Error 0.00134 9 0.00015
Total 0.5265 11
70
Variables indicadoras
• Muchos problemas incorporan variables cualitativas o

categóricas.
• El método usual para diferentes níveles de una
variable cualitativa incluye el empleo de variables
indicadoras.
• Por ejemplo, para introducir el efecto de dos
diferentes operadores en un modelo de regresión:
71
Ejemplo
 Un ingeniero mecánico investiga el acabado superficial de
las piezas de metal producidas en un torno y la relación que
tiene el acabado con la velocidad (RPM) del torno. Los
datos aparecen en la siguiente tabla. Nótese que los datos
se han recopilado utilizando dos herramientas de corte
diferentes. Puesto que es probable que el tipo de
herramienta de corte tenga efecto en el acabado de la
superficie, se ajusta el modelo:
72
Ejemplo
 Donde Y es el acabado de superficie, x1 es la velocidad del

torno (RPM), y x2 denota el tipo de herramienta.
73
Datos
74
La matriz X y el vector y
para este problema son los
siguientes:
El modelo ajustado es:
75
Presupuesto Capacidad Puntos
Equipo (millones Euros) Estadio Jornada 26
Tarea Barcelona
Atlético Madrid
633
293
99787
67829
60
53
Real Madrid 567 85454 48
Getafe CF 39 17700 42
Alavés 39 19940 40
Sevilla 163 40500 37
Valencia 165 55000 36
Real Betis 97 60721 36
Real Sociedad 81 32076 35
Eibar 41 7400 34
Leganes 53 11454 33
Ath. Bilbao 88 53332 33
Espanyol 57 40423 33
Girona 37 9282 31
Levante 52 25354 30
Valladolid 24 26512 26
Celta Vigo 51 28700 25
Villarreal 109 24500 23
Rayo Vallecano 33 15500 23
Huesca 29 5500 22
Fuente presupuestos:
76
https://es.statista.com/estadisticas/498947/presupuesto-equipos-de-futbol-de-la-liga-en-espana/
Tarea
 A. Genere un modelo de regresión lineal múltiple entre
presupuesto, capacidad del estadio y puntos obtenidos a la
jornada 26 (todos los modelos deben tener al menos,
Genere ANOVA, R2, pruebas de hipótesis e intervalos de
confianzas para los coeficientes, gráfico residuos)
 B. Compare los resultados obtenidos en el punto A con su
tarea anterior.
 C. Actualice sus resultados con la última jornada de la
temporada
 D. Haga los modelos en función de la cantidad promedio de
puntos por partido para poder de comparar los resultados.
 E. ¿Cuáles comentarios puede hacer respecto a los modelos
obtenidos, las variables utilizadas y el desempeño de los
diferentes equipos?
77

Tema 9a - 2019 - Regresi+ N Lineal Multiple JAM

Cargado por

Información del documentohacer clic para expandir la información del documento

Copyright:

Formatos disponibles

Tema 9a - 2019 - Regresi+ N Lineal Multiple JAM

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Tema 9a - 2019 - Regresi+ N Lineal Multiple JAM

Cargado por

Copyright:

Formatos disponibles

Regresión Lineal Múltiple

Prof. Ing. Henry Hernández, MSc

•A los modelos de regresión que contienen

•Por ejemplo, suponga que la vida efectiva de una

Regresión Lineal Múltiple

En general la variable dependiente, o respuesta, Y

Es llamado un modelo de regresión lineal multiple

Regresión Lineal Múltiple

Este modelo describe un hiperplano de k

Regresión Lineal Múltiple

Suponga que n > k observaciones están disponibles,

(xi1, xi2, …, xik, yi), i = 1, 2, …, n y n > k

Regresión Lineal Múltiple

Usualmente los datos se presentan en una tabla

Datos para la regresión lineal múltiple

yn xn1 xn2 … xnk

• Las ecuaciones normales de mínimos cuadrados:

•La solución a estas ecuaciones son los estimadores

•La solución a estas ecuaciones se resuelve

•En general, cualquier modelo de regresión que es

Utilizaremos datos de resistencia al jalado (o a

También podemos hacer gráficos para ver las

Este tipo de gráficos nos permiten visualizar

Por ejemplo, el gráfico muestra una fuerte

1 9,95 2 50 14 11,66 2 360

Figure 12-4 Matriz de gráficos de dispersión para la resistencia de

donde Y = resistencia de la pega del cable (tensión), x1 = longitud del

Introduciendo los valores previamente calculados, tenemos

βˆ 0 = 2.26379, βˆ 1 = 2.74427, βˆ 2 = 0.01253

Entonces, el modelo de regresión es el siguiente

yˆ = 2.26379 + 2.74427 x1 + 0.01253 x2

Interpretación práctica: La ecuación puede ser usada para

Suponga que el modelo que relaciona los

Este es un modelo de n ecuaciones que puede

 y1  1 x11 x12  x1k  β0   ε1 

Queremos encontrar el vector de los estimadores

El estimador de mímimos cuadrados 𝛽𝛽̂ es la

En notación matricial este modelo es:

La direfencia entre la observación yi y el valor ajustado yˆ i

donde y es la resistencia observada del cable, x1 es

La matriz X y el vector y para el modelo son:

Por consiguiente, el modelo de regresión ajustado con los

The regression equation is

Predictor β̂ 0 Coef SE Coef T P VIF

S = 2.288 R-Sq = 98.1% R-Sq (adj) = 97.9%

Predicted Values for New Observations

New Obs Fit SE Fit 95.0% CI 95.0% PI

Values of Predictors for New Observations

News Obs Length Height

El error cuadrático medio (MSE)

𝑆𝑆𝑆𝑆𝐸𝐸 = 𝑦𝑦 𝑇𝑇 𝑦𝑦 − 𝛽𝛽̂ 𝑇𝑇 𝑋𝑋 𝑇𝑇 𝑦𝑦 = 27117,9510 − 27062,7775

The regression equation is

Predictor β̂ 0 Coef SE Coef T P VIF

S = 2.288 R-Sq = 98.1% R-Sq (adj) = 97.9%

Predicted Values for New Observations

New Obs Fit SE Fit 95.0% CI 95.0% PI

Values of Predictors for New Observations

News Obs Length Height