0% encontró este documento útil (0 votos)
41 vistas77 páginas

Tema 9a - 2019 - Regresi+ N Lineal Multiple JAM

Descargar como pdf o txt
Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1/ 77

Regresión Lineal Múltiple

Prof. Ing. Henry Hernández, MSc


(Fuente: Ing. José Pablo Aguiar, PhD, Ing. Henry Hernández, MSc,
Ing. Jaime Allen Monge, PhD)
Regresión Lineal Múltiple
Introducción
• Muchas aplicaciones que involucran un
análisis de regresión incluyen situaciones en
las cuales hay más de una variable regresor.

•A los modelos de regresión que contienen


más de una variable regresor son llamados
modelos de regresión múltiple.

2
Regresión Lineal Múltiple
Introducción

•Por ejemplo, suponga que la vida efectiva de una


herramienta cortadora depende de la velocidad de
cortado y del ángulo de la herramienta.
•Un posible modelo de regresión múltiple podría ser

Y = β 0 + β1 x 1 + β2 x 2 + ε
donde
Y – vida efectiva de la herramienta
x1 – velocidad de corte
x2 – ángulo de la herramienta
3

Regresión Lineal Múltiple

En general la variable dependiente, o respuesta, Y


puede relacionarse a k variables, o regresores,
independientes

Y = β0 + β1x1 + β2 x 2 +…+ βK x K + ε.

Es llamado un modelo de regresión lineal multiple


con k variables independientes. Los parámetros βj,
j=0, 1, 2, …, k son llamados los coeficientes de
regresión.

4

Regresión Lineal Múltiple

Y = β0 + β1x1 + β2 x 2 +…+ βK x K + ε.

Este modelo describe un hiperplano de k


dimensiones. Los parámetros βj representan el
cambio esperado en la respuesta Y por cambio
unitario en xj cuando todos los demás regresores xi
(i ≠ j) se mantienen constantes.

5
Plano de regresión para el modelo:

6
𝐸𝐸 𝑌𝑌 = 50 + 10𝑥𝑥1 + 7𝑥𝑥2
Gráfica de Contornos:
7 𝐸𝐸 𝑌𝑌 = 50 + 10𝑥𝑥1 + 7𝑥𝑥2
Plano de regresión para el modelo:

8
𝐸𝐸 𝑌𝑌 = 50 + 10𝑥𝑥1 + 7𝑥𝑥2 + 5𝑥𝑥1 𝑥𝑥2
Gráfica de Contornos:
9 𝐸𝐸 𝑌𝑌 = 50 + 10𝑥𝑥1 + 7𝑥𝑥2 + 5𝑥𝑥1 𝑥𝑥2
Plano de regresión para el modelo:
𝐸𝐸 𝑌𝑌 = 800 + 10𝑥𝑥1 + 7𝑥𝑥2 − 8,5𝑥𝑥12 − 5𝑥𝑥22 + 4𝑥𝑥1 𝑥𝑥2
10
11

Gráfica de Contornos:
𝐸𝐸 𝑌𝑌 = 800 + 10𝑥𝑥1 + 7𝑥𝑥2 − 8,5𝑥𝑥12 − 5𝑥𝑥22 + 4𝑥𝑥1 𝑥𝑥2

Regresión Lineal Múltiple


Estimación de Parámetros por mínimos cuadrados
El método de mínimos cuadrados puede ser usado
para estimar los coeficientes de regresión. En el
modelo de regresión lineal múltiple.

Y = β0 + β1x1 + β2 x 2 +…+ βK x K + ε.

Suponga que n > k observaciones están disponibles,


y supongase que xij denote la i-ésima observación o
nivel de la variable xj. Las observaciones son:

(xi1, xi2, …, xik, yi), i = 1, 2, …, n y n > k


12

Regresión Lineal Múltiple


Estimación de parámetros por mínimos cuadrados

Usualmente los datos se presentan en una tabla


como la siguiente:

Datos para la regresión lineal múltiple

y x1 x 2 … xk
y1 x11 x12 … x1k
y2 x21 x22 … x2k

yn xn1 xn2 … xnk


13
Regresión Lineal Múltiple
Estimación de parámetros por mínimos cuadrados
• La función de mínimos cuadrados es
2
n n  k 
L = ∑ εi2 = ∑ y −β − β j xij 
 i 0 ∑ 
i =1 i =1  j =1 
• Las estimaciones de mínimos cuadrados deben
satisfacer:
n  
∂L k
= − 2 ∑  yi − βˆ 0 − ∑ βˆ j xij  = 0
∂β0 βˆ , βˆ ,, βˆ  
0 1 k i =1  j = 1 
y
∂L n  k 
=−2∑  y − βˆ − βˆ x  x = 0
 i 0 ∑
j = 1, 2, , k
∂β j 
j ij ij
βˆ 0 , βˆ 1 ,, βˆ k i =1  j =1 
14
Regresión Lineal Múltiple
Estimación de parámetros por mínimos cuadrados

• Las ecuaciones normales de mínimos cuadrados:


n n n n
nβˆ 0 + βˆ 1 ∑ xi1 + βˆ 2 ∑ xi 2 +  + βˆ k ∑ xik = ∑ yi
i =1 i =1 i =1 i =1
n n n n n
βˆ 0 ∑ xi1 + βˆ 1 ∑ i1 + βˆ 2
x 2
∑ xi1 xi 2 + + βˆ k ∑ xi1 xik = ∑ xi1 yi
i =1 i =1 i =1 i =1 i =1

   
n n n n n
βˆ 0 ∑ xik + βˆ 1 ∑ xik xi1 + βˆ 2 ∑ xik xi 2 +  + βˆ k ∑ xik2 = ∑ xik y i (12-5)
i =1 i =1 i =1 i =1 i =1

•La solución a estas ecuaciones son los estimadores


de mínimos cuadrados de los coeficientes de
15 regresión.
Regresión Lineal Múltiple
Estimación de parámetros por mínimos cuadrados

•La solución a estas ecuaciones se resuelve


mediante cualquier método de solución para
ecuaciones lineales.

•En general, cualquier modelo de regresión que es


lineal en los parámetros (las β) es un modelo de
regresión lineal, sin importar la forma de la
superficie que éste genera.

16
Regresión Lineal Múltiple
Ejemplo Conexiones Circuitos

Utilizaremos datos de resistencia al jalado (o a


la tensión) de la pega de un cable en un
proceso de manufactura, la altura del dado o
pastilla (die) y la longitud del cable, para ilustrar
la construcción de un modelo empírico.

17
Regresión Lineal Múltiple
Ejemplo Conexiones Circuitos
Usaremos los datos de la siguiente tabla.

También podemos hacer gráficos para ver las


relaciones existentes entre las variables.

Este tipo de gráficos nos permiten visualizar


relaciones entre las variables en sets de datos
multivariados.

Por ejemplo, el gráfico muestra una fuerte


relación lineal entre fuerza y longitud del cable.

18
Regresión Lineal Múltiple
Ejemplo Conexiones Circuitos
Datos obtenidos
Número de Resist. Long. Cable Altura del Número de Resist. Long. Altura del
Observación Tensión x1 dado Observación Tensión Cable dado
y x2 y x1 x2

1 9,95 2 50 14 11,66 2 360


2 24,45 8 110 15 21,65 4 205
3 31,75 11 120 16 17,89 4 400
4 35,00 10 550 17 69,00 20 600
5 25,02 8 295 18 10,30 1 585
6 16,86 4 200 19 34,93 10 540
7 14,38 2 375 20 46,59 15 250
8 9,60 2 52 21 44,88 15 290
9 24,35 9 100 22 54,12 16 510
10 27,50 8 300 23 56,63 17 590
11 17,08 4 412 24 22,13 6 100
12 37,00 11 400 25 21,15 5 400
13 41,95 12 500

19
Regresión Lineal Múltiple

Figure 12-4 Matriz de gráficos de dispersión para la resistencia de


jalado de la unión del cable.
20
Regresión Lineal Múltiple
Ejemplo
Específicamente, ajustamos el modelo de regresión lineal múltiple
Y= β0 + β1x1 + β2x 2 + ε

donde Y = resistencia de la pega del cable (tensión), x1 = longitud del


cable, y
x2 = altura del dado (die).
De los datos de la tabla obtenemos:
25 25 25
= =
n 25, ∑ yi 725.82,
=i 1
= ∑ xi1 206,=
∑ xi 2 8, 294
=i 1 =i 1
25 25 25
=∑ x 2,=
396, ∑ x
2
i1 =
3, 531,848,
i 1 =i 1
∑ xi1 xi 2 77,177
2
i2
=i 1
25 25

∑ xi1 yi 8,=
= 008.47, ∑ xi 2 yi 274,816.71
i 1 =i 1

21
Regresión Lineal Múltiple
Ejemplo
Para el modeloY = β0 + β1x1 + β2 x 2 + ε, Las ecuaciones serían:
n n n

ˆ +β
0
ˆ
1 ∑ xi1 + βˆ 2 ∑ xi 2 = ∑ yi
i =1 i =1 i =1
n n n n
β
ˆ
0 ∑ xi1 + βˆ 1 ∑ xi21 +β
ˆ
2 ∑ xi1xi 2 = ∑ xi1 yi
i =1 i =1 i =1 i =1
n n n n
β
ˆ
0 ∑ xi 2 +β
ˆ
1 ∑ xi1 xi 2 +β
ˆ
2 ∑ xi22 = ∑ xi 2 yi
i =1 i =1 i =1 i =1

Introduciendo los valores previamente calculados, tenemos


25βˆ 0 + 206βˆ 1 + 8294βˆ 2 = 725.82
206βˆ 0 + 2396βˆ 1 + 77,177βˆ 2 = 8,008.47
8294βˆ 0 + 77,177βˆ 1 + 3,531,848βˆ 2 = 274,816.71
22
Regresión Lineal Múltiple
Ejemplo
Resolviendo las ecuaciones:

βˆ 0 = 2.26379, βˆ 1 = 2.74427, βˆ 2 = 0.01253

Entonces, el modelo de regresión es el siguiente

yˆ = 2.26379 + 2.74427 x1 + 0.01253 x2

Interpretación práctica: La ecuación puede ser usada para


predecir la resistencia al jalado (tensión) para pares de
valores de las variables regresoras longitud del cable (x1) y
altura del dado (x2).

23
Regresión Lineal Múltiple
Enfoque matricial para la regresión lineal múltiple

Suponga que el modelo que relaciona los


regresores con la respuesta es:
yi = β0 + β1xi1 + β2 xi 2 +  + βk xik + εi i = 1, 2, , n

Este es un modelo de n ecuaciones que puede


expresarse en notación matricial

y = Xβ + ε (12-6)

24
Regresión Lineal Múltiple
Enfoque matricial para la regresión lineal múltiple

donde

 y1  1 x11 x12  x1k  β0   ε1 


y  1 x x  x  β  ε 
y =  2 X= 21 22 2k 
β =  1  and ε =  2 
       
       
 yn  1 x n1 xn2  x nk  β
 k ε n 

25
Regresión Lineal Múltiple
Enfoque matricial para la regresión lineal múltiple

Queremos encontrar el vector de los estimadores


de mínimos cuadrados que minimice:
n
( )′ (y − Xβ )
L= ∑ i
ε 2
= ε ′ε = y − Xβ
i =1

El estimador de mímimos cuadrados 𝛽𝛽̂ es la


solución para β en las ecuaciones:
𝛿𝛿𝐿𝐿
=0
𝛿𝛿𝛿𝛿
Resolviendo
26 β̂ = (X′X)−1 X′y
Regresión Lineal Múltiple
Enfoque matricial para la regresión lineal múltiple
El modelo de regresión ajustado es:
k
yˆi = βˆ 0 + ∑ βˆ j xij i = 1, 2, , n (12-8)
j =1

En notación matricial este modelo es:


ˆ = Xβ
y ˆ

La direfencia entre la observación yi y el valor ajustado yˆ i


es un residuo ei = yi − yˆi . El vector de residuos (n × 1) se
denota como:
(12-9)
e = y − yˆ

27
Regresión Lineal Múltiple
 En Excel:
 Marque el área de la matriz resultante.
 Escriba =
 Luego ingrese la operación o función respectiva. Por
ejemplo MMULT
 Finalmente presione simultáneamente
CTRL+SHIFT+ENTER.

https://www.youtube.com/watch?v=uJGOc_CvnB4

28
Regresión Lineal Múltiple
Ejemplo
En el ejemplo anterior se ilustró el ajuste del
modelo de regresión lineal múltiple

y = β0 + β1x1 + β2x2 + ε

donde y es la resistencia observada del cable, x1 es


la longitud del cable, and x2 es la altura del dado.
Ahora utilizaremos el enfoque matricial para ajustar
el modelo de regresión a esos datos.

La matriz X y el vector y para el modelo son:

29
Ejemplo
1 2 50   9.95
1 8 
110   24.45
  
1 11 120   31.75
   
1 10 550   35.00 
1 8 295  25.02 
   
1 4 200   16.86 
1 2 375  14.38
   
1 2 52   9.60 
1 9 100   24.35
   
1 8 300   27.50 
   
1 4 412   17.08
1 11 400   37.00 
   
X = 1 12 500  y =  41.95
1 2 360   11.66 
   
1 4 205  21.65
1 4 400   17.89 
   
1 20 600   69.00 
   
1 1 585  10.30 
1 10 540   34.93
   
1 15 250   46.59 
1 15 290   44.88
   
1 16 510   54.12 
1 17 590   56.63
   
1 6 100   22.13
1 400   
 5   21.15
30
Regresión Lineal Múltiple
Ejemplo
La matriz X′X es 1 2 50 
1 1  1 
110 
X′X =  2 8  5  
1 8
   
50 110  400  
1 5 400
 25 206 8,294 
=  206 2,396 77,177 
8,294 77,177 3,531,848

y el vector X′y es
 9.95 
1 1  1    725.82 
X′y =  2 8  5  
24 . 45 =  8,008.47 
    
50 110  400   274,816.71
21.15
Los estimadores de mínimos cuadrados se obtienen de la siguiente
ecuación:
β̂ = (X ′X) −1 X ′y
31
Regresión Lineal Múltiple
Ejemplo
βˆ 0   25 −1
8, 294   725.82 
O:   
206
 βˆ 1  =  206 2,396 77,177   8, 008.37 
 ˆ  8, 294 77,177 3,531,848  274,811.31
β2     
 0.214653 −0.007491 −0.000340   725.82 
=  −0.007491 0.001671 − 0.000019   8, 008.47 
  
 −0.000340 −0.000019 +0.0000015  274,811.31
 2.26379143
=  2.74426964 
 0.01252781

Por consiguiente, el modelo de regresión ajustado con los


coeficientes de regresión redondeados a cinco cifras es:
yˆ = 2.26379 + 2.74427 x1 + 0.01253 x2
¡Es el mismo resultado con el método anterior!
(Ver diapositivas 22 y 23)
32
Regresión Lineal Múltiple
Ejemplo
El modelo de regresión puede emplearse para predecir la resistencia observada
de la pega (y) del cable, la longitud del cable (x1), y la altura del dado (x2).
También pueden obtenerse los valores ajustados mediante la sustitución de
cada observación (xi1, xi2), i = 1, 2, …, n, en la ecuación.
Por ejemplo, la primera observación tiene x11 = 2 y x12 = 50, y el valor ajustado
es:
yˆ1 = 2.26379 + 2.74427 x11 + 0.01253 x12
= 2.26379 + 2.74427(2) + 0.01253(50)
= 8.38
El valor observado correspondiente es y1 = 9.95. El residuo correspondiente a la
primera observación es: e1 = y1 − yˆ1
= 9.95 − 8.38
= 1.57
La siguiente tabla muestra los 25 valores ajustados y los residuos
correspondientes. Los valores ajustados y los residuales tienen la misma
precisión que los datos originales.
33
Regresión Lineal Múltiple
Ejemplo
Observaciones, valores ajustados y residuos

Número de Número de
Observación yi ŷi ei = yi − yˆi Observación yi ŷi ei = yi − yˆi
1 9,95 8,38 1,57 14 11,66 12,26 –0.60
2 24,45 25,60 –1,15 15 21,65 15,81 5.84
3 31,75 33,95 –2,20 16 17,89 18,25 –0,36
4 35,00 36,60 –1,60 17 69,00 64,67 4,33
5 25,02 27,91 –2,89 18 10,30 12,34 –2,04
6 16,86 15,75 1,11 19 34,93 36,47 –1,54
7 14,38 12,45 1,93 20 46,59 46,56 0,03
8 9,60 8,40 1,20 21 44,88 47,06 –2,18
9 24,35 28,21 –3,86 22 54,12 52,56 1,56
10 27,50 27,98 –0,48 23 56,63 56,31 0,32
11 17,08 18,40 –1,32 24 22,13 19,98 2,15
12 37,00 37,46 –0,46 25 21,15 21,00 0,15
13 41,95 41,46 0,49

34
Regresión Lineal Múltiple
Salida de Minitab
Regression Analysis: Strength versus :Length, Height

The regression equation is


Strength = 2.26 + 2.74 Length + 0.0125 Height

Predictor β̂ 0 Coef SE Coef T P VIF


Constant 2.264 1.060 2.14 0.044
Length
β̂ 1 2.74427 0.09352 29.34 0.000 1.2
Height β̂ 2 0.012528 0.002798 4.48 0.000 1.2

S = 2.288 R-Sq = 98.1% R-Sq (adj) = 97.9%


PRESS = 156.163 R-Sq (pred) = 97.44%

Analysis of Variance

σ̂ 2
Source DF SS MS F P
Regression 2 5990.8 2995.4 572.17 0.000
Residual Error 22 115.2 5.2
Total 24 6105.9

Source DF Seq SS
Length 1 5885.9
Height 1 104.9

Predicted Values for New Observations

New Obs Fit SE Fit 95.0% CI 95.0% PI


1 27.663 0.482 (26.663, 28.663) (22.814, 32.512)

Values of Predictors for New Observations

News Obs Length Height


1 8.00 275

35
Regresión Lineal Múltiple
Estimación de σ2

Un estimador insesgado de σ2 es
n
∑ i
e 2
SS E
ˆ2 =
σ i =1 =
n− p n− p

El error cuadrático medio (MSE)

𝑆𝑆𝑆𝑆𝐸𝐸 𝑦𝑦 𝑇𝑇
𝑦𝑦 − ̂
𝛽𝛽 𝑇𝑇 𝑇𝑇
𝑋𝑋 𝑦𝑦
2
𝜎𝜎 = 𝑀𝑀𝑀𝑀𝑀𝑀 = =
𝑛𝑛 − 𝑝𝑝 𝑛𝑛 − 𝑝𝑝
36
Regresión Lineal Múltiple
Estimación de σ2
Ejemplo
𝑆𝑆𝑆𝑆𝐸𝐸 𝑦𝑦 𝑇𝑇
𝑦𝑦 − ̂
𝛽𝛽 𝑇𝑇 𝑇𝑇
𝑋𝑋 𝑦𝑦
2
𝜎𝜎 = =
𝑛𝑛 − 𝑝𝑝 𝑛𝑛 − 𝑝𝑝
25

𝑦𝑦 𝑇𝑇 𝑦𝑦 = � 𝑦𝑦12 = 27117,9510
𝑖𝑖=1
725,82
𝛽𝛽̂ 𝑇𝑇 𝑋𝑋 𝑇𝑇 𝑦𝑦 = 2,26379143 2,74426964 0,01252781 8008,37
274811,31
37
𝛽𝛽̂ 𝑇𝑇 𝑋𝑋 𝑇𝑇 𝑦𝑦 = 27062,7775
Regresión Lineal Múltiple
Estimación de σ2
Ejemplo
𝑆𝑆𝑆𝑆𝐸𝐸 𝑦𝑦 𝑇𝑇
𝑦𝑦 − ̂
𝛽𝛽 𝑇𝑇 𝑇𝑇
𝑋𝑋 𝑦𝑦
2
𝜎𝜎 = =
𝑛𝑛 − 𝑝𝑝 𝑛𝑛 − 𝑝𝑝

𝑆𝑆𝑆𝑆𝐸𝐸 = 𝑦𝑦 𝑇𝑇 𝑦𝑦 − 𝛽𝛽̂ 𝑇𝑇 𝑋𝑋 𝑇𝑇 𝑦𝑦 = 27117,9510 − 27062,7775

𝑆𝑆𝑆𝑆𝐸𝐸 = 115,1735
2
𝑆𝑆𝑆𝑆𝐸𝐸 115,1735
𝜎𝜎 = = = 5,2352
𝑛𝑛 − 𝑝𝑝 25 − 3
38
Regresión Lineal Múltiple
Salida de Minitab
Regression Analysis: Strength versus :Length, Height

The regression equation is


Strength = 2.26 + 2.74 Length + 0.0125 Height

Predictor β̂ 0 Coef SE Coef T P VIF


Constant 2.264 1.060 2.14 0.044
Length
β̂ 1 2.74427 0.09352 29.34 0.000 1.2
Height β̂ 2 0.012528 0.002798 4.48 0.000 1.2

S = 2.288 R-Sq = 98.1% R-Sq (adj) = 97.9%


PRESS = 156.163 R-Sq (pred) = 97.44%

Analysis of Variance

σ̂ 2
Source DF SS MS F P
Regression 2 5990.8 2995.4 572.17 0.000
Residual Error 22 115.2 5.2
Total 24 6105.9

Source DF Seq SS
Length 1 5885.9
Height 1 104.9

Predicted Values for New Observations

New Obs Fit SE Fit 95.0% CI 95.0% PI


1 27.663 0.482 (26.663, 28.663) (22.814, 32.512)

Values of Predictors for New Observations

News Obs Length Height


1 8.00 275

39
Regresión Lineal Múltiple
Propiedades de los estimadores de mínimos
cuadrados
Estimadores
insesgados: [
E (βˆ ) = E (X′X )−1 X′Y ]
= E [(X′X )−1
]
X′(Xβ + ε )
= E [(X′X )−1
X′Xβ + (X′X )−1 X′ε ]

Matriz de covarianza
(pxp): C00 C01 C02 
C = ( X′X) −1 =  C10 C11 C12 
C20 C21 C22 
40
Covarianza
La covarianza entre las variables aleatorias X y Y,
denotada por COV(X,Y) o 𝝈𝝈𝒙𝒙𝒙𝒙

La covarianza es una medida de asociación lineal


entre las variables aleatorias.
41
Covarianza

42
Regresión Lineal Múltiple
Propiedades de los estimadores de mínimos
cuadrados
Varianzas y covarianzas individuales:

Varianzas: V (βˆ j ) = σ 2 C jj , j = 0, 1, 2

Covarianzas indiv.: cov(βˆ i , βˆ j ) = σ 2 Cij , i≠ j

En general, −1
ˆ 2

cov(β ) = σ ( X X) = σ C
2

𝑠𝑠𝑠𝑠 𝛽𝛽̂𝑗𝑗 = 𝜎𝜎� 2 𝐶𝐶𝑗𝑗𝑗𝑗


43
Pruebas de hipótesis en la Regresión Lineal Multiple

Prueba para la significancia de la regresión


La prueba para la significancia de la
regresión es una prueba para
determinar si existe una relación lineal
entre la variable respuesta y un
subconjunto de variables de regresión.

El rechazo de Ho implica que al menos


una de las variables de regresión tiene
una contribución significativa en el
proceso.
44
Pruebas de hipótesis en la Regresión Lineal Multiple

Prueba para la significancia de la regresión

Las hipótesis apropiadas son:


H 0 : β1 = β 2 =  = β k = 0
H1: βj ≠ 0 al menos para una j (1211)

El estadístico de prueba para Ho es:


SS R /k MS R
F0 = = (1212)
SS E /(n − p ) MS E

45
Pruebas de hipótesis en la Regresión Lineal Multiple

Prueba para la significancia de la regresión

En general, el procedimiento se resumen en una tabla


de análisis de varianza para la prueba de significancia
de la regresión lineal multiple (RLM).

Fuente de la Suma de Grados de Media de


variación Cuadrados Libertad Cuadrados F0
Regresión SSR k MSR MSR / MSE
Error o residuo SSE n–p MSE

Total SST n–1

46
Pruebas de hipótesis en la Regresión Lineal Multiple
A continuación se prueba la significancia de la regresión de
los ejemplos anteiores (con un α = 0.05) utilizando los datos de
jalado de la unión del cable. La suma total de cuadrados es:

2
 n 
 ∑ yi 
  (725.82) 2
 i =1 
SST = y ′y − = 27,178.5316 −
n 25
= 6105.9447

47
Regresión Lineal Múltiple
Tenemos estos datos de la estimación de σ2
Ejemplo
𝑆𝑆𝑆𝑆𝐸𝐸 𝑦𝑦 𝑇𝑇
𝑦𝑦 − ̂
𝛽𝛽 𝑇𝑇 𝑇𝑇
𝑋𝑋 𝑦𝑦
2
𝜎𝜎 = =
𝑛𝑛 − 𝑝𝑝 𝑛𝑛 − 𝑝𝑝
25

𝑦𝑦 𝑇𝑇 𝑦𝑦 = � 𝑦𝑦12 = 27117,9510
𝑖𝑖=1
725,82
𝛽𝛽̂ 𝑇𝑇 𝑋𝑋 𝑇𝑇 𝑦𝑦 = 2,26379143 2,74426964 0,01252781 8008,37
274811,31
48
𝛽𝛽̂ 𝑇𝑇 𝑋𝑋 𝑇𝑇 𝑦𝑦 = 27062,7775
Regresión Lineal Múltiple
Tenemos estos datos calculados en el Ejemplo
Específicamente, ajustamos el modelo de regresión lineal múltiple
Y= β0 + β1x1 + β2x 2 + ε

donde Y = resistencia de la pega del cable (tensión), x1 = longitud del


cable, y
x2 = altura del dado (die).
De los datos de la tabla obtenemos:
25 25 25
= =
n 25, ∑ yi 725.82,
=i 1
= ∑ xi1 206,=
∑ xi 2 8, 294
=i 1 =i 1
25 25 25
=∑ x 2,=
396, ∑ x
2
i1 =
3, 531,848,
i 1 =i 1
∑ xi1 xi 2 77,177
2
i2
=i 1
25 25

∑ xi1 yi 8,=
= 008.47, ∑ xi 2 yi 274,816.71
i 1 =i 1

49
Pruebas de hipótesis en la Regresión Lineal Multiple

La suma de cuadrados de la regresión se calcula de la siguiente


manera: 2
 n 
 ∑ yi 
  2
SS R = βˆ ′ X′ y −  i =1  = 27,063.3581 −
( 725 . 82)
n 25
= 5990.7712

Por sustracción, tenemos que:

SS E = SST − SS R = y′ y − β′ X′ y = 115.1716

50
Pruebas de hipótesis en la Regresión Lineal Multiple
Resultados

Prueba de significancia para la regresión

Fuente de la Suma de Grados de Media de


variación Cuadrados Libertad Cuadrados f0 Pvalue
Regresión 5990.7712 2 2995.3856 572.17 1.08E-19
Error o 115.1735 22 5.2352
residuo
Total 6105.9447 24

Fuente de la Suma de Grados de Media de


variación Cuadrados Libertad Cuadrados F0
Regresión SSR k MSR MSR / MSE
Error o residuo SSE n–p MSE
51 Total SST n–1
Pruebas de hipótesis en la Regresión Lineal Multiple
Ejemplo
Para realizar la prueba de hipótesis H0: β1 = β2 = 0, se calcula el
estadístico de prueba
MS R 2995.3856
f0 = = = 572.17
MS E 5.2352
Dado que f0 > f0,05;2;22= 3,44 (o dado que el valor de P es
considerablemente menor que α = 0,05), se rechaza la hipotesis nula y
se concluye que la resistencia al jalado de la unión está linealmente
relacionada con la longitud del cable, o con la altura del dado, o con
ambos.

Interpretación práctica: El rechazo de H0 no necesariamente implica que


la relación encontrada es un modelo apropiado para predecir la
resistencia al jalado como una función de la longitud del cable y la altura
del dado. Se requieren pruebas adicionales antes de que estemos
cómodos usando el modelo.
52
Regresión Lineal Múltiple
Salida de Minitab
Regression Analysis: Strength versus :Length, Height

The regression equation is


Strength = 2.26 + 2.74 Length + 0.0125 Height

Predictor β̂ 0 Coef SE Coef T P VIF


Constant 2.264 1.060 2.14 0.044
Length
β̂ 1 2.74427 0.09352 29.34 0.000 1.2
Height β̂ 2 0.012528 0.002798 4.48 0.000 1.2

S = 2.288 R-Sq = 98.1% R-Sq (adj) = 97.9%


PRESS = 156.163 R-Sq (pred) = 97.44%

Analysis of Variance

Source DF SS MS F P
Regression 2 5990.8 2995.4 572.17 0.000
Residual Error 22 115.2 5.2
Total 24 6105.9

Source DF Seq SS
Length 1 5885.9
Height 1 104.9

Predicted Values for New Observations

New Obs Fit SE Fit 95.0% CI 95.0% PI


1 27.663 0.482 (26.663, 28.663) (22.814, 32.512)

Values of Predictors for New Observations

News Obs Length Height


1 8.00 275

53
Pruebas de hipótesis en la Regresión Lineal Multiple
Ejemplo
Para realizar la prueba de hipótesis H0: β1 = β2 = 0, se calcula el
estadístico de prueba
MS R 2995.3856
f0 = = = 572.17
MS E 5.2352

En Excel:

54
Pruebas de hipótesis en la Regresión Lineal Multiple
R2 y R2 Ajustado
El coeficiente de determinación multiple
SS R SS E
R = 2
=1−
SST SST
• Para los datos de resistencia al jalado, se tiene
que

R2 = SSR / SST = 5990,7712/6105,9447 = 0,9811.

•Entonces, alrededor del 98% de la variabilidad


en la respuesta de la resistencia al jalado queda
explicada cuando se usan las dos variables de
55
regresión.
Regresión Lineal Múltiple
Salida de Minitab
Regression Analysis: Strength versus :Length, Height

The regression equation is


Strength = 2.26 + 2.74 Length + 0.0125 Height

Predictor β̂ 0 Coef SE Coef T P VIF


Constant 2.264 1.060 2.14 0.044
Length
β̂ 1 2.74427 0.09352 29.34 0.000 1.2
Height β̂ 2 0.012528 0.002798 4.48 0.000 1.2

S = 2.288 R-Sq = 98.1% R-Sq (adj) = 97.9%


PRESS = 156.163 R-Sq (pred) = 97.44%

Analysis of Variance

Source DF SS MS F P
Regression 2 5990.8 2995.4 572.17 0.000
Residual Error 22 115.2 5.2 σ̂ 2
Total 24 6105.9

Source DF Seq SS
Length 1 5885.9
Height 1 104.9

Predicted Values for New Observations

New Obs Fit SE Fit 95.0% CI 95.0% PI


1 27.663 0.482 (26.663, 28.663) (22.814, 32.512)

Values of Predictors for New Observations

News Obs Length Height


1 8.00 275

56
Pruebas de hipótesis en la Regresión Lineal Multiple
R2 y R2 Ajustado
El R2 ajustado es

SS E / (n − p )
2
Radj =1− (1214)
SST / (n − 1)

• El estadístico “R2 ajustado” penaliza el análisis


cuando se suman términos en el modelo.

• Puede ser de ayuda para evitar sobre ajustes


(overfitting) (es decir, agregar regresores que no
son realmente necesarios)
57
Pruebas de hipótesis en la Regresión Lineal Multiple

Pruebas sobre los coeficientes individuales de


regresión y sobre los subconjuntos de coeficientes.

La hipótesis para la prueba de la significancia de


cualquier coeficiente de regresión individual, son:

H0: βj = βj0
H1: βj ≠ βj0

58
Pruebas de hipótesis en la Regresión Lineal Multiple

Pruebas sobre los coeficientes individuales de


regresión y sobre los subconjuntos de coeficientes.

El estadístico de prueba es:

β
ˆ −β
j j0 β
ˆ −β
j j0
T0 = =
σ 2C jj se(β
ˆ )
j

• Rechazar H0 si |t0| > tα/2,n-p.

•Esto se conoce como prueba parcial or marginal.

59
Pruebas de hipótesis en la Regresión Lineal Multiple

Ejemplo
Considere la resistencia al jalado de la unión del cable.
Se quiere probrar la hipótesis de que el coeficiente para x2 (altura
del dado) es cero. Las hipótesis son:

H0: β2 = 0
H1: β2 ≠ 0

El elemento diagonal principal de la matriz (X′X)−1 que


corresponde a β̂2 es C22 = 0,0000015, de modo que el estadístico
t es:
βˆ 2 0.01253
t0 = = = 4.477
σˆ 2C22 (5.2352)(0.0000015)

60
Pruebas de hipótesis en la Regresión Lineal Multiple
Ejemplo
Puesto que t0,025;22 = 2,074, se rechaza H0: β2 = 0 y se concluye que la
variable x2 (altura del dado) contribuye significativamente al modelo.

También puede emplearse el valor de P para obtener conclusiones. El


valor de P para for t0 = 4,477 es P = 0,0002, así que con un α = 0,05
debe rechazarse la hipótesis nula.

INTERPRETACIÓN PRÁCTICA: Esta prueba mide la contribución


parcial o marginal de x2 dado que x1 es en el modelo.
Es decir, la prueba t mide la contribución de agregar la variable x2 =
altura del dado al modelo que ya contiene x1 = longitud del cable.

Los valores de Minitab muestra los resultados del estadístico t. Note


que la computadora produce un valor de t para cada coeficiente en el
modelo de regresión.

61
Regresión Lineal Múltiple
Salida de Minitab
Regression Analysis: Strength versus :Length, Height

The regression equation is


Strength = 2.26 + 2.74 Length + 0.0125 Height

Predictor β̂ 0 Coef SE Coef T P VIF


Constant 2.264 1.060 2.14 0.044
Length
β̂ 1 2.74427 0.09352 29.34 0.000 1.2
Height β̂ 2 0.012528 0.002798 4.48 0.000 1.2

S = 2.288 R-Sq = 98.1% R-Sq (adj) = 97.9%


PRESS = 156.163 R-Sq (pred) = 97.44%

Analysis of Variance

Source DF SS MS F P
Regression 2 5990.8 2995.4 572.17 0.000
Residual Error 22 115.2 5.2 σ̂ 2
Total 24 6105.9

Source DF Seq SS
Length 1 5885.9
Height 1 104.9

Predicted Values for New Observations

New Obs Fit SE Fit 95.0% CI 95.0% PI


1 27.663 0.482 (26.663, 28.663) (22.814, 32.512)

Values of Predictors for New Observations

News Obs Length Height


1 8.00 275

62
Intervalos de confianza en la RLM
Intervalos de confianza para los coeficientes
de regresión.
Definición
Un intervalo de confianza del 100(1 - α)% para el
coeficiente de regresión βj, j = 0, 1, …, k en el
modelo de RLM está dado por:

βˆ j − tα/2, n − p σ
ˆ 2C jj ≤ β j ≤ βˆ j + tα/2, n − p σ
ˆ 2C jj (12-22)

63
Intervalos de confianza en la RLM
Ejemplo
Se construye un intervalo de confianza al 95% para el parámetro β1 del ejemplo
analizado. LA estimación puntual de β1 es βˆ 1 = 2.74427 y que el elemento de la
diagonal de (X′X)-1 que corresponde a β1 es C11 = 0.001671. La estimación de σ2
es σˆ 2 = 5.2352 , y t0.025,22 = 2.074. Entonces el 95% CI para β1 se calcula como

2.74427 − (2.074 ) (5.2352 )(.001671) ≤ β1 ≤ 2.74427


+ (2.074 ) (5.2352 )(.001671)
Expresión que se reduce a :

2,55029 ≤ β1 ≤ 2,93825

También las salidas de software estadístico sirve para calcular el intervalo de


confianza.
Vemos la salida de Minitab. Tenemos que βˆ 1 = 2.74427y que el error estándar (SE)
es: βˆ 1 = 0.0935 . Este valor corresponde a 0.0935 = (5.2352)(0.001671) . Por lo que
muchas veces tenemos los datos suficientes para calcular los intervalos de
confianza.
64
Regresión Lineal Múltiple
Salida de Minitab
Regression Analysis: Strength versus :Length, Height

The regression equation is


Strength = 2.26 + 2.74 Length + 0.0125 Height

Predictor β̂ 0 Coef SE Coef T P VIF


Constant 2.264 1.060 2.14 0.044
Length
β̂ 1 2.74427 0.09352 29.34 0.000 1.2
Height β̂ 2 0.012528 0.002798 4.48 0.000 1.2

S = 2.288 R-Sq = 98.1% R-Sq (adj) = 97.9%


PRESS = 156.163 R-Sq (pred) = 97.44%

Analysis of Variance

Source DF SS MS F P
Regression 2 5990.8 2995.4 572.17 0.000
Residual Error 22 115.2 5.2 σ̂ 2
Total 24 6105.9

Source DF Seq SS
Length 1 5885.9
Height 1 104.9

Predicted Values for New Observations

New Obs Fit SE Fit 95.0% CI 95.0% PI


1 27.663 0.482 (26.663, 28.663) (22.814, 32.512)

Values of Predictors for New Observations

News Obs Length Height


1 8.00 275

65
Aspectos de la RLM
Modelos de Regresión Polinomiales
El modelo general Y = Xβ + ε es un modelo general que puede
emplearse para ajustar cualquier relación que sea lineal en los
parámetros desconocidos β. Esto incluya a la importante clase de
modelos de regresión polinomial. Por ejemplo, el polinomio en
segundo grado en una variable:

Y = β0 + β1x + β11x2 + ε (12-31)

y el polinomio de segundo grado en dos variables

Y = β0 + β1 x1 + β 2 x2 + β11 x12 + β 22 x22 + β12 x1 x2 + ε (12-32)

Son modelos de regresión lineal.

66
Aspectos de la RLM
Ejemplo
Los paneles de las paredes laterales del interior de un aeroplano
se forman en una prensa de 1500 toneladas. El costo de
fabricación de cada unidad cambia con el tamaño del lote de
producción. La tabla proporciona el costo promedio por unidad de
producción ($x100) para este producto (y) y el tamaño del lote de
producción (x). El gráfico indica que es adecuado usar un
polinomoio de segundo orden.
y 1 .8 1 1.70 1.65 1 .5 5 1.48 1.40
x 20 25 30 35 40 50

y 1.30 1.26 1.24 1 .2 1 1 .2 0 1.18

x 60 65 70 75 80 90

67
Aspectos de la RLM

68
Ejemplo

Para ello se ajusta el modelo

Y = β0 + β1x + β11x2 + ε

El vector y, la matriz X y el vector b son:


1.81 1 20 400
1.70 1 25 625
  
1.65 1 30 900
   
 1 . 55  1 35 1225
1.48 1 40 1600
    β0 
2500
y =   X =  β = β1 
1 . 40 1 50
1.30 1 60 3600
    β11 
1.26 1 65 4225
1.24 1 70 4900
   
1.21 1 75 5625
   
 1 . 20  1 80 6400
1.18 1 90 8100
69
Aspectos de la RLM
Ejemplo
Resolviendo las ecuaciones X′ X β̂ = X′ y nos da el modelo
yˆ = 2.19826629 − 0.02252236 x + 0.00012507 x 2
Conclusiones: La prueba para la significancia para la regresión
aparece abajo. Puesto que f0 = 1762.3 es significante al 1%, se
concluye que al menos uno de los parámetros β1 y β11 no es cero.

Fuente
Variación Suma Cuad. Grados de libertad Media Cuad. f0 P-value
Regresión 0.52516 2 0.26258 1762.28 2.12E-12
Error 0.00134 9 0.00015
Total 0.5265 11

70
Variables indicadoras

• Muchos problemas incorporan variables cualitativas o


categóricas.
• El método usual para diferentes níveles de una
variable cualitativa incluye el empleo de variables
indicadoras.
• Por ejemplo, para introducir el efecto de dos
diferentes operadores en un modelo de regresión:

71
Ejemplo
 Un ingeniero mecánico investiga el acabado superficial de
las piezas de metal producidas en un torno y la relación que
tiene el acabado con la velocidad (RPM) del torno. Los
datos aparecen en la siguiente tabla. Nótese que los datos
se han recopilado utilizando dos herramientas de corte
diferentes. Puesto que es probable que el tipo de
herramienta de corte tenga efecto en el acabado de la
superficie, se ajusta el modelo:

72
Ejemplo

 Donde Y es el acabado de superficie, x1 es la velocidad del


torno (RPM), y x2 denota el tipo de herramienta.

73
Datos

74
La matriz X y el vector y
para este problema son los
siguientes:

El modelo ajustado es:

75
Presupuesto Capacidad Puntos
Equipo (millones Euros) Estadio Jornada 26
Tarea Barcelona
Atlético Madrid
633
293
99787
67829
60
53
Real Madrid 567 85454 48
Getafe CF 39 17700 42
Alavés 39 19940 40
Sevilla 163 40500 37
Valencia 165 55000 36
Real Betis 97 60721 36
Real Sociedad 81 32076 35
Eibar 41 7400 34
Leganes 53 11454 33
Ath. Bilbao 88 53332 33
Espanyol 57 40423 33
Girona 37 9282 31
Levante 52 25354 30
Valladolid 24 26512 26
Celta Vigo 51 28700 25
Villarreal 109 24500 23
Rayo Vallecano 33 15500 23
Huesca 29 5500 22
Fuente presupuestos:
76
https://es.statista.com/estadisticas/498947/presupuesto-equipos-de-futbol-de-la-liga-en-espana/
Tarea
 A. Genere un modelo de regresión lineal múltiple entre
presupuesto, capacidad del estadio y puntos obtenidos a la
jornada 26 (todos los modelos deben tener al menos,
Genere ANOVA, R2, pruebas de hipótesis e intervalos de
confianzas para los coeficientes, gráfico residuos)
 B. Compare los resultados obtenidos en el punto A con su
tarea anterior.
 C. Actualice sus resultados con la última jornada de la
temporada
 D. Haga los modelos en función de la cantidad promedio de
puntos por partido para poder de comparar los resultados.
 E. ¿Cuáles comentarios puede hacer respecto a los modelos
obtenidos, las variables utilizadas y el desempeño de los
diferentes equipos?

77

También podría gustarte