Tema 9a - 2019 - Regresi+ N Lineal Multiple JAM
Tema 9a - 2019 - Regresi+ N Lineal Multiple JAM
Tema 9a - 2019 - Regresi+ N Lineal Multiple JAM
2
Regresión Lineal Múltiple
Introducción
Y = β 0 + β1 x 1 + β2 x 2 + ε
donde
Y – vida efectiva de la herramienta
x1 – velocidad de corte
x2 – ángulo de la herramienta
3
Y = β0 + β1x1 + β2 x 2 +…+ βK x K + ε.
4
Y = β0 + β1x1 + β2 x 2 +…+ βK x K + ε.
5
Plano de regresión para el modelo:
6
𝐸𝐸 𝑌𝑌 = 50 + 10𝑥𝑥1 + 7𝑥𝑥2
Gráfica de Contornos:
7 𝐸𝐸 𝑌𝑌 = 50 + 10𝑥𝑥1 + 7𝑥𝑥2
Plano de regresión para el modelo:
8
𝐸𝐸 𝑌𝑌 = 50 + 10𝑥𝑥1 + 7𝑥𝑥2 + 5𝑥𝑥1 𝑥𝑥2
Gráfica de Contornos:
9 𝐸𝐸 𝑌𝑌 = 50 + 10𝑥𝑥1 + 7𝑥𝑥2 + 5𝑥𝑥1 𝑥𝑥2
Plano de regresión para el modelo:
𝐸𝐸 𝑌𝑌 = 800 + 10𝑥𝑥1 + 7𝑥𝑥2 − 8,5𝑥𝑥12 − 5𝑥𝑥22 + 4𝑥𝑥1 𝑥𝑥2
10
11
Gráfica de Contornos:
𝐸𝐸 𝑌𝑌 = 800 + 10𝑥𝑥1 + 7𝑥𝑥2 − 8,5𝑥𝑥12 − 5𝑥𝑥22 + 4𝑥𝑥1 𝑥𝑥2
Y = β0 + β1x1 + β2 x 2 +…+ βK x K + ε.
y x1 x 2 … xk
y1 x11 x12 … x1k
y2 x21 x22 … x2k
16
Regresión Lineal Múltiple
Ejemplo Conexiones Circuitos
17
Regresión Lineal Múltiple
Ejemplo Conexiones Circuitos
Usaremos los datos de la siguiente tabla.
18
Regresión Lineal Múltiple
Ejemplo Conexiones Circuitos
Datos obtenidos
Número de Resist. Long. Cable Altura del Número de Resist. Long. Altura del
Observación Tensión x1 dado Observación Tensión Cable dado
y x2 y x1 x2
19
Regresión Lineal Múltiple
∑ xi1 yi 8,=
= 008.47, ∑ xi 2 yi 274,816.71
i 1 =i 1
21
Regresión Lineal Múltiple
Ejemplo
Para el modeloY = β0 + β1x1 + β2 x 2 + ε, Las ecuaciones serían:
n n n
nβ
ˆ +β
0
ˆ
1 ∑ xi1 + βˆ 2 ∑ xi 2 = ∑ yi
i =1 i =1 i =1
n n n n
β
ˆ
0 ∑ xi1 + βˆ 1 ∑ xi21 +β
ˆ
2 ∑ xi1xi 2 = ∑ xi1 yi
i =1 i =1 i =1 i =1
n n n n
β
ˆ
0 ∑ xi 2 +β
ˆ
1 ∑ xi1 xi 2 +β
ˆ
2 ∑ xi22 = ∑ xi 2 yi
i =1 i =1 i =1 i =1
23
Regresión Lineal Múltiple
Enfoque matricial para la regresión lineal múltiple
y = Xβ + ε (12-6)
24
Regresión Lineal Múltiple
Enfoque matricial para la regresión lineal múltiple
donde
25
Regresión Lineal Múltiple
Enfoque matricial para la regresión lineal múltiple
27
Regresión Lineal Múltiple
En Excel:
Marque el área de la matriz resultante.
Escriba =
Luego ingrese la operación o función respectiva. Por
ejemplo MMULT
Finalmente presione simultáneamente
CTRL+SHIFT+ENTER.
https://www.youtube.com/watch?v=uJGOc_CvnB4
28
Regresión Lineal Múltiple
Ejemplo
En el ejemplo anterior se ilustró el ajuste del
modelo de regresión lineal múltiple
y = β0 + β1x1 + β2x2 + ε
29
Ejemplo
1 2 50 9.95
1 8
110 24.45
1 11 120 31.75
1 10 550 35.00
1 8 295 25.02
1 4 200 16.86
1 2 375 14.38
1 2 52 9.60
1 9 100 24.35
1 8 300 27.50
1 4 412 17.08
1 11 400 37.00
X = 1 12 500 y = 41.95
1 2 360 11.66
1 4 205 21.65
1 4 400 17.89
1 20 600 69.00
1 1 585 10.30
1 10 540 34.93
1 15 250 46.59
1 15 290 44.88
1 16 510 54.12
1 17 590 56.63
1 6 100 22.13
1 400
5 21.15
30
Regresión Lineal Múltiple
Ejemplo
La matriz X′X es 1 2 50
1 1 1
110
X′X = 2 8 5
1 8
50 110 400
1 5 400
25 206 8,294
= 206 2,396 77,177
8,294 77,177 3,531,848
y el vector X′y es
9.95
1 1 1 725.82
X′y = 2 8 5
24 . 45 = 8,008.47
50 110 400 274,816.71
21.15
Los estimadores de mínimos cuadrados se obtienen de la siguiente
ecuación:
β̂ = (X ′X) −1 X ′y
31
Regresión Lineal Múltiple
Ejemplo
βˆ 0 25 −1
8, 294 725.82
O:
206
βˆ 1 = 206 2,396 77,177 8, 008.37
ˆ 8, 294 77,177 3,531,848 274,811.31
β2
0.214653 −0.007491 −0.000340 725.82
= −0.007491 0.001671 − 0.000019 8, 008.47
−0.000340 −0.000019 +0.0000015 274,811.31
2.26379143
= 2.74426964
0.01252781
Número de Número de
Observación yi ŷi ei = yi − yˆi Observación yi ŷi ei = yi − yˆi
1 9,95 8,38 1,57 14 11,66 12,26 –0.60
2 24,45 25,60 –1,15 15 21,65 15,81 5.84
3 31,75 33,95 –2,20 16 17,89 18,25 –0,36
4 35,00 36,60 –1,60 17 69,00 64,67 4,33
5 25,02 27,91 –2,89 18 10,30 12,34 –2,04
6 16,86 15,75 1,11 19 34,93 36,47 –1,54
7 14,38 12,45 1,93 20 46,59 46,56 0,03
8 9,60 8,40 1,20 21 44,88 47,06 –2,18
9 24,35 28,21 –3,86 22 54,12 52,56 1,56
10 27,50 27,98 –0,48 23 56,63 56,31 0,32
11 17,08 18,40 –1,32 24 22,13 19,98 2,15
12 37,00 37,46 –0,46 25 21,15 21,00 0,15
13 41,95 41,46 0,49
34
Regresión Lineal Múltiple
Salida de Minitab
Regression Analysis: Strength versus :Length, Height
Analysis of Variance
σ̂ 2
Source DF SS MS F P
Regression 2 5990.8 2995.4 572.17 0.000
Residual Error 22 115.2 5.2
Total 24 6105.9
Source DF Seq SS
Length 1 5885.9
Height 1 104.9
35
Regresión Lineal Múltiple
Estimación de σ2
Un estimador insesgado de σ2 es
n
∑ i
e 2
SS E
ˆ2 =
σ i =1 =
n− p n− p
𝑆𝑆𝑆𝑆𝐸𝐸 𝑦𝑦 𝑇𝑇
𝑦𝑦 − ̂
𝛽𝛽 𝑇𝑇 𝑇𝑇
𝑋𝑋 𝑦𝑦
2
𝜎𝜎 = 𝑀𝑀𝑀𝑀𝑀𝑀 = =
𝑛𝑛 − 𝑝𝑝 𝑛𝑛 − 𝑝𝑝
36
Regresión Lineal Múltiple
Estimación de σ2
Ejemplo
𝑆𝑆𝑆𝑆𝐸𝐸 𝑦𝑦 𝑇𝑇
𝑦𝑦 − ̂
𝛽𝛽 𝑇𝑇 𝑇𝑇
𝑋𝑋 𝑦𝑦
2
𝜎𝜎 = =
𝑛𝑛 − 𝑝𝑝 𝑛𝑛 − 𝑝𝑝
25
𝑦𝑦 𝑇𝑇 𝑦𝑦 = � 𝑦𝑦12 = 27117,9510
𝑖𝑖=1
725,82
𝛽𝛽̂ 𝑇𝑇 𝑋𝑋 𝑇𝑇 𝑦𝑦 = 2,26379143 2,74426964 0,01252781 8008,37
274811,31
37
𝛽𝛽̂ 𝑇𝑇 𝑋𝑋 𝑇𝑇 𝑦𝑦 = 27062,7775
Regresión Lineal Múltiple
Estimación de σ2
Ejemplo
𝑆𝑆𝑆𝑆𝐸𝐸 𝑦𝑦 𝑇𝑇
𝑦𝑦 − ̂
𝛽𝛽 𝑇𝑇 𝑇𝑇
𝑋𝑋 𝑦𝑦
2
𝜎𝜎 = =
𝑛𝑛 − 𝑝𝑝 𝑛𝑛 − 𝑝𝑝
𝑆𝑆𝑆𝑆𝐸𝐸 = 115,1735
2
𝑆𝑆𝑆𝑆𝐸𝐸 115,1735
𝜎𝜎 = = = 5,2352
𝑛𝑛 − 𝑝𝑝 25 − 3
38
Regresión Lineal Múltiple
Salida de Minitab
Regression Analysis: Strength versus :Length, Height
Analysis of Variance
σ̂ 2
Source DF SS MS F P
Regression 2 5990.8 2995.4 572.17 0.000
Residual Error 22 115.2 5.2
Total 24 6105.9
Source DF Seq SS
Length 1 5885.9
Height 1 104.9
39
Regresión Lineal Múltiple
Propiedades de los estimadores de mínimos
cuadrados
Estimadores
insesgados: [
E (βˆ ) = E (X′X )−1 X′Y ]
= E [(X′X )−1
]
X′(Xβ + ε )
= E [(X′X )−1
X′Xβ + (X′X )−1 X′ε ]
=β
Matriz de covarianza
(pxp): C00 C01 C02
C = ( X′X) −1 = C10 C11 C12
C20 C21 C22
40
Covarianza
La covarianza entre las variables aleatorias X y Y,
denotada por COV(X,Y) o 𝝈𝝈𝒙𝒙𝒙𝒙
42
Regresión Lineal Múltiple
Propiedades de los estimadores de mínimos
cuadrados
Varianzas y covarianzas individuales:
Varianzas: V (βˆ j ) = σ 2 C jj , j = 0, 1, 2
En general, −1
ˆ 2
′
cov(β ) = σ ( X X) = σ C
2
45
Pruebas de hipótesis en la Regresión Lineal Multiple
46
Pruebas de hipótesis en la Regresión Lineal Multiple
A continuación se prueba la significancia de la regresión de
los ejemplos anteiores (con un α = 0.05) utilizando los datos de
jalado de la unión del cable. La suma total de cuadrados es:
2
n
∑ yi
(725.82) 2
i =1
SST = y ′y − = 27,178.5316 −
n 25
= 6105.9447
47
Regresión Lineal Múltiple
Tenemos estos datos de la estimación de σ2
Ejemplo
𝑆𝑆𝑆𝑆𝐸𝐸 𝑦𝑦 𝑇𝑇
𝑦𝑦 − ̂
𝛽𝛽 𝑇𝑇 𝑇𝑇
𝑋𝑋 𝑦𝑦
2
𝜎𝜎 = =
𝑛𝑛 − 𝑝𝑝 𝑛𝑛 − 𝑝𝑝
25
𝑦𝑦 𝑇𝑇 𝑦𝑦 = � 𝑦𝑦12 = 27117,9510
𝑖𝑖=1
725,82
𝛽𝛽̂ 𝑇𝑇 𝑋𝑋 𝑇𝑇 𝑦𝑦 = 2,26379143 2,74426964 0,01252781 8008,37
274811,31
48
𝛽𝛽̂ 𝑇𝑇 𝑋𝑋 𝑇𝑇 𝑦𝑦 = 27062,7775
Regresión Lineal Múltiple
Tenemos estos datos calculados en el Ejemplo
Específicamente, ajustamos el modelo de regresión lineal múltiple
Y= β0 + β1x1 + β2x 2 + ε
∑ xi1 yi 8,=
= 008.47, ∑ xi 2 yi 274,816.71
i 1 =i 1
49
Pruebas de hipótesis en la Regresión Lineal Multiple
SS E = SST − SS R = y′ y − β′ X′ y = 115.1716
50
Pruebas de hipótesis en la Regresión Lineal Multiple
Resultados
Analysis of Variance
Source DF SS MS F P
Regression 2 5990.8 2995.4 572.17 0.000
Residual Error 22 115.2 5.2
Total 24 6105.9
Source DF Seq SS
Length 1 5885.9
Height 1 104.9
53
Pruebas de hipótesis en la Regresión Lineal Multiple
Ejemplo
Para realizar la prueba de hipótesis H0: β1 = β2 = 0, se calcula el
estadístico de prueba
MS R 2995.3856
f0 = = = 572.17
MS E 5.2352
En Excel:
54
Pruebas de hipótesis en la Regresión Lineal Multiple
R2 y R2 Ajustado
El coeficiente de determinación multiple
SS R SS E
R = 2
=1−
SST SST
• Para los datos de resistencia al jalado, se tiene
que
Analysis of Variance
Source DF SS MS F P
Regression 2 5990.8 2995.4 572.17 0.000
Residual Error 22 115.2 5.2 σ̂ 2
Total 24 6105.9
Source DF Seq SS
Length 1 5885.9
Height 1 104.9
56
Pruebas de hipótesis en la Regresión Lineal Multiple
R2 y R2 Ajustado
El R2 ajustado es
SS E / (n − p )
2
Radj =1− (1214)
SST / (n − 1)
H0: βj = βj0
H1: βj ≠ βj0
58
Pruebas de hipótesis en la Regresión Lineal Multiple
β
ˆ −β
j j0 β
ˆ −β
j j0
T0 = =
σ 2C jj se(β
ˆ )
j
59
Pruebas de hipótesis en la Regresión Lineal Multiple
Ejemplo
Considere la resistencia al jalado de la unión del cable.
Se quiere probrar la hipótesis de que el coeficiente para x2 (altura
del dado) es cero. Las hipótesis son:
H0: β2 = 0
H1: β2 ≠ 0
60
Pruebas de hipótesis en la Regresión Lineal Multiple
Ejemplo
Puesto que t0,025;22 = 2,074, se rechaza H0: β2 = 0 y se concluye que la
variable x2 (altura del dado) contribuye significativamente al modelo.
61
Regresión Lineal Múltiple
Salida de Minitab
Regression Analysis: Strength versus :Length, Height
Analysis of Variance
Source DF SS MS F P
Regression 2 5990.8 2995.4 572.17 0.000
Residual Error 22 115.2 5.2 σ̂ 2
Total 24 6105.9
Source DF Seq SS
Length 1 5885.9
Height 1 104.9
62
Intervalos de confianza en la RLM
Intervalos de confianza para los coeficientes
de regresión.
Definición
Un intervalo de confianza del 100(1 - α)% para el
coeficiente de regresión βj, j = 0, 1, …, k en el
modelo de RLM está dado por:
βˆ j − tα/2, n − p σ
ˆ 2C jj ≤ β j ≤ βˆ j + tα/2, n − p σ
ˆ 2C jj (12-22)
63
Intervalos de confianza en la RLM
Ejemplo
Se construye un intervalo de confianza al 95% para el parámetro β1 del ejemplo
analizado. LA estimación puntual de β1 es βˆ 1 = 2.74427 y que el elemento de la
diagonal de (X′X)-1 que corresponde a β1 es C11 = 0.001671. La estimación de σ2
es σˆ 2 = 5.2352 , y t0.025,22 = 2.074. Entonces el 95% CI para β1 se calcula como
2,55029 ≤ β1 ≤ 2,93825
Analysis of Variance
Source DF SS MS F P
Regression 2 5990.8 2995.4 572.17 0.000
Residual Error 22 115.2 5.2 σ̂ 2
Total 24 6105.9
Source DF Seq SS
Length 1 5885.9
Height 1 104.9
65
Aspectos de la RLM
Modelos de Regresión Polinomiales
El modelo general Y = Xβ + ε es un modelo general que puede
emplearse para ajustar cualquier relación que sea lineal en los
parámetros desconocidos β. Esto incluya a la importante clase de
modelos de regresión polinomial. Por ejemplo, el polinomio en
segundo grado en una variable:
66
Aspectos de la RLM
Ejemplo
Los paneles de las paredes laterales del interior de un aeroplano
se forman en una prensa de 1500 toneladas. El costo de
fabricación de cada unidad cambia con el tamaño del lote de
producción. La tabla proporciona el costo promedio por unidad de
producción ($x100) para este producto (y) y el tamaño del lote de
producción (x). El gráfico indica que es adecuado usar un
polinomoio de segundo orden.
y 1 .8 1 1.70 1.65 1 .5 5 1.48 1.40
x 20 25 30 35 40 50
x 60 65 70 75 80 90
67
Aspectos de la RLM
68
Ejemplo
Y = β0 + β1x + β11x2 + ε
Fuente
Variación Suma Cuad. Grados de libertad Media Cuad. f0 P-value
Regresión 0.52516 2 0.26258 1762.28 2.12E-12
Error 0.00134 9 0.00015
Total 0.5265 11
70
Variables indicadoras
71
Ejemplo
Un ingeniero mecánico investiga el acabado superficial de
las piezas de metal producidas en un torno y la relación que
tiene el acabado con la velocidad (RPM) del torno. Los
datos aparecen en la siguiente tabla. Nótese que los datos
se han recopilado utilizando dos herramientas de corte
diferentes. Puesto que es probable que el tipo de
herramienta de corte tenga efecto en el acabado de la
superficie, se ajusta el modelo:
72
Ejemplo
73
Datos
74
La matriz X y el vector y
para este problema son los
siguientes:
75
Presupuesto Capacidad Puntos
Equipo (millones Euros) Estadio Jornada 26
Tarea Barcelona
Atlético Madrid
633
293
99787
67829
60
53
Real Madrid 567 85454 48
Getafe CF 39 17700 42
Alavés 39 19940 40
Sevilla 163 40500 37
Valencia 165 55000 36
Real Betis 97 60721 36
Real Sociedad 81 32076 35
Eibar 41 7400 34
Leganes 53 11454 33
Ath. Bilbao 88 53332 33
Espanyol 57 40423 33
Girona 37 9282 31
Levante 52 25354 30
Valladolid 24 26512 26
Celta Vigo 51 28700 25
Villarreal 109 24500 23
Rayo Vallecano 33 15500 23
Huesca 29 5500 22
Fuente presupuestos:
76
https://es.statista.com/estadisticas/498947/presupuesto-equipos-de-futbol-de-la-liga-en-espana/
Tarea
A. Genere un modelo de regresión lineal múltiple entre
presupuesto, capacidad del estadio y puntos obtenidos a la
jornada 26 (todos los modelos deben tener al menos,
Genere ANOVA, R2, pruebas de hipótesis e intervalos de
confianzas para los coeficientes, gráfico residuos)
B. Compare los resultados obtenidos en el punto A con su
tarea anterior.
C. Actualice sus resultados con la última jornada de la
temporada
D. Haga los modelos en función de la cantidad promedio de
puntos por partido para poder de comparar los resultados.
E. ¿Cuáles comentarios puede hacer respecto a los modelos
obtenidos, las variables utilizadas y el desempeño de los
diferentes equipos?
77