05 Regresion 04 +++04 ++++
05 Regresion 04 +++04 ++++
05 Regresion 04 +++04 ++++
TEMA 05
AJUSTES DE REGRESION
Y CORRELACION
septiembre, 2021
Cochabamba - Bolivia
M. Sc. Ing. Omar Montaño Guevara
• Análisis de regresión
El análisis de regresión consiste en la búsqueda de
una función que exprese la forma en que se
relaciona una variable dependiente (Y) con una o
más variables independientes (X)
• Nos ocuparemos sólo del caso de regresión lineal
simple: una variable dependiente y otra independiente.
• Se supone que la relación entre las variables es
aproximadamente lineal (una recta). Una forma visual
de comprobar si es o no lineal la trayectoria de la
relación entre las variables es mediante el denominado
diagrama de dispersión o nube de puntos.
100 7 7,00
110 5
6,00
130 4
140 3
mortalidad
5,00
140 2
150 2
4,00
casi lineal
2,00
Y a bX
Variable dependiente
Ordenada
en el origen Pendiente Variable independiente
( yi a bxi )2 n i Y
i 7,00
Y=a+bX
Para obtener el mínimo de S se
deriva la ecuación anterior respecto 6,00
mortalidad
5,00
generado viene dado por:
di=yi-y’i
yini a ni b xi ni
4,00
i i i
y’i
x y n i ii a xi ni b x 2i n i 3,00
i i i
2,00
renta X
x y n i i i
i
XY
b N 2
Cov(X ,Y )
xi n i Var( X ) a Y bX
Nota: El estadístico Cov(X,Y) se
i
X2 denomina covarianza de X e Y.
N
M. Sc. Ing. Omar Montaño Guevara
• Recta de regresión de X sobre Y.
• La recta de regresión X/Y presenta la forma:
X a'b'Y
Variable dependiente
Ordenada
en el origen Pendiente Variable independiente
mortalidad
5,00
generado viene dado por:
x n a' n b' y n
4,00
i i i i i
i i i
i i i
2,00
x’i X
x i yini
i
XY Nota: Observa que el procedimientos es
b' N 2
Cov(X ,Y )
yi n i Var(Y ) a' X b'Y el mismo salvo que se cambian los papeles
i
Y 2 de X por Y. Las distancias ahora son
N horizontales (paralelas al eje X).
M. Sc. Ing. Omar Montaño Guevara
Tema 2
• Las rectas de regresión de Y sobre X y de X
sobre Y se cortan en el punto medio de las
variables. Cuando el ajuste es perfecto, las dos
rectas coinciden
Renta y mortalidad infantil en 6 países
X a'b'Y
7,00
Y a bX
mortalidad
6,00
5,00
o (X ,Y )
4,00
3,00
2,00
100 7 x y n i i i
i XY
Cov( X ,Y ) a Y bX
110 5 b N 2
130 4
xi in Var( X )
i
X2
140 3 N
140 2 Para determinar a y b necesitamos los cálculos que expresamos por comodidad
en las columnas de la tabla siguiente:
150 2
x n i i
770 yn i i
X i
128,333 Y i
23
3,833
Mortalidad N 6 N 6
Renta(X) (Y) XY X^2
x n 2
i i
100700
100 7 700 10000 V(X ) i
X 2
128,3332 313,889
N 6
x yn
110 5 550 12100
ii i
130 4 520 16900 2770
Cov( X ,Y ) i
XY 128,3333.833 30,278
140 3 420 19600 N 6
140 2 280 19600 Cov( X ,Y ) 30,278
b 0,096
150 2 300 22500 Var( X ) 313,889
770 23 2770 100700
Y 16,212 0,096X
Obtenga la recta de regresión de X sobre Y: X a'b'Y
Renta(X)
Mortalida
d(Y) XY Y^2
x y n
i i i
i
XY
100 7 700 49 b' N 2
Cov( X ,Y )
a' X b'Y
110 5 550 25 i yi ni 2 Var(Y)
130 4 520 16 Y
N
140 3 420 9
140 2 280 4
150 2 300 4 y n 2
i i
107
V (Y) i
Y 2
3,8332 3,139
770 23 2770 107 N 6
Cov( X ,Y ) 30,278
b' 9,646 a' X b'Y 128,333 (9,646 3,8333) 165,310
Var(Y ) 3,139
X 165,310 9,646Y
M. Sc. Ing. Omar Montaño Guevara
Tema 2
• Coeficiente de correlación lineal de Pearson.
• Un coeficiente muy usado para medir el grado de relación lineal entre las
variables X e Y es el debido a Pearson, que notamos con r
• Se define como el cociente entre la covarianza y el producto de las
desviaciones típicas de las variables
• Al coeficiente r al cuadrado se denomina coeficiente de determinación y
expresa la proporción de variación de la variable dependiente que es
explicada por la independiente.
• También se usa como medida de bondad de ajuste. Una propiedad
interesante del coeficiente de correlación lineal de Pearson es que está
comprendido entre los valores -1 y 1. El valor 0 indica ausencia de
correlación lineal. Los valores -1 y 1 indican correlación lineal perfecta
(todos los puntos están sobre las rectas de regresión), el negativo indican
que cuando una variable crece (disminuye) la otra decrece (aumenta) y el
positivo indica que cuando una aumenta (disminuye) la otra también aumenta
(disminuye).
• Se dice que la correlación es más débil cuanto más se aproxima a cero. Y
más fuerte cuanto más se aproxima a los extremos -1 ó 1.
Cov2 ( X ,Y ) (30,278)2
r 2 0,930
V ( X ) V (Y ) 313,8893,139
r 0,930 0,965
Cov2 ( X ,Y ) (30,278)2
r 2 0,930
V ( X ) V (Y ) 313,8893,139
r 0,930 0,965
Cov ( X ,Y)
r
TEST
X Y
Edad 120 125 130
5 10 8 2 20
Cov2 (X ,Y )
6 7 8 6 21 r
2
7 2 10 13 25
V (X ) V (Y)
8 1 4 20 25
Test a b 10
20 30 41 91
Vamos a expresar la tabla en un formato más cómodo para realizar los cálculos:
3 columnas
Nota: Observa que en el ejemplo
Edad Test Frecuencias que vimos anteriormente se omitió
la columna frecuencias por valer 1
frecuencias
Edad=X Test=Y =n Xn Yn XYn X^2n Y^2n
5 120 10 50 1200 6000 250 144000
6 120 7 42 840 5040 252 100800
7 120 2 14 240 1680 98 28800
8 120 1 8 120 960 64 14400
5 125 8 40 1000 5000 200 125000
6 125 8 48 1000 6000 288 125000
7 125 10 70 1250 8750 490 156250
8 125 4 32 500 4000 256 62500
5 130 2 10 260 1300 50 33800
6 130 6 36 780 4680 216 101400
7 130 13 91 1690 11830 637 219700
8 130 20 160 2600 20800 1280 338000
Test a bEdad Y a bX
601 11480
X 6,6044; Y 126,1538
91 91
76040
Cov( X ,Y ) 6,6044 126,1538 2,4345
91
4081
V (X ) 6,60442 1,2281 V (Y )
1449650
126,15382 15,4269
91 91
b
2,4345
1,9823 Test a bEdad Y a bX
1,2281
Test 113,061,98Edad
a 126,1538 1,9823 6,6044 113,0619