05 Regresion 04 +++04 ++++

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 16

“CIENCIAS BASICAS”

TEMA 05
AJUSTES DE REGRESION
Y CORRELACION

M. Sc. Ing. Omar Montaño Guevara

septiembre, 2021
Cochabamba - Bolivia
M. Sc. Ing. Omar Montaño Guevara
• Análisis de regresión
El análisis de regresión consiste en la búsqueda de
una función que exprese la forma en que se
relaciona una variable dependiente (Y) con una o
más variables independientes (X)
• Nos ocuparemos sólo del caso de regresión lineal
simple: una variable dependiente y otra independiente.
• Se supone que la relación entre las variables es
aproximadamente lineal (una recta). Una forma visual
de comprobar si es o no lineal la trayectoria de la
relación entre las variables es mediante el denominado
diagrama de dispersión o nube de puntos.

M. Sc. Ing. Omar Montaño Guevara


• Gráfico de dispersión o Nube de puntos.
– Es la representación gráfica en el plano del conjunto
de puntos (xi, yi) que constituyen los valores
bidimensionales de la variable bidimensional (X, Y).
Renta y mortalidad infantil en 6 países
Renta Mortalidad

100 7 7,00

110 5
6,00
130 4

140 3
mortalidad

5,00
140 2

150 2
4,00

Se observa una trayectoria 3,00

casi lineal
2,00

100,00 110,00 120,00 130,00 140,00 150,00


renta

M. Sc. Ing. Omar Montaño Guevara


• Recta de regresión de Y sobre X.
• La recta de regresión Y/X presenta la forma:

Y  a  bX
Variable dependiente

Ordenada
en el origen Pendiente Variable independiente

El objetivo es encontrar los valores a y b que definen la recta que se encuentra


a la mínima distancia de los puntos de la nube.
El procedimiento que permite encontrar dicha recta se denomina de mínimos
cuadrados

M. Sc. Ing. Omar Montaño Guevara


• Recta de regresión de Y sobre X: Y/X: Y=a+bX
S   d i2 ni   ( yi  y' i)2 n i 
i i
Renta y mortalidad infantil en 6 países

  ( yi  a  bxi )2 n i Y
i 7,00

Y=a+bX
Para obtener el mínimo de S se
deriva la ecuación anterior respecto 6,00

de a y b. El sistema de ecuaciones yi (xi, yi)


o

mortalidad
5,00
generado viene dado por:
di=yi-y’i

 yini  a ni  b xi ni
4,00

i i i
y’i

x y n i ii  a  xi ni  b  x 2i n i 3,00

i i i

2,00

Y la solución a y b es: 100,00 110,00 120,00


xi130,00 140,00 150,00

renta X
x y n i i i
i
 XY
b N  2
Cov(X ,Y )
 xi n i Var( X ) a  Y  bX
Nota: El estadístico Cov(X,Y) se
i
 X2 denomina covarianza de X e Y.
N
M. Sc. Ing. Omar Montaño Guevara
• Recta de regresión de X sobre Y.
• La recta de regresión X/Y presenta la forma:

X  a'b'Y
Variable dependiente

Ordenada
en el origen Pendiente Variable independiente

El objetivo es encontrar los valores a’ y b’ que definen la recta que se encuentra


a la mínima distancia de los puntos de la nube.
El procedimiento que permite encontrar dicha recta se denomina de mínimos
cuadrados

M. Sc. Ing. Omar Montaño Guevara


• Recta de regresión de X sobre Y: X/Y: X=a’+b’Y
S   d i2 ni   (x i  x' i) n2 i
i i
Renta y mortalidad infantil en 6 países

  (xi  a' b' yi ) 2 n i Y


i 7,00
X=a’+b’Y
Para obtener el mínimo de S se di=xi-x’i
deriva la ecuación anterior respecto 6,00

de a’ y b’. El sistema de ecuaciones (xi, yi)


o

mortalidad
5,00
generado viene dado por:

 x n  a'  n  b'  y n
4,00
i i i i i
i i i

x y n i i i  a'  yi ni  b'  y 2i n i 3,00

i i i

2,00

Y la solución a’ y b’ es: 100,00 110,00 120,00


x
renta i
130,00 140,00 150,00

x’i X
 x i yini
i
 XY Nota: Observa que el procedimientos es
b' N  2
Cov(X ,Y )
 yi n i Var(Y ) a'  X b'Y el mismo salvo que se cambian los papeles
i
Y 2 de X por Y. Las distancias ahora son
N horizontales (paralelas al eje X).
M. Sc. Ing. Omar Montaño Guevara
Tema 2
• Las rectas de regresión de Y sobre X y de X
sobre Y se cortan en el punto medio de las
variables. Cuando el ajuste es perfecto, las dos
rectas coinciden
Renta y mortalidad infantil en 6 países

X  a'b'Y
7,00

Y  a  bX
mortalidad
6,00

5,00

o (X ,Y )
4,00

3,00

2,00

100,00 110,00 120,00 130,00 140,00 150,00

M. Sc. Ing. Omar Montaño Guevara renta


Tema 2
• Ejemplo:
– Obtenga las rectas de regresión de Y sobre X y de X sobre Y.
– Y=Mortalidad infantil, X=Renta per cápita Y  a  bX X a'b'Y
Recta de regresión de Y sobre X: Y  a  bX
Renta Mortalidad

100 7 x y n i i i
i  XY
Cov( X ,Y ) a  Y  bX
110 5 b N  2
130 4
 xi in Var( X )
i
 X2
140 3 N

140 2 Para determinar a y b necesitamos los cálculos que expresamos por comodidad
en las columnas de la tabla siguiente:
150 2
x n i i
770 yn i i
X i
 128,333 Y  i

23
 3,833
Mortalidad N 6 N 6
Renta(X) (Y) XY X^2
x n 2
i i
100700
100 7 700 10000 V(X )  i
X 2
 128,3332 313,889
N 6
 x yn
110 5 550 12100
ii i
130 4 520 16900 2770
Cov( X ,Y )  i
 XY  128,3333.833  30,278
140 3 420 19600 N 6
140 2 280 19600 Cov( X ,Y )  30,278
b   0,096
150 2 300 22500 Var( X ) 313,889
770 23 2770 100700

a  Y  bX  3,833  (0,096 128,333)  16,212


M. Sc. Ing. Omar Montaño Guevara
Tema 2
• Ejemplo (continúa):
– La ecuación de la recta de regresión de Y sobre X es:

Y  16,212  0,096X
Obtenga la recta de regresión de X sobre Y: X a'b'Y

Renta(X)
Mortalida
d(Y) XY Y^2
x y n
i i i
i
 XY
100 7 700 49 b' N 2
Cov( X ,Y )
a'  X b'Y
110 5 550 25 i yi ni 2 Var(Y)
130 4 520 16 Y
N
140 3 420 9
140 2 280 4
150 2 300 4 y n 2
i i
107
V (Y)  i
Y 2
  3,8332  3,139
770 23 2770 107 N 6

Cov( X ,Y )  30,278
b'    9,646 a'  X  b'Y  128,333  (9,646 3,8333)  165,310
Var(Y ) 3,139

X  165,310  9,646Y
M. Sc. Ing. Omar Montaño Guevara
Tema 2
• Coeficiente de correlación lineal de Pearson.
• Un coeficiente muy usado para medir el grado de relación lineal entre las
variables X e Y es el debido a Pearson, que notamos con r
• Se define como el cociente entre la covarianza y el producto de las
desviaciones típicas de las variables
• Al coeficiente r al cuadrado se denomina coeficiente de determinación y
expresa la proporción de variación de la variable dependiente que es
explicada por la independiente.
• También se usa como medida de bondad de ajuste. Una propiedad
interesante del coeficiente de correlación lineal de Pearson es que está
comprendido entre los valores -1 y 1. El valor 0 indica ausencia de
correlación lineal. Los valores -1 y 1 indican correlación lineal perfecta
(todos los puntos están sobre las rectas de regresión), el negativo indican
que cuando una variable crece (disminuye) la otra decrece (aumenta) y el
positivo indica que cuando una aumenta (disminuye) la otra también aumenta
(disminuye).
• Se dice que la correlación es más débil cuanto más se aproxima a cero. Y
más fuerte cuanto más se aproxima a los extremos -1 ó 1.

Cov( X ,Y ) Cov 2( X ,Y ) Cov(X ,Y ) Cov(X ,Y )


r 1  r  1 r 
2
   b b'
  y Guevara
M. Sc. Ing. Omar xMontaño V (X ) V (Y ) V (X ) V(Y )
Tema 2
• Ejemplo: Con los datos del ejemplo anterior determina el coeficiente de
correlación lineal de Pearson y Coeficiente de determinación. Interpretación.

Cov2 ( X ,Y ) (30,278)2
r 2   0,930
V ( X ) V (Y ) 313,8893,139

El 93% de la variabilidad de la variable dependiente es explicada por la independiente

r   0,930  0,965

El coeficiente de correlación lineal de Pearson presenta un valor negativo y próximo


a -1 (-0,965), por tanto, las variables están relacionadas linealmente con fuerte grado
de relación positiva. Es decir, cuanto mayor es la renta menor es la mortalidad.

Observa que el signo de la correlación es el signo de la covarianza

M. Sc. Ing. Omar Montaño Guevara


Tema 2
• Ejemplo: Con los datos del ejemplo anterior determina el coeficiente de
correlación lineal de Pearson y Coeficiente de determinación. Interpretación.

Cov2 ( X ,Y ) (30,278)2
r 2   0,930
V ( X ) V (Y ) 313,8893,139

El 93% de la variabilidad de la variable dependiente es explicada por la independiente

r   0,930  0,965

El coeficiente de correlación lineal de Pearson presenta un valor negativo y próximo


a -1 (-0,965), por tanto, las variables están relacionadas linealmente con fuerte grado
de relación negativa. Es decir, cuanto mayor es la renta menor es la mortalidad.

Observa que el signo de la correlación es el signo de la covarianza

M. Sc. Ing. Omar Montaño Guevara


Tema 2
• Ejemplo: Con los datos del ejemplo anterior determina la recta de regresión
de Test sobre Edad, el coeficiente de correlación lineal de Pearson y
Coeficiente de determinación. Interpretación. Determina el valor esperado o
ajustado para el test para un niño de 10 años.
Test  a  bEdad

Cov ( X ,Y)
r 
TEST

 X Y
Edad 120 125 130
5 10 8 2 20
Cov2 (X ,Y )
6 7 8 6 21 r 
2

7 2 10 13 25
V (X ) V (Y)
8 1 4 20 25
Test  a  b 10
20 30 41 91

Vamos a expresar la tabla en un formato más cómodo para realizar los cálculos:
3 columnas
Nota: Observa que en el ejemplo
Edad Test Frecuencias que vimos anteriormente se omitió
la columna frecuencias por valer 1

M. Sc. Ing. Omar Montaño Guevara


Tema 2
• Ejemplo (continuación): La tabla siguiente recoge los cálculos necesarios

frecuencias
Edad=X Test=Y =n Xn Yn XYn X^2n Y^2n
5 120 10 50 1200 6000 250 144000
6 120 7 42 840 5040 252 100800
7 120 2 14 240 1680 98 28800
8 120 1 8 120 960 64 14400
5 125 8 40 1000 5000 200 125000
6 125 8 48 1000 6000 288 125000
7 125 10 70 1250 8750 490 156250
8 125 4 32 500 4000 256 62500
5 130 2 10 260 1300 50 33800
6 130 6 36 780 4680 216 101400
7 130 13 91 1690 11830 637 219700
8 130 20 160 2600 20800 1280 338000

601 11480 76040 4081 1449650

Test  a  bEdad  Y  a  bX

M. Sc. Ing. Omar Montaño Guevara


Tema 2
• Ejemplo (continuación):

601 11480
X  6,6044; Y  126,1538
91 91

76040
Cov( X ,Y )   6,6044 126,1538  2,4345
91

4081
V (X )   6,60442  1,2281 V (Y ) 
1449650
126,15382  15,4269
91 91

b
2,4345
 1,9823 Test  a  bEdad  Y  a  bX
1,2281
Test  113,061,98Edad
a  126,1538 1,9823 6,6044  113,0619

Cov 2( X ,Y) 2,4345 2


Test 113,06 1,98Edad r 
2
  0,3128
V (x) V (Y ) 1,228115,4269
132,86  113,06 1,9810 r  0,5593
M. Sc. Ing. Omar Montaño Guevara

También podría gustarte