Clase4 - Regresion y Correlación

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 22

REGRESIÓN Y CORRELACIÓN

El análisis de regresión es útil para averiguar la forma probable de las


relaciones entre las variables, y el objetivo final, cuando se emplea este
método de análisis, es predecir o estimar el valor de una variable
respuesta que corresponde al valor dado de otra variable o de otras
variables causales.
El análisis se puede limitar a la exploración de la relación lineal o
cuadrática entre dos variables, o también se puede realizar el análisis
cuando se tienen tres o más variables. Las variables deben ser
cuantitativas.

Nota: Puede usarse regresión simple para casos como, solo una variable
independiente (X) y una dependiente (Y):

Y: Dependiente o respuesta X: Independiente o causal

Resistencia de una varilla fierro % de carbono

Rendimiento por parcela Dosis de humus

Elasticidad del cuero % de óxido de cromo

Resistencia papel Concentración madera en pulpa

Viscosidad del agua Temperatura (°C)

Desgaste de un metal viscosidad del aceite

1
Ejemplo 1.
Datos de Corrosión. Trece aleaciones del tipo 90/10 Cu-Ni, cada una con
un contenido específico de hierro son estudiadas bajo un proceso de
corrosión. Tras un período de 60 días se obtiene la pérdida de peso (en
miligramos al cuadrado por decímetro y día) de cada una de las aleaciones
debido al proceso de corrosión. El objetivo es estudiar el nivel de corrosión
en función del contenido de hierro. A continuación, se realiza la primera
inspección gráfica ( β1 < 0 hay relación lineal negativa).

Gráfico de dispersión de pérdida de peso vs contenido en hierro.

2
En la figura anterior se observa como al ir aumentando el contenido en
hierro de la aleación disminuye linealmente la pérdida de peso. El modelo
estadístico que propongamos deberá ser capaz de explicar dicho
comportamiento. Los puntos parecen haberse desprendido de una línea
recta con pendiente negativa.

Ejemplo 2.
Datos de Papel Queremos estudiar la relación existente entre la
concentración de madera contenida en la pulpa a partir de la que se
elabora papel (madera), y la resistencia (tensión, en términos de tensión
que soporta) del papel resultante. El objetivo del análisis es describir la
tendencia observada. A continuación, se realiza la primera inspección
gráfica. Los puntos parecen haberse desprendido de una línea cuadrática o
de una curva.

Gráfico de dispersión de resistencia del papel vs concentración de madera.

3
1.REGRESIÓN LINEAL SIMPLE
El análisis de regresión lineal simple se limita a la exploración de la relación
lineal de las dos variables X, Y, donde X es la variable que se supone es la
independiente o causal o predictora o explicativa, junto a la variable Y que
se supone es la variable dependiente o respuesta.
La regresión lineal puede escribirse como una línea recta con parámetros
β0, β1
yi= β0 + β1xi + ei  yi= a + bxi + ei

yi representa el valor de la variable respuesta para la observación i-ésima


β0: intercepto
β1: Pendiente.
xi representa el valor de la variable explicativa para la observación i-ésima.
ei representa el error para la observación i-´esima que se asume normal,
ei ∼ N(0, σ)
Si β1 > 0 hay relación lineal positiva; Si β1 < 0 hay relación lineal negativa.

A partir de un conjunto de datos muestrales pareados con las dos variables


se puede representar la relación entre las dos variables a través de una
recta de estimación. Los estimadores de β0 y β1, los podemos denotar
como bo y b1 respectivamente. Modelo de estimación:
¿ ¿
Y = bo + b1x  Y = a + b x

4
Los estimadores valores bo y b1 se calculan fácilmente al resolver el sistema
de dos ecuaciones de mínimos cuadrados; Las ecuaciones:
n n
∑Yi ∑ Xi
i=1 = n bo + b1 i=1
n n n
∑YiX ∑ Xi ∑
i=1 i = bo i=1 + b1 i=1 Xi2
Nota: También puede resolverse de manera matricial
^ X ' X )−1 X ' Y
β=( Donde :

β^ ' : (bo , b1) ;Vector de coeficientes


X': matriz conformado por p = 2 vectores (X0 , X1)
X '0 :1, 1, 1, ... , 1

X '1 : X , X , X , … X
11 12 13 1n

Y' : Vector datos de variable respuesta

Para evaluar la bondad de ajuste, es decir para evaluar si el modelo es


adecuado se puede usar el llamado coeficiente de determinación R 2, que
debe superar para algunos el 70% (80%) para que se considere adecuado.

Ejemplo:
Trece aleaciones del tipo 90/10 Cu-Ni, cada una con un contenido
específico de hierro son estudiadas bajo un proceso de corrosión. Tras un
período de 60 días se obtiene la pérdida de peso (en miligramos al
cuadrado por decímetro y día) de cada una de las aleaciones debido al
proceso de corrosión. El objetivo es estudiar el nivel de corrosión en
función del contenido de hierro. A continuación, se presenta el banco de

5
datos y se realiza la primera inspección gráfica (β1 < 0 hay relación lineal
negativa).
Cantidad 0.01 0.48 0.71 0.95 1.19 0.01 0.48 1.44 0.71 1.96 0.01 1.44 1.96
hierro: X
Pérdida 127.6 124 110.8 103.9 101.5 130.1 122 92.3 113.1 83.7 128 91.4 86.2
peso:Y

A partir de estas trece parejas de datos se puede representar en una nube


de puntos o diagrama de dispersión la relación entre el contenido de hierro
y la pérdida peso de las aleaciones;

Se aprecia una tendencia lineal, como si los puntos se hubieran


desprendido de una línea recta; Se puede hacer la estimación de
parámetros de la recta de regresión.

Para este caso:

6
n n
∑Yi ∑ Xi
i=1 = 1414.6 i=1 = 11.35 n= 13
n n
∑YiX ∑
i=1 i= 1097.928 i=1 Xi2= 15.6183
1414.6 = 13 bo + 11.35 b1
1097.928 = 4263 bo + 15.6183 b1

Al resolver el sistema encontramos que bo = 129.7866 b1= -24.0199

¿
La ecuación de la línea recta : y = 129.7866 – 24.0199x

El coeficiente de determinación R2 que evalúa la eficiencia del modelo, es


decir la eficiencia de la ecuación de regresión, es del 97.0%, que puede
indicar que el modelo tiende a ser satisfactorio (muchos autores toman

7
como referencia un valor mínimo del 80%). Muchas calculadoras pueden
obtener estos resultados.

En este modelo de regresión es muy importante la lectura del b 1 (pendiente


de la recta). El b1 es el incremento Y por el incremento de cada unidad de
X; en este caso b1= -24.0199 indica que, según este modelo al aumentar el
contenido de hierro en 1 unidad, existe una menor pérdida de peso de
24.0199 gramos es decir la pérdida de peso disminuye en 24.0199 mg al
cuadrado por decímetro al día.

Este modelo es útil en la predicción de la pérdida de peso de dichas


aleaciones Y para un determinado porcentaje de hierro; para una aleación
con un contenido de 0.60 de hierro(x=0.60) se espera una pérdida de peso
“y” de:

¿
y = 129.7866 – 24.0199(0.60) = 115.3747 mg.

2.REGRESIÓN LINEAL MÚLTIPLE


Frecuentemente una sola variable predictora no es suficiente para explicar
el comportamiento de la variable de respuesta. Por ejemplo, para explicar
el peso de un toro adulto de cuatro años(Y), puede estar influenciado por el
peso del padre (X1), por el peso de la madre(X2), por la cantidad de cierta
vitamina administrada (X3), y por la cantidad de alimento consumido en su
crianza (X4).
La idea en regresión lineal múltiple es usar más de una variable predictora
para explicar el comportamiento de la variable de respuesta.

8
El modelo de regresión lineal múltiple con p variables predictoras X1,…Xp,
es de la siguiente forma:
¿
Y = b0 + b1X1 + b2X2 +. . . +bpXp
Los valores bo , b1, b2 , … bp se calculan al resolver el sistema de p+1
ecuaciones de mínimos cuadrados;
^ −1
También se obtienen por el método matricial con β=( X ' X ) X ' Y
Existen programas de cómputo para encontrar los bi como por ejemplo el
SPSS-26.
Ejemplo.- Las mediciones que se presentan en la tabla siguiente se
hicieron en 11 trabajadores. El investigador que reunió los datos deseaba
saber la naturaleza e intensidad de la relación entre las tres variables.
Trabajador Puntaje Puntaje en Rendimiento
capacitación(X1) estrés(X2) laboral(Y)

1 108,00 71,00 162,20


2 111,00 70,00 158,00
3 115,00 65,00 157,00
4 116,00 66,50 155,00
5 123,00 58,00 176,00
6 120,00 60,10 174,10
7 124,00 58,00 169,10
8 127,00 61,00 181,00
9 122,00 59,40 174,90
10 121,00 56,10 180,20
11 125,00 61,20 174,00

a) Encuentre la ecuación de regresión lineal múltiple de Y sobre las variables X 1


y X 2.
b) Si X1=125 puntaje en capacitación y X2 = 70, puntaje en estrés
Estime el rendimiento laboral Y.

9
Solución:
a) El modelo
Y : Rendimiento laboral
X1 : Puntaje en capacitación
X2 : Puntaje en estrés.

0 = 160.60
1 = 0.566
2 = -0.945 R2=0.68

La ecuación o modelo queda de la siguiente forma


Y=160.60 + 0.566X1 - 0.945 X2
b) Estimación para un trabajador con X1=125 puntos en capacitación y
X2=70 puntos en estrés.
Y =160.60 +0.566(125) -0.945(70) =165

Regresión cuadrática simple.


El modelo de regresión cuadrática simple, para dos variables (polinómica de
orden 2), es una alternativa cuando el modelo lineal no logra un coeficiente de
determinación apropiado, o cuando el fenómeno en estudio tiene un
comportamiento que puede considerarse como parabólico. La forma más
simple de tratar de establecer la tendencia es a través de un diagrama de
dispersión o nube de puntos.

10
Los modelos parabólicos permiten encontrar el valor de la variable
independiente x que puede optimizar la variable respuesta o rendimiento y,
derivando al modelo respecto a “x” e igualándolo a cero.

Un modelo parabólico simple puede escribirse como


¿
Y = b0 + b1X + b2X2
Los estimadores valores bo, b1, b2 se calculan al resolver el sistema de tres
ecuaciones de mínimos cuadrados; Las ecuaciones:
n n n
∑Yi ∑ Xi ∑
i=1 = n bo + b1 i=1 + b2 i=1 Xi2
n n n n
∑Yi Xi = b ∑ Xi ∑ ∑
i=1 o i=1 + b1 i=1 Xi2 + b2 i=1 Xi3
n n n n
∑Yi ∑ ∑ ∑
i=1 xi2= bo i=1 Xi2 + b1 i=1 Xi3 + b2 i=1 Xi4

11
Porcentaje de óxido de Elasticidad
cromo(X) (Y)
12 62
16 65
20 74
25 75
30 73
31 78
42 79
42 82
45 76
50 75
52 68
55 66

12
Al resolver el sistema de ecuaciones para este modelo se obtiene:
¿ ¿
Y = b0 + b1X + b2X  Y = 37.977 + 2.305X – 0.0323X2
2

Para encontrar el porcentaje de óxido de cromo que optimiza la elasticidad,


se deriva la ecuación obtenida y se iguala a cero:
¿
d(Y )/d(x)= 2.3050-2(0.0323) x = 0 x= 35.7%

13
Ejemplo 1
Suponga que se tiene información del colesterol de la carne de gallina(Y),
el peso de la gallina en gramos (X1), la edad de la gallina en semanas(X2) y
cantidad de compuesto químico agregado al alimento promedio semanal
consumido en gramos(X3). Los datos se dan a continuación:
Gallina i Yi:Colesterol X1i:peso X2i:edad X3i:compuesto
1 125 3240 30 120
2 132 3300 33 132
3 130 3320 32 125
4 137 3380 35 136
5 142 3600 40 150
6 125 3180 29 110
7 138 3500 39 145
8 150 3720 43 152
9 140 3600 42 140
10 120 3250 28 122

Escribiendo los vectores:


Matriz X' con los vectores transpuestos
Vector:1 1 1 1 1 1 1 1 1 1 1

Vector:x1 3240 3300 3320 3380 3600 3180 3500 3720 3600 3250
Vector:X2 30 33 32 35 40 29 39 43 42 28

Vector:X3 120 132 125 136 150 110 145 152 140 122

Vector:Y' 125 132 130 137 142 125 138 150 140 120

Al ajustarse a un modelo lineal múltiple y resolver las cuatro ecuaciones


normales por mínimos cuadrados; o por la forma matricial se obtiene:
bo= 74.058 , b1= -0.002 , b2= 1.295 b3= 0.147 de donde el modelo:
¿
Y = 74.058 – 0.002X1 + 1.295X2 + 0.147X3 R2= 0.924

14
Así por ejemplo para estimar el colesterol de una gallina cuyo peso es de
X1=4000g, una edad de X2=45 semanas, y un consumo de compuesto
químico promedio semanal de alimento de X3=160g, se tiene:
¿
Y = 74.058 – 0.002(4000) + 1.295(45) + 0.147(160) = 148
Cada bi representa el incremento del colesterol por cada unidad de
incremento del respectivo X cuando las otras variables permanecen
invariables; Para b2=1.295 (respecto a la edad) se interpreta que el
colesterol se incrementa en 1.295 puntos por el aumento de edad de 1
semana de la gallina, cuando las otras variables permanecen constantes.

CORRELACION

La correlación es la asociación o relación entre dos variables pareadas, la


variable “x”, y la variable “y”; que se supone tienen algo en común.
Ejemplo:
- Tiene sentido establecer una correlación entre peso de basura
desechada y tamaño de la familia.
- Tiene sentido establecer una correlación entre los ingresos personales y
los años de escolaridad.
. Tiene sentido establecer una correlación entre el puntaje en estrés y
rendimiento laboral.
- No tiene sentido buscar una correlación entre talla y rendimiento
académico en alumnos; Puede obtenerse una correlación espuria.

Para medir el grado de asociación generalmente se usa el coeficiente de


correlación lineal de Pearson.

15
El coeficiente de correlación poblacional se denomina ρ xy (  )
generalmente desconocido.

El coeficiente de correlación muestral se denomina r xy (r).


Características del coeficiente:
- Es un número absoluto (no tiene unidad de medida)

- El rango de variación es de -1  r  1.

- Si r =  1 la relación es perfecta.

- Si r = 0 no existe correlación.

- Cuando las dos variables varían en el mismo sentido el coeficiente es

positivo y cuando varían en sentido contrario el coeficiente es negativo.

Si  r xy   0,80 se asume una correlación fuerte.

Si 0,50   r xy  < 0,80 se asume una correlación moderada

Si 0,20   r xy  < 0,50 se asume una correlación débil

Si 0 <  r xy   0,20 se asume una correlación muy débil o

insignificante.

16
Para obtener el coeficiente de correlación muestral puede usarse la
siguiente fórmula (Pearson):
n ∑ xy - ∑x∑ y
r =
√(n ∑ x 2
-
2 2
( ∑ x ) )(n ∑ y 2 - ( ∑ y ) )

Para tener una idea de la correlación se puede construir un diagrama de

dispersión o nube de puntos.

Correlación positiva:

En este diagrama se distingue que al aumentar x existe la tendencia a

aumentar la variable respuesta y; la correlación debe ser positiva (r > 0).

17
Correlación negativa:

En este diagrama se aprecia que al aumentar x existe la tendencia a

disminuir la variable respuesta y; la correlación debe ser negativa (r < 0).

18
Correlación nula:

En este diagrama se aprecia que al aumentar x no existe la tendencia a

aumentar o disminuir la variable respuesta y; la correlación debe ser

nula o cerca a cero (r≅ 0)

Cuando r > 0  b1 > 0

Cuando r < 0  b1 < 0

Cuando r  0  b1  0

19
Ejemplo

La preocupación por el calentamiento global ha conducido a la realización

de estudios de la relación entre la temperatura global y la concentración de

dióxido de carbono (CO2). A continuación, se presentan las

concentraciones (en partes por millón) de CO2 y las temperaturas (en °C)

para diferentes años (n=10).

X = CO2 314 317 320 326 331 339 346 354 361 369

Y = °C 13. 14.0 13.9 14.1 14.0 14.3 14.1 14.5 14.5 14.4

La gráfica de dispersión indica una correlación positiva: r>0

El coeficiente de correlación lineal:

20
n ∑ xy - ∑x∑ y
r =
√(n ∑ x 2
-
2 2
( ∑ x ) )(n ∑ y 2 - ( ∑ y ) )

∑ x 2 = 1 143 757 ∑ x = 3 377 n=10

∑ y 2 = 2 008.39 ∑ y = 141.7 ∑ xy = 47 888.6

10(47888 . 6)−(3377 )(141.7 )


r = =0. 892
√(10(1143757 )−(3377 )) (10(2008 .39)−(141 .7))
2 2

r = 0.892; la relación es positiva y fuerte.

21
22

También podría gustarte