Regresión Lineal.2900

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 14

REGRESIN LINEAL

Gabriel Jaime Posada Hernndez


Docente

Departamento de Ciencias Bsicas


VICERRECTORA DE INVESTIGACIONES
FUNDACIN UNIVERSITARIA LUIS AMIG

Medelln, 2013

REGRESIN LINEAL Y CORRELACIN


En las unidades anteriores se ha centrado la atencin en el tratamiento de los
valores que puede tomar una variable definida en una investigacin, tanto en el
nivel de muestra como en el de poblacin. Sin embargo, frecuentemente las
investigaciones implican considerar dos o ms variables. Los procedimientos para
el anlisis de la relacin de dos variables sern contemplados en esta unidad.

1. REGRESIN LINEAL SIMPLE

La regresin es un mtodo para determinar la relacin existente entre una variable


independiente y otra dependiente, con fines de prediccin de esta ltima variable
ante los cambios de la primera.

La variable independiente o predictora suele representarse por X y la variable


dependiente por Y. En algunos casos, la variable independiente se asocia con
medidas de causa y la dependiente con medidas de efecto.

En la produccin industrial pueden ser variables independientes: el nmero de


trabajadores, el tiempo de labor semanal, la cantidad de materia prima, entre
otras. Y variables dependientes: el nmero de artculos producidos, los ingresos
semanales, el posicionamiento en el mercado, etc. Obsrvese que las variables
dependientes se muestran como efecto de las variables independientes o
causa del proceso de produccin.

Por ejemplo, una compaa de bienes races residenciales en una ciudad desea
predecir los costos mensuales del alquiler de apartamentos, basado en el rea en
metros cuadrados. Se seleccion una muestra aleatoria con los siguientes datos:

Tabla 1. rea y costo de alquiler de apartamentos


APARTAMENTO REA (m2) COSTO MENSUAL (miles de pesos)
1 79 475

2
2 135 800
3 101 600
4 114 750
5 67 475
6 138 850
7 106 825
8 67 467
9 65 437
10 89 575
11 102 700
12 119 825
13 184 1150
14 127 900
15 109 700
16 114 725
17 116 550
18 117 850
19 107 600
20 83 575
21 126 800
22 97 825
23 70 600
24 93 400
25 111 875
Fuente: Adaptacin del texto Estadstica para administracin. Berenson y otros, pg. 466.

En este caso, se busca relacionar las variables rea y costo mensual; donde la
variable independiente (X) es el rea, y la dependiente (Y), el costo mensual.

1.1. Diagrama de dispersin

Cuando se toma una muestra de dos variables o bivariada, se obtiene una serie
de pares de datos. Estas parejas son de la forma (x,y) y se pueden representar
como puntos en un plano bidimensional o plano cartesiano; la representacin
grfica de las parejas se conoce como diagrama de dispersin.

La regresin lineal pretende encontrar una recta que represente todos los puntos
que se encuentran en el plano cartesiano.

3
En la grfica 1 se ilustran algunos diagramas de dispersin.

Grfica 1. Representacin de algunos diagramas de dispersin

Para el ejemplo de la tabla 1, el diagrama de dispersin se presenta en la grfica


2.

Grfica 2. Diagrama de dispersin para el rea y costo de alquiler de


apartamentos

4
El diagrama de dispersin muestra una relacin lineal positiva; es decir, a medida
que crece el rea aumenta el valor del alquiler del apartamento. Adicionalmente,
no se observa ningn valor atpico.

1.2. Ajuste de una recta por el mtodo de mnimos cuadrados

Sobre el diagrama de dispersin se puede trazar un sinnmero de lneas rectas


que represente el conjunto de datos y facilite la prediccin para la variable
dependiente. Sin embargo, este mtodo intuitivo es demasiado subjetivo.

El objeto de la regresin lineal consiste en determinar una recta de la forma

yi b0 b xi
, que sea representativa del conjunto de datos muestrales; este
proceso se conoce como ajuste de una recta y se utiliza como procedimiento el
mtodo de mnimos cuadrados.

En este sentido, el mtodo de mnimos cuadrados es objetivo y no depende de la


apreciacin personal del investigador, sino de relaciones matemticas
preestablecidas.
b
La tarea est en determinar los parmetros b0 y en la ecuacin de regresin

yi b0 b xi
lineal simple , donde

x i : es el i-simo valor de la variable X.

yi : es el i-simo valor de la variable y

b0 : es el valor que toma la variable dependiente "y", cuando la variable

independiente "x" vale 0, y es el punto donde la recta cruza el eje vertical.


b
: determina la pendiente de la recta, su grado de inclinacin.

5
b0 y b , los valores calculados a partir de la
Una vez hallados los parmetros


ecuacin de regresin se denominan valores estimados, y se representan por yi .

En el mtodo de mnimos cuadrados se emplean los datos de la muestra para

b
determinar los parmetros b0 y que minimizan la suma de los cuadrados de las

desviaciones entre los valores observados de la variable dependiente yi y los


valores estimados de la variable dependiente yi .

La desviacin se obtiene entre la diferencia de los valores reales yi y los valores


estimados yi ; por tanto, la suma de los cuadrados de las desviaciones debe ser
mnima. Esto es,

min ( y i y i )

b
Con el clculo diferencial se puede demostrar que los parmetros b0 y que
minimizan el cuadrado de las desviaciones son:

Los parmetros para el ejemplo de la tabla 30, se calculan a partir de los datos
presentados en la tabla 2.

Tabla 2. Valores para el clculo de parmetros de la compaa de bienes


raz
APARTAMENTO X Y XY X2 Y2
1 79 475 37525 6241 225625
2 135 800 108000 18225 640000
3 101 600 60600 10201 360000
4 114 750 85500 12996 562500
5 67 475 31825 4489 225625

6
6 138 850 117300 19044 722500
7 106 825 87450 11236 680625
8 67 467 31289 4489 218089
9 65 437 28405 4225 190969
10 89 575 51175 7921 330625
11 102 700 71400 10404 490000
12 119 825 98175 14161 680625
13 184 1150 211600 33856 1322500
14 127 900 114300 16129 810000
15 109 700 76300 11881 490000
16 114 725 82650 12996 525625
17 116 550 63800 13456 302500
18 117 850 99450 13689 722500
19 107 600 64200 11449 360000
20 83 575 47725 6889 330625
21 126 800 100800 15876 640000
22 97 825 80025 9409 680625
23 70 600 42000 4900 360000
24 93 400 37200 8649 160000
25 111 875 97125 12321 765625
TOTAL 2.636 17.329 1.925.819 295.132 12.797.183
Fuente: Adaptacin del texto Estadstica para administracin. Berenson y otros, pg. 466.

De la tabla 2 se tiene que:

x i 2.636
, y i 17.329
, x y
i i 1.925.819
, x 2
i 295.132
y n = 25

por tanto,

n xi yi xi yi 25(1.925.819) (2.636)(17.329) 2.466.231


b 5,73804
n x ( xi )
2
i 25(295.132) (2.636) 2 429.804

b0
y i b x
i

17.329 (5,73804)( 2.636) 2.203,53
88,14120
n 25 25

en consecuencia, el modelo de regresin para estimar el costo de alquiler mensual


de un apartamento a partir del rea ser:

y 88,14120 5,73804 x

7
Este modelo representa la integracin de todos los puntos ubicados en el
diagrama de dispersin, y garantiza que la suma del cuadrado de las desviaciones
es mnima, como se ilustra en la grfica 2.

Grfica 2. Modelo de regresin lineal para el rea y costo de alquiler de


apartamentos

Interpre
tacin de bo y b
bo = 88,1412 indica que cuando el cambio en el rea es cero, el cambio esperado
en el costo de alquiler mensual es de 88,1412 miles de pesos; es decir, que el
costo de alquiler mensual aumenta 88,1412 miles de pesos. La pendiente b =

8
5,73804 seala que por cada incremento de 1 m 2 en el rea, se pronostica que el
cambio esperado en el costo mensual de alquiler es de 5,73804 miles de pesos,
cuyo significado es que se pronostica que el costo de alquiler aumenta 5,73804
miles de pesos por cada 1 m2 de incremento en el rea.

Predicciones
Con la ecuacin de regresin encontrada, es posible predecir algunos valores
para la variable dependiente a partir de la variable independiente

Observacin
Cuando se utiliza un modelo de regresin con propsitos de pronstico, es
importante que se tenga en cuenta slo el intervalo de valores que toma la
variable independiente y que fueron usados para construir el modelo. Entonces, si
se predice un valor de Y para un valor dado de X, es posible interpolar dentro de
este intervalo de valores de X, pero no se debe extrapolar hacia fuera de este
intervalo. Por ejemplo, cuando se usa el rea en m 2 para predecir el alquiler
mensual, se observa en la tabla 29 que los metros cuadrados varan de 65 a 184.
Por tanto, las predicciones de costos de alquiler mensual deben hacerse slo para
apartamentos con un rea entre estas medidas. Cualquier pronstico de costos
de alquiler mensual con reas fuera de este intervalo es poco confiable.

2. CORRELACIN

Hasta el momento se ha considerado el problema de la regresin lineal simple o


estimacin de una variable dependiente a partir de una variable independiente.
Sin embargo, surge el interrogante: Qu tanto se relacionan las variables
dependiente e independiente? La correlacin pretende dar respuesta a esta
pregunta e intenta medir el grado de asociacin entre dos variables por medio de
los coeficientes de correlacin y determinacin.

2.1. Coeficiente de correlacin

9
El coeficiente de correlacin (r) es la medida de la intensidad de la relacin entre
dos variables. Se calcula con la ecuacin

Donde,

n xy x y
: desviacin conjunta de los datos X y Y

n x 2 x
2

: desviacin de los datos X

n y 2 y
2

: desviacin de los datos Y

El coeficiente de correlacin toma valores comprendidos entre 1 y +1, de tal


forma que cuando r = -1 r = +1 existe una correlacin perfecta entre las
variables. Esto es, todos los puntos del plano cartesiano estn alineados (o se
ajustan perfectamente) a la lnea recta de la ecuacin de regresin. Cuando r = 0,
no existe correlacin entre las variables. La correlacin aumenta cuando r se
acerca de 0 a +1 de 0 a 1.

En la medida en que los puntos se acerquen a la recta, el coeficiente de


correlacin ser ms prximo a 1, y si los puntos se alejan de la recta, el
coeficiente de correlacin ser ms prximo a cero.

Aunque la correlacin o la medida de la intensidad de la relacin puede oscilar


entre 1 y +1, no existe una regla precisa para afirmar si la correlacin es buena o
mala entre las variables, ya que la calificacin depende del rigor del estudio y la
experiencia del investigador para juzgar los resultados de acuerdo con las
expectativas planteadas. Sin embargo, en la tabla 3 se presenta un esquema que
puede ayudar a la calificacin de un modelo de regresin.

10
Tabla 3. Calificacin del modelo de regresin

r CALIFICACIN r
-0.1 0.1
-0.2 Correlacin nula 0.2
-0.3 0.3
-0.4 0.4
-0.5 Correlacin baja 0.5
-0.6 0.6
-0.7 0.7
-0.8 Correlacin alta 0.8
-0.9 0.9
-1.0 Mxima correlacin 1.0

Grfica 3. Correlacin entre dos variables

En la grfica 3 se presenta la correlacin entre dos variables. Obsrvese que en


la correlacin lineal positiva, la pendiente de la recta es positiva, y en la
correlacin lineal negativa, la pendiente es negativa. Al calcular el coeficiente de
correlacin, el signo debe ser el mismo del parmetro b 1, dado que este parmetro
corresponde a la pendiente de la recta. En consecuencia, existe una igualdad de
signos entre la pendiente de la recta y el coeficiente de correlacin.

El coeficiente de correlacin para el ejemplo de la tabla 1, en el cual se relaciona


el rea con el precio de alquiler de apartamentos sera:

n xy x y 25(1.925.819) (2.636)(17.329)
r
n x x * n y y 25(295.132) ( 2.636) 2 * 25(12.797.183) (17.329) 2
2 2 2 2

11
2.466.321 2.466.321
r 0.8489
655,59 * 4.431,18 2.905.037,296

Como r = 0,8489 y la pendiente b 1 es positiva, indica que hay alta correlacin entre
el rea y el precio de alquiler de los apartamentos.

2.2. Coeficiente de determinacin

Para predecir una variable en funcin de otra predomina la incertidumbre, y la


pregunta forzada es qu tan bien se ajusta a los datos la ecuacin de regresin?
En este aparte se muestra que el coeficiente de determinacin (r2) es una medida
de la bondad de ajuste para una ecuacin de regresin.

El coeficiente de determinacin (r2) expresa el porcentaje de variacin de la


variable dependiente causado o atribuido por la variacin de la variable
independiente.

El coeficiente de determinacin para el ejemplo de la tabla 1, en el cual se


relaciona el rea con el precio de alquiler de apartamentos, sera:

r2 = ( 0,8489 )2 * 100 = 72%

Este valor permite concluir que el 72% del aumento en el costo de alquiler del
apartamento se debe al incremento en el rea, el otro 28% se debe al cambio

12
producido por otras variables que no fueron analizadas en el modelo (por ser
regresin lineal simple).

Adems de los coeficientes de correlacin y determinacin, la correlacin puede


ser analizada con mayor profundidad por medio de la inferencia del coeficiente de
correlacin poblacional (p) (se lee rho), la cual incluye pruebas de hiptesis e
intervalos de confianza para p.

13
BIBLIOGRAFA

BIBLIOGRAFA FUNDAMENTAL

ANDERSON, David; SWEENEY, Dennis y WILLIAMS, Thomas. Estadstica para


administracin y economa. 8 edicin. Thomson, Mxico, 2003. 884 p.

BERENSON, Mark; LEVINE, David y KREHBIEL, Timothy. Estadstica para


administracin. 2 edicin. Pearson educacin, Mxico, 2001. 784 p.

MENDENHALL, William. Estadstica para administradores. 2. ed.


Mxico: Iberoamerica, 1995. 817 p.

BIBLIOGRAFA RECOMENDADA

CHAO, Lincoln y CASTAO, Jos Mara. Estadstica para las ciencias


administrativas, Lincoln. 3. ed. Bogot: McGraw-Hill, 1993. 464 p

LIND, Douglas A; MASON, Robert D. y MARCHAL, William G. Estadstica para


administracin y economa. Espaa: McGraw-Hill, 2000. 575 p.

SPIEGEL, Murray. Estadstica. 2. edicin. McGRAW-HILL, Espaa, 1993.665p.

WALPOLE, Ronald E. y MYERS, Raymond H. Probabilidad y estadstica, 4. ed


Mxico: McGraw-Hill, 1992. 757 p.

14

También podría gustarte