Regresión Lineal.2900
Regresión Lineal.2900
Regresión Lineal.2900
Medelln, 2013
Por ejemplo, una compaa de bienes races residenciales en una ciudad desea
predecir los costos mensuales del alquiler de apartamentos, basado en el rea en
metros cuadrados. Se seleccion una muestra aleatoria con los siguientes datos:
2
2 135 800
3 101 600
4 114 750
5 67 475
6 138 850
7 106 825
8 67 467
9 65 437
10 89 575
11 102 700
12 119 825
13 184 1150
14 127 900
15 109 700
16 114 725
17 116 550
18 117 850
19 107 600
20 83 575
21 126 800
22 97 825
23 70 600
24 93 400
25 111 875
Fuente: Adaptacin del texto Estadstica para administracin. Berenson y otros, pg. 466.
En este caso, se busca relacionar las variables rea y costo mensual; donde la
variable independiente (X) es el rea, y la dependiente (Y), el costo mensual.
Cuando se toma una muestra de dos variables o bivariada, se obtiene una serie
de pares de datos. Estas parejas son de la forma (x,y) y se pueden representar
como puntos en un plano bidimensional o plano cartesiano; la representacin
grfica de las parejas se conoce como diagrama de dispersin.
La regresin lineal pretende encontrar una recta que represente todos los puntos
que se encuentran en el plano cartesiano.
3
En la grfica 1 se ilustran algunos diagramas de dispersin.
4
El diagrama de dispersin muestra una relacin lineal positiva; es decir, a medida
que crece el rea aumenta el valor del alquiler del apartamento. Adicionalmente,
no se observa ningn valor atpico.
yi b0 b xi
, que sea representativa del conjunto de datos muestrales; este
proceso se conoce como ajuste de una recta y se utiliza como procedimiento el
mtodo de mnimos cuadrados.
yi b0 b xi
lineal simple , donde
5
b0 y b , los valores calculados a partir de la
Una vez hallados los parmetros
ecuacin de regresin se denominan valores estimados, y se representan por yi .
b
determinar los parmetros b0 y que minimizan la suma de los cuadrados de las
valores estimados de la variable dependiente yi .
estimados yi ; por tanto, la suma de los cuadrados de las desviaciones debe ser
mnima. Esto es,
min ( y i y i )
b
Con el clculo diferencial se puede demostrar que los parmetros b0 y que
minimizan el cuadrado de las desviaciones son:
Los parmetros para el ejemplo de la tabla 30, se calculan a partir de los datos
presentados en la tabla 2.
6
6 138 850 117300 19044 722500
7 106 825 87450 11236 680625
8 67 467 31289 4489 218089
9 65 437 28405 4225 190969
10 89 575 51175 7921 330625
11 102 700 71400 10404 490000
12 119 825 98175 14161 680625
13 184 1150 211600 33856 1322500
14 127 900 114300 16129 810000
15 109 700 76300 11881 490000
16 114 725 82650 12996 525625
17 116 550 63800 13456 302500
18 117 850 99450 13689 722500
19 107 600 64200 11449 360000
20 83 575 47725 6889 330625
21 126 800 100800 15876 640000
22 97 825 80025 9409 680625
23 70 600 42000 4900 360000
24 93 400 37200 8649 160000
25 111 875 97125 12321 765625
TOTAL 2.636 17.329 1.925.819 295.132 12.797.183
Fuente: Adaptacin del texto Estadstica para administracin. Berenson y otros, pg. 466.
x i 2.636
, y i 17.329
, x y
i i 1.925.819
, x 2
i 295.132
y n = 25
por tanto,
b0
y i b x
i
17.329 (5,73804)( 2.636) 2.203,53
88,14120
n 25 25
y 88,14120 5,73804 x
7
Este modelo representa la integracin de todos los puntos ubicados en el
diagrama de dispersin, y garantiza que la suma del cuadrado de las desviaciones
es mnima, como se ilustra en la grfica 2.
Interpre
tacin de bo y b
bo = 88,1412 indica que cuando el cambio en el rea es cero, el cambio esperado
en el costo de alquiler mensual es de 88,1412 miles de pesos; es decir, que el
costo de alquiler mensual aumenta 88,1412 miles de pesos. La pendiente b =
8
5,73804 seala que por cada incremento de 1 m 2 en el rea, se pronostica que el
cambio esperado en el costo mensual de alquiler es de 5,73804 miles de pesos,
cuyo significado es que se pronostica que el costo de alquiler aumenta 5,73804
miles de pesos por cada 1 m2 de incremento en el rea.
Predicciones
Con la ecuacin de regresin encontrada, es posible predecir algunos valores
para la variable dependiente a partir de la variable independiente
Observacin
Cuando se utiliza un modelo de regresin con propsitos de pronstico, es
importante que se tenga en cuenta slo el intervalo de valores que toma la
variable independiente y que fueron usados para construir el modelo. Entonces, si
se predice un valor de Y para un valor dado de X, es posible interpolar dentro de
este intervalo de valores de X, pero no se debe extrapolar hacia fuera de este
intervalo. Por ejemplo, cuando se usa el rea en m 2 para predecir el alquiler
mensual, se observa en la tabla 29 que los metros cuadrados varan de 65 a 184.
Por tanto, las predicciones de costos de alquiler mensual deben hacerse slo para
apartamentos con un rea entre estas medidas. Cualquier pronstico de costos
de alquiler mensual con reas fuera de este intervalo es poco confiable.
2. CORRELACIN
9
El coeficiente de correlacin (r) es la medida de la intensidad de la relacin entre
dos variables. Se calcula con la ecuacin
Donde,
n xy x y
: desviacin conjunta de los datos X y Y
n x 2 x
2
n y 2 y
2
10
Tabla 3. Calificacin del modelo de regresin
r CALIFICACIN r
-0.1 0.1
-0.2 Correlacin nula 0.2
-0.3 0.3
-0.4 0.4
-0.5 Correlacin baja 0.5
-0.6 0.6
-0.7 0.7
-0.8 Correlacin alta 0.8
-0.9 0.9
-1.0 Mxima correlacin 1.0
n xy x y 25(1.925.819) (2.636)(17.329)
r
n x x * n y y 25(295.132) ( 2.636) 2 * 25(12.797.183) (17.329) 2
2 2 2 2
11
2.466.321 2.466.321
r 0.8489
655,59 * 4.431,18 2.905.037,296
Como r = 0,8489 y la pendiente b 1 es positiva, indica que hay alta correlacin entre
el rea y el precio de alquiler de los apartamentos.
Este valor permite concluir que el 72% del aumento en el costo de alquiler del
apartamento se debe al incremento en el rea, el otro 28% se debe al cambio
12
producido por otras variables que no fueron analizadas en el modelo (por ser
regresin lineal simple).
13
BIBLIOGRAFA
BIBLIOGRAFA FUNDAMENTAL
BIBLIOGRAFA RECOMENDADA
14