Este documento introduce los modelos de regresión lineal múltiple. Explica que estos modelos estudian la relación entre una variable de interés y múltiples variables explicativas. Describe tres tipos de relaciones posibles (funcional, nula, estocástica) y que los modelos de regresión se usan para estudiar las relaciones estocásticas. El objetivo es estimar la función de regresión y el modelo probabilístico del error para predecir valores de la variable de interés.
0 calificaciones0% encontró este documento útil (0 votos)
240 vistas19 páginas
Este documento introduce los modelos de regresión lineal múltiple. Explica que estos modelos estudian la relación entre una variable de interés y múltiples variables explicativas. Describe tres tipos de relaciones posibles (funcional, nula, estocástica) y que los modelos de regresión se usan para estudiar las relaciones estocásticas. El objetivo es estimar la función de regresión y el modelo probabilístico del error para predecir valores de la variable de interés.
Este documento introduce los modelos de regresión lineal múltiple. Explica que estos modelos estudian la relación entre una variable de interés y múltiples variables explicativas. Describe tres tipos de relaciones posibles (funcional, nula, estocástica) y que los modelos de regresión se usan para estudiar las relaciones estocásticas. El objetivo es estimar la función de regresión y el modelo probabilístico del error para predecir valores de la variable de interés.
Este documento introduce los modelos de regresión lineal múltiple. Explica que estos modelos estudian la relación entre una variable de interés y múltiples variables explicativas. Describe tres tipos de relaciones posibles (funcional, nula, estocástica) y que los modelos de regresión se usan para estudiar las relaciones estocásticas. El objetivo es estimar la función de regresión y el modelo probabilístico del error para predecir valores de la variable de interés.
Descargue como DOC, PDF, TXT o lea en línea desde Scribd
Descargar como doc, pdf o txt
Está en la página 1de 19
REGRESION LINEAL MULTIPLE
Introduccin a los modelo de regresin.
Los Modelos de Regresin estudian la relacin estocstica cuantitativa entre una variable de inters y un conjunto de variables explicativas. Estos modelos son muy utilizados y su estudio conforma un rea de investigacin clsica dentro de la disciplina de la Estadstica desde hace muchos aos. La formulacin matemtica de estos modelos es la siguiente !onde es el error de observacin debido a variables no controladas. "uando se estudia la relacin entre una variable de inters# variale res!uesta o variale de!endiente $y% y un con"unto de variales regresoras #e$!licativas% inde!endientes& $&'# &(#).etc.%, puede darse las siguientes situaciones* Existe una relacin funcional entre ellas# en el sentido de +ue l conocimiento de las variables regresoras determinan completamente el valor +ue toma la variable respuesta esto es* Ejemplo* la relacin +ue existe entre el tiempo$y% +ue tarda un mvil en recorrer una distancia y dicha distancia$x% a velocidad constante ,o existe ninguna relacin entre la variable respuesta y las variables regresoras# en el sentido de +ue el conocimiento de estas no proporciona ninguna informacin sobre el comportamiento de la otra. Ejemplo* La relacin +ue existe entre el dinero $y% +ue gana una persona adulta mensualmente y su altura $x%. El caso intermedio# existe una relacin estoc'stica entre la variable respuesta y las variables regresoras# en el sentido de +ue el conocimiento de stas permiten predecir con mayor o menor exactitud el valor de la variable respuesta. -or tanto siguen un modelo de la forma# .iendo m la funcin de regresin desconocida y una variable aleatoria de media cero $el error de observacin%. Las relaciones estocsticas son las +ue ocurren en la mayora de las situaciones y su estudio se corresponde con los denominados Modelos de Regresin. El objetivo bsico en el estudio de un modelo de regresin es el de estimar la funcin de regresin# m# y el modelo probabilstico +ue sigue el error aleatorio # sto es# estimar la funcin de distribucin F de la variable de error. La estimacin de ambas funciones se hace a partir del conocimiento de una muestra de las variables en estudio# . /na vez estimadas estas funciones se tiene conocimiento de* La relacin funcional de la variable respuesta con las variables regresoras# dada por la funcin de regresin +ue se de0ne como sigue#
Esto permite tener una idea general del comportamiento de la variable respuesta en funcin de las regresoras .e puede estimar y predecir el valor de la variable respuesta de un individuo del +ue se conocen los valores de las variables regresoras. 1sto es# de un individuo t se sabe +ue X ' 2 x ',t ,...,X k 2 x k,t # entonces se puede predecir el valor de Y t y calcular un intervalo de prediccin del mismo. PRE(I))ION EN EL MO(ELO (E REGRESION LNEAL MULTIPLE 3azonando como en el modelo de regresin lineal simple# se deben distinguir dos problemas diferentes* Estimar la media de la distribucin condicionada de Y/ 2 t . Esto es# se +uiere estimar el parmetro Predecir el valor de la variable respuesta en un individuo del +ue se conoce +ue 2 h . Esto es# se +uiere predecir un valor de la variable condicionada Y/ 2 h . Estimacin de las medias condicionadas. /na vez +ue se ha ajustado el modelo de regresin lineal por mnimos cuadrados se obtiene El estimador de la media de la distribucin condicionada de Y/ 2 t , esto es# del parmetro m t 2 E # se obtiene sustituyendo t en el modelo de regresin. 4bteniendo Este estimador tiene las siguientes propiedades* '.5Es un estimador centrado o insesgado# E 2 m t 2 E (.5La varianza del estimador t es V ar 2 ( h tt , donde h tt 2 t t 5' t
es el valor de in*uencia o 6leverage7 asociado al vector t . La interpretacin de este valor es la expuesta en la seccin 8.9 .e de0ne el inverso de h tt como el n+mero e,uivalente de oservaciones para estimar m t , valor +ue se denota por n t 2 '/h tt . La interpretacin de n t es la siguiente* la informacin +ue proporciona la muestra# de tamao n# i 2 ' n para estimar m t es la misma +ue proporcionara una muestra de tamao n t de observaciones j 2 ' n h de una poblacin con distribucin igual a la condicionada de Y/ 2 t . -ara todas las observaciones muestrales i , i 2 ',...,n, se veri0ca +ue :dems para cual+uier valor de t se veri0ca +ue el valor de n t ser mayor cuanto ms prximo est t de y cuando t 2 se obtiene +ue n t 2 n, valor mximo +ue puede tomar. ;nversamente# si la distancia entre t y crece entonces el valor de n t disminuye# y si esta distancia se hace in0nitamente grande $se extrapola% el valor de n t se aproxima a cero. <.5La distribucin de t es normal. -or tanto# =.5"omo en la prctica el parmetro ( es desconocido# el estadstico pivote t no se puede utilizar para calcular intervalos de con0anza y es necesario sustituir ( desconocido por un estimador# R ( . 4bteniendo el siguiente estadstico pivote t
$8.<(% -or la hiptesis de normalidad se sigue +ue la distribucin de t es $8.<<% '.5!e $8.<<% se obtiene +ue un intervalo de con0anza de m t con un nivel de con0anza es $8.<=% :l estimar una media condicionada utilizando el modelo de regresin se debe de tener en cuenta +ue los resultados son razonables dentro del rango de valores de las variables regresoras $inter!olar% donde se veri0ca +ue ' > n t > n y# en particular# para t 2 se veri0ca +ue n t 2 n, y la estimacin de m t tiene la menor varianza. .i t es un vector alejado de , entonces n t es pe+ueo y V ar grande# obtenindose estimaciones poco precisas. ?inalmente# si se estima la media condicionada m t fuera del rango de valores de $e$tra!olar%# entonces puede ocurrir +ue n t @# lo +ue hace +ue la precisin de la estimacin de m t sea muy pe+uea. Prediccin de una oservacin. .e desea !redecir el valor de la respuesta# Y # de un individuo del +ue se sabe +ue 2 t # utilizando el ajuste de un modelo de regresin lineal de la variable Y respecto al vector de variables regresoras . El predictor +ue minimiza el Error "uadrtico Aedio de -rediccin# E viene dado por -or tanto# la prediccin de Y t 2 Y/ 2 t es el mismo valor +ue se obtiene en la estimacin de m t pero su varianza es mayor. El predictor t veri0ca las siguientes propiedades* '. La prediccin es centrada# ya +ue# E 2 E (. La varianza de la prediccin es# <. -ara calcular intervalos de prediccin de y t se utilizar el siguiente estadstico pivote $8.<B% =. /n intervalo de prediccin de y t con nivel de con0anza viene dado por
Los intervalos de prediccin +ue se obtienen son mucho mayores +ue los intervalos de con0anza de la media condicionada m t ya +ue la varianza ha aumentado. An'lisis de un caso de un modelo de regresin lineal m+lti!le. En esta seccin se presenta el desarrollo en detalle de un supuesto prctico del modelo de regresin lineal mCltiple con dos variables regresoras# en los clculos se utiliza toda la teora expuesta en este captulo. E"em!lo -... 6Los datos de la tabla adjunta proporcionan el volumen $en pies cCbicos%# altura $en pies% y dimetro $en pulgadas# medido a B= pulgadas del suelo% de una muestra de <' rboles del tipo cerezo negro# en el :llegheny ,ational ?orest# en -ensilvania. "on estos datos se +uiere hacer un estudio sobre el rendimiento de la madera y# para ello# se ajusta un modelo de regresin lineal +ue permita predecir el volumen de un rbol cuando se conoce su altura y dimetro7. !atos del ejemplo 8.'. Estimacin de los coe/cientes del modelo de regresin son El modelo estimado es -ara calcular la varian0a residual# dado +ue i 2 ' n y i ( 2 <D.<(= E FF, utilizando $8.''% se obtiene La matri0 de varian0as de los estimadores puede aproximarse por Intervalos de con/an0a al 123 de los parmetros del modelo. -ara la varianza (
-ara la varianza ( @ -ara ' $dimetro% -ara ( $altura% )ontrastes individuales de la t para los coe0cientes del modelo de regresin. "ontraste C @ # H @ * @ 2 @ frente a H ' * @ @. "ontraste C ' $dimetro%# H @ * ' 2 @ frente a H ' * ' @. -or tanto la variable 6dimetro7 inGuye y explica el comportamiento de la variable respuesta 6volumen7. "ontraste C ( $altura%# H @ * ( 2 @ frente a H ' * ( @. -or tanto la variable 6altura7 inGuye y explica el comportamiento de la respuesta 6volumen7. Tala ANO4A. )ontraste con"unto de la 5. .e obtiene la siguiente tabla :,4H:# Tala ANO4A ?uentes de .uma de Irados de Harianzas Hariacin "uadrados libertad -or el modelo 9.D8= E 'D ( e ( 2 <.8=( E @8 3esidual =(' E F( (8 R ( 2 'B E @D Ilobal 8.'@D E @8 <@ y ( 2 (9@ E (@ "on estos datos se obtiene el siguiente estadstico del contraste conjunto de la F, .e rec6a0a la no inGuencia del modelo en la variable respuesta. En base a los resultados de los contrastes individuales de la t y el contraste conjunto de la F se deduce la inGuencia de cada una de las dos variables regresoras y la inGuencia conjunta del modelo de regresin en la variable de inters# 6volumen7 de los rboles. )ontraste individual de la 5. : continuacin se estudia el contraste sobre la inGuencia individual de la variable dimetro en la respuesta volumen# utilizando el contraste individual de la F. /na vez calculado el modelo de regresin completo $con las dos variables regresoras% La tabla :,4H: del modelo completo es Tala ANO4A #modelo com!leto& ?uentes de .uma de Irados de Harianzas Hariacin "uadrados libertad -or el modelo 9.D8= E 'D ( e ( 2 <.8=( E @8 3esidual =(' E F( (8 R ( 2 'B E @D Ilobal 8.'@D E @8 <@ y ( 2 (9@ E (@ .e calcula la regresin de volumen respecto a la altura La tabla :,4H: de este modelo es Tala ANO4A #una regresora& ?uentes de .uma de Irados de Harianzas Hariacin "uadrados libertad -or altura (.F@' E 'F ' e ( 2 (.F@' E 'F 3esidual B.(@= E F@ (F R ( 2 '9F E =8 Ilobal 8.'@D E @8 <@ y ( 2 (9@ E (@ La suma de cuadrados incremental debida a la variable dimetro es Este valor indica lo +ue aumenta la variabilidad explicada por el modelo al introducir la variable dimetro. -ara contrastar la inGuencia o no de la variable altura se utiliza el estadstico En este contraste se obtiene el mismo p5valor +ue el obtenido con el contraste individual de la t. )oe/cientes de determinacin 7 de correlacin. El coe0ciente de determinacin El modelo ajustado explica el F= E 9FJ de la variabilidad de la respuesta. El coe0ciente de correlacin mCltiple# El coe0ciente de determinacin corregido por el nCmero de grados de libertad# El coe0ciente de correlacin mCltiple corregido por el nCmero de grados de libertad# El coe0ciente de correlacin simple entre las variables volumen y altura# Es una medida de la relacin lineal existente entre las variables volumen y altura. 4tra forma de calcular el coe0ciente de correlacin simple es hacerlo a partir del coe0ciente de determinacin de la siguiente regresin lineal simple# La tabla :,4H: de este modelo es Tala ANO4A ?uentes de .uma de Irados de Harianzas Hariacin "uadrados libertad -or altura (.F@' E 'F ' e ( 2 (.F@' E 'F 3esidual B.(@= E F@ (F R ( 2 '9F E =8 Ilobal 8.'@D E @8 <@ y ( 2 (9@ E (@ !e donde#
El coe0ciente de correlacin parcial entre las variables volumen y altura controlado por la variable dimetro. /tilizando la relacin $8.<'% se obtiene /na forma ms complicada de obtener este coe0ciente es la siguiente* se calculan las siguientes regresiones lineales simples y se guardan los residuos# El coe0ciente de correlacin parcial entre las variables volumen y altura se obtiene como el coe0ciente de correlacin simple entre las variables e vol.diam y e alt.diam
Este coe0ciente proporciona una medida de la relacin entre las variables volumen y altura libres de la inGuencia de la variable dimetro. .i se +uiere comparar con el coe0ciente de correlacin lineal simple de las variables volumen y altura# se obtiene +ue El coe0ciente de correlacin parcial entre las variables volumen y dimetro controlado por la variable altura es $se utiliza la relacin $8.<'%% Estimacin de la media condicionada. 6Estimar el volumen medio de los rboles de dimetro '@ y altura 8@ 7. La estimacin de la media es El valor de inGuencia asociado a la observacin t 2 2 es La varianza del estimador# /n intervalo de con0anza al F@J de m$ % es
Prediccin. 6-redecir el volumen del rbol de la plantacin numerado con el '@@ +ue tiene un dimetro '@ y una altura de 8@7. La prediccin es La varianza de la prediccin es /n intervalo de prediccin al F@J es
En la tabla adjunta se obtienen las predicciones# intervalos de con0anza e intervalos de prediccin para diferentes valores de t . Kener en cuenta +ue 2 2
89Es ueno el modelo de regresin a"ustado: 9Se !uede me"orar este modelo:;. El modelo de regresin ajustado es Las caractersticas de las estimaciones se recogen en la siguiente tabla Modelo . t p 5 valor )onstant e 5B9 E F88 8 E D<8 5D E 9'< @ E @@@ (i'metro = E 9@8 @ E (D= '9 E 8'D @ E @@@ Altura @ E <<F @ E '<@ ( E D@9 @ E @'= Las dos variables regresoras son signi0cativas. La tabla :,4H: del modelo es
Modelo . .uma de cuadrad os g.l. varianza F p 5 valor 3egresi n 9D8= E 'D< ( <8=( E @8' (B= E F9( @ E @@@ 3esidual =(' E F(' (8 'B E @DF Ilobal 8'@D E @8= <@ (9@ E (@< R ( 2 @ E F9= ( 2 @ E F== R 2 < E 88( La bondad del ajuste del modelo de regresin es alta. !os gr0cos de inters son el gr0co de predicciones $y% frente a la respuesta observada $y% y el gr0co de residuos $e% frente a las predicciones $y%# estos gr0cos se representan en las ?iguras 8.<. y 8.=. En el gr0co de predicciones se observa +ue el ajuste es razonablemente bueno ya +ue las predicciones estn prximas a los valores observados $los puntos se acercan a la diagonal%# pero en el gr0co de residuos se observa +ue el comportamiento de los residuos no es adecuado ya +ue los puntos parecen seguir una parbola. Ir0co de predicciones frente a la respuesta. Ir0co de residuos frente predicciones. .e ajusta un modelo de regresin introduciendo un trmino cuadrtico# la variable regresora 6dimetro al uadrado7. Los resultados de este nuevo ajuste son los siguientes* Los contrastes individuales son* Modelo < t p 5 valor )onstant e 5F E F(@ '@ E @9F 5@ E F8= @ E <<= (i'metro 5( E 88B ' E <'@ 5( E (@< @ E @<D (i'metro ( @ E (DF @ E @=D B E 8B( @ E @@@ Altura @ E <9D @ E @88 = E (DD @ E @@@ Las tres variables son signi0cativas con 2 @ E @B# la tabla :,4H: del nuevo modelo ajustado es* Modelo < .uma de cuadrad os g.l. varianza F p 5 valor 3egresi n 9F(@ E @9( < (D=@ E @(= <8< E (@B @ E @@@ 3esidual '8D E @'( (9 D E 88F Ilobal 8'@D E @8= <@ (9@ E (@< R ( 2 @ E F88 ( 2 @ E F9B R 2 ( E D(B El segundo modelo mejora al primero ya +ue el coe0ciente 3 ( ha aumentado y la varianza residual ha disminudo. En el gr0co de predicciones $y% frente a la respuesta $y%. en el gra0co de predicciones se observa +ue los puntos se ajustan mejor a la diagonal. En el el gr0co de residuos $e% frente a las predicciones $y% se observa un mejor comportamiento de los residuos y parece +ue se cumplen las hiptesis estructurales. Ir0co de predicciones frente a la respuesta. Ir0co de residuos frente a predicciones UNI4ERSI(A( AUTONOMA (E )O=UILA 5A)ULTA( (E MER)A(OTE)NIA ANALISIS MULTI4ARI>LE
REGRESI?N LINEAL M@LTIPLE PRO5.A RAMIRO MORENO ALUMNO#A&A 5A>IOLA )OSS LUNA Saltillo% )oa6. A <. de noviemre de <22B.