Unidad I-Rls y Correlacion-Apuntes.
Unidad I-Rls y Correlacion-Apuntes.
Unidad I-Rls y Correlacion-Apuntes.
3. Analizar graficas que permitan entender la relación existente entre las variables en
consideración.
4. Utilizar el análisis de regresión simple para estimar la relación entre las variables.
5. Utilizar el coeficiente de correlación para medir el grado de relación lineal entr4e las
variables.
6. Obtener el coeficiente de determinación para medir la fuerza de relación entre las dos
variables.
La relación entre estas variables, que se estudia con esta técnica no necesariamente es de
causa – efecto sino de efectos aleatorios. Para un solo valor de X, suceden diferentes
valores de Y en repetidas ocasiones.
El análisis de regresión para una variable Y dada una variable X inicia con la recolección o
registro de una muestra aleatoria de n pares ordenados (X, Y) del fenómeno estudiado.
Estos datos pueden ser producidos en un sistema científico (como una investigación), una
serie de tiempo histórica o seleccionada de una población de N pares ordenados.
Con esto, se puede observar si dado un valor de X es posible predecir el valor promedio de
Y.
Para tener una idea inicial del tipo de regresión que existe entre dos variables, se hace un
diagrama de dispersión en el plano cartesiano; en donde la configuración o “forma” de los
puntos graficados permite visualizar el tipo de función matemática a estudiar. La más
sencilla es la regresión de tipo lineal, es decir la representada por la función lineal entre X
y Y.
Si se supone que las variables X y Y están relacionadas linealmente y que para cada valor
de X, la variable independiente Y es una variable aleatoria, cada observación de Y puede
ser descrita por un modelo de regresión lineal simple; dado por Y= β0 + β1X+Ԑ.
En donde la letra griega épsilon Ԑ es un error aleatorio con media cero y varianza σ2 y los
valores β0 y β1 son los parámetros del modelo, los cuales son contantes desconocidas
que es necesario estimar con los datos de una muestra.
También los errores aleatorios mostrados en este modelo tienen la característica de que no
están correlacionados si el modelo es adecuado; entonces el valor esperado del error es
cero; es decir E (Ԑ)=0. Este concepto explica más adelante en los supuestos del modelo.
Se puede ver que el valor esperado de la variable Y para cada valor X, está dado por la
línea recta E (YIX)= β0 + β1X, donde β0 es el punto en el cual la línea recta intersecta o
cruza el eje y y β1 es la pendiente de la línea, es decir la cantidad en la que se incrementa
o disminuye la variable Y por cada unidad que se incrementa X.
Se pueden elegir diferentes variables Xi que suponemos tienen un efecto sobre Y. Ejemplo
predictores de las utilidades pueden ser volumen de ventas, inversión en Investigación y
Desarrollo, costo de fabricación; etc. Cuando se elige solo una de estas para su estudio y
el tipo de regresión es representada por una línea recta y = b0+b1x hablamos de la regresión
lineal simple o RLS.
Sin embargo si se supone que más de una variable regresora xi puede utilizarse para
predecir Y de mejor manera o con mayor precisión; se puede elegir un conjunto de k
variables regresoras: x1,x2,…xk y se habla de una Regresión Lineal Múltiple o RLM.
1.2 SUPUESTOS.
El método de mínimos cuadrados tiene como objetivo “ajustar” una recta de regresión
estimada a los datos de la muestra; lo que equivale a determinar las estimaciones o valores
de b0 y b1 de la ecuación de la recta. Esta ecuación permite el cálculo de los valores
pronosticados de y que se deduce más adelante y hacer otros tipos de análisis y de
diagnóstico que midan la intensidad de la relación y lo bien que se ajusta el modelo. Para
utilizar esta ecuación en la predicción de Y deben realizarse antes una serie de pruebas
para determinar si el modelo es apropiado.
Estas pruebas se basan en los siguientes supuestos estadísticos acerca del error Ԑ.
1. El término del error Ԑ es una variable aleatoria cuya media, o valor esperado es cero; es
decir E (Ԑ)=0. Como β0 y β1 son constantes, E (β0) = β0 y E (β1 ) = β1 así para un valor
dado de x, el valor esperado de y es E (Y)= β0 y β1X.
2. La varianza de Ԑ, que se denota como σ2 es la misma para todos los valores de x. Esto
implica que la varianza de y respecto de la recta de regresión es igual a σ 2 y es la misma
para todos los valores de x.
3. Los valores de Ԑ, son independientes. Esto significa que el valor de Ԑ correspondiente a
un determinado valor de x, no se relaciona con el valor de Ԑ para cualquier otro valor de x;
por lo tanto, el valor de y correspondiente a un valor particular de x no se relaciona con el
valor de y de ningún otro valor de x.
4. El término del error Ԑ es una variable aleatoria distribuida normalmente. Como y es una
función lineal de Ԑ, también y es una variable aleatoria distribuida normalmente.
En todo modelo dado de Regresión Lineal simple, usado para la predicción deben probarse
estos supuestos y así se tendrá la validez del modelo obtenido. Más adelante en el subtema
1.6 Análisis Residual, se desarrollará el procedimiento para analizar estos supuestos.
Los n pares ordenados disponibles, se pueden graficar en el plano cartesiano para hacer
un diagnóstico visual y buscar evidencia de una forma lineal en la apariencia de los puntos
resultantes.
Si no se encuentra esta, es posible que no sea lineal; y podría ser no lineal o exponencial;
etcétera.
Ante esta primera evidencia, se tiene el punto de partida para ajustar a estos puntos una
recta que explique esta relación lineal. El método estadístico para hacer esto se conoce
como mínimos cuadrados, que tiene por objetivo obtener los valores b0 y b1 de la ecuación
de la línea recta.
En otras palabras se trata de encontrar la recta que pase lo más cerca posible de todos los
puntos dados por la muestra.
El modelo también se puede expresar como 𝑦̅𝑖 = b0+bixi+ei. En donde los ei son los residuos
de los valores de la muestra y desempeñan un papel importante en el análisis de los
supuestos. Además la suma de los residuos al cuadrado se le puede nombrar como la
suma de cuadrados del error, abreviado como SCE.
Entonces hay que obtener los valores mínimos de: SCE = ∑𝑛𝑖=1 𝑒𝑖2 = ∑𝑛𝑖=1( 𝑦𝑖 − 𝑦̂𝑖)2 =
∑𝑛𝑖=1(𝑦𝑖 − 𝑏0 − 𝑏1 𝑥𝑖)2 .
Al diferenciar SCE con respecto a b0 y b1, igualar a cero las derivadas parciales y
reacomodar los términos; se obtiene un sistema de dos ecuaciones simultaneas con dos
incógnitas “llamadas ecuaciones normales”, que tienen solución única.
Un comerciante minorista realizo un estudio para determinar la relación que hay entre los
gastos semanales de publicidad y las ventas.
Costos de 40 20 25 20 30 50 40 20 50 40 25 50
publicidad ($).
Ventas ($). 385 400 395 365 475 440 490 420 560 525 480 510
Procedimiento de solución.
550
500
VENTAS Y
450
400
350
20 25 30 35 40 45 50
COSTOS DE PUBLICIDAD X.
.
Interpretación: Se puede observar una “forma” o tendencia de relación lineal creciente entre
X y Y. Que evidencia aparente ajustar una ecuación de regresión lineal.
500
VENTAS Y
450
400
350
20 25 30 35 40 45 50
COSTOS DE PUBLICIDAD X.
Como la línea tiene una pendiente positiva, a medida que aumenta X aumenta Y. El efecto
de X sobre Y. Se explica en términos unitarios. La pendiente significa que por cada $ 1000
dólares gastados en publicidad; las ventas se incrementan en 3.221(1000) dólares.
En una ecuación de regresión lineal simple, la media o valor esperado de Y es una función
lineal de X o en símbolo E (Y)= β0 + β1X. Entonces para que exista una relación significativa
de regresión, es necesario determinar si el valor de β1 es distinto de cero. Esto se hace
mediante una prueba de hipótesis para β1 que se desarrollara en el subtema 1.7 de
inferencias acerca de la pendiente.
De hecho también pueden hacerse pruebas también para β0, esta es de la ordenada al
origen y para el coeficiente de correlación poblacional 𝜌.
Para hacer estas pruebas es necesario obtener una estimación de σ2 la varianza del error
aleatorio Ԑ del modelo.
Ahora llamamos error cuadrado medio, abreviada como EMC a la cantidad que proporciona
una estimación de σ2.
SCE=∑(yi-ŷi)2=∑(yi-b0+b1xi)2. Esta SCE tiene n-2 grados de libertad, porque para calcularla
es necesario estimar dos parámetros β0 y β1.
El error cuadrado medio, abreviado como ECM se calcula dividiendo SCE entre n-2. Este
proporciona un estimador incensado de σ2 o también el símbolo s2. En símbolos s2 = ECM
= SCE/n-2. Para estimar σ se calcula la raíz cuadrada de
𝑆𝐶𝐸
s = √𝐸𝐶𝑀 = √ .
𝑛−2
Se puede interpretar este valor en porcentaje con un ajuste del 100%. A medida que el
modelo tiene un buen ajuste, esta cantidad es pequeña. Esto es posible hacerlo, si se tienen
varios modelos de regresión para una variable dependiente Y, y se están probando distintas
variables independientes X1, X2,…, etcétera.
Cuando ya se tiene una ecuación de regresión lineal simple ajustada a los datos de la
muestra, el análisis se centra ahora en conocer que tanta precisión tiene las estimaciones
del modelo. En otras palabras se requiere medir la calidad del ajuste que tiene el modelo
obtenido con los datos de la muestra.
Esto se puede hacer obteniendo dos cantidades que cuantifican lo anterior: el coeficiente
de determinación r2 y el coeficiente de correlación muestral o de Pearson rxy.
Hay que notar que existe una relación entre las cantidades STC, SCR y SCE, es decir la
relación entre estas tres sumas de cuadrados, que constituye un resultado de suma
importancia en estos temas. Esta relación es STC = SCR+SCE.
El cociente SCR/STC, puede tomar valores entre 0 y 1 y evalúa la bondad del ajuste de la
ecuación de regresión estimada.
Los valores de este coeficiente estarán entre -1 y +1. El valor +1 indica una perfecta relación
lineal positiva. Es decir todos los puntos de datos se encuentran en una recta con pendiente
positiva.
Este coeficiente se calcula una vez obtenido el anterior coeficiente de determinación r2,
mediante: rxy= (signo de b1)√𝑐𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑑𝑒 𝑑𝑒𝑡𝑒𝑟𝑚𝑖𝑛𝑎𝑐𝑖ó𝑛. O rxy= (signo de b1)√𝑟 2 .
Cuando se tiene una relación lineal entre dos variables, tanto r2 como rxy muestral
proporcionan medidas de la fuerza de la relación obtenida.
También se usa para otras relaciones lineales en las que hay dos o más variables
independientes. Como en el caso de la regresión lineal múltiple que se estudiara en el
siguiente tema. También r2 tiene una variante llamada coeficiente de determinación
ajustado que se verá en ese tema.
Cuando no hay posibilidades para examinar más variables regresoras xi respecto a una
y; el investigador decide según sus objetivos que valores de r2 son aceptables.
Ejemplo 1. Usando EXCEL. Una muestra de 10 restaurantes de la cadena Armando’Pizza
Parlos ubicados cerca de algún campus universitario; se tomó como base para una
investigar la relación, posiblemente lineal entre el número de estudiantes (en miles) y las
ventas trimestrales (en miles de dólares) registradas por las compras del producto.
Restaurant. 1 2 3 4 5 6 7 8 9 10
Población estudiantil. 2 6 8 8 12 16 20 20 22 26
Ventas trimestrales. 58 105 88 118 117 137 157 169 149 202
A partir de estos datos: A). Obtenga en Excel el modelo de RLS. B). La tabla ANOVA. C)
Los valores de del coeficiente de correlación R2, R2 ajustada y S. Y, D). La tabla de
coeficientes del modelo.
ei= yi - ŷi .
Así se obtiene.
Los supuestos del modelo constituyen la base teórica para probar que la relación entre X y
Y es significativa y para el uso del modelo como predicción mediante intervalos de confianza
y de predicción de la variable Y; que se verá en los problemas de aplicaciones de los
complementos educacionales de este tema.
Si los supuestos sobre el término del error Ԑ están en duda o no se cumplen, las pruebas
de hipótesis de la significancia del modelo lo mostraran. Por otra parte el uso del modelo
en la predicción de valores futuros de Y no tendrán validez estadística, si estos no se
cumplen.
Nota. Estas gráficas son laboriosas si se hacen en papel a mano. Por eso se recomienda
hacerlas en la computadora con algún software estadístico. Para estos apuntes se usara
minitab y se mostraran en los problemas resueltos de este tema. De hecho, además minitab
realiza adicionalmente una gran variedad de cálculos y gráficas para auxiliar en el análisis
estadístico de la regresión.
2. Una varianza igual de Ԑ, denotada por σ2 para todos los valores igual de x. Se hace
mediante una gráfica de residuos contra valores predichos 𝑦̂ .
Como ayuda de interpretación, se muestran las siguientes tres formas generales de las
gráficas de residuos. Figuras a, b, y c.
2. Gráfica de residuos contra los valores predichos 𝒚 ̂. Para se cumpla este supuesto la
figura deseada es la c, de las anteriores. Así esta mostrara que la varianza de Ԑ es la
misma para todos los valores de X y podemos diagnosticar que el modelo de regresión
representa de forma adecuada la relación entre las variables X y Y.
La figura a de las anteriores muestra otra forma que pueden adoptar las gráficas de
residuales. En este caso, se concluye que el modelo de regresión empleado no representa
de manera adecuada la relación entre las variables y entonces deberá considerarse un
modelo de regresión curvilíneo o múltiple.
Nota. Hay que recordar que una variable aleatoria se estandariza mediante, la formula z =
𝑥−µ
𝜎
, que es lo que se hace con los residuos del modelo y luego con ellos se aplica la prueba
de normalidad común.
Cuando se emplea en regresión lineal el método de los mínimos cuadrados la media de los
valores es cero, es decir E (Ԑ)=0, y tiene una varianza σ2.
La forma de esta gráfica deberá parecerse, al tipo c descrito para cumplir el supuesto 3. Si
el supuesto se cumple el 95% de residuales estandarizados estarán entre -2 y +2; en el eje
vertical.
4. Gráfica de probabilidad normal. Sirve para buscar evidencia de que el término del error
Ԑ tiene una distribución normal de probabilidad. En esta figura, los puntos normales de los
residuos están en el eje horizontal mientras que en el vertical están los residuos
estandarizados. El supuesto se verifica si los puntos que resultan están situados cerca de
una recta de 45 ° grados que pasa por el origen. Como esta interpretación es un tanto
subjetiva, se puede hacer una prueba de hipótesis formal de los residuos estandarizados;
como se vio en las pruebas de bondad de ajuste del curso anterior de Estadística Inferencial
I.
Así se obtiene.
Interpretación: Se hace una apreciación o diagnostico visual de los puntos o residuos
alrededor de esta línea (que no es de la ecuación de regresión). Si los puntos no aparecen
muy separados de ella el supuesto se cumple. También se puede realizar una prueba de
hipótesis de los residuos; utilizando un nivel de significancia α = 0.05 o el criterio del valor
P = 0.612, que aparece en el recuadro superior derecho de la gráfica.
Todos los gráficos anteriores se pueden generar en minitab; como este de normalidad.
Las gráficas de residuos anteriores son una técnica para evaluar la validez de los supuestos
en un modelo de regresión. Para la buena interpretación de estas figuras, la experiencia y
el criterio son fundamentales.
Y por último, si en la revisión de los supuestos, se encuentra que uno o más son dudosos,
habrá que considerar otro modelo de regresión diferente, o un modelo de regresión no
lineal. Un modelo diferente puede ser la misma variable Y con otra variable X de regresión
distinta.
Para realizar esta prueba, se utiliza una distribución t de Student de dos colas con v=n-2
grados de libertad para un nivel de significancia α dado. Existen varios procedimientos o
fórmulas para obtener el valor del estadístico de prueba. Una manera práctica es usando
minitab; para ayudar a dar el resultado de esta prueba.
1.8 APLICACIONES.
En los problemas (ABP) 1 y 2, se mostrara una aplicación de este tipo. Otras aplicaciones
serian.