Regresion Lineal Simple Estadistica Inferencial Ii PDF
Regresion Lineal Simple Estadistica Inferencial Ii PDF
Regresion Lineal Simple Estadistica Inferencial Ii PDF
UNIDAD I
CATEDRATICO: ING. OMAR SILVA GUTIERREZ
UNIDAD I
REGRESIÓN LINEAL SIMPLE Y CORRELACIÓN
Los análisis de regresión y correlación mostrarán como determinar la naturaleza y la fuerza de una relación
entre dos variables. Se aprenderá también a predecir con cierto grado de exactitud, el valor de una variable
desconocida basada en observaciones anteriores de esa variable y de otras.
El término regresión fue usado por primera vez como concepto estadístico en 1877 por Sir Francis Galton.
Galton efectúo un estudio que demostró que la altura de los hijos de padres altos tendía a retroceder o
regresar hacia la talla media de la población. Regresión fue el nombre que se le dio al proceso general de
predecir una variable (talla de los niños) a partir de otra (talla de los padres).
En el análisis de regresión, se desarrollará una ecuación de estimación, es decir, la fórmula matemática que
relaciona las variables conocidas con las desconocidas. Luego de haber aprendido el patrón de dicha
relación, se hace el análisis de correlación para determinar el grado de relación que hay entre las variables.
Así pues, el análisis de correlación nos dice con qué precisión la ecuación de estimación describe la relación.
El análisis de regresión se usa con propósitos de predicción. La meta del análisis de regresión es desarrollar
un modelo estadístico que se pueda usar para predecir los valores de una variable dependiente o de
respuesta basados en los valores de al menos una variable independiente o explicativa.
El análisis de regresión y correlación se basan en la relación o asociación existente entre dos o más
variables. La variable conocida recibe el nombre de variable independiente (x), mientras que la que
intentamos predecir se llama variable dependiente (y).
Relación Directa: Esta se presenta cuando al aumentar la variable independiente también lo hace la variable
dependiente.
El primer paso al determinar si existe una relación entre dos variables consiste en examinar la gráfica de
los datos observados (o desconocidos). Esta gráfica o diagrama recibe el nombre de Diagrama de
Dispersión.
El Diagrama de Dispersión nos proporciona dos tipos de información: visualmente podemos buscar los
patrones que indican que las variables están relacionadas después, si existe una relación entre ellas podemos
ver qué clase de línea o ecuación de estimación describe dicha relación.
• • • • •
• • • • • •
• • • • • •
• • • • • •
• • • • • •
• • • •
• • • • •• • • •
• •• •• • • • •• •
• • •• • • • • • • ••
• •• • • •• • • • •• • •
• •• ••• • • • • • • •
• • •• • • • • •• •
• • •• • •
Curvilíneo inverso Lineal inverso con Sin relación
más dispersión
Para calcular la línea de regresión con más precisión, aplicando una ecuación que relaciona las dos variables
matemáticamente.
La ecuación de una recta donde la variable dependiente Y está determinada por la variable independiente
X:
Intersección en Y
Y a bX
Y
Y a bX
Para ello se utiliza un Método Matemático llamado MINIMOS CUADRADOS, el cual usa los datos del
diagrama de dispersión y se obtiene con ellos la línea de mejor ajuste, es decir aquella línea que minimiza
el error entre los puntos estimados sobre la línea y los puntos reales observados que quedarán por encima
y por debajo de ella (suma de los cuadrados de los errores ).
b
XY n X Y
X nX
2 2
a Y - bX
a = intersección en Y.
SCXY
b Esta es otra forma de encontrar el valor de b
SCX
Donde:
n n
n n
( X i )( Yi )
SCXY ( X i X )(Yi Y ) X iYi i 1 i 1
i 1 i 1 n
2
n
Xi
SCX ( X i X )2 X i2 i 1
n n
i 1 i 1 n
Con estas dos ecuaciones podemos encontrar la línea de regresión del mejor ajuste para un conjunto de
datos cualquiera de dos variables de puntos de datos.
Para simplificar el uso de las fórmulas, se recomienda construir una tabla que contenga los valores de cada
una de las partes que las conforman.
La técnica matemática que determina los valores de a y de b que minimizan la suma de los cuadrados de
las diferencias se conoce como métodos de mínimos cuadrados.
Cualesquiera valores de a y b diferentes que los determinados por el método de mínimos cuadrados darán
como resultado una suma mayor que los cuadrados de las diferencias entre el valor real Y y el valor
pronosticado Y.
(Y Yˆ )
i
2
Para examinar que tan bien predice la variable independiente a la variable dependiente en el modelo
estadístico, es necesario desarrollar varias medidas de variación. La primera es la suma de cuadrados
totales (SCT); la cuál es una medida de variación de los valores Yi alrededor de su media Y . En un
análisis de regresión la variación total o suma de cuadrados total se puede dividir en la variación explicada
o suma de cuadrados de regresión (SCR), que es atribuible a la relación X y Y, y la variación no
explicada o suma de cuadrados del error (SCE), que es atribuible a otros factores distintos a la relación
entre X y Y.
n
SCE= (Y Yˆ )
i 1
i
2
n Yˆ b0 b1 X i
SCT= (Y Y ) 2
n
(Yˆ Y )
i
2
i 1 SCR= i
i 1
La suma de cuadrados de la regresión (SCR) representa la diferencia entre Ŷi (el valor de Y que se
pronostica a partir de la relación de regresión) y Ῡ(el valor promedio de Y). La suma de cuadrados del
error (SCE) representa parte de la variación en Y que no explica la regresión. Se basa en la diferencia entre
Yi y Ŷi. Estas medidas de variación se representan a continuación:
Suma de cuadrados total = suma de cuadrados de regresión + suma de cuadrados del error
SCT=SCR+SCE
La suma de los cuadrados totales (SCT) es igual a la suma de los cuadrados de las diferencias entre cada
valor de Y observado y el valor promedio de Y.
2
n
Yi
SCT Y i i 1
n n
SCT= (Y Y )
i 1
i
2
ó
i 1
2
La suma de los cuadrados de la regresión (SCR) es igual a la suma de los cuadrados de las diferencias entre
cada valor pronosticado de Y y el valor promedio de Y
n
SCR= (Yˆ Y )
i 1
i
2
=
2
n
Yi
SCR a Yi b X iYi i 1
n n
i 1 i 1 n
o también: SCR=SCT-SCE
La Suma de Cuadrados del Error es igual a la suma de los cuadrados de las diferencias entre cada valor
n n n n
SCE= (Y Yˆ )
i 1
i
2
Y 2i a Yi b X iYi
i 1 i 1 i 1
COEFICIENTE DE DETERMINACIÓN:
Por si mismos SCR, SCE y SCT tienen muy poco que puede interpretarse. Sin embargo, una sencilla razón
de la suma de cuadrados de regresión (SCR) entre la suma de cuadrados total (SCT) proporciona una medida
de la utilidad de la ecuación de regresión. La razón se llama Coeficiente de Determinación r² y se define
como:
r r2
SCXY
r
o también: SCX SCY
Dónde:
SCY Yi Y
n
2
i 1
O también:
Un valor muy cercano a 1, implica una asociación fuerte positiva entre ambas variables estudiadas.
Aunque el método de mínimos cuadrados proporciona una recta que se ajusta a los datos con una variación
mínima, se ha visto en el cálculo de la suma de cuadrados del error (SCT) que, a menos que todos los datos
observados estén sobre la recta de regresión, la ecuación de regresión no es un pronosticador perfecto. Igual
que no se espera que todos los valores sean idénticos a su media aritmética, tampoco puede pensarse que
todos los datos estén justo sobre la recta de regresión. Por tanto es necesario desarrollar un estadístico que
mida la variación de los valores Y reales a partir de los valores Y pronosticados, de la misma manera que
se desarrollo la desviación estándar como medida de variabilidad de cada observación alrededor de su
media. Esta desviación estándar alrededor de la recta de regresión se llama error estándar de la
estimación; y se representa mediante la siguiente fórmula:
SCE (Y Yˆ )
i i
2
Sxy i 1
n2 n2
ANALISIS RESIDUAL
El análisis residual es un enfoque gráfico para evaluar que tan adecuado es el modelo de regresión ajustado
a los datos. Además, este enfoque permite analizar las violaciones potenciales de las suposiciones del
modelo de regresión.
El error residual o estimado ei se define como la diferencia entre los valores observados (Yi ) y
pronosticado (Yˆi ) de la variable dependiente para un valor dado de X i . Entonces, se aplica la siguiente
definición.
ei Yi Yˆi
Para evaluar lo idóneo del modelo de regresión ajustado, se grafican los residuales en el eje vertical en
función de los valores correspondientes X i de la variable independiente en el eje horizontal.
Es posible determinar la existencia de una relación significativa entre las variables X e Y probando si 1
(la pendiente de la población) es igual a 0. Si la hipótesis se rechaza, la conclusión es que existe evidencia
de una relación lineal. Las hipótesis nula y alternativa se establecen como sigue:
b1 1
t
Sb 1
Donde:
SYX
Sb 1
SCX
n
SCX ( X i X )2
i 1
2
n
Xi
SCX X 2i i 1
n
i 1 n
Una alternativa para probar la existencia de una relación lineal entre las variables es establecer
una estimación del intervalo de confianza de 1 y determinar si el valor hipotético ( 1 0 ) está
incluido en este intervalo. La estimación del intervalo de confianza para 1 se obtiene como se
muestra en la siguiente ecuación:
bi tn2Sb1
Definimos viendo la ecuación que la estimación del intervalo de confianza para la pendiente se
obtiene tomando la pendiente de la muestra bi y sumando y restando el valor crítico del estadístico
t multiplicado por el error estándar de la pendiente.
Una estimación del intervalo de confianza para la respuesta media se puede desarrollar para hacer
inferencias acerca del valor promedio pronosticado de Y.
Donde:
1 ( X X )2
hi n i
( X i X )2
n
i 1
n tamaño de la muestra
X i =valor dado de X
Además de obtener una estimación del intervalo de confianza para el valor promedio, con
frecuencia es importante predecir la respuesta que se obtendrá para un valor individual. Aunque
la forma del intervalo de predicción estimado es similar a la del intervalo de confianza estimado
de la ecuación anterior; el intervalo de predicción estima un valor individual, no un parámetro. El
intervalo de predicción estimado para una respuesta individual YI en un valor dado X i se muestra
en la siguiente ecuación:
Donde:
Dónde:
MCR
F
MCE
SCR
MCR
p
SCE
MCE
n p 1
Una alternativa para probar la existencia de una relación lineal entre las variables es establecer
una estimación del intervalo de confianza de y determinar si el valor hipotético está
incluido en éste intervalo. La estimación del intervalo de confianza para se obtiene como se
muestra en la siguiente ecuación:
Definimos viendo la ecuación que la estimación del intervalo de confianza para la pendiente se
obtiene tomando la pendiente de la muestra b1 y sumando y restando el valor crítico del estadístico
t multiplicado por el error estándar de la pendiente.