Análisis de Regresión y Correlación
Análisis de Regresión y Correlación
Análisis de Regresión y Correlación
Introducción
Muchas veces las decisiones se basan en la relación entre dos o más variables.Ejemplos
La relación entre la radiación que reciben los sensores con la que se predicen los rendimientos por parcelas con
los rendimientos reales observados en dichas parcelas.
Relación entre tamaño de un lote de producción y horas -hombres utilizadas para realizarlo.
Y=f(X)
Ejemplo 1
2 25 50
3 130 260
Figura 1
Ejemplo 2
2 20 50
3 60 128
4 80 170
5 40 87
Figura 2
Nota: La mayor parte de los punto no caen directamente sobre la línea de relación estadística.
Figura 3
Coordenadas de puntos de control utilizados para corregir la columna de los niveles digitales de una imagen
satelital
Nota: se trata de un terreno rugoso donde varían notablemente las condiciones de observación del sensor, para
corregir errores geométricos de la imagen, se aplican funciones de segundo grado. Los datos sugieren que la
relación estadística es de tipo curvilínea.
Conceptos básicos
Análisis de Regresión: ES un procedimiento estadístico que estudia la relación funcional entre variables.Con el
objeto de predecir una en función de la/s otra/s.
Análisis de Correlación: Un grupo de técnicas estadísticas usadas para medir la intensidad de la relación entre
dos variablesmy
Diagrama de Dispersión: ES un gráfico que muestra la intensidad y el sentido de la relación entre dos variables
de interés.
Variable dependiente (respuesta, predicha, endógena): es la variable que se desea predecir o estimar
Variables independientes (predictoras, explicativas exógenas). Son las variables que proveen las bases para
estimar.
Regresión no lineal: La función que relaciona los parámetros no es una combinación lineal
Gráfico de dispersión
Los diagramas de dispersión no sólo muestran la relación existente entre variables, sino también resaltan las
observaciones individuales que se desvían de la relación general. Estas observaciones son conocidas como
outliers o valores inusitados, que son puntos de los datos que aparecen separados del resto.
- Valores negativos indican una relación lineal inversa y valores positivos indican una relación lineal directa
Ausencia de Correlación
Correlación Fuerte y Positiva
Modelos de Regresión
Un modelo de regresión, es una manera de expresar dos ingredientes esenciales de una relación estadística:
- Una tendencia de la variable dependiente Y a variar conjuntamente con la variación de la o las X de una
manera sistemática
Nota: en esta figura se muestran las distribuciones de probabilidades de Y para distintos valores de X
Análisis de Regresión
• Objetivo: determinar la ecuación de regresión para predecir los valores de la variable dependiente (Y) en base
a la o las variables independientes (X).
• Procedimiento: seleccionar una muestra a partir de la población, listar pares de datos para cada observación;
dibujar un diagrama de puntos para dar una imagen visual de la relación; determinar la ecuación de regresión.
Sección A
Sección C
No hay relación
Sección B
a = (∑Y)/n - b.(∑X)/n
La lógica del desarrollo de un estimador de σ² para el modelo de regresión es la misma que cuando se muestrea
una sola población
La variancia de cada observación Yi es σ²,la misma que la de cada término del error
Dado que los Yi provienen de diferentes distribuciones de probabilidades con medias diferentes que dependen
del nivel de X, la desviación de una observación Yi debe ser calculada con respecto a su propia media estimada
Yi.
Yi - Ŷi = ei
La suma de cuadrados del error, tiene n-2 grados de libertad asociados con ella, ya que se tuvieron que estimar
dos parámetros.
Por lo tanto, las desviaciones al cuadrado dividido por los grados de libertad, se denomina cuadrados medios
Donde CM es el Cuadrado medio del error o cuadrado medio residual. Es un estimador insesgado de σ²
(Yi - Yi)
Consideremos la desviación
(Yi - Yi)
Podemos descomponerla en
(R): es la desviación del valor ajustado por la regresión con respecto a la media general
Si consideremos todas las observaciones y elevamos al cuadrado para que los desvíos no se anulen
Dividiendo por los grados de libertad, (n-1), (k) y (n-2), respectivamente cada suma de cuadrados, se obtienen
los cuadrados medios del análisis de variancia.
Coeficiente de Determinación
Inferencia en Regresión
Los supuestos que establecimos sobre los errores nos permiten hacer inferencia sobre los parámetros de
regresión (prueba de hipótesis e intervalos de confianza), ya que los estimadores de β0 y β1 pueden cambiar su
valor si cambia la muestra.
Por lo tanto debemos conocer la distribución de los estimadores para poder realizar prueba de hipótesis e
intervalos de confianza
Ejemplo:
Se desean comparar los rendimientos predichos a partir de la información obtenida por 3 sensores sobre los
rendimientos reales por parcelas de lotes de maíz. Los rendimientos (Y) y el los rindes predichos de 4 sensores
se presentan a continuación
Y = 338.71*X - 4.87
R² = 0.32
Y = 155.37*X - 13.25
R² = 0.57
Y = -1004.34*X +112.24
R² = 0.44