Análisis de Regresión y Correlación

Análisis de Regresión y Correlación
Introducción
Muchas veces las decisiones se basan en la relación entre dos o más variables.Ejemplos
Dosis de fertilizantes aplicadas y rendimiento del cultivo.
La relación entre la radiación que reciben los sensores con la que se predicen los rendimientos por parcelas con
los rendimientos reales observados en dichas parcelas.
Relación entre tamaño de un lote de producción y horas -hombres utilizadas para realizarlo.
Distinguiremos entre relaciones funcionales y relaciones estadísticas
Relación funcional entre dos variables

Una relación funcional se expresa mediante una función matemática.
Si X es la variable independiente e Y es la variable dependiente, una relación funcional tiene la forma:
Y=f(X)
Ejemplo 1
Parcela Dosis Rendimiento(kg/h)

1 75 150
2 25 50
3 130 260
Figura 1
Relación funcional perfecta entre dosis y rendimientos
Nota: Las observaciones caen exactamente sobre la línea de relación funcional
Relación estadística entre dos variables

A diferencia de la relación funcional, no es una relación perfecta, las observaciones no caen exactamente sobre
la curva de relación entre las variables
Ejemplo 2
Lote de productos Tamaño del lote Horas hombre

1 30 73
2 20 50
3 60 128
4 80 170
5 40 87
Figura 2
Relación estadística entre tamaño del lote y horas hombre
Nota: La mayor parte de los punto no caen directamente sobre la línea de relación estadística.
Esta dispersión de punto alrededor de la línea representa la variación aleatoria
Figura 3
Coordenadas de puntos de control utilizados para corregir la columna de los niveles digitales de una imagen
satelital
Nota: se trata de un terreno rugoso donde varían notablemente las condiciones de observación del sensor, para
corregir errores geométricos de la imagen, se aplican funciones de segundo grado. Los datos sugieren que la
relación estadística es de tipo curvilínea.
Conceptos básicos
Análisis de Regresión: ES un procedimiento estadístico que estudia la relación funcional entre variables.Con el
objeto de predecir una en función de la/s otra/s.
Análisis de Correlación: Un grupo de técnicas estadísticas usadas para medir la intensidad de la relación entre
dos variablesmy
Diagrama de Dispersión: ES un gráfico que muestra la intensidad y el sentido de la relación entre dos variables
de interés.
Variable dependiente (respuesta, predicha, endógena): es la variable que se desea predecir o estimar
Variables independientes (predictoras, explicativas exógenas). Son las variables que proveen las bases para
estimar.
Regresión simple: interviene una sola variable independiente
Regresión múltiple: intervienen dos o más variables independientes.
Regresión lineal: La función es una combinación lineal de los parámetros.
Regresión no lineal: La función que relaciona los parámetros no es una combinación lineal
Gráfico de dispersión
Los diagramas de dispersión no sólo muestran la relación existente entre variables, sino también resaltan las
observaciones individuales que se desvían de la relación general. Estas observaciones son conocidas como
outliers o valores inusitados, que son puntos de los datos que aparecen separados del resto.
Gráfico de dispersión entre Bandas
Coeficiente de correlación lineal

El Coeficiente de Correlación (r) requiere variables medidas en escaLa de intervalos o de proporciones
- Varía entre -1 y 1.
- Valores de -1 ó 1 indican correlación perfecta.
- Valor igual a 0 indica ausencia de correlación.
- Valores negativos indican una relación lineal inversa y valores positivos indican una relación lineal directa
Correlación Negativa Perfecta
Correlación Positiva Perfecta
Ausencia de Correlación
Correlación Fuerte y Positiva
Fórmula para el coeficente de correlación (r) Pearson
Modelos de Regresión
Un modelo de regresión, es una manera de expresar dos ingredientes esenciales de una relación estadística:
- Una tendencia de la variable dependiente Y a variar conjuntamente con la variación de la o las X de una
manera sistemática
- Una dispersión de las observaciones alrededor de la curva de relación estadística
Estas dos características están implícitas en un modelo de regresión, postulando que:

- En la población de observaciones asociadas con el proceso que fue muestreado, hay una distribución de
probabilidades de Y para cada nivel de X.
- Las medias de estas distribuciones varían de manera sistemática al variar X.
Representación gráfica del modelo de Regresión Lineal
Nota: en esta figura se muestran las distribuciones de probabilidades de Y para distintos valores de X
Análisis de Regresión
• Objetivo: determinar la ecuación de regresión para predecir los valores de la variable dependiente (Y) en base
a la o las variables independientes (X).
• Procedimiento: seleccionar una muestra a partir de la población, listar pares de datos para cada observación;
dibujar un diagrama de puntos para dar una imagen visual de la relación; determinar la ecuación de regresión.
Supuestos de Regresión Lineal Clásica
• Cada error está normalmente distribuido con:
- Esperanza de los errores igual a 0
- Variancia de los errores igual a una constante σ².
- Covariancia de los errores nulas para todo i ≠ Ψ
Proceso de estimación de la regresión lineal simple

Modelo de regresión
Datos de la muestra
y = β0+ β1x + ε
x y
Ecuación de regresión x1 y1
x2 y2
E(y) = β0+ β1x . .
. .
Parámetros desconocidos . .
xn yn
β0.β1
Ecuación estimada de regresión
b0 y b1
y = b0+b1x
proporcionan estimados
Estadísticos de la muestra
β0 y β1
b0.b1
Líneas posibles de regresión en la regresión lineal simple
Sección A
Relación lineal positiva
Sección C
No hay relación
Sección B
Relación lineal negativa
Estimación de la ecuación de Regresión Simple

Y´ = a + b.X, donde:
- Y´ es el valor estimado de Y para distintos X.
- a es la intersección o el valor estimado de Y cuando X=0
- b es la pendiente de la línea, o el cambio promedio de Y´ para cada cambio en una unidad de X
- el principio de mínimos cuadrados es usado para obtener a y b:
a = (∑Y)/n - b.(∑X)/n
Mínimos cuadrados - Supuestos

El modelo de regresión es lineal en los parámetros.
Los valores de X son fijos en muestreo repetido.
El valor medio de la perturbación εi es igual a cero.
Homocedasticidad o igual variancia de εi.
No autocorrelación entre las perturbaciones.
La covariancia entre εi y Xi es cero.
El número de observaciones n debe ser mayor que el número de parámetros a estimar.
Variabilidad en los valores de X.

El modelo de regresión está correctamente especificado.
No hay relaciones lineales perfectas entre las explicativas.
Estimación de la variancia de los términos del error (σ²)
Debe ser estimada por varios motivos
Para tener una indicación de la variabilidad de las distribuciones de probabilidad de Y.
Para realizar inferencias con respecto a la función de regresión y la predicción de Y.
La lógica del desarrollo de un estimador de σ² para el modelo de regresión es la misma que cuando se muestrea
una sola población
La variancia de cada observación Yi es σ²,la misma que la de cada término del error
Dado que los Yi provienen de diferentes distribuciones de probabilidades con medias diferentes que dependen
del nivel de X, la desviación de una observación Yi debe ser calculada con respecto a su propia media estimada
Yi.
Yi - Ŷi = ei
Por tanto, las desviaciones son los residuales
Y la suma de cuadrados es:
La suma de cuadrados del error, tiene n-2 grados de libertad asociados con ella, ya que se tuvieron que estimar
dos parámetros.
Por lo tanto, las desviaciones al cuadrado dividido por los grados de libertad, se denomina cuadrados medios
Donde CM es el Cuadrado medio del error o cuadrado medio residual. Es un estimador insesgado de σ²
Análisis de Variancia en el análisis de regresión

El enfoque desde el análisis de variancia se basa en la partición de sumas de cuadrados y grados de libertad
asociados con la variable respuesta Y.
La variación de los Yi se mide convencionalmente en términos de las desviaciones
(Yi - Yi)
La medida de la variación total SC tot, es la suma de las desviaciones al cuadrado

∑(Yi - Yi)²
Desarrollo formal de la partición
Consideremos la desviación
(Yi - Yi)
Podemos descomponerla en
(Yi - Y) (Ŷi - Y) (Yi - Ŷi)

= +
T R E
(T): desviación total
(R): es la desviación del valor ajustado por la regresión con respecto a la media general
(E): es la desviación de la observación con respecto a la línea de regresión
Si consideremos todas las observaciones y elevamos al cuadrado para que los desvíos no se anulen
∑(Yi - Y)² ∑(Ŷi - Y)² ∑(Yi - Ŷi)²

= +
SC tot SC reg SCer
(SC tot): Suma de cuadrados total
(SC reg): Suma de cuadrados de la regresión
(SCer): Suma de cuadrados del error
Dividiendo por los grados de libertad, (n-1), (k) y (n-2), respectivamente cada suma de cuadrados, se obtienen
los cuadrados medios del análisis de variancia.
Coeficiente de Determinación
Coeficiente de Determinación, R2 - es la proporción de la variación total en la variable dependiente Y que es

explicada o contabilizada por la variación en la variable independiente X.
- El coeficiente de determinación es el cuadrado del coeficiente de correlación, y varia entre 0 y 1.
Cálculo del R² a través de la siguiente fórmula
R² = [∑(Ŷc - Y)²]/[∑(Ŷo - Y)²]
Inferencia en Regresión
Los supuestos que establecimos sobre los errores nos permiten hacer inferencia sobre los parámetros de
regresión (prueba de hipótesis e intervalos de confianza), ya que los estimadores de β0 y β1 pueden cambiar su
valor si cambia la muestra.
Por lo tanto debemos conocer la distribución de los estimadores para poder realizar prueba de hipótesis e
intervalos de confianza
Ejemplo:
Se desean comparar los rendimientos predichos a partir de la información obtenida por 3 sensores sobre los
rendimientos reales por parcelas de lotes de maíz. Los rendimientos (Y) y el los rindes predichos de 4 sensores
se presentan a continuación
¿Qué sensor refleja mejor el rendimiento de esa zona?
Descripción gráfica y cuantitativa de la relación entre cada sensor y el rendimiento
Y = 338.71*X - 4.87
R² = 0.32
Y = 155.37*X - 13.25
R² = 0.57
Y = -1004.34*X +112.24
R² = 0.44

Análisis de Regresión y Correlación

Cargado por

Copyright:

Formatos disponibles

Análisis de Regresión y Correlación

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Análisis de Regresión y Correlación

Cargado por

Copyright:

Formatos disponibles

Análisis de Regresión y Correlación

Dosis de fertilizantes aplicadas y rendimiento del cultivo.

Distinguiremos entre relaciones funcionales y relaciones estadísticas

Relación funcional entre dos variables

Si X es la variable independiente e Y es la variable dependiente, una relación funcional tiene la forma:

Parcela Dosis Rendimiento(kg/h)

Relación funcional perfecta entre dosis y rendimientos

Nota: Las observaciones caen exactamente sobre la línea de relación funcional

Relación estadística entre dos variables

Lote de productos Tamaño del lote Horas hombre

Relación estadística entre tamaño del lote y horas hombre

Esta dispersión de punto alrededor de la línea representa la variación aleatoria

Regresión simple: interviene una sola variable independiente

Regresión múltiple: intervienen dos o más variables independientes.

Regresión lineal: La función es una combinación lineal de los parámetros.

Gráfico de dispersión entre Bandas

Coeficiente de correlación lineal

- Valores de -1 ó 1 indican correlación perfecta.

- Valor igual a 0 indica ausencia de correlación.

Correlación Negativa Perfecta

Correlación Positiva Perfecta

Fórmula para el coeficente de correlación (r) Pearson

- Una dispersión de las observaciones alrededor de la curva de relación estadística

Estas dos características están implícitas en un modelo de regresión, postulando que:

- Las medias de estas distribuciones varían de manera sistemática al variar X.

Representación gráfica del modelo de Regresión Lineal

Supuestos de Regresión Lineal Clásica

• Cada error está normalmente distribuido con:

- Esperanza de los errores igual a 0

- Variancia de los errores igual a una constante σ².

- Covariancia de los errores nulas para todo i ≠ Ψ

Proceso de estimación de la regresión lineal simple

Líneas posibles de regresión en la regresión lineal simple

Relación lineal positiva

Relación lineal negativa

Estimación de la ecuación de Regresión Simple

- Y´ es el valor estimado de Y para distintos X.

- a es la intersección o el valor estimado de Y cuando X=0

- b es la pendiente de la línea, o el cambio promedio de Y´ para cada cambio en una unidad de X

- el principio de mínimos cuadrados es usado para obtener a y b:

Mínimos cuadrados - Supuestos

Los valores de X son fijos en muestreo repetido.

El valor medio de la perturbación εi es igual a cero.

Homocedasticidad o igual variancia de εi.

No autocorrelación entre las perturbaciones.

La covariancia entre εi y Xi es cero.

El número de observaciones n debe ser mayor que el número de parámetros a estimar.

Variabilidad en los valores de X.

No hay relaciones lineales perfectas entre las explicativas.

Estimación de la variancia de los términos del error (σ²)

Debe ser estimada por varios motivos

Para tener una indicación de la variabilidad de las distribuciones de probabilidad de Y.

Para realizar inferencias con respecto a la función de regresión y la predicción de Y.

Por tanto, las desviaciones son los residuales

Y la suma de cuadrados es:

Análisis de Variancia en el análisis de regresión

La variación de los Yi se mide convencionalmente en términos de las desviaciones

La medida de la variación total SC tot, es la suma de las desviaciones al cuadrado

Desarrollo formal de la partición

(Yi - Y) (Ŷi - Y) (Yi - Ŷi)