3) Ajustamiento Lineal y Correlación
3) Ajustamiento Lineal y Correlación
3) Ajustamiento Lineal y Correlación
Análisis de regresión:
En muchos problemas existen dos o más variables que se encuentran relacionadas de alguna manera y en
donde resulta necesario explorar la naturaleza de esa relación. El análisis de regresión es una técnica
estadística utilizada para el modelado y la investigación de la relacion existente entre dos o más variables.
Para el caso de variables cualitativas o cuantitativas (principalmente discretas), es común utilizar la tabla
de contingencia.
Cuando dos variables cualesquiera X i e Y i están relacionadas por una expresión matemática de cualquier
tipo, se dice que entre ellas existe una dependencia funcional, tal que a determinados valores de la variable
X i le corresponden determinados valores de la variable Y i. En cambio, se dice que entre dos variables X i e
Y i existe una dependencia estadística cuando se presupone que entre ambas existe algún tipo de relacion
mediante la cual, para determinados valores de la variable X i existe una correspondencia no determinística
con los valores de la variable Y i .
Definición: la teoría del ajustamiento lineal trata sobre los procedimientos destinados a ajustar linealmente los
puntos del diagrama de dispersión, lo que significa hallar la función de primer grado que mejor explique la
dependencia estadística existente, es decir que mejor explique el comportamiento de los n puntos del diagrama.
Este procedimiento difiere de la interpolación, que consiste en hallar la función de grado (n−1) que pase por
todos los puntos, lo que resulta una tarea un tanto laboriosa como excesiva por varias razones, a saber:
Los puntos señalados en el diagrama de dispersión son el reflejo de los datos empíricos registrados,
usualmente provenientes de una muestra. Ahora bien, muestras diferentes pueden dar lugar a resultados
diferentes, con lo cual los puntos de un diagrama de dispersión no coincidirán con los de otro diagrama y
será necesario recalcular todo el proceso de interpolación.
Con el ajustamiento lineal se pretende explicar el comportamiento de los puntos del diagrama de
dispersión, lo que significa hallar la función que muestre la tendencia general que sigue el fenómeno bajo
estudio. Con la interpolación, en cambio, se pretende encontrar una función que pase por todos los puntos.
Además de describir linealmente la relación existente entre dos variables, otro de los objetivos del ajustamiento
lineal es la estimación o el pronóstico, es decir una vez hallada la expresión de la función de primer grado, ella
puede ser utilizada para estimar valores de la variable dependiente Y i para valores seleccionados de la variable
independiente X i .
b) Método objetivo: método de los mínimos cuadrados, procedimiento propuesto por el matemático alemán
Gauss, quien sugirió un criterio objetivo para determinar cuál es la mejor recta de ajustamiento. De acuerdo
a este criterio, esta recta es aquella que minimiza la sumatoria de los cuadrados de los desvíos existentes
entre los puntos empíricos del diagrama de dispersión y la propia recta de ajustamiento.
Método de los mínimos cuadrados:
^ i=a1+ b1 X i que cumpla con las condiciones sugeridas por Gauss. Para
Consiste en encontrar la función: Y
ello se deben analizar los desvíos o residuos del modelo de regresión. Un desvío d i es la diferencia entre un
^ i , es decir d i=Y i−Y^ i. En la figura se
punto empírico de ordenada Y i y un punto teórico de ordenada Y
observa el desvío de un punto empírico cualquiera de coordenadas ( X i ; Y i ).
En la figura se observa que los desvíos pueden ser: positivos (el punto empírico está por encima de la recta
de ajuste), negativos (el punto empírico está por debajo de la recta de ajuste) o nulos (el punto empírico
coincide con la recta de ajuste). Considerando ahora todos los posibles desvíos en el diagrama de dispersión,
si los elevamos al cuadrado y los sumamos, se obtiene la siguiente expresión:
n n n
φ=∑ d i =∑ ( Y i−Y^ i ) =∑ ( Y i−a1−b 1 X i )
2 2 2
El postulado de Gauss expresa que la mejor recta de ajuste es aquella que minimiza la sumatoria de los
cuadrados de los desvíos. Si bien en un plano existen infinitas rectas, cada una con un par de coeficientes a 1
y b 1, de todas ellas solo una cumple con la condición impuesta por Gauss. Para hallar los coeficientes a 1 y
b 1 que identifican a dicha recta se minimiza la función φ :
[∑ ( ]
n
min [ φ ]=min Y i−a1−b1 X i )2
i=1
Para ello se obtiene la derivada primera de la función φ respecto de los coeficientes a 1 y b 1 e igualando a
cero:
n n
∂φ
=2 ∑ ( Y i−a 1−b1 X i ) (−1 )=−2 ∑ ( Y i −a1−b1 X i )=0
∂ a1 i=1 i=1
n n
∂φ
=2 ∑ ( Y i−a 1−b1 X i ) (−X i ) =−2 ∑ ( Y i X i−a1 X i−b 1 X i2 ) =0
∂ b1 i=1 i=1
∑ Y i=n a1 +b 1 ∑ X i
i=1 i=1
∑ Y i X i =a1 ∑ X i +b1 ∑ X i2
i=1 i=1 i=1
Expresión denominada segunda ecuación normal de Gauss. Ambas ecuaciones normales conforman un
sistema de dos ecuaciones lineales con dos incógnitas ¿yb 1 ¿. Aplicando el método de los determinantes:
∆ a1 ∆ b1
a 1= b 1=
∆ ∆
Donde:
∆ a1=
|∑∑ Yi
Y i Xi ∑ X i2 |
∑ X i =∑ Y i ∑ X i2−∑ Y i X i ∑ X i.
∆ b 1=
|∑n
Xi ∑ Y i Xi |
∑ Y i =n ∑ Y i X i−∑ Y i ∑ X i.
∆=
| n
∑ Xi ∑ X i2 |
∑ X i =n ∑ X i2 −(∑ X i )2.
Reemplazando:
a 1=
∑ Y i ∑ X i2 −∑ Y i X i ∑ X i b = n ∑ Y i X i−∑ Y i ∑ X i
2 1 2
n ∑ X i −( ∑ X i ) n ∑ X i −( ∑ X i )
2 2
Ambos coeficientes son calculados a partir de expresiones basadas exclusivamente en datos obtenidos
empíricamente. Lo que resta analizar es si el punto crítico obtenido corresponde a un máximo, a un mínimo
o a un punto de ensilladura. Para ello calculamos el determinante del Hessiano:
| | ( )
2
φ φa b ∂2 φ ∂2 φ ∂2 φ ∂2 φ ∂ 2 φ ∂2 φ ∂2 φ
|H (a1 ,b 1)|= a a 1 1 1
= 2
1
− = −
φb a 1 1
φb b ∂ a1 ∂ b21 ∂ b 1 ∂ a1 ∂ a1 ∂ b1 ∂ a 21 ∂ b 21 ∂ a 1 ∂ b1
1 1
Donde:
2
∂ φ ∂
2
=
∂ a 1 ∂ a1
[−2 ∑ ( Y i−a1−b 1 X i) ]=2 n
2
∂ φ ∂
2
=
∂ b 1 ∂ b1
[
−2 ∑ ( Y i X i −a1 X i−b1 X i ) =2 ∑ X i
2 2
]
2
∂ φ ∂
=
∂ a1 ∂ b1 ∂ b 1
[−2 ∑ ( Y i−a1−b1 X i ) ] =2 ∑ X i
Reemplazando:
2 2
|H (a1 ,b 1)|=2n ∙ 2 ∑ X 2i −( 2 ∑ X i ) =4 n ∑ X 2i −4 ( ∑ X i )
[
∑ X 2i −4 n2 (∑ X i ) =4 n2 ∑ X 2i −X 2 =4 n2 S2 ≥0
]
2
|H ( a 1 , b1 )|=4 n 2
n n2 n X
2
Donde el carácter ≥ 0 esta dado por S X , que es la varianza de la variable X i . Además, sabemos que
2
S X =0 ⇔ X i=cte , en ese caso no existe dependencia lineal entre las variables. Por lo tanto, al ser
|H ( a 1 , b1 )|=4 n2 S 2X >0 y φ a a =2 n>0 estamos en presencia de un mínimo.
1 1
Además, es interesante observar que es posible arribar a la misma conclusión recordando la segunda
propiedad de la media aritmética. En efecto, si se analiza la primera ecuación normal de Gauss.
n n n n
Vemos que, en su recorrido a través del diagrama de dispersión, la recta de ajustamiento se comporta como
una medida de posición, aunque de carácter dinámico (no de carácter estático, como es el caso de la media
aritmética) ya que ∑ ( Y i−Y^ i ) =0. Desde el punto de vista de la estadística, la interpretación de los
coeficientes es la siguiente:
El coeficiente a 1 indica cuál es la cantidad promedio de la variable Y i para un valor igual a cero de la
variable X i .
Método abreviado:
Este método se basa en la transformación de la variable X i a efectos de simplificar las fórmulas que definen
los coeficientes a 1 y b 1. Para ello, se define la variable x i =X i −X mediante la cual se verifica que:
Por la segunda propiedad de la media aritmética. De esta manera, si se efectuara el desarrollo teórico para
encontrar las fórmulas de los coeficientes con las variables x i e Y i las ecuaciones normales que se obtendrán
tendrán la forma:
De ambas ecuaciones normales, mediante el pasaje de términos, se obtienen las expresiones para calcular los
nuevos coeficientes mediante el método abreviado:
Si bien el método abreviado permite calcular los coeficientes mediante fórmulas más breves, al concluir el
cálculo no se obtienen a 1 y b 1. Para llegar a esos valores se parte de considerar las dos expresiones posibles
para la recta de ajustamiento:
Y^ i=a1+ b1 X i
Y^ i=a1+ b1 xi
' '
Comparando:
'
b 1=b1
' '
a 1=a1−b1 X=Y −b1 X
'
a1−a1
tan ( β )=b1= ⟹ a1=a'1−b 1 X =Y −b 1 X
X
El caso inverso consiste en que la variable independiente sea Y i en lugar de X i . Esta posibilidad puede
presentarse sólo teóricamente, dado que en cualquier problema de ajustamiento siempre se define
anticipadamente cuál es la variable independiente y se la designa con X i . Gráficamente, esto da lugar a la
aparición de una segunda recta de ajustamiento designada como:
^
X i =a2 +b 2 Y i
^ no coincide con el de ^
En general a 1 ≠ a2 , b 1 ≠ b2 y el trazado de Y X i . Las ecuaciones normales de la recta
i
de ajustamiento inversa ^
X i son similares a las correspondientes a Y^ i, pero con las variables cambiadas:
n n
∑ X i=n a 2+ b2 ∑ Y i
i=1 i =1
n n n
∑ X i Y i =a2 ∑ Y i +b2 ∑ Y i2
i=1 i=1 i=1
' '
Las fórmulas de los coeficientes a 2 y b 2 del caso inverso, calculados mediante el método abreviado, son:
Representando gráficamente ambas ecuaciones: Y ^ i=f ( X i) y ^X i =f (Y i) se puede observar que ambas
rectas se intersectan en el punto en (X , Y ). Si bien estas dos rectas son diferentes, el conjunto de datos que
relacionan es el mismo:
Para determinar matemáticamente esa intersección, partimos de la primera ecuación normal de Gauss para
ambas rectas:
n n n n
∑ Y i=n a1 +b 1 ∑ X i ∑ X i=n a2 +b 2 ∑ Y i
i=1 i=1 i=1 i=1
Y dividiendo por n :
∑ Y i =a +b ∑ X i ⟹ Y =a + b X
1 1 1 1
n n
∑ X i =a + b ∑ Y i ⟹ X =a +b Y
2 2 2 2
n n
Demostrando así que el punto de coordenadas (X , Y ) satisface ambas ecuaciones, por lo que ambas rectas
de ajustamiento pasan por ese punto.
En forma indirecta, dado un diagrama de dispersión determinado, si un ajustamiento lineal es bueno o no.
Entonces el coeficiente de correlación lineal suministra un valor objetivo mediante el cual es posible decidir
si resulta conveniente o apropiado considerar un ajustamiento lineal o, en caso contrario, buscar una solución
diferente (algún ajustamiento no lineal).
Existe un caso poco frecuente desde el punto de vista empírico denominado correlación lineal perfecta
(directa o inversa) en el cual todos los puntos del diagrama de dispersión se encuentran perfectamente
^ e^
alineados y, por consiguiente, coinciden con las dos rectas de ajustamiento Y i X i.
Correlación lineal directa perfecta (izquierda). Correlación lineal inversa perfecta (derecha).
El coeficiente de correlación lineal r , puede calcularse mediante la fórmula de los momentos, propuesta por
Pearson y cuya expresión es:
COV (XY ) S xy
r= =
DS ( X ) DS (Y ) S x S y
Reemplazando cada uno de los términos de la ecuación anterior por sus correspondientes fórmulas de
trabajo, se obtiene la fórmula de trabajo del coeficiente de correlación:
Reemplazando por Y i= y i +Y :
Debido a que ∑ x i=0. Con idéntico criterio, reemplazando X i =xi + X en la fórmula de b '2:
Expresión que, además de posibilitar el cálculo de r a partir del producto de las pendientes de las rectas de
ajustamiento, permite extraer dos conclusiones:
^ y^
a) Las pendientes de las rectas de ajustamiento Y X i tienen el mismo signo (son crecientes, decrecientes
i
o nulas simultáneamente). De lo contrario, r no podría ser calculado.
La desviación total es la distancia vertical (Y i−Y ), entre los puntos empíricos Y i y la media aritmética
Y . Luego, la variación total es la sumatoria de los desvíos al cuadrado entre los puntos empíricos Y i y la
media aritmética Y :
n
VT =∑ ( Y i−Y )2
i=1
Dividiendo por n :
n
VT 1
= ∑ ( Y i −Y )2=S2y
n n i=1
i=1
i=1
Dividiendo por n :
n
VE 1
= ∑ ( Y i −Y^ i ) =S2y, x
2
n n i=1
Analizando esta expresión se puede observar que tiene la forma de una variancia, midiendo cómo se
alejan los puntos del diagrama de dispersión respecto de la media dinámica que es la recta de
ajustamiento Y^ . Esta variancia S2y , x se denomina “variancia del estimador de Y en X ” o simplemente,
i
“variancia del estimador”. La raíz cuadrada de la variancia del estimador es el error estándar del
estimador, S y , x .
En la figura se puede observar la diferencia entre los desvíos estándar S y y S y , x , donde el primero mide
como se alejan en promedio los puntos empíricos Y i respecto de la media aritmética Y , mientras que el
^ i.
segundo mide como se alejan en promedio los puntos empíricos Y i respecto de la recta de ajustamiento Y
Variación no explicada: se denomina así porque en su cálculo intervienen los puntos empíricos Y i , cuya
presencia en el diagrama de dispersión no se encuentra explicada por ningún modelo, ya que responden a
datos originados en observaciones experimentales, y en consecuencia, sujetos al azar.
Variación total: se denomina así porque resulta de la suma de las variaciones anteriores.
n n n
b) Tanto VE como VE pueden ser nulas (y por lo tanto también VT ). Esto ocurre cuando los puntos
^ coinciden con la media aritmética Y en el primer caso, y cuando los puntos empíricos Y i
teóricos Y i
^ en el segundo caso.
coinciden con los teóricos Y i
n n n n
n n n
n n n n n
n n n n n n n
^ i=a'1+ b'1 xi
Y
' '
Recordando que a 1=Y y b 1=b1 :
Y^ i−Y =a1 +b 1 x i
' '
n n
∑ ( Y^ i−Y ) =∑ b 1 x i
i=1 i=1
Partiendo de la ecuación:
n
Multiplicando y dividiendo por ∑ x i2 :
i=1
Si VE=0⟹ VE=VT ⟹r 2 =0 ⟹r =0
Si r =+1⟹ r 2=1 ⟹ VE=VT ⟹ VE=0 . Esto implica que Y i =Y ^ , los puntos empíricos
i
coinciden con los teóricos. La correlación lineal es perfecta con pendiente positiva.
Si r =−1⟹ r 2=1 ⟹ VE=VT ⟹ VE=0 . Esto implica que Y i=Y ^ , los puntos empíricos
i
coinciden con los teóricos. La correlación lineal es perfecta con pendiente negativa.
Si r =0 ⟹r 2=0 ⟹VE=0 ⟹ VE=VT . Esto implica que Y ^ =Y Los puntos teóricos coinciden
i
con la media aritmética. La correlación lineal es nula y las rectas de ajustamiento se cruzan a 90 ° .
Coeficiente de determinación (r 2 ):
Se denomina así al coeficiente de correlación lineal al cuadrado:
VE
r 2=
VT
Suele expresarse como porcentaje, y es un indicador objetivo para determinar qué porcentaje de la variación
total es explicado por el modelo lineal. Se presenta a continuación un cuadro con diferentes valores del
coeficiente de correlación lineal, con su correspondiente valor del coeficiente de determinación y una
calificación respecto de la calidad del ajustamiento lineal en cada caso.
Esto quiere decir que la relación entre dos variables puede existir y ser alta, pero eso no significa que una
dependa estadísticamente de la otra. Por ejemplo, entre las variables “número de fallecidos en una
ciudad” y “cantidad de pájaros en la misma ciudad” puede existir un grado de relación lineal inversa muy
estrecha (a menor número de pájaros, mayor número de fallecidos) pero sin embargo entre ellas no existe
ninguna dependencia. Lo que si existe en este caso es una tercera variable, la temperatura, o en otras
palabras, los meses del año para los cuales se toma la información (el investigador debe profundizar en
su búsqueda para descubrir la posible existencia de esas variables ocultas cuando realiza una
investigación de cualquier naturaleza), ya que se puede comprobar fácilmente que en los meses de baja
temperatura, tradicionalmente los de invierno, aumenta el número de personas fallecidas y disminuye el
número de aves debido a las migraciones. Por lo cual, las variables “número de personas fallecidas” y
“cantidad de aves” son estadísticamente independientes.
b) Un coeficiente de correlación lineal nulo implica que entre las variables bajo estudio no existe
correlación lineal, o bien, son linealmente independientes. Sin embargo, entre ellas puede existir alguna
correlación del tipo no lineal.
c) Recordando que:
Cov ( xy )
V ( x ± y )=V ( x )+V ( y ) ± 2Cov ( xy ) ⟹ r=
Sx Sy