Análisis de Regresión
Análisis de Regresión
Análisis de Regresión
REGRESIN LINEAL SIMPLE En estadstica la regresin lineal o ajuste lineal es un mtodo matemtico que modeliza la relacin entre una variable dependiente , las variables independientes X, y un trmino aleatorio . Este modelo puede ser expresado como: Donde es variable dependiente, explicada o regresando. : Es el valor de Y cuando X es igual a 0 : es el coeficiente de regresin que indica la pendiente de la recta de regresin
Ejemplo de una regresin lineal con una variable dependiente y una variable independiente
Mtodo de los mnimos cuadrados, el cual fue publicado por Legendre en 1805, y en dnde se inclua una versin del teorema de Gauss-Mrkov. Regresin lineal simple. Tiene como objeto estudiar cmo los cambios en una variable, no aleatoria, afectan a una variable aleatoria, en el caso de existir una relacin funcional entre ambas variables que puede ser establecida por una expresin lineal, es decir, su representacin grfica es una lnea recta. Cuando la relacin lineal concierne al valor medio o esperado de la variable aleatoria, estamos ante un modelo de regresin lineal simple. La respuesta aleatoria al valor x de la variable controlada se designa por Yx y, segn lo establecido, se tendr
De manera equivalente, otra formulacin del modelo de regresin lineal simple sera: si xi es un valor de la variable predictor a e Yi la variable respuesta que le corresponde, entonces
REGRESION LINEAL SIMPLE. ESTIMACION Estimacin de los parmetros de la recta de regresin. El primer problema a abordar es obtener los estimadores de los parmetros de la recta de regresin, partiendo de una muestra de tamao n, es decir, n pares (x1, Y1) , (x2, Y2), ..., (xn, Yn); que representan nuestra intencin de extraer para cada xi un individuo de la poblacin o variable Yi . Una vez realizada la muestra, se dispondr de n pares de valores o puntos del plano (x1, y1) , (x2, y2), ..., (xn, yn). El mtodo de estimacin aplicable en regresin, denominado de los mnimos cuadrados, permite esencialmente determinar la recta que "mejor" se ajuste o mejor se adapte a la nube de n puntos. Las estimaciones de los parmetros de la recta de regresin obtenidas con este procedimiento son:
Por ejemplo: La recta de regresin representada corresponde a la estimacin obtenida a partir de 20 pares de observaciones: x representa la temperatura fijada en un recinto cerrado e Y el ritmo cardaco de un vertebrado.
REGRESION CURVILINEA Cuando las variables X e Y se relacionan segn una lnea curva, se habla de regresin no lineal o curvilnea. Es una funcin de segundo grado la que se ajusta lo suficiente a la situacin real dada. La expresin general de un polinomio de segundo grado es: Y =a+bX+cX2 donde a , b y c son los parmetros.
El problema consiste, por tanto, en determinar dichos parmetros para una distribucin dada. Se seguir para ello, un razonamiento y la utilizacin de las ecuaciones normales de Gauss. Las ecuaciones normales son: Y = na + b X + C X2 (1) X Y = a X + b X2 + C X3 (2) X2 Y = a X2 + b X3 + C X4 (3) Para lo cual se necesita elaborar el cuadro con cada una de las variables que aparecen en las ecuaciones normales y los resultados obtenidos en este sustituirlos en ellas para encontrar los valores de las constantes. Para encontrar los valores de las constantes utilizaremos matrices. Una matriz es un conjunto de elementos de cualquier naturaleza aunque, en general, suelen ser nmeros ordenados en filas y columnas. Se llama matriz de orden "m n" a un conjunto rectangular de elementos aij dispuestos en m filas y en n columnas. El orden de una matriz tambin se denomina dimensin o tamao, siendo m y n nmeros naturales. Las matrices se denotan con letras maysculas: A, B, C, ... y los elementos de las mismas con letras minsculas y subndices que indican el lugar ocupado: a, b, c, ... Un elemento genrico que ocupe la fila i y la columna j se escribe aij . Si el elemento genrico aparece entre parntesis tambin representa a toda la matriz : A = (aij) Al encontrar los valores de las constantes que buscamos sustituimos los valores en la ecuacin de regresin curvilnea para obtener los resultados que buscamos. Y poder estimar. Hacer las estimaciones correspondientes. Algunas de las regresiones curvilneas son las siguientes
PARBOLA DE REGRESIN
En muchos casos, es una funcin de segundo grado la que se ajusta lo suficiente a la situacin real dada. La expresin general de un polinomio de segundo grado es: Y=a+bX+cX2 Donde a , b y c son los parmetros. El problema consiste, por tanto, en determinar dichos parmetros para una distribucin dada. Se seguir para ello, un razonamiento similar al que se hace en el caso del modelo de regresin lineal simple, utilizando el procedimiento de ajuste de los mnimos cuadrados, es decir, haciendo que la suma de los cuadrados de las desviaciones con respecto a la curva de regresin sea mnima:
Donde y i son los valores observados de la variable dependiente, y y *i valores estimados segn el modelo;
Para encontrar los valores de a , b y c que hacen mnima la expresin anterior, se igualarn las derivadas parciales de D con respecto a dichos parmetros a cero y se resolver el sistema resultante. Las ecuaciones que forman dicho sistema se conocen, igual que en el caso de la regresin lineal simple, como ecuaciones normales de Gauss.
REGRESIN HIPERBLICA Cuando la dependencia entre las variables X e Y es de forma hiperblica, interesa ajustar a la nube de puntos una funcin del tipo:
Donde
Por lo tanto,
Para minimizar la expresin, se calculan las derivadas parciales respecto a los parmetros a y b, igualando a cero:
FUNCIN EXPONENCIAL, POTENCIAL, Y LOGARTMICA El problema de ajustar un modelo potencial, de la forma Y = A X b y uno exponencial Y = A B X se reduce al de la funcin lineal, con solo tomar logaritmos.
La regresin lineal mltiple estima los coeficientes de la ecuacin lineal, con una o ms variables independientes, que mejor prediga el valor de la variable dependiente. Por ejemplo, se puede intentar predecir el total de facturacin lograda por servicios prestados en una IPS cada mes (la variable dependiente) a partir de variables independientes tales como: Tipo de servicio, edad, frecuencia del servicio, tipo de usuario y los aos de antigedad en el sistema del usuario.
En la regresin lineal mltiple se utilizan ms de una variable explicativa; esto nos ofrece la ventaja de utilizar ms informacin en la construccin del modelo y, consecuentemente, realizar estimaciones ms precisas.
Al tener ms de una variable explicativa (no se debe de emplear el trmino independiente) surgirn algunas diferencias con el modelo de regresin lineal simple. El Modelo de regresin lineal mltiple El modelo de regresin lineal mltiple es idntico al modelo de regresin lineal simple, con la nica diferencia de que aparecen ms variables explicativas: Modelo de regresin simple:
5.2. CORRELACIN.
La correlacin es la forma numrica en la que la estadstica ha podido evaluar la relacin de dos o ms variables, es decir, mide la dependencia de una variable con respecto de otra variable independiente. En probabilidad y estadstica, la correlacin indica la fuerza y la direccin de una relacin lineal y proporcionalidad entre dos variables estadsticas. La correlacin trata de establecer la relacin o dependencia que existe entre las dos variables que intervienen en una distribucin bidimensional. Es decir, determinar si los cambios en una de las variables influyen en los cambios de la otra. En caso de que suceda, diremos que las variables estn correlacionadas o que hay correlacin entre ellas.
Tipos de correlacin 1 Co rre la cin d irect a La correlacin directa se da cuando al aumentar una de las variables la otra aumenta. La recta correspondiente a la nube de puntos de la distribucin es una recta creciente.
2 Co rre la cin in ve rsa La correlacin inversa se da cuando al aumentar una de las variables la otra disminuye. La recta correspondiente a la nube de puntos de la distribucin es una recta decreciente.
3 Co rre la cin nu la La correlacin nula se da cuando no hay dependencia de ningn tipo entre las variables. En este caso se dice que las variables son incorreladas y la nube de puntos tiene una forma redondeada.
Grado de correlacin El grado de correlacin indica la proximidad que hay entre los puntos de la nube de puntos. Se pueden dar tres tipos: 1 . Co rre la ci n f ue rt e La correlacin ser fuerte cuanto ms cerca estn los puntos de la recta.
2 . Co rre la ci n d bil La correlacin ser dbil cuanto ms separados estn los puntos de la recta.
3 . Co rre la ci n n u la
5.3. REGRESIN Y CORRELACIN PARA DATOS AGRUPADOS. REGRESIN PARA DATOS AGRUPADOS. REGRESIN MNIMO-CUADRTICA Consiste en explicar una de las variables en funcin de la otra a travs de un determinado tipo de funcin (lineal, parablica, exponencial, etc.), de forma que la funcin de regresin se obtiene ajustando las observaciones a la funcin elegida, mediante el mtodo de Mnimos-Cuadrados (M.C.O.). Elegido el tipo de funcin ( ) la funcin de regresin concreta se obtendr minimizando la expresin:
(xi - (yj ) ) 2. nij en el caso de la regresin de X/Y Puede probarse que es equivalente ajustar por mnimos cuadrados la totalidad de las observaciones (toda la nube de puntos) que realizar el ajuste de los puntos obtenidos por la regresin de la media; de forma que la regresin mnimocuadrtica viene ser, en cierto modo, la consecucin de una expresin analtica operativa para la regresin en sentido estricto.
CORRELACIN PARA DATOS AGRUPADOS Primero tendremos que pensar que se genera una matriz, ya que, ahora estamos juntando dos tablas de distribucin de frecuencias y por ello nuestros clculos sern ms laboriosos, por lo que les recomiendo el uso de una hoja de calculo o al menos una calculadora con regresin para datos agrupados. De cualquier forma aqu tambin estamos evaluando numricamente si existe relacin entre dos variables y lo haremos con la siguiente ecuacin.
En donde podemos encontrar k como el nmero de clases para la variable "y" y l para el nmero de clases de "x". Tambin podemos observar que hay varios tipos de "f" es decir, la que se encuentra sola (sin subndice) que nos habla de las frecuencias celdares (cada una de las frecuencias que se encuentran en la interseccin entre una columna y un rengln) y las "f" con subndices que representan las frecuencias de cada una de las variables. Para entender el uso de esta formula usaremos un ejemplo: Los resultados que se presentan en la siguiente tabla representan los pesos y las estaturas de 48 alumnos entrevistados el "da Anhuac"
fy
4 19 9 7 5 4 48 82.06
fx y
178 1035.5 580.5 521.5 422.5 378 3116
fx y^2
7921 56434.75 37442.25 38851.75 35701.25 35721 212072
fx x^2 0
21.48 32.47 51.76 23.82 11.349 140.89 3225 23 5425 8175 075 82 f x y 5380.77
Correlacin= 0.695
Al interpretar nuestro resultado podemos concluir que si existe relacin entre el peso y la estatura, es decir, que a mayor estatura mayor peso.
En muchas ocasiones el resultado de la correlacin es negativo y lo que debemos pensar es que la relacin de las variables involucradas en el calculo es inverso es decir que en la medida que crece la variable independiente la variable dependiente decrece:
5.4. CORRELACIN POR RANGOS. La correlacin de Spearman, o por rango, se basa en reemplazar los valores originales de ambas variables, por nmeros enteros positivos, comenzando por 1 en adelante, que correspondan a su ordenamiento de mayor de menor a mayor magnitud. Para ello, lo valores reales de cada una de las variables son ordenados de menor a mayor, por separado y reemplazados por rango.
Para calcular el coeficiente de correlacin de spearman o por rangos usamos la siguiente expresin: Donde = coeficiente de correlacin de Spearman ( =rho) = Cuadrado de la diferencia entre los rangos de X e Y n =numero de parejas
La correlacin de Spearman es un excelente mtodo para cuantificar la relacin entre dos escalas de valores discretos y/o con jerarqua (ordinales). Tambin es una excelente opcin cuando los dos datos no tienen distribucin Normal bivariante, especialmente si hay valores extremos. El mtodo de Spearman permite calcular correlacin, pero solo entre dos variables, este mtodo tampoco permite hacer regresin, es decir, no se puede modelar la variable respuesta Y, con varios predictores en forma simultanea o ver la influencia de un pre editor sobre otro. En este sentido, el mtodo es mucho menos poderoso, que la regresin lineal o logstica.
5.5. COEFICIENTE DE CORRELACIN PARA DATOS NOMINALES. Coeficiente de contingencia. Este se aplica para variables nominales. Cuando los valores de dos variables no pueden ser ordenados, sino que tienen que ser clasificados, para determinar la relacin entre esas dos variables empleamos el coeficiente de contingencia.
El coeficiente de contingencia posee una serie de caractersticas, estas son: 5.No existe relacin entre las variables, por tanto diremos que estas tendrn una proporcin similar. 6. Se utiliza para evitar el efecto del tamao de la muestra. 7.En una tabla de dos filas por columna es recomendable realizar la correccin de Yates. Tambin este tipo de correlacin posee una serie de propiedades que tenemos que tener en cuenta: El coeficiente de contingencia C est comprendido entre 0 y 1. El coeficiente C presenta el valor cero cuando la relacin entre las variables es nula, pero nunca alcanza el valor 1. El mximo depender del nmero de filas y columnas. qEl coeficiente C indica la intensidad de relacin entre las variables que se estn midiendo. qEl valor de C depende del nmero de filas y columnas de la tabla de contingencia construido para su calculo. qEl coeficiente C no es comparable a otros coeficientes de correlacin, valores similares indicara diferentes grados de correlacin.
Ejemplo Queremos determinar si existe relacin entre el sexo y la especialidad cursada para los alumnos que estudian Magisterio, a partir de los datos corre spondientes a 349 alumnos de una escuela de Magisterio. Distribucin conjunta de frecuencias para sexo y especialidad.
En primer lugar calcularemos el valor de X . Partiendo del supuesto de que no hay relacin entre las dos variables, es preciso calcular las frecuencias esperadas en cada celdilla de la tabla. Por ejemplo, la proporcin de alu mnos que estudian ciencias tiene que ser similar a las alumnas que estudian ciencias. Hombres 70/178=0,39, y alumnas 40/171=0,23.Por esto