CORRELACION Y REGRESIÒN EN ESTADISTICA

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 8

República Bolivariana De Venezuela

Ministerio del Poder Popular Para La Educación Superior Universitaria


Universidad Nacional Experimental Simón Rodríguez
Núcleo- Barquisimeto

UNIDAD IV
CORRELACION Y REGRESIÒN

Participantes
Styven Álvarez. CI. 27.617.561
Brenda García. CI. 26.556.739
Ciriluz Vásquez. CI. 26.006.974
Linoska Chirinos CI. 24.160.569
Yesimar Ortiz. CI. 18.949.031
Curso: Estadistica II
Mención RRHH Sección106
Facilitador: Davey Angulo
Barquisimeto, Junio 2024.
CORRELACION
La correlación es una medida estadística que expresa hasta qué punto dos variables
están relacionadas linealmente. En otras palabras, la correlación mide cuánto cambian
conjuntamente dos variables a una tasa constante. Es una herramienta común para describir
relaciones simples sin hacer afirmaciones sobre causa y efecto1. Al comprender cómo las
variables se relacionan entre sí, podemos obtener información valiosa sobre los patrones y
las tendencias subyacentes en nuestros datos. La correlación no implica necesariamente
causalidad, pero proporciona una medida del grado en que dos variables se mueven juntas
en la misma dirección o en direcciones opuestas
Por lo tanto, el concepto de correlación implica que el cambio en la magnitud de
una variable (usualmente denominada variable independiente y por convención ubicada en
el eje de X) afecta al cambio de otra variable (denominada variable dependiente, en el eje
de Y). Sin embargo, es importante usar este término con precaución, ya que no toda
correlación implica causalidad1. En otras palabras, la correlación permite examinar la
tendencia de dos variables a ir juntas, pero no necesariamente establece una relación de
causa y efecto. Por ejemplo, si queremos investigar la relación entre la edad y la presión
arterial, la prueba estadística pertinente sería una prueba de correlación.

RELACION ENTRE VARIABLES


La correlación es una medida estadística que expresa hasta qué punto dos variables
están relacionadas linealmente (esto es, cambian conjuntamente a una tasa constante). Es
una herramienta común para describir relaciones simples sin hacer afirmaciones sobre
causa y efecto.
Asi como tambien destaca que la asociación entre dos variables numéricas,
específicamente evalúa la tendencia (creciente o decreciente) en los datos. Dos variables
están asociadas cuando una variable nos da información acerca de la otra. Por el contrario,
cuando no existe asociación, el aumento o disminución de una variable no nos dice nada
sobre el comportamiento de la otra variable.
Dos variables se correlacionan cuando muestran una tendencia creciente o
decreciente. En estadística, la correlación se refiere a la relación entre dos variables, es
decir, cómo se relacionan o se mueven juntas. La correlación puede ser positiva, negativa o
nula. Una correlación positiva significa que a medida que una variable aumenta, la otra
también tiende a aumentar.Una correlación negativa significa que a medida que una
variable aumenta, la otra tiende a disminuir.
Una correlación nula significa que no hay relación entre las dos variables. La
correlación se puede medir mediante el coeficiente de correlación, que puede ser de
Pearson (para variables cuantitativas) o de Spearman (para variables ordinales). Esta
medida va de -1 a +1, donde 1 representa una correlación perfecta positiva, -1 una
correlación perfecta negativa y 0 una correlación nula.Realizar un introduccion sobre.
Es importante tener en cuenta que la correlación no implica causalidad, es decir, no
significa que una variable cause el cambio en la otra. Por lo tanto, es necesario realizar un
análisis más profundo para determinar si existe una relación causal entre las variables.
En este mismo orden de ideasdestaca que, la correlación es una medida de la
asociación entre dos variables numéricas que indica cómo se relacionan entre sí. Es una
herramienta útil para comprender la relación entre variables y puede ser útil para predecir el
comportamiento de una variable en función de la otra. Sin embargo, es importante
interpretar los resultados con precaución y tener en cuenta que la correlación no implica
necesariamente causalidad.
PROBLEMAS DE RELACION O DEPENDENCIA.
La dependencia entre dos ( o más ) variables puede ser tal que se base en una
relación funcional (matemática ) exacta, como la existente entre la velocidad y la distancia
recorrida por un móvil; o puede ser estadística. La dependencia estadística es un tipo de
relación entre variables tal que conocidos los valores de la ( las) variable (variables )
independiente(s) no puede determinarse con exactitud el valor de la variable dependiente,
aunque si se puede llegar a determinar un cierto comportamiento (global) de la misma.
La correlación entre problemas de relación o dependencia puede ser evaluada
estadísticamente a través de técnicas como el coeficiente de correlación de Pearson o el
coeficiente de correlación de Spearman. Estos métodos permiten identificar si existe una
relación entre dos variables, en este caso, problemas de relación o dependencia.
Por ejemplo, si se realiza un estudio en el que se evalúa la presencia de problemas
de relación en una muestra de personas y se correlaciona con la presencia de dependencia
en esas mismas personas, se pueden utilizar técnicas estadísticas para determinar si existe
una relación significativa entre ambos problemas.
En caso de encontrar una correlación positiva, se podría concluir que las personas
con problemas de relación tienen mayor probabilidad de desarrollar dependencia, o
viceversa. Sin embargo, es importante tener en cuenta que la correlación no implica
causalidad, por lo que es necesario realizar estudios más detallados para determinar la
verdadera relación entre ambas variables.
COEFICIENTE DE CORRELACION LINEAL DE PEARSON (PRODUCTO-
MOMENTOS).
El coeficiente de correlación lineal de Pearson es una medida estadística que
cuantifica la fuerza y dirección de la relación lineal entre dos variables continuas.
Este coeficiente, también conocido como coeficiente de correlación de producto-
momentos, se calcula dividiendo la covarianza de las dos variables por el producto de sus
desviaciones estándar.
El coeficiente de correlación de Pearson varía entre -1 y 1, donde un valor de 1
indica una correlación positiva perfecta, un valor de -1 indica una correlación negativa
perfecta y un valor de 0 indica que no hay correlación lineal entre las variables.
El coeficiente de correlación de Pearson es una prueba que mide la relación
estadística entre dos variables continuas. Si la asociación entre los elementos no es lineal,
entonces el coeficiente no se encuentra representado adecuadamente.
El coeficiente de correlación puede tomar un rango de valores de +1 a -1. Un valor
de 0 indica que no hay asociación entre las dos variables. Un valor mayor que 0 indica una
asociación positiva. Es decir, a medida que aumenta el valor de una variable, también lo
hace el valor de la otra. Un valor menor que 0 indica una asociación negativa; es decir, a
medida que aumenta el valor de una variable, el valor de la otra disminuye.
Para llevar a cabo la correlación de Pearson es necesario cumplir lo siguiente:
 La escala de medida debe ser una escala de intervalo o relación.
 Las variables deben estar distribuida de forma aproximada.
 La asociación debe ser lineal.
 No debe haber valores atípicos en los datos.

Cómo se calcula el coeficiente de correlación de Pearson


La fórmula del coeficiente de correlación de Pearson es la siguiente:

z z
∑x y
N

Donde: “x” es igual a la variable número uno, “y” pertenece a la variable número dos, “zx”
es la desviación estándar de la variable uno, “zy” es la desviación estándar de la variable
dos y “N” es es número de datos.

Te recomiendo leer este artículo sobre lo que es la investigación correlacional.

Interpretación del coeficiente de correlación de Karl Pearson


El coeficiente de correlación de Pearson tiene el objetivo de indicar cuán asociadas se
encuentran dos variables entre sí por lo que:

Correlación menor a cero: Si la correlación es menor a cero, significa que es


negativa, es decir, que las variables se relacionan inversamente. Cuando el valor de alguna
variable es alto, el valor de la otra variable es bajo. Mientras más próximo se encuentre a -
1, más clara será la covariación extrema. Si el coeficiente es igual a -1, nos referimos a una
correlación negativa perfecta.
Correlación mayor a cero: Si la correlación es igual a +1 significa que es positiva
perfecta. En este caso significa que la correlación es positiva, es decir, que las variables se
correlacionan directamente. Cuando el valor de una variable es alto, el valor de la otra
también lo es, sucede lo mismo cuando son bajos. Si es cercano a +1, el coeficiente será la
covariación.

Correlación igual a cero: Cuando la correlación es igual a cero significa que no es


posible determinar algún sentido de covariación. Sin embargo, no significa que no exista
una relación no lineal entre las variables.Cuando las variables son independientes significa
que estas se encuentra correlacionadas, pero esto nos significa que el resultado sea
verdadero.

Ventajas y desventajas del coeficiente de correlación de Pearson


Entre las principales ventajas del coeficiente de correlación de Karl Pearson se encuentran:

 El valor es independiente de cualquier unidad que se utiliza para medir las variables.
 Si la muestra es grande, es más probable la exactitud de la estimación.
Alguna de las desventajas del coeficiente de correlación son:

 Es necesario las dos variables sean medidas a un nivel cuantitativo continuo.


 La distribución de las variables deben ser semejantes a la curva normal.
COEFICIENTE BISERAL PUNTUAL
El coeficiente biseral puntual es un parámetro utilizado en el análisis de sistemas
ópticos, que describe la reflectividad de una superficie según el ángulo de incidencia de la
luz. Este coeficiente indica cómo la radiación incidente se refleja en dos direcciones
opuestas en relación con la normal a la superficie. El coeficiente biseral puntual puede
variar dependiendo de la longitud de onda de la luz incidente y las propiedades ópticas del
material de la superficie. Se utiliza en la caracterización de películas delgadas, espejos,
lentes y otros componentes ópticos.

REGRESION
CONCEPTO DE AJUSTES Y REGRESIÓN

El análisis de regresión consiste en encontrar un modelo que relaciona los valores


medidos de un conjunto de variables.

Los valores medidos en el mundo real nunca se ajustan de forma perfecta a un


modelo, debido en primer lugar a errores de medida, pero también a que cualquier modelo
matemático es una simplificación del mundo real, y si tuviera en cuenta todos los factores
que influyen en un conjunto de variables, sería inmanejable.
Por tanto, no tiene sentido aspirar a encontrar un modelo que prediga exactamente
los valores medidos, y debemos admitir que el modelo cometerá un cierto error.

Un modelo útil encuentra una relación funcional sencilla en conjuntos de pocas


variables. Se trata de explicar una variable que tiene importancia para nosotras, en función
de otro conjunto de variables mejor conocidas o más fáciles de medir. El análisis de
regresión (más exactamente, el análisis de regresión paramétrico) permite encontrar un
modelo explicativo en tres etapas:

Nuestro conocimiento del tema en cuestión nos permite escribir un modelo que
afirma que la variable X es una función de las variables . La variable X recibe el
nombre de variable dependiente y las variables se llaman variables
independientes. La forma exacta de la función no está fijada a priori, sino que depende de
unos pocos parámetros libres.

Tomamos una muestra. Es decir, medimos todas las variables en un subconjunto de


todos los casos posibles (unos cuantos individuos de la población, unos cuantos momentos
de tiempo, unas cuantas muestras preparadas en el laboratorio...)

Ajustamos el modelo, eligiendo aquellos valores de los parámetros tales que la


distancia entre los valores medidos de la variable X y los valores predichos aplicando el
modelo minimizan el error cometido.

MÉTODOS DE LOS MÍNIMOS CUADRADOS

El método de los mínimos cuadrados se utiliza para calcular la recta de regresión


lineal que minimiza los residuos, esto es, las diferencias entre los valores reales y los
estimados por la recta. Se revisa su fundamento y la forma de calcular los coeficientes de
regresión con este método.

El modelo de regresión lineal posibilita, una vez establecida una función lineal,
efectuar predicciones sobre el valor de una variable Y sabiendo los valores de un conjunto
de variables X1, X2,… Xn. A la variable Y la llamamos dependiente, aunque también se la
conoce como variable objetivo, endógena, criterio o explicada. Por su parte, las variables X
son las variables independientes, conocidas también como predictoras, explicativas,
exógenas o regresoras.

Cuando hay varias variables independientes nos encontramos ante un modelo de


regresión lineal múltiple, mientras que cuando hay solo una hablaremos de la regresión
lineal simple. Por hacerlo más sencillo, nos centraremos, cómo no, en la regresión simple,
aunque el razonamiento vale también para la múltiple.
Como ya hemos dicho, la regresión lineal requiere eso, que la relación entre las dos
variables sea lineal, así que puede representarse mediante la siguiente ecuación de una línea
recta:

Aquí nos encontramos con dos amigos


nuevos acompañando a nuestras variables dependiente e independiente: son los coeficientes
del modelo de regresión. β0 representa la constante del modelo (también llamada
intercepto) y es el punto donde la recta corta el eje de ordenadas (el de las Y, para
entendernos bien). Representaría el valor teórico de la variable Y cuando la variable X vale
cero.

Por su parte, β1 representa la pendiente (inclinación) de la recta de regresión. Este


coeficiente nos dice el incremento de unidades de la variable Y que se produce por cada
incremento de una unidad de la variable X.

ECUACIONES NORMALES:

Son un conjunto de ecuaciones lineales que se utilizan para resolver los coeficientes
de un modelo de regresión lineal. Estas ecuaciones se derivan estableciendo el gradiente de
la suma de errores cuadrados en cero, lo que da como resultado un sistema de ecuaciones
que se pueden resolver para los coeficientes. Las ecuaciones normales son particularmente
útiles cuando la cantidad de características en los datos es relativamente pequeña y los
datos no son demasiado grandes.

ECUACIONES DE REGRESIÓN:

El análisis de regresión se basa en una relación funcional entre variables y supone,


además, que la relación es lineal. Esta suposición de linealidad es necesaria porque, en su
mayor parte, las propiedades estadísticas teóricas de la estimación no lineal no están aún
bien elaboradas por los matemáticos y econometristas. Esto nos plantea algunas dificultades
en el análisis económico porque muchos de nuestros modelos teóricos no son lineales. La
curva de costo marginal, por ejemplo, es decididamente no lineal, al igual que la función de
costo total, si creemos en el efecto de la especialización del trabajo y en la ley
productividad marginal decreciente. Existen técnicas para superar algunas de estas
dificultades, como la transformación exponencial y logarítmica de los datos. No obstante,
debeos reconocer desde el principio que el típico análisis de regresión de mínimos
cuadrados ordinarios (MCO) siempre utilizará una función lineal para estimar lo que podría
ser una relación no lineal.
EL MODELO DE RECGRESIÓN LINEAL GENERAL SE PUEDE
ENUNCIAR MEDIANTE LA ECUACIÓN:

yi=β0+β1X1i+β2X2i+⋯+βkXki+εi𝑦𝑖=𝛽0+𝛽1𝑋1𝑖+𝛽2𝑋2𝑖+⋯+𝛽𝑘𝑋𝑘𝑖+𝜀𝑖

donde β0 es la intersección, βi's es la pendiente entre Y y el Xi apropiado, y ε


(pronunciado épsilon), es el término de error que captura los errores en la medición de Y y
el efecto sobre Y de cualquier variable que falte en la ecuación y que contribuiría a explicar
las variaciones en Y. Esta ecuación es la ecuación teórica de la población y, por lo tanto,
utiliza letras griegas. La ecuación que estimaremos tendrá los símbolos romanos
equivalentes. Esto es paralelo a la forma en que antes hemos mantenido el seguimiento de
los parámetros de la población y los parámetros de la muestra. El símbolo de la media
poblacional era µ y el de la media muestral X–𝑋–, para la desviación típica de la población
fue σ y para la desviación típica de la muestra fue s. Luego, la ecuación que se estimará con
una muestra de datos para dos variables independientes será:

yi=b0+b1x1i+b2x2i+ei𝑦𝑖=𝑏0+𝑏1𝑥1𝑖+𝑏2𝑥2𝑖+𝑒𝑖

Al igual que nuestro trabajo anterior con las distribuciones de probabilidad, este
modelo solo funciona si se cumplen ciertos supuestos. Estos son: que Y se distribuya
normalmente, que los errores también se distribuyan normalmente con una media de cero y
una desviación típica constante, y que los términos de error sean independientes del tamaño
de X e independientes entre sí.

También podría gustarte