Capitulo 6 Coeficiente de Regresion Correlación Simple

Descargar como doc, pdf o txt
Descargar como doc, pdf o txt
Está en la página 1de 12

57

Tema: Coeficiente de correlación


Materia: Estadística I Catedrática: Lic. Silvia Barca Magarzo

CAPITULO VI: Coeficiente de correlación

5.1.- Introducción
5.2.- Definición
5.3.- Como se expresa la correlación
5.4.- Graficas de dispersión
5.5.- Calculo del coeficiente de correlación
5.6.- Análisis de Regresión.
5.7.- Intervalos de confianza.

6.1.- Introducción.

Además de las medidas de tendencia central y las de variabilidad, hay necesidad de


medidas que describan el grado de relación entre dos variables.

En este capitulo, estudiaremos el significado, uso y cálculo del coeficiente de


correlación, r, la medida común de relación.

56.2.- Definición

Según Kenneth, Hopkins y Glass el Coeficiente de correlación “son mediciones


descriptivas que muestran la dirección y grado de relación entre dos variables.” El
coeficiente de correlación trata de medir cuán dependiente es una variable de la otra.

Según Karl Pearson, el Coeficiente de correlación describe la magnitud de la


relación entre dos conjuntos de variables de intervalo o de razón. Se designa como r y
con frecuencia se lo denomina r de Pearson.

Con frecuencia tenemos curiosidad acerca de si dos variables están relacionadas; y si


lo están, sobre la intensidad de la relación. Por ejemplo, ¿El consumo de chocolates
esta relacionado con la edad de las personas? ¿La fluidez al hablar esta relacionada
58

con el tamaño del vocabulario? ¿Hay correlación entre la habilidad musical y la


inteligencia?, Pues bien para responder a estas preguntas, se necesitan medidas de
relación o correlación. Observe que en cada uno de estos ejemplos hay dos variables,
por ejemplo, consumo de chocolates y la edad.

Dos variables, X y Y, están correlacionadas si tienden a “ir juntas”, es decir, hay


correlación entre dos variables, cuando es indudable que al variar una de ellas,
también se produce una variación de la otra.
Un ejemplo ilustra mejor lo que es el análisis de correlación. Suponga que el gerente
de ventas de aceites SAO, que tiene una gran fuerza de ventas en toda la Ciudad de
Santa Cruz de la Sierra, quiere determinar si hay alguna relación entre el número de
llamadas de ventas hechas en un mes y el número de galones de aceites vendidos en
ese mes.
El gerente selecciona una muestra aleatoria de 10 distribuidores o vendedores y
determina el número de llamadas realizadas en el mes anterior por cada uno de sus
vendedores y el número de galones de aceite que vendió cada uno de ellos. Esta
información se la muestra en el siguiente cuadro N° 1.

CUADRO N° 1
Distribuidores o vendedores Llamadas de ventas Galones de aceite vendidos
René Aguilera 20 30
Jhonny Saavedra 40 60
José Camacho 20 40
Gustavo Ortega 30 60
German Campero 10 30
Esteban Romero 10 40
Luis Montaño 20 40
Ramiro Clavillo 20 50
Ernesto Suárez 20 30
Carlos Justiniano 30 70

Al parecer hay una relación entre el número de llamadas y el número de galones de


aceite vendidos.
59

Es decir, los vendedores que hicieron más llamadas de venta vendieron más
unidades. Sin embargo, la relación no es perfecta o exacta. Por ejemplo, Carlos
Justiniano hizo menos llamadas que Jhonny Saavedra, pero vendió más unidades.
Para no estar hablando en general como lo estamos haciendo hasta ahora, vamos a
desarrollar y utilizar algunas mediciones estadísticas que reflejen mas más
precisamente la relación que entre estas dos variables, y para ello utilizaremos nuestro
amigo el coeficiente de correlación (r).

6.3.- Como se expresa la correlación

Como ya se menciono párrafos arriba el coeficiente de correlación de Pearson


resume la magnitud y la dirección de una relación.
Las variables que pueden ser correlacionadas pueden ser dos variables cuantitativas
cualesquiera, como aprovechamiento en historia (X) y aprovechamiento en lectura
(Y), habilidad para tocar violín (X) y velocidad en la carrera de 100 Mts planos (Y).
En todas estas situaciones, el coeficiente de correlación puede tener valores que van
del valor mínimo, -1, para una relación inversa (negativa) perfecta, pasando por 0,
para ninguna relación, hasta el valor máximo, 1, para una relación directa (positiva)
perfecta.

Resumiendo el coeficiente de correlación puede ser expresado de la siguiente forma:


1. r =-1 (correlación negativa perfecta)
2. r = 0 (no existe correlación)
3. r = 1 (correlación positiva perfecta)

El signo algebraico (+ o -) del coeficiente de correlación indica la dirección de la


relación. Para ilustrar mejor la correlación tome en cuenta lo siguiente:

 Cuando valores bajos de (X) tienden a asociarse con valores bajos en (Y), y
valores altos en (X) con valores altos en (Y), la correlación entre X y Y es positiva.
 Si valores altos de (X) están asociados con valores bajos en (Y), y viceversa,
la correlación es negativa.
60

Por consiguiente para medir numéricamente el coeficiente de correlación usamos la


siguiente formula.

Donde:
= Es el número de pares de observaciones
= es la suma de las variables X
= es la suma de las variables Y
= es la suma de los cuadrados de la variable X
= es la suma de las variables X elevada al cuadrado
= es la suma de los cuadrados de la variable Y
= es la suma de las variables Y elevada al cuadrado
= es la suma de los productos de X y Y

6.4. Gráficas o diagramas de dispersión.

Los coeficientes de correlación se amplían estudiando algunas graficas de dispersión


(también llamadas diagramas de dispersión o dispersiogramas).
Para construir una grafica de dispersión debemos acudir a un eje de coordenadas
donde medimos cada una de las variables analizadas y donde cada marca (punto o
raya) representa la intersección de dos valores. Por tanto grafico:

a) En el eje de las X medimos la variable independiente.

b) En el eje de las Y medimos la variable dependiente.


61

La finalidad de las graficas de dispersión es mostrar como su nombre lo indica de


manera grafica la relación entre dos variables. Para tal efecto mostramos estas
graficas a continuación.
11-5

Gráfica A: Correlación perfecta negativa

10
9
8
7
6
Y 5
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9 10
X
62

11-6

Gráfica B: Correlación perfecta positiva


10
9
8
7
6
5
Y 4
3
2
1
0

0 1 2 3 4 5 6 7 8 9 10
X
63

11-7

Grafica C: Correlación cero

10
9
8
7
6
Y 5
4
3
2
1
0

0 1 2 3 4 5 6 7 8 9 10
X

6.5.- El coeficiente de determinación.- Una vez calculado el coeficiente de


correlación podemos interpretarlo como “fuerte”, “moderado” o “débil”, pero esta
interpretación no es precisa.

Por tanto una medida que tiene mejor interpretación es el coeficiente de


determinación. Su cálculo consiste en elevar al cuadrado el resultado del coeficiente
de correlación.
64

Supongamos que luego de determinar el coeficiente de correlación para el ejemplo de


las llamadas telefónicas y la venta de galones de aceite se estableció un coeficiente de
correlación igual a:

r = 0.759
Si este resultado lo elevo al cuadrado (0.759) = 0.576 Este resultado es una
proporción o un porcentaje; por tanto podemos decir que el 57.6 % de la variación en
el numero de galones de aceite vendidos se debe a, la variación en el numero de
llamadas telefónicas.

Por tanto:

Coeficiente de determinación Proporción de la variación total de la variable dependiente Y que se explica por, o se debe a, la

6.5.1. Prueba de significancia


Se utiliza para ver si la población de la que se tomo la muestra, también posee un
grado de correlación de las variables medidas al igual que la muestra.
Recuerde que en nuestro ejemplo el gerente de SAO encontró que existía correlación
entre las llamadas telefónicas y la venta de galones de aceite, para el ejemplo r =
0.759 esto significaba que había una correlación fuerte entre estas dos variables, pero
también recuerde que estos datos correspondían a solo 10 vendedores, es decir una
muestra de toda su fuerza de ventas. ¿Lo que necesitamos demostrar es que, si en toda
su fuerza de ventas también existirá un grado de correlación? Para esto acudimos a la
prueba de t para el coeficiente de correlación, utilizaremos por tanto la siguiente
formula:

Con n -2 grados de libertad


65

Para calcular t y manifestar si existe correlación entre las variables y si no se rechaza


la (Ho) debo utilizar la tabla de distribución t.

6.6.- Análisis de regresión

Para este análisis es necesario desarrollar un modelo matemático que permita


expresar la relación entre dos variables y estimar le valor de la variable dependiente
Y basándonos en el valor de la variable independiente X. A esta técnica de ecuación
lineal se la llama análisis de regresión.

La forma general de la ecuación de regresión lineal Y’ = a + bX

Donde:
Y’ = se lee y prima, es el valor predictorio de la variable Y para un valor de X
seleccionado.
a = Es la intersección con el eje Y. Es el valor estimado de Y cuando X = 0 .
b = Es la pendiente de la línea, o el cambio promedio en Y’ por cada cambio en una
unidad de la variable X.
X = es el valor que se escoge para la variable independiente.

A los valores a y b de la ecuación de regresión se los denomina coeficientes de


regresión.
Las formulas para a y b son:

Y X
a b
n n
66

Donde:
X = es un valor de la variable independiente
Y = es un valor de la variable dependiente
N = es el numero de observaciones en la muestra.

Una vez que se determina a y b podemos dibujar la línea de regresión.

6.7 El error estándar de estimación.- Es una medida de la dispersión de los valores


observados alrededor de la línea de regresión.

Lo podemos encontrar con las siguientes formulas:

El error estándar nos sirve para ver el grado de desviación de los datos de las
variables estimadas referente a las reales.
EJEMPLO 1.-
Un instructor de aeróbicos esta interesado en determinar como el numero de
estudiantes ausentes en un día determinado esta relacionado con la temperatura
media ese día. Una muestra aleatoria de 10 días se utilizo para el estudio. Los
siguientes datos indican el numero de estudiantes ausentes (ABS) y la temperatura
media (TEMP) de cada día.
ABS 8 7 5 4 2 3 5 6 8 9
TEMP. 10 20 25 30 40 45 50 55 59 60
a) Establezca la variable dependiente Y y la variable independiente X.
b) Dibuje un diagrama de dispersión para estos datos.
67

c) Determine el coeficiente de correlación.


d) Calcule el coeficiente de determinación.
e) Aplique la prueba de significancia para todos los días del año. Con un nivel de
significancia del 5 %.
f) Estime las ausencias si la temperatura media alcanza los 17 º.
g) Determine el error de su estimación.
6.8 Intervalos de confianza.

PRACTICO 6
1.- En la columna 1 aparecen los datos ordenados en forma creciente y en la columna
2 se da la posición correspondiente en el examen de estadística.
Posición hacia la prueba de Posición en el examen de
aptitud hacia la estadística (X) estadística (Y)
1 3
2 5
3 1
4 4
5 7

a) Calcular el coeficiente de correlación


b) Graficar estas variables
c) Estimar la posición en el examen cuando la aptitud hacia la estadística sea
igual a 10.
d) Determinar el error de estimación
2.- En economía, la función de la demanda de un producto a menudo se estima
mediante la regresión de la cantidad vendida (Q) sobre el precio (P). La compañía
Basmy esta tratando de estimar la función de la demanda para su nueva muñeca
“Ma`am” y ha recabado los siguientes datos.
P 20 17.5 16 14 12.5 10 8 6.5
Q 125 156 183 190 212 238 250 276
68

a) Represente gráficamente estos datos.


b) Calcule el coeficiente de correlación
c) Estime cuantas muñecas se venderán si el precio fuese 200 Bs.
d) Determine el error de estimación.

También podría gustarte