Tema 3 PDF
Tema 3 PDF
Tema 3 PDF
25
Fundamentos del Anlisis de Datos en Psicologa
rea de Metodologa de las Ciencias del Comportamiento
Universidad de Almera
TEMA 3. ESTADSTICA CON DOS VARIABLES.
3.1. INTRODUCCIN
El anlisis de correlacin ayuda a establecer el grado de relacin entre dos variables, X
e Y. La cuanta de la relacin entre dos variables se puede establecer calculando un ndice de
correlacin, de forma que ser alta o baja segn el valor numrico del estadstico calculado. El
sentido de la relacin lo indica el signo que acompaa al valor del estadstico, de forma que
una relacin puede ser positiva si al aumentar una de las variables aumenta la otra y,
negativa, si al aumentar una de las variables disminuye la otra. El tipo de relacin entre las
dos variables consideradas puede ser lineal o no lineal.
Si las dos variables X e Y son cuantitativas, se puede calcular la Covarianza, el
Coeficiente de Correlacin de Pearson o la Razn de Correlacin entre ambas. No obstante,
en este tema slo nos ocuparemos de la Covarianza y el Coeficiente de Correlacin de
Pearson.
3.2. DESCRIPCIN DE COVARIACIONES: Concepto y Clculo de la Covarianza
La Covarianza indica el grado de variacin conjunta de las variables, indica cuanta y
sentido de la covariacin y tiene como unidad de medida el producto de las unidades de las
dos variables consideradas. Esto ltimo unido al hecho de no estar el coeficiente acotado
superiormente hace difcil su interpretacin.
COVARIANZA
( )( )
i j
xy
X X Y Y
S
n
=
O
i j
xy
X Y
S (X Y)
n
=
) se
obtiene el Coeficiente de Correlacin de Pearson, que indica cuanta y sentido de la relacin,
detectando slo relacin de tipo lineal entre las variables. La ventaja de este coeficiente sobre
el anterior es que est acotado, oscila entre 1 y +1, y no posee unidades de medida, lo que
hace que su interpretacin sea bastante fcil.
Tema 3. Estadstica con dos variables.
26
Fundamentos del Anlisis de Datos en Psicologa
rea de Metodologa de las Ciencias del Comportamiento
Universidad de Almera
COEFICIENTE DE CORRELACIN DE PEARSON
( ) ( )
i j i j
xy
2 2
2 2
i i j j
n X Y X Y
r
n X X n Y Y
=
O
xy
xy
x y
S
r
S S
=
j
Y
501
Y 33, 4
n 15
= = =
i j
xy
X Y
20633
S XY 33*33, 4 1375, 53 1102, 2 273, 33
n 15
= = = =
( ) ( )
i j i j
xy
2 2 2 2
2 2
i i j j
n X Y X Y
15*20633 495*501
r
15*20827 (495) 15*20831 (501)
n X X n Y Y
= = =
= =
=
61464 67380
61500
251001 312465 245025 312405
247995 309495
61500 61500
0, 95
259, 56*247, 92 64350,1152
= = =
Tema 3. Estadstica con dos variables.
28
Fundamentos del Anlisis de Datos en Psicologa
rea de Metodologa de las Ciencias del Comportamiento
Universidad de Almera
3.5. REGRESIN LINEAL
Intentamos determinar una funcin matemtica (una ecuacin) que nos permita
pronosticar la puntuacin de una persona en una variable Y (denominada variable criterio),
conocida su puntuacin en otra variable X (llamada variable predictora). De entre todas las
posibles funciones elegimos una muy sencilla: La funcin lineal, la ecuacin de la lnea recta.
3.5.1. Concepto de Regresin
Regresin equivale a prediccin. La palabra regresin se debe a Galton. Estudiando
la relacin entre las caractersticas de los padres y las de sus hijos observ que a padres altos
correspondan hijos altos, pero que, en general, se acercaban ms a su media que los padres a
la suya. Igualmente, a padres bajos correspondan hijos bajos, pero que, en general, se
acercaban a su media ms que los padres a la suya. Es decir, pareca darse cierta regresin
hacia la media. Segn este modo de pensar, los hijos seran ms iguales, ms homogneos
entre s que lo eran sus padres. Pasamos por alto la discusin de esta interpretacin y nos
limitamos a constatar que el termino regresin fue introducido con ocasin de estos estudios
de Galton sobre la herencia y que hoy para nosotros equivale a prediccin, pronstico,
estimacin. Es decir, ecuacin de regresin equivaldr a ecuacin de prediccin, de
pronstico, de estimacin. Amn, Jess (1980). Estadstica para psiclogos. 1 Estadstica
descriptiva. Pirmide. Madrid.
Intentamos determinar una funcin matemtica (una ecuacin) que nos permita
pronosticar la puntuacin de cada persona en una variable Y (variable criterio), conocida su
puntuacin en otra variable X (variable predictora). Entre todas las funciones elegimos una
muy sencilla: La funcin lineal, la ecuacin de la lnea recta. Y' = A + B*X
Deseamos construir una lnea recta tal que haga mnimo el error cometido en los
pronsticos. Esta minimizacin del error, se entiende de la siguiente manera:
X Y
3 1
7 10
10 8
1 2
4 9
Tema 3. Estadstica con dos variables.
29
Fundamentos del Anlisis de Datos en Psicologa
rea de Metodologa de las Ciencias del Comportamiento
Universidad de Almera
Suponemos un grupo de personas del que nos dan sus puntuaciones en X e Y. Por
ejemplo las 5 de la tabla anterior.
En el grfico anterior llamamos
'
i
Y a la ordenada del punto (sobre la recta r) cuya
abscisa es X
i
. En otras palabras,
'
i
Y es la puntuacin pronosticada en Y mediante la recta r, a
la persona cuya puntuacin en X es X
i
. Es decir, Y
i
es la puntuacin obtenida en Y e
'
i
Y es la
pronosticada.
Est claro que con cada recta tendremos, en nuestro caso, cinco diferencias
'
1 1
( ) Y Y ,
' ' ' '
2 2 3 3 4 4 5 5
( ), ( ), ( ), ( ) Y Y Y Y Y Y Y Y o errores entre la puntuacin obtenida y la
pronosticada (en la grfica estn las diferencias de los dos primeros sujetos). Si elevamos al
cuadrado estos errores y los sumamos, tendremos una suma de errores cuadrticos. Pues bien,
de todas las rectas posibles del plano, pretendemos elegir aquella respecto de la cual sea
mnima dicha suma. En esto consiste la construccin de las rectas de regresin de Y sobre X,
segn el criterio de mnimos cuadrados.
En conclusin, la recta de regresin de Y sobre X es una recta tal que, en nuestro
ejemplo, haga mnima la suma:
En general, si tenemos n personas, intentamos construir una recta tal, que haga mnima
la expresin:
Donde i = 1, 2, 3,..., n
Para construir la recta de regresin necesitamos un grupo de personas cuyas
puntuaciones en X y en Y conozcamos. En cambio, la recta de regresin la aplicaremos a
otras personas, semejantes a las anteriores, de las que solo conoceremos sus puntuaciones en
X. Supongamos que X es un test de aptitud para la Estadstica e Y el aprovechamiento en la
misma, medido por un examen. Queremos construir una ecuacin que nos permita
pronosticar, del mejor modo posible, el aprovechamiento, conocido el resultado en el test.
Pues bien, para construir esa recta, necesitamos unas personas cuyas puntuaciones en el test y
en el examen conozcamos. Una vez construida, la aplicaremos a otras personas, semejantes a
las anteriores, de las que solo conoceremos sus puntuaciones en el test de aptitud.
Dada la semejanza entre los dos grupos de personas, es de esperar que la recta de regresin
que fue ptima para reducir los errores cuadrticos respecto al primer grupo, ser, tambin,
razonablemente buena para reducir los errores cuadrticos respecto al segundo grupo.
3.5.2. Clculo de la Regresin de Y a partir de X
Mediante estas ecuaciones intentamos pronosticar Y a partir de X.
' 2 ' 2 ' 2 ' 2 ' 2
1 1 2 2 3 3 4 4 5 5
(Y Y ) (Y Y ) (Y Y ) (Y Y ) (Y Y ) + + + +
( )
2
'
i i
Y Y
= = =
( ) A 43 3, 4649 8 15, 28 = =
( ) Y 15, 28 3, 4649 X ' = +
Cuando X = 0, Y = 15,28. Esto significa que si un sujeto no dedicara ninguna hora a la
prctica podra recibir u obtener un rendimiento de 15,28 puntos. Su rendimiento se
incrementar en 3,4649 puntos por cada hora extra de prctica.
r
xy
= 0,91 , =
2
xy
r 0 83. El 83% de la variable Y est explicada por X (por la regresin), el
resto se debe al error de pronstico.
El coeficiente de correlacin de Pearson al cuadrado (coeficiente de determinacin) es la
proporcin de variabilidad explicada por la regresin.
Varianza de la regresin o varianza error:
( )
2
'
2
e
Y Y
291, 26
S 29,126
n 10
= = =
3.5.4 EJEMPLO 2
R Lengua (Y)
T. Aptitud
Verbal (X)
XY X
2
Y
2
Y' Y-Y' (Y-Y')
2
2 2 4 4 4 3,3 -1,3 1,69
1 2 2 4 1 3,3 -2,3 5,29
1 1 1 1 1 2,56 -1,56 2,43
1 1 1 1 1 2,56 -1,56 2,43
5 3 15 9 25 4,05 0,95 0,90
4 4 16 16 16 4,79 -0,79 0,62
7 5 35 25 49 5,54 1,46 2,13
6 5 30 25 36 5,54 0,46 0,21
7 7 49 49 49 7,03 -0,03 0,00
8 6 48 36 64 6,28 1,72 2,96
3 4 12 16 9 4,79 -1,79 3,20
3 3 9 9 9 4,05 -1,05 1,10
6 6 36 36 36 6,28 -0,28 0,08
6 6 36 36 36 6,28 -0,28 0,08
10 8 80 64 100 7,77 2,23 4,97
9 9 81 81 81 8,52 0,48 0,23
6 10 60 100 36 9,26 -3,26 10,63
6 9 54 81 36 8,52 -2,52 6,35
9 4 36 16 81 4,79 4,21 17,72
10 4 40 16 100 4,79 5,21 27,14
110 99 645 625 770 110 90,16
Tema 3. Estadstica con dos variables.
32
Fundamentos del Anlisis de Datos en Psicologa
rea de Metodologa de las Ciencias del Comportamiento
Universidad de Almera
Ecuacin de regresin en la muestra:
( ) ( )
( )
2
20 645 99 110
2010
B 0, 745
2699 20 625 99
= = =
( ) A 5, 50 0, 745 4, 95 1,81 = =
( ) Y 1,81 0, 745 X ' = +
r
xy
= 0,67 , =
2
xy
r 0 45. El 45% de la variable Y est explicada por X (por la regresin), el resto se debe al
error de pronstico.
Varianza de la regresin o varianza error:
( )
2
'
2
e
Y Y
90,16
S 4, 508
n 20
= = =