0% encontró este documento útil (0 votos)
25 vistas8 páginas

Tema 3 PDF

Descargar como pdf o txt
Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1/ 8

Tema 3. Estadstica con dos variables.

25
Fundamentos del Anlisis de Datos en Psicologa
rea de Metodologa de las Ciencias del Comportamiento
Universidad de Almera
TEMA 3. ESTADSTICA CON DOS VARIABLES.
3.1. INTRODUCCIN
El anlisis de correlacin ayuda a establecer el grado de relacin entre dos variables, X
e Y. La cuanta de la relacin entre dos variables se puede establecer calculando un ndice de
correlacin, de forma que ser alta o baja segn el valor numrico del estadstico calculado. El
sentido de la relacin lo indica el signo que acompaa al valor del estadstico, de forma que
una relacin puede ser positiva si al aumentar una de las variables aumenta la otra y,
negativa, si al aumentar una de las variables disminuye la otra. El tipo de relacin entre las
dos variables consideradas puede ser lineal o no lineal.
Si las dos variables X e Y son cuantitativas, se puede calcular la Covarianza, el
Coeficiente de Correlacin de Pearson o la Razn de Correlacin entre ambas. No obstante,
en este tema slo nos ocuparemos de la Covarianza y el Coeficiente de Correlacin de
Pearson.
3.2. DESCRIPCIN DE COVARIACIONES: Concepto y Clculo de la Covarianza
La Covarianza indica el grado de variacin conjunta de las variables, indica cuanta y
sentido de la covariacin y tiene como unidad de medida el producto de las unidades de las
dos variables consideradas. Esto ltimo unido al hecho de no estar el coeficiente acotado
superiormente hace difcil su interpretacin.
COVARIANZA
( )( )
i j
xy
X X Y Y
S
n

=

O
i j
xy
X Y
S (X Y)
n
=

3.3. CORRELACIN ENTRE DOS VARIABLES: Concepto y Clculo del Coeficiente


de Correlacin de Pearson
Al dividir la Covarianza por el producto de las dos desviaciones tpicas, (
xy
xy
x y
S
r
S S
=

) se
obtiene el Coeficiente de Correlacin de Pearson, que indica cuanta y sentido de la relacin,
detectando slo relacin de tipo lineal entre las variables. La ventaja de este coeficiente sobre
el anterior es que est acotado, oscila entre 1 y +1, y no posee unidades de medida, lo que
hace que su interpretacin sea bastante fcil.
Tema 3. Estadstica con dos variables.
26
Fundamentos del Anlisis de Datos en Psicologa
rea de Metodologa de las Ciencias del Comportamiento
Universidad de Almera
COEFICIENTE DE CORRELACIN DE PEARSON
( ) ( )
i j i j
xy
2 2
2 2
i i j j
n X Y X Y
r
n X X n Y Y

=



O
xy
xy
x y
S
r
S S
=

El Coeficiente de Correlacin de Pearson oscila entre 1 y +1.


-1 r
xy
+1
Los resultados obtenidos del Coeficiente los interpretaremos de la siguiente forma:
r
xy
= +1 Relacin lineal positiva perfecta entre las dos variables.
r
xy
= -1 Relacin lineal negativa perfecta entre las dos variables.
r
xy
= 0 No existe relacin lineal entre las dos variables.
Relacin positiva
+ 0,90 < r
xy
< +1 Relacin positiva muy alta.
+0,70 < r
xy
+0,90 Relacin positiva alta.
+0,40 < r
xy
+0,70 Relacin positiva moderada o media.
+0,20 < r
xy
+0,40 Relacin positiva baja.
0 < r
xy
+0,20 Relacin positiva muy baja.
Relacin negativa
- 1 < r
xy
< -0,90 Relacin negativa muy alta.
-0,90 r
xy
< -0,70 Relacin negativa alta.
-0,70 r
xy
< -0,40 Relacin negativa moderada o media.
-0,40 r
xy
< -0,20 Relacin negativa baja.
-0,20 r
xy
< 0 Relacin negativa muy baja.
Existen algunos factores que pueden influir en el Coeficiente de Correlacin de
Pearson y que pueden hacer que el resultado al que lleguemos sea errneo, a saber:
- La dispersin o variabilidad de los valores. Si existe un solo dato que est alejado del resto,
este valor har que el coeficiente aumente mucho su valor. Cuando esto ocurre lo que se suele
hacer es eliminar las puntuaciones correspondientes a ese sujeto.
X 1 3 5 7
Y 2 4 6 800
Tema 3. Estadstica con dos variables.
27
Fundamentos del Anlisis de Datos en Psicologa
rea de Metodologa de las Ciencias del Comportamiento
Universidad de Almera
- La fiabilidad de las medidas. Si se utilizan para recoger los datos unos instrumentos que no
son fiables, los resultados a partir de esos datos tampoco lo son.
- El influjo de una tercera variable. Por ejemplo, la relacin entre peso y amplitud de
vocabulario en un grupo de nios de 5 a 8 aos es muy alta pero es falsa, puesto que hay una
tercera variable (al menos) que es la edad que est influyendo.
3.4. EJEMPLO
X
i
Y
j
X
i
2
Y
j
2
X
i
Y
j
25
20
35
40
35
30
25
40
11
25
9
50
80
50
20
20
19
40
35
41
37
20
50
15
21
12
50
74
45
22
625
400
1225
1600
1225
900
625
1600
121
625
81
2500
6400
2500
400
400
361
1600
1225
1681
1369
400
2500
225
441
144
2500
5476
2025
484
500
380
1400
1400
1435
1110
500
2000
165
525
108
2500
5920
2250
440
495 501 20827 20831 20633
i
X
495
X 33
n 15
= = =

j
Y
501
Y 33, 4
n 15
= = =

i j
xy
X Y
20633
S XY 33*33, 4 1375, 53 1102, 2 273, 33
n 15
= = = =

( ) ( )
i j i j
xy
2 2 2 2
2 2
i i j j
n X Y X Y
15*20633 495*501
r
15*20827 (495) 15*20831 (501)
n X X n Y Y


= = =




= =


=
61464 67380
61500
251001 312465 245025 312405
247995 309495
61500 61500
0, 95
259, 56*247, 92 64350,1152
= = =
Tema 3. Estadstica con dos variables.
28
Fundamentos del Anlisis de Datos en Psicologa
rea de Metodologa de las Ciencias del Comportamiento
Universidad de Almera
3.5. REGRESIN LINEAL
Intentamos determinar una funcin matemtica (una ecuacin) que nos permita
pronosticar la puntuacin de una persona en una variable Y (denominada variable criterio),
conocida su puntuacin en otra variable X (llamada variable predictora). De entre todas las
posibles funciones elegimos una muy sencilla: La funcin lineal, la ecuacin de la lnea recta.
3.5.1. Concepto de Regresin
Regresin equivale a prediccin. La palabra regresin se debe a Galton. Estudiando
la relacin entre las caractersticas de los padres y las de sus hijos observ que a padres altos
correspondan hijos altos, pero que, en general, se acercaban ms a su media que los padres a
la suya. Igualmente, a padres bajos correspondan hijos bajos, pero que, en general, se
acercaban a su media ms que los padres a la suya. Es decir, pareca darse cierta regresin
hacia la media. Segn este modo de pensar, los hijos seran ms iguales, ms homogneos
entre s que lo eran sus padres. Pasamos por alto la discusin de esta interpretacin y nos
limitamos a constatar que el termino regresin fue introducido con ocasin de estos estudios
de Galton sobre la herencia y que hoy para nosotros equivale a prediccin, pronstico,
estimacin. Es decir, ecuacin de regresin equivaldr a ecuacin de prediccin, de
pronstico, de estimacin. Amn, Jess (1980). Estadstica para psiclogos. 1 Estadstica
descriptiva. Pirmide. Madrid.
Intentamos determinar una funcin matemtica (una ecuacin) que nos permita
pronosticar la puntuacin de cada persona en una variable Y (variable criterio), conocida su
puntuacin en otra variable X (variable predictora). Entre todas las funciones elegimos una
muy sencilla: La funcin lineal, la ecuacin de la lnea recta. Y' = A + B*X
Deseamos construir una lnea recta tal que haga mnimo el error cometido en los
pronsticos. Esta minimizacin del error, se entiende de la siguiente manera:
X Y
3 1
7 10
10 8
1 2
4 9
Tema 3. Estadstica con dos variables.
29
Fundamentos del Anlisis de Datos en Psicologa
rea de Metodologa de las Ciencias del Comportamiento
Universidad de Almera
Suponemos un grupo de personas del que nos dan sus puntuaciones en X e Y. Por
ejemplo las 5 de la tabla anterior.
En el grfico anterior llamamos
'
i
Y a la ordenada del punto (sobre la recta r) cuya
abscisa es X
i
. En otras palabras,
'
i
Y es la puntuacin pronosticada en Y mediante la recta r, a
la persona cuya puntuacin en X es X
i
. Es decir, Y
i
es la puntuacin obtenida en Y e
'
i
Y es la
pronosticada.
Est claro que con cada recta tendremos, en nuestro caso, cinco diferencias
'
1 1
( ) Y Y ,
' ' ' '
2 2 3 3 4 4 5 5
( ), ( ), ( ), ( ) Y Y Y Y Y Y Y Y o errores entre la puntuacin obtenida y la
pronosticada (en la grfica estn las diferencias de los dos primeros sujetos). Si elevamos al
cuadrado estos errores y los sumamos, tendremos una suma de errores cuadrticos. Pues bien,
de todas las rectas posibles del plano, pretendemos elegir aquella respecto de la cual sea
mnima dicha suma. En esto consiste la construccin de las rectas de regresin de Y sobre X,
segn el criterio de mnimos cuadrados.
En conclusin, la recta de regresin de Y sobre X es una recta tal que, en nuestro
ejemplo, haga mnima la suma:
En general, si tenemos n personas, intentamos construir una recta tal, que haga mnima
la expresin:
Donde i = 1, 2, 3,..., n
Para construir la recta de regresin necesitamos un grupo de personas cuyas
puntuaciones en X y en Y conozcamos. En cambio, la recta de regresin la aplicaremos a
otras personas, semejantes a las anteriores, de las que solo conoceremos sus puntuaciones en
X. Supongamos que X es un test de aptitud para la Estadstica e Y el aprovechamiento en la
misma, medido por un examen. Queremos construir una ecuacin que nos permita
pronosticar, del mejor modo posible, el aprovechamiento, conocido el resultado en el test.
Pues bien, para construir esa recta, necesitamos unas personas cuyas puntuaciones en el test y
en el examen conozcamos. Una vez construida, la aplicaremos a otras personas, semejantes a
las anteriores, de las que solo conoceremos sus puntuaciones en el test de aptitud.
Dada la semejanza entre los dos grupos de personas, es de esperar que la recta de regresin
que fue ptima para reducir los errores cuadrticos respecto al primer grupo, ser, tambin,
razonablemente buena para reducir los errores cuadrticos respecto al segundo grupo.
3.5.2. Clculo de la Regresin de Y a partir de X
Mediante estas ecuaciones intentamos pronosticar Y a partir de X.
' 2 ' 2 ' 2 ' 2 ' 2
1 1 2 2 3 3 4 4 5 5
(Y Y ) (Y Y ) (Y Y ) (Y Y ) (Y Y ) + + + +
( )
2
'
i i
Y Y

Tema 3. Estadstica con dos variables.


30
Fundamentos del Anlisis de Datos en Psicologa
rea de Metodologa de las Ciencias del Comportamiento
Universidad de Almera
Partimos de la frmula de la ecuacin de la lnea recta:
Y' = A + (B*X)
Debemos calcular los valores de A y B para que
'
( )
i i
Y Y sea mnima.
Para ello, utilizamos las siguientes frmulas:
Propiedades de la ecuacin de regresin:
'
= Y Y . Son iguales la media de las puntuaciones directas pronosticadas y la media de las
puntuaciones directas obtenidas.
'
2 2 2
=
xy y
y
S r S . La varianza de las puntuaciones directas pronosticadas, es igual o menor que la
varianza de las puntuaciones directas obtenidas, puesto que s
2
xy
r 1
3.5.3 EJEMPLO 1
Se est llevando a cabo un estudio en el cual se intenta relacionar el nmero de horas
de prctica en una tarea (X) con la puntuacin en una prueba de rendimiento (Y) a fin de
poder predecir con posterioridad la puntuacin con el simple conocimiento de las horas de
prctica. Para ello se selecciona una muestra de 10 sujetos a los que se les mide el
rendimiento en la prueba as como las horas de prctica. Encontrar la recta que ms se ajuste a
los datos obtenidos.
N HORAS
X
RENDIM
Y
XY X
2
Y
2
Y (Y Y) (Y Y)
2
5
5
6
6
6
7
7
11
11
16
25
30
30
35
45
40
45
55
60
65
125
150
180
210
270
280
315
605
660
1040
25
25
36
36
36
49
49
121
121
256
625
900
900
1225
2025
1600
2025
3025
3600
4225
32,6
32,6
36,1
36,1
36,1
39,5
39,5
53,4
53,4
70,7
-7,6
-2,6
-6,1
-1,1
8,9
0,5
5,5
1,6
6,6
-5,7
57,76
6,76
37,21
1,21
79,21
0,25
30,25
2,56
43,56
32,49
80 430 3835 754 20150 430 0,0 291,26
A Y B X =
( )
( ) ( )
( ) ( )
2
2
n X Y X Y
B
n X X
(
(


=
(




Tema 3. Estadstica con dos variables.
31
Fundamentos del Anlisis de Datos en Psicologa
rea de Metodologa de las Ciencias del Comportamiento
Universidad de Almera
Ecuacin de regresin en la muestra:
( ) ( )
( )
2
10 3835 80 430 3950
B 3, 4649
10 754 80 1140

= = =

( ) A 43 3, 4649 8 15, 28 = =
( ) Y 15, 28 3, 4649 X ' = +
Cuando X = 0, Y = 15,28. Esto significa que si un sujeto no dedicara ninguna hora a la
prctica podra recibir u obtener un rendimiento de 15,28 puntos. Su rendimiento se
incrementar en 3,4649 puntos por cada hora extra de prctica.
r
xy
= 0,91 , =
2
xy
r 0 83. El 83% de la variable Y est explicada por X (por la regresin), el
resto se debe al error de pronstico.
El coeficiente de correlacin de Pearson al cuadrado (coeficiente de determinacin) es la
proporcin de variabilidad explicada por la regresin.
Varianza de la regresin o varianza error:
( )
2
'
2
e
Y Y
291, 26
S 29,126
n 10

= = =

3.5.4 EJEMPLO 2
R Lengua (Y)
T. Aptitud
Verbal (X)
XY X
2
Y
2
Y' Y-Y' (Y-Y')
2
2 2 4 4 4 3,3 -1,3 1,69
1 2 2 4 1 3,3 -2,3 5,29
1 1 1 1 1 2,56 -1,56 2,43
1 1 1 1 1 2,56 -1,56 2,43
5 3 15 9 25 4,05 0,95 0,90
4 4 16 16 16 4,79 -0,79 0,62
7 5 35 25 49 5,54 1,46 2,13
6 5 30 25 36 5,54 0,46 0,21
7 7 49 49 49 7,03 -0,03 0,00
8 6 48 36 64 6,28 1,72 2,96
3 4 12 16 9 4,79 -1,79 3,20
3 3 9 9 9 4,05 -1,05 1,10
6 6 36 36 36 6,28 -0,28 0,08
6 6 36 36 36 6,28 -0,28 0,08
10 8 80 64 100 7,77 2,23 4,97
9 9 81 81 81 8,52 0,48 0,23
6 10 60 100 36 9,26 -3,26 10,63
6 9 54 81 36 8,52 -2,52 6,35
9 4 36 16 81 4,79 4,21 17,72
10 4 40 16 100 4,79 5,21 27,14
110 99 645 625 770 110 90,16
Tema 3. Estadstica con dos variables.
32
Fundamentos del Anlisis de Datos en Psicologa
rea de Metodologa de las Ciencias del Comportamiento
Universidad de Almera
Ecuacin de regresin en la muestra:
( ) ( )
( )
2
20 645 99 110
2010
B 0, 745
2699 20 625 99

= = =

( ) A 5, 50 0, 745 4, 95 1,81 = =
( ) Y 1,81 0, 745 X ' = +
r
xy
= 0,67 , =
2
xy
r 0 45. El 45% de la variable Y est explicada por X (por la regresin), el resto se debe al
error de pronstico.
Varianza de la regresin o varianza error:
( )
2
'
2
e
Y Y
90,16
S 4, 508
n 20

= = =

También podría gustarte