Variable Bidimensional. Resumen
Variable Bidimensional. Resumen
Variable Bidimensional. Resumen
Importante: Si las frecuencias absolutas conjuntas son iguales a la unidad, es decir, cada par de valores de las variables solamente se repiten
una vez, diremos que tenemos frecuencias absolutas conjuntas unitarias.
Si dividimos cada frecuencia absoluta conjunta (nij) por el tamaño de la muestra (n) obtenemos las FRECUENCIAS RELATIVAS
CONJUNTAS (fij). fij = nij/n
La primera fila de la tabla nos informa de que el 14% de los casos tienen un
X Y fij ingreso de (0-10] con dos años de experiencia. La segunda fila nos indica que el
(0-10] 2 0,14 5% de los individuos tiene unos ingresos de (0-10] con cuatro años de
(0-10] 4 0,05 experiencia laboral. El último valor de la tabla afirma que el 29% de los casos
(0-10] 8 0,04 Interpretación tienen uno ingreso de (20-30] y ocho años de experiencia laboral. Observar que:
(10-20] 2 0,05
(10-20] 4 0,06 𝐼 𝐽
(10-20] 8 0,1 𝑓𝑖𝑗 = 1
(20-30] 2 0,02 𝑖=1 𝑗=1
(20-30] 4 0,25
(20-30] 8 0,29 Es decir, la suma de todas las frecuencias relativas conjuntas es igual a uno. Los
1 valores de las frecuencias relativas conjuntas se suelen expresar en porcentajes.
b. Otra forma de presentar los datos es mediante una TABLA DE DOBLE ENTRADA, bien para frecuencias absolutas conjuntas
o frecuencias relativas conjuntas:
i) Tabla de doble entrada nij. ii) Tabla de doble entrada para fij.
X\Y 2 4 8 X\Y 2 4 8
(0-10] 14 5 4 (0-10] 0,14 0,05 0,04
(10-20] 5 6 10 (10-20] 0,05 0,06 0,1
(20-30] 2 25 29 (20-30] 0,02 0,25 0,29
Distribución de frecuencias absolutas conjuntas
X\Y 2 4 8 Intervalos xi ni fi
(0-10] 14 5 4 23 (0-10] 5 23 0,23
(10-20] 5 6 10 21 Distribución marginal de X (10-20] 15 21 0,21
(20-30] 2 25 29 56 (20-30] 25 56 0,56
21 36 43 100 100 1
Distribución marginal de Y
Las distribuciones marginales son distribuciones unidimensionales y por lo
tanto podemos calcular para cada una de las variables las medidas de síntesis
vista en el tema anterior, por ejemplo, la media de las variables sería:
Yi ni fi • Para los ingresos:
2 21 0,21 𝑛
1 5 · 23 + 15 · 21 + 25 · 56
4 36 0,36 𝑋= 𝑋𝑖 𝑛𝑖 = = 18,30€
𝑛 100
8 43 0,43 𝑖=1
100 1 • Para los años:
𝑛
1 2 · 21 + 4 · 36 + 8 · 43
𝑌= 𝑌𝑖 𝑛𝑖 = = 5,30𝐴ñ𝑜𝑠
𝑛 100
𝑖=1
Distribuciones Marginales
X\Y y1 y2 ... yj ... yJ n(xi) f(xi) n(xi): frecuencia marginal de X. La suma de las
x1 n11 (f11) n12 (f12) ... n1j (f1j) ... n1J (f1J) n(x1) f(x1) frecuencias absolutas (relativas) conjuntas de la
fila i-ésima es igual a la frecuencia absoluta
x2 n21 (f21) n22 (f22) ... n2j (f2j) ... n2J (f2J) n(x2) f(x2)
(relativa) correspondiente al valor xi:
... ... ... ... ... ... ... ... 𝐽 𝐽
xi ni1 (fi1) ni2 (fi2) ... nij (fij) ... niJ (fiJ) n(xi) f(xi) 𝑛𝑖𝑗 = 𝑛 𝑥𝑖 𝑓𝑖𝑗 = 𝑓(𝑥𝑖 )
... ... ... ... ... ... ... ... 𝑗=1 𝑗=1
xI nI1 (fI1) nI2 (fI2) ... ... ... nIJ (fIJ) n(xI) f(xI)
X n(X) f(X)
n(y) f(y) n(y1) f(y1) n(y2) f(y2) ... n(yj) f(yj) ... n(yJ) f(yJ) n 1 x1 n(x1) f(x1)
n(yi): frecuencia marginal de Y. La suma de las frecuencias absolutas x2 n(x2) f(x2)
(relativas) conjuntas de la columna j-ésima es igual a la frecuencia ... ... ...
absoluta (relativa) correspondiente al valor yj: xi n(xi) f(xi)
𝐼 𝐽 ... ... ...
𝑛𝑖𝑗 = 𝑛 𝑦𝑖 𝑓𝑖𝑗 = 𝑓(𝑦𝑖 ) XI n(xI) f(xI)
𝑖=1 𝑗=1 Total n 1
Y n(Y) f(Y)
y1 n(y1) f(y1) A partir de las frecuencias marginales (absolutas o
y2 n(y2) f(y2) relativas) de cada una de las variables, podemos
... ... ... establecer la distribución marginal de cada variable. Es
yj n(yj) f(yj) una distribución UNIDIMENSIONAL.
... ... ...
YJ n(yJ) f(yJ)
Total n 1
Ejemplo 2. Se ha observado el precio del alquiler (variable Y en miles de €) de 335 pisos y la localidad (Variable X) de
pertenencia. La siguiente tabla recoge la información obtenida de la observación conjunta de estas dos variables.
Obtenemos la tabla de doble entrada, tanto para las frecuencias absolutas conjuntas como relativas:
Localidad Precio nij fij
Barcelona (0,5-0,7] 35 0,1045 Tabla de doble entrada: Frecuencias Absolutas Conjuntas
Bilbao (0,5-0,7] 20 0,0597
Madrid (0,5-0,7] 40 0,1194 X\Y (0,5-0,7] (0,7-0,9] (0,9-1,1] (1,1-1,3]
Valencia (0,5-0,7] 15 0,0448 Barcelona 35 25 10 5
Barcelona (0,7-0,9] 25 0,0746 Bilbao 20 35 15 20
Bilbao (0,7-0,9] 35 0,1045
Madrid 40 25 20 15
Madrid (0,7-0,9] 25 0,0746
Valencia (0,7-0,9] 20 0,0597
Valencia 15 20 25 10
Barcelona (0,9-1,1] 10 0,0299 n=335
Bilbao (0,9-1,1] 15 0,0448
Madrid (0,9-1,1] 20 0,0597
Valencia (0,9-1,1] 25 0,0746 Tabla de doble entrada: Frecuencias Relativas Conjuntas
Barcelona (1,1-1,3] 5 0,0149
Bilbao (1,1-1,3] 20 0,0597
X\Y (0,5-0,7] (0,7-0,9] (0,9-1,1] (1,1-1,3]
Madrid (1,1-1,3] 15 0,0448 Barcelona 0,1045 0,0746 0,0299 0,0149
Valencia (1,1-1,3] 10 0,0299 Bilbao 0,0597 0,1045 0,0448 0,0597
335 1 Madrid 0,1194 0,0746 0,0597 0,0448
Valencia 0,0448 0,0597 0,0746 0,0299
Suma=1
Las distribuciones marginales
Marginal de X Marginal de Y
X n(X) f(X) Y yi n(Y) f(Y)
Barcelona 75 0,2239 (0,5-0,7] 0,6 110 0,3284
Bilbao 90 0,2687 (0,7-0,9] 0,8 105 0,3134
Madrid 100 0,2985 (0,9-1,1] 1 70 0,2090
Valencia 70 0,2090 (1,1-1,3] 1,2 50 0,1493
335 1 335 1
Importante: Las tablas de doble entrada pueden contener tanto variables cuantitativas como cualitativas. Si las dos
variables son cuantitativas (discretas o continuas) se suelen denominar tabla de correlaciones y si las dos variables son
cualitativas se denominan tablas de contingencia. De forma genérica hablaremos de tablas de doble entrada.
4.3. Distribuciones condicionadas.
A partir de la distribución de frecuencias conjuntas puede establecerse el comportamiento de una de las variables, por
ejemplo X, cuando la otra, Y, cumple determinada condición. Dado el ejemplo 1 podemos encontrar la distribución de los
ingresos cuando se tienen unos determinados años de experiencia laboral. Este hecho lo expresaremos de la siguiente forma
X/Y y se lee “X condicionado a Y “, lógicamente también podemos condicionar los valores de Y a X, Y/X.
Ejemplo 1: Vamos a calcular las distribuciones condicionadas del primer ejemplo.
a. En primer lugar calculamos las distribuciones condicionadas de X/Y
X\Y 2 4 8
(0-10] 14 5 4 23
(10-20] 5 6 10 21
(20-30] 2 25 29 56
21 36 43 100
Importante: Las distribuciones condicionadas son distribuciones unidimensionales y, por lo tanto, podemos calcular las
medidas de síntesis vistas en el tema 3.
• Vamos a calcular las medias condicionadas de X/Y
X/Y=2 xi nX/Y=2 fX/Y=2 xinX/Y=2 X/Y=4 xi nX/Y=4 fX/Y=4 xinX/Y=4 X/Y=8 xi nX/Y=8 fX/Y=8 xinX/Y=8
(0-10] 5 14 0,6667 70 (0-10] 5 5 0,6667 25 (0-10] 5 4 0,6667 20
(10-20] 15 5 0,2381 75 (10-20] 15 6 0,2381 90 (10-20] 15 10 0,2381 150
(20-30] 25 2 0,0952 50 (20-30] 25 25 0,0952 625 (20-30] 25 29 0,0952 725
21 1 195 36 1 740 43 1 895
𝑛 𝑛 𝑛
𝑖=1 𝑥𝑖 nX/Y=2 195 𝑖=1 𝑥𝑖 nX/Y=4 740 𝑖=1 𝑥𝑖 nX/Y=8 895
𝑋/𝑌=2 = = = 9,29€ 𝑋/𝑌=4 = = = 20,56€ 𝑋/𝑌=8 = = = 20,81€
𝑛 21 𝑛 36 𝑛 43
Interpretación: Cuando tenemos Interpretación: Cuando tenemos 4 Interpretación: Cuando tenemos 8
dos años de experiencia laboral se años de experiencia laboral se tiene años de experiencia laboral se tiene un
tiene un salario medio de 9290€. un salario medio de 20560€. salario medio de 20810€.
• Calculamos las medias condicionadas de Y/X
Y/X=(0-10] nY/X=(0-10] fY/X=(0-10] YinY/X=(0-10] Y/X=(10-20] nY/X=(10-20] fY/X=(10-20] YinY/X=(10-20] Y/X=(20-30] nY/X=(20-30] fY/X=(20-30] YinY/X=(20-30]
2 14 0,6087 28 2 5 0,2381 10 2 2 0,0357 4
4 5 0,2174 20 4 6 0,2857 24 4 25 0,4464 100
8 4 0,1739 32 8 10 0,4762 80 8 29 0,5179 232
23 1 80 21 1 114 56 1 336
𝑛
𝑛
n n
𝑖=1 𝑦𝑖 Y/X=(10−20] 114 𝑛
n
𝑖=1 𝑦𝑖 Y/X=(20−30] 336
𝑖=1 𝑦𝑖 Y/X=(0−10] 80
𝑌/𝑋=(0−10] = = = 3,48 𝑌/𝑋=(10−20] = 𝑛
=
21
= 5,43 𝑌/𝑋=(20−30] =
𝑛
=
56
= 6,00
𝑛 23
años años años
Interpretación: Para unos ingresos Interpretación: Para unos ingresos Interpretación: Para unos ingresos
entre 0 y 10000€, por término medio entre 10000€ y 20000€, por término entre 20000€ y 30000€, por término
se tienen 3,48 años de experiencia medio se tienen 5,43 años de medio se tienen 6,00 años de
laboral. experiencia laboral. experiencia laboral.
Habitualmente los programas estadísticos permiten presentar en una única tabla las diferentes distribuciones de frecuencias
que hemos obtenido. Concretamente el SPSS presenta la siguiente tabla:
El programa R Commader presenta una tabla para cada distribución
• Distribución conjunta. Frecuencias absolutas conjuntas • Distribución conjunta. Frecuencias relativas conjuntas
Precio Precio
(0,5-0,7] (0,7-0,9] (0,9-1,1] (1,1-1,3] (0,5-0,7] (0,7-0,9] (0,9-1,1] (1,1-1,3]
Localidad Barcelona 35 25 10 5 75 Localidad Barcelona 0,1045 0,0746 0,0299 0,0149 0,2239
Bilbao 20 35 15 20 90 Bilbao 0,0597 0,1045 0,0448 0,0597 0,2687
Madrid 40 25 20 15 100 Madrid 0,1194 0,0746 0,0597 0,0448 0,2985
Valencia 15 20 25 10 70 Valencia 0,0448 0,0597 0,0746 0,0299 0,2090
110 105 70 50 335 0,3284 0,3134 0,2090 0,1493 1
• Distribuciones marginales
PRECIO 𝑛
1 280
Intervalos xi ni fi Ni Fi xini x2ni 𝑋= 𝑋𝑖 𝑛𝑖 = = 0,8358 𝑚𝑖𝑙𝑒𝑠 𝑑𝑒 € = 835,8€
𝑛 335
𝑖=1
(0,5-0,7] 0,6 110 0,3284 110 0,3284 66 39,6
𝑛 𝑛 2
𝑖=1(𝑋𝑖 − 𝑋)2 𝑛𝑖 𝑖=1 𝑋𝑖 𝑛𝑖 − 𝑛𝑋
2
248,8 − 335(0,8358)2
(0,7-0,9] 0,8 105 0,3134 215 0,6418 84 67,2 2
𝑆 = = =
𝑛−1 𝑛−1 335 − 1
(0,9-1,1] 1 70 0,2090 285 0,8507 70 70 = 0,044𝑚𝑖𝑙𝑒𝑠€2
(1,1-1,3] 1,2 50 0,1493 335 1 60 72
𝑆= 𝑆2 = 0,044 = 0,2104 𝑚𝑖𝑙𝑒𝑠 𝑑𝑒 € = 210,4€
335 1 280 248,8
Localidad
ni fi
Barcelona 75 0,2239
Bilbao 90 0,2687
Madrid 100 0,2985
Valencia
70 0,2090
335 1
• Frecuencias condicionadas: Precio/localidad
BARCELONA BILBAO
Intervalos xi ni xini fi Intervalos xi ni xini fi
(0,5-0,7] 0,6 35 21 0,4667 (0,5-0,7] 0,6 20 12 0,2222
(0,7-0,9] 0,8 25 20 0,3333 (0,7-0,9] 0,8 35 28 0,3889
(0,9-1,1] 1 10 10 0,1333 (0,9-1,1] 1 15 15 0,1667
(1,1-1,3] 1,2 5 6 0,0667 (1,1-1,3] 1,2 20 24 0,2222
75 57 1 90 79 1
MADRID VALENCIA
Intervalos xi ni xini fi Intervalos xi ni xini fi
(0,5-0,7] 0,6 40 24 0,4000 (0,5-0,7] 0,6 15 9 0,2143
(0,7-0,9] 0,8 25 20 0,2500 (0,7-0,9] 0,8 20 16 0,2857
(0,9-1,1] 1 20 20 0,2000 (0,9-1,1] 1 25 25 0,3571
(1,1-1,3] 1,2 15 18 0,1500 (1,1-1,3] 1,2 10 12 0,1429
100 82 1 70 62 1
a) Comprobación de independencia estadística: Si dos variables son estadísticamente independientes se cumple que:
𝑓𝑖𝑗 = 𝑓 𝑋𝑖 · 𝑓 𝑌𝑗 ∀i,j
Es decir, el producto de las frecuencias relativas marginales es igual a las frecuencias relativas conjuntas.
b) También lo podemos comprobar mediante las frecuencias absolutas conjuntas, concretamente para que dos variables
sean estadísticamente independientes se tiene que cumplir que:
𝑛 𝑋𝑖 · 𝑛 𝑌𝑗
𝑛𝑖𝑗 = ∀i,j
𝑛
Todas las distribuciones de frecuencias relativas de X condicionada a cualquier valor de Y son iguales a la distribución de
frecuencias relativas marginal de X.
Todas las distribuciones de frecuencias relativas de Y condicionada a cualquier valor de X son iguales a la distribución de
frecuencias relativas marginal de Y.
Ejemplo 1: Sean la Variable X=“nº de días que se va al cine al año y la variable” Y=“Nº de conciertos al año”. Vamos a
comprobar si estas dos variables son estadísticamente independientes:
Frecuencias absolutas conjuntas Frecuencias relativas conjuntas
X\Y 4 5 6 n(X) X\Y 4 5 6 f(X)
10 2 20 10 32 10 0,0089 0,0893 0,0446 0,1429
15 4 40 20 64 15 0,0179 0,1786 0,0893 0,2857
20 8 80 40 128 20 0,0357 0,3571 0,1786 0,5714
n(Y) 14 140 70 224 f(Y) 0,0625 0,625 0,3125 1
𝑛 𝑋𝑖 ·𝑛 𝑌𝑗
X,Y independientes ↔ 𝑛𝑖𝑗 = ∀i,j X,Y independientes ↔ 𝑓𝑖𝑗 = 𝑓 𝑋𝑖 · 𝑓 𝑌𝑗 ∀i,j
𝑛
𝑛 𝑋1 · 𝑛 𝑌1 32 · 14 𝑛 𝑋1 · 𝑛 𝑌2 32 · 140 𝑓11 = 𝑓 𝑋1 · 𝑓 𝑌1 = 0,1429 · 0,0625 = 0,0089
𝑛11 = = = 2; 𝑛12 = = = 20
𝑛 224 𝑛 224 𝑓12 = 𝑓 𝑋1 · 𝑓 𝑌2 = 0,1429 · 0,625 = 0,089
𝑛 𝑋1 · 𝑛 𝑌3 32 · 70 𝑛 𝑋2 · 𝑛 𝑌1 64 · 14
𝑛13 = = = 10; 𝑛21 = = =4 𝑓13 = 𝑓 𝑋1 · 𝑓 𝑌3 = 0,1429 · 0,3125 = 0,0446
𝑛 224 𝑛 224
𝑛 𝑋2 · 𝑛 𝑌2 64 · 140 𝑛 𝑋2 · 𝑛 𝑌3 64 · 70 𝑓21 = 𝑓 𝑋2 · 𝑓 𝑌1 = 0,2857 · 0,0625 = 0,0179
𝑛22 = = = 40; 𝑛23 = = = 20
𝑛 224 𝑛 224 𝑓22 = 𝑓 𝑋2 · 𝑓 𝑌2 = 0,2857 · 0,625 = 0,1786
𝑛 𝑋3 · 𝑛 𝑌1 128 · 14 𝑛 𝑋3 · 𝑛 𝑌2 128 · 140 𝑓23 = 𝑓 𝑋2 · 𝑓 𝑌3 = 0,2857 · 0,3125 = 0,0893
𝑛31 = = = 8; 𝑛32 = = = 80
𝑛 224 𝑛 224
𝑛 𝑋3 · 𝑛 𝑌3 128 · 70 𝑓31 = 𝑓 𝑋3 · 𝑓 𝑌1 = 0,5714 · 0,0625 =0,0357
𝑛33 = = = 40 𝑓32 = 𝑓 𝑋3 · 𝑓 𝑌2 = 0,5714 · 0,625 = 0,3571
𝑛 224
𝑓33 = 𝑓 𝑋3 · 𝑓 𝑌3 = 0,5714 · 0,3125 = 0,1786
Conclusión: Como el producto de las marginales es igual Conclusión: Como el producto de las marginales es igual
a la frecuencia absoluta conjunta, entonces X e Y son a la frecuencia relativa conjunta, entonces X e Y son
estadísticamente Independientes. estadísticamente Independientes.
Como son dos variables independientes, las distribuciones condicionadas relativas de X/Y son iguales a la marginal relativa de X.
Vamos a comprobar esta afirmación:
Marginal de X Condicionada de X/Y=4 Condicionada de X/Y=5 Condicionada de X/Y=6
X n(X) f(X)
X/Y=4 n(X/Y=4) f(X/Y=4) X/Y=5 n(X/Y=5) f(X/Y=5) X/Y=6 n(X/Y=6) f(X/Y=6)
10 32 0,1429
10 2 0,1429 10 20 0,1429 10 10 0,1429
15 64 0,2857
15 4 0,2857 15 40 0,2857 15 20 0,2857
20 128 0,5714
20 8 0,5714 20 80 0,5714 20 40 0,5714
224 1
14 1 140 1 70 1
Como se puede comprobar las diferentes distribuciones condicionadas relativas de X/Y son iguales a la marginal
relativa de X. Esto es una consecuencia de que las variables sean independientes.
La media de la variable X es igual a 17,14. Calcular las diferentes medias de X/Y ¿qué podemos observar?
Problema 1. La distribución de frecuencias conjuntas de las variables X = ‘Edad (en años)’ e Y =’ Número de horas
semanales dedicadas a ver la televisión’ es la siguiente:
Número de horas
Edad 0-20) [20-30) [30-40) Total
15-25) 2 10 19 31
[25-45) 28 12 4 44
[45-95 2 3 20 25
Total 32 25 43 100
Es CIERTO que:
a) La edad y el número de horas semanales que miran la televisión son variables independientes en este colectivo.
b) El 28% de los entrevistados tienen menos de 25 años y miran la televisión entre 0 y 20 horas semanales.
c) El 80% de los que tienen 45 o más años miran la televisión menos de 20 horas semanales.
d) El 40% de los que miran la televisión entre 20 y 30 horas semanales tienen menos de 25 años.
Problema 2. Si las variables fueran independientes, el porcentaje de individuos con [25-45) años que ven la televisión entre
[30-40) horas es igual a:
a) 18,92%
b) 44,00%
c) 43,00%
d) 28,00%
Problema 3. Sobre una muestra de 150 personas encuestadas aleatoriamente en el metro de Barcelona se han observado
las variables X=‘Nº de paradas recorridas’ e Y =‘Línes de metro utilizada’. La distribución de frecuencias conjuntas es:
Problema 5. Las siguientes distribuciones se corresponden con la distribución de dos variables independientes.
X 1 2 3 4 Y 20 30 40
n(X) 5 20 15 10 n(Y) 20 20 10
Importante. En este curso solamente nos vamos a interesar por las relaciones de tipo lineal
entre variables (gráficos de la forma como a y b).
4.6.Medidas de asociación lineal: Covarianza y Correlación.
Las principales medidas de asociación lineal entre variables son la covarianza y la correlación. Estas medidas de asociación
solamente sirven para relaciones de tipo lineal, tal y como hemos visto en los anteriores gráficos de dispersión.
La covarianza entre dos variables (SXY)nos indica si existe asociación lineal y el signo (dirección) de tal asociación. Para el
cálculo de la covarianza debemos de tener presente si tenemos frecuencias absolutas conjuntas distintas de la unidad o
no.
a. Datos con frecuencias absolutas conjuntas no unitarias
𝐼 𝐽 𝐼 𝐽
1 𝑖=1 𝑗=1 𝑥𝑖 𝑦𝑗 𝑛𝑖𝑗 − 𝑛𝑥𝑦
𝑆𝑋𝑌 = 𝑥𝑖 − 𝑥 𝑦𝑗 − 𝑦 𝑛𝑖𝑗 =
𝑛−1 𝑛−1
𝑖=1 𝑗=1
b. Datos con frecuencias absolutas conjuntas unitarias:
𝑛 𝑛
1 1
𝑆𝑋𝑌 = 𝑥𝑖 − 𝑥 𝑦𝑖 − 𝑦 = 𝑥𝑖 𝑦𝑖 − 𝑛𝑥𝑦
𝑛−1 𝑛−1
𝑖=1 𝑖=1
Propiedades:
• Puede tomar cualquier valor real (–∞≤SXY≤+∞). <0 Asociación lineal negativa
• Indica la presencia de asociación lineal y su signo: SXY = =0 No existe asociación lineal
• La covarianza queda afectada por los cambios de escala, pero no >0 Asociación lineal positiva
por los cambios de origen: En consecuencia le afectan los cambios
de unidades de medida.
Ejemplo 1. Sea la variable X= Salario anual en miles de € e Y= Años de experiencia laboral (Frecuencias conjuntas diferentes
de la unidad).
𝐼 𝐽 𝐼 𝐽
1 𝑖=1 𝑗=1 𝑥𝑖 𝑦𝑗 𝑛𝑖𝑗 − 𝑛𝑥 𝑦
X Y nij 𝑆𝑋𝑌 = 𝑥𝑖 − 𝑥 𝑦𝑗 − 𝑦 𝑛𝑖𝑗 =
𝑛−1 𝑛−1
(0-10] 2 14 𝑖=1 𝑗=1
(0-10] 4 5 Para calcular la covarianza necesitamos la media de X e Y. Tenemos que obtener las marginales de
(0-10] 8 4 cada variable y calcular las medias (y varianzas, aunque ahora no las necesitemos).
(10-20] 2 5 Marginal del Salario
(10-20] 4 6 Intervalos xi ni xni (𝑿𝒊 − 𝑿)𝟐 𝒏𝒊 x2ni
(10-20] 8 10 (0-10] 5 23 115 4068,47 575
(20-30] 2 2 (10-20] 15 21 315 228,69 4725
(20-30] 4 25 (20-30] 25 56 1400 2513,84 35000
(20-30] 8 29 100 1830 6811 40300
𝐼 𝐼
100 1 1830 1 6811
𝑋= 𝑥𝑖 𝑛𝑖 = = 18,3 ; 𝑆𝑥2 = (𝑥𝑖 − 𝑋 )2 𝑛𝑖 = = 68,80
𝑛 100 𝑛−1 100 − 1
𝑖=1 𝑖=1
Marginal de los años
Y ni yni (𝒀𝒊 − 𝒀)𝟐 𝒏𝒊 y2ni
2 21 42 228,69 84
4 36 144 60,84 576
8 43 344 313,47 2752
100 530 603 3412
𝐽 𝐽
1 530 1 603
𝑌= 𝑦𝑗 𝑛𝑗 = = 5,3 ; 𝑆𝑦2 = (𝑦𝑗 − 𝑦)2 𝑛𝑗 = = 6,09
𝑛 100 𝑛−1 100 − 1
𝑗=1 𝑗=1
Cálculo de la covarianza
Intervalos x Y nij 𝒙𝒊 − 𝒙 𝒚𝒋 − 𝒚 𝒏𝒊𝒋 xynij
𝐼 𝐽
(0-10] 5 2 14 614,46 140 1 811
(0-10] 5 4 5 86,45 100 𝑆𝑋𝑌 = 𝑥 𝑖 − 𝑥 𝑦 𝑗 − 𝑦 𝑛𝑖𝑗 = = 8,19
𝑛−1 100 − 1
(0-10] 5 8 4 -143,64 160 𝑖=1 𝑗=1
(10-20] 15 2 5 54,45 150
𝐼 𝐽
(10-20] 15 4 6 25,74 360 𝑖=1 𝑗=1 𝑥𝑖 𝑦𝑗 𝑛𝑖𝑗 − 𝑛𝑥 𝑦 10510 − 100 18,30 · (5,30)
(10-20] 15 8 10 -89,1 1200 𝑆𝑋𝑌 = =
𝑛−1 100 − 1
(20-30] 25 2 2 -44,22 100 811
(20-30] 25 4 25 -217,75 2500 = = 8,19
100 − 1
(20-30] 25 8 29 524,61 5800
100 811 10510
Conclusión: Como la covarianza es mayor que cero, existe una asociación lineal positiva entre los ingresos y los años de
experiencia.
Importante: Si dos variables son independientes, entonces la covarianza es igual a cero. Pero una covarianza cero no
implica que las variables sean independientes.
Ejemplo 2. Sea la variable X= Precio en € de un determinado producto e Y= Cantidad vendida (Frecuencias conjuntas
diferentes de la unidad). La siguiente tabla muestra los valores de las variables y la frecuencia absoluta conjunta. Vamos a
calcular la covarianza entre el precio y la cantidad vendida.
Precio (X) Cantidad (Y) nij De la tabla se obtienen los siguientes resultados
5 20 8
7 18 12 𝐼 𝐼 𝐽 𝑗 𝐼 𝐽
8 15 11 𝑥𝑖 𝑛𝑖 = 416 ; 𝑥𝑖2 𝑛𝑖 = 3696 ; 𝑦𝑗 𝑛𝑗 = 688 ; 𝑦𝑗2 𝑛𝑖 = 10864 ; 𝑥𝑖 𝑦𝑗 𝑛𝑖𝑗 = 5164
10 10 10 𝑖=1 𝑖=1 𝑗=𝑖 𝑖=1 𝑖=1 𝑗=𝑖
11 8 4
12 3 5
50
𝐼 𝐼
1 416 1 3696 − 50(8,32)2
𝑋= 𝑥𝑖 𝑛𝑖 = = 8,32 ; 𝑆𝑥2 = ( 𝑥𝑖 2 𝑛𝑖 − 𝑛𝑋 2 ) = = 4,79
𝑛 50 𝑛−1 50 − 1
𝑖=1 𝑖=1
𝐽 𝑗
1 688 1 10864 − 50(13,76)2
𝑌= 𝑦𝑗 𝑛𝑗 = = 13,76 ; 𝑆𝑦2 = ( 𝑦𝑗 2 𝑛𝑗 − 𝑛𝑌 2 ) = = 28,51
𝑛 50 𝑛−1 50 − 1
𝑗=1 𝑗=1
𝐼 𝐽
𝑖=1 𝑗=1 𝑥𝑖 𝑦𝑗 𝑛𝑖𝑗 − 𝑛𝑥 𝑦 5164 − 50 8,32 · (13,76) −560,16
𝑆𝑋𝑌 = = = = −11,43
𝑛−1 50 − 1 49
Conclusión: Como la covarianza es menor que cero, existe una asociación lineal negativa (inversa) entre el precio y la
cantidad demandada.
Ejemplo 3. La siguiente tabla recoge el ingreso (en miles de €) y el consumo en cultura (cientos de €) de ocho individuos (en
este caso las frecuencias absolutas conjuntas son unitarias).
Ingresos (X) 8 9 11 14 16 18 22 25
Consumo (Y) 2 3 5 6 8 9 11 13
Ejemplo 2. Sea la variable X= Precio en € de un determinado producto e Y= Cantidad vendida . Vamos a calcular la intensidad
de la asociación entre las variables:
Tenemos los siguientes resultados : 𝑆𝑥2 = 4,79 ; 𝑆𝑦2 = 28,51 ; 𝑆𝑥𝑦 = −11,43
𝑆𝑥𝑦 −11,43
𝑟𝑥𝑦 = = = −0,98 Intensidad negativa (inversa) y muy intensa
𝑆𝑥 · 𝑆𝑦 4,79 28,51
Ejemplo 3. Sea X= el ingreso (en miles de €) e Y= el consumo en cultura (cientos de €). Vamos a calcular la intensidad de la
asociación entre las variables:
Tenemos los siguientes resultados : 𝑆𝑥2 = 37,125 ; 𝑆𝑦2 = 14,696 ; 𝑆𝑥𝑦 = 23,23
𝑆𝑥𝑦 23,23
𝑟𝑥𝑦 = = = 0,99 Intensidad positiva (directa) y muy intensa
𝑆𝑥 · 𝑆𝑦 37,125 14,696
Ejemplo 4. Sea la variable “X=número de errores” que se comenten al realizar un expediente administrativo y la variable
“Y= número de días que se tarda en confeccionarlo” . Vamos a calcular la intensidad de la asociación entre las variables:
Tenemos los siguientes resultados : 𝑆𝑥2 = 4,67 ; 𝑆𝑦2 = 15,67 ; 𝑆𝑥𝑦 = −8,5
𝑆𝑥𝑦 −8,5
𝑟𝑥𝑦 = = = −0,99 Intensidad negativa (indirecta) y muy intensa
𝑆𝑥 · 𝑆𝑦 4,67 15,67
𝑚= 𝑋
𝑌
2. Matriz de varianzas y covarianzas (S): es una matriz cuadrada que recoge, en la diagonal principal, las varianzas de las
variables y fuera de la diagonal principal las covarianzas entre las variables.
𝑆𝑥2 𝑆𝑥𝑦
𝑆=
𝑆𝑥𝑦 𝑆𝑦2
Ejercicios:
1. ¿Qué variable presenta menor dispersión relativa?
2. Comentar la matriz de varianzas y covarianzas.
3. Construir la matriz de correlaciones y comentar los resultados.
4. Supongamos que por un cambio contable los libros leídos se multiplican por 2 y a la asistencia anual al cine hay que
sumar 3 días ¿cómo quedan modificadas las anteriores matrices?
4.7. Regresión: Coeficiente de determinación.
Dada un nube de puntos, la recta de regresión es la recta que mejor se ajusta a la nube de puntos. En el análisis de
regresión asumimos que existe una relación de dependencia entre dos variables, es decir, los valores que toma una
variable (normalmente Y) vienen condicionados por los valores que toma otra variable (habitualmente X). A La
variable Y se le denomina Dependiente o Endógena y la variable X Independiente o Exógena.
Asumiremos que la relación que existe entre la variable dependiente (Y) y la variable independiente (X) es de tipo
lineal, es decir:
𝑌𝑖 = 𝑎 + 𝑏𝑋𝑖
Siendo:
a: ordenada en el origen
b: pendiente de la recta
ei: error de predicción o residuo
Para estimar los valores de a y b se utiliza el criterio de Mínimos Cuadrados Ordinarios (MCO), que consiste en
minimizar la suma de los errores al cuadrado:
𝑛 𝑛 𝑛
SXY
b = 2
La solución del anterior programa de minimización es: SX
a = Y- bX
• El valor b, pendiente de la recta, recoge una estimación de la variación de la variable Y por cada incremento unitario
de X.
• El valor a, ordenada en el origen, recoge el valor ajustado de Y (estimación) suponiendo nulo el valor de X.
• Los valores estimados 𝑌 son valores promedios de Y para valores concretos de X.
• La pendiente (b) presenta el mismo signo que la covarianza entre X e Y (SXY).
• La recta de regresión siempre pasa por el centro de gravedad.
Coeficiente de Determinación (R2): El coeficiente de determinación o coeficiente de bondad de ajuste es un coeficiente que
nos informa de lo bien o mal que se ajusta la recta estimada a la nube de puntos, es decir, es un indicador de la capacidad que
tiene la variable independiente X de explicar el comportamiento de la variable dependiente Y.
Toma valores acotados entre 0 y 1: 0 ≤ R2 ≤1.
• R2 = 1 significa que el ajuste es perfecto (la nube de puntos está sobre la recta),
• R2 = 0 entonces es que no existe relación lineal entre las dos variables. Es decir, X no explica de forma lineal el
comportamiento de Y, por lo tanto el modelo especificado no es el adecuado.
𝑅2 = 𝑟𝑥𝑦 2
Ejemplo: Se desea saber si existe relación (asociación) entre el gasto en Investigación y Desarrollo (variable X, en millones de
€) y los beneficios obtenidos (variable Y, en millones de €) por 10 empresas del sector de las telecomunicaciones. La siguiente
tabla muestra los datos obtenidos de las 10 empresas. De los datos muestrales obtenemos los siguientes resultados:
10 10 10 10 10
X 7 3 4 9 8 6 2 4 8 10 𝑥𝑖 = 61 ; 𝑦𝑖 = 104 ; 𝑥𝑖2 = 439 ; (𝑦𝑖 − 𝑌)2 = 372,4 ; 𝑥𝑖 𝑦𝑖 = 780
Y 15 6 8 17 16 5 1 3 15 18 𝑖=1 𝑖=1 𝑖=1 𝑖=1 𝑖=1
Para observar si existe asociación entre las variables vamos a calcular la covarianza y la correlación. Posteriormente
estableceremos una relación de causalidad (de dependencia) entre las variables.
10 10
𝑖=1 𝑥𝑖 61 𝑖=1 𝑦𝑖 104
𝑋= = = 6,1 ; 𝑌 = = = 10,4
𝑛 10 𝑛 10
𝑛
1 372,4
𝑆𝑦2 = (𝑦𝑖 − 𝑦)2 = = 41,377 ⇒ 𝑆𝑌 = 41,377 = 6,432
𝑛−1 10 − 1
𝑖=1
• Covarianza y Correlación
𝑛
1 780 − 10 · 6,1 · (10,4)
𝑆𝑋𝑌 = 𝑥𝑖 𝑦𝑖 − 𝑛𝑥 𝑦 = = 16,17
𝑛−1 10 − 1
𝑖=1
𝑆𝑥𝑦 16,17
𝑟𝑥𝑦 = = = 0,9226
𝑆𝑥 · 𝑆𝑦 2,726 · (6,432)
Existe una asociación lineal positiva y muy intensa entre los gastos en investigación y desarrollo y los beneficios obtenidos
por las empresas analizadas.
Regresión:
Ahora vamos a establecer una relación de dependencia entre las variables. La economía de la empresa nos señala que existe
una relación (supongamos líneal) entre estas dos variables suponiendo, además, que un mayor gasto en investigación y
desarrollo produce un incremento en los beneficios. La relación que postulamos es:
𝑌𝑖 = 𝑎 + 𝑏𝑋𝑖
𝑆𝑋𝑌 16,17
𝑏= 2 = = 2,176 ; 𝑎 = 𝑌 − 𝑏𝑋 = 10,4 − 2,176 6,1 = −2,873
𝑆𝑋 7,43
La recta de regresión viene dada por:
𝑌𝑖 = 𝑎 + 𝑏𝑋𝑖 = −2,873 + 2,176𝑋𝑖
Comentarios: Como la pendiente es positiva se confirma la hipótesis de que los gastos en investigación y
desarrollo incrementan los beneficios de las empresas tecnológicas, concretamente en este ejemplo, si
incrementamos en una unidad los gastos en I+D, los beneficios se incrementan en 2,176 unidades.
Calculamos el coeficiente determinación para ver cómo ajusta la recta a la nube de puntos:
𝑅2 = 𝑟𝑥𝑦 2 = (0,9226)2 = 0,8511 ⇒ 85,11%
Es decir, el 85,11% de las variaciones de los beneficios vienen explicadas por las variaciones en los gastos en
I+D.
Si queremos saber cuál será el beneficio esperado para una empresa que invierta 1800000 millones en I+D, solamente
tenemos que hacer los siguiente:
𝑌 = 𝑎 + 𝑏𝑋𝑖 = −2,873 + 2,176 1,8 = 1,04
Y si deseamos tener unos beneficios de 3000000 ¿cuál será el nivel de gasto en I+D que nos proporcionará este nivel de
beneficios?
a) Yi= 0,079+1,295X2i
b) Yi= -0,67+0,117X1i
c) Yi= -0,079+1,295X2i
d) Yi= 0,67-0,117X1i
Problema 2. El diagrama de dispersión correspondiente a una muestra de 30 observaciones de las variables X e Y es el
siguiente:
50
o
o o
o
o
o
o o
o
40
o
o
o
30
o
o
o o
o
o
20
o o
o
o o o
o o
o
o
10
o
5 10 15
a) Por cada incremento de 100 unidades en la producción, se estima que las interrupciones del
proceso varían en promedio un 51,7%
b) El 80% de la variación observada en las unidades producidas queda explicado por la recta de
regresión ajustada.
c) El número de interrupciones que en promedio se observan cuando la producción es de 1000
unidades es 49,3
d) El coeficiente de correlación entre Unidades producidas (X) e Interrupciones (Y) es -0,80
Problema 4. ¿Qué gráfico de dispersión correspondería a una distribución conjunta de dos variable X e Y que presenta un
coeficiente de correlación igual a 0,81?
a) b) c) d)
Problema 5. Sobre una muestra de 150 usuarios del metro de cierta localidad se ha observado el número de paradas (X) y el
tiempo (Y: en mn) del recorrido y se han obtenido los siguientes resultados:
En base a la recta de regresión ajustada por MCO se puede afirmar que un usuario que realiza diariamente un trayecto de
6 paradas en promedio su recorrido durará:
a) 19 mn
b) 34 mn
c) 29 mn
d) 24 mn
Problema 6. ¿Qué afirmación respecto al coeficiente de correlación lineal es FALSA?
23 23 23 23 23
Calcular el vector de medias (centro de gravedad), la matriz de varianzas y covarianzas y la matriz de correlaciones.
Problema 9. Del ejemplo anterior, la recta de regresión de Y sobre X viene dada por:
a) Y=47,148+1,762X
b) Y=-47,148-1,762X
c) Y=-47,148+1,762X
d) Y=47,148+2,5X
Problema 10. El porcentaje de variación del precio de los pisos que viene explicado por los metros cuadrados es igual a:
a) -18,50%
b) 98,0%
c) 75,5%
d) 90,0%
Problema 11. Si nos deseamos comprar un piso de 110m2 ¿Cuál será su precio esperado de venta?
a) 150000,25€
b) 98000,55€
c) 146714,47€
d) No se puede calcular.
Problema 12, Si el banco nos concede como máximo un crédito hipotecario de 125000€ ¿Cuántos metros cuadrados
esperamos que tenga el piso que nos podemos comprar? ...............m2