Estadística Bidimensional
Estadística Bidimensional
Estadística Bidimensional
eu
Matemáticas aplicadas a las Ciencias Sociales I Tema 9: Estadística bidimensional
xi yi fi
2 10 1
4 18 1
6 25 1
7 33 1
8 34 1
n=5
Está claro que, al ser 1 la frecuencia absoluta de cada par ordenado ( xi , yi ) , podemos
prescindir de la columna de las fi .
1
Pedro Castro Ortega lasmatematicas.eu
Matemáticas aplicadas a las Ciencias Sociales I Tema 9: Estadística bidimensional
Ejemplo 2.
Supongamos que se han sometido 50 alumnos a una prueba formada por dos tests A y
B , que puntúan de 1 a 3, y que se han obtenido las siguientes puntuaciones (el primer
número es la puntuación del test A y el segundo el del test B ):
(1, 1) (2, 1) (2, 2) (1, 3) (2, 1) (2, 2) (1, 3) (2, 2) (3, 1) (3, 3)
(2, 3) (1, 1) (3, 3) (2, 1) (3, 1) (1, 2) (1, 1) (2, 3) (3, 2) (3, 3)
(2, 2) (2, 2) (1, 2) (2, 2) (1, 1) (2, 3) (2, 2) (1, 1) (2, 2) (3, 1)
(1, 2) (2, 3) (1, 3) (2, 1) (2, 2) (2, 1) (1, 1) (2, 2) (2, 3) (1, 1)
(3, 3) (2, 2) (2, 1) (3, 3) (1, 1) (1, 2) (2, 1) (1, 1) (3, 3) (2, 2)
Llamemos X a la puntuación obtenida en el test A e Y a la obtenida en el test B .
Después de hacer un recuento, podemos agrupar los datos en una tabla de entrada
simple (datos apareados) o bien en una tabla de doble entrada, como las siguientes:
xi yi fi Y
1 2 3 Total
1 1 9 X
1 2 4 1 9 4 3 16
1 3 3 2 7 12 5 24
2 1 7 3 3 1 6 10
2 2 12 Total 19 17 14 n = 50
2 3 5
3 1 3
3 2 1
3 3 6
n = 50
La estructura general de estas tablas es:
Tabla simple Tablas de doble entrada
xi yi fi Y
y1 ... yj ... yq fi•
x1 y1 f1 X
donde:
2
Pedro Castro Ortega lasmatematicas.eu
Matemáticas aplicadas a las Ciencias Sociales I Tema 9: Estadística bidimensional
x1 f1 y1 f1 x1 f1• y1 f•1
x2 f2 y2 f2 x2 f 2• y2 f•2
... ... ... ... ... ... ... ...
xi fi yj fj xi fi• yj f• j
n n f•• = n f•• = n
fi xi f i• ix
x= i =1
o bien x= i =1
n n
3
Pedro Castro Ortega lasmatematicas.eu
Matemáticas aplicadas a las Ciencias Sociales I Tema 9: Estadística bidimensional
k q
j =1
f j yj f •j yj
j =1
y= o bien y=
n n
p
f i• i x2
Var ( X ) = 2X = i =1
− x 2 ; X = + Var ( x ) = 2X
n
q
f •j y j2
Var (Y ) = Y2 = − y 2 ; Y = + Var ( y ) = Y2
j =1
1.3. Covarianza
En las distribuciones bidimensionales se emplea otro estadístico que refleja el promedio
de los productos de las desviaciones de cada una de las variables respecto a sus
respectivas medias. Se llama covarianza de X e Y:
XY = Cov ( X , Y ) = ( X − X ) (Y − Y )
Cuando los datos vienen dados en una tabla simple (datos apareados) tenemos:
k k
fi ( xi − x )( yi − y ) fxy i i i
XY = Cov ( X , Y ) = i =1
= i =1
−xy
n n
Cuando los datos vienen dados en una tabla de doble entrada se tiene:
f ( x − x ) ( y − y)
p q p q
ij j f x yj
ij i
XY = Cov ( X , Y ) =
i =1 j =1 i =1 j =1
= −xy
n n
En ambos casos:
XY = Cov ( X , Y ) = x y − x y
4
Pedro Castro Ortega lasmatematicas.eu
Matemáticas aplicadas a las Ciencias Sociales I Tema 9: Estadística bidimensional
X
Y
1 2 3 fi• f i• xi xi 2 f i • xi 2 f x yj
ij i
1 9 4 3 16 16 1 16 26
2 7 12 5 24 48 4 96 92
3 3 1 6 10 30 9 90 69
f• j 19 17 14 n = 50 94 202 187
f• j y j 19 34 42 95
y j2 1 4 9
f• j y j 2 19 68 126 213 f x yj
ij i
f x yj
ij i 32 62 93 187
94 95
x= = 1,88 y= = 1,9
50 50
202 213
Var ( X ) = − 1,882 = 0,5056 Var (Y ) = − 1,92 = 0, 65
50 50
187
XY = Cov ( X , Y ) = − 1,88 1,9 = 0,168
50
2. Representaciones gráficas
2.1. Diagrama de dispersión
Como los valores de la variable Diagrama de dispersión
estadística bidimensional ( X , Y ) son
3
pares ordenados de números reales, de
la forma ( xi , y j ) , se pueden representar
en unos ejes cartesianos obteniendo un 2
conjunto de puntos sobre el plano. Tal
conjunto de puntos se llama diagrama
de dispersión o nube de puntos. 1
Cada par (x , y )
i j tiene una frecuencia
absoluta f ij . Si ésta es mayor que 1, el
1 2 3
punto representa la concentración de f ij
puntos superpuestos.
5
Pedro Castro Ortega lasmatematicas.eu
Matemáticas aplicadas a las Ciencias Sociales I Tema 9: Estadística bidimensional
✓ Cuando las frecuencias no son muy altas se suelen representar los f ij puntos
alrededor del punto ( xi , y j ) . Observa en la figura el diagrama de dispersión del
ejemplo anterior.
✓ A veces, lo que se hace es representar pequeños círculos cuyas áreas reflejan las
frecuencias correspondientes.
✓ También se emplea un procedimiento mixto: se señalan con un punto los pares
( xi , y j ) con fij = 1 , y cuando la frecuencia es mayor que 1, se escribe el valor de
f ij .
DIAGRAMA DE BARRAS
12
10
2 3
2
0
1 1
2
3
6
Pedro Castro Ortega lasmatematicas.eu
Matemáticas aplicadas a las Ciencias Sociales I Tema 9: Estadística bidimensional
Ejemplo 3.
En la tabla siguiente se dan los pesos y estaturas de los nueve miembros de una familia:
Estatura (cm) X 168 170 160 160 150 140 135 120 70
Peso (kg) Y 75 60 55 50 35 30 20 15 12
REGRESIÓN
80
70
60
(Y) Pesos en Kg.
50
40
30
20
10
0
0 50 100 150 200
de ser mínima.
La recta de regresión de Y sobre X tiene por ecuación:
XY
rY y− y = ( x − x)
2X
X
Se emplea para predecir el valor de Y para un valor de X . Para un individuo que mida
x0 cm, predice un peso de y0 = y + XY ( x0 − x ) kilogramos.
2X
7
Pedro Castro Ortega lasmatematicas.eu
Matemáticas aplicadas a las Ciencias Sociales I Tema 9: Estadística bidimensional
XY Cov ( X , Y )
La pendiente de rY / X , mY = = , se llama coeficiente de regresión de Y
2X Var ( X )
X
sobre X .
de ser mínima.
La recta de regresión de X sobre Y tiene por ecuación:
XY
rX Y x − x = ( y − y)
Y2
Se emplea para predecir el valor de X para un valor de Y . Para un individuo que pese
yo kilogramos, predice una estatura de x0 = x + XY ( y0 − y ) cm.
Y2
XY Cov ( X , Y )
El número mX Y = = recibe el nombre de coeficiente de regresión de X
Y2 Var (Y )
sobre Y (ahora m X Y no es la pendiente de rX /Y , sino su inversa).
Observación:
La nube de puntos presentada es de tal forma que sugiere la idea de proceder a una
aproximación mediante una recta (ajuste lineal).
Otras veces sería más adecuado un ajuste parabólico, exponencial u otros.
Sin embargo, las rectas de regresión de Y sobre X y de X sobre Y se pueden obtener
siempre, cualquiera que sea la forma de la nube de puntos (otra cosa es que el ajuste sea
más o menos adecuado).
Ejemplo 4. Para el ejemplo anterior se tendría
8
Pedro Castro Ortega lasmatematicas.eu
Matemáticas aplicadas a las Ciencias Sociales I Tema 9: Estadística bidimensional
1273 352
x= = 141, 44 y= = 39,11
9 9
187949 17644
Var ( X ) = − 141, 44 2 = 876, 69 Var (Y ) = − 39,112 = 430, 77
9 9
54390
XY = Cov ( X , Y ) = − 141, 44 39,11 = 511, 28
9
XY 511, 28 XY 511, 28
mY = = = 0,58 mX Y = = = 1,19
2X 876, 69 Y2
X
430, 77
Se emplea para predecir el valor de Y para un valor de X . Para un individuo que mida
x0 = 120 cm predice un peso de y0 = 0,58 120 − 42,93 = 26,67 kg.
La recta de regresión de X sobre Y ( rX Y ) tiene por ecuación:
Se emplea para predecir el valor de X para un valor de Y . Para un individuo que pese
y0 = 35 kg, predice una talla de x0 = 1,19 35 + 94,9 = 136,55 cm.
Ejemplo 5.
Para el ejemplo 2 (páginas 2, 3 y 4) se tendría:
Los coeficientes de regresión de Y sobre X y de X sobre Y son:
XY 0,168 XY 0,168
mY = = = 0,332 mX Y = = = 0, 258
X Y2
X 2
0,5056 0, 65
9
Pedro Castro Ortega lasmatematicas.eu
Matemáticas aplicadas a las Ciencias Sociales I Tema 9: Estadística bidimensional
4. Correlación lineal
Correlación lineal es un término estadístico que pretende medir el grado de ajuste
existente entre la recta de regresión y la nube de puntos.
Dos variables son incorreladas (correlación nula) cuando no existe ninguna correlación
entre ellas. Esto ocurre cuando
XY = Cov ( X , Y ) = 0 = 0
de donde
= mY X mX Y
10
Pedro Castro Ortega lasmatematicas.eu
Matemáticas aplicadas a las Ciencias Sociales I Tema 9: Estadística bidimensional
6 6
5 5
4 4
3 3
2 2
1 1
0 0
0 1 2 3 4 5 6 0 1 2 3 4 5 6
11
Pedro Castro Ortega lasmatematicas.eu
Matemáticas aplicadas a las Ciencias Sociales I Tema 9: Estadística bidimensional
XY X Y
De manera similar, mX Y = = = X = 0 , luego rX Y x = x (recta
Y2
Y
2
y
vertical). Hemos demostrado que, en este caso, las dos rectas de regresión son
perpendiculares.
Ejemplo 6.
En el ejemplo 2 (páginas 2, 3 y 4), se tenía que X = 0, 711, Y = 0,806 , XY = 0,168 .
XY 0,168
Entonces = = = 0, 293 . Como el coeficiente de correlación es
X Y 0, 711 0,806
relativamente próximo a 0, la correlación entre las dos variables es escasa.
Ejemplo 7.
Para el ejemplo 3 (página 7, talla y peso de los 9 miembros de una familia), se tenía
XY 511, 28
X = 29, 61 , Y = 20, 75 , XY = 511, 28 . Por tanto, = = = 0,832 .
X Y 29, 61 20, 75
Como el coeficiente de correlación es bastante próximo a 1, la correlación entre las dos
variables es bastante fuerte y las predicciones que se realicen mediante las rectas de
regresión serán bastante fiables.
12
Pedro Castro Ortega lasmatematicas.eu
Matemáticas aplicadas a las Ciencias Sociales I Tema 9: Estadística bidimensional
Ejercicios y problemas
1. De un estudio sobre la influencia del consumo de tabaco en el índice de mortalidad
de la población, se obtuvieron los siguientes datos:
Número de cigarrillo al día 3 5 6 15 20 40
Índice de mortalidad 0,2 0,3 0,3 0,5 0,7 1,7
a) Estudiar la correlación entre ambas variables e interpretarla.
b) Hallar la recta de regresión que permite predecir la mortalidad conocido el
consumo de cigarrillos.
c) ¿Qué mortalidad se puede esperar para un consumidor de 30 cigarrillos diarios?
Y 0 2 4
X
1 2 1 3
2 1 4 2
3 2 5 0
Y 3 2 1
X
1 1 4 3
2 1 3 6
3 3 5 2
4 4 2 2
5 3 1 0
13
Pedro Castro Ortega lasmatematicas.eu
Matemáticas aplicadas a las Ciencias Sociales I Tema 9: Estadística bidimensional
5. Las tallas y pesos de 24 personas vienen dadas en la siguiente tabla de doble entrada
con datos agrupados:
Pesos
(Y ) 50−55 55−60 60−65 65−70
Tallas yj
(X ) xi
52,5 57,5 62,5 67,5
155−160 157,5 1 2 3 0
160−165 162,5 0 1 2 1
165−170 167,5 0 3 0 2
170−175 172,5 0 2 3 4
Calcular:
a) Las medias y las desviaciones típicas marginales de talla y peso.
b) Peso medio y desviación típica media condicionada a los que miden entre 16 y
170 cm.
c) Talla media y desviación típica condicionada a los que pesan entre 55 y 60 kg.
d) Rectas de regresión y coeficiente de correlación lineal de Pearson.
14