Estadística Bidimensional

Pedro Castro Ortega lasmatematicas.
eu
Matemáticas aplicadas a las Ciencias Sociales I Tema 9: Estadística bidimensional
Tema 9: Estadística bidimensional

1. Distribución de frecuencias bidimensional
En el tema anterior se han estudiado las distribuciones unidimensionales obtenidas al
observar sólo un carácter de la población.
Ahora estamos interesados en observar dos caracteres sobre cada individuo de la
población objeto de estudio. Si los caracteres son cuantitativos, lo que hemos llamado
variables estadísticas, tendremos un par de números ( x, y ) por cada unidad estadística o
individuo de la población. Tenemos así una variable estadística bidimensional ( X , Y ) .
Así, una distribución de frecuencias bidimensional es el conjunto de valores ( x, y ) de la

variable estadística ( X ,Y ) junto con las correspondientes frecuencias (absolutas o
relativas).
Las distribuciones bidimensionales, como las unidimensionales, pueden venir dadas por
los valores de sus componentes agrupados en intervalos (caso continuo) o por valores
aislados (caso discreto). Es más, es posible que cada uno de los caracteres en cuestión
tenga distinta naturaleza.
1.1. Tablas de frecuencias

Según la naturaleza de la población en la que se observan los caracteres X e Y , se
emplean dos tipos de frecuencias:
✓ Tablas de datos apareados (de entrada simple).
✓ Tablas de doble entrada.
Ejemplo 1.
Supongamos que se han observado las edades de cinco niños y sus pesos respectivos,
habiéndose obtenido los siguientes datos:
( 2,10 ) ( 4,18 ) ( 6, 25 ) ( 7,33) ( 8,34 )
Llamando X a la variable “edad”, medida en años, e Y a la variable “peso”, medida en
kg, podemos organizar los datos en una tabla de datos apareados o tabla de entrada
simple como la siguiente:
xi yi fi
2 10 1
4 18 1
6 25 1
7 33 1
8 34 1
n=5
Está claro que, al ser 1 la frecuencia absoluta de cada par ordenado ( xi , yi ) , podemos
prescindir de la columna de las fi .
1
Pedro Castro Ortega lasmatematicas.eu
Ejemplo 2.
Supongamos que se han sometido 50 alumnos a una prueba formada por dos tests A y
B , que puntúan de 1 a 3, y que se han obtenido las siguientes puntuaciones (el primer
número es la puntuación del test A y el segundo el del test B ):
(1, 1) (2, 1) (2, 2) (1, 3) (2, 1) (2, 2) (1, 3) (2, 2) (3, 1) (3, 3)
(2, 3) (1, 1) (3, 3) (2, 1) (3, 1) (1, 2) (1, 1) (2, 3) (3, 2) (3, 3)
(2, 2) (2, 2) (1, 2) (2, 2) (1, 1) (2, 3) (2, 2) (1, 1) (2, 2) (3, 1)
(1, 2) (2, 3) (1, 3) (2, 1) (2, 2) (2, 1) (1, 1) (2, 2) (2, 3) (1, 1)
(3, 3) (2, 2) (2, 1) (3, 3) (1, 1) (1, 2) (2, 1) (1, 1) (3, 3) (2, 2)
Llamemos X a la puntuación obtenida en el test A e Y a la obtenida en el test B .
Después de hacer un recuento, podemos agrupar los datos en una tabla de entrada
simple (datos apareados) o bien en una tabla de doble entrada, como las siguientes:
xi yi fi Y
1 2 3 Total
1 1 9 X
1 2 4 1 9 4 3 16
1 3 3 2 7 12 5 24
2 1 7 3 3 1 6 10
2 2 12 Total 19 17 14 n = 50
2 3 5
3 1 3
3 2 1
3 3 6
n = 50
La estructura general de estas tablas es:
Tabla simple Tablas de doble entrada
xi yi fi Y
y1 ... yj ... yq fi•
x1 y1 f1 X
x2 y2 f2 x1 f11 ... f1 j ... f1q f1•

... ... ... ... ... ... ... ... ... ...
xi yi fi xi fi1 ... f ij ... fiq fi•
... ... ... ... ... ... ... ... ... ...
xk yk fk xp f p1 ... f pj ... f pq f p•
n f• j f•1 ... f• j ... f•k f•• = n
donde:
2
fi = frecuencia absoluta del par ( xi , yi ) .
f ij = frecuencia absoluta del par ( xi , y j ) .

q
fi• =  fij = fi1 + fi 2 + + fiq = “número de individuos con X = xi (y cualquier Y )” =
j =1
= frecuencia absoluta de xi independientemente de Y .

p
f• j =  fij = f1 j + f 2 j + + f pj = “número de individuos con Y = y j (y cualquier X )”
i =1
= frecuencia absoluta de y j independientemente de X .

p q
f•• =  fi• =  f• j =  fij = n = Total de individuos.
i =1 j =1 i j
1.2. Distribuciones marginales

Se llama distribución marginal de X (respectivamente, de Y ) a la distribución de la
variable X (respectivamente, Y ) independientemente de los valores que toma la
variable X (respectivamente, Y ).
Dependiendo de cómo venga dada la distribución conjunta, por la tabla de datos
apareados (tabla simple) o por la tabla de doble entrada, las distribuciones de
frecuencias absolutas de X y de Y son:
Distribución Distribución Distribución Distribución

marginal de X marginal de Y marginal de X marginal de Y
xi fi yj fj xi fi• yj f• j
x1 f1 y1 f1 x1 f1• y1 f•1
x2 f2 y2 f2 x2 f 2• y2 f•2
... ... ... ... ... ... ... ...
xi fi yj fj xi fi• yj f• j
... ... … ... ... … … …

xk fk yk fk xp f p• yq f•q
n n f•• = n f•• = n
Se trata de dos distribuciones unidimensionales como las estudiadas anteriormente. Para

cada una de ellas se calculan todos los estadísticos usuales en tales distribuciones. En
particular, las medias marginales, las varianzas marginales y las desviaciones típicas
marginales son:
k p
 fi xi f i• ix
x= i =1
o bien x= i =1
n n
3
k q

j =1
f j yj f •j yj
j =1
y= o bien y=
n n
p
f i• i x2
Var ( X ) = 2X = i =1
− x 2 ;  X = + Var ( x ) = 2X
n
q
f •j y j2
Var (Y ) = Y2 = − y 2 ; Y = + Var ( y ) = Y2
j =1
1.3. Covarianza
En las distribuciones bidimensionales se emplea otro estadístico que refleja el promedio
de los productos de las desviaciones de cada una de las variables respecto a sus
respectivas medias. Se llama covarianza de X e Y:
 XY = Cov ( X , Y ) = ( X − X )  (Y − Y )
Cuando los datos vienen dados en una tabla simple (datos apareados) tenemos:
k k
 fi ( xi − x )( yi − y ) fxy i i i
 XY = Cov ( X , Y ) = i =1
= i =1
−xy
n n
Cuando los datos vienen dados en una tabla de doble entrada se tiene:
 f ( x − x ) ( y − y)
p q p q
ij j  f x yj
ij i
 XY = Cov ( X , Y ) =
i =1 j =1 i =1 j =1
= −xy
n n
En ambos casos:
 XY = Cov ( X , Y ) = x  y − x  y
Para el ejemplo 2 (página 2), tendríamos

xi yi fi fi xi xi 2 f i xi 2 f i yi yi 2 f i yi 2 xi yi fi xi yi
1 1 9 9 1 9 9 1 9 1 9
1 2 4 4 1 4 8 4 16 2 8
1 3 3 3 1 3 9 9 27 3 9
2 1 7 14 4 28 7 1 7 2 14
2 2 12 24 4 48 24 4 48 4 48
2 3 5 10 4 20 15 9 45 6 30
3 1 3 9 9 27 3 1 3 3 9
3 2 1 3 9 9 2 4 4 6 6
3 3 6 18 9 54 18 9 54 9 54
n = 50 94 202 95 213 187
Para el mismo ejemplo, si organizamos los datos en una tabla de doble entrada,
tendremos:
4
X
Y
1 2 3 fi• f i• xi xi 2 f i • xi 2 f x yj
ij i
1 9 4 3 16 16 1 16 26
2 7 12 5 24 48 4 96 92
3 3 1 6 10 30 9 90 69
f• j 19 17 14 n = 50 94 202 187
f• j y j 19 34 42 95
y j2 1 4 9
f• j y j 2 19 68 126 213 f x yj
ij i
f x yj
ij i 32 62 93 187
Las medias, varianzas, desviaciones típicas y covarianza resultan:
94 95
x= = 1,88 y= = 1,9
50 50
202 213
Var ( X ) = − 1,882 = 0,5056 Var (Y ) = − 1,92 = 0, 65
50 50
 X + Var ( X ) = + 0,5056 = 0, 711 Y = + Var (Y ) = + 0, 65 = 0,806
187
 XY = Cov ( X , Y ) = − 1,88 1,9 = 0,168
50
2. Representaciones gráficas
2.1. Diagrama de dispersión
Como los valores de la variable Diagrama de dispersión
estadística bidimensional ( X , Y ) son
3
pares ordenados de números reales, de
la forma ( xi , y j ) , se pueden representar
en unos ejes cartesianos obteniendo un 2
conjunto de puntos sobre el plano. Tal
conjunto de puntos se llama diagrama
de dispersión o nube de puntos. 1
Cada par (x , y )
i j tiene una frecuencia
absoluta f ij . Si ésta es mayor que 1, el
1 2 3
punto representa la concentración de f ij
puntos superpuestos.
5
✓ Cuando las frecuencias no son muy altas se suelen representar los f ij puntos
alrededor del punto ( xi , y j ) . Observa en la figura el diagrama de dispersión del
ejemplo anterior.
✓ A veces, lo que se hace es representar pequeños círculos cuyas áreas reflejan las
frecuencias correspondientes.
✓ También se emplea un procedimiento mixto: se señalan con un punto los pares
( xi , y j ) con fij = 1 , y cuando la frecuencia es mayor que 1, se escribe el valor de
f ij .
2.2. Diagramas de barras

Son una generalización de los diagramas de barras e histogramas de las variables
unidimensionales. El diagrama de barras del ejemplo que estamos considerando es:
DIAGRAMA DE BARRAS
12
10
2 3
2
0
1 1
2
3
3. Predicción bidimensional: regresión

La velocidad que alcanza una piedra que dejamos caer y el tiempo transcurrido desde
que la soltamos están relacionadas por la expresión v = gt , donde g  9,81 m s 2 es la
aceleración de la gravedad. Entre las variables t y v existe una relación funcional que
permite calcular exactamente el valor de una de ellas conocida la otra.
En un conjunto de personas a las que pesamos y tallamos se comprueba que,
aproximadamente, a más estatura corresponde mayor peso. Pero no hay ninguna función
matemática que ligue a esas dos variables. Se trata de una relación estadística.
La regresión consiste en la búsqueda de una función que exprese lo mejor posible la
relación existente entre dos (o más) variables estadísticas. Esto permitirá predecir el
valor de una de las variables para un valor dado de la otra (u otras).
6
Ejemplo 3.
En la tabla siguiente se dan los pesos y estaturas de los nueve miembros de una familia:
Estatura (cm) X 168 170 160 160 150 140 135 120 70
Peso (kg) Y 75 60 55 50 35 30 20 15 12
REGRESIÓN
80
70
60
(Y) Pesos en Kg.
50
40
30
20
10
0
0 50 100 150 200
(X) Estaturas en cm.
La nube de puntos correspondiente a la variable bidimensional ( X , Y ) se ajusta bastante

bien, aunque no exactamente, a una recta en las edades adultas. En cambio el “ajuste”
en los niños no es tan bueno.
La búsqueda de “buenas” rectas de ajuste es el objetivo de la regresión lineal.
3.1. Recta de regresión de Y sobre X

Se trata de hallar la ecuación de la recta r que mejor se ajuste a la nube de puntos en el
siguiente sentido:
✓ r pasa por el punto G = ( x, y ) (centro de gravedad de la distribución).
✓ La suma de los cuadrados de las diferencias de ordenadas entre los puntos-nube

y los puntos-recta r , para cada valor xi de X , SY X =  di 2 =  ( yin − yir ) , ha
2
de ser mínima.
La recta de regresión de Y sobre X tiene por ecuación:
 XY
rY  y− y = ( x − x)
2X
X
Se emplea para predecir el valor de Y para un valor de X . Para un individuo que mida

x0 cm, predice un peso de y0 = y + XY ( x0 − x ) kilogramos.
2X
7
 XY Cov ( X , Y )
La pendiente de rY / X , mY = = , se llama coeficiente de regresión de Y
2X Var ( X )
X
sobre X .
3.2. Recta de regresión de X sobre Y

Se trata de hallar la ecuación de la recta r que mejor se ajuste a la nube de puntos en el
siguiente sentido:
✓ r pasa por el punto G = ( x, y ) (centro de gravedad de la distribución).
✓ La suma de los cuadrados de las diferencias de ordenadas entre los puntos-nube

y los puntos-recta r , para cada valor y j de Y , S X Y =  Di 2 =  ( xin − xir ) , ha
2
de ser mínima.
La recta de regresión de X sobre Y tiene por ecuación:
 XY
rX Y  x − x = ( y − y)
Y2
Se emplea para predecir el valor de X para un valor de Y . Para un individuo que pese

yo kilogramos, predice una estatura de x0 = x + XY ( y0 − y ) cm.
Y2
 XY Cov ( X , Y )
El número mX Y = = recibe el nombre de coeficiente de regresión de X
Y2 Var (Y )
sobre Y (ahora m X Y no es la pendiente de rX /Y , sino su inversa).
Observación:
La nube de puntos presentada es de tal forma que sugiere la idea de proceder a una
aproximación mediante una recta (ajuste lineal).
Otras veces sería más adecuado un ajuste parabólico, exponencial u otros.
Sin embargo, las rectas de regresión de Y sobre X y de X sobre Y se pueden obtener
siempre, cualquiera que sea la forma de la nube de puntos (otra cosa es que el ajuste sea
más o menos adecuado).
Ejemplo 4. Para el ejemplo anterior se tendría
Talla (cm): xi Peso (kg): yi xi 2 yi 2 xi yi

168 75 28224 5625 12600
170 60 28900 3600 10200
160 55 25600 3025 8800
160 50 25600 2500 8000
150 35 22500 1225 5250
140 30 19600 900 4200
135 20 18225 400 2700
120 15 14400 225 1800
70 12 4900 144 840
1273 352 187949 17644 54390
8
Las medias, varianzas, desviaciones típicas y covarianza resultan:
1273 352
x= = 141, 44 y= = 39,11
9 9
187949 17644
Var ( X ) = − 141, 44 2 = 876, 69 Var (Y ) = − 39,112 = 430, 77
9 9
 X = + Var ( X ) = + 876, 69 = 29, 61 Y = + Var (Y ) = + 430, 77 = 20, 75
54390
 XY = Cov ( X , Y ) = − 141, 44  39,11 = 511, 28
9
Los coeficientes de regresión son:
 XY 511, 28  XY 511, 28
mY = = = 0,58 mX Y = = = 1,19
2X 876, 69 Y2
X
430, 77
La recta de regresión de Y sobre X ( rY X ) tiene por ecuación:
y − 39,11 = 0,58 ( x − 141, 44 )  y = 0,58 x − 42,93
Se emplea para predecir el valor de Y para un valor de X . Para un individuo que mida
x0 = 120 cm predice un peso de y0 = 0,58 120 − 42,93 = 26,67 kg.
La recta de regresión de X sobre Y ( rX Y ) tiene por ecuación:
x − 141, 44 = 1,19 ( y − 39,11)  x = 1,19 y + 94,9
Se emplea para predecir el valor de X para un valor de Y . Para un individuo que pese
y0 = 35 kg, predice una talla de x0 = 1,19  35 + 94,9 = 136,55 cm.
Ejemplo 5.
Para el ejemplo 2 (páginas 2, 3 y 4) se tendría:
Los coeficientes de regresión de Y sobre X y de X sobre Y son:
 XY 0,168  XY 0,168
mY = = = 0,332 mX Y = = = 0, 258
X Y2
X 2
0,5056 0, 65
Por tanto, la recta de regresión de Y sobre X ( rY / X ) tiene por ecuación:
y − 1,9 = 0,332 ( x − 1,88 )  y = 0,332 x + 1, 28
Y la recta de regresión de X sobre Y ( rX /Y ) tiene por ecuación:
x − 1,88 = 0, 258 ( y − 1,9 )  x = 0, 258 y + 1,39
9
4. Correlación lineal
Correlación lineal es un término estadístico que pretende medir el grado de ajuste
existente entre la recta de regresión y la nube de puntos.
4.1. Coeficiente de correlación lineal de Pearson

Una medida de la bondad de este ajuste es el coeficiente de correlación de Pearson,
definido como:
 XY
=
 x  y
En general, a los cambios producidos en una variable X , pueden acompañar cambios
en la otra variable Y . Incrementos en los valores de X pueden reflejar modificaciones
en los correspondientes valores de Y en forma de aumentos o disminuciones.
Recordemos que los coeficientes de regresión son:
 XY  XY
mY = mX Y =
 2X Y2
X
Dos variables están correlacionadas positivamente (correlación directa) si las dos

crecen o disminuyen en el mismo sentido: al crecimiento (decrecimiento) de una de
ellas le acompaña el crecimiento (decrecimiento) de la otra. En este caso, las pendientes
de las rectas de regresión son ambas positivas y, por tanto:
 XY = Cov ( X , Y )  0    0
Dos variables están correlacionadas negativamente (correlación inversa) si las dos

crecen o disminuyen en sentido contrario: al crecimiento (decrecimiento) de una de ellas
le acompaña el decrecimiento (crecimiento) de la otra. En este caso, las pendientes de
las rectas de regresión son ambas negativas y, por tanto:
 XY = Cov ( X , Y )  0    0
Dos variables son incorreladas (correlación nula) cuando no existe ninguna correlación
entre ellas. Esto ocurre cuando
 XY = Cov ( X , Y ) = 0   = 0
o bien cuando  XY = Cov ( X , Y ) es muy próximo a cero:  XY = Cov ( X , Y )  0 .
4.2. Relación entre el coeficiente de correlación  y los coeficientes de regresión

Observemos que
2XY  
 = 2 2 = XY
2
 XY = mY X  mX Y
 X  Y  X Y2
2
de donde
 =  mY X  mX Y
(se tomará el mismo signo que el de la covarianza, tal y como se ha visto

anteriormente).
10
4.3. Interpretación de los posibles valores del coeficiente de correlación, , y

significado de la posición relativa de las rectas de regresión
Es posible demostrar que el cuadrado del coeficiente de correlación es menor o igual
que 1, es decir, 2  1 , y que por tanto −1    1 .
✓ Si 2 = 1 (es decir, si  = −1 o  = 1 ), entonces todos los puntos del diagrama de

dispersión o nube de puntos se encuentran sobre la recta de regresión de Y sobre X
o sea, que están alineados y por tanto el ajuste es perfecto: hay dependencia
1
funcional lineal. Además 2 = mY X  mX Y = 1  mY X = , luego las dos rectas
mX Y
de regresión tienen la misma pendiente. Como ambas pasan por el centro de
gravedad G = ( x, y ) , entonces coinciden.
o Si  = +1 hay correlación positiva perfecta (dependencia funcional).

o Si  = −1 hay correlación negativa perfecta (dependencia funcional).
Coef. de correlación = -1 Coef. de correlación = +1

Correlación positiva perfecta Correlación negativa perfecta
6 6
5 5
4 4
3 3
2 2
1 1
0 0
0 1 2 3 4 5 6 0 1 2 3 4 5 6
D EPEN D EN C IA LIN EA L F U N C ION A L D EPEN D EN C IA LIN EA L F U N C ION A L
✓ Si 2  1 (es decir, si   +1 o   −1 ), entonces el ajuste es muy bueno y las

predicciones que se hagan mediante las rectas de regresión serán muy fiables.
1
Además 2 = mY X  mX Y  1  mY X  , luego las dos rectas de regresión tienen
mX Y
pendientes muy próximas.
o Si   +1 hay una fuerte correlación positiva.
o Si   −1 hay una fuerte correlación negativa.
✓ Si 2 = 0 (  = 0 ), de las variables X e Y se dice que están incorreladas (no existe

correlación entre X e Y ). La pendiente de la recta de regresión de Y sobre X es
   X   y 
mY X = XY = =  Y = 0 , luego rY X  y = y (recta horizontal).
X2
X2
X
11
 XY  X Y 
De manera similar, mX Y = = =  X = 0 , luego rX Y  x = x (recta
Y2
Y
2
y
vertical). Hemos demostrado que, en este caso, las dos rectas de regresión son
perpendiculares.
✓ Si 2  0 (   0 ), el ajuste es malo. La pendiente de la recta de regresión de Y

    X  Y 
sobre X es mY X = XY = =   Y  0 , mientras que la pendiente de la
X
2
X 2
X
1
recta de regresión de X sobre Y , , toma valores muy grandes en valor
mX Y
absoluto, es decir, las rectas de regresión están muy separadas.
Ejemplo 6.
En el ejemplo 2 (páginas 2, 3 y 4), se tenía que  X = 0, 711, Y = 0,806 ,  XY = 0,168 .
 XY 0,168
Entonces  = = = 0, 293 . Como el coeficiente de correlación es
 X  Y 0, 711 0,806
relativamente próximo a 0, la correlación entre las dos variables es escasa.
Ejemplo 7.
Para el ejemplo 3 (página 7, talla y peso de los 9 miembros de una familia), se tenía
 XY 511, 28
 X = 29, 61 , Y = 20, 75 ,  XY = 511, 28 . Por tanto,  = = = 0,832 .
 X  Y 29, 61 20, 75
Como el coeficiente de correlación es bastante próximo a 1, la correlación entre las dos
variables es bastante fuerte y las predicciones que se realicen mediante las rectas de
regresión serán bastante fiables.
12
Ejercicios y problemas
1. De un estudio sobre la influencia del consumo de tabaco en el índice de mortalidad
de la población, se obtuvieron los siguientes datos:
Número de cigarrillo al día 3 5 6 15 20 40
Índice de mortalidad 0,2 0,3 0,3 0,5 0,7 1,7
a) Estudiar la correlación entre ambas variables e interpretarla.
b) Hallar la recta de regresión que permite predecir la mortalidad conocido el
consumo de cigarrillos.
c) ¿Qué mortalidad se puede esperar para un consumidor de 30 cigarrillos diarios?
2. Los valores de dos variables X e Y se distribuyen según la tabla adjunta.

Determinar el coeficiente de correlación y la recta de regresión de Y sobre X .
Comentar cómo de fiables son las predicciones basadas en esa recta.
Y 0 2 4
X
1 2 1 3
2 1 4 2
3 2 5 0
3. Las estaturas y los pesos, en cm y kg respectivamente, de un grupo de seis personas

vienen recogidas en la tabla:
Estaturas 168 174 180 175 158 162
Pesos 65 70 73 68 55 62
a) Si una persona pesa 71 kg, ¿qué estatura se le puede predecir?
b) Si una persona mide 183 cm, ¿qué peso se le puede predecir?
c) ¿Cómo de fiables son las predicciones? Justificar la respuesta.
4. Los cuarenta alumnos de un curso realizan dos pruebas: una de Matemáticas, X , en

la que se puntúa de 1 a 5, y otra de Redacción, Y , en la que se puntúa de 1 a 3. Los
resultados se dan en la siguiente tabla:
Y 3 2 1
X
1 1 4 3
2 1 3 6
3 3 5 2
4 4 2 2
5 3 1 0
13
Hallar las rectas de regresión y el coeficiente de correlación lineal de Pearson.

Interpretar los resultados.
5. Las tallas y pesos de 24 personas vienen dadas en la siguiente tabla de doble entrada
con datos agrupados:
Pesos
(Y ) 50−55 55−60 60−65 65−70
Tallas yj
(X ) xi
52,5 57,5 62,5 67,5
155−160 157,5 1 2 3 0
160−165 162,5 0 1 2 1
165−170 167,5 0 3 0 2
170−175 172,5 0 2 3 4
Calcular:
a) Las medias y las desviaciones típicas marginales de talla y peso.
b) Peso medio y desviación típica media condicionada a los que miden entre 16 y
170 cm.
c) Talla media y desviación típica condicionada a los que pesan entre 55 y 60 kg.
d) Rectas de regresión y coeficiente de correlación lineal de Pearson.
6. La siguiente tabla muestra el número de gérmenes patógenos (en miles por cm 3) de

un determinado cultivo según el tiempo transcurrido:
Número de horas 0 1 2 3 4 5
Número de gérmenes 20 26 33 41 47 53
a) Hallar la recta de regresión para predecir el número de gérmenes por cm3 en
función del tiempo transcurrido.
b) ¿Qué cantidad de gérmenes se puede predecir que habrá cuando pasen 6 horas?
c) ¿Cómo de buena es la predicción anterior?
7. La producción (en miles de quintales métricos) y la superficie (en miles de

hectáreas) de lentejas en España, durante los años 1960 a 1964, según el Anuario
Estadístico Español, fueron
Superficie 38 45 47 49 45
Producción 239 289 335 337 216
a) Hallar la recta de regresión de la producción de lentejas en función de la
superficie cultivada.
b) Si se sabe que en un determinado año la producción fue de 420000 quintales
métricos, ¿cuál habrá sido previsiblemente la superficie cultivada durante ese
año?
14

Estadística Bidimensional

Cargado por

Copyright:

Formatos disponibles

Estadística Bidimensional

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Estadística Bidimensional

Cargado por

Copyright:

Formatos disponibles

Pedro Castro Ortega lasmatematicas.

Tema 9: Estadística bidimensional

Así, una distribución de frecuencias bidimensional es el conjunto de valores ( x, y ) de la

1.1. Tablas de frecuencias

x2 y2 f2 x1 f11 ... f1 j ... f1q f1•

n f• j f•1 ... f• j ... f•k f•• = n

fi = frecuencia absoluta del par ( xi , yi ) .

f ij = frecuencia absoluta del par ( xi , y j ) .

= frecuencia absoluta de xi independientemente de Y .

= frecuencia absoluta de y j independientemente de X .

1.2. Distribuciones marginales

Distribución Distribución Distribución Distribución

... ... … ... ... … … …

Se trata de dos distribuciones unidimensionales como las estudiadas anteriormente. Para

Para el ejemplo 2 (página 2), tendríamos

Las medias, varianzas, desviaciones típicas y covarianza resultan:

 X + Var ( X ) = + 0,5056 = 0, 711 Y = + Var (Y ) = + 0, 65 = 0,806

2.2. Diagramas de barras

3. Predicción bidimensional: regresión

(X) Estaturas en cm.

La nube de puntos correspondiente a la variable bidimensional ( X , Y ) se ajusta bastante

3.1. Recta de regresión de Y sobre X

✓ La suma de los cuadrados de las diferencias de ordenadas entre los puntos-nube

3.2. Recta de regresión de X sobre Y

✓ La suma de los cuadrados de las diferencias de ordenadas entre los puntos-nube

Talla (cm): xi Peso (kg): yi xi 2 yi 2 xi yi

Las medias, varianzas, desviaciones típicas y covarianza resultan:

 X = + Var ( X ) = + 876, 69 = 29, 61 Y = + Var (Y ) = + 430, 77 = 20, 75

Los coeficientes de regresión son:

La recta de regresión de Y sobre X ( rY X ) tiene por ecuación:

y − 39,11 = 0,58 ( x − 141, 44 )  y = 0,58 x − 42,93

x − 141, 44 = 1,19 ( y − 39,11)  x = 1,19 y + 94,9

Por tanto, la recta de regresión de Y sobre X ( rY / X ) tiene por ecuación:

y − 1,9 = 0,332 ( x − 1,88 )  y = 0,332 x + 1, 28

Y la recta de regresión de X sobre Y ( rX /Y ) tiene por ecuación:

x − 1,88 = 0, 258 ( y − 1,9 )  x = 0, 258 y + 1,39

4.1. Coeficiente de correlación lineal de Pearson

Dos variables están correlacionadas positivamente (correlación directa) si las dos

Dos variables están correlacionadas negativamente (correlación inversa) si las dos

o bien cuando  XY = Cov ( X , Y ) es muy próximo a cero:  XY = Cov ( X , Y )  0 .

4.2. Relación entre el coeficiente de correlación  y los coeficientes de regresión

(se tomará el mismo signo que el de la covarianza, tal y como se ha visto

4.3. Interpretación de los posibles valores del coeficiente de correlación, , y

✓ Si 2 = 1 (es decir, si  = −1 o  = 1 ), entonces todos los puntos del diagrama de

o Si  = +1 hay correlación positiva perfecta (dependencia funcional).

Coef. de correlación = -1 Coef. de correlación = +1

D EPEN D EN C IA LIN EA L F U N C ION A L D EPEN D EN C IA LIN EA L F U N C ION A L

✓ Si 2  1 (es decir, si   +1 o   −1 ), entonces el ajuste es muy bueno y las

✓ Si 2 = 0 (  = 0 ), de las variables X e Y se dice que están incorreladas (no existe

✓ Si 2  0 (   0 ), el ajuste es malo. La pendiente de la recta de regresión de Y

2. Los valores de dos variables X e Y se distribuyen según la tabla adjunta.

3. Las estaturas y los pesos, en cm y kg respectivamente, de un grupo de seis personas

4. Los cuarenta alumnos de un curso realizan dos pruebas: una de Matemáticas, X , en

Hallar las rectas de regresión y el coeficiente de correlación lineal de Pearson.

6. La siguiente tabla muestra el número de gérmenes patógenos (en miles por cm 3) de

7. La producción (en miles de quintales métricos) y la superficie (en miles de

También podría gustarte