Estadística Descriptiva Bidimensional
Estadística Descriptiva Bidimensional
Estadística Descriptiva Bidimensional
bidimensional 3
3.1. INTRODUCCIN
En el estudio estadstico de una poblacin cualquiera, puede resultar conveniente
valorar para cada elemento de la muestra simultneamente dos caracteres. Si los dos
caracteres son cuantitativos, se obtiene una variable estadstica que asigna a cada ele-
mento de la poblacin un par de nmeros (xi, yi). Se obtiene as una variable estadstica
bidimensional. Al par de nmeros (xi, yi) se le denomina observacin bidimensional.
La primera componente es la medida de la observacin realizada para una de las
magnitudes, x, que se refiere al primer carcter observado, y la segunda es la medida de
la observacin referente al segundo carcter, y. Por ejemplo, se puede observar el peso
y la talla de un mismo individuo; la altura de un rbol y su dimetro a 1,30 m del sue-
lo; los aos de antigedad y el salario de un trabajador; para un atleta el nmero de pul-
saciones en reposo y despus de realizar una hora de ejercicio fsico; el precio de una
cajetilla de tabaco y el nmero de cajetillas que han vendido en un da en un estanco, etc.
Los valores xi que constituyen la primera componente se pueden considerar
como los de una variable estadstica simple, unidimensional x, y lo mismo puede
decirse de los yi observados para la segunda componente, que son los valores de
otra variable estadstica y. Pero si lo que interesa es la consideracin conjunta de
los pares decimos que (xi, yi) es un resultado elemental de la observacin.
El conjunto formado por los n pares observados (x1, y1), (x2, y2), , (xn, yn)
constituye una distribucin bidimensional. Dos observaciones son iguales si estn
representadas por el mismo punto del plano.
Las variables estadsticas bidimensionales pueden ser discretas o continuas.
Una variable estadstica bidimensional es discreta, si las dos variables unidi-
mensionales x e y son discretas y si x e y son ambas continuas, se dice que la va-
riable estadstica bidimensional es continua. Ejemplo, si x = edad en aos e y =
n.o de respuestas acertadas de un test de 100 preguntas, la variable bidimen-
sional (x, y) es discreta. Pero si x representa la talla e y el peso de una persona, la
variable bidimensional (x, y) es continua.
99
100 ESTADSTICA APLICADA. UNA VISIN INSTRUMENTAL
Si todos los pares observados (xi, yi) son diferentes, la representacin de cada
par como un punto del plano proporciona una nube de puntos o diagrama de dis-
persin.
Por ejemplo, para la distribucin bidimensional
x 1,1 2,4 1,3 2,1 1,5 1,0 2,7 1,9 3,4 2,5 1,7 1,2 1,6 2,3 2,4 1,3 1,5 2,0 2,3 2,5
y 7,5 8,3 7,6 7,1 6,9 5,8 8,6 7,2 9,1 8,2 7,4 8,5 7,8 9,3 9,1 7,5 6,8 9,6 9,2 8,4
Plot of Y vs X
Y 9,8
8,8
7,8
6,8
5,8
1 1,4 1,8 2,2 2,4 3 3,4
tinua, para facilitar el manejo de los datos, tal como se hizo en las variables uni-
dimensionales, se agrupan estos en clases.
As, si los recorridos de las variables x e y son: [ mx , M x ] y my , M y se pueden
dividir en r y k subintervalos respectivamente.
Los subintervalos en que se divide el recorrido de la variable x en general se eligen
iguales y anlogamente los de la variable y, aunque tambin se pueden elegir de distinta
amplitud, [ mi1 , mi )para=1,2,
i .y.., r )
l j 1 , l j para=1,2,
j ..., , k tales que:
m0 m x y M x mr
l0 my y M y lk
y y1 y2 y3 yj yk Total
x filas
x1 n11 n12 n13 n1j n1k n1
x2 n21 n22 n23 n2j n2k n2
x3 n31 n32 n33 n3j n3k n3
xi ni1 ni2 ni3 nij nik ni
xr nr1 nr2 nr3 nrj nrk nr
Total n1 n2 n3 nj nk n = n
columnas
102 ESTADSTICA APLICADA. UNA VISIN INSTRUMENTAL
r k r k
Es evidente que nij = ni = n j = n
i=1 j =1 i =1 j =1
nij
y1 y
x1
2 y3 y
4y
5 y6
x2
y
x3
nij
60
50
40
30
n43
20
l5
10 l4
l3
y3
m0 m1 l2
m2 m3 x4 m4 l1
m5 m6 m7 l0
k
ni = nij = ni1 + ni 2 + ... + nik
j =1
xi ni yj nj
x1 n1 y1 n1
x2 n2 y2 n2
xr nr yk nk
r k
Total n = ni Total n = n j
i =1 j =1
ni5 n3 j
xi /y = y5 yj /x = x3
n5 n3
x1 n15 y1 n31
n5 n3
x2 n25 y2 n32
n5 n3
xi ni5 yj n3 j
n5 n3
xr nr5 yk n3k
n5 n3
Total 1 Total 1
r r k k
xi ni xi ni y j n j y j n j
i=1 i =1 j =1 j =1
x= = r , y= = k
n n
ni n j
i=1 j =1
Si cada observacin (xi, yi) se representa por un punto del plano, se dibuja la
nube de puntos o diagrama de dispersin y el punto del plano (x$, y$) es el centro de
gravedad o baricentro de la distribucin.
Las varianzas marginales se definen:
( y j y ) n j
r k
( xi x ) ni
2 2
i=1 j =1
Sx2 = , Sy2 =
n n
( y j y ) n j
r k
( xi x ) ni
2 2
i =1 j =1
sx2 = , s y2 =
n 1 n 1
r k
xi h y j h nij
1 2
i =1 j =1
ah1h2 =
n
Momentos respecto del baricentro (x$, y$) o momentos centrales para una dis-
tribucin bidimensional:
El momento central de h1 orden para x y h2 para y, es
(y )
r k
( xi x )
h1 h2
j y nij
i =1 j =1
mh1 h2 =
n
( xi x ) ( y j y ) nij
r k
i =1 j =1
Sxy = m11 =
n
Sxy = a11 x . y
Sxy
r=
Sx Sy
n
x
x 1 i =1 i
y n n
=
y
i =1
i
Sx 2 Sxy
MCov =
Sxy Sy 2
1 n ( xi x ) ( xi x ) ( yi y )
2
MCov =
n i =1 ( x x ) ( y y ) ( yi y )2
i i
es decir,
1 n xi x
MCov = . [ xi x yi y ]
n i =1 yi y
180
Talla en cm
170
160
150
34 44 54 64 74 84
Peso en kg
En la Figura 3.6 los puntos de la nube estn dispersos, en este caso no hay re-
lacin lineal entre las variables x e y.
80
60
40
Y
20
0
0 10 20 30 40
X
FIGURA 3.6. Nube de puntos, ms dispersa que la anterior, proporcionada
por STATGRAPHICS.
ESTADSTICA DESCRIPTIVA BIDIMENSIONAL 109
En estos casos se dice que hay una dependencia aleatoria entre las va-
riables. Esta dependencia puede ser ms o menos fuerte. La teora de la co-
rrelacin se ocupa de estudiar el grado de dependencia o de asociacin entre
las variables. El grado de dependencia es mnimo si las variables son inde-
pendientes y ser mximo si existe entre ellas una dependencia funcional. La
teora de la regresin se ocupa de ajustar una curva a la nube de puntos, que
se denominar curva de regresin. Se trata de descubrir si la variacin de los
valores de una de las variables influye en la variacin de los valores de la
otra variable con el objetivo de formular hiptesis sobre la relacin entre
ellas.
El propsito no es afirmar una relacin de causa-efecto, sino buscar si existe
una funcin que exprese un cierto grado de dependencia entre ambas, una fun-
cin cuya grfica se ajuste lo mejor posible a los datos.
La teora de la regresin y de la correlacin tiene su origen en los trabajos de
Francis Galton (1822-1911) sobre la herencia, relacionando la estatura de los pa-
dres y la de sus hijos adultos. Galton observa que, en media, los hijos de padres
altos tienen menor estatura que sus padres y los hijos de padres bajos tienen ma-
yor estatura que sus padres. En la herencia de la estatura hay una regresin hacia
la media. De aqu el nombre de regresin.
A partir de la nube de puntos que representa una variable estadstica bidimen-
sional cuantitativa, se trata ahora de seleccionar el tipo de funcin cuya grfica sea
la que mejor se ajusta a la nube de puntos, puede ser una funcin lineal, cuadr-
tica, potencial, exponencial, hiperblica, etc., y una vez seleccionado el tipo de
funcin dar un procedimiento para obtener la curva que mejor se ajuste a la nube
de puntos.
110 ESTADSTICA APLICADA. UNA VISIN INSTRUMENTAL
Si la nube de puntos no est dispersa sino que los puntos aparecen concen-
trados y tiene una configuracin lineal, como en la representacin de la Figura
3.5, se puede ajustar una funcin lineal. Estamos ante un problema de regresin li-
neal. La funcin a ajustar es una recta de regresin. Esta recta se determina ha-
ciendo que sean mnimas las diferencias entre los pares observados y los puntos
de la recta. Si estas diferencias se miden para cada valor de xi en la vertical se en-
cuentra la recta de regresin de y sobre x, en este caso la variable y se considera
la variable respuesta, o variable dependiente y x la variable predictora, la variable
controlada, variable explicativa o variable independiente. Si para cada valor de yi
las diferencias se miden en la horizontal, se determina la recta de regresin de x
sobre y, en este caso la variable dependiente es x y la independiente es y.
y = a + bx
(xi,yi)
yi
i
y*i
G
(x,y )
O xi x
De todas las rectas y = a + bxi se busca la recta que hace mnima la suma de
los cuadrados de las desviaciones i, que representan la distancia vertical de los
datos (xi, yi) a los puntos (xi, y*i = a + bxi) de la recta, es decir, la que hace mnima
2 2 2
( ) ( )
n n n n
U = i 2 = yi yi = yi ( a + bxi ) = ( yi a bxi )
i =1 i =1 i=1 i =1
U n
( yi a bxi ) = 0
n
a = 0 2 ( yi a bx i ) ( 1) = 0
i=1 i =1
n
U = 0 2 ( yi a bxi ) ( x i ) = 0 ( yi a bx i ) xi = 0
n
b i=1 i=1
n n n
n n
y
i=1 i i=1 a b x i = 0 i=1 i y = an + b xi
i =1 i =1
n n n n n n
xi yi axi b x i2 = 0 xi yi = a xi + b x i2
i=1 i=1 i=1 i =1 i =1 i=1
El sistema simplificado:
n n
i=1
yi = an + b xi
i =1
n n n
xi yi = a xi + b x i2
i =1 i =1 i=1
n n n n
n 2
xi yi xi xi2 xi yi
xi
i =1
= ( y bx ) i=1 + b i=1 i =1
= x y + b i =1 x 2
n n n n n
n
xi yi
i=1
1
x y
b= n
n
xi2
i=1
x2
n
n
xi2
i=1
Se sabe que Sx2 = x 2 es la varianza de la variable x y que la covarianza
n
de las variables x e y es:
n n
( xi x ) ( yi y ) xi yi
i=1 i=1
Sxy = = x y
n n
esta medida, que indica la variacin conjunta de las dos variables, tiene en cuen-
ta los valores de las variables x e y a la vez. Como se dijo anteriormente, por ser el
numerador una suma de productos de nmeros positivos o negativos puede ser po-
sitiva, negativa o incluso nula. La covarianza es positiva si a valores de x mayores
que su media x$ le corresponden valores de y tambin mayores que su media y$ o a
valores de x menores que su media le corresponden valores de y tambin menores
que su media. La covarianza es negativa si a valores de x mayores que su media x$
le corresponden valores de y menores que su media y$ y a valores de x menores
que su media le corresponden valores de y mayores que su media.
Los coeficientes de la recta de regresin de y sobre x en funcin de los mo-
mentos de x e y son:
Sxy Sxy
b= 2 y a = y x
S x Sx2
Sxy Sxy
y= y 2 x + x
Sx Sx2
ESTADSTICA DESCRIPTIVA BIDIMENSIONAL 113
o bien:
Sxy
yy = (x x)
Sx2
2 2 2
( ) ( )
n n n n
U = i 2 = xi xi = xi ( c + dyi ) = ( xi c dyi )
i=1 i=1 i =1 i=1
Sxy
xx = (y y)
Sy2
que pasa tambin por el punto G = (x$, y$), centro de gravedad de la nube.
S
El coeficiente de y, C xy = xy2 , que recibe el nombre de coeficiente de regre-
Sy
sin de x sobre y, representa la pendiente de la recta de regresin de x sobre y con
respecto al eje de ordenadas, es decir, la tangente del ngulo que forma la recta de
regresin de x sobre y con la parte positiva del eje de ordenadas.
114 ESTADSTICA APLICADA. UNA VISIN INSTRUMENTAL
x = c + dy
(xi,yi) i
yi
G
(x,y )
O xi x*i x
Sxy
y y = (x x )
S 2x
Sxy
x x = (y y )
S 2y
G
Sy2 S2 S2
r2 = = 1
Sy2 Sy2
n
i = ( yi yi ) = yi y
n n n Sxy Sxy n
Sx2
( x i x ) = (
i=1 i y y ) + ( xi x ) = 0
Sx2 i =1
i=1 i =1 i=1
2
n Sxy
( yi y ) yi y + 2 ( xi x )
n n
2
i2 i i =1 Sx
i=1 i=1
S =
2
= = =
n n n
2
n Sxy
( yi y ) 2 ( xi x )
i=1 S
= x
ser:
2
n Sxy
( yi y ) 2 ( xi x )
i =1 S x
S2 n
r = 1 2 = 1
2
=
Sy Sy2
116 ESTADSTICA APLICADA. UNA VISIN INSTRUMENTAL
n Sxy Sxy2
i ( y y ) 2
2 (
Sx2 i
x x ) ( yi y ) + ( x i x ) 2
1
= 1 2
i =1
S ( )
2 2
x
=
Sy n
n n n
2
1 ( yi y ) 2
Sxy
( x i x ) ( yi y ) S 2
xy
( xi x )
= 1 2 i =1 2 2 i =1 + i =1
=
( )
2
Sy n Sx n 2
Sx n
Sxy2 Sxy2 2 Sxy2 Sxy2
1 2 2 1
= 1 2 Sy 2 2 + 2 Sx = 1 2 Sy 2 = 2 2
Sy
Sx 2
Sx ( )
Sy Sx Sx Sy
2 Sxy2
r = 2 2
Sx S y
Sy2 S2
S2 se
De la definicin del coeficiente de determinacin r 2 = = 1
Sy2 Sy2
puede obtener la acotacin de este coeficiente. Por ser las varianzas positivas o
nulas, r2 tiene como mximo el valor 1, en el caso en que S2 = 0, y como mnimo
el valor 0, en el caso en que S2 = Sy2. Por tanto 0 r2 1.
El coeficiente de determinacin es un nmero sin dimensin que mide la calidad
del ajuste de la nube de puntos a la recta de regresin. El valor de r2 se suele ex-
presar como un porcentaje. As, si r2 = 0,8345 = 83,45% significa que el 83,45% de
la variacin de y queda explicada por la recta de regresin de y sobre x.
x=x r=0
= rad
2
y=y
G
Sxy
yy = ( x x ) Sx2 ( y y ) = Sxy ( x x )
Sx2
y la de x sobre y es:
Sxy
xx = 2 ( y y ) Sxy ( y y ) = Sy2 ( x x )
S y
Sx2 S xy
2
Sx Sxy S xy
2
Por coincidir ambas rectas de regresin, el ngulo entre las dos rectas es el m-
nimo, = 0. Ver Figura 3.11.
Sxy
y y = (x x )
S 2x
Sxy
x x = (y y )
S 2y
Sxy
y y = (x x )
S 2x
0<r<1
Sxy
G x x = (y y )
S 2y
Cuanto ms prximo a cero est r2 mayor ser el ngulo entre las dos rectas y
peor el ajuste de la nube de puntos a ellas.
Sxy
y y = (x x )
S 2x
0<r<1
Sxy
x x = (y y )
G S 2y
FIGURA 3.13. Nube de puntos con coeficiente de determinacin prximo a cero y sus
rectas de regresin.
entre los que tenamos en la muestra, la prediccin ser ms fiable que si se hace
una extrapolacin calculando valores de y para valores de x mayores que el mayor
registrado en la muestra, o menores que el menor valor de x en la muestra, y esta
extrapolacin es tanto menos fiable cuanto mayor sea la diferencia entre el valor
que se d a x y el mximo, o el mnimo, de los registrados en la tabla.
S2 S S
Se observa que r 2 = 2xy 2 = xy2 xy2 = C yx C xy , es decir, que el coeficiente de
S x Sy S x S y
determinacin es el producto de los coeficientes de regresin de y sobre x y de x
sobre y.
Sxy
r=
Sx Sy
la covarianza Sxy = 0, las dos rectas de regresin pasan por G = (x$, y$) y son
perpendiculares entre s. En este caso el ngulo que forman las dos rectas de
regresin es mximo, un ngulo recto, las variables se dice entonces que es-
tn incorrelacionadas o incorreladas, es decir, no existe relacin lineal entre
ellas.
Guilford interpreta el coeficiente de correlacin lineal r de Pearson, tambin
llamado coeficiente de correlacin momento producto de Pearson, del si-
guiente modo:
bdSuv
Sx = bSu , Sy = dSv , Sxy = bdSuv rxy = = ruv
bSu dSv
EJEMPLO 3.1.
Para una distribucin de frecuencias de una variable bidimensional se han obte-
nido las rectas de regresin 8x + y = 1 y 2x + 4y = 3. Raznese si la primera es o no es
la recta de regresin de y sobre x y calclese el coeficiente de correlacin de x e y.
ESTADSTICA DESCRIPTIVA BIDIMENSIONAL 121
1 1 1
x = y + Cxy =
8 8 8
del mismo modo, por ser 2x +4y = 3 la recta de regresin de y sobre x, se tiene:
1 3 1
y = x + C yx =
2 4 2
1 1 1
de lo que se deduce que r 2 = Cyx C xy = = .
2 8 16
1 1
r= =
16 4
EJEMPLO 3.2.
La siguiente tabla representa las distancias x, en metros, a un filn y el porcen-
taje, y, de mena encontrado en 15 fragmentos de roca arrastrados por la corriente de
un ro.
x 340 450 610 650 670 700 810 920 1020 1130 1210 1240 1260 1290 1370
y 67,0 68,0 68,5 70,0 71,0 71,2 71,3 71,3 71,4 71,3 71,5 71,9 72,0 72,1 72,5
Sxy
yy = (x x )
Sx2
122 ESTADSTICA APLICADA. UNA VISIN INSTRUMENTAL
13.670 1.061
x= . 911, 3 y= . 70, 7
15 15
15
xi2 14.001.700 13.670
2
(x) =
i =1 2
Sx2 =
15
. 102.918, 2
15 15
15
yi2 75.085, 24 1.061
2
(y)
i =1 2
S = 2
=
15
y . 2, 48
15 15
Sx . 320, 8 Sy . 1, 6
15
xi yi 973.546 13.670 1.061
Sxy = i=1
(x y) =
15 15
. 441, 4
15 15
Sxy 441, 4
r= = . 0, 8741 r 2 = 0, 7640
Sx Sy (320, 8) (1, 6 )
ESTADSTICA DESCRIPTIVA BIDIMENSIONAL 123
441, 4
y 70, 7 = ( x 911, 3)
102.918, 2
es decir,
y = 0, 004 x + 66, 8
El coeficiente de correlacin lineal es 0,8741 y el de determinacin lineal es
0,7640, que significa que el 76,40% del porcentaje de mena de los fragmentos de
roca viene explicado por la distancia al filn.
EJEMPLO 3.3.
Se ha observado que la presencia en el suelo de iones Al3+ es responsable de su
acidez de cambio, Ac C. El aluminio residual que contribuye a la acidez de cambio
se denomina Al C, aluminio de cambio.
En la siguiente tabla se recogen los valores de Al C, fracciones medidas en mi-
liequivalente por cada 100 g de suelo, meq/100g, y de Ac C, pH, correspondientes a
quince observaciones en la Sierra de Guadarrama:
AlC 0,99 0,03 0,03 1,65 1,32 3,52 5,39 0,61 0,50 0,44 3,62 1,43 2,64 2,09 0,61
AcC 1,13 0,26 0,36 2,26 2,50 4,40 6,71 1,87 0,88 3,52 4,51 1,98 3,12 3,54 0,91
15 15
yi2 = 141, 2321; xi yi = 98, 2988
i =1 i=1
124 ESTADSTICA APLICADA. UNA VISIN INSTRUMENTAL
Grfico de Ac C frente a Al C
Ac C
4
0
0 1 2 3 4 5 6
Al C
FIGURA 3.14. Nube de puntos correspondiente a los datos del Ejemplo 3.3.
De donde
2, 3585
La recta de regresin de y sobre x es y 2, 53 = ( x 1, 66), simplificando
2, 2220
y = 0, 77 + 1, 06 x
Se calcula ahora el coeficiente de determinacin para ver la calidad del ajus-
te de esta recta a la nube de puntos
Sxy2 2, 35852
r2 = = = 0, 8304
Sx2 Sy2 ( 2, 2220 ) (3, 0146 )
El coeficiente de correlacin es
r = 0, 8304 = 0, 9113
por ser este valor prximo a la unidad el ajuste de la recta de regresin a la nube
de puntos es muy bueno.
El valor del coeficiente de determinacin indica que el 83,04% de la variabi-
lidad de la acidez de cambio se puede explicar por la presencia en el suelo del alu-
minio de cambio.
ESTADSTICA DESCRIPTIVA BIDIMENSIONAL 125
La recta de regresin permite valorar la acidez de cambio para los valores del
aluminio de cambio de 5 y 6 meq/100g
( y ) x =5 = 0, 77 + (1, 06) 5 = 6, 07
( y ) x =6 = 0, 77 + (1, 06 ) 6 = 7, 13
Para el valor de 5 meq/100g se obtiene un pH ligeramente cido y para 6
meq/100g un valor del pH casi neutro. De los dos valores obtenidos es ms fiable
el primero porque el valor de x = 5 est comprendido entre los recogidos en la ta-
bla, es una interpolacin, mientras que el valor para x = 6 es una extrapolacin.
EJEMPLO 3.4.
Se han medido, en cm, los dimetros, x, de cien rboles a 1,30 m del suelo, es
decir, los dimetros normales, y las alturas, y, en metros de estos rboles. Los re-
sultados obtenidos despus de agrupar en clases son:
y
[5,7) [7, 9) [9, 11) [11, 13) [13, 15) [15, 17) [17, 19)
x
[20, 30) 1 1 0 0 0 0 0
[30, 40) 2 10 8 5 0 0 0
[40, 50) 0 1 14 13 15 1 0
[50, 60) 0 0 3 9 6 5 0
[60, 70) 0 0 0 1 2 2 1
126 ESTADSTICA APLICADA. UNA VISIN INSTRUMENTAL
Calcular:
a) Las medias y desviaciones tpicas de las distribuciones marginales.
b) La covarianza.
c) La media y la desviacin tpica para la distribucin de alturas condicionadas
a un dimetro normal de 55 cm.
d) La media y la desviacin tpica para la distribucin de dimetros normales
condicionada a una altura de 16 m.
e) La ecuacin de la recta de regresin de y (alturas) sobre x (dimetros)
f) Los coeficientes de correlacin y de determinacin de x e y.
xi ni ui uini ui2ni
25 2 2 4 8
35 25 1 25 25
45 44 0 0 0
55 23 1 23 23
65 6 2 12 24
Totales n =100 6 80
Para la variable x:
xi 45
Siendo ui = xi = 45 + 10 ui
10
5
ui ni 6
i =1
u= = = 0, 06; x = 45 + 10 u = 45, 6 cm
n 100
5
ui2 ni 80
i =1
Su2 = u2 = (0, 06) 2 = 0, 7964 Su = 0, 7964 = 0, 8924
n 100
Anlogamente para y:
y j 12
Siendo v j = y j = 12 + 2v j
2
ESTADSTICA DESCRIPTIVA BIDIMENSIONAL 127
yj nj vj vjnj vj2nj
6 3 3 9 27
8 12 2 24 48
10 25 1 25 25
12 28 0 0 0
14 23 1 23 23
16 8 2 16 32
18 1 3 3 9
n =100 16 164
7
v j n j
j =1 16
v= = = 0, 16; y = 12 + 2v = 11, 68 m
n 100
7
v 2j n j
j =1 164
sv2 = v2 =
(0,16)2 = 1, 6144 Sv = 1, 6144 = 1, 2706
n 100
Sy = 2 Sv = 6, 4576 y Sy = 2Sv = 2, 5412
2 2 2
yj 6 8 10 12 14 16 18
vj 7 7
xi
ui
3 2 1 0 1 2 3 v j nij ui v j nij
j= 1 j= 1
3 2 0 0 0 0 0
25 2 5 10
1 1 0 0 0 0 0
6 20 8 0 0 0 0
35 1 34 34
2 10 8 5 0 0 0
0 2 14 0 15 2 0
45 0 1 0
0 1 14 13 15 1 0
0 0 3 0 6 10 0
55 1 13 13
0 0 3 9 6 5 0
0 0 0 0 2 4 3
65 2 9 18
0 0 0 1 2 2 1
75
128 ESTADSTICA APLICADA. UNA VISIN INSTRUMENTAL
5 7
ui v j nij 75
i =1 j =1
Suv = ( m11 )uv = u v = ( 0, 06)(0, 16) = 0, 7596
n 100
Sxy = 20 Suv = 15,1920 cmm
c)
[5, 7) 0 6 0 0
[7, 9) 0 8 0 0
[9, 11) 3 10 30 300
[11, 13) 9 12 108 1.296
[13, 15) 6 14 84 1.176
[15, 17) 5 16 80 1.280
[17, 19) 0 18 0 0
7
y j n4 j
j =1 302
y / ( x = 55) = = = 13,1304 m
n4 23
7
y2j n4 j
j =1 4.052
Sy2/( x=55) = ( y / ( x = 55)) 2 = (13, 1304) 2 = 3, 7665
n4 23
d)
[20, 30) 0 25 0 0
[30, 40) 0 35 0 0
[40, 50) 1 45 45 2.025
[50, 60) 5 55 275 15.125
[60, 70) 2 65 130 8.450
n6 = 8 450 25.600
ESTADSTICA DESCRIPTIVA BIDIMENSIONAL 129
5
xi ni 6 450
i=1
x / ( y = 16) = = = 56,25 m
n6 8
5
xi2 ni 6 25.6000
i =1
Sx2/( y=16 ) = ( x / ( y = 16)) 2 = (56, 25)2 = 35, 9375
n6 8
15, 1920
y 11, 68 = ( x 45, 6) y 11, 68 = 0, 1908( x 45, 6)
79, 64
15, 1920
rxy = = 0, 6699
(8, 924) (2, 5412)
0, 7596
ruv = = 0, 6699 = rxy
(0, 8924)(1, 2706)
y el de determinacin es:
2
Sxy2 15, 1920
r = 2 2 =
2
= 0, 4488
Sx Sy ( 8, 924 ) ( 2, 5412)
xy
ln y = ln a + x ln b
Llamando z = ln y; A = ln a; B = ln b setiene z = A + Bx .
Por tanto, calculando los valores de z = ln y se determina la ecuacin de la rec-
ta de regresin de z sobre x. Se obtienen as los valores de A y B.
Como A = ln a a = e A y B = ln b b = e B ya se tienen los valores de a y b
y con ellos la lnea de regresin exponencial.
Se utilizan, como se ha explicado, los valores originales de x y el logaritmo
neperiano de los de y, es decir, z = ln y. Por esta razn, a esta transformacin se le
denomina semilogartmica.
Si se dibujan los valores de la variable bidimensional en papel semilogart-
mico, con escala logartmica en el eje de ordenadas y escala ordinaria en el de
abscisas, la grfica de y = abx es una lnea recta.
Lgicamente slo se puede ajustar una curva exponencial si la variable y
slo toma valores positivos.
Un caso particular de regresin exponencial es la de ecuacin y = aemx.
Tomando logaritmos neperianos en los dos miembros:
ln y = ln a + mx
Llamando z = ln y; A = ln a; se tiene z = A + mx.
Se calcula la ecuacin de la recta de regresin de z sobre x, el coeficiente de x
ser el valor de m buscado y el valor de a se obtiene del valor de A = ln a a = eA.
Ejemplos de este tipo de ajuste son:
EJEMPLO 3.5.
La siguiente tabla representa la medida, en mm, de la longitud, la anchura y el
espesor de una muestra de braquipodos.
y = 1, 1952 x 0, 7390
y = 1,1489x 3,6571
ln y = ln a + x ln b
z = 1,5305 + 0,0894x
De donde
y = 4, 62 1, 04 x
1
(ax + b) y = 1 = ax + b
y
1
Llamando z = se obtiene una recta de regresin, por tanto los valores de y
y
deben ser todos distintos de cero.
Esa recta da directamente los valores de a y b que determinan la curva.
x
Para ajustar una curva del tipo: y = teniendo en cuenta que:
kx + m
1 kx + m 1 1
= =k+m
y x y x
1 1
llamando u = y v = tenemos la ecuacin de una recta, siempre que los valores
y x
de las variables x e y sean todos distintos de cero.
Calculando la ecuacin de la recta de regresin de u sobre v se obtienen di-
rectamente los valores de k y m buscados.
136 ESTADSTICA APLICADA. UNA VISIN INSTRUMENTAL
y = b0 + b1 x + b2 x 2 + ... + bm x m
los coeficientes de esa ecuacin se determinan con la condicin de que sea mni-
ma la suma:
( ) ( )
n n 2 n 2
U = i2 = yi yi = yi b0 b1 x b2 x 2 .... bm x m
i =1 i =1 i=1
( ) ( )
n n 2 n 2
U = i2 = yi yi = yi b0 b1 xi b2 xi2
i =1 i =1 i=1
Las condiciones necesarias para que esta suma sea mnima son:
U U U
= 0, =0 y =0
b0 b1 b2
ESTADSTICA DESCRIPTIVA BIDIMENSIONAL 137
Por tanto:
U
( )
n
= 0 2 yi b0 b1 xi b2 xi2 ( 1) = 0 yi b0 b1 xi b2 xi2 = 0 ( )
n
b0 i =1
i=1
U n
( ) ( )
n
= 0 2 yi b0 b1 xi b2 xi ( x i ) = 0 xi yi b0 xi b1 xi b2 xi = 0
2 2 3
1b i =1 i =1
U
( )
n
( )( )
n
= 0 2 yi b0 b1 xi b2 xi2 xi2 = 0 xi yi b0 xi b1 xi b2 x i = 0
2 2 3 4
b2 i=1 i=1
n n n n
n n n
i=1 y i b 0 b 1 x i b 2 x 2
i = 0 y i = b 0 n + b1 x i + b 2 xi2
i =1 i =1 i =1 i =1 i =1 i =1
n n
n n n
n n n
x i yi b0 xi b1 xi2 b2 xi3 = 0 xi yi = b0 xi + b1 x i2 + b2 xi3
i=1 i =1 i =1 i =1 i=1 i =1 i =1 i =1
n n n n n n n n
x 2
i yi b0 x 2
i b 1 x 3
i b 2 x 4
i = 0 x i
2
yi = b0 x 2
i + b 1 x 3
i + b 2 x i4
i=1 i =1 i =1 i =1 i =1 i =1 i =1 i =1
El sistema de ecuaciones
n n n
i=1 y i = b 0 n + b1 x i + b 2 xi2
i =1 i =1
n
n n n
x i yi = b0 x i + b1 xi + b2 xi
2 3
i=1 i =1 i =1 i =1
n 2 n n n
i=1 x i yi = b0 x 2
i + b 1 x 3
i + b 2 xi4
i =1 i =1 i =1
( yi yi )
n 2
i =1
Sy2 S2 S2 n
R =2
= 1 2 = 1
Sy2 n
Sy
( yi y )
2
i=1
n
138 ESTADSTICA APLICADA. UNA VISIN INSTRUMENTAL
( yi yi )
n 2
( yi ( b0 + b1 xi + b2 xi2 ) )
n 2
i=1
R2 = 1 n = 1 i=1
=
n n
( yi y ) ( yi y )
2 2
i=1
n i =1
n n
( yi b0 b1 xi b x )
n
2 2
2 i
i=1
= 1
n 2
yi
i =1 2
n y
n
( yi b0 b1 xi b2 xi2 )
n 2
i=1
R2 = 1
n 2
yi
n i =1 y 2
n
EJEMPLO 3.6.
En un estudio de los sedimentos de un estuario se ha observado que al aumen-
tar la profundidad el contenido en agua resultante de drenar los sedimentos dismi-
nuye. Se ha obtenido la siguiente tabla de datos.
x 0,0 0,3 0,5 0,7 1,0 1,3 1,5 1,7 2,0 2,3 2,5 2,7 3,0 3,3 3,5
y 10,0 9,5 9,0 8,5 8,0 7,3 7,0 6,7 6,3 5,8 5,5 5,3 5,0 4,8 4,5
ESTADSTICA DESCRIPTIVA BIDIMENSIONAL 139
10,5
Contenido de agua
9,5
8,5
7,5
6,5
5,5
4,5
0 1 2 3 4
Profundidad (m)
n n
i=1 i y = an + b xi
i =1
n n n
xi yi = a xi + b x i2
i =1 i =1 i=1
Organizando los datos en una tabla se calculan con facilidad los coeficientes
del sistema, como se observa a continuacin.
Las dos primeras columnas recogen los datos, la tercera y la quinta estn for-
madas por los cuadrados de los valores de la primera y segunda columna, res-
pectivamente y la cuarta por los productos de las dos primeras. En la ltima fila se
reflejan los totales de cada una de las columnas:
140 ESTADSTICA APLICADA, UNA VISIN INSTRUMENTAL
y = 9, 6 1, 6 x
Sxy 2
r = 2 2 =
2 ( 1, 8449 ) 2
= 0, 9796
Sx Sy (1, 1679 ) ( 2, 9749)
ESTADSTICA DESCRIPTIVA BIDIMENSIONAL 141
como es muy prximo a la unidad, indica que el ajuste es muy bueno. El 97,96%
de la variacin del porcentaje de agua se puede explicar por la profundidad.
El coeficiente de correlacin es
Sxy
r= = 0, 9898
Sx Sy
15
26,3 103,2 63,63 173,267 503,4267 153,27 344,011
i=1
142 ESTADSTICA APLICADA. UNA VISIN INSTRUMENTAL
n n n
i =1
yi = b0 n + b1 xi + b2 xi2
i =1 i =1
n
n n n
xi yi = b0 x i + b1 x i + b2 x i
2 3
i =1 i =1 i=1 i =1
n 2 n n n
x
i=1 i i y = b 0 x 2
i + b1 x 3
i + b2 x i4
i =1 i=1 i=1
y = 10,1 2, 4 x + 0, 2 x 2
( yi yi )
15 2
( yi b0 b1 xi b2 xi2 )
15 2
i =1
15 i=1 0, 0511
R2 = 1 = 1 = 1 = 0, 9989
( yi y )
15 15 2
2
yi2 15 y 2 103, 2
754, 64 15
i =1 i =1 15
15
)
( yi yi = 0, 0511 yi2 = 754, 64
15 15 15 2 15
xi = 26, 3 yi = 103, 2
i =1 i =1 i =1 i =1
x 6 8 10 15 20 21 15 31 23 22
y 10 15 16 21 28 11 24 42 13 12
3.10.4. Para una distribucin bidimensional son compatibles los siguientes valores:
Sx2 = 16, Sy2 = 49, Sxy = 624 y r = 0,88?
Gasto elect.
65 80 100 150 300
/mes
Ingresos
1.000 1.500 1.600 2.100 3.700
/mes
5x + 3y = 1 y x + 2y = 3
3.10.7. Se han cortado treinta rboles de la misma especie. Las edades en aos, x, y
los dimetros mximos correspondientes, y, en cm estn recogidos en la siguiente ta-
bla de frecuencias de la variable bidimensional (x, y):
y
5 6 10 12 15
x
20 1 2 1 0 0
30 0 1 4 0 0
40 0 1 6 4 0
50 0 0 2 7 1
Se pide:
a) Calcular las medias y varianzas marginales.
b) Hallar la covarianza.
c) Determinar la ecuacin de la recta de regresin de los dimetros mximos so-
bre las edades.
d) Los coeficientes de determinacin y de correlacin.
Estad.
[0, 5) [5, 7) [7, 9) [9, 10]
Matem.
[0, 5) 29 4 6 8
[5, 7) 67 83 52 42
[7, 9) 31 60 42 25
[9, 10] 7 8 15 21
Se pide:
a) El nmero de alumnos que tienen calificacin entre 7 y 9 en matemticas.
b) El nmero de alumnos con calificacin entre 0 y 5 en estadstica.
c) El nmero de alumnos que tienen calificacin entre 5 y 7 en matemticas y
entre 7 y 9 en estadstica.
d) La frecuencia relativa de los alumnos con calificacin ms baja en matem-
ticas entre los que tienen calificacin ms alta en estadstica.
e) Calcular las medias marginales de las calificaciones de matemticas y esta-
dstica y las correspondientes desviaciones tpicas.
f) Qu notas tienen mayor dispersin?
g) Calcular la covarianza.
h) Hallar la ecuacin de la recta de regresin de y sobre x.
i) Calcular el coeficiente de correlacin lineal.
146 ESTADSTICA APLICADA. UNA VISIN INSTRUMENTAL
Temp. media C 25 21 28 31 30 26 12 18
o
N. de helados
330 320 635 790 710 480 210 260
vendidos
3.10.10. En la tabla siguiente se recoge informacin para 200 empleados sobre su sa-
lario mensual y los das de ausencia en un ao:
Das de
ausencia [1, 10) [10, 20) [20, 30) [30, 40) [40, 50)
Ingresos
[1.000, 1.500) 25 40 20 13 3
[1.500, 2.000) 12 17 12 7 2
[2.000, 2.500) 20 6 14 8 1
Se pide:
a) Dar la distribucin marginal correspondiente al ingreso entre 2.000 y 2.500
al mes, su media y su desviacin tpica.
b) La distribucin marginal para el nmero de das de ausencia de 10 a 20 das
y tambin la correspondiente media y la desviacin tpica.
c) Las medias marginales de x y de y, sus desviaciones tpicas y la covarianza.
d) El coeficiente de determinacin lineal. Es bueno el ajuste de una recta de re-
gresin a la nube de puntos de esta distribucin bidimensional?
x Gasto
0,5 6,0 5,0 0,0 5,5 1,5 2,5 4,0 2,0 4,0
1.er mes
y Gasto
0,0 5,5 5,5 0,8 5,0 1,5 0,0 5,0 1,0 3,0
2.o mes
ESTADSTICA DESCRIPTIVA BIDIMENSIONAL 147
Se pide:
a) Calcular el gasto medio y la varianza de cada mes, la covarianza y el coefi-
ciente de correlacin lineal.
b) Hay dependencia lineal entre el gasto de los dos meses?
c) Determinar la recta de regresin de y sobre x
d) Dar la recta de regresin de x sobre y
e) Para un gasto de 3,6 en el primer mes, qu gasto se podra esperar en el
segundo?
f) Para un gasto de 4,5 en el segundo mes, qu gasto esperado habr tenido
en el primero?
3.10.12. Para controlar la eficacia de cierto pesticida se prueban sus efectos en 10 ro-
sales. El porcentaje de hojas enfermas antes del tratamiento, x, y el porcentaje de ho-
jas enfermas pasado un ao de tratamiento y, para los 10 rosales son los siguientes:
x 50 40 70 90 40 60 80 80 50 70
y 30 10 45 60 5 25 40 50 20 30
t 2 4 6 8 10 12 14
N 19 37 72 140 295 584 990
Ajustar una curva de la forma N = a ebt para el crecimiento del cultivo y expli-
car si es bueno el ajuste.
y
[16,5; 17,5) [17,5; 18,5) [18,5; 19,5) [19,5; 20,5) [20,5; 21,5)
x
[14,5; 15,5) 1 1 0 0 0
[15,5; 16,5) 0 2 1 0 0
[16,5; 17,5) 0 1 4 2 0
[17,5; 18,5) 0 0 1 3 4
148 ESTADSTICA APLICADA. UNA VISIN INSTRUMENTAL
Se pide calcular:
a) Las medias y desviaciones tpicas marginales.
b) La covarianza.
c) La ecuacin de la recta de regresin de las alturas medias sobre las alturas
dominantes.
d) Los coeficientes de determinacin y de correlacin. Es bueno el ajuste?
Ajustar una curva de la forma indicada por el mtodo de los mnimos cuadrados.
Se pide:
a) Ajustar una curva de la forma x = a yb y dar una medida de la correlacin
entre las variables.
b) Qu peso se espera que tendr una balda de 130 cm de longitud y de la mis-
ma anchura que los anteriores? dem para una balda de 170 cm. cul de las
dos predicciones es la ms fiable? Por qu?
x 2.500 2.800 4.500 6.100 6.500 12.000 30.500 45.000 60.000 75.000 80.000
y 8 9 10 9 10 11 15 17 16 17 16
x aos 1 2 3 4 5 6
y 46 66 94 133 189 273
ESTADSTICA DESCRIPTIVA BIDIMENSIONAL 149
Se pide:
a) Ajustar una curva de mnimos cuadrados de la forma y = a bx y explicar si
es bueno el ajuste.
b) Estimar el nmero de efectivos de la poblacin al cabo de 7 aos y a los 4
aos y medio.
t meses 0 2 4 6 8 10 12 14
o 2 5 16 20 40 100 200 320
n n. indiv.
xi 7 11 16 18 20 22
yi 15 27 45 75 95 96
Tiempo en aos x 1 2 3 4 5 6
Beneficios y 8.701 9.898 11.002 11.598 13.875 15.350
Ajustar a los datos una parbola de segundo grado, por el mtodo de mnimos
cuadrados, y dar una medida del grado de ajuste.
3.10.23. En la siguiente tabla se recogen las rentas, en miles de euros, en cinco aos
consecutivos:
Aos t 1 2 3 4 5
Rentas R 14 15 18 24 38
Se pide:
a) Ajustar a estos datos el modelo de Harrod-Domar: Rt = R0 eat, en el que Rt
representa la renta en el periodo t, R0 la renta inicial, a es una constante y la
variable t representa el tiempo en aos. Dar una medida del grado de ajuste.
b) Determinar la renta inicial.
c) Cul sera la renta estimada para el sexto ao?
x aos 1 2 3 4 5 6 7 8
y 34,4 46 77,4 125,6 135,8 199,7 261,4 418,2
Se pide:
a) Ajustar a los datos una funcin de la forma y = k edx y dar el valor de la tasa
de crecimiento de la madera.
b) Dar una medida de la correlacin. Es satisfactorio el ajuste? Por qu?
3.10.25. Se han pesado por un lado los cuerpos, x, de seis centollos sin pinzas y por
otro lado sus pinzas respectivas, y. Los pesos, en gramos, se recogen en la siguiente
tabla:
x 1 3 7 9 10 13 19 21
y 170 150 63 52 25 15 7 3
Se pide ajustar a estos datos una curva de regresin potencial y = a xm. Es bue-
no el ajuste?
3.10.28. En una zona boscosa regular se han medido las alturas totales, en metros, de
ocho rboles y sus dimetros normales, dimetro a 1,30 m del suelo, en centmetros.
Los datos obtenidos son los siguientes:
xm 9 10 15 20 25 34 45 50
y cm 7 9 11 12,7 16 18 20 18
Ajustar a esos datos una parbola de segundo grado y = ax2 + bx + c y dar una
medida del grado de ajuste.