Estadística Descriptiva Bidimensional

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 53

Estadstica descriptiva

bidimensional 3

3.1. INTRODUCCIN
En el estudio estadstico de una poblacin cualquiera, puede resultar conveniente
valorar para cada elemento de la muestra simultneamente dos caracteres. Si los dos
caracteres son cuantitativos, se obtiene una variable estadstica que asigna a cada ele-
mento de la poblacin un par de nmeros (xi, yi). Se obtiene as una variable estadstica
bidimensional. Al par de nmeros (xi, yi) se le denomina observacin bidimensional.
La primera componente es la medida de la observacin realizada para una de las
magnitudes, x, que se refiere al primer carcter observado, y la segunda es la medida de
la observacin referente al segundo carcter, y. Por ejemplo, se puede observar el peso
y la talla de un mismo individuo; la altura de un rbol y su dimetro a 1,30 m del sue-
lo; los aos de antigedad y el salario de un trabajador; para un atleta el nmero de pul-
saciones en reposo y despus de realizar una hora de ejercicio fsico; el precio de una
cajetilla de tabaco y el nmero de cajetillas que han vendido en un da en un estanco, etc.
Los valores xi que constituyen la primera componente se pueden considerar
como los de una variable estadstica simple, unidimensional x, y lo mismo puede
decirse de los yi observados para la segunda componente, que son los valores de
otra variable estadstica y. Pero si lo que interesa es la consideracin conjunta de
los pares decimos que (xi, yi) es un resultado elemental de la observacin.
El conjunto formado por los n pares observados (x1, y1), (x2, y2), , (xn, yn)
constituye una distribucin bidimensional. Dos observaciones son iguales si estn
representadas por el mismo punto del plano.
Las variables estadsticas bidimensionales pueden ser discretas o continuas.
Una variable estadstica bidimensional es discreta, si las dos variables unidi-
mensionales x e y son discretas y si x e y son ambas continuas, se dice que la va-
riable estadstica bidimensional es continua. Ejemplo, si x = edad en aos e y =
n.o de respuestas acertadas de un test de 100 preguntas, la variable bidimen-
sional (x, y) es discreta. Pero si x representa la talla e y el peso de una persona, la
variable bidimensional (x, y) es continua.
99
100 ESTADSTICA APLICADA. UNA VISIN INSTRUMENTAL

Si todos los pares observados (xi, yi) son diferentes, la representacin de cada
par como un punto del plano proporciona una nube de puntos o diagrama de dis-
persin.
Por ejemplo, para la distribucin bidimensional

x 1,1 2,4 1,3 2,1 1,5 1,0 2,7 1,9 3,4 2,5 1,7 1,2 1,6 2,3 2,4 1,3 1,5 2,0 2,3 2,5
y 7,5 8,3 7,6 7,1 6,9 5,8 8,6 7,2 9,1 8,2 7,4 8,5 7,8 9,3 9,1 7,5 6,8 9,6 9,2 8,4

la figura representa el diagrama de dispersin correspondiente proporcionado


por el Programa STATGRAPHICS.

Plot of Y vs X

Y 9,8

8,8

7,8

6,8

5,8
1 1,4 1,8 2,2 2,4 3 3,4

FIGURA 3.1. Diagrama de dispersin proporcionado por STATGRAPHICS.

3.2. TABLAS DE FRECUENCIAS DE UNA DISTRIBUCIN


BIDIMENSIONAL

Si entre las observaciones de una variable estadstica bidimensional discreta


aparecen observaciones repetidas al recoger los datos, se tendrn pares iguales.
Cuando un par (xi, yi) se obtiene ni veces al realizar n observaciones, se dice que ni
es la frecuencia absoluta del resultado elemental (xi, yi). Es evidente que al repe-
tirse algunos de los pares, si el nmero de observaciones realizadas es n, el n-
mero k de pares diferentes que forman la distribucin bidimensional ser menor
k n
que n, k < n, y se verifica que ni = n. Se indica por fi = i la frecuencia rela-
i =1 n
k
tiva del par (xi, yi) y se verifica que fi = 1.
i=1
Si el nmero de observaciones n de una variable estadstica bidimensional dis-
creta es muy grande, o bien si (x, y) es una variable estadstica bidimensional con-
ESTADSTICA DESCRIPTIVA BIDIMENSIONAL 101

tinua, para facilitar el manejo de los datos, tal como se hizo en las variables uni-
dimensionales, se agrupan estos en clases.
As, si los recorridos de las variables x e y son: [ mx , M x ] y my , M y se pueden
dividir en r y k subintervalos respectivamente.
Los subintervalos en que se divide el recorrido de la variable x en general se eligen
iguales y anlogamente los de la variable y, aunque tambin se pueden elegir de distinta
amplitud, [ mi1 , mi )para=1,2,
i .y.., r )
l j 1 , l j para=1,2,
j ..., , k tales que:

m0 m x y M x mr
l0 my y M y lk

El producto cartesiano de las nuevas clases as obtenidas [ mi1 , mi ) y l j 1 , l j )


divide el rectngulo [ m0 , mr ] [ l0 , lk ] en nuevos rectngulos [ mi 1 , mi ) l j 1 , l j )
que constituyen las r.k clases de la variable estadstica bidimensional. Los centros de
m + mi l j 1 + l j
estos rectngulos son los puntos (xi, yi), siendo xi = i 1 e yj = , que
2 2
reciben el nombre de marcas de clase.
Siempre que sea posible, se elegirn [ mi 1 , mi )para i = 1, 2, ... , r, subinter-
)
valos de la misma amplitud y anlogamente los l j 1 , l j para j = 1, 2, ... , k , as
)
todos los rectngulos obtenidos [ mi 1 , mi ) l j 1 , l j i = 1, 2,..., r, j = 1, 2.,.., k
tendrn la misma rea y esto facilita las representaciones grficas.
Realizada esta particin se procede al recuento de las observaciones conteni-
)
das en cada clase, de tal modo que si en la clase cij = [ mi1 , mi ) l j 1 , l j hay nij
observaciones, se puede considerar la variable estadstica bidimensional (xi, yi) con
frecuencia nij en vez de los pares observados. Al agruparlos se simplifica el trabajo
pero a la vez se pierde informacin, como en el caso unidimensional.
Dispuestos los valores xi en orden creciente, por ejemplo en columna y los de
yj en fila, tambin en orden creciente, en la interseccin de la fila i-sima con la
columna j-sima se anota la frecuencia nij.

y y1 y2 y3 yj yk Total

x filas
x1 n11 n12 n13 n1j n1k n1
x2 n21 n22 n23 n2j n2k n2
x3 n31 n32 n33 n3j n3k n3
        
xi ni1 ni2 ni3 nij nik ni
        
xr nr1 nr2 nr3 nrj nrk nr
Total n1 n2 n3 nj nk n = n
columnas
102 ESTADSTICA APLICADA. UNA VISIN INSTRUMENTAL

r k r k
Es evidente que nij = ni = n j = n
i=1 j =1 i =1 j =1

Se puede representar esta distribucin en un espacio tridimensional tomando


en el eje vertical las frecuencias nij correspondientes al par (xi, yi) del plano XY.

nij

y1 y
x1
2 y3 y
4y
5 y6
x2
y
x3

FIGURA 3.2. Representacin tridimensional de una distribucin bidimensional (x1, yi).

Esta representacin es la anloga al diagrama de barras en las distribuciones


unidimensionales.
La nube de puntos o diagrama de dispersin es la proyeccin de estas barras
sobre el plano XY.

FIGURA 3.3. Nube de puntos de una distribucin bidimensional.

La representacin anloga al histograma de las variables unidimensionales


est formada por paraleleppedos de bases los rectngulos [ mi1 , mi ) l j 1 , l j y)
volmenes proporcionales a la correspondiente frecuencia nij y por tanto tendrn
alturas iguales o proporcionales al cociente de nij entre el rea del rectngulo co-
rrespondiente.
ESTADSTICA DESCRIPTIVA BIDIMENSIONAL 103

nij

60

50

40

30
n43
20
l5
10 l4
l3
y3
m0 m1 l2
m2 m3 x4 m4 l1
m5 m6 m7 l0

FIGURA 3.4. Estereograma.

Estas representaciones grficas reciben el nombre de estereogramas. En el


caso en que todos los rectngulos tengan la misma rea se pueden tomar como al-
turas de los rectngulos las frecuencias absolutas nij.

3.3. DISTRIBUCIONES MARGINALES Y CONDICIONADAS

Asociadas a la distribucin bidimensional se pueden observar distribuciones


unidimensionales para las variables x e y que se denominan marginales.
La frecuencia marginal del valor xi de la variable x es:

k
ni = nij = ni1 + ni 2 + ... + nik
j =1

La variable unidimensional de valores xi con las frecuencias absolutas ni


forma la distribucin marginal de x.
r
Anlogamente la frecuencia marginal de yj es n j = nij = n1 j + n2 j + ... + nrj
i =1

Y la variable unidimensional de valores yj con frecuencias absolutas nj es la


distribucin marginal de y.
Las dos distribuciones marginales asociadas a la distribucin bidimensional
son:
104 ESTADSTICA APLICADA. UNA VISIN INSTRUMENTAL

xi ni yj nj

x1 n1 y1 n1

x2 n2 y2 n2

   
xr nr yk nk
r k
Total n = ni Total n = n j
i =1 j =1

Se pueden considerar otras distribuciones unidimensionales asociadas a la dis-


tribucin bidimensional (x, y) que se denominan distribuciones condicionadas.
As, la distribucin de x condicionada a y = y5 tiene por frecuencias relativas
las frecuencias absolutas correspondientes a la columna de y5 de divididas por n5,
el total de las frecuencias absolutas de la columna 5 y la de y condicionada a x = x3
tiene por frecuencias relativas las frecuencias absolutas correspondientes a la
fila 3 divididas por n3, el total de las frecuencias absolutas de la fila 3.
En las tablas siguientes se representan las distribuciones de frecuencias rela-
tivas de x condicionada a y = y5 y de y condicionada a x = x3

ni5 n3 j
xi /y = y5 yj /x = x3
n5 n3

x1 n15 y1 n31
n5 n3

x2 n25 y2 n32
n5 n3

   

xi ni5 yj n3 j
n5 n3

   

xr nr5 yk n3k
n5 n3
Total 1 Total 1

3.4. MOMENTOS BIDIMENSIONALES:


MEDIAS Y VARIANZAS MARGINALES, COVARIANZA

Para las variables cuantitativas bidimensionales, de las correspondientes dis-


tribuciones marginales unidimensionales, se pueden calcular las denominadas
medias marginales:
ESTADSTICA DESCRIPTIVA BIDIMENSIONAL 105

r r k k
xi ni xi ni y j n j y j n j
i=1 i =1 j =1 j =1
x= = r , y= = k
n n
ni n j
i=1 j =1

Si cada observacin (xi, yi) se representa por un punto del plano, se dibuja la
nube de puntos o diagrama de dispersin y el punto del plano (x$, y$) es el centro de
gravedad o baricentro de la distribucin.
Las varianzas marginales se definen:

( y j y ) n j
r k
( xi x ) ni
2 2

i=1 j =1
Sx2 = , Sy2 =
n n

y las cuasivarianzas marginales:

( y j y ) n j
r k
( xi x ) ni
2 2

i =1 j =1
sx2 = , s y2 =
n 1 n 1

De la misma forma que en el caso unidimensional, se pueden definir los mo-


mentos de la distribucin bidimensional.

Momentos respecto del origen para una distribucin bidimensional:


El momento respecto del origen de orden h1 para x y h2 para y es

r k
xi h y j h nij
1 2

i =1 j =1
ah1h2 =
n
Momentos respecto del baricentro (x$, y$) o momentos centrales para una dis-
tribucin bidimensional:
El momento central de h1 orden para x y h2 para y, es

(y )
r k
( xi x )
h1 h2
j y nij
i =1 j =1
mh1 h2 =
n

Como caso particular si h2 = 0, se obtienen los momentos de la distribucin


marginal de la variable x, as:

a10 = x , m20 = Sx2 = a20 ( a10 )


2
106 ESTADSTICA APLICADA. UNA VISIN INSTRUMENTAL

Si h1 =0, se obtiene los momentos de la distribucin marginal de y:

a01 = y , m02 = Sy2 = a02 ( a01 )


2

Para h1 0 y h2 0 se obtienen los momentos propiamente dichos de la


distribucin bidimensional.
El momento central de orden 1 para x y 1 para y es m11 recibe el nombre de
covarianza de la variable bidimensional representada por Sxy

( xi x ) ( y j y ) nij
r k

i =1 j =1
Sxy = m11 =
n

es la media de los productos de las desviaciones de las componentes de cada


par a sus medias marginales. Como estas desviaciones pueden ser positivas,
cero o negativas los productos pueden tener signo positivo o negativo e inclu-
so ser nulos, por tanto la covarianza puede ser un nmero positivo, negativo o
nulo.
Efectuando el producto y simplificando, se obtiene la siguiente frmula equi-
valente y til en la prctica,

Sxy = a11 x . y

La covarianza dividida entre el producto de las desviaciones tpicas de las va-


riables marginales es una medida adimensional

Sxy
r=
Sx Sy

se denomina el coeficiente de correlacin de Pearson.

3.5. VECTOR DE MEDIAS Y MATRIZ DE COVARIANZA

Cuando el nmero de observaciones es muy grande se puede considerar cada


una de las n observaciones de variables cuantitativas bidimensionales como un
x
vector de dos coordenadas i , que representan los valores de la variable bidi-
yi
mensional para i = 1, 2, 3, , n.
ESTADSTICA DESCRIPTIVA BIDIMENSIONAL 107

Se define el vector de medias de esta variable bidimensional al vector

n
x
x 1 i =1 i

y n n
=
y

i =1
i

que tiene por componentes las medias aritmticas de cada variable.


La matriz de covarianza es la matriz cuadrada cuyos elementos de la dia-
gonal principal son las varianzas y los de la diagonal secundaria la covarianza,
es decir:

Sx 2 Sxy
MCov =
Sxy Sy 2

Como la covarianza Sxy es la misma que la Syx, la matriz de covarianzas es si-


mtrica.
Utilizando esta notacin, se puede escribir:

1 n ( xi x ) ( xi x ) ( yi y )
2

MCov =
n i =1 ( x x ) ( y y ) ( yi y )2
i i

es decir,

1 n xi x
MCov = . [ xi x yi y ]
n i =1 yi y

La notacin matricial facilita los clculos para las variables bidimensionales y


prepara el terreno para las variables multidimensionales.
El vector de medias es una matriz de una sola columna cuyos elementos son
las correspondientes medias.
Para calcular la matriz de covarianza basta con dividir entre el nmero de da-

tos cada uno de los elementos de la matriz producto de X X por su transpuesta,
xi x
(X X)t siendo X = y X = .
yi y
108 ESTADSTICA APLICADA. UNA VISIN INSTRUMENTAL

3.6. REGRESIN Y CORRELACIN


Con frecuencia interesa estudiar dos variables con el objeto de descubrir si
existe algn tipo de relacin entre ellas.
Si se dispone de n pares de valores (xi, yi) para i = 1, 2, , n, de dos variables
x e y, es decir, de una variable estadstica bidimensional cuantitativa, el primer
paso para analizar la posible influencia recproca entre las medidas de las dos va-
riables x e y es observar la forma de la nube de puntos o diagrama de dispersin
formado por los n puntos dados. Este diagrama muestra no slo la forma de la
nube, sino tambin la intensidad de la relacin entre las dos variables cuantitativas.
En la Figura 3.5 la nube de puntos tiene una configuracin lineal, hay una re-
lacin lineal entre las variables peso en kg y talla en cm.
190

180
Talla en cm

170

160

150
34 44 54 64 74 84

Peso en kg

FIGURA 3.5. Nube de puntos proporcionada por STATGRAPHICS.

En la Figura 3.6 los puntos de la nube estn dispersos, en este caso no hay re-
lacin lineal entre las variables x e y.
80

60

40
Y

20

0
0 10 20 30 40

X
FIGURA 3.6. Nube de puntos, ms dispersa que la anterior, proporcionada
por STATGRAPHICS.
ESTADSTICA DESCRIPTIVA BIDIMENSIONAL 109

La ley de Boyle-Mariotte afirma que para cada temperatura el producto del


volumen de la masa de un gas ideal por su presin es constante, P.V = k. Es decir,
existe una dependencia funcional entre las variables presin y volumen.
Dos variables cualesquiera no siempre estn relacionadas por una dependen-
cia de tipo funcional, por ejemplo:

a) La renta anual de un profesional y el dinero que gasta en comprar libros.


b) El peso y la talla de una persona.
c) La media del expediente acadmico y el tiempo que tarda el licenciado en
obtener su primer salario.
d) El precio de un artculo y la cantidad demandada.
e) El salario de un empleado y los aos de antigedad en la empresa.
f) La temperatura y la humedad de una regin determinada.

En estos casos se dice que hay una dependencia aleatoria entre las va-
riables. Esta dependencia puede ser ms o menos fuerte. La teora de la co-
rrelacin se ocupa de estudiar el grado de dependencia o de asociacin entre
las variables. El grado de dependencia es mnimo si las variables son inde-
pendientes y ser mximo si existe entre ellas una dependencia funcional. La
teora de la regresin se ocupa de ajustar una curva a la nube de puntos, que
se denominar curva de regresin. Se trata de descubrir si la variacin de los
valores de una de las variables influye en la variacin de los valores de la
otra variable con el objetivo de formular hiptesis sobre la relacin entre
ellas.
El propsito no es afirmar una relacin de causa-efecto, sino buscar si existe
una funcin que exprese un cierto grado de dependencia entre ambas, una fun-
cin cuya grfica se ajuste lo mejor posible a los datos.
La teora de la regresin y de la correlacin tiene su origen en los trabajos de
Francis Galton (1822-1911) sobre la herencia, relacionando la estatura de los pa-
dres y la de sus hijos adultos. Galton observa que, en media, los hijos de padres
altos tienen menor estatura que sus padres y los hijos de padres bajos tienen ma-
yor estatura que sus padres. En la herencia de la estatura hay una regresin hacia
la media. De aqu el nombre de regresin.
A partir de la nube de puntos que representa una variable estadstica bidimen-
sional cuantitativa, se trata ahora de seleccionar el tipo de funcin cuya grfica sea
la que mejor se ajusta a la nube de puntos, puede ser una funcin lineal, cuadr-
tica, potencial, exponencial, hiperblica, etc., y una vez seleccionado el tipo de
funcin dar un procedimiento para obtener la curva que mejor se ajuste a la nube
de puntos.
110 ESTADSTICA APLICADA. UNA VISIN INSTRUMENTAL

3.7. REGRESIN LINEAL MNIMO CUADRTICA.


RECTAS DE REGRESIN. COEFICIENTE
DE CORRELACIN LINEAL

Si la nube de puntos no est dispersa sino que los puntos aparecen concen-
trados y tiene una configuracin lineal, como en la representacin de la Figura
3.5, se puede ajustar una funcin lineal. Estamos ante un problema de regresin li-
neal. La funcin a ajustar es una recta de regresin. Esta recta se determina ha-
ciendo que sean mnimas las diferencias entre los pares observados y los puntos
de la recta. Si estas diferencias se miden para cada valor de xi en la vertical se en-
cuentra la recta de regresin de y sobre x, en este caso la variable y se considera
la variable respuesta, o variable dependiente y x la variable predictora, la variable
controlada, variable explicativa o variable independiente. Si para cada valor de yi
las diferencias se miden en la horizontal, se determina la recta de regresin de x
sobre y, en este caso la variable dependiente es x y la independiente es y.

3.7.1. Recta de regresin de y sobre x


Para calcular la ecuacin de la recta y = a + bx que mejor se ajuste a la nube
de puntos (xi, yi) para i = 1, 2, , n, por el mtodo de los mnimos cuadrados,

y = a + bx

(xi,yi)
yi
i
y*i

G
(x,y )

O xi x

FIGURA 3.7. Recta de regresin de y sobre x.


ESTADSTICA DESCRIPTIVA BIDIMENSIONAL 111

se llama i a la diferencia entre los valores observados yi y los valores corres-


pondientes en la recta y*i = a + bxi, para cada valor xi, es decir,
i = yi yi i = yi ( a + bxi )

De todas las rectas y = a + bxi se busca la recta que hace mnima la suma de
los cuadrados de las desviaciones i, que representan la distancia vertical de los
datos (xi, yi) a los puntos (xi, y*i = a + bxi) de la recta, es decir, la que hace mnima
2 2 2

( ) ( )
n n n n
U = i 2 = yi yi = yi ( a + bxi ) = ( yi a bxi )
i =1 i =1 i=1 i =1

La funcin U es una funcin de dos variables a y b pues xi e yi son las coor-


denadas de los puntos del diagrama de dispersin y por tanto valores conocidos.
Como U es funcin de dos variables, las condiciones necesarias para que sea m-
nima son que las derivadas parciales de U respecto de a y de b sean nulas. Se ob-
tiene as el sistema siguiente:

U n
( yi a bxi ) = 0
n

a = 0 2 ( yi a bx i ) ( 1) = 0
i=1 i =1
n
U = 0 2 ( yi a bxi ) ( x i ) = 0 ( yi a bx i ) xi = 0
n

b i=1 i=1
n n n
n n
y
i=1 i i=1 a b x i = 0 i=1 i y = an + b xi
i =1 i =1
n n n n n n
xi yi axi b x i2 = 0 xi yi = a xi + b x i2
i=1 i=1 i=1 i =1 i =1 i=1

El sistema simplificado:

n n

i=1
yi = an + b xi
i =1
n n n
xi yi = a xi + b x i2
i =1 i =1 i=1

recibe el nombre de ecuaciones normales de la recta de regresin de y sobre x.


Dividiendo por n las dos ecuaciones anteriores se tiene:
n n
y
i =1 i xi
i =1
= a + b a = y bx
n n
n n n
xi yi xi xi2
i =1 = a i=1 + b i=1
n n n
112 ESTADSTICA APLICADA. UNA VISIN INSTRUMENTAL

Sustituyendo el valor de a, obtenido de la primera ecuacin, en la segunda se


calcula el valor de b:

n n n n
n 2
xi yi xi xi2 xi yi
xi

i =1
= ( y bx ) i=1 + b i=1 i =1
= x y + b i =1 x 2
n n n n n


n
xi yi
i=1
1
x y
b= n
n
xi2
i=1
x2
n
n
xi2
i=1
Se sabe que Sx2 = x 2 es la varianza de la variable x y que la covarianza
n
de las variables x e y es:

n n
( xi x ) ( yi y ) xi yi
i=1 i=1
Sxy = = x y
n n

esta medida, que indica la variacin conjunta de las dos variables, tiene en cuen-
ta los valores de las variables x e y a la vez. Como se dijo anteriormente, por ser el
numerador una suma de productos de nmeros positivos o negativos puede ser po-
sitiva, negativa o incluso nula. La covarianza es positiva si a valores de x mayores
que su media x$ le corresponden valores de y tambin mayores que su media y$ o a
valores de x menores que su media le corresponden valores de y tambin menores
que su media. La covarianza es negativa si a valores de x mayores que su media x$
le corresponden valores de y menores que su media y$ y a valores de x menores
que su media le corresponden valores de y mayores que su media.
Los coeficientes de la recta de regresin de y sobre x en funcin de los mo-
mentos de x e y son:
Sxy Sxy
b= 2 y a = y x
S x Sx2

De ah que la ecuacin de la recta de regresin de y sobre x se pueda escribir:

Sxy Sxy
y= y 2 x + x
Sx Sx2
ESTADSTICA DESCRIPTIVA BIDIMENSIONAL 113

o bien:

Sxy
yy = (x x)
Sx2

Representada de esta forma se observa que la recta de regresin de y sobre x


pasa por el punto G = (x$, y$) que recibe el nombre de centro de gravedad de la
S
nube de puntos y tiene por pendiente el coeficiente de x, Cyx = xy2 , que se deno-
Sx
mina el coeficiente de regresin de y sobre x, representa la tangente del ngulo
que forma la recta de regresin de y sobre x con la parte positiva del eje de abs-
cisas.
El signo del coeficiente de regresin es el mismo que el de la covarianza. Por
tanto, si la covarianza es positiva, la recta de regresin de y sobre x es creciente,
en este caso al aumentar el valor de x tambin aumenta el de y. Si la covarianza es
negativa, la recta de regresin de y sobre x es decreciente, lo que significa que al
aumentar el valor de x disminuye el de y. Y si la covarianza es cero, la recta de re-
gresin de y sobre x sera la recta que pasando por G, centro de gravedad de la
nube, es paralela al eje de abscisas.

3.7.2. Recta de regresin de x sobre y


Si la variable explicativa es y y la dependiente es x se puede determinar la
ecuacin de la recta de regresin de x sobre y, x = c + dy, considerando para cada
valor de yi las diferencias i = x*i xi y haciendo mnima la suma de estas dife-
rencias al cuadrado

2 2 2

( ) ( )
n n n n
U = i 2 = xi xi = xi ( c + dyi ) = ( xi c dyi )
i=1 i=1 i =1 i=1

Procediendo como en el caso anterior, se obtiene la ecuacin:

Sxy
xx = (y y)
Sy2

que pasa tambin por el punto G = (x$, y$), centro de gravedad de la nube.
S
El coeficiente de y, C xy = xy2 , que recibe el nombre de coeficiente de regre-
Sy
sin de x sobre y, representa la pendiente de la recta de regresin de x sobre y con
respecto al eje de ordenadas, es decir, la tangente del ngulo que forma la recta de
regresin de x sobre y con la parte positiva del eje de ordenadas.
114 ESTADSTICA APLICADA. UNA VISIN INSTRUMENTAL

x = c + dy
(xi,yi) i
yi

G
(x,y )

O xi x*i x

FIGURA 3.8. Recta de regresin de x sobre y.

Si Cxy es positivo, al aumentar los valores de y aumentan los de x. Si Cxy es


nulo la recta de regresin de x sobre y es la recta paralela al eje OY que pasa por
el punto de coordenadas (x$, y$) y en este caso la informacin de la recta de regre-
sin no sirve para explicar el valor de x a partir de y. Si Cxy es negativo, al au-
mentar los valores de y disminuyen los de x.
Los coeficientes de regresin C yx = tg y Cxy = tg en general no son igua-
les, pero los dos tienen siempre el mismo signo que la covarianza y por tanto son los
dos positivos o los dos negativos.

Sxy
y y = (x x )
S 2x

Sxy
x x = (y y )
S 2y


G

FIGURA 3.9. Rectas de regresin de y sobre x y de x sobre y.


ESTADSTICA DESCRIPTIVA BIDIMENSIONAL 115

Luego las dos rectas de regresin son crecientes o decrecientes a la vez. El n-


gulo entre las dos rectas de regresin, que es el menor de los dos ngulos su-
plementarios que forman, es agudo o como mximo recto.
En el siguiente apartado, se explica que cuanto menor sea el ngulo que forman
las dos rectas de regresin mayor ser la relacin lineal entre las variables x e y.

3.7.3. Coeficiente de determinacin lineal


Se trata ahora de dar una medida del ajuste de la recta de regresin de y sobre x
Sxy
a la nube de puntos, esto es, a la recta y y = 2 ( x x ) . Esta medida es el coefi-
Sx
ciente de determinacin lineal que se define como la diferencia de la varianza de la
variable y y la varianza de las desviaciones i = yi yi dividida por la varianza de
y, esto es:

Sy2 S2 S2
r2 = = 1
Sy2 Sy2

Como la media de las desviaciones i = yi y*i es cero porque

n
i = ( yi yi ) = yi y
n n n Sxy Sxy n
Sx2
( x i x ) = (
i=1 i y y ) + ( xi x ) = 0
Sx2 i =1
i=1 i =1 i=1

la varianza de las desviaciones es

2
n Sxy
( yi y ) yi y + 2 ( xi x )
n n
2
i2 i i =1 Sx
i=1 i=1
S =
2
= = =
n n n
2
n Sxy
( yi y ) 2 ( xi x )
i=1 S
= x

ser:
2
n Sxy
( yi y ) 2 ( xi x )
i =1 S x
S2 n
r = 1 2 = 1
2
=
Sy Sy2
116 ESTADSTICA APLICADA. UNA VISIN INSTRUMENTAL

n Sxy Sxy2
i ( y y ) 2
2 (
Sx2 i
x x ) ( yi y ) + ( x i x ) 2

1
= 1 2
i =1
S ( )
2 2
x

=
Sy n
n n n
2
1 ( yi y ) 2
Sxy
( x i x ) ( yi y ) S 2
xy
( xi x )
= 1 2 i =1 2 2 i =1 + i =1
=
( )
2
Sy n Sx n 2
Sx n

Sxy2 Sxy2 2 Sxy2 Sxy2
1 2 2 1
= 1 2 Sy 2 2 + 2 Sx = 1 2 Sy 2 = 2 2
Sy

Sx 2
Sx ( )


Sy Sx Sx Sy

As se ha obtenido la frmula para calcular el coeficiente de determinacin en


funcin de los momentos de las variables x e y:

2 Sxy2
r = 2 2
Sx S y

Sy2 S2
S2 se
De la definicin del coeficiente de determinacin r 2 = = 1
Sy2 Sy2
puede obtener la acotacin de este coeficiente. Por ser las varianzas positivas o
nulas, r2 tiene como mximo el valor 1, en el caso en que S2 = 0, y como mnimo
el valor 0, en el caso en que S2 = Sy2. Por tanto 0 r2 1.
El coeficiente de determinacin es un nmero sin dimensin que mide la calidad
del ajuste de la nube de puntos a la recta de regresin. El valor de r2 se suele ex-
presar como un porcentaje. As, si r2 = 0,8345 = 83,45% significa que el 83,45% de
la variacin de y queda explicada por la recta de regresin de y sobre x.

x=x r=0

= rad
2


y=y
G

FIGURA 3.10. Nube de puntos con coeficiente de determinacin nulo y sus


correspondientes rectas de regresin.
ESTADSTICA DESCRIPTIVA BIDIMENSIONAL 117

Si S2 = Sy2 es r2 = 0 y esto significa que la varianza de las desviaciones i es


toda la varianza de la variable y, por tanto el ajuste de la nube de puntos a la recta
de regresin de y sobre x es psimo. En este caso no hay relacin lineal entre las va-
riables x e y. La recta de regresin de y sobre x es y = y$ y la de x sobre y es x = x$, las
dos rectas de regresin son perpendiculares entre s. Ver Figura 3.10.

Si S2, varianza de las i, es nula quiere decir que yi yi = 0, i = 1, 2,..., n,
o lo que es lo mismo para todo i es yi = y*i , y esto significa que todos los puntos ob-
servados pertenecen a la recta de regresin de y sobre x. En este caso, es r2 = 1 y el
ajuste a la recta de regresin es perfecto. Entonces, las dos rectas de regresin coin-
ciden y slo en este caso, ya que la recta de regresin de y sobre x es:

Sxy
yy = ( x x ) Sx2 ( y y ) = Sxy ( x x )
Sx2

y la de x sobre y es:

Sxy
xx = 2 ( y y ) Sxy ( y y ) = Sy2 ( x x )
S y

Y estas dos rectas coincidirn si:

Sx2 S xy
2
Sx Sxy S xy
2

=1 = 0 Sx2 Sy2 Sxy2 = 0 S xy2 = Sx2 S y2 =1 r =1


2
rango 2 2 2 2
S xy Sy Sxy Sy Sx Sy

Por coincidir ambas rectas de regresin, el ngulo entre las dos rectas es el m-
nimo, = 0. Ver Figura 3.11.

Sxy
y y = (x x )
S 2x
Sxy
x x = (y y )
S 2y

FIGURA 3.11. Nube de puntos con coeficiente de determinacin r2 = 1.


118 ESTADSTICA APLICADA. UNA VISIN INSTRUMENTAL

Si 0 < r2 < 1, hay una dependencia aleatoria entre las variables x e y, y el


ajuste de la nube de puntos a la recta de regresin ser tanto mejor cuanto ms
prximo a 1 est el coeficiente de determinacin y el ngulo entre las dos rectas
de regresin ser pequeo.

Sxy
y y = (x x )
S 2x

0<r<1
Sxy
G x x = (y y )
S 2y

FIGURA 3.12. Nube de puntos con coeficiente de determinacin prximo a 1 y rectas de


regresin.

Cuanto ms prximo a cero est r2 mayor ser el ngulo entre las dos rectas y
peor el ajuste de la nube de puntos a ellas.

Sxy
y y = (x x )
S 2x

0<r<1



Sxy
x x = (y y )
G S 2y

FIGURA 3.13. Nube de puntos con coeficiente de determinacin prximo a cero y sus
rectas de regresin.

Cuando el valor del coeficiente de determinacin es prximo a 1, el ajuste de


la nube de puntos a la recta es bueno y en esos casos se puede hacer una predic-
cin de valores de y para otros valores de x. Si los valores de x estn comprendidos
ESTADSTICA DESCRIPTIVA BIDIMENSIONAL 119

entre los que tenamos en la muestra, la prediccin ser ms fiable que si se hace
una extrapolacin calculando valores de y para valores de x mayores que el mayor
registrado en la muestra, o menores que el menor valor de x en la muestra, y esta
extrapolacin es tanto menos fiable cuanto mayor sea la diferencia entre el valor
que se d a x y el mximo, o el mnimo, de los registrados en la tabla.
S2 S S
Se observa que r 2 = 2xy 2 = xy2 xy2 = C yx C xy , es decir, que el coeficiente de
S x Sy S x S y
determinacin es el producto de los coeficientes de regresin de y sobre x y de x
sobre y.

3.7.4. Coeficiente de correlacin lineal


Se define el coeficiente de correlacin de Pearson, r, entre las variables x e y
como la raz cuadrada del coeficiente de determinacin con el signo igual al de la
covarianza de las variables x e y, es decir:

Sxy
r=
Sx Sy

el coeficiente de correlacin r es el cociente entre la covarianza y el producto de


las desviaciones tpicas.
Por tanto, si Cyx < 0 Cxy < 0, al ser negativa la covarianza, el coeficiente de
correlacin tambin es negativo y si los coeficientes de regresin son positivos
tambin lo ser el coeficiente de correlacin.
El coeficiente de correlacin lineal es un nmero sin dimensin que determi-
na el grado de ajuste entre una nube de puntos y la recta de regresin y tambin el
sentido de la dependencia, pues si es positivo indica que al aumentar la variable
independiente tambin aumenta la dependiente, correlacin positiva o directa, y si
el coeficiente de correlacin lineal es negativo, al aumentar la variable indepen-
diente disminuye la dependiente, correlacin negativa o inversa.
Como 0 r2 1, el coeficiente de correlacin est acotado, 1 r 1.
Si r = 1 se dice que la correlacin es perfecta y directa, esto significa que las
rectas de regresin pasan por todos los puntos de la nube. Al aumentar los valores
de x tambin aumentan los de y.
Si r = 1 la correlacin tambin es perfecta pero es inversa, hay dependencia
lineal entre las variables x e y, como en el caso anterior, pero al aumentar los va-
lores de x disminuyen los de y.
Al variar r de modo que se acerque al valor 0, va aumentando la varianza re-
sidual, lo que indica una mayor dispersin de los puntos de la nube respecto de la
recta de regresin ajustada.
El ngulo que forman entre s la recta de regresin de y sobre x y la de x
sobre y es mayor cuanto ms pequeo es el valor de r. Para r = 0, es decir, si
120 ESTADSTICA APLICADA. UNA VISIN INSTRUMENTAL

la covarianza Sxy = 0, las dos rectas de regresin pasan por G = (x$, y$) y son
perpendiculares entre s. En este caso el ngulo que forman las dos rectas de
regresin es mximo, un ngulo recto, las variables se dice entonces que es-
tn incorrelacionadas o incorreladas, es decir, no existe relacin lineal entre
ellas.
Guilford interpreta el coeficiente de correlacin lineal r de Pearson, tambin
llamado coeficiente de correlacin momento producto de Pearson, del si-
guiente modo:

Valor de r Correlacin Relacin entre x e y


0.0 r < 0,20 pequea muy poco intensa
0,20 r < 0,40 baja pequea, pero apreciable
0,40 r < 0,60 regular considerable
0,60 r < 0,80 alta intensa
0,80 r < 1 muy alta muy intensa

No se puede entender el coeficiente de correlacin como una relacin causa-


efecto entre las dos variables, en el sentido de que un cambio en una de las va-
riables provocara un cambio en la otra. El significado de la dependencia esto-
cstica o aleatoria es el siguiente: el conocimiento del valor de una de ellas en
un individuo de la poblacin (sujeto u objeto que se observe) permitir predecir
el valor de la otra variable para ese individuo con ms precisin que sin esa in-
formacin.
Los coeficientes de correlacin y de determinacin son invariantes al hacer
traslaciones y cambios de escala. Es decir, si x = a + bu e y = c + dv, siendo a, b,
c, d constantes,

bdSuv
Sx = bSu , Sy = dSv , Sxy = bdSuv rxy = = ruv
bSu dSv

Es decir, el coeficiente de correlacin de x e y es el mismo que el de u y v.

EJEMPLO 3.1.
Para una distribucin de frecuencias de una variable bidimensional se han obte-
nido las rectas de regresin 8x + y = 1 y 2x + 4y = 3. Raznese si la primera es o no es
la recta de regresin de y sobre x y calclese el coeficiente de correlacin de x e y.
ESTADSTICA DESCRIPTIVA BIDIMENSIONAL 121

Suponiendo que 8x + y = 1 es la recta de regresin de y sobre x entonces y = 1 8x,


por tanto Cyx = 8. En ese caso 2x + 4y = 3 sera la recta de regresin de x sobre y,
3
despejando x se tiene x = 2 y + y el coeficiente Cxy = 2.
2
Como r = C yx .Cxy = (8)(2) = 16 > 1 que es imposible, por tanto, la primera
2

recta no es la de regresin de y sobre x sino la de x sobre y.


Por ser 8x + y = 1 la recta de regresin de x sobre y, despejando

1 1 1
x = y + Cxy =
8 8 8

del mismo modo, por ser 2x +4y = 3 la recta de regresin de y sobre x, se tiene:

1 3 1
y = x + C yx =
2 4 2

1 1 1
de lo que se deduce que r 2 = Cyx C xy = = .
2 8 16

Como los coeficientes de regresin son negativos es

1 1
r= =
16 4

EJEMPLO 3.2.
La siguiente tabla representa las distancias x, en metros, a un filn y el porcen-
taje, y, de mena encontrado en 15 fragmentos de roca arrastrados por la corriente de
un ro.

x 340 450 610 650 670 700 810 920 1020 1130 1210 1240 1260 1290 1370
y 67,0 68,0 68,5 70,0 71,0 71,2 71,3 71,3 71,4 71,3 71,5 71,9 72,0 72,1 72,5

Ajustar una recta de regresin de y sobre x.

La recta de regresin de y sobre x es:

Sxy
yy = (x x )
Sx2
122 ESTADSTICA APLICADA. UNA VISIN INSTRUMENTAL

Para determinar los coeficientes, se ordenan los datos en la siguiente tabla:

xi (m) yi (%) xi yi x2i y2i


340 67,0 22.780 115.600 4.489,00
450 68,0 30.600 202.500 4.624,00
610 68,5 41.785 372.100 4.692,25
650 70,0 45.500 422.500 4.900,00
670 71,0 47.570 448.900 5.041,00
700 71,2 49.840 490.000 5.069,44
810 71,3 57.753 656.100 5.083,69
920 71,3 65.596 846.400 5.083,69
1.020 71,4 72.828 1.040.400 5097,96
1.130 71,3 80.569 1.276.900 5.083,69
1.210 71,5 86.515 1.464.100 5.112,25
1.240 71,9 89.156 1.537.600 5.169,61
1.260 72,0 90.720 1.587.600 5.184,00
1.290 72,1 93.009 1.664.100 5.198,41
1.370 72,5 99.325 1.876.900 5.256,25
TOTALES 13.670 1.061,0 973.546 14.001.700 75.085,24

13.670 1.061
x= . 911, 3 y= . 70, 7
15 15
15
xi2 14.001.700 13.670
2

(x) =
i =1 2
Sx2 =
15
. 102.918, 2
15 15
15
yi2 75.085, 24 1.061
2

(y)
i =1 2
S = 2
=
15
y . 2, 48
15 15
Sx . 320, 8 Sy . 1, 6
15
xi yi 973.546 13.670 1.061
Sxy = i=1
(x y) =
15 15
. 441, 4
15 15
Sxy 441, 4
r= = . 0, 8741 r 2 = 0, 7640
Sx Sy (320, 8) (1, 6 )
ESTADSTICA DESCRIPTIVA BIDIMENSIONAL 123

La recta de regresin de y sobre x es:

441, 4
y 70, 7 = ( x 911, 3)
102.918, 2

es decir,
y = 0, 004 x + 66, 8
El coeficiente de correlacin lineal es 0,8741 y el de determinacin lineal es
0,7640, que significa que el 76,40% del porcentaje de mena de los fragmentos de
roca viene explicado por la distancia al filn.

EJEMPLO 3.3.
Se ha observado que la presencia en el suelo de iones Al3+ es responsable de su
acidez de cambio, Ac C. El aluminio residual que contribuye a la acidez de cambio
se denomina Al C, aluminio de cambio.
En la siguiente tabla se recogen los valores de Al C, fracciones medidas en mi-
liequivalente por cada 100 g de suelo, meq/100g, y de Ac C, pH, correspondientes a
quince observaciones en la Sierra de Guadarrama:
AlC 0,99 0,03 0,03 1,65 1,32 3,52 5,39 0,61 0,50 0,44 3,62 1,43 2,64 2,09 0,61
AcC 1,13 0,26 0,36 2,26 2,50 4,40 6,71 1,87 0,88 3,52 4,51 1,98 3,12 3,54 0,91

Hallar la recta de regresin de y = la acidez de cambio sobre x = Aluminio


de cambio y dar una medida de la calidad del ajuste.
A partir de esa recta dar los valores de la acidez de cambio para los valores del
aluminio de cambio de 5 y 6 meq/100 g.

Introduciendo los valores de la tabla en una hoja de datos de STATGRAPHICS,


seleccionando las dos columnas que contienen los datos y escogiendo en el men:
Grficos Grficos de dispersin Grfico X-Y,
el programa STATGRAPHICS dibuja la nube de puntos correspondiente a la tabla
de la pgina siguiente.
Designando por xi los valores del aluminio de cambio medidos en meq/100g
y por yi los de acidez de cambio, pH, y formando la tabla como en el ejemplo an-
terior, se obtiene
15 15 15
xi = 24, 87; yi = 37, 95; xi2 = 74, 5641;
i=1 i =1 i =1

15 15
yi2 = 141, 2321; xi yi = 98, 2988
i =1 i=1
124 ESTADSTICA APLICADA. UNA VISIN INSTRUMENTAL

Grfico de Ac C frente a Al C

Ac C
4

0
0 1 2 3 4 5 6

Al C

FIGURA 3.14. Nube de puntos correspondiente a los datos del Ejemplo 3.3.

De donde

24, 87 37, 95 74,55641


x= = 1, 66; y = = 2, 53; Sx2 = 1, 662 = 2, 2220
15 15 15

98, 2988 141, 2321


Sxy = (1, 66) ( 2, 53) . 2, 3585; Sy2 = 2, 532 . 3, 0146
15 15

2, 3585
La recta de regresin de y sobre x es y 2, 53 = ( x 1, 66), simplificando
2, 2220

y = 0, 77 + 1, 06 x
Se calcula ahora el coeficiente de determinacin para ver la calidad del ajus-
te de esta recta a la nube de puntos

Sxy2 2, 35852
r2 = = = 0, 8304
Sx2 Sy2 ( 2, 2220 ) (3, 0146 )
El coeficiente de correlacin es

r = 0, 8304 = 0, 9113

por ser este valor prximo a la unidad el ajuste de la recta de regresin a la nube
de puntos es muy bueno.
El valor del coeficiente de determinacin indica que el 83,04% de la variabi-
lidad de la acidez de cambio se puede explicar por la presencia en el suelo del alu-
minio de cambio.
ESTADSTICA DESCRIPTIVA BIDIMENSIONAL 125

La recta de regresin permite valorar la acidez de cambio para los valores del
aluminio de cambio de 5 y 6 meq/100g
( y ) x =5 = 0, 77 + (1, 06) 5 = 6, 07
( y ) x =6 = 0, 77 + (1, 06 ) 6 = 7, 13
Para el valor de 5 meq/100g se obtiene un pH ligeramente cido y para 6
meq/100g un valor del pH casi neutro. De los dos valores obtenidos es ms fiable
el primero porque el valor de x = 5 est comprendido entre los recogidos en la ta-
bla, es una interpolacin, mientras que el valor para x = 6 es una extrapolacin.

Cmo hacerlo con STATGRAPHICS?


Se pueden comprobar estos resultados con el programa STATGRAPHICS del
siguiente modo.
Desde el archivo de datos se selecciona en el men:
Dependencia Regresin simple
Con lo que se abre una nueva ventana para la entrada de datos. En esta ventana
se indica que la variable x es el AlC y la variable y es la AcC. Pulsando Aceptar se
obtienen entre otros resultados, que se vern en el Captulo 13 de este libro y que
ahora no es momento de explicarlo, la ecuacin de la recta de regresin
AcC = 0,770118 + 1,06145*AlC
y los coeficientes de regresin lineal y de determinacin
Coeficiente de Correlacin = 0,911288
R-cuadrado = 83,0446 porcentaje

EJEMPLO 3.4.
Se han medido, en cm, los dimetros, x, de cien rboles a 1,30 m del suelo, es
decir, los dimetros normales, y las alturas, y, en metros de estos rboles. Los re-
sultados obtenidos despus de agrupar en clases son:

y
[5,7) [7, 9) [9, 11) [11, 13) [13, 15) [15, 17) [17, 19)
x

[20, 30) 1 1 0 0 0 0 0
[30, 40) 2 10 8 5 0 0 0
[40, 50) 0 1 14 13 15 1 0
[50, 60) 0 0 3 9 6 5 0
[60, 70) 0 0 0 1 2 2 1
126 ESTADSTICA APLICADA. UNA VISIN INSTRUMENTAL

Calcular:
a) Las medias y desviaciones tpicas de las distribuciones marginales.
b) La covarianza.
c) La media y la desviacin tpica para la distribucin de alturas condicionadas
a un dimetro normal de 55 cm.
d) La media y la desviacin tpica para la distribucin de dimetros normales
condicionada a una altura de 16 m.
e) La ecuacin de la recta de regresin de y (alturas) sobre x (dimetros)
f) Los coeficientes de correlacin y de determinacin de x e y.

a) En primer lugar se determinan las marcas de clase y las frecuencias mar-


ginales:

xi ni ui uini ui2ni

25 2 2 4 8
35 25 1 25 25
45 44 0 0 0
55 23 1 23 23
65 6 2 12 24
Totales n =100 6 80

Para la variable x:
xi 45
Siendo ui = xi = 45 + 10 ui
10
5
ui ni 6
i =1
u= = = 0, 06; x = 45 + 10 u = 45, 6 cm
n 100
5
ui2 ni 80
i =1
Su2 = u2 = (0, 06) 2 = 0, 7964 Su = 0, 7964 = 0, 8924
n 100

Sx2 = 10 2 Su2 = 79, 64 y Sx = 10 Su = 8, 924

Anlogamente para y:
y j 12
Siendo v j = y j = 12 + 2v j
2
ESTADSTICA DESCRIPTIVA BIDIMENSIONAL 127

yj nj vj vjnj vj2nj

6 3 3 9 27
8 12 2 24 48
10 25 1 25 25
12 28 0 0 0
14 23 1 23 23
16 8 2 16 32
18 1 3 3 9

n =100 16 164

7
v j n j
j =1 16
v= = = 0, 16; y = 12 + 2v = 11, 68 m
n 100

7
v 2j n j
j =1 164
sv2 = v2 =
(0,16)2 = 1, 6144 Sv = 1, 6144 = 1, 2706
n 100
Sy = 2 Sv = 6, 4576 y Sy = 2Sv = 2, 5412
2 2 2

b) Para hallar la covarianza:

yj 6 8 10 12 14 16 18

vj 7 7
xi
ui
3 2 1 0 1 2 3 v j nij ui v j nij
j= 1 j= 1

3 2 0 0 0 0 0
25 2 5 10
1 1 0 0 0 0 0
6 20 8 0 0 0 0
35 1 34 34
2 10 8 5 0 0 0
0 2 14 0 15 2 0
45 0 1 0
0 1 14 13 15 1 0
0 0 3 0 6 10 0
55 1 13 13
0 0 3 9 6 5 0
0 0 0 0 2 4 3
65 2 9 18
0 0 0 1 2 2 1
75
128 ESTADSTICA APLICADA. UNA VISIN INSTRUMENTAL

5 7
ui v j nij 75
i =1 j =1
Suv = ( m11 )uv = u v = ( 0, 06)(0, 16) = 0, 7596
n 100
Sxy = 20 Suv = 15,1920 cmm
c)

Clases n4j yj yjn4j yj2n4j

[5, 7) 0 6 0 0
[7, 9) 0 8 0 0
[9, 11) 3 10 30 300
[11, 13) 9 12 108 1.296
[13, 15) 6 14 84 1.176
[15, 17) 5 16 80 1.280
[17, 19) 0 18 0 0

n4 =23 302 4.052

7
y j n4 j
j =1 302
y / ( x = 55) = = = 13,1304 m
n4 23

7
y2j n4 j
j =1 4.052
Sy2/( x=55) = ( y / ( x = 55)) 2 = (13, 1304) 2 = 3, 7665
n4 23

Sy/( x =55) = 3, 7665 = 1, 9407 m

d)

Clases ni6 xi xini6 xi2ni6

[20, 30) 0 25 0 0
[30, 40) 0 35 0 0
[40, 50) 1 45 45 2.025
[50, 60) 5 55 275 15.125
[60, 70) 2 65 130 8.450
n6 = 8 450 25.600
ESTADSTICA DESCRIPTIVA BIDIMENSIONAL 129

5
xi ni 6 450
i=1
x / ( y = 16) = = = 56,25 m
n6 8

5
xi2 ni 6 25.6000
i =1
Sx2/( y=16 ) = ( x / ( y = 16)) 2 = (56, 25)2 = 35, 9375
n6 8

Sx /( y=16 ) = 35, 9375 = 5, 9948 cm

e) La ecuacin de la recta de regresin de y sobre x es:

15, 1920
y 11, 68 = ( x 45, 6) y 11, 68 = 0, 1908( x 45, 6)
79, 64

f) El coeficiente de correlacin es:

15, 1920
rxy = = 0, 6699
(8, 924) (2, 5412)
0, 7596
ruv = = 0, 6699 = rxy
(0, 8924)(1, 2706)

y el de determinacin es:

2
Sxy2 15, 1920
r = 2 2 =
2
= 0, 4488
Sx Sy ( 8, 924 ) ( 2, 5412)
xy

es decir, el 44,88% de la variacin en la altura del rbol se explica por el dimetro.

3.8. OTRAS REGRESIONES REDUCIBLES A LINEALES

Son frecuentes los ajustes de datos a curvas de los tipos siguientes:

1. Tipo exponencial: y = abx o bien y = aemx.


2. Tipo potencial: y = axb.
x
3. Homogrfica o hiperblica: ( ax + b) y = 1 o bien y = .
kx + m
130 ESTADSTICA APLICADA. UNA VISIN INSTRUMENTAL

3.8.1. Lnea de regresin de tipo exponencial y = abx


El ajuste a este tipo de curvas se reduce a un ajuste lineal tomando logaritmos
en la igualdad y = abx.

ln y = ln a + x ln b

Llamando z = ln y; A = ln a; B = ln b setiene z = A + Bx .
Por tanto, calculando los valores de z = ln y se determina la ecuacin de la rec-
ta de regresin de z sobre x. Se obtienen as los valores de A y B.
Como A = ln a a = e A y B = ln b b = e B ya se tienen los valores de a y b
y con ellos la lnea de regresin exponencial.
Se utilizan, como se ha explicado, los valores originales de x y el logaritmo
neperiano de los de y, es decir, z = ln y. Por esta razn, a esta transformacin se le
denomina semilogartmica.
Si se dibujan los valores de la variable bidimensional en papel semilogart-
mico, con escala logartmica en el eje de ordenadas y escala ordinaria en el de
abscisas, la grfica de y = abx es una lnea recta.
Lgicamente slo se puede ajustar una curva exponencial si la variable y
slo toma valores positivos.
Un caso particular de regresin exponencial es la de ecuacin y = aemx.
Tomando logaritmos neperianos en los dos miembros:
ln y = ln a + mx
Llamando z = ln y; A = ln a; se tiene z = A + mx.
Se calcula la ecuacin de la recta de regresin de z sobre x, el coeficiente de x
ser el valor de m buscado y el valor de a se obtiene del valor de A = ln a a = eA.
Ejemplos de este tipo de ajuste son:

1. La variable x representa el tiempo en aos y la variable y el tamao de una


poblacin, o el tamao de un organismo.
2. Para x tiempo e y produccin industrial, o ventas de un producto.
3. Si x representa temperatura e y la proporcin de frutas que se han estropeado.
4. Si x representa las dosis suministradas de un antibitico e y el nmero de
bacterias que an quedan vivas.
5. Si x representa el tiempo en aos e y el porcentaje de una sustancia radiactiva.

En el siguiente ejemplo resuelto, se aplica la estadstica descriptiva bidimen-


sional en el campo de la Paleontologa para estudiar la relacin entre dos medidas de
una misma muestra de fsiles. Las rectas y curvas de regresin son tiles para de-
terminar el cambio de forma en el crecimiento de organismos cuyos esqueletos
crecen por acrecin, es decir, acumulando materia en los bordes, como en el caso de
los braquipodos, invertebrados marinos micrfagos (filtradores), de cuerpo no
segmentado, alojado en una concha bivalva, como los moluscos lamelibranquios.
ESTADSTICA DESCRIPTIVA BIDIMENSIONAL 131

En un yacimiento es comn encontrar fsiles de distinto tamao que corres-


ponden a diferentes etapas de desarrollo.
Si las distintas partes del esqueleto crecen a la misma velocidad en el desarrollo del
individuo, se dice que el crecimiento es isomtrico. No hay cambio de forma durante el
dy
crecimiento. Por ejemplo, si y = x = 1, las dos dimensiones crecen a la misma
dx
velocidad. Si y = x / 2 dy dx = 1 / 2, la dimensin y crece menos que la x en todo el
desarrollo.
Si una parte del esqueleto crece a ms velocidad que otra, se dice que el
crecimiento es anisomtrico y en estos casos al crecer el individuo cambia su for-
ma. Un ejemplo de crecimiento anisomtrico es el crecimiento exponencial

EJEMPLO 3.5.
La siguiente tabla representa la medida, en mm, de la longitud, la anchura y el
espesor de una muestra de braquipodos.

a) Dibujar con STATGRAPHICS los diagramas de dispersin de la longitud


frente a la anchura y de la longitud frente al espesor. Cul de los dos tiene
mayor dispersin?
b) Tomando la longitud como variable independiente, ajustar una recta de re-
gresin al diagrama de dispersin de la longitud frente a la anchura.
c) Calcular el coeficiente de correlacin lineal y el de determinacin para las
variables longitud y anchura.
d) Tomando la longitud como variable independiente, ajustar una recta de re-
gresin al diagrama de dispersin de la longitud frente al espesor.
e) Calcular el coeficiente de correlacin lineal y el de determinacin para las
variables longitud y espesor. Compararlos con los correspondientes a las va-
riables longitud y anchura. Corrobora lo observado en el apartado a)?
f) Ajustar una curva de tipo exponencial y = abx considerando la variable inde-
pendiente la longitud y la dependiente la anchura. Dar una medida del grado de
ajuste a esa curva. Mejora el ajuste a la nube de puntos la curva exponencial?
132 ESTADSTICA APLICADA. UNA VISIN INSTRUMENTAL

Anchura Longitud Espesor


11,20 9,55 6,80
10,20 9,75 6,45
11,80 10,50 7,40
12,00 10,50 7,50
12,70 11,00 9,10
12,70 11,75 8,70
12,00 11,35 9,00
12,55 11,00 10,40
13,00 12,50 10,80
12,00 12,25 10,45
12,95 12,00 10,70
13,40 12,20 10,30
13,55 12,30 10,90
14,00 12,40 11,00
13,90 12,65 11,50
14,50 12,70 10,70
14,00 12,60 9,10
14,70 12,50 10,40
14,30 12,85 8,85
14,80 13,30 10,00
15,05 12,10 12,45
15,05 12,05 10,50
16,25 12,70 12,65
14,05 13,40 12,60
13,95 12,70 12,15
15,15 11,90 12,65
16,75 13,45 13,10
15,30 13,00 12,45
16,10 14,50 13,55
16,65 13,95 7,95

a) Introduciendo los valores en una hoja de datos del programa STATGRA-


PHICS, se seleccionan en primer lugar las dos columnas que contienen los datos
de la longitud y de la anchura y a continuacin se escoge en el men:

Grficos Grficos de dispersin Grfico X-Y

el programa STATGRAPHICS dibuja entonces la primera nube de puntos y repi-


tiendo los pasos para la longitud y el espesor, se obtiene el segundo de los dia-
gramas de dispersin que aparecen a continuacin.
ESTADSTICA DESCRIPTIVA BIDIMENSIONAL 133

Se observa mayor dispersin en la nube de puntos correspondiente a las va-


riables longitud y espesor que en la correspondiente a la longitud y la anchura.

b) Designando por y la anchura y por x la longitud se obtiene operando di-


rectamente con los datos, como se explic en el Epgrafe 3.7.1., la ecuacin de la
1, 5033
recta de regresin de la anchura sobre la longitud: y 13, 82 = ( x 12, 18) ,
simplificando, 1, 2578

y = 1, 1952 x 0, 7390

Con STATGRAPHICS se obtiene, como se explic en el Ejemplo 3.3, la


ecuacin de la recta de regresin:

Anchura = 0,739209 + 1,1952*Longitud


Sxy 1, 5033
c) El coeficiente de correlacin lineal: r = = = 0, 8365,
Sx Sy 1, 2578 2, 5679
y el de determinacin: r2 = 0,6997.
Con el programa STATGRAPHICS se obtiene: r = 0,83647 y r2 = 69,9683%.

d) La ecuacin de la recta de regresin del espesor sobre la longitud, desig-


nando por y el espesor y por x la longitud, es:

y = 1,1489x 3,6571

e) El coeficiente de correlacin lineal para las variables longitud y espesor es


r = 0,6776 y el de determinacin es r2 = 0,4592 = 45,92%.
Estos valores, junto con los correspondientes a las variables longitud y an-
chura, confirman lo observado en el apartado a). La dispersin es mayor para las
variables espesor y longitud que para las variables anchura y longitud.
En ambos casos al aumentar la longitud aumenta la variable dependiente an-
chura y espesor respectivamente.
134 ESTADSTICA APLICADA. UNA VISIN INSTRUMENTAL

La recta de regresin de la anchura sobre la longitud explica el 69,97% de la va-


riacin de la anchura al aumentar la longitud, y la recta de regresin del espesor sobre
la longitud explica el 45,92% de la variacin del espesor al aumentar la longitud.

f) Para ajustar una curva y = abx considerando la variable independiente la


longitud y la dependiente la anchura, como se explic anteriormente, se toman lo-
garitmos en la igualdad y = abx.

ln y = ln a + x ln b

Y llamando z = ln y; A = ln a; B = ln b se tiene z = A + Bx. Hallando la recta


de regresin de z = ln y sobre x se determinan los valores de a y b.
Se calcula la ecuacin de la recta de regresin de z sobre x y se obtiene:

z = 1,5305 + 0,0894x

De donde

A = ln a = 1, 5305 a = e1.5305 . 4, 6205 y B = ln b = 0, 0894 b = e0,0894 . 1, 0395

Por tanto, la curva ajustada es:

y = 4, 62 1, 04 x

El coeficiente de correlacin lineal de z = ln y y x, que es r = 0,8472, y el co-


eficiente de determinacin de z y x, esto es r2 = 0,7177, dan una medida del
ajuste de los datos transformados a la recta de regresin correspondiente y tam-
bin se pueden utilizar como medida del ajuste de la longitud, x, y la anchura, y, a
la curva exponencial y = 4,62 1,04x
Comparando los coeficientes de correlacin y de determinacin con los ob-
tenidos en el apartado c) se puede afirmar que la curva exponencial mejora el
ajuste de la recta de regresin a la nube de puntos de las variables longitud y an-
chura.
El crecimiento de los braquipodos es pues anisomtrico. En el crecimiento
de tipo exponencial la dimensin y crece menos que la x en las etapas tempranas
del desarrollo y posteriormente crece ms rpidamente la y. Los braquipodos
cambian de forma con la ontogenia.

3.8.2. Lnea de regresin de tipo potencial y = axm


Tomando logaritmos en la igualdad y = axm se tiene:
ln y = ln a + m ln x
ESTADSTICA DESCRIPTIVA BIDIMENSIONAL 135

Designando por z = ln y; v = ln x; A = ln a; se tiene: z = A + mv que es una re-


lacin lineal entre v y z.
La recta de regresin de z sobre v da directamente el valor de m y para calcu-
lar a se tiene en cuenta que A = ln a a = e A .
Para que se puedan ajustar este tipo de curvas han de ser positivos todos los
valores de las variables x e y.
Si se representa la grfica en papel logartmico, es decir, con escala lo-
gartmica en el eje de abscisas y en el de ordenadas, se obtiene una lnea
recta.
Ejemplos del tipo de regresin potencial son los siguientes:

1. Si x representa altura e y peso o volumen.


2. Si x es el dimetro de una pieza e y la superficie correspondiente.
3. Si x es la renta de una familia e y el consumo.
4. Si x representa el tiempo en horas e y el nmero de bacterias que crecen en
un cultivo de laboratorio en condiciones favorables.
5. Si x es el nmero de horas de trabajo e y la produccin.
6. Si x representa el tiempo en aos e y el nmero de contagiados en una epi-
demia.

3.8.3. Lnea de regresin de tipo homogrfica o hiperblica


Si la lnea de regresin es:

1
(ax + b) y = 1 = ax + b
y
1
Llamando z = se obtiene una recta de regresin, por tanto los valores de y
y
deben ser todos distintos de cero.
Esa recta da directamente los valores de a y b que determinan la curva.
x
Para ajustar una curva del tipo: y = teniendo en cuenta que:
kx + m
1 kx + m 1 1
= =k+m
y x y x
1 1
llamando u = y v = tenemos la ecuacin de una recta, siempre que los valores
y x
de las variables x e y sean todos distintos de cero.
Calculando la ecuacin de la recta de regresin de u sobre v se obtienen di-
rectamente los valores de k y m buscados.
136 ESTADSTICA APLICADA. UNA VISIN INSTRUMENTAL

Ejemplos del tipo de ajuste hiperblico:

1. Si la variable x representa la cantidad demandada de un artculo e y es el


precio del artculo.
2. Si x es el nmero de huevos que pone un coleptero adulto e y es el n-
mero de adultos en un tronco de madera.

3.9. OTRAS CURVAS DE REGRESIN MNIMO-CUADRTICA.


REGRESIN PARABLICA. COEFICIENTE
DE DETERMINACIN PARABLICO

Si no se puede ajustar una recta de regresin a la nube de puntos, se pueden


probar otro tipo de curvas como, por ejemplo, las parbolas. La ecuacin de una
parbola de grado m es:

y = b0 + b1 x + b2 x 2 + ... + bm x m

los coeficientes de esa ecuacin se determinan con la condicin de que sea mni-
ma la suma:

( ) ( )
n n 2 n 2
U = i2 = yi yi = yi b0 b1 x b2 x 2 .... bm x m
i =1 i =1 i=1

es decir, resolviendo el sistema de (m +1) ecuaciones que se obtienen igualando a


cero las derivadas parciales de S respecto de los (m +1) coeficientes a determinar.
Estas ecuaciones reciben el nombre de ecuaciones normales.

3.9.1. Ajuste a una parbola de grado 2 por el mtodo de mnimos


cuadrados
Para ajustar una parbola de grado 2: y = b0 + b1 x + b2 x 2 , hay que hacer m-
nima la suma:

( ) ( )
n n 2 n 2
U = i2 = yi yi = yi b0 b1 xi b2 xi2
i =1 i =1 i=1

Las condiciones necesarias para que esta suma sea mnima son:

U U U
= 0, =0 y =0
b0 b1 b2
ESTADSTICA DESCRIPTIVA BIDIMENSIONAL 137

Por tanto:
U
( )
n
= 0 2 yi b0 b1 xi b2 xi2 ( 1) = 0 yi b0 b1 xi b2 xi2 = 0 ( )
n

b0 i =1
i=1
U n
( ) ( )
n
= 0 2 yi b0 b1 xi b2 xi ( x i ) = 0 xi yi b0 xi b1 xi b2 xi = 0
2 2 3

1b i =1 i =1
U
( )
n
( )( )
n
= 0 2 yi b0 b1 xi b2 xi2 xi2 = 0 xi yi b0 xi b1 xi b2 x i = 0
2 2 3 4

b2 i=1 i=1

n n n n
n n n

i=1 y i b 0 b 1 x i b 2 x 2
i = 0 y i = b 0 n + b1 x i + b 2 xi2
i =1 i =1 i =1 i =1 i =1 i =1
n n
n n n
n n n
x i yi b0 xi b1 xi2 b2 xi3 = 0 xi yi = b0 xi + b1 x i2 + b2 xi3
i=1 i =1 i =1 i =1 i=1 i =1 i =1 i =1

n n n n n n n n

x 2
i yi b0 x 2
i b 1 x 3
i b 2 x 4
i = 0 x i
2
yi = b0 x 2
i + b 1 x 3
i + b 2 x i4
i=1 i =1 i =1 i =1 i =1 i =1 i =1 i =1

El sistema de ecuaciones
n n n

i=1 y i = b 0 n + b1 x i + b 2 xi2
i =1 i =1
n
n n n
x i yi = b0 x i + b1 xi + b2 xi
2 3

i=1 i =1 i =1 i =1

n 2 n n n

i=1 x i yi = b0 x 2
i + b 1 x 3
i + b 2 xi4
i =1 i =1 i =1

se denomina sistema de ecuaciones normales correspondiente al ajuste de una


parbola de segundo grado. Resolvindolo se determinan los coeficientes b0, b1,
y b2, de la parbola de grado 2 que mejor se ajusta a la nube de puntos por el m-
todo de los mnimos cuadrados.

3.9.2. Coeficiente de determinacin parablico


Para dar una medida del grado de ajuste de la parbola a la nube de puntos,
hay que definir un nuevo coeficiente de determinacin, ya que el definido ante-
riormente slo sirve para el ajuste lineal.
Se define la razn de correlacin o coeficiente de determinacin parablico
de y sobre x del siguiente modo:

( yi yi )
n 2

i =1
Sy2 S2 S2 n
R =2
= 1 2 = 1
Sy2 n
Sy
( yi y )
2

i=1
n
138 ESTADSTICA APLICADA. UNA VISIN INSTRUMENTAL

ya que la media de las i = yi yi , como consecuencia de la primera de las


ecuaciones del sistema de ecuaciones normales correspondiente, es igual a cero.
Como el coeficiente de determinacin lineal, el coeficiente de determina-
cin parablico tambin est acotado: 0 R2 1.
Si R2 el ajuste a la parbola es inaceptable pues S2 = Sy2 .
Si R2 = 1 el ajuste de la nube de puntos a la parbola es perfecto.
En los dems casos ser 0 < R2 < 1 y el ajuste de la nube de puntos a la par-
bola ser tanto mejor cuanto ms prximo est R2 a la unidad.
Para la parbola de segundo grado el coeficiente de determinacin parablico es:

( yi yi )
n 2

( yi ( b0 + b1 xi + b2 xi2 ) )
n 2
i=1

R2 = 1 n = 1 i=1
=
n n
( yi y ) ( yi y )
2 2

i=1
n i =1
n n
( yi b0 b1 xi b x )
n
2 2
2 i
i=1
= 1
n 2

yi
i =1 2
n y
n

Para calcular el coeficiente de determinacin parablico se utiliza la frmula:

( yi b0 b1 xi b2 xi2 )
n 2

i=1
R2 = 1
n 2

yi

n i =1 y 2
n

EJEMPLO 3.6.
En un estudio de los sedimentos de un estuario se ha observado que al aumen-
tar la profundidad el contenido en agua resultante de drenar los sedimentos dismi-
nuye. Se ha obtenido la siguiente tabla de datos.

x 0,0 0,3 0,5 0,7 1,0 1,3 1,5 1,7 2,0 2,3 2,5 2,7 3,0 3,3 3,5
y 10,0 9,5 9,0 8,5 8,0 7,3 7,0 6,7 6,3 5,8 5,5 5,3 5,0 4,8 4,5
ESTADSTICA DESCRIPTIVA BIDIMENSIONAL 139

en la que la variable x representa la profundidad en metros donde se recoge el se-


dimento y la variable y el porcentaje de agua del sedimento recogido.

a) Representar los datos en un diagrama de dispersin.


b) Se puede ajustar una recta de regresin a los datos? Es bueno el ajuste?
c) Ajustar una parbola de grado 2 a los datos.
d) Explicar si es bueno el ajuste de la parbola a la nube de puntos.
e) Es mejor el ajuste de la parbola que el de la recta de regresin ?
f) Con la curva que mejor se ajuste de las dos estimar el porcentaje de agua
para una profundidad de 2,9 m y para 3,7 m Qu estimacin es ms fiable?

a) Con estos datos, utilizando el Programa STATGRAPHICS, se puede dibu-


jar el siguiente grfico de dispersin:

Grfico de contenido de agua frente a profundidad

10,5
Contenido de agua

9,5
8,5
7,5
6,5
5,5
4,5
0 1 2 3 4

Profundidad (m)

b) Para ajustar la recta de regresin y = a + bx resolvemos el sistema formado por


las ecuaciones normales correspondientes a la recta de regresin de y sobre x, es decir,

n n

i=1 i y = an + b xi
i =1
n n n
xi yi = a xi + b x i2
i =1 i =1 i=1

Organizando los datos en una tabla se calculan con facilidad los coeficientes
del sistema, como se observa a continuacin.
Las dos primeras columnas recogen los datos, la tercera y la quinta estn for-
madas por los cuadrados de los valores de la primera y segunda columna, res-
pectivamente y la cuarta por los productos de las dos primeras. En la ltima fila se
reflejan los totales de cada una de las columnas:
140 ESTADSTICA APLICADA, UNA VISIN INSTRUMENTAL

xi yi xi2 xiyi yi2

0,0 10,0 0,00 0,00 100,00


0,3 9,5 0,09 2,85 90,25
0,5 9,0 0,25 4,50 81,00
0,7 8,5 0,49 5,95 72,25
1,0 8,0 1,00 8,00 64,00
1,3 7,3 1,69 9,49 53,29
1,5 7,0 2,25 10,50 49,00
1,7 6,7 2,89 11,39 44,89
2,0 6,3 4,00 12,60 39,69
2,3 5,8 5,29 13,34 33,64
2,5 5,5 6,25 13,75 30,25
2,7 5,3 7,29 14,31 28,09
3,0 5,0 9,00 15,00 25,00
3,3 4,8 10,89 15,84 23,04
3,5 4,5 12,25 15,75 20,25
15
26,3 103,2 63,63 153,27 754,64
i=1

De ah que las ecuaciones normales sean:

103, 2 = 15a + 26, 3b



153, 27 = 26, 3a + 63, 63b

Resolviendo el sistema, se obtiene a = 9, 6499 . 9, 6 y b = 1, 5798 . 1, 6


Por tanto, la recta de regresin de y sobre x es:

y = 9, 6 1, 6 x

El coeficiente de determinacin lineal da la medida del ajuste de la recta de re-


gresin a la nube de puntos:

Sxy 2
r = 2 2 =
2 ( 1, 8449 ) 2

= 0, 9796
Sx Sy (1, 1679 ) ( 2, 9749)
ESTADSTICA DESCRIPTIVA BIDIMENSIONAL 141

como es muy prximo a la unidad, indica que el ajuste es muy bueno. El 97,96%
de la variacin del porcentaje de agua se puede explicar por la profundidad.
El coeficiente de correlacin es

Sxy
r= = 0, 9898
Sx Sy

es negativo, al aumentar la profundidad disminuye el porcentaje de agua en los se-


dimentos del estuario.

c) Para ajustar la parbola, construimos la tabla siguiente que nos proporciona


los datos necesarios para escribir el sistema de ecuaciones normales.

xi yi xi2 xi3 xi4 xiyi xi2yi

0,0 10,0 0,00 0,000 0,0000 0,00 0,000

0,3 9,5 0,09 0,027 0,0081 2,85 0,855

0,5 9,0 0,25 0,125 0,0625 4,50 2,250

0,7 8,5 0,49 0,343 0,2401 5,95 4,165

1,0 8,0 1,00 1,000 1,0000 8,00 8,000

1,3 7,3 1,69 2,197 2,8561 9,49 12,337

1,5 7,0 2,25 3,375 5,0625 10,50 15,750

1,7 6,7 2,89 4,913 8,3521 11,39 19,363

2,0 6,3 4,00 8,000 16,0000 12,60 25,200

2,3 5,8 5,29 12,167 27,9841 13,34 30,682

2,5 5,5 6,25 15,625 39,0625 13,75 34,375

2,7 5,3 7,29 19,683 53,1441 14,31 38,637

3,0 5,0 9,00 27,000 81,0000 15,00 45,000

3,3 4,8 10,89 35,937 118,5921 15,84 52,272

3,5 4,5 12,25 42,875 150,0625 15,75 55,125

15
26,3 103,2 63,63 173,267 503,4267 153,27 344,011
i=1
142 ESTADSTICA APLICADA. UNA VISIN INSTRUMENTAL

Sustituyendo en el sistema de ecuaciones normales correspondiente al ajuste


de la parbola:

n n n

i =1
yi = b0 n + b1 xi + b2 xi2
i =1 i =1
n
n n n
xi yi = b0 x i + b1 x i + b2 x i
2 3

i =1 i =1 i=1 i =1

n 2 n n n
x
i=1 i i y = b 0 x 2
i + b1 x 3
i + b2 x i4
i =1 i=1 i=1

se obtiene el siguiente sistema:

103, 2 = 15b0 + 26, 3b1 + 63, 63b2



153, 27 = 26, 3b0 + 63, 63b1 + 173, 267b2
344, 011 = 63, 63b + 173, 267b + 503, 4267b
0 1 2

que se puede resolver, como el correspondiente al ajuste lineal, utilizando, por


ejemplo, la regla de Cramer.
La solucin es: b0 = 10, 0942 . 10,1; b1 = 2, 3889 . 2, 4; b2 = 0, 2297 . 0, 2
Por tanto, la ecuacin de la parbola de grado dos que mejor se ajusta a la
nube de puntos es:

y = 10,1 2, 4 x + 0, 2 x 2

d) Para ver si es bueno el ajuste de la parbola a la nube de puntos, se calcu-


la el coeficiente de determinacin y para ello se necesita para cada valor de xi el
correspondiente yi = 10, 0942 2, 3889 x i + 0, 2297 x i2 , estos valores se recogen en
la tabla de la pgina siguiente.

( yi yi )
15 2

( yi b0 b1 xi b2 xi2 )
15 2
i =1
15 i=1 0, 0511
R2 = 1 = 1 = 1 = 0, 9989
( yi y )
15 15 2
2
yi2 15 y 2 103, 2
754, 64 15
i =1 i =1 15
15

Como el valor de R2 es muy prximo a la unidad, el ajuste de la parbola a la


nube de puntos es muy bueno.
ESTADSTICA DESCRIPTIVA BIDIMENSIONAL 143

xi yi yi* yi yi* (yi yi*)2 yi2

0,0 10,0 10,0942 0,0942 0,0089 100,0


0,3 9,5 9,3982 0,1018 0,0104 90,25
0,5 9,0 8,9572 0,0428 0,0018 81,00
0,7 8,5 8,5345 0,0345 0,0012 72,25
1,0 8,0 7,9350 0,0650 0,0042 64,00
1,3 7,3 7,3768 0,0768 0,0059 53,29
1,5 7,0 7,0277 0,0277 0,0008 49,00
1,7 6,7 6,6969 0,0031 0,0000 44,89
2,0 6,3 6,2352 0,0648 0,0042 39,69
2,3 5,8 5,8148 0,0148 0,0002 33,64
2,5 5,5 5,5576 0,0576 0,0033 30,25
2,7 5,3 5,3187 0,0187 0,0003 28,09
3,0 5,0 4,9948 0,0052 0,0000 25,00
3,3 4,8 4,7123 0,0877 0,0077 23,04
3,5 4,5 4,5469 0,0469 0,0022 20,25

)
( yi yi = 0, 0511 yi2 = 754, 64
15 15 15 2 15
xi = 26, 3 yi = 103, 2
i =1 i =1 i =1 i =1

e) El ajuste de la parbola es mejor porque el coeficiente de determinacin


parablico es 0,9989, mayor que el de determinacin lineal que es 0,9796. Por
tanto, s se mejora el ajuste al aumentar el grado de la curva de regresin.
f) Para estimar los porcentajes de agua a las profundidades dadas se utiliza
por tanto la ecuacin de la parbola de regresin:

y x = 2,9 = 10,1 2, 4 2, 9 + 0, 2 2, 92 . 5,1


y x =3,7 = 10,1 2, 4 3, 7 + 0, 2 3, 72 . 4, 4

esto significa que el porcentaje a 2,9 m de profundidad es aproximadamente


igual al 5,1%, y a 3,7 m de profundidad es aproximadamente 4,4%. De las dos es-
timaciones la ms fiable es la primera porque 2,9 es un valor de x comprendido
entre los observados en la muestra, en cambio 3,7 es mayor que el mximo valor
de x en la muestra y la estimacin correspondiente es por tanto una extrapolacin.
144 ESTADSTICA APLICADA. UNA VISIN INSTRUMENTAL

3.10. PROBLEMAS PROPUESTOS

3.10.1. Calcular el coeficiente de correlacin de x e y, la recta de regresin de y so-


bre x y la de x sobre y para los datos de la siguiente tabla:

x 6 8 10 15 20 21 15 31 23 22
y 10 15 16 21 28 11 24 42 13 12

3.10.2. Es posible que la recta de regresin de y sobre x sea y = 5x + 2 y la de x so-


bre y sea x = 3y + 7 para la misma distribucin bidimensional?

3.10.3. Pueden ser y = 15x 17 y x = 3y + 21 el resultado del clculo de las rectas


de regresin de una distribucin bidimensional?

3.10.4. Para una distribucin bidimensional son compatibles los siguientes valores:
Sx2 = 16, Sy2 = 49, Sxy = 624 y r = 0,88?

3.10.5. La siguiente tabla representa el gasto de electricidad, x, en euros al mes, y los


ingresos, y, en euros al mes, de la familia:

Gasto elect.
65 80 100 150 300
/mes
Ingresos
1.000 1.500 1.600 2.100 3.700
/mes

a) Ajustar una recta de regresin de y sobre x.


b) Calcular el coeficiente de determinacin y el coeficiente de regresin e indi-
car si es bueno el ajuste.
c) Qu ingreso se espera para un gasto de luz de 250 /mes?

3.10.6. Se sabe que las rectas de regresin de y sobre x y de x sobre y son

5x + 3y = 1 y x + 2y = 3

Justificar si son verdaderas o falsas las siguientes afirmaciones:

a) x + 2y = 3 es la recta de regresin de y sobre x


b) El coeficiente de correlacin es r = 0,3.
c) No se puede deducir de estos datos el coeficiente de correlacin lineal.
d) r = 0,3.
ESTADSTICA DESCRIPTIVA BIDIMENSIONAL 145

3.10.7. Se han cortado treinta rboles de la misma especie. Las edades en aos, x, y
los dimetros mximos correspondientes, y, en cm estn recogidos en la siguiente ta-
bla de frecuencias de la variable bidimensional (x, y):

y
5 6 10 12 15
x
20 1 2 1 0 0
30 0 1 4 0 0
40 0 1 6 4 0
50 0 0 2 7 1

Se pide:
a) Calcular las medias y varianzas marginales.
b) Hallar la covarianza.
c) Determinar la ecuacin de la recta de regresin de los dimetros mximos so-
bre las edades.
d) Los coeficientes de determinacin y de correlacin.

3.10.8. La tabla siguiente recoge las calificaciones en matemticas, x, y en estads-


tica, y, obtenidas por 500 estudiantes universitarios, puntuados de 0 a 10:

Estad.
[0, 5) [5, 7) [7, 9) [9, 10]
Matem.
[0, 5) 29 4 6 8
[5, 7) 67 83 52 42
[7, 9) 31 60 42 25
[9, 10] 7 8 15 21

Se pide:
a) El nmero de alumnos que tienen calificacin entre 7 y 9 en matemticas.
b) El nmero de alumnos con calificacin entre 0 y 5 en estadstica.
c) El nmero de alumnos que tienen calificacin entre 5 y 7 en matemticas y
entre 7 y 9 en estadstica.
d) La frecuencia relativa de los alumnos con calificacin ms baja en matem-
ticas entre los que tienen calificacin ms alta en estadstica.
e) Calcular las medias marginales de las calificaciones de matemticas y esta-
dstica y las correspondientes desviaciones tpicas.
f) Qu notas tienen mayor dispersin?
g) Calcular la covarianza.
h) Hallar la ecuacin de la recta de regresin de y sobre x.
i) Calcular el coeficiente de correlacin lineal.
146 ESTADSTICA APLICADA. UNA VISIN INSTRUMENTAL

3.10.9. Un fabricante de helados artesanos observa el nmero de helados vendidos


en una semana y la temperatura media, en grados centgrados, alcanzada en dicha se-
mana en el lugar de venta:

Temp. media C 25 21 28 31 30 26 12 18
o
N. de helados
330 320 635 790 710 480 210 260
vendidos

Con el objeto de planificar la produccin se plantea buscar si hay relacin entre


el nmero de helados vendidos por semana y la temperatura media de dicha semana.
a) Qu informacin se le puede proporcionar?
b) Dar una medida del grado de asociacin entre las variables.
c) Cuntos helados esperara vender en una semana en la que la temperatura
media fuera de 23 C?
d) Se podra con los datos recogidos dar la informacin para una semana en la
que la temperatura media fuera de 5 C?

3.10.10. En la tabla siguiente se recoge informacin para 200 empleados sobre su sa-
lario mensual y los das de ausencia en un ao:

Das de
ausencia [1, 10) [10, 20) [20, 30) [30, 40) [40, 50)
Ingresos
[1.000, 1.500) 25 40 20 13 3
[1.500, 2.000) 12 17 12 7 2
[2.000, 2.500) 20 6 14 8 1

Se pide:
a) Dar la distribucin marginal correspondiente al ingreso entre 2.000 y 2.500
al mes, su media y su desviacin tpica.
b) La distribucin marginal para el nmero de das de ausencia de 10 a 20 das
y tambin la correspondiente media y la desviacin tpica.
c) Las medias marginales de x y de y, sus desviaciones tpicas y la covarianza.
d) El coeficiente de determinacin lineal. Es bueno el ajuste de una recta de re-
gresin a la nube de puntos de esta distribucin bidimensional?

3.10.11. En la tabla se muestra el gasto diario, en euros, efectuado por 10 alumnos


universitarios en llamadas telefnicas en dos meses.

x Gasto
0,5 6,0 5,0 0,0 5,5 1,5 2,5 4,0 2,0 4,0
1.er mes
y Gasto
0,0 5,5 5,5 0,8 5,0 1,5 0,0 5,0 1,0 3,0
2.o mes
ESTADSTICA DESCRIPTIVA BIDIMENSIONAL 147

Se pide:
a) Calcular el gasto medio y la varianza de cada mes, la covarianza y el coefi-
ciente de correlacin lineal.
b) Hay dependencia lineal entre el gasto de los dos meses?
c) Determinar la recta de regresin de y sobre x
d) Dar la recta de regresin de x sobre y
e) Para un gasto de 3,6 en el primer mes, qu gasto se podra esperar en el
segundo?
f) Para un gasto de 4,5 en el segundo mes, qu gasto esperado habr tenido
en el primero?

3.10.12. Para controlar la eficacia de cierto pesticida se prueban sus efectos en 10 ro-
sales. El porcentaje de hojas enfermas antes del tratamiento, x, y el porcentaje de ho-
jas enfermas pasado un ao de tratamiento y, para los 10 rosales son los siguientes:

x 50 40 70 90 40 60 80 80 50 70
y 30 10 45 60 5 25 40 50 20 30

Determinar la ecuacin de la recta de regresin de y sobre x y dar una medida del


grado de ajuste.

3.10.13. La siguiente tabla representa el nmero de bacterias presentes en un cultivo


al cabo de t horas:

t 2 4 6 8 10 12 14
N 19 37 72 140 295 584 990

Ajustar una curva de la forma N = a ebt para el crecimiento del cultivo y expli-
car si es bueno el ajuste.

3.10.14. La siguiente tabla recoge los valores de la variable estadstica bidimensio-


nal (x, y), en la que x representa las alturas dominantes, en metros, de una masa de pi-
nus pinea e y las alturas medias correspondientes, tambin medidas en metros, de
veinte masas forestales.

y
[16,5; 17,5) [17,5; 18,5) [18,5; 19,5) [19,5; 20,5) [20,5; 21,5)
x
[14,5; 15,5) 1 1 0 0 0
[15,5; 16,5) 0 2 1 0 0
[16,5; 17,5) 0 1 4 2 0
[17,5; 18,5) 0 0 1 3 4
148 ESTADSTICA APLICADA. UNA VISIN INSTRUMENTAL

Se pide calcular:
a) Las medias y desviaciones tpicas marginales.
b) La covarianza.
c) La ecuacin de la recta de regresin de las alturas medias sobre las alturas
dominantes.
d) Los coeficientes de determinacin y de correlacin. Es bueno el ajuste?

3.10.15. Se quiere expresar mediante una curva de la forma y = a xb la relacin en-


tre el peso, x, de los melocotones en gramos y los de los correspondientes huesos, y,
tambin en gramos. Con los datos de la siguiente tabla:

x 145 160 138 120 170


y 50 54 45 37 56

Ajustar una curva de la forma indicada por el mtodo de los mnimos cuadrados.

3.10.16. La siguiente tabla representa el peso, x, en gramos de baldas de madera de


la misma anchura y las longitudes, y, correspondientes en cm.

x 1.500 3.250 2.180 2.125 2.500 1.500 3.500 3.100


y 100 160 125 127 120 94 145 146

Se pide:
a) Ajustar una curva de la forma x = a yb y dar una medida de la correlacin
entre las variables.
b) Qu peso se espera que tendr una balda de 130 cm de longitud y de la mis-
ma anchura que los anteriores? dem para una balda de 170 cm. cul de las
dos predicciones es la ms fiable? Por qu?

3.10.17. Se han recogido los valores de las superficies, x, de 11 embalses y el n-


mero de especies diferentes, y, presentes en cada uno de ellos:

x 2.500 2.800 4.500 6.100 6.500 12.000 30.500 45.000 60.000 75.000 80.000
y 8 9 10 9 10 11 15 17 16 17 16

Ajustar, por el mtodo de mnimos cuadrados, la ecuacin de la regresin po-


tencial y = a xb y explicar si es bueno el ajuste.

3.10.18. La siguiente tabla representa el crecimiento de una poblacin animal:

x aos 1 2 3 4 5 6
y 46 66 94 133 189 273
ESTADSTICA DESCRIPTIVA BIDIMENSIONAL 149

Se pide:
a) Ajustar una curva de mnimos cuadrados de la forma y = a bx y explicar si
es bueno el ajuste.
b) Estimar el nmero de efectivos de la poblacin al cabo de 7 aos y a los 4
aos y medio.

3.10.19. Para estudiar la relacin entre la fecundidad, expresada por el nmero de


huevos por adulto puestos en una semana y la densidad, representada por el nmero
de adultos por unidad de volumen para un dptero, se han realizado las observaciones
que se recogen en la siguiente tabla:

x (densidad) 100 300 700 900 1.100 1.300 1.900 2.100

y (fecund.) 17 13 3 4 2,5 2 1,5 2

Ajustar una curva de la forma: (a + bx) y = 1, por el mtodo de mnimos cua-


drados, y dar una medida del grado de ajuste.

3.10.20. El estudio del crecimiento de una poblacin de Microtus agrestis ha pro-


porcionado los siguientes resultados:

t meses 0 2 4 6 8 10 12 14
o 2 5 16 20 40 100 200 320
n n. indiv.

Ajustar una curva de mnimos cuadrados de la forma n = a ebt para el creci-


miento de esta poblacin y explicar si es bueno el ajuste.

3.10.21. Para los puntos (xi, yi) recogidos en la siguiente tabla:

xi 7 11 16 18 20 22

yi 15 27 45 75 95 96

xi representa la altura en metros e yi el correspondiente dimetro normal (di-


metro a 1,30 m del suelo) medido en cm para rboles de un bosque.
a) Ajustar una recta de regresin de x sobre y a los datos. Es bueno el ajuste?
b) Ajustar, por el mtodo de mnimos cuadrados, una parbola de segundo gra-
do x = a + by + cy2 a los datos.
c) Explicar si es bueno el ajuste de la parbola a la nube de puntos.
d) Es mejor el ajuste de la parbola de segundo grado que el de la recta de re-
gresin?
e) Con la curva que mejor se ajuste de las dos, estimar la altura de un rbol del
bosque para un dimetro normal de 80 cm y para un dimetro de un metro.
Qu estimacin es ms fiable?
150 ESTADSTICA APLICADA. UNA VISIN INSTRUMENTAL

3.10.22. Los beneficios de cinco grandes bancos, en millones de euros, desde el ao


2002 al 2007 se reflejan en la siguiente tabla:

Tiempo en aos x 1 2 3 4 5 6
Beneficios y 8.701 9.898 11.002 11.598 13.875 15.350

Ajustar a los datos una parbola de segundo grado, por el mtodo de mnimos
cuadrados, y dar una medida del grado de ajuste.

3.10.23. En la siguiente tabla se recogen las rentas, en miles de euros, en cinco aos
consecutivos:

Aos t 1 2 3 4 5
Rentas R 14 15 18 24 38

Se pide:
a) Ajustar a estos datos el modelo de Harrod-Domar: Rt = R0 eat, en el que Rt
representa la renta en el periodo t, R0 la renta inicial, a es una constante y la
variable t representa el tiempo en aos. Dar una medida del grado de ajuste.
b) Determinar la renta inicial.
c) Cul sera la renta estimada para el sexto ao?

3.10.24. Para determinar la tasa de crecimiento, d, de la madera en una parcela se re-


cogieron los siguientes datos en los que y representa el volumen de la madera, en
dm3, en dicha parcela al final de cada uno de ocho aos consecutivos:

x aos 1 2 3 4 5 6 7 8
y 34,4 46 77,4 125,6 135,8 199,7 261,4 418,2

Se pide:
a) Ajustar a los datos una funcin de la forma y = k edx y dar el valor de la tasa
de crecimiento de la madera.
b) Dar una medida de la correlacin. Es satisfactorio el ajuste? Por qu?

3.10.25. Se han pesado por un lado los cuerpos, x, de seis centollos sin pinzas y por
otro lado sus pinzas respectivas, y. Los pesos, en gramos, se recogen en la siguiente
tabla:

x 58 300 536 1.080 1.449 2.233


y 5 78 196 537 773 1.380
ESTADSTICA DESCRIPTIVA BIDIMENSIONAL 151

Se quiere saber si se puede aceptar un crecimiento heterognico de estos pesos,


es decir, si los pesos se representasen en papel logartmico se obtendra una lnea rec-
ta. Dicho de otra forma, se quiere averiguar si es satisfactorio el ajuste a una curva de
la forma y = a xb

3.10.26. Ajustar una curva de la forma y = a + b/x siendo x el precio en euros e y la


cantidad demandada del producto, nmero de unidades, a los siguientes datos:

x 1 3 7 9 10 13 19 21
y 170 150 63 52 25 15 7 3

3.10.27. Se han medido las longitudes, x, de los litros y tambin la anchura, y, de


las cabezas de seis ejemplares del coleptero Lucanus cervus. Los datos obtenidos
son los siguientes:

x mm 22,5 23,0 23,2 23,4 23,5 24,0


y mm 11,3 13,5 13,3 13,0 14,0 13,6

Se pide ajustar a estos datos una curva de regresin potencial y = a xm. Es bue-
no el ajuste?

3.10.28. En una zona boscosa regular se han medido las alturas totales, en metros, de
ocho rboles y sus dimetros normales, dimetro a 1,30 m del suelo, en centmetros.
Los datos obtenidos son los siguientes:

xm 9 10 15 20 25 34 45 50
y cm 7 9 11 12,7 16 18 20 18

Ajustar a esos datos una parbola de segundo grado y = ax2 + bx + c y dar una
medida del grado de ajuste.

También podría gustarte