Estadística Regresión
Estadística Regresión
Estadística Regresión
Índice
6. Problemas resueltos 1
6. Problemas resueltos
Ejercicio 6.1. Se han tomado cinco muestras de glucógeno, de una cantidad fija cada una. Se les ha aplicado
una cantidad X de glucogenasa (en milimoles por litro) anotando en cada caso la velocidad de reacción Y
X 1 2 3 0.2 0.5
Y 18 35 60 8 10
Se pide:
a) ¿Se deduce de estos datos que la velocidad de reacción aumenta con la concentración de glucogenasa?
por litro, ¿cuál hubiera sido la velocidad de reacción? ¿Con qué grado de predicción?
(µmol/min)’ son ambas cuantitativas. Aunque en los cálculos que siguen es suficiente la tabla de frecuencias
para las variables marginales X e Y dada en el enunciado del ejercicio (véase la Observación 2.5 del desarrollo
Y
8 10 18 35 60 nxi fxi
X
0.2 1 1 0.2
0.5 1 1 0.2
1 1 1 0.2
2 1 1 0.2
3 1 1 0.2
ny j 1 1 1 1 1 5
Cuadro 6.1. Tabla de frecuencias para la variable bidimensional del Ejercicio 6.1.
Figura 6.1. Diagrama de dispersión para la variable bidimensional del Ejercicio 6.1.
En primer lugar, trazamos un diagrama de dispersión para conjeturar una posible relación entre las variables
(Figura 6.1).
El diagrama de la Figura 6.1 parece indicarnos que existe una relación lineal directa entre las variables, esto
es, la velocidad de reacción Y aumenta a medida que aumenta la cantidad de glucogenasa y esta dependencia
responde a un modelo lineal. Veamos si esta intuición que sugiere el diagrama puede ser confirmada.
a) Al objeto de analizar cuál es el grado de correlación entre las variables X e Y estudiamos el coeficiente
σxy
ρ= ,
σx · σy
donde σxy , σx y σy denotan la covarianza y las desviaciones típicas marginales de las variables X e Y , respec-
tivamente.
Para hallar los estadísticos anteriores, necesarios en la determinación del coeficiente de correlación lineal,
0.2 + 0.5 + 1 + 2 + 3
x= = 1.340.
5
8 + 10 + 18 + 35 + 60
y= = 26.200,
5
y su desviación típica,
√
σy = 376.160 ' 19.395.
1 m r
σxy = ∑ ∑ xi y j ni j − x y
N i=1 j=1
19.812
ρ= ' 0.99.
1.031 · 19.395
Al estar el coeficiente de Pearson muy cercano a 1 podemos garantizar que existe una muy buena correlación
lineal entre las variables. Esta relación es, además, directa, como indica el hecho de que el coeficiente de
correlación de Pearson tiene signo positivo, al igual que la covarianza. Luego, cabe afirmar que la velocidad
de reacción aumenta con la concentración de glucogenasa y que este aumento es de tipo lineal.
Figura 6.2. Diagrama de dispersión y rectas de regresión para la variable bidimensional del Ejercicio 6.1.
donde
σxy 19.812
βyx = = ' 18.648.
σx2 1.0624
Si a una de las muestras le hubiésemos aplicado una concentración de glucogenasa de 5 mmol/L, la velo-
siendo esta predicción muy buena pues, como hemos mencionado anteriormente, el coeficiente de correlación
donde
σxy 19.812
βxy = 2
= ' 0.053.
σy 376.160
Es decir,
Si representamos las rectas de regresión anteriores en el diagrama de dispersión de la Figura 6.1, obtene-
Ejercicio 6.2. Se ha medido, en miligramos por litro, el contenido de oxígeno Y del lago Worther, en Austria,
X 15 20 30 40 50 60 70
Se pide:
c) Para una profundidad comprendida entre 75 y 80 metros, ¿qué contenido en oxígeno se podría prede-
cir?
R ESOLUCIÓN . Las variables X :=‘profundidad (m)’ e Y :=‘cantidad de oxígeno (mg/L)’ son ambas cuanti-
tativas. De manera similar al problema anterior, la tabla de frecuencias para la variable bidimensional (X,Y )
El diagrama de dispersión para la variable bidimensional (X,Y ) de la Figura 6.3 nos indica de manera
intuitiva que si existiese alguna relación entre las variables X e Y , ésta debiera ser inversa, esto es, el aumento
Y
0.1 1.4 4.6 5.4 5.6 6.0 6.5 nxi fxi
X
15 1 1 0.142
20 1 1 0.142
30 1 1 0.142
40 1 1 0.142
50 1 1 0.142
60 1 1 0.142
70 1 1 0.142
ny j 1 1 1 1 1 1 1 7
Cuadro 6.2. Tabla de frecuencias para la variable bidimensional del Ejercicio 6.2.
donde
σxy
βyx = .
σx2
La media de X es:
15 + 20 + 30 + 40 + 50 + 60 + 70
x= ' 40.714.
7
Figura 6.3. Diagrama de dispersión para la variable bidimensional del Ejercicio 6.2.
(15 · 6.5) + (20 · 5.6) + (30 · 5.4) + (40 · 6.0) + (50 · 4.6) + (60 · 1.4) + (70 · 0.1)
σxy = − (40.714 · 4.228)
7
932.5
' − 172.139 = −38.925.
7
σxy −38.925
βyx = 2
= ' −0.108.
σx 360.227
b) Nótese que la covarianza σxy es negativa: esto nos indica que existe una relación inversa entre las
variables. Para decidir si tal relación es de tipo lineal, estudiamos el coeficiente de Pearson
σxy
ρ= .
σx · σy
La varianza de Y es
y su desviación típica,
√
σy = 5.252 ' 2.292.
−38.925
ρ= ' −0.895,
18.980 · 2.292
y podemos concluir que las variables presentan una muy buena correlación lineal inversa (o correlación lineal
negativa).
Podemos concluir entonces que para una profundidad comprendida entre 75 y 80 metros los niveles de oxígeno
Figura 6.4. Diagrama de dispersión y rectas de regresión para la variable bidimensional del Ejercicio 6.2.
donde
σxy −38.925
βxy = = ' −7.411.
σy2 5.252
Luego,
El diagrama de dispersión junto con las rectas de regresión aparece representado en el gráfico de la Figura
6.4.
aplicado un segundo medicamento B a otros 100 enfermos. El número diario de curados durante los 10
medicamento A 8 7 6 5 4 3 3 2 1 1
medicamento B 4 4 6 7 2 5 1 2 2 2
Se pide:
R ESOLUCIÓN . Estamos interesados en determinar la relación que pueda existir entre el número de enfermos
curados en un mismo día, en dos hospitales diferentes y mediante dos medicamentos distintos, para, por ejem-
plo, determinar la eficacia de ambos medicamentos. El estudio se hace durante 10 días (por lo que la población
Para ello denotamos por X :=‘número de pacientes curados por el medicamento A en un determinado
día’ y por Y :=‘número de pacientes curados por el medicamento B en el mismo día’. Obsérvese que ambas
variables marginales son cuantitativas discretas. La tabla de frecuencias para la variable bidimensional (X,Y )
Y
1 2 4 5 6 7 nxi fxi
X
1 2 2 0.2
2 1 1 0.1
3 1 1 2 0.2
4 1 1 0.1
5 1 1 0.1
6 1 1 0.1
7 1 1 0.1
8 1 1 0.1
ny j 1 4 2 1 1 1 10
fy j 0.1 0.4 0.2 0.1 0.1 0.1 1
Cuadro 6.3. Tabla de frecuencias para la variable bidimensional del Ejercicio 6.3.
Al igual que hemos hecho en los ejercicios anteriores, trazamos un diagrama de dispersión para la variable
bidimensional (Figura 6.5) que nos permita conjeturar una posible relación entre las variables marginales.
Nótese que, aunque podemos intuir algún tipo de relación directa entre las variables (esto es, el aumento en la
eficiencia de uno de los medicamentos en un determinado día implica también la del del otro), no está del todo
Figura 6.5. Diagrama de dispersión para la variable bidimensional del Ejercicio 6.3.
a) Para determinar las rectas de regresión, calculamos en primer lugar los estadísticos necesarios.
• Media de X:
(2 · 1) + (1 · 2) + (2 · 3) + (1 · 4) + (1 · 5) + (1 · 6) + (1 · 7) + (1 · 8)
x= = 4.000.
10
• Varianza de X:
(2 · 12 ) + (1 · 22 ) + (2 · 32 ) + (1 · 42 ) + (1 · 52 ) + (1 · 62 ) + (1 · 72 ) + (1 · 82 )
σx2 = − 4.0002
10
214
= − 16 = 5.400.
10
• Desviación típica de X:
√
σx = 5.400 ' 2.324.
• Media de Y :
(1 · 1) + (4 · 2) + (2 · 4) + (1 · 5) + (1 · 6) + (1 · 7)
y= = 3.500.
10
• Varianza de Y :
(1 · 12 ) + (4 · 22 ) + (2 · 42 ) + (1 · 52 ) + (1 · 62 ) + (1 · 72 )
σy2 = − 3.5002
10
159
= − 12.25 = 3.650.
10
• Desviación típica de Y :
√
σy = 3.650 ' 1.910.
(1 · 2 · 2) + (2 · 2) + 3 · (1 + 5) + (4 · 2) + (5 · 7) + (6 · 6) + (7 · 4) + (8 · 4)
σxy = − (4 · 3.500)
10
165
= − 14 = 2.500.
10
donde
σxy 2.500
βyx = = ' 0.463.
σx2 5.400
Por tanto,
donde
σxy 2.500
βxy = 2
= ' 0.685.
σy 3.650
Figura 6.6. Diagrama de dispersión y rectas de regresión para la variable bidimensional del Ejercicio 6.3.
Por tanto,
b) Las rectas de regresión están representadas en el gráfico de la Figura 6.6, junto con el diagrama de
dispersión.
σxy 2.500
ρ= = ' 0.56.
σx · σy 2.324 · 1.910
Como el coeficiente de correlación de Pearson está comprendido entre 0.5 y 0.8, podemos afirmar que la rela-
ción entre las variables descritas en los modelos lineales anteriores es buena.