Ejercicios Descriptiva - Con Solución
Ejercicios Descriptiva - Con Solución
Ejercicios Descriptiva - Con Solución
120 120
100 100
80 80
60 60
40 40
20 20
0 0
1 5 9 13 17 21 25 29 33 1 5 9 13 17 21 25 29 33
H H M M M H M M H M
2.20 1.50 4.50 1.10 3.30 2.80 2.40 2.50 1.70 4.50
10. Dada las siguientes gráficas (etiquetadas como H1, H2, H3, C1, C2 y C3),
¿qué correspondencias son correctas?
600
H1 C1
400
200
0
0 0.5 1 0 0.5 1
x x
200
H2 C2
100
0
0 0.5 1 0 0.5 1
x x
1000
H3 C3
500
0
0 0.5 1 0 0.5 1
x x
11. Durante una semana se han contado un total de 5000 visitas realizadas a la
página Web de un determinado diario on-line. Se desea estudiar la relación
entre el día de la semana y el intervalo horario en que se realizan las visitas.
Sean X = Día de la semana e Y = Intervalo horario en el que se realizó la visita:
Box-and-Whisker Plot
Variable1
Variable2
0 2 4 6 8 10
Solución:
a) Es más dispersa la variable 2 porque su recorrido intercuartílico (caja) es
mayor.
b) La variable 1 presenta una clara asimetría negativa o a la izquierda puesto
que la media es mucho menor a la mediana y la patilla de la izquierda es
más larga que la de la derecha.
c) La variable 2 presenta una ligera asimetría a la derecha o positiva puesto
que la media es mayor a la mediana aunque se podría decir que es
prácticamente simétrica.
d) En la variable 1 por debajo del valor 6 tenemos menos del 50% de los
valores de la distribución ya que la mediana es 7. Por el contrario en la
variable 2 sí se puede decir que por debajo del valor 6 tengo más del 50%
de los datos porque la mediana es 5.
e) En la variable 1 el cuartil 1 es 4 por lo que por debajo del valor 3 tendré
menos del 25% de los datos. En la variable 2 el cuartil 1 sí es 3 por lo que
sé puede afirmar que por debajo de 3 tengo al 25% de los datos.
15. Se dispone de los datos de demanda eléctrica del sistema eléctrico español
para cada hora del año 2005. Cada dato de demanda tiene asociado la hora
(valores de 1 a 24), el día de la semana (valores de 1 a 7) y el mes (valores de
1 a 12). Por tanto se dispone de una muestra de tamaño 8760 (ver ejemplo en
la tabla).
Hora DiaSem Mes Dem
1 7 1 26435
2 7 1 25741
3 7 1 24662
4 7 1 22585
5 7 1 20680
6 7 1 19755
7 7 1 18673
8 7 1 17936
9 7 1 17511
10 7 1 17299
11 7 1 19200
12 7 1 20300
...
800
600
400
200
0
1.5 2 2.5 3 3.5 4 4.5
Dem 4
x 10
4
x 10
3.5
Dem
2.5
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
Hora
X
DiaSem
D
4
x 10
2 2.5 3 3.5 4
Dem
Solución:
K=1,05*temperatura termopar+273
Media= 2006,5 K
Varianza= 329 K
Desviación típica= 18,1 K
Rango= 91,4 K
Mediana= 2007,9 K
Q1=1992,9 K
Q3=2019,1 K
Solución:
El gráfico A se elimina porque la mediana no es 4.
El gráfico E se elimina porque el máximo no es 10.
El gráfico B se elimina porque el mínimo no es 2.
El gráfico C se elimina porque el rango intercuartílico no es 2
18. La siguiente figura muestra una recta de regresión ajustada a una muestra
de datos registrados en 5 departamentos de una empresa para poder
predecir la variable Y = “gasto telefónico mensual en euros” en función de la
variable X = “tiempo de conexión a Internet mensual en minutos”.
a ) yˆ 10 5 x
b) yˆ 10 5 x
c) yˆ 10 5 x
d ) yˆ 10 5 x
10
9
8 8
7 6
6
4
5
2
4
3 0
0 2 4 6 8 10 0 2 4 6 8 10
[1] [2]
Solución:
Como el coeficiente de correlación lineal es <0, la pendiente también tiene que
ser <0 por lo que se eliminan las rectas a y d. Como las dos variables son
positivas, sus medias son positivas y el coeficiente independiente de la recta
tiene que ser positivo, así que la solución es la recta “c” .
El mapa de dispersión es el [2] ya que la pendiente es negativa y por lo tanto la
relación entre las variables es inversa o negativa.
Solución:
a) Sí puesto que hay una relación lineal fuerte y directa entre el número de
usuarios y el tiempo de respuesta de una computadora (rxy = 0,978). La
interpretación de b sería la siguiente: cuando aumentamos el número de
usuarios simultáneos en 1, el tiempo de respuesta de la computadora
aumenta en 0,317 segundos.
b) El método de errores mínimos cuadrados trata de minimizar los errores. Por
lo tanto, tomaremos la recta cuya desviación típica residual sea menor, es
decir, la del enunciado.
c) El tiempo de respuesta será aproximadamente de 6,309 segundos con una
fiabilidad de 95,64%.
10 10 10 10 10 10
Di ni 171
i 1
Aj n j 183
ij 1
i 1
Di Aj nij 3184
ij 1
D 2i ni 3041
i 1
A
j 1
j
2
n j 3381
Regression Analysis - Linear model: Y = a + b*X
-----------------------------------------------------------------------------
Dependent variable: altura
Independent variable: diametro
-----------------------------------------------------------------------------
Standard T
Parameter Estimate Error Statistic P-Value
-----------------------------------------------------------------------------
Intercept 10,2985 1,45435 7,08119 0,0001
Slope 0,467921 0,0833991 5,61063 0,0005
-----------------------------------------------------------------------------
Correlation Coefficient = 0,892951
R-squared = 79,7361 percent
Standard Error of Est. = 0,901714
a) ¿Existe una relación lineal entre las variables?. ¿De qué tipo?.
b) Estimar la altura de un árbol que corresponde a un diámetro de 15 cm.. ¿Es
fiable esta predicción?
c) ¿Cómo interpretaría la pendiente del modelo de regresión lineal?
d) ¿Corresponde el siguiente diagrama de dispersión con los datos del
problema?. Razónelo.
Solución:
a) Existe una relación lineal positiva y fuerte ya que el coeficiente de
correlación lineal es cercano a 1 (0,8929).
b) Como el modelo de regresión es A 10,2985 0,467921 d para d=15cm
ˆ
Aˆ 17,3173m .
Sí es fiable ya que R2=79,73% es decir, que con el modelo de regresión puedo
explicar el 79,73% de la variable altura.
c) Cuando aumento un cm de diámetro del árbol, la altura del árbol aumenta
en 0,467921 metros.
d) No se corresponde ya que el gráfico muestra una relación lineal negativa
entre las variables y en nuestro caso las variables tienen una relación lineal
positiva (covarianza positiva).
POBLACIÓN A POBLACIÓN B
Diagrama de dispersión Diagrama de dispersión
26 180
23 150
120
20
90
17
60
14 30
11 0
0 4 8 12 16 1700 2200 2700 3200 3700 4200 4700
(X 1000)
POBLACIÓN C POBLACIÓN D
15 11
1700 2200 2700 3200 3700 4200 4700 11 14 17 20 23 26