Ejercicios Descriptiva - Con Solución

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 14

EJERCICIOS DESCRIPTIVA UNIVARIANTE Y BIVARIANTE

1. La oficina del consumidor de la Comunidad de Madrid está interesada en


estudiar el número de reclamaciones que las empresas dedicadas a la venta
de electrodomésticos han recibido en el año 2008 por diferentes causas: mal
funcionamiento, defectos en la pintura, falta de piezas y mal embalaje. Para
ello ha solicitado 100 reclamaciones de diferentes empresas dedicadas a la
venta de electrodomésticos. Basándote en este caso, defina lo siguiente:

Población =todas las reclamaciones recibidas de las empresas de


electrodomésticos en la Comunidad de Madrid.
Muestra = las 100 reclamaciones seleccionadas.
Unidad de información o individuo = cada reclamación.
Variable a estudiar y tipo de variable= causa de la reclamación. Variable
cualitativa nominal.
 
2. El 70% de los madrileños gastan en regalos navideños por encima de 100
euros, mientras que el 5% gastan por encima de 500 euros. Entonces
conocemos:
a) El valor correspondiente al percentil 30
b) El valor correspondiente al percentil 70
c) El valor correspondiente al percentil 5

3. Un diagrama de caja informa sobre:


a) Los cuartiles y curtosis
b) Asimetría y varianza
c) Datos atípicos y simetría

4. De las siguientes medidas, ¿cuáles podrían utilizarse para argumentar en


favor o en contra de la asimetría de la variable “producción eléctrica en
MWh”?
a) Percentil 25 y percentil 75
b) Media y mediana
c) Media y percentil 60

5. En el histograma de la izquierda se muestra el tiempo (en segundos) que 406


modelos de coches tardan en pasar de 0 a 100 km/h (aceleración), medido
por un trabajador A. Para confirmar los resultados un segundo trabajador B
realiza de nuevo la medición de la aceleración en los mismos coches
(histograma de la derecha).
TRABAJADOR A TRABAJADOR B
140 140

120 120

100 100

80 80

60 60

40 40

20 20

0 0
1 5 9 13 17 21 25 29 33 1 5 9 13 17 21 25 29 33

Aceleración 0 a 100 km/h (segundos) Aceleración 0 a 100 km/h (segundos)

Analizando estos resultados, ¿cuál de las siguientes afirmaciones es correcta?

a) La aceleración media medida por el trabajador A es claramente distinta


de la aceleración media medida por el trabajador B.
b) La desviación típica de la aceleración medida por el trabajador A es
menor que la desviación típica de la aceleración medida por el
trabajador B.
c) La varianza de la aceleración medida por el trabajador B es menor que la
varianza de la aceleración medida por el trabajador A.

6. En un servicio técnico se desea conocer el grado de satisfacción de los


usuarios. Para ello se realiza un cuestionario de satisfacción y se les pide que
valoren, en una escala continúa de 0 a 10, el servicio recibido. El valor 0
identifica un pésimo servicio y el 10 identifica un inmejorable servicio. La
información tanto de la valoración del servicio como el sexo de diez de los
usuarios entrevistados es:

H H M M M H M M H M
2.20 1.50 4.50 1.10 3.30 2.80 2.40 2.50 1.70 4.50

Señale la opción correcta:


a) La mediana es 2,45 y el rango es 3,2.
b) La frecuencia absoluta de las mujeres es 6 y la media es 2,5.
c) La media es 2,65 y la frecuencia relativa de los hombres (H) es del 40%.

7. La siguiente tabla contiene una serie de estadísticos sobre 2 variables:


X1 X2
Media 16 0,3
Mediana 15,5 0.5
Varianza 8,41 3,61
Desviación típica 2,9 1,9
Mínimo 9 -5,3
Máximo 22 3,7
Rango 13 9
Cuartil inferior 14 -0,9
Cuartil superior 17 1,3
Rango 3 2,2
Intercuartílico

Basándonos en la tabla anterior sabemos que:


a) La variable X1 es más dispersa que la variable X2.
b) La variable X2 es más dispersa que la variable X1.
c) Las dos variables son igualmente dispersas.

8. Señale la afirmación correcta:


a) La asimetría de la variable X1 es positiva o directa.
b) La asimetría de la variable X2 es positiva o directa.
c) La asimetría de la variable X1 es negativa o inversa.

9. En la variable X2, el 25% de los datos de la variable se encuentran

a) Por debajo del valor 1,3.


b) Por encima del valor -0,9
c) Por encima del valor 1,3

10. Dada las siguientes gráficas (etiquetadas como H1, H2, H3, C1, C2 y C3),
¿qué correspondencias son correctas?
600
H1 C1
400

200

0
0 0.5 1 0 0.5 1
x x
200
H2 C2

100

0
0 0.5 1 0 0.5 1
x x
1000
H3 C3

500

0
0 0.5 1 0 0.5 1
x x

a) H1-C1, H2-C2 y H3-C3


b) H1-C3, H2-C1 y H3-C2
c) H1-C3, H2-C2 y H3-C1

11. Durante una semana se han contado un total de 5000 visitas realizadas a la
página Web de un determinado diario on-line. Se desea estudiar la relación
entre el día de la semana y el intervalo horario en que se realizan las visitas.
Sean X = Día de la semana e Y = Intervalo horario en el que se realizó la visita:

(8:00-13:00] (13:00-16:00] (16:00-20:00]


Lunes 232 400 228
Martes 348 600 342
Miércoles 319 550 313
Jueves 95 525 298
Viernes 77 425 248

Señala cual de las siguientes opciones es la correcta usando la correspondiente


distribución condicionada:
a) El 8,87% de las visitas realizadas entre [8:00-13:00) horas se realizaron
el jueves
b) El 4,6% de las visitas realizadas entre [8:00-13:00) horas se realizaron el
lunes.
c) El 1,9% de las visitas realizadas entre [8:00-13:00) horas se realizaron el
jueves.
12. En un estudio descriptivo se obtiene que la velocidad de un tipo de
procesadores tiene una media de 60 GHz y una desviación típica de 20
GHz., mientras que la media de la temperatura ambiente es 15 ºC, con una
desviación típica de 5 ºC. Entonces:
a) Hay más dispersión en velocidades que en temperaturas.
b) Hay más dispersión en temperaturas que en velocidades.
c) Velocidad y temperatura están dispersos de modo equivalente.

13. La siguiente tabla contiene una serie de estadísticos sobre 3 variables:


X Y Z
Media 2,89405 9,864659 0,762064
Mediana 2,56179 9,51641 0,126051
Varianza 2,962 9,09186 15,9405
Mínimo 0,453434 4,4271 -10,9276
Máximo 9,68057 17,4448 14,0661
Rango 9,2271 13,0177 24,9937
Cuartil inferior 1,76182 7,61584 -1,25399
Cuartil superior 3,63272 11,7915 1,8406
Rango 1,8709 4,17566 3,09459
Intercuartílico
Coef. asimetría 1,48055 0,395792 0,73538
Coef. curtosis 3,05654 -0,421434 2,68596
Coef. de variación 59,468% 30,5664% 523,914%

a) Completa la información que falta en la tabla.


b) Ordena las variables de más dispersión a menos. Justifica qué medidas
utilizas.
Según el CV (coef.variación) la variable más dispersa es Z, después X y por
último Y, ya que
CVz>CVx>CVy.
c) Justifica si, para la variable Y, un valor de 1,5 puede considerarse un dato
atípico.
Calculamos el LI=Q1-1,5(Q3-Q1)=1,3523. Como 1,5>1,3523 no se considera
atípico
d) ¿Cuál de las tres variables presenta menos asimetría?. Justifica qué
medida utilizas.
La variable que presenta menos asimetría es la variable Y puesto que tiene el
coeficiente de asimetría menor.
e) Di qué diagrama de caja y qué histograma corresponden a cada una de las
variables anteriores.
A la variable Z le corresponde el diagrama 1 y C.
A la variable X le corresponde el diagrama 2 y A.
A la variable Y le corresponde el diagrama 3 y B.

14. En base al siguiente gráfico de diagramas de caja de dos variables, razone


las siguientes cuestiones:

Box-and-Whisker Plot

Variable1

Variable2

0 2 4 6 8 10

a) ¿Cuál de las dos variables es más dispersa?


b) ¿Qué tipo de asimetrías tienen las dos distribuciones?
c) ¿Se puede decir que por debajo del valor 6 tengo más del 50% de los
valores en la variable 1?.¿Y en la variable 2?.
d) ¿Es posible saber que sólo el 25% de los datos en la variable 1 es inferior al
valor 3?. ¿Y en la variable 2?.

Solución:
a) Es más dispersa la variable 2 porque su recorrido intercuartílico (caja) es
mayor.
b) La variable 1 presenta una clara asimetría negativa o a la izquierda puesto
que la media es mucho menor a la mediana y la patilla de la izquierda es
más larga que la de la derecha.
c) La variable 2 presenta una ligera asimetría a la derecha o positiva puesto
que la media es mayor a la mediana aunque se podría decir que es
prácticamente simétrica.
d) En la variable 1 por debajo del valor 6 tenemos menos del 50% de los
valores de la distribución ya que la mediana es 7. Por el contrario en la
variable 2 sí se puede decir que por debajo del valor 6 tengo más del 50%
de los datos porque la mediana es 5.
e) En la variable 1 el cuartil 1 es 4 por lo que por debajo del valor 3 tendré
menos del 25% de los datos. En la variable 2 el cuartil 1 sí es 3 por lo que
sé puede afirmar que por debajo de 3 tengo al 25% de los datos.

15. Se dispone de los datos de demanda eléctrica del sistema eléctrico español
para cada hora del año 2005. Cada dato de demanda tiene asociado la hora
(valores de 1 a 24), el día de la semana (valores de 1 a 7) y el mes (valores de
1 a 12). Por tanto se dispone de una muestra de tamaño 8760 (ver ejemplo en
la tabla).
 
Hora DiaSem Mes Dem
1 7 1 26435
2 7 1 25741
3 7 1 24662
4 7 1 22585
5 7 1 20680
6 7 1 19755
7 7 1 18673
8 7 1 17936
9 7 1 17511
10 7 1 17299
11 7 1 19200
12 7 1 20300

...

A partir de este conjunto de datos se han realizado las siguientes gráficas:


1000

800

600

400

200

0
1.5 2 2.5 3 3.5 4 4.5
Dem 4
x 10
4
x 10

3.5
Dem

2.5

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
Hora

X
DiaSem

D
4
x 10
2 2.5 3 3.5 4
Dem

a) A la vista del histograma, ¿la distribución de los datos de demanda es


unimodal? Sí. En torno a 3 y 3,1 está la clase modal ¿Consideras que la
distribución es simétrica? No. Es ligeramente asimétrica positiva.
b) Indica en qué horas se ha producido típicamente el consumo más bajo y el más
alto. La tendencia de consumo más bajo se produce entre las 4 y 6 de la
mañana y el consumo más alto entre las 12 y 13 horas así como entre las 19 y
20 horas. ¿Y de manera absoluta? El más bajo en términos absolutos es a las 8
de la mañana y el consumo más alto es a las 20.00.
c) ¿En qué horas hay una menor dispersión de la demanda? Entre las 4 y 6 de la
mañana.
d) ¿El coeficiente de asimetría de Fisher de la hora 24 será positivo o negativo?
positivo. ¿Por qué? Porque el 50% de los datos más grandes de demanda se
dispersa más que el 50% de los datos más bajos de demanda.
e) ¿Cuáles son las dos horas en las que aparece una mayor asimetría de la
demanda?
f) ¿En qué día de la semana se ha producido la punta de demanda horaria en
2005? 9 y 10 de la mañana.
g) ¿Qué tres días de la semana consideras tienen una distribución similar de
demanda? Martes, miércoles y jueves. ¿Qué día es claramente diferente?
Domingo.

16. Para la producción de cierta aleación metálica es muy importante tener


controlada la temperatura del horno donde se realiza la aleación. En el
horno hay instalados 14 termopares de wolframio (son unos termómetros
que permiten medir la temperatura por encima de los 1000ºC). En un
instante dado, las mediciones de temperatura realizadas por todos los 14
termopares (xi, i=1,…, 14) tienes las siguientes medidas características:

Media= 1651ºC Mediana= 1652,3ºC


Varianza=298,7 C2 Q1= 1638ºC
Desviación típica=17,28ºC Q3= 1663ºC
Rango= 87,07ºC
Si se sabe que la temperatura real es un 5% superior a la que miden los
termopares, indicar cuáles serían las medidas características de la temperatura
real en grados kelvin. (K =ºC+273).

Solución:
K=1,05*temperatura termopar+273
Media= 2006,5 K
Varianza= 329 K
Desviación típica= 18,1 K
Rango= 91,4 K
Mediana= 2007,9 K
Q1=1992,9 K
Q3=2019,1 K

17. La siguiente tabla muestra los resúmenes estadísticos que proporciona la


opción “Summary Statistics” del Statgraphics para los datos sobre las notas
de un examen de Estadística en una clase:

Media = 5,34783 Varianza =6.78261 Rango Intercuartílico = 5.0


Mediana = 5.0 Desviación típica = 2.60434 Asimetría = - 0.0809097
Moda =5.0 Mínimo= 1.0 Curtosis = - 1.04274
Máximo = 9.0 Coef. De variación = 48.6991
Indicar cuál de estos diagramas de cajas puede representar a este conjunto de
datos. Dar razones de por qué los otros no pueden representar al conjunto de
datos resumidos en la tabla.

Solución:
El gráfico A se elimina porque la mediana no es 4.
El gráfico E se elimina porque el máximo no es 10.
El gráfico B se elimina porque el mínimo no es 2.
El gráfico C se elimina porque el rango intercuartílico no es 2

18. La siguiente figura muestra una recta de regresión ajustada a una muestra
de datos registrados en 5 departamentos de una empresa para poder
predecir la variable Y = “gasto telefónico mensual en euros” en función de la
variable X = “tiempo de conexión a Internet mensual en minutos”.

Responder verdadero (V) o falso (F) a las siguientes cuestiones:


a) Si aumento 1 minuto conectado a Internet el gasto telefónico esperado
aumenta en 39,559 euros. FALSO
b) Por cada 30 minutos adicionales de tiempo de conexión a internet el gasto
telefónico aumenta, en promedio, 3,162 euros. VERDADERO
c) El coeficiente de correlación será cercano a 1 y la covarianza será
negativa. FALSO
d) El gasto medio estimado para un departamento que se conecta a internet
700 minutos sería aproximadamente de 113 euros. VERDADERO
e) Si expresara la variable X en horas el coeficiente de correlación no varía.
VERDADERO

19. Sean (x1,y1)…(xn,yn) un conjunto de n pares de puntos de variables


positivas (es decir xi>0;yi>0) y que verifican que rxy < 0. ¿Cuál de las
siguientes rectas de regresión puede corresponder a estos datos?

a ) yˆ  10  5 x
b) yˆ  10  5 x
c) yˆ  10  5 x
d ) yˆ  10  5 x

¿Qué mapa de dispersión se puede corresponder a estos datos?.¿Por qué?

10
9
8 8

7 6
6
4
5
2
4
3 0
0 2 4 6 8 10 0 2 4 6 8 10

[1] [2]

Solución:
Como el coeficiente de correlación lineal es <0, la pendiente también tiene que
ser <0 por lo que se eliminan las rectas a y d. Como las dos variables son
positivas, sus medias son positivas y el coeficiente independiente de la recta
tiene que ser positivo, así que la solución es la recta “c” .
El mapa de dispersión es el [2] ya que la pendiente es negativa y por lo tanto la
relación entre las variables es inversa o negativa.

20. Como parte de la evaluación de un sistema de computadora, un gerente de


sistemas quiere predecir el tiempo de respuesta de las terminales de
computadora. El tiempo de respuesta de una terminal se define como el
tiempo (T), en segundos, que la computadora tarda en responder a un
comando enviado desde una terminal. Aunque son muchas las variables que
influyen en el tiempo de respuesta de las terminales, el gerente de sistemas
va a modelar dicho tiempo como una función del número de usuarios
simultáneos (N) en el momento en que envía el comando. El gerente ha
recabado los datos de estas dos variables en los últimos cinco días,
obteniendo los siguientes resultados:

Variable dependiente: tiempo (T).


Variable independiente: número de usuarios (N).
T= -0,031+0,317 N
Coeficiente de correlación= 0,978
Desviación típica residual= 0,0956

a) Según los resultados obtenidos, ¿parece razonable la hipótesis del gerente de


sistemas?. ¿Cómo se interpreta el coeficiente b=0,317?
b) Utilizando otro método, el gestor obtuvo la recta T=0,8+0,2N, con una
desviación típica residual de 1,3. Según el criterio de los mínimos cuadrados,
¿cuál de las dos rectas utilizaría para el estudio?. ¿Por qué?
c) Si se tiene información de que en un momento concreto se van a conectar
simultáneamente 20 usuarios, ¿cuál será aproximadamente el tiempo de
respuesta del sistema?. ¿Con qué fiabilidad?

Solución:

a) Sí puesto que hay una relación lineal fuerte y directa entre el número de
usuarios y el tiempo de respuesta de una computadora (rxy = 0,978). La
interpretación de b sería la siguiente: cuando aumentamos el número de
usuarios simultáneos en 1, el tiempo de respuesta de la computadora
aumenta en 0,317 segundos.
b) El método de errores mínimos cuadrados trata de minimizar los errores. Por
lo tanto, tomaremos la recta cuya desviación típica residual sea menor, es
decir, la del enunciado.
c) El tiempo de respuesta será aproximadamente de 6,309 segundos con una
fiabilidad de 95,64%.

21. En silvicultura, el diámetro,en cm., de un árbol a la altura del pecho (D)


sirve para predecir la altura del árbol, en m. (A). Los silvicultores que
trabajan en el bosque de la Columbia Británica realizaron unos ensayos con
objeto de predecir las alturas de varias especies. Los resultados fueron los
siguientes:

10 10 10 10 10 10

 Di ni  171
i 1
 Aj n j  183
ij 1

i 1
 Di Aj nij  3184
ij 1
 D 2i ni  3041
i 1
A
j 1
j
2
n j  3381
Regression Analysis - Linear model: Y = a + b*X
-----------------------------------------------------------------------------
Dependent variable: altura
Independent variable: diametro
-----------------------------------------------------------------------------
Standard T
Parameter Estimate Error Statistic P-Value
-----------------------------------------------------------------------------
Intercept 10,2985 1,45435 7,08119 0,0001
Slope 0,467921 0,0833991 5,61063 0,0005
-----------------------------------------------------------------------------
Correlation Coefficient = 0,892951
R-squared = 79,7361 percent
Standard Error of Est. = 0,901714

a) ¿Existe una relación lineal entre las variables?. ¿De qué tipo?.
b) Estimar la altura de un árbol que corresponde a un diámetro de 15 cm.. ¿Es
fiable esta predicción?
c) ¿Cómo interpretaría la pendiente del modelo de regresión lineal?
d) ¿Corresponde el siguiente diagrama de dispersión con los datos del
problema?. Razónelo.
Solución:
a) Existe una relación lineal positiva y fuerte ya que el coeficiente de
correlación lineal es cercano a 1 (0,8929).
b) Como el modelo de regresión es A  10,2985  0,467921  d para d=15cm
ˆ

Aˆ  17,3173m .
Sí es fiable ya que R2=79,73% es decir, que con el modelo de regresión puedo
explicar el 79,73% de la variable altura.
c) Cuando aumento un cm de diámetro del árbol, la altura del árbol aumenta
en 0,467921 metros.
d) No se corresponde ya que el gráfico muestra una relación lineal negativa
entre las variables y en nuestro caso las variables tienen una relación lineal
positiva (covarianza positiva).

22. Relaciona los siguientes coeficientes de correlación con los mapas de


dispersión adjuntos:

[1] r= -0,84 POBLACIÓN C


[2] r = 0,23 POBLACIÓN A
[3] r=1 POBLACIÓN D
[4] r= 0,79 POBLACIÓN B

POBLACIÓN A POBLACIÓN B
Diagrama de dispersión Diagrama de dispersión
26 180

23 150
120
20
90
17
60
14 30
11 0
0 4 8 12 16 1700 2200 2700 3200 3700 4200 4700
(X 1000)

POBLACIÓN C POBLACIÓN D

Diagrama de dispersión Diagrama de dispersión


26
55
23
45
20
35
17
25 14

15 11
1700 2200 2700 3200 3700 4200 4700 11 14 17 20 23 26

También podría gustarte