EF 19 Ene PDF

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 5

Estadı́stica II

Examen final enero 23/1/19


Curso 2018/19 – Soluciones
Duración del examen: 2 h y 15 min

1. (3,5 puntos) En la fabricación de un producto se hacen controles diarios para garantizar su calidad.
El sistema de control consiste en seleccionar una muestra aleatoria de la producción diaria, y estudiar
el porcentaje de piezas cuyo nivel de defectos supera un cierto umbral.

a) (1 punto) Se ha analizado una muestra de 50 piezas correspondientes a la producción del


último dı́a, siendo el resultado del análisis que 7 piezas superaban el valor umbral de defectos.
Construya un intervalo de confianza al 95 % para el porcentaje de piezas defectuosas en la
producción de ese dı́a.
b) (1 punto) La empresa ha decidido que descartará la producción de un dı́a determinado si el
porcentaje de piezas defectuosas ese dı́a supera el 8 %. Utilizando los datos de la muestra del
apartado anterior, realice el contraste oportuno (usando α = 0,05) para saber si la empresa
debe descartar la producción de ese dı́a.
c) (1 punto) Para el contraste descrito en el apartado 1b, si el porcentaje real de defectos en la
producció de ese dı́a fuese del 15 %, ¿cuál serı́a la potencia del contraste?
d ) (0,5 puntos) Discuta, justificando la respuesta, la veracidad de las siguientes afirmaciones:
1) En un contraste bilateral cuyo resultado fuese aceptar H0 , podrı́amos estar cometiendo
un error de tipo I.
2) Cuanto mayor es el nivel de confianza 1 − α, mayor es la probabilidad de un error de tipo
II, β.
3) Si en un contraste bilateral para la proporción obtenemos un estadı́stico de contraste
z = 1,82 y no rechazamos H0 , siempre se cumple que P (Z > 1,82) > α, donde Z ∼ N (0, 1).

Solución:

a) Teniendo en cuenta que p̂ = 7/50 = 0,14, el intervalo de confianza pedido es:


󰁳 󰁳
IC(p) = p̂ ± z0,025 p̂(1 − p̂)/n = 0,14 ± 1,96 0,14(1 − 0,14)/50 = [0,0438; 0,2361].

b) El contraste a realizar es: 󰀫


H0 : p ≤ p0 = 0,08
H1 : p > p0
El estadı́stico de contraste (bajo H0 ) y su distribución aproximada son:

P̂ − p0
Z=󰁳 ∼ N (0, 1)
p0 (1 − p0 )/n

Para los datos del enunciado, este estadı́stico toma el valor:

p̂ − p0 7/50 − 0,08
z=󰁳 =󰁳 = 1,564
p0 (1 − p0 )/n 0,08(1 − 0,08)/50

Como la región de rechazo es RRα = {Z > zα } y zα = z0,05 = 1,645, no rechazamos la hipótesis


nula. Esto implica que para la muestra empleada y el nivel de significación establecido, no
tenemos suficiente evidencia estadı́stica para descartar la producción del dı́a.

1
c) Para obtener la potencia de este contraste para el caso en que p = p1 = 0,15 debemos calcular
(de manera aproximada)
󰀣 󰀤
P̂ − p0
potencia(0,15) = P (rechazar H0 | p = 0,15) = P 󰁳 > 1,645 | p = 0,15
p0 (1 − p0 )/n
󰀣 󰁶 󰀤
P̂ − p p0 − p p0 (1 − p0 )
= P 󰁳 −󰁳 > 1,645 | p = 0,15
p(1 − p)/n p(1 − p)/n p(1 − p)
󰀣 󰁶 󰀤
0,08(1 − 0,08) 0,08 − 0,15
= P Z > 1,645 +󰁳
0,15(1 − 0,15) 0,15(1 − 0,15)/50
= P (Z > −0,1364) = 0,554,

donde hemos hecho uso de la propiedad de que si p = p1 (aproximadamente)

P̂ − p1
󰁳 ∼ N (0, 1).
p1 (1 − p1 )/n

d ) Las respuestas son:


1) Falso: El error de tipo I solo se puede cometer al rechazar H0 , por lo que para el caso
propuesto al indicarnos que se acepta H0 no serı́a posible cometer un error de tipo I.
2) Verdadero: Cuanto mayor es el nivel de confianza 1 − α, menor es el nivel de significación
α. También se tiene que la probabilidad de un error de tipo II, β, es mayor cuanto menor
es la de un error de tipo I, α. Por tanto, cuanto mayor es 1 − α, menor es α y mayor es β.
3) Falso: Al no haber rechazado H0 , sabemos que el nivel de significación α es menor que
el p-valor, igual a 2P (Z > 1,82). Pero con esta información no podemos asegurar que
P (Z > 1,82) (la mitad del p-valor) vaya a ser siempre mayor que α.

2. (2 puntos) Para estudiar el impacto de una campaña de concienciación medioambiental, se recogió


una muestra de 20 mediciones de concentraciones de contaminantes antes del inicio de la campaña,
con una media muestral de 3,10 y cuasidesviación tı́pica de 0,415. Otra muestra de 20 mediciones
de esta concentración se ha recogido dos meses después de llevar a cabo la campaña, con media 2,90
y cuasidesviación tı́pica 0,521.

a) (1,5 puntos) Suponemos que las muestras son independientes. Supondremos también que las
mediciones siguen una distribución normal y las varianzas de las dos poblaciones son iguales.
Se quiere contrastar si la concentración de contaminantes se ha reducido significativamente,
para un nivel de significación del 5 %. Lleve a cabo dicho contraste unilateral comparando las
medias de las dos poblaciones. Justifique los pasos del procedimiento aplicado y comente su
conclusión.
b) (0,5 puntos) Suponemos ahora que estas dos muestras corresponden a mediciones emparejadas
antes y después de la campaña. Se quiere contrastar de nuevo si se ha producido una reducción
significativa en la concentración de contaminantes, para un nivel de significación del 1 %.
Indique su conclusión para este contraste basándose en los resultados de Excel que se muestran
a continuación.

2
Solución:

a) Deseamos llevar a cabo el siguiente contraste:


󰀫
H0 : µ a ≤ µ d
H1 : µ a > µ d

donde µa y µd denotan la concentración promedio de contaminantes correspondiente a las


medidas “antes” y “después”, respectivamente.
Para las hipótesis indicadas, el estadı́stico a emplear y su distribución son

X̂a − X̂d − (µa − µd )


T = 󰁳 ∼ tna +nd −2 ,
sP 1/na + 1/nd

donde
(na − 1)s2a + (nd − 1)s2d 19 × 0,4152 + 19 × 0,5212
s2P = = = 0,2218 ⇒ sP = 0,4710
na + nd − 2 38

La región de rechazo vendrá dada por RRα = {T > t38;0,05 = 1,686}. Y el valor del estadı́stico
para las muestras recogidas es
3,1 − 2,9 − 0
t= 󰁳 = 1,3088
0,471 1/19 + 1/19

Este valor no está en la región de rechazo, por lo que no podemos rechazar la hipótesis nula al
nivel de significación indicado. Esto es, no podemos rechazar la posibilidad de que no se haya
producido un descenso en el nivel de contaminación, para un nivel de significación del 5 %.
b) De la salida de Excel tenemos que el p-valor correspondiente a este contraste unilateral es
0,007444. Como este valor es menor que el nivel de significación indicado, 0,01, rechazamos
la hipótesis nula y concluimos que se ha producido una reducción significativa en el nivel de
concentración tras la campaña.

3. (4,5 puntos) Una empresa de investigación de mercados analiza periódicamente datos de consumo
de un producto de primera necesidad. Las variables de interés son el consumo del producto (Y en
kg por mes) y su precio (X1 en euros por kg). Su interés es obtener una ecuación de regresión lineal
(Y en función de X) a fin de determinar si existe una relación lineal significativa entre consumo y
precio. Con este fin, ha recogido 16 observaciones de ambas variables en distintas zonas, obteniéndo
los siguientes resultados:
16
󰁛 16
󰁛 16
󰁛 16
󰁛
xi = 54,51; yi = 34,81; x2i = 187,207; yi2 = 76,040
i=1 i=1 i=1 i=1
16
󰁛 16
󰁛
xi yi = 118,113; e2i = 0,1522.
i=1 i=1

3
a) (1 punto) Obtenga la tabla ANOVA correspondiente a la variable Y .
b) (0,5 puntos) Lleve a cabo un contraste al 5 % de significación para analizar la influencia del
precio del producto en la demanda del mismo.
c) (0,5 puntos) Calcule el coeficiente de determinación e interprételo.
d ) (0,5 puntos) Determine las estimaciones de mı́nimos cuadrados de los parámetros de la recta
de regresión.
e) (1 punto) Estime el consumo para un caso en el que el precio del producto sea de 3,4 eu-
ros/kg. Proporcione, con un nivel de confianza del 95 %, un intervalo de confianza para dicha
predicción.

Se ha incorporado información sobre el nivel de ingresos en cada zona como una variable adicional,
X2 , para mejorar el modelo anterior.
Con los datos adicionales se ha ajustado un modelo de regresión múltiple en Excel, obteniendo la
siguiente salida:

f ) (0,5 puntos) ¿Es significativa la nueva variable X2 a un nivel de significación del 5 %? ¿Y del
1 %? Justifique su respuesta.
g) (0,5 puntos) ¿Es globalmente significativo el modelo de regresión múltiple a un nivel de signi-
ficación del 1 %? Justifique su respuesta.

Solución:
󰁓
a) De los datos en el enunciado tenemos que SCR = i e2i = 0,1522.
También tenemos (obsérvese que este valor también aparece en la tabla ANOVA del modelo
de regresión múltiple):
16
󰁛 16
󰁛
SCT = (yi − ȳ)2 = (16 − 1)s2y = yi2 − 16ȳ 2 = 0,3062.
i=1 i=1

Con estos datos, la tabla ANOVA pedida queda como sigue:


Fuente Suma cuadrados G.L. Promedio cuadrados Razón-F
Modelo 0,1540 1 0,1540 14,163
Residuos 0,1522 14 0,01087
Total 0,3062 15
b) El valor crı́tico para el contraste de significación es F1;14;0,05 = 4,60.
Como se cumple que Razón-F = 14,163 > F1;14;0,05 = 4,60, podemos rechazar la hipótesis nula
de este contraste (no influencia del precio en la demanda) a un nivel de significación del 5 %,
y por tanto concluimos que existe una relación lineal significativa entre el precio y la demanda
de este producto.
c) El coeficiente de determinación viene dado por:

SCM 0,1540
R2 = = = 0,5029
SCT 0,3062

Por tanto, el precio explica un 50 % de la variabilidad en la demanda.

4
d ) Las estimaciones de los parámetros de la recta de regresión se obtienen de las fórmulas de
mı́nimos cuadrados como:
󰁓16
cov(X, Y ) xi yi − 16x̄ȳ
β̂1 = = 󰁓i=1
16 = −0,3206, β̂0 = ȳ − β̂1 x̄ = 3,268.
s2x 2
i=1 xi − 16x̄
2

e) La estimación puntual pedida para x0 = 3,4 será:

ŷ0 = 3,268 − 0,3206 × 3,4 = 2,178.

Para obtener el intervalo de confianza, recordamos que la varianza residual (que también
aparece en la tabla ANOVA) es
󰁓16 2
i=1 ei
s2R = = 0,01087.
16 − 2
Empleamos la fórmula del intervalo de confianza correspondiente a una predicción,
󰁶 󰀕 󰀖
1 (x0 − x̄)2
IC0,05 = ŷ0 ± tn−2;0,025 s2R 1 + +
n (n − 1)s2x
󰁶 󰀕 󰀖
1 (3,4 − 3,407)2
= 2,178 ± 2,145 0,01087 1 + +
16 (16 − 1) × 0,0999
= [1,947; 2,408].

f ) El p-valor del contraste de significación individual de la variable X2 aparece en la salida bajo


la columna “Probabilidad”. Dicho valor es 0,0134, y por tanto la variable es significativa a un
nivel de significación del 5 %, pero no al 1 %.
g) Para llevar a cabo el contraste de significación global podemos utilizar el p-valor indicado en
la tabla ANOVA bajo la columna “Valor crı́tico de F”, en nuestro caso 0,00045. Como este
valor es muy inferior a α = 0,01, concluimos que el modelo es globalmente significativo.

También podría gustarte