Estadistica Tarea9 JGranoble
Estadistica Tarea9 JGranoble
Estadistica Tarea9 JGranoble
Actividades
Práctica: Ejercicios y problemas
Descripción de la actividad
Resolver los ejercicios mostrados a continuación, utilizando los conceptos teóricos revisados en
la unidad 3
Bibliografía: Información bibliográfica que fue requerida para la resolución de esta tarea
siguiendo las normas APA
Nombre del fichero: “primerApellido_primerNombre_siglasAsignatura_U#_T2”,
ejemplo: Lopez_Juan_CBCEESTAJUS_U3_T2 Formato de archivo a subir: PDF.
Rúbrica:
Criterios Nivel Bajo Nivel Medio Nivel Alto Sub-Puntajes
(0.25) (0.50) (0.75)
Orden y No se presenta la resolución Es poco organizada La resolución
Presentación del ejercicio en forma la presentación de la del ejercicio se
organizada resolución ejercicio presenta de
forma
organizada
Organización del No se presenta el código Es poco organizado El código es
código. ordenado y de forma el código y no organizado y es
secuencial siempre de forma secuencial.
secuencial
Compilación correcta La compilación no ocurre La compilación La compilación
debido a errores del código del código no
significativos presenta algunos presenta errores
errores
Terminología y La terminología y símbolos Se utilizan Se utiliza
símbolos usados corresponden a los terminología y terminología y
revisados en la sección símbolos que símbolos
dificultan la adecuados y
comprensión cuando se
introduce
simbología
nueva se
identifica
claramente su
significado
Totales
Universidad Politécnica Salesiana
2
ESTAD´ISTICA
UNIDAD 3: TAREA 2
Para resolver los ejercicios de esta tarea se recomienda crear un proyecto llamado
U3EST T2
1. Los datos que se muestran en el archivo reg1.csv son rendimiento de kilometraje de gasolina (en
millas por galón) y desplazamiento del motor (en centímetros cúbicos) para una muestra de 20
automóviles.
a) Cree una variable EngineDispIn3 que contenga el desplazamiento del motor en pulgadas
cúbicas. Una pulgada cubica es equivalente a 16.3871 centímetros cúbicos. Redondee al
entero más cercano.
- datos <- datos %>%
- mutate(EngineDispIn3 = round(EngineDisp/16.3871,0))
d) Ajuste un modelo lineal simple que relacione millas de carretera por galón (y) al
desplazamiento del motor (x) utilizando mínimos cuadrados.
- model <- lm(MPG~EngineDispIn3, data = datos)
- summary(model)
- y <- datos$MPG[des]
- y_1 <- predict(model,data.frame('EngineDispIn3' = c(114)))
summary(model)
2. En el archivo reg2.csv presenta datos sobre el precio de venta y los impuestos anuales para 24
casas.
b) Encuentre el precio de venta medio dado que los impuestos pagados son x = 7,50.
predict(model2,data.frame(Tax_miles = 7.5))
c) Calcule el valor ajustado de y correspondiente a x = 5,8980. Encuentre el residuo
correspondiente.
- index <- which(d2$Tax_miles == 5.8980)
- y <- d2$Precio_miles[index]
- y_h2 <- predict(model2,data.frame(Tax_miles = 5.8980))
d) Calcule el ˆy ajustado para cada valor de xi usado para ajustar el modelo. Luego construya
una gráfica de ˆy versus el correspondiente valor observado yi.
- y_hats2 <- predict(model2,data.frame(Tax_miles = d2$Tax_miles))
- plot(d2$Precio_miles,y_hats2)
- qqnorm(model2_standares,
xlab = 'Residuos Estandarizados',
ylab = 'Distribucion normal')
- qqline(model2_standares)
Los datos se distribuyen como una normal dado que los residuos estandarizados se
están muy cercanos a la línea diagonal que representa a la distribución normal.
5
g) Grafique los residuos contra ˆy y contra x. ¿Parece que se cumple el supuesto de varianza
constante?
- par(mfrow = c(1,2))
- plot(y_hats2,residuos2,
xlab = 'Valores ajustados',
ylab = 'Residuos')
- plot(d22$Tax_miles,residuos2,
xlab = 'X',
ylab = 'Residuos')
- par(mfrow = c(1,1))
Dado que los puntos del grafico se encuentran muy dispersos es difícil concluir en que la
varianza se comporta como una constante.
summary(model2)
3. Se cree que la cantidad de libras de vapor utilizadas por mes por una planta química está
relacionada con la temperatura ambiente promedio (en grados Fahrenheit) para ese mes. El uso
y la temperatura del año pasado se muestran en el archivo reg3.csv.
- y <- df3$Libras_Miles[index]
e) Calcule el ˆy ajustado para cada valor de xi usado para ajustar el modelo. Luego construya una
gráfica de ˆy versus el correspondiente valor observado yi.
- plot(df3$Libras_Miles,y_hats3)
g) Elabore una gráfica de probabilidad normal de los residuales e interprete esta presentación.
- model3_stdres <- rstandard(model3)
- qqnorm(model3_stdres,
xlab = 'Residuos Estandarizados',
ylab = 'Distribucion normal')
- qqline(model3_stdres)
Una parte significativa de los residuos no se encuentran sobre la diagonal, lo que nos indica
que no hay normalidad en los residuos.
7
h) Grafique los residuos contra ˆy y contra x. ¿Parece que se cumple el supuesto de varianza
constante?
- par(mfrow = c(1,2))
- plot(y_hats3,residuos3,
xlab = 'Valores ajustados',
ylab = 'Residuos')
- plot(df3$Temp,residuos3,
xlab = 'X',
ylab = 'Residuos')
- par(mfrow = c(1,1))
De acuerdo a la gráfica realizada podemos observar que los puntos rondan un valor
constante como se muestra el comportamiento de diferentes por lo que se puede decir que se
cumple el supuesto de varianza constante.
summary(model3)
e) Adicione en su modelo de regresio´n del literal anterior el sector productivo al que pertenece
la empresa. Interprete sus resultados.
- summary(model4_3)
Las variables que son significativas para el modelo son Ventas, como las siguientes categorías
de la variable sector productivo que son las categorías construcción e inmobiliaria el modelo
explica el 49.27% de la variabilidad.
5. Con el conjunto de datos tourism.csv realice los siguientes ejercicios. Para los ejercicios, c y d
investigue sobre la regresio´n lineal múltiple. Adicionalmente investigue sobre los supuestos de
los modelos de regresio´n y como verificarlos en R.
a) Le gustaría saber si la edad de los huéspedes influye en la cantidad gastada por día (conjunto
de datos turismo.xlsx). Ejecute una regresio´n lineal con la edad como independiente y los
gastos como variable dependiente. Verifique el cumplimiento de los supuestos.
model5 <- lm(expenses~age,data = df5)
Supuesto de independencia
- plot(model5$residuals)
9
Supuesto de Normalidad
Test de normalidad
- shapiro.test(model5$residuals)
Test de multicolinealidad
El modelo es invariado
Supuesto de no relación entes las variables explicativas y el error
- plot(model5$residuals,df5$age)
b) Suponga que usted no está realmente satisfecho con su resultado, pensando que una variable
independiente puede no ser suficiente para explicar el gasto diario. Al entrar en detalles se
piensa que además de la edad, la satisfacción con la estación de esquí y la duración de la
estancia también pueden influir en el gasto diario. Ejecute el nuevo modelo de regresio´n y
verifique los supuestos.
model5_b <- lm(expenses~age+satisfaction+stay,data = df5)
Supuesto de independencia
- plot(model5_b$residuals)
Supuesto de normalidad
- shapiro.test(model5_b$residuals)
Test de multicolinealidad
- vif(model5_b)
Supuesto de independencia
- plot(model5_c$residuals)
Supuesto de Normalidad
- shapiro.test(model5_c$residuals)
Supuesto de Homocedasticidad
- bptest(model5_c)
Test de multicolinealidad
- vif(model5_c)
d) Finalmente añada la variable sexo. Ejecute el nuevo modelo de regresio´n y verifique los
supuestos.
model5_d <- lm(expenses~age+satisfaction+stay+accommodation+sex,data = df5)
Supuesto de independencia
- plot(model5_d$residuals)
Supuesto de Normalidad
- shapiro.test(model5_d$residuals)
Supuesto de Homocedasticidad
- bptest(model5_d)
11
Test de multicolinealidad
- vif(model5_d)