Estadistica Tarea9 JGranoble

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 13

Estadística

Actividades
Práctica: Ejercicios y problemas

Descripción de la actividad
Resolver los ejercicios mostrados a continuación, utilizando los conceptos teóricos revisados en
la unidad 3
Bibliografía: Información bibliográfica que fue requerida para la resolución de esta tarea
siguiendo las normas APA
Nombre del fichero: “primerApellido_primerNombre_siglasAsignatura_U#_T2”,
ejemplo: Lopez_Juan_CBCEESTAJUS_U3_T2 Formato de archivo a subir: PDF.

Rúbrica:
Criterios Nivel Bajo Nivel Medio Nivel Alto Sub-Puntajes
(0.25) (0.50) (0.75)
Orden y No se presenta la resolución Es poco organizada La resolución
Presentación del ejercicio en forma la presentación de la del ejercicio se
organizada resolución ejercicio presenta de
forma
organizada
Organización del No se presenta el código Es poco organizado El código es
código. ordenado y de forma el código y no organizado y es
secuencial siempre de forma secuencial.
secuencial
Compilación correcta La compilación no ocurre La compilación La compilación
debido a errores del código del código no
significativos presenta algunos presenta errores
errores
Terminología y La terminología y símbolos Se utilizan Se utiliza
símbolos usados corresponden a los terminología y terminología y
revisados en la sección símbolos que símbolos
dificultan la adecuados y
comprensión cuando se
introduce
simbología
nueva se
identifica
claramente su
significado
Totales
Universidad Politécnica Salesiana
2

ESTAD´ISTICA
UNIDAD 3: TAREA 2

Para resolver los ejercicios de esta tarea se recomienda crear un proyecto llamado
U3EST T2

1. Los datos que se muestran en el archivo reg1.csv son rendimiento de kilometraje de gasolina (en
millas por galón) y desplazamiento del motor (en centímetros cúbicos) para una muestra de 20
automóviles.

datos <- read.csv('reg1.csv', sep = ';',dec = ',')

a) Cree una variable EngineDispIn3 que contenga el desplazamiento del motor en pulgadas
cúbicas. Una pulgada cubica es equivalente a 16.3871 centímetros cúbicos. Redondee al
entero más cercano.
- datos <- datos %>%
- mutate(EngineDispIn3 = round(EngineDisp/16.3871,0))

b) Construya el diagrama de dispersión para las dos variables mpg y EngineDispIn3


- Boxplot mpg
- boxplot(datos$MPG

- Box plot EngineDispIn3


- boxplot(datos$EngineDispIn3)

c) Calcule el coeficiente de correlación entre las dos variables mpg y EngineDispIn3


- cor(datos$MPG,df$EngineDispIn3)

d) Ajuste un modelo lineal simple que relacione millas de carretera por galón (y) al
desplazamiento del motor (x) utilizando mínimos cuadrados.
- model <- lm(MPG~EngineDispIn3, data = datos)
- summary(model)

e) Encuentre una estimación del rendimiento medio de kilometraje de gasolina en carretera


para un automóvil con un desplazamiento del motor de 150 pulgadas cúbicas.
3
- predict(model,data.frame('EngineDispIn3' = c(150)))

f) Obtenga el valor ajustado de Y y el residuo correspondiente para un automóvil, el Ford


Escort, con un desplazamiento del motor de 114 pulgadas cúbicas.
- des <- which(datos$EngineDispIn3 == 114)

- y <- datos$MPG[des]
- y_1 <- predict(model,data.frame('EngineDispIn3' = c(114)))

- cat(' Valor Verdadero : ',y,'\n',


- 'Valor Ajustado : ',y_1,'\n',
- 'Residuo : ',y-y_1)

g) ¿cómo interpreta el coeficiente de determinación de este modelo?

summary(model)

Entonces, la variable EngineDispIn3 explica el modelo en un 20.11% a la variable


dependiente.

2. En el archivo reg2.csv presenta datos sobre el precio de venta y los impuestos anuales para 24
casas.

d2 <- read.csv('reg2.csv',sep = ';', dec = ',')

a) Suponiendo que un modelo de regresión lineal simple es apropiado, obtener el ajuste de


mínimos cuadrados relacionando el precio de venta con impuestos pagados.
- model2 <- lm(Precio_miles~Tax_miles,data = d2)

b) Encuentre el precio de venta medio dado que los impuestos pagados son x = 7,50.
predict(model2,data.frame(Tax_miles = 7.5))
c) Calcule el valor ajustado de y correspondiente a x = 5,8980. Encuentre el residuo
correspondiente.
- index <- which(d2$Tax_miles == 5.8980)
- y <- d2$Precio_miles[index]
- y_h2 <- predict(model2,data.frame(Tax_miles = 5.8980))

- cat(' Valor Verdadero : ',y,'\n',


- 'Valor Ajustado : ',y_h2,'\n',
- 'Residuo : ',y-y_h2)

d) Calcule el ˆy ajustado para cada valor de xi usado para ajustar el modelo. Luego construya
una gráfica de ˆy versus el correspondiente valor observado yi.
- y_hats2 <- predict(model2,data.frame(Tax_miles = d2$Tax_miles))

- plot(d2$Precio_miles,y_hats2)

e) Encuentre los residuos para el modelo de mínimos cuadrados.


- residuos2 <- d2$Precio_miles - y_hats2

f) Elabore una gráfica de probabilidad normal de los residuales e interprete esta


presentación.
- model2_standares <- rstandard(model2)

- qqnorm(model2_standares,
xlab = 'Residuos Estandarizados',
ylab = 'Distribucion normal')
- qqline(model2_standares)

Los datos se distribuyen como una normal dado que los residuos estandarizados se
están muy cercanos a la línea diagonal que representa a la distribución normal.

5
g) Grafique los residuos contra ˆy y contra x. ¿Parece que se cumple el supuesto de varianza
constante?
- par(mfrow = c(1,2))
- plot(y_hats2,residuos2,
xlab = 'Valores ajustados',
ylab = 'Residuos')
- plot(d22$Tax_miles,residuos2,
xlab = 'X',
ylab = 'Residuos')
- par(mfrow = c(1,1))

Dado que los puntos del grafico se encuentran muy dispersos es difícil concluir en que la
varianza se comporta como una constante.

h) ¿Qué proporción de la variabilidad total se explica por el modelo de regresión?

summary(model2)

El modelo explica el 76.73% de la variabilidad total.

3. Se cree que la cantidad de libras de vapor utilizadas por mes por una planta química está
relacionada con la temperatura ambiente promedio (en grados Fahrenheit) para ese mes. El uso
y la temperatura del año pasado se muestran en el archivo reg3.csv.

df3 <- read.csv('reg3.csv', sep = ';', dec = ',')

a) Suponiendo que un modelo de regresión lineal simple es apropiado, ajustar el modelo de


regresión que relaciona el uso de vapor (y) con la temperatura media (x).
- model3 <- lm(Libras_Miles~Temp,data = df3)

b) ¿Cuál es la estimación del uso de vapor esperado cuando la temperatura promedio es de 55


◦ F?

- predict(model3, data.frame(Temp = 55))


c) ¿Qué cambio en el uso medio de vapor se espera cuando la temperatura promedio mensual
cambia en 1 ◦ F?
- model3$coefficients['Temp']

d) Suponga que la temperatura promedio mensual es 47 ◦ F. Calcule el valor ajustado de y y el


residuo correspondiente.
- index <- which(df3$Temp == 47)

- y <- df3$Libras_Miles[index]

- y_hat <- predict(model3,data.frame(Temp = 47))

- cat(' Valor Verdadero : ',y,'\n',


'Valor Ajustado : ',y_hat,'\n',
'Residuo : ',y-y_hat)

e) Calcule el ˆy ajustado para cada valor de xi usado para ajustar el modelo. Luego construya una
gráfica de ˆy versus el correspondiente valor observado yi.

- y_hats3 <- predict(model3,data.frame(Temp = df3$Temp))

- plot(df3$Libras_Miles,y_hats3)

f) Encuentre los residuos para el modelo de mínimos cuadrados.


- residuos3 <- df3$Libras_Miles - y_hats3

g) Elabore una gráfica de probabilidad normal de los residuales e interprete esta presentación.
- model3_stdres <- rstandard(model3)

- qqnorm(model3_stdres,
xlab = 'Residuos Estandarizados',
ylab = 'Distribucion normal')
- qqline(model3_stdres)

Una parte significativa de los residuos no se encuentran sobre la diagonal, lo que nos indica
que no hay normalidad en los residuos.
7
h) Grafique los residuos contra ˆy y contra x. ¿Parece que se cumple el supuesto de varianza
constante?
- par(mfrow = c(1,2))
- plot(y_hats3,residuos3,
xlab = 'Valores ajustados',
ylab = 'Residuos')
- plot(df3$Temp,residuos3,
xlab = 'X',
ylab = 'Residuos')
- par(mfrow = c(1,1))

De acuerdo a la gráfica realizada podemos observar que los puntos rondan un valor
constante como se muestra el comportamiento de diferentes por lo que se puede decir que se
cumple el supuesto de varianza constante.

i) ¿Qué proporción de la variabilidad total se explica por el modelo de regresión?

summary(model3)

El modelo explica el 99.99% de la variabilidad.

4. A partir del archivo “todas2018.csvc¸onstruya el ranking de las 1000 mejores empresas de


acuerdo a las utilidades.

df4 <- read.csv('todas2018.csv', encoding = 'utf8')

a) Realice un diagrama de dispersión del número de empleados contra la utilidad.


- plot(df4$EMPLEADOS,df4$UTILIDAD)

b) Determine la correlación entre el número de empleados y la utilidad


- cor(df4$EMPLEADOS,df4$UTILIDAD)
c) Establezca un modelo de regresión lineal simple donde la variable dependiente sea la
utilidad y la independiente sea el número de empleados. Interprete sus resultados.
- model4_1 <- lm(UTILIDAD~EMPLEADOS,data = df4)
- summary(model4_1)
Se observa que la variable independiente es significativa, tiene un p-valor menor al 5%. Se
observa que el modelo explica el 0.851% de la variabilidad; por otro lado, se puede decir que
si la empresa contrata un empleado más la utilidad aumentara en 202.01 unidades
monetarias.

d) Incluya en su modelo de regresión las ventas. Interprete sus resultados


- model4_2 <- lm(UTILIDAD~EMPLEADOS+VENTAS,data = df4)
- summary(model4_2)
Se puede observar que al ingresar la variable ventas, la variable empleados deja de ser
significativa, mientras que la variable ventas sí lo es. Por otro lado, si observamos el
estadístico F, podemos decir que el modelo es significativo de manera global.

e) Adicione en su modelo de regresio´n del literal anterior el sector productivo al que pertenece
la empresa. Interprete sus resultados.

- model4_3 <- lm(UTILIDAD~EMPLEADOS+VENTAS+factor(SECTOR_PROD),data =


df4)

- summary(model4_3)

Las variables que son significativas para el modelo son Ventas, como las siguientes categorías
de la variable sector productivo que son las categorías construcción e inmobiliaria el modelo
explica el 49.27% de la variabilidad.

5. Con el conjunto de datos tourism.csv realice los siguientes ejercicios. Para los ejercicios, c y d
investigue sobre la regresio´n lineal múltiple. Adicionalmente investigue sobre los supuestos de
los modelos de regresio´n y como verificarlos en R.

df5 <-read.csv('tourism.csv', sep = ';')

a) Le gustaría saber si la edad de los huéspedes influye en la cantidad gastada por día (conjunto
de datos turismo.xlsx). Ejecute una regresio´n lineal con la edad como independiente y los
gastos como variable dependiente. Verifique el cumplimiento de los supuestos.
model5 <- lm(expenses~age,data = df5)

Supuesto de independencia
- plot(model5$residuals)
9
Supuesto de Normalidad
Test de normalidad
- shapiro.test(model5$residuals)

Supuesto de Homocedasticidad o vairanza cosntante


Test de homocedaticidad
- bptest(model5)

Test de multicolinealidad
El modelo es invariado
Supuesto de no relación entes las variables explicativas y el error
- plot(model5$residuals,df5$age)

No se muestra ningún patrón conocido se asume que se cumple este supuesto

b) Suponga que usted no está realmente satisfecho con su resultado, pensando que una variable
independiente puede no ser suficiente para explicar el gasto diario. Al entrar en detalles se
piensa que además de la edad, la satisfacción con la estación de esquí y la duración de la
estancia también pueden influir en el gasto diario. Ejecute el nuevo modelo de regresio´n y
verifique los supuestos.
model5_b <- lm(expenses~age+satisfaction+stay,data = df5)

Supuesto de independencia
- plot(model5_b$residuals)

Supuesto de normalidad
- shapiro.test(model5_b$residuals)

Supuesto de varianza constante


- bptest(model5_b)

Test de multicolinealidad
- vif(model5_b)

Supuesto de no relacion entes las variables exlicativa y el error


- plot(model5_b$residuals,df5$age)
c) Al modelo del ejercicio anterior añada la variable acomodación. Ejecute el modelo de
regresio´n y verifique los supuestos.
model5_c <- lm(expenses~age+satisfaction+stay+accommodation,data = df5)

Supuesto de independencia
- plot(model5_c$residuals)

Supuesto de Normalidad
- shapiro.test(model5_c$residuals)

Supuesto de Homocedasticidad
- bptest(model5_c)

Test de multicolinealidad
- vif(model5_c)

Supuesto de no relacion entes las variables explicativas y el error


- plot(model5_c$residuals,df5$age)

d) Finalmente añada la variable sexo. Ejecute el nuevo modelo de regresio´n y verifique los
supuestos.
model5_d <- lm(expenses~age+satisfaction+stay+accommodation+sex,data = df5)

Supuesto de independencia
- plot(model5_d$residuals)

Supuesto de Normalidad
- shapiro.test(model5_d$residuals)

Supuesto de Homocedasticidad
- bptest(model5_d)

11
Test de multicolinealidad
- vif(model5_d)

Los supuestos de no relación entes las variables explicativas y el error


- plot(model5_d$residuals,
13

También podría gustarte