Proyecto Final

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 17

Probabilidad y Estadística

para la Ciencia de Datos


PROYECTO FINAL

MIEMBROS DEL EQUIPO


Alan Mauricio Hernández Gómez
Jesús Armando Mendoza Valdez
Arturo Treviño Guajardo
Ricardo Tamez Gutiérrez
Eliud David Martínez Gutiérrez
Profesor Saúl Osvaldo Álvarez Ruiz
Aquí tenemos la base de datos que realizamos utilizando Excel. En ella recopilamos
información clave, como la Tasa de defectos, el Tiempo de respuesta y el Año. Esta
base de datos es nuestra base para los análisis que mostraremos a continuación.
En estas gráficas analizamos tres variables clave: la Tasa de defectos, el Tiempo de
respuesta y el Año.
En la primera gráfica, que muestra la Tasa de defectos, podemos ver que al inicio
los valores son altos, pero rápidamente disminuyen y se estabilizan en niveles
bajos. Esto nos indica que la calidad mejoró considerablemente con el tiempo.

La segunda gráfica, sobre el Tiempo de respuesta, refleja una tendencia similar. Al


principio, los tiempos eran elevados, pero con el tiempo se reducen y se estabilizan.
Esto sugiere que los procesos se volvieron más eficientes.

Por último, la gráfica del Año muestra un comportamiento diferente: hay


fluctuaciones constantes, probablemente debido a eventos o ciclos específicos en
los datos.

En estas gráficas analizamos tres variables clave: la Tasa de defectos, el Tiempo de


respuesta y el Año.

En la primera gráfica, que muestra la Tasa de defectos, podemos ver que al inicio
los valores son altos, pero rápidamente disminuyen y se estabilizan en niveles
bajos. Esto nos indica que la calidad mejoró considerablemente con el tiempo.

La segunda gráfica, sobre el Tiempo de respuesta, refleja una tendencia similar. Al


principio, los tiempos eran elevados, pero con el tiempo se reducen y se estabilizan.
Esto sugiere que los procesos se volvieron más eficientes.

Por último, la gráfica del Año muestra un comportamiento diferente: hay


fluctuaciones constantes, probablemente debido a eventos o ciclos específicos en
los datos.
Estimación y cálculo de intervalos de
confianza.
En esta parte de nuestra exposición, presentamos el análisis que realizamos
utilizando un conjunto de datos numéricos extraídos previamente. En este caso,
usamos R para calcular el intervalo de confianza al 95% de la desviación estándar,
lo que nos permite medir la dispersión de los datos con un alto nivel de certeza.
Primero, definimos el tamaño de la muestra y calculamos la varianza muestral, que
es esencial para determinar la variabilidad de los datos. Luego, aplicamos la
distribución chi-cuadrado para obtener los límites superior e inferior del intervalo de
confianza para la varianza. Finalmente, calculamos el intervalo de confianza para la
desviación estándar, cuyos resultados indican que los valores se encuentran entre
1.201472 y 1.589646.

Inferencia sobre medias y


pruebas de hipótesis.

Analizamos si el promedio de una variable ha cambiado significativamente entre dos


períodos de 5 años. Para ello, utilizamos R Studio y realizamos una prueba de
hipótesis. Tomamos los datos de dos grupos: uno de 2015 a 2017 y otro de 2018 a
2020. Nuestra hipótesis nula decía que no había diferencia en los promedios, y la
alternativa sugería que sí había un cambio. Usamos una prueba t de Student para
comparar los promedios de ambos grupos y un nivel de significancia del 5%. Al
obtener el valor p, si es menor a 0.05, rechazamos la hipótesis nula. En este caso,
el valor p fue menor a 0.05, lo que nos permitió concluir que sí hubo un cambio
significativo en el promedio de la variable entre los dos períodos.
Análisis de desviaciones
estándar y pruebas relacionadas.

Analizamos si la tasa de defectos (%) varía según el número de sectores en los que
operan las empresas. En R, usamos aov para comparar la tasa de defectos entre
grupos definidos por la columna Numero_de_tipos, que cuenta los sectores. Con
summary(anova_model), verificamos si las diferencias son significativas, y los
gráficos de diagnóstico (plot) confirman que se cumplen los supuestos del análisis.
Análisis de varianza
para calcular el coeficiente de correlación, que mide la relación entre
dos variables. En este caso, analizamos la Tasa de defectos (%) y el
Tiempo de respuesta (horas). Usamos la función cor() para obtener el
resultado, que fue 0.984. Esto indica una relación positiva muy fuerte: a
mayor tiempo de respuesta, mayor es la tasa de defectos.

El coeficiente de correlación entre la Tasa de defectos (%) y el


Tiempo de respuesta (horas) es aproximadamente 0.984.

Correlación y regresión lineal.


En este análisis de regresión lineal, exploramos cómo el Tiempo derespuesta, en horas,
influye en la Tasa de defectos.
La ecuación que describe esta relación es:
Tasa de defectos = 0.4258 + 0.0763 × Tiempo de respuesta.
Esto significa que, en promedio, por cada hora adicional de tiempo de respuesta, la tasa de
defectos aumenta en un 7.63%.
Además, el R-cuadrado, que es de 0.968, indica que el 96.8% de la variabilidad en la Tasa
de defectos puede explicarse por el Tiempo de respuesta. Esto sugiere que el modelo es
muy preciso para describir esta relación.
Por último, el análisis muestra una relación estadísticamente significativa, ya que el valor p
es menor a 0.001. Esto confirma que el Tiempo de respuesta tiene un impacto real y no es
un resultado del azar.
Análisis de series de tiempo.

En este análisis identificamos tendencias en los datos temporales usando dos enfoques:
lineal y no lineal.
Primero, ajustamos un modelo lineal, que muestra una relación directa entre el tiempo y la
variable. Luego, usamos un modelo no lineal polinómico, para capturar patrones más
complejos como curvas.
Finalmente, proyectamos valores futuros con el modelo no lineal, Esto nos permite entender
cómo la variable podría comportarse en el futuro y si los cambios son constantes o más
complejos.

También podría gustarte