Eq Pia Alda
Eq Pia Alda
Eq Pia Alda
PIA
Nombre de la Unidad de Aprendizaje: Almacenes de Datos
Nombre del proyecto: Reporte de la solución de un caso de Big Data
usando el Entorno Hadoop en una organización
Programa educativo: Licenciado en Administración
Semestre: 4to Grupo: DE
Nombre del maestro: Hiram Isaí Pérez Sauceda
Nombre del equipo: Equipo
Nombre de los integrantes del equipo:
Bojorquez Vega Monica Guadalupe 2064105
Guevara Monsiváis Liliana 2049977
Hernandez Sarabia Hector Francisco 1865799
López Cerda Haydee Lisset 2053721
Tamayo Córdova Alisson Yajaira 2064394
Contenido
PORTADA ............................................................................................................................................. 1
INTRODUCCIÓN (EN INGLÉS)............................................................................................................... 3
PIA………………………………….………………………………………………………………………………………………………………4
2
INTRODUCCIÓN (EN INGLÉS)
The need for information and the ability to take advantage of available
technological tools have become crucial aspects in today's world, where efficient data
management can make the difference between success and stagnation. In this context, Python,
with its wide range of libraries and tools for data analysis, has positioned itself as an indispensable
tool for the extraction, processing and visualization of information
This technical report aims to present an applied case that illustrates how Python, in
particular using the data structures provided by the Pandas library, can be used to solve a specific
information need. In particular, we will focus on Google Colaboratory.
We will explore how Python and Pandas can be used to handle complex data sets, perform
exploratory analysis, data cleaning, data manipulation, and generating informative visualizations.
To do this, we will use a practical example involving real or simulated data, and we will
demonstrate step by step how to apply Pandas functionalities to address the identified
information need.
Throughout this report, we will highlight the advantages and challenges of using Python
and Pandas in Google Colaboratory, as well as tips and best practices to optimize the data analysis
process. At the end, conclusions and recommendations will be provided for future case studies
and practical applications.
3
PIA
4
5
6
7
8
9
10
11
12
13
14
15
https://colab.research.google.com/drive/1y-RvNpa-
GNO8K9Mkg6R09MyhdFbVwws4?usp=sharing
16
CONCLUSIONES INDIVIDUALES
Bojorquez Vega Monica Guadalupe 2064105
Esta asignatura, almacenes de datos ha sido fundamental para mí, no solo por la
comprensión teórica de la gestión y organización de grandes volúmenes de información, sino
también por las habilidades prácticas adquiridas. Conforme se usó en el desarrollo de este
producto integrador de aprendizaje, el lenguaje de programación Pandas me ha permitido
manipular y analizar datos de manera eficiente mediante el uso de DataFrames, que son
estructuras de datos bidimensionales proporcionadas por Pandas. Mediante los DataFrame
pudimos tener más estructura en la ejecución de los códigos, facilitándonos la limpieza,
transformación y visualización de datos. Gracias a la asignatura no solo me ha ampliado mis
conocimientos técnicos cruciales, sino que también ha potenciado mi capacidad para tomar
decisiones informadas basadas en datos.
17
especialmente, el uso de la biblioteca pandas para manipular y analizar datos. Con pandas, he
aprendido a limpiar, transformar y visualizar datos de manera eficiente. Estos conocimientos son
muy útiles tanto en la vida cotidiana como en el ámbito laboral. Personalmente, puedo utilizarlos
para organizar y analizar datos personales como mis finanzas o mis hábitos de consumo.
Laboralmente, estas habilidades me permiten tomar decisiones informadas basadas en datos,
mejorar procesos y generar reportes precisos. Esto incrementa la eficiencia y la efectividad en
cualquier entorno de trabajo, haciendo que las organizaciones funcionen de manera más
inteligente y productiva.
Por otro lado quiero mencionar que pandas es una herramienta esencial en el análisis de
datos, además ofrece estructuras de datos flexibles y eficientes, por medio de sus dos
componentes principales: Series y DataFrames. Estás dos permiten manipular y analizar datos que
están representados en tablas de una manera que es tanto intuitiva como potente.
18
creación de nuevas variables derivadas. trabajar con pandas en este proyecto ha resaltado su
robustez y utilidad en la gestión y análisis de datos de tamaño considerable. Me llevo una
apreciación más profunda de cómo pandas puede transformar datos en insights accionables,
facilitando decisiones informadas. Para futuros proyectos, consideraré complementar pandas con
otras herramientas para manejar conjuntos de datos más grandes y explorar técnicas avanzadas
de análisis y visualización.
19
CONCLUSIÓN DE EQUIPO
En este producto integrador de aprendizaje colaboramos en equipo para realizar el
programa ya adjuntado, en el que describimos algunos de los comandos que hemos utilizado con
anterioridad durante las clases del curso.
En este curso hemos podido llegar a la conclusión de que Python y pandas son
herramientas fundamentales en el análisis de datos y la ciencia de datos moderna, que nos
ofrecen simplicidad, flexibilidad y potencia que de esa manera se manejan y analizan grandes
volúmenes de información.
Python contiene bibliotecas especializadas, entre las cuales podemos destacar pandas que
es una de las más importantes, sus códigos abiertos que proporcionan estructuras de datos y
herramientas de análisis de datos de alto rendimiento y fáciles de usar. De manera que realizamos
los códigos con su estructura principal que es el DataFrame, que nos permite almacenar y
manipular datos en tablas de manera eficiente; su mayor ventaja es la capacidad que tiene para
manejar grandes conjuntos de datos de manera eficiente.
Enfocándonos en la asignatura que cursamos para poder hacer uso de este programa es
almacenes de datos que para nosotros como administradores es fundamental en el ámbito de
áreas como de la gestión y análisis de grandes volúmenes de información, ya que, nos proporciona
una comprensión profunda de cómo recolectar, almacenar, y gestionar datos de manera eficiente
para apoyar la toma de decisiones empresariales estratégicas.
El almacenamiento de datos de forma centralizada nos permite tener una vista unificada y
coherente que nos ayude con el análisis comparativo y la identificación de patrones y tendencias.
20