Obligatorio Big Data
Obligatorio Big Data
Obligatorio Big Data
Facultad de Ingeniería
Bernard Wand Polak
Obligatorio - Herramientas de
software para Big Data
Diciembre - 2023
Integrantes:
Contents
Arquitectura del DataLake ......................................................................................................... 3
Estudio del dataset .................................................................................................................... 5
Carga de datos........................................................................................................................... 6
Refinado de datos ...................................................................................................................... 9
Modelado de datos .................................................................................................................. 10
Consultas ................................................................................................................................. 13
Visualizaciones ........................................................................................................................ 14
Pandas.................................................................................................................................. 15
Superset ............................................................................................................................... 19
Arquitectura del DataLake
● NiFi (Apache NiFi) es una herramienta de código abierto desarrollada por la Apache
Software Foundation que se utiliza para la extracción, transformación y carga de datos
(ETL).
● Se utilizó para la ingestión y carga de datos desde diversas fuentes a Hadoop HDFS.
● Beneficios: Facilita el flujo de datos entre sistemas heterogéneos, asegurando la
transferencia segura y eficiente de datos.
● Hive es la aplicación que permite leer los datos almacenados en Hadoop y ejecutar
un MapReduce a través de una consulta con una sintaxis similar a SQL.
● Se empleó para crear tablas externas y realizar consultas en un formato similar a SQL.
● Beneficios: Simplifica el acceso y análisis de datos almacenados en HDFS,
proporcionando una interfaz SQL-like para consultas.
5- Superset (Apache Superset):
Para la realización del trabajo hemos elegido un dataset llamado Famous Paintings
(https://www.kaggle.com/datasets/mexwell/famous-paintings/data?select=artist.csv)
El cual consta de 7 tablas (artist, canvas_size, image_link, museum, museum_hours,
product_size, subject, work). El dataset contiene datos de pinturas, sus artistas, su tamaño y
el museo donde se exhiben.
Estudio del dataset
ARTISTAS
MUSEOS
TAMAÑO DE LIENZO
TAMAÑO DE OBRA
OBRA
Carga de datos
Mediante Filezilla cargamos las tablas que utilizaremos en la VM para poder transformarlas
con Nifi
A través de Nifi generamos un flujo que hará un Get de todos los archivos .csv en el origen,
luego actualiza el atributo “filename” para mantener el nombre original, y finalmente se
guardaran como Hdfs en la ubicación “datos_crudos”
Verificamos la correcta creación de los archivos.
Refinado de datos
El próximo paso será el refinado de datos con spark, para ello crearemos un notebook en
jupyter y crearemos dataframes a partir de los datos crudos.
El próximo paso será el modelado con spark, para ello volveremos a cargar dataframes a
partir de los datos refinados previamente.
Modelo original:
• Adecuamos los tipos de datos
• Una vez finalizado el modelado guardaremos cada tabla en una locación diferente
para poder cargar tablas en hive.
Desde las ubicaciones que definimos en el paso anterior, crearemos las tablas y a la vez
haremos el load de datos:
repetimos esto con el resto de las tablas.
Consultas
Ahora podremos realizar las consultas en lenguaje SQL sobre las vistas creadas
ejemplo:
a) En la gráfica podemos ver los temas más populares representados en las obras de
arte exhibidas en museos de diferentes países.
b) Los temas con más obras son Portraits, Marine Art/Maritime, Still-life y Nude.
a) Existe una correlación entre el tamaño físico de las obras de arte y el promedio de
precio de venta.
Superset
Para la utilización de superset hemos escogido crear una nueva base de datos en hive y
crear una tabla por cada resultado de las consultas del paso anterior
Debemos decidir cuáles serán las dimensiones y que métrica estaremos analizando para
generar visualizaciones que puedan transmitir en forma correcta los resultados.
1- Análisis de la Distribución Geográfica de los Artistas y Museos:
a) No observamos una relación correlativa entre tamaño y estilo artístico, vemos que un
tipo de estilo como el impresionismo tiene más relevancia que los otros en todos los
tamaños.
3- Exploración de Temas Populares en Museos de Diferentes Países:
a) Vemos que los noruegos tienen un promedio de vida 15 años mayor que el resto de
nacionalidades aproximadamente.
5- Análisis de la Relación entre el Tamaño de las Obras y su Precio
a) El área de los círculos representa el área de las obras, y el eje de las ordenadas es el
precio de venta, vemos que los círculos más grandes se ubican más arriba en la tabla
lo que indica que existe una relación entre el tamaño y el precio.
Una vez generamos chart para cada pregunta, creamos un dashboard y las incluimos: