Resumen sobre el proceso de ETL
Resumen sobre el proceso de ETL
Resumen sobre el proceso de ETL
Presentación
Sección: 2024-C-3.
Materia: Electiva 1
Matricula:2023-1129.
Índice
Contenido
Presentación ........................................................................................................................................................... 3
Resumen sobre el proceso de ETL .................................................................................................................................. 4
¿Qué es ETL? ..................................................................................................................................................... 4
¿Por qué es importante ETL?............................................................................................................................. 5
¿Cómo beneficia ETL a la inteligencia empresarial? ........................................................................................ 5
¿Cómo ha evolucionado ETL? ........................................................................................................................... 6
ETL tradicional .................................................................................................................................................. 6
ETL moderno ..................................................................................................................................................... 6
Ejemplo de bases de datos modernas: ............................................................................................................... 7
Almacenamientos de datos ....................................................................................................................................... 7
Lagos de datos ........................................................................................................................................................... 7
¿Cómo funciona la ETL? ................................................................................................................................... 7
¿Qué es extracción de datos? .............................................................................................................................. 8
¿Qué es la transformación de datos? .................................................................................................................. 8
Transformación básica de datos ................................................................................................................................ 8
¿Qué es la carga de datos? ................................................................................................................................. 8
Carga completa .......................................................................................................................................................... 8
Carga progresiva ....................................................................................................................................................... 8
Transmisión de carga progresiva .............................................................................................................................. 9
Carga progresiva por lotes ........................................................................................................................................ 9
¿Qué es ELT? .................................................................................................................................................. 9
ETL en comparación con ELT ........................................................................................................................ 9
Conclusión ................................................................................................................................................... 10
Presentación
En un mundo donde los datos se han convertido en un recurso invaluable para las
organizaciones, el proceso de Extracción, Transformación y Carga (ETL) desempeña un rol
fundamental en la gestión y análisis de grandes volúmenes de información. Este proceso
integra datos provenientes de múltiples fuentes y los organiza en un almacenamiento de
datos central o data warehouse, donde pueden ser analizados de manera eficiente. ETL no
solo se limita a preparar los datos para la inteligencia empresarial y el machine learning
(ML), sino que también transforma los datos en bruto en información útil para generar
informes detallados, predecir tendencias del mercado y optimizar las operaciones internas de
las organizaciones.
El ETL se distingue por su capacidad de limpiar, organizar y validar los datos de manera
eficiente, aplicando un conjunto de reglas comerciales que aseguran que los datos finales sean
consistentes, precisos y adecuados para el análisis posterior. Esta capacidad es vital en la era
digital, donde las organizaciones deben gestionar datos de diversas fuentes como sistemas de
administración de clientes (CRM), sensores de dispositivos IoT, redes sociales y sistemas
internos de recursos humanos. Además, las herramientas de ETL son lo suficientemente
flexibles como para adaptarse tanto a datos estructurados como no estructurados, lo que
permite su implementación en una amplia gama de industrias y casos de uso.
Resumen sobre el proceso de ETL
¿Qué es ETL?
Extracción, transformación y carga (ETL) es el proceso consistente en combinar datos de
diferentes orígenes un gran repositorio central llamado almacenamiento de datos. ETL utiliza
un conjunto de reglas comerciales para limpiar y organizar datos en bruto y prepararlos para
el almacenamiento, el análisis de datos y el machine learning (ML). Puede abordar necesidades
de inteligencia empresarial específicas mediante análisis de datos (como la predicción del
resultado de decisiones empresariales, la generación de informes y paneles, la reducción de la
ineficacia operativa y más).
ETL proporciona la base para los flujos de trabajo de análisis de datos y machine learning. A
través de una serie de normas empresariales, ETL limpia y organiza los datos de una manera
que satisface las necesidades específicas de inteligencia empresarial, como los informes
mensuales, pero también puede abordar análisis más avanzados, que pueden mejorar los
procesos de back-end o las experiencias de los usuarios finales.
La transformación de datos que tiene lugar a menudo conlleva varias operaciones como
filtrado, ordenación, agregación, combinación de datos, limpieza de datos, desduplicación y
validación de datos.
Frecuentemente, las tres fases del proceso ETL se ejecutan en paralelo para ahorrar tiempo.
Por ejemplo, mientras se extraen datos, puede que esté funcionando un proceso de
transformación sobre los datos ya recibidos y de preparación para la carga, y puede que
empiece a funcionar un proceso de carga sobre los datos preparados, en lugar de tener que
esperar a que termine todo el proceso de extracción.
¿Por qué es importante ETL?
Las organizaciones de hoy tienen datos estructurados y no estructurados de varias fuentes,
que incluyen:
Contexto histórico
ETL brinda un contexto histórico profundo a los datos de la organización. Una empresa puede
combinar datos heredados con datos de nuevas plataformas y aplicaciones. Puede ver
conjuntos de datos más antiguos junto con información más reciente, lo que le brinda una vista
a largo plazo de los datos.
ETL tradicional
Los datos en bruto generalmente se almacenaban en bases de datos transaccionales que
admitían muchas solicitudes de lectura y escritura, pero no se prestaban bien para el análisis.
Puede pensar en ello como una fila en una hoja de cálculo. Por ejemplo, en un sistema de
comercio electrónico, la base de datos transaccional almacenó el artículo comprado, los
detalles del cliente y los detalles del pedido en una sola transacción. Durante el año, contenía
una larga lista de transacciones con entradas repetidas para el mismo cliente que compró
varios artículos durante el año.
Para superar este problema, las herramientas ETL convirtieron automáticamente estos datos
transaccionales en datos relacionales con tablas interconectadas. Los analistas podrían usar
consultas para identificar relaciones entre las tablas, además de patrones y tendencias.
ETL moderno
A medida que evolucionó la tecnología ETL, tanto los tipos de datos como los orígenes datos
aumentaron exponencialmente. La tecnología de la nube surgió para crear vastas bases de
datos (también llamadas sumideros de datos). Dichos sumideros de datos pueden recibir datos
de múltiples fuentes y tener recursos de hardware subyacentes que pueden escalar con el
tiempo. Las herramientas ETL también se han vuelto más sofisticadas y pueden funcionar con
sumideros de datos modernos. Pueden convertir datos de formatos de datos heredados a
formatos de datos modernos.
Ejemplo de bases de datos modernas:
Almacenamientos de datos
Un almacenamiento de datos es un repositorio central que puede almacenar múltiples bases
de datos. Dentro de cada base de datos, puede organizar sus datos en tablas y columnas que
describen los tipos de datos en la tabla. El software de almacenamiento de datos funciona en
varios tipos de hardware de almacenamiento, como unidades de estado sólido (SSD), discos
duros y otro almacenamiento en la nube, para optimizar su procesamiento de datos.
Lagos de datos
Con un lago de datos, puede almacenar sus datos estructurados y no estructurados en un
repositorio centralizado y a cualquier escala. Puede almacenar datos tal como están sin tener
que estructurarlos primero en función de las preguntas que pueda tener en el futuro. Los lagos
de datos también le permiten ejecutar diferentes tipos de análisis en sus datos, como consultas
SQL, análisis de macrodatos, búsqueda de texto completo, análisis en tiempo real y machine
learning (ML) para guiar mejores decisiones.
La frecuencia con la que el sistema envía datos desde el origen de datos al almacenamiento de
datos de destino depende del mecanismo subyacente de captura de datos modificados. La
extracción de datos comúnmente ocurre en una de las tres formas siguientes.
Carga completa
En LA carga completa, todos los datos de la fuente se transforman y se mueven al
almacenamiento de datos. La carga completa suele tener lugar la primera vez que carga datos
de un sistema de origen en el almacenamiento de datos.
Carga progresiva
En la carga progresiva, la herramienta ETL carga el delta (o la diferencia) entre los sistemas de
origen y destino a intervalos regulares. Almacena la fecha del último extracto para que sólo se
carguen los registros agregados después de esta fecha. Hay dos formas de implementar la
carga progresiva.
Transmisión de carga progresiva
Si tiene volúmenes de datos pequeños, puede transmitir cambios continuos mediante canales
de datos al almacenamiento de datos de destino. Cuando la velocidad de los datos aumenta a
millones de eventos por segundo, puede usar el procesamiento de flujo de eventos para
monitorear y procesar las secuencias de datos para tomar decisiones más oportunas.
¿Qué es ELT?
La extracción, carga y transformación (ELT) es una extensión de la extracción, transformación
y carga (ETL) que invierte el orden de las operaciones. Puede cargar datos directamente en el
sistema de destino antes de procesarlos. El área de preparación intermedia no es necesaria
porque el almacenamiento de datos de destino tiene capacidades de asignación de datos
dentro de él. ELT se ha vuelto más popular con la adopción de la infraestructura en la nube,
que brinda a las bases de datos de destino la potencia de procesamiento que necesitan para las
transformaciones.
El proceso ETL requiere más definición al principio. El análisis debe participar desde el
principio para definir los tipos de datos de destino, las estructuras y las relaciones. Los
científicos de datos utilizan principalmente ETL para cargar bases de datos heredadas en el
almacén, y ELT se ha convertido en la norma en la actualidad.
Conclusión
En resumen, ETL transforma los datos en información valiosa, permitiendo a las empresas
adaptarse a las exigencias del mercado, mejorar la experiencia del cliente y optimizar su
rendimiento global. Su impacto en la inteligencia empresarial y el análisis de datos lo convierte
en una herramienta crucial para cualquier organización que desee tomar decisiones más
informadas y estratégicas en un entorno altamente competitivo.