0% encontró este documento útil (0 votos)
2 vistas10 páginas

Resumen sobre el proceso de ETL

Descargar como pdf o txt
Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1/ 10

-

Presentación

Sección: 2024-C-3.

Profesor@: Francis Ramírez

Alumno: Salomón Henríquez.

Materia: Electiva 1

Matricula:2023-1129.
Índice

Contenido
 Presentación ........................................................................................................................................................... 3
Resumen sobre el proceso de ETL .................................................................................................................................. 4
 ¿Qué es ETL? ..................................................................................................................................................... 4
 ¿Por qué es importante ETL?............................................................................................................................. 5
 ¿Cómo beneficia ETL a la inteligencia empresarial? ........................................................................................ 5
 ¿Cómo ha evolucionado ETL? ........................................................................................................................... 6
 ETL tradicional .................................................................................................................................................. 6
 ETL moderno ..................................................................................................................................................... 6
 Ejemplo de bases de datos modernas: ............................................................................................................... 7
Almacenamientos de datos ....................................................................................................................................... 7
Lagos de datos ........................................................................................................................................................... 7
 ¿Cómo funciona la ETL? ................................................................................................................................... 7
 ¿Qué es extracción de datos? .............................................................................................................................. 8
 ¿Qué es la transformación de datos? .................................................................................................................. 8
Transformación básica de datos ................................................................................................................................ 8
 ¿Qué es la carga de datos? ................................................................................................................................. 8
Carga completa .......................................................................................................................................................... 8
Carga progresiva ....................................................................................................................................................... 8
Transmisión de carga progresiva .............................................................................................................................. 9
Carga progresiva por lotes ........................................................................................................................................ 9
 ¿Qué es ELT? .................................................................................................................................................. 9
 ETL en comparación con ELT ........................................................................................................................ 9
 Conclusión ................................................................................................................................................... 10
Presentación

En un mundo donde los datos se han convertido en un recurso invaluable para las
organizaciones, el proceso de Extracción, Transformación y Carga (ETL) desempeña un rol
fundamental en la gestión y análisis de grandes volúmenes de información. Este proceso
integra datos provenientes de múltiples fuentes y los organiza en un almacenamiento de
datos central o data warehouse, donde pueden ser analizados de manera eficiente. ETL no
solo se limita a preparar los datos para la inteligencia empresarial y el machine learning
(ML), sino que también transforma los datos en bruto en información útil para generar
informes detallados, predecir tendencias del mercado y optimizar las operaciones internas de
las organizaciones.

El ETL se distingue por su capacidad de limpiar, organizar y validar los datos de manera
eficiente, aplicando un conjunto de reglas comerciales que aseguran que los datos finales sean
consistentes, precisos y adecuados para el análisis posterior. Esta capacidad es vital en la era
digital, donde las organizaciones deben gestionar datos de diversas fuentes como sistemas de
administración de clientes (CRM), sensores de dispositivos IoT, redes sociales y sistemas
internos de recursos humanos. Además, las herramientas de ETL son lo suficientemente
flexibles como para adaptarse tanto a datos estructurados como no estructurados, lo que
permite su implementación en una amplia gama de industrias y casos de uso.
Resumen sobre el proceso de ETL

¿Qué es ETL?
Extracción, transformación y carga (ETL) es el proceso consistente en combinar datos de
diferentes orígenes un gran repositorio central llamado almacenamiento de datos. ETL utiliza
un conjunto de reglas comerciales para limpiar y organizar datos en bruto y prepararlos para
el almacenamiento, el análisis de datos y el machine learning (ML). Puede abordar necesidades
de inteligencia empresarial específicas mediante análisis de datos (como la predicción del
resultado de decisiones empresariales, la generación de informes y paneles, la reducción de la
ineficacia operativa y más).

ETL proporciona la base para los flujos de trabajo de análisis de datos y machine learning. A
través de una serie de normas empresariales, ETL limpia y organiza los datos de una manera
que satisface las necesidades específicas de inteligencia empresarial, como los informes
mensuales, pero también puede abordar análisis más avanzados, que pueden mejorar los
procesos de back-end o las experiencias de los usuarios finales.

La transformación de datos que tiene lugar a menudo conlleva varias operaciones como
filtrado, ordenación, agregación, combinación de datos, limpieza de datos, desduplicación y
validación de datos.

Frecuentemente, las tres fases del proceso ETL se ejecutan en paralelo para ahorrar tiempo.
Por ejemplo, mientras se extraen datos, puede que esté funcionando un proceso de
transformación sobre los datos ya recibidos y de preparación para la carga, y puede que
empiece a funcionar un proceso de carga sobre los datos preparados, en lugar de tener que
esperar a que termine todo el proceso de extracción.
¿Por qué es importante ETL?
Las organizaciones de hoy tienen datos estructurados y no estructurados de varias fuentes,
que incluyen:

 Datos de clientes de pagos en línea y sistemas de administración de la relación con el cliente


(CRM)
 Datos de inventario y operaciones de sistemas de proveedores
 Datos de sensores de dispositivos de Internet de las cosas (IoT)
 Datos de marketing de las redes sociales y comentarios de los clientes
 Datos de los empleados de los sistemas internos de recursos humanos

Al aplicar el proceso de extracción, transformación y carga (ETL), los conjuntos de datos en


bruto individuales se pueden preparar en un formato y una estructura que son más
consumibles para fines analíticos, lo que da como resultado información más significativa. Por
ejemplo, los minoristas en línea pueden analizar los datos de los puntos de venta para
pronosticar la demanda y administrar el inventario. Los equipos de marketing pueden integrar
los datos de CRM con los comentarios de los clientes en las redes sociales para estudiar el
comportamiento del consumidor.

¿Cómo beneficia ETL a la inteligencia empresarial?


La extracción, transformación y carga (ETL) mejora la inteligencia comercial y el análisis al
hacer que el proceso sea más fiable, preciso, detallado y eficiente.

Contexto histórico
ETL brinda un contexto histórico profundo a los datos de la organización. Una empresa puede
combinar datos heredados con datos de nuevas plataformas y aplicaciones. Puede ver
conjuntos de datos más antiguos junto con información más reciente, lo que le brinda una vista
a largo plazo de los datos.

Vista de datos consolidada


ETL proporciona una vista consolidada de los datos para análisis e informes en profundidad.
La administración de varios conjuntos de datos exige tiempo y coordinación, y puede provocar
ineficacias y retrasos. ETL combina bases de datos y varias formas de datos en una sola vista
unificada. El proceso de integración de datos mejora la calidad de los datos y ahorra el tiempo
necesario para mover, categorizar o estandarizar datos. Esto facilita el análisis, la visualización
y el sentido de grandes conjuntos de datos.

Análisis de datos preciso


ETL brinda un análisis de datos más preciso para cumplir con los estándares regulatorios y de
conformidad. Puede integrar herramientas ETL con herramientas de calidad de datos para
perfilar, auditar y limpiar datos, asegurando que los datos sean confiables.
Automatización de tareas
ETL automatiza las tareas de procesamiento de datos repetibles para un análisis eficiente. Las
herramientas ETL automatizan el proceso de migración de datos y pueden configurarlas para
integrar cambios de datos periódicamente o incluso en tiempo de ejecución. Como resultado,
los ingenieros de datos pueden dedicar más tiempo a innovar y menos tiempo a administrar
tareas tediosas como mover y formatear datos.

¿Cómo ha evolucionado ETL?


La extracción, transformación y carga (ETL) se originó con la aparición de bases de datos
relacionales que almacenaban datos en forma de tablas para su análisis. Las primeras
herramientas ETL intentaron convertir datos de formatos de datos transaccionales a formatos
de datos relacionales para su análisis.

ETL tradicional
Los datos en bruto generalmente se almacenaban en bases de datos transaccionales que
admitían muchas solicitudes de lectura y escritura, pero no se prestaban bien para el análisis.
Puede pensar en ello como una fila en una hoja de cálculo. Por ejemplo, en un sistema de
comercio electrónico, la base de datos transaccional almacenó el artículo comprado, los
detalles del cliente y los detalles del pedido en una sola transacción. Durante el año, contenía
una larga lista de transacciones con entradas repetidas para el mismo cliente que compró
varios artículos durante el año.

Para superar este problema, las herramientas ETL convirtieron automáticamente estos datos
transaccionales en datos relacionales con tablas interconectadas. Los analistas podrían usar
consultas para identificar relaciones entre las tablas, además de patrones y tendencias.

ETL moderno
A medida que evolucionó la tecnología ETL, tanto los tipos de datos como los orígenes datos
aumentaron exponencialmente. La tecnología de la nube surgió para crear vastas bases de
datos (también llamadas sumideros de datos). Dichos sumideros de datos pueden recibir datos
de múltiples fuentes y tener recursos de hardware subyacentes que pueden escalar con el
tiempo. Las herramientas ETL también se han vuelto más sofisticadas y pueden funcionar con
sumideros de datos modernos. Pueden convertir datos de formatos de datos heredados a
formatos de datos modernos.
Ejemplo de bases de datos modernas:

Almacenamientos de datos
Un almacenamiento de datos es un repositorio central que puede almacenar múltiples bases
de datos. Dentro de cada base de datos, puede organizar sus datos en tablas y columnas que
describen los tipos de datos en la tabla. El software de almacenamiento de datos funciona en
varios tipos de hardware de almacenamiento, como unidades de estado sólido (SSD), discos
duros y otro almacenamiento en la nube, para optimizar su procesamiento de datos.

Lagos de datos
Con un lago de datos, puede almacenar sus datos estructurados y no estructurados en un
repositorio centralizado y a cualquier escala. Puede almacenar datos tal como están sin tener
que estructurarlos primero en función de las preguntas que pueda tener en el futuro. Los lagos
de datos también le permiten ejecutar diferentes tipos de análisis en sus datos, como consultas
SQL, análisis de macrodatos, búsqueda de texto completo, análisis en tiempo real y machine
learning (ML) para guiar mejores decisiones.

¿Cómo funciona la ETL?


La extracción, transformación y carga (ETL) funciona moviendo datos del sistema de origen al
sistema de destino a intervalos periódicos. El proceso ETL funciona en tres pasos:

Extracción de los datos relevantes de la base de datos de origen.


Transformación de los datos para que sean más adecuados para el análisis.
Carga de los datos en la base de datos de destino.
¿Qué es extracción de datos?
Las herramientas de extracción, extracción, transformación y carga (ETL) de datos extraen o
copian datos en bruto de múltiples fuentes y los almacenan en un área de ensayo. Un área de
ensayo (o zona de aterrizaje) es un área de almacenamiento intermedio para almacenar
temporalmente los datos extraídos. Las áreas de ensayo de datos suelen ser transitorias, lo que
significa que su contenido se borra una vez que se completa la extracción de datos. Sin
embargo, el área de ensayo también puede conservar un archivo de datos para fines de
resolución de problemas.

La frecuencia con la que el sistema envía datos desde el origen de datos al almacenamiento de
datos de destino depende del mecanismo subyacente de captura de datos modificados. La
extracción de datos comúnmente ocurre en una de las tres formas siguientes.

¿Qué es la transformación de datos?


En la transformación de datos, las herramientas de extracción, transformación y carga (ETL)
transforman y consolidan los datos en bruto en el área de preparación para prepararlos para
el almacenamiento de datos de destino. La fase de transformación de datos puede implicar los
siguientes tipos de cambios de datos.

Transformación básica de datos


Las transformaciones básicas mejoran la calidad de los datos eliminando errores, vaciando
campos de datos o simplificando datos.

¿Qué es la carga de datos?


En la carga de datos, las herramientas de extracción, transformación y carga (ETL) mueven los
datos transformados desde el área de ensayo al almacenamiento de datos de destino. Para la
mayoría de las organizaciones que usan ETL, el proceso está automatizado, bien definido,
continuo y por lotes. Dos métodos para cargar datos:

Carga completa
En LA carga completa, todos los datos de la fuente se transforman y se mueven al
almacenamiento de datos. La carga completa suele tener lugar la primera vez que carga datos
de un sistema de origen en el almacenamiento de datos.

Carga progresiva
En la carga progresiva, la herramienta ETL carga el delta (o la diferencia) entre los sistemas de
origen y destino a intervalos regulares. Almacena la fecha del último extracto para que sólo se
carguen los registros agregados después de esta fecha. Hay dos formas de implementar la
carga progresiva.
Transmisión de carga progresiva
Si tiene volúmenes de datos pequeños, puede transmitir cambios continuos mediante canales
de datos al almacenamiento de datos de destino. Cuando la velocidad de los datos aumenta a
millones de eventos por segundo, puede usar el procesamiento de flujo de eventos para
monitorear y procesar las secuencias de datos para tomar decisiones más oportunas.

Carga progresiva por lotes


Si tiene grandes volúmenes de datos, puede recopilar cambios de datos de carga en lotes
periódicamente. Durante este período de tiempo establecido, no se pueden realizar acciones
ni en el sistema de origen ni en el de destino a medida que se sincronizan los datos.

¿Qué es ELT?
La extracción, carga y transformación (ELT) es una extensión de la extracción, transformación
y carga (ETL) que invierte el orden de las operaciones. Puede cargar datos directamente en el
sistema de destino antes de procesarlos. El área de preparación intermedia no es necesaria
porque el almacenamiento de datos de destino tiene capacidades de asignación de datos
dentro de él. ELT se ha vuelto más popular con la adopción de la infraestructura en la nube,
que brinda a las bases de datos de destino la potencia de procesamiento que necesitan para las
transformaciones.

ETL en comparación con ELT


ELT funciona bien para conjuntos de datos no estructurados de gran volumen que requieren
carga frecuente. También es ideal para los macrodatos, porque la planificación del análisis se
puede realizar después de la extracción y el almacenamiento de datos. Deja la mayor parte de
las transformaciones para la etapa de análisis y se enfoca en cargar datos en bruto
mínimamente procesados en el almacenamiento de datos.

El proceso ETL requiere más definición al principio. El análisis debe participar desde el
principio para definir los tipos de datos de destino, las estructuras y las relaciones. Los
científicos de datos utilizan principalmente ETL para cargar bases de datos heredadas en el
almacén, y ELT se ha convertido en la norma en la actualidad.
Conclusión

El proceso de Extracción, Transformación y Carga (ETL) es un pilar fundamental para las


organizaciones que manejan grandes volúmenes de datos en la era digital. Este proceso facilita
la integración de datos procedentes de fuentes variadas, asegurando su calidad y
preparándolos para análisis exhaustivos. Gracias a ETL, las empresas pueden consolidar datos
históricos y recientes, lo que les permite tener una visión más clara de sus operaciones y tomar
decisiones estratégicas basadas en datos precisos.

Además de mejorar la inteligencia empresarial, ETL incrementa la eficiencia operativa,


permitiendo que las organizaciones realicen análisis más rápidos y precisos, desde informes
mensuales hasta análisis predictivos avanzados. Este proceso también es esencial para las
iniciativas de machine learning, ya que garantiza que los datos sean organizados y
estandarizados para el desarrollo de modelos de alto rendimiento.

En resumen, ETL transforma los datos en información valiosa, permitiendo a las empresas
adaptarse a las exigencias del mercado, mejorar la experiencia del cliente y optimizar su
rendimiento global. Su impacto en la inteligencia empresarial y el análisis de datos lo convierte
en una herramienta crucial para cualquier organización que desee tomar decisiones más
informadas y estratégicas en un entorno altamente competitivo.

También podría gustarte