0% encontró este documento útil (0 votos)
5 vistas11 páginas

Que Son ETL

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1/ 11

Universidad Hispanoamericana

Técnico en Análisis de Datos

Tema:

¿Qué son las ETL?

Docente:
Jose Pablo Castillo

Estudiantes:

Wanda Salas

Sergio Duran

Noviembre 2023

San José, Costa Rica


Índice

Introducción………………………………………………………………………………………3
¿Que son las ETL? (Extract, Transform and Load)
● ¿Qué es ETL?.....................................................................................................................4
● Importancia del ETL……………………………………………………………………..4
● ¿Cómo funciona la ETL?...................................................................................................5
1. Extracción de datos
2. Transformación de datos
3. Carga de datos
● Beneficios de los procesos ETL a la inteligencia empresarial……………….………….7
- Contexto histórico
- Vista de datos consolidada
- Análisis de datos preciso
- Automatización de tareas
● Evolución del ETL………………………………………………………………………8
- ETL tradicional
- ETL moderno
● ¿Qué es ELT?...................................................................................................................8

- ETL en comparación con ELT


Conclusiones……………………………………………………………………………………9
Referencias bibliográficas………………………………………………………………………10
Introducción

Lo más importante de los negocios actuales son sus datos de clientes, ventas, stock, etc. Para
solucionar este problema se crean los primeros sistemas de gestión de bases de datos (DBMS)
que surgieron en los años 60 y 70, permitiendo el almacenamiento y la gestión de datos a gran
escala. Sin embargo, un problema habitual al que se enfrentan las organizaciones es cómo
recopilar datos de varios orígenes, en varios formatos. Esto se debe a que es posible que el
destino no sea el mismo tipo de almacén de datos que el origen, por lo que tendrá que moverlos a
uno o varios almacenes de datos. A menudo el formato es diferente, o bien es necesario dar
forma a los datos o limpiarlos antes de cargarlos en el destino final (Jhawar y Tejada, s.f).

Debido a que el ETL puede abordar necesidades de inteligencia empresarial específicas


mediante análisis de datos (como la predicción del resultado de decisiones empresariales, la
generación de informes y paneles, la reducción de la ineficacia operativa y más), este proceso
cobró popularidad en la década de 1970 cuando las organizaciones comenzaron a utilizar
múltiples repositorios de datos, o bases de datos, para almacenar diferentes tipos de información
de negocios (AWS, 2023).

Esta necesidad de integrar datos que se diseminaron por estas bases de datos creció con
rapidez y ETL se convirtió en el método estándar para extraer datos de diferentes fuentes y
transformarlos antes de cargarlos en una fuente pretendida o destino. Con los años se han
desarrollado varias herramientas, servicios y procesos para afrontar estos desafíos e
independientemente del proceso que se utilice, hay una necesidad común de coordinar el trabajo
y aplicar cierto nivel de transformación de datos en la canalización de datos. (Jhawar y Tejada,
s.f).

Con el tiempo, el número de formatos, fuentes y sistemas de datos ha aumentado


enormemente. Extraer, transformar, cargar (ETL) es ahora sólo uno de varios métodos que
utilizan las organizaciones para recopilar, importar y procesar datos. ETL y ELT son partes
importantes de una estrategia de integración de datos más amplia de una organización (Jhawar y
Tejada, s.f).

¿Qué son las ETL?


(Extract, Transform and Load)

¿Qué es ETL?
El término ETL proviene de las siglas en inglés de extract (extraer), transform (transformar) y
load (cargar). Es un proceso que consiste en combinar datos de diferentes orígenes un gran
repositorio central llamado almacenamiento de datos, utilizando un conjunto de reglas
comerciales para limpiar y organizar datos en bruto y prepararlos para el almacenamiento, el
análisis de datos y el machine learning (ML) (AWS, 2023).

Proporciona la base para los flujos de trabajo de análisis de datos y aprendizaje automático. A
través de una serie de reglas comerciales, ETL limpia y organiza los datos de una manera que
aborda necesidades específicas de inteligencia comercial, como informes mensuales, pero
también puede abordar análisis más avanzados, que pueden mejorar los procesos de back-end o
las experiencias del usuario final. De acuerdo a IBM (s.f) una organización suele utilizar ETL
para:

● Extraer datos de sistemas heredados


● Limpiar los datos para mejorar la calidad de los datos y establecer coherencia.
● Cargar datos en una base de datos de destino

Importancia del ETL


AWS (2023) menciona que hoy en día, las organizaciones conservan datos estructurados y no
estructurados de varias fuentes, entre las que se pueden mencionar:
● Datos de clientes de pagos en línea y sistemas de administración de la relación con el
cliente (CRM)
● Datos de inventario y operaciones de sistemas de proveedores
● Datos de sensores de dispositivos de Internet de las cosas (IoT)
● Datos de marketing de las redes sociales y comentarios de los clientes
● Datos de los empleados de los sistemas internos de recursos humanos
Al aplicar el proceso de extracción, transformación y carga (ETL), los conjuntos de datos en
bruto individuales se pueden preparar en un formato y una estructura que son más consumibles
para fines analíticos, lo que da como resultado información más significativa.

¿Cómo funciona la ETL?


La ETL se da mediante tres grandes procesos que consisten en mover datos del sistema de origen
al sistema de destino en intervalos periódicos. El proceso ETL funciona en tres pasos:
1. Extracción de los datos relevantes de la base de datos de origen.
2. Transformación de los datos para que sean más adecuados para el análisis.
3. Carga de los datos en la base de datos de destino (AWS, 2023).

1. Extracción de datos
Las herramientas de extracción, transformación y carga (ETL) de datos extraen o copian datos
en bruto de múltiples fuentes y los almacenan en un área de ensayo (área de almacenamiento
intermedio para almacenar temporalmente los datos extraídos). Estas suelen ser transitorias por
lo que el contenido se borra una vez que se completa la extracción de datos, aunque el área de
ensayo puede conservar un archivo de datos para la resolución de problemas (AWS, 2023).
AWS (2023) menciona que la frecuencia con la que el sistema envía datos desde el origen de
datos al almacenamiento de datos de destino depende del mecanismo subyacente de captura de
datos modificados. La extracción de datos comúnmente ocurre en una de las tres formas
siguientes:
- Notificación de actualización
Se encarga de notificar cuando cambia un registro de datos, por lo que puede ejecutar el
proceso de extracción para ese cambio. La mayoría de las bases de datos y aplicaciones web
proporcionan mecanismos de actualización para admitir este método de integración de datos
(AWS, 2023).
- Extracción progresiva
Algunos orígenes de datos no pueden proporcionar notificaciones de actualización, pero
pueden identificar y extraer datos que se han modificado durante un período de tiempo
determinado. En este caso, el sistema busca cambios a intervalos periódicos, como una vez a la
semana, una vez al mes o al final de una campaña. Sólo necesita extraer los datos que han
cambiado (AWS, 2023).
- Extracción completa
Algunos sistemas no pueden identificar los cambios de datos ni enviar notificaciones, por lo
que recargar todos los datos es la única opción. Este método de extracción requiere que conserve
una copia del último extracto para verificar qué registros son nuevos. Debido a que este enfoque
implica grandes volúmenes de transferencia de datos, le recomendamos que lo use solo para
tablas pequeñas (AWS, 2023).
2. Transformación de datos
En esta parte del proceso las herramientas de ETL transforman y consolidan los datos en bruto
en el área de preparación para el almacenamiento de datos de destino. De acuerdo a AWS (2023)
esta fase puede implicar los siguientes tipos de cambios de datos:
- Transformación básica de datos
Mejoran la calidad de los datos eliminando errores, vaciando campos de datos o simplificando
datos. A continuación se muestran ejemplos de estas transformaciones;
● Limpieza de datos: Elimina errores y asigna datos de origen al formato de datos
de destino y aunque podría entenderse como una acción integrada en la fase de
transformación de datos, en la actualidad la tendencia es considerar la limpieza de
datos como una fase separada del proceso ETL (Power Data, 2013).
● Deduplicación de datos: identifica y elimina los registros duplicados.
● Revisión del formato de datos: convierte datos, como conjuntos de caracteres,
unidades de medida y valores de fecha/hora, en un formato coherente.
- Transformación avanzada de datos
Se utilizan reglas comerciales para optimizar los datos y facilitar el análisis. AWS (2023) nos
muestran ejemplos de estas transformaciones:
● Derivación: aplica reglas comerciales a sus datos para calcular nuevos valores a
partir de valores existentes.
● Vinculación: conecta los mismos datos de diferentes orígenes de datos.
● División: puede dividir una columna o un atributo de datos en varias columnas en
el sistema de destino.
● Integración: mejora la calidad de los datos al reducir una gran cantidad de valores
de datos en un conjunto de datos más pequeño.
● Cifrado: Puede proteger los datos confidenciales para cumplir con las leyes de
datos o la privacidad de los datos agregando cifrado antes de que los datos se
transmitan a la base de datos de destino.
3. Carga de datos
Las herramientas de extracción, transformación y carga mueven los datos transformados desde el
área de ensayo al almacenamiento de datos de destino. Generalmente es un proceso que está
automatizado, bien definido, continuo y por lotes. A continuación AWS (2023) nos presentan
dos métodos para cargar datos:
- Carga completa
Todos los datos de la fuente se transforman y se mueven al almacenamiento de datos. La
carga completa suele tener lugar la primera vez que carga datos de un sistema de origen en el
almacenamiento de datos.
- Carga progresiva
En la carga progresiva, se carga el delta (o la diferencia) entre los sistemas de origen y destino
a intervalos regulares. Se almacena la fecha del último extracto para que sólo se carguen los
registros agregados después de esta fecha. Hay dos formas de implementar la carga progresiva.
● Transmisión de carga progresiva: se puede utilizar para volúmenes de datos
pequeños, y transmitir cambios continuos mediante canales de datos al
almacenamiento de datos de destino. Cuando la velocidad de los datos aumenta a
millones de eventos por segundo, puede usar el procesamiento de flujo de eventos
para monitorear y procesar las secuencias de datos para tomar decisiones más
oportunas.
● Carga progresiva por lotes: se suele utilizar para grandes volúmenes de datos,
para recopilar cambios de datos de carga en lotes periódicamente. Durante este
período de tiempo establecido, no se pueden realizar acciones ni en el sistema de
origen ni en el de destino a medida que se sincronizan los datos.

Beneficios de los procesos ETL a la inteligencia empresarial

Power Data (2013) explica que cualquier empresa u organización le beneficia poner en
marcha un proceso ETL para mover y transformar los datos que maneja por los siguientes
motivos:

● Poder crear una Master Data Management, es decir, un repositorio central estandarizado
de todos los datos de la organización.
● Posibilita a los directivos tomar decisiones estratégicas basadas en el análisis de los datos
cargados en las bases nuevas y actualizadas.
● Sirve para integrar sistemas. Las organizaciones crecen de forma orgánica y cada vez se
van agregando más fuentes de datos. Esto provoca que comience a surgir nuevas
necesidades.
● Poder tener una visión global de todos los datos consolidados en una data warehouse.

Por otro lado, AWS (2023) explica que las ETL mejoran la inteligencia comercial y el análisis
al hacer que el proceso sea más fiable, preciso, detallado y eficiente.
● Contexto histórico
ETL brinda un contexto histórico profundo a los datos de la organización. Ya que se pueden
combinar datos heredados con datos de nuevas plataformas y aplicaciones por lo que brinda una
vista a largo plazo de los datos.
● Vista de datos consolidada
La administración de varios conjuntos de datos exige tiempo y coordinación, y puede
provocar ineficacias y retrasos. ETL combina bases de datos y varias formas de datos en una sola
vista unificada, se mejora la calidad de los datos y ahorra el tiempo necesario para mover,
categorizar o estandarizar datos. Esto facilita el análisis, la visualización y el sentido de grandes
conjuntos de datos.
● Análisis de datos preciso
Se pueden integrar herramientas ETL con herramientas de calidad de datos para perfilar,
auditar y limpiar datos, asegurando que los datos sean confiables.
● Automatización de tareas
Se automatiza el proceso de migración de datos y pueden ser configuradas para integrar cambios
de datos periódicamente o incluso en tiempo de ejecución. Como resultado, los ingenieros de
datos pueden dedicar más tiempo a innovar y menos tiempo a administrar tareas tediosas como
mover y formatear datos.
Evolución del ETL
Las herramientas de extracción, transformación y carga (ETL) se originaron con la aparición de
bases de datos relacionales que almacenaban datos en forma de tablas para su análisis. Las
primeras herramientas ETL intentaron convertir datos de formatos de datos transaccionales a
formatos de datos relacionales para su análisis.
● ETL tradicional
Anteriormente los datos en bruto se almacenaban en bases de datos transaccionales que
admitían muchas solicitudes de lectura y escritura, pero no se prestaban bien para el análisis.
Debido a esta deficiencia, las herramientas ETL convirtieron automáticamente estos datos
transaccionales en datos relacionales con tablas interconectadas. Los analistas podrían usar
consultas para identificar relaciones entre las tablas, además de patrones y tendencias (AWS,
2023).
● ETL moderno
Hoy en día, debido a la evolución de la tecnología ETL, tanto los tipos de datos como los
orígenes datos aumentaron exponencialmente. La tecnología de la nube surgió para crear vastas
bases de datos (también llamadas sumideros de datos) que pueden recibir datos de múltiples
fuentes y tener recursos de hardware subyacentes que pueden escalar con el tiempo. Por lo que
las herramientas ETL también se han vuelto más sofisticadas y pueden funcionar con sumideros
de datos modernos, convirtiendo datos de formatos de datos heredados a formatos de datos
modernos (AWS, 2023):
- Almacenamientos de datos: repositorio central que puede almacenar múltiples bases de
datos. Dentro de cada base de datos, puede organizar sus datos en tablas y columnas que
describen los tipos de datos en la tabla. El software de almacenamiento de datos funciona
en varios tipos de hardware de almacenamiento, como unidades de estado sólido (SSD),
discos duros y otro almacenamiento en la nube, para optimizar su procesamiento de
datos.
- Lagos de datos; puede almacenar datos estructurados y no estructurados en un repositorio
centralizado y a cualquier escala. También le permiten ejecutar diferentes tipos de
análisis en sus datos, como consultas SQL, análisis de macrodatos, búsqueda de texto
completo, análisis en tiempo real y machine learning (ML) para guiar mejores decisiones.
¿Qué es ELT?
La extracción, carga y transformación (ELT) es una extensión de la extracción,
transformación y carga (ETL) que invierte el orden de las operaciones. Estas herramientas
pueden cargar datos directamente en el sistema de destino antes de procesarlos debido a que el
área de preparación intermedia no es necesaria porque el almacenamiento de datos de destino
tiene capacidades de asignación de datos dentro de él. Las ELT se han vuelto más populares con
la adopción de la infraestructura en la nube, que brinda a las bases de datos de destino la potencia
de procesamiento que necesitan para las transformaciones (AWS, 2023).
ETL en comparación con ELT
AWS (2023) explica que ELT funciona bien para conjuntos de datos no estructurados de gran
volumen que requieren carga frecuente, por lo que es ideal para los macrodatos, porque la
planificación del análisis se puede realizar después de la extracción y el almacenamiento de
datos. Dejando la mayor parte de las transformaciones para la etapa de análisis y se enfoca en
cargar datos en bruto mínimamente procesados en el almacenamiento de datos.
Contrariamente el proceso ETL requiere más definición al principio. El análisis se debe
realizar desde el principio para definir los tipos de datos de destino, las estructuras y las
relaciones. Los científicos de datos utilizan principalmente ETL para cargar bases de datos
heredadas en el almacén, y ELT se ha convertido en la norma en la actualidad.
Conclusiones

La implantación de un sistema ETL bien definido supone todo un reto puesto que, para que
sea realmente efectivo, debe permitir integrar los sistemas legacy (algunos ya muy obsoletos)
con los más modernos. Además, el acceso a todos estos sistemas se debe producir no solo en
modo de lectura, sino también como escritura. Pero, al implementar las herramientas ETL en el
proceso se mejora la calidad al realizar una limpieza de datos antes de cargarlos en un
repositorio diferente.

En conclusión, ETL es una operación por lotes que requiere mucho tiempo, se recomienda con
mayor frecuencia para crear repositorios de datos de destino más pequeños que requieren
actualizaciones menos frecuentes, mientras que otros métodos de integración de datos, incluidos
ELT (extracción, carga, transformación), captura de datos modificados (CDC) y virtualización
de datos. —Se utilizan para integrar volúmenes cada vez mayores de datos que cambian o flujos
de datos en tiempo real (IBM, s.f).

Como hemos visto, los procesos ETL son muy útiles y beneficiosos para las organizaciones
por su capacidad para integrar grandes bases de datos, logrando así una visión única global
que permite, a los analistas y directivos, tomar las decisiones estratégicas adecuadas (Power
Data, 2013).
Referencias Bibliográficas

AWS. (2023). ¿Qué es extracción, transformación y carga (ETL)?. Amazon Web Services.
Recuperado de:
https://aws.amazon.com/es/what-is/etl/

IBM (s.f). ETL (Extract, Transform, Load). Recuperado de: https://www.ibm.com/topics/etl

Jhawar, R. Tejada, Z. (s.f). Extracción, transformación y carga de datos (ETL). Microsoft Learn.
Recuperado de: https://learn.microsoft.com/es-es/azure/architecture/data-guide/relational-
data/etl

Power data. (2013). Procesos ETL: Definición, Características, Beneficios y Retos. Power Data.
Recuperado de: https://blog.powerdata.es/el-valor-de-la-gestion-de-datos/bid/312584/
procesos-etl-definici-n-caracter-sticas-beneficios-y-retos

También podría gustarte