ES U2 PARTE2 Francisco Perez
ES U2 PARTE2 Francisco Perez
ES U2 PARTE2 Francisco Perez
Información
Y
Comunicación 2
DISEÑO Y DESARROLLO DE
DATAWAREHOUSE
TECNOLOGIAS DE INFORMACION Y COMUNICACIÓN
1 Definir conceptos------------------------------------------------------------------------------------------------------------ 3
1.1 Jerarquías--------------------------------------------------------------------------------------------------------------- 3
1.2 Medidas Calculadas-------------------------------------------------------------------------------------------------- 3
2 Crear esquema (Estrella o copo de nieve)-----------------------------------------------------------------------------4
2.1 Justificación------------------------------------------------------------------------------------------------------------ 5
3 Explicar porque se considera necesario ETL:--------------------------------------------------------------------------6
3.1 Proceso de extracción------------------------------------------------------------------------------------------------ 7
3.2 Proceso de transformación----------------------------------------------------------------------------------------- 7
3.3 Proceso de carga------------------------------------------------------------------------------------------------------ 8
4 Bibliografía-------------------------------------------------------------------------------------------------------------------- 9
1 Definir conceptos
1.1 Jerarquías
Las jerarquías a nivel de dimensiones son grupos de atributos que siguen un orden preestablecido. Una
jerarquía implica una organización de niveles dentro de una dimensión, con cada nivel representando el
total agregado de los datos del nivel inferior.
Claramente, pueden existir otro tipo de jerarquías, o inclusive puede haber diferentes maneras de
jerarquizar una misma información. En particular, es habitual la existencia de diferentes jerarquías de
producto. Existen 2 maneras principales de modelizar jerarquías:
- Modelo en estrella
- Modelo copo de nieve
Las medidas permiten al usuario analizar los valores almacenados en el DW. Representan la cantidad de
un elemento determinado del a Dimensión y es posible obtenerlas directamente de la fuente de datos.
Las medidas representan conceptos tales como; Precios, unidades vendidas, márgenes de ganancias,
costos, entre otros. Es por esto, que en el problema planteado las medidas calculadas serian:
De acuerdo con lo expuesto por Curto Díaz para estructurar los datos de un almacén de datos existen
principalmente dos tipos de esquemas: estrella y copo de nieve.
Para el presente informe se ha optado por utilizar el esquema de estrella, puesto que se presenta la
información de una manera más sintética y acotada permitiendo en un futuro poder ampliarlo con el
desarrollo del esquema copo de nieve.
Gracias a esta vista podemos ver a simple vista en el centro las tablas de hechos principales y a su
alrededor las principales dimensiones que conforman el caso a tratar.
Además, y de acuerdo con lo señalado en Guía de aprendizaje Datawarehose por Inacap, los hechos o
medidas de negocio almacenados, mediante un esquema estrella, podrán ser analizados de forma
exhaustiva, típicamente mediante técnicas OLAP (procesamiento analítico online.)
3 Explicar porque se considera necesario ETL:
Los ETL son softwares que tienen el objetivo de extraer datos de diferentes sistemas, transformarlos
según las necesidades de la empresa y finalmente, cargarlos en algún lugar de almacenamiento (un Data
Warehouse).
En prácticamente cualquier operación empresarial los datos cumplen un papel importante; para que
tengan valor, deben trasladarse y prepararse para su uso, y para ello se necesitan procesos de ETL.
Algunos de los más importantes en aplicación de ETL son:
Al saber qué es ETL, se entiende que es un sistema que ayuda a consolidar datos y puede servir de base
para la toma de decisiones.
Cuando se utiliza un sistema ETL con un almacén de datos, es posible tener un historial completo de todos
los datos que fueron generados por una empresa.
El objetivo de un proceso ETL es producir datos limpios y accesibles que puedan utilizarse para analíticas u
operaciones comerciales. Los datos en bruto deben extraerse de una variedad de fuentes, por ejemplo:
Los datos extraídos en ocasiones se transfieren a otro destino como por ejemplo una data laque o un
almacén de datos
La fase de transformación de ETL es donde se produce la operación más crítica. El resultado más
destacado de la transformación pasa por aplicar las normas necesarias del negocio a los datos para
cumplir con los requisitos de notificación. La transformación modifica los datos en bruto para que
presenten los formatos de notificación correctos. Si los datos no se limpian, resulta más complicado
aplicar las normas comerciales de notificación.
La transformación se efectúa mediante una serie de normas y reglamentos que se esbozan. Estos son
algunos de los estándares que garantizan la calidad de datos y su accesibilidad durante esta fase:
El último proceso ETL típico es la carga de esos datos extraídos y transformados a su nuevo destino.
Existen dos vías habituales de cargar los datos a un almacén de datos:
Carga completa
Carga incremental.
La ejecución de un ciclo aislado de ETL o de una serie de ellos programada puede realizarse ejecutando
una tarea desde una línea de comando o una interfaz GUI. Sin embargo, debemos estar atentos a varios
frentes. Gestionar las excepciones, por ejemplo, puede resultar un proceso muy complicado. Muchas
veces las extracciones de datos pueden fallar cuando hay incidencias en uno o varios sistemas. La
existencia de datos erróneos en un sistema puede afectar a datos que estén siendo extraídos de otro, por
lo que el seguimiento y la gestión de errores son actividades fundamentales.
4 Bibliografía
Curto Díaz, J. (2016). Introducción al business intelligence. Barcelona, Editorial UOC. Recuperado de
https://elibro.net/es/ereader/inacap/101030?page=47.
https://www.businessintelligence.info/serie-dwh/jerarquias-business-intelligence.html
https://www.adictosaltrabajo.com/2007/10/30/datawarehouse-4/