0% encontró este documento útil (0 votos)
53 vistas10 páginas

ES U2 PARTE2 Francisco Perez

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1/ 10

Sistema de

Información
Y
Comunicación 2

DISEÑO Y DESARROLLO DE
DATAWAREHOUSE
TECNOLOGIAS DE INFORMACION Y COMUNICACIÓN

PARTICIPANTES: Camilo Carmona Rodríguez


Cristian Beltrán Cordero
Francisco Pérez Tobar
SECCION: TI1232
FECHA DE ENTREGA: 20 de octubre del 2021
PROFESOR: Alejandro Corro Encina
Índice

1 Definir conceptos------------------------------------------------------------------------------------------------------------ 3
1.1 Jerarquías--------------------------------------------------------------------------------------------------------------- 3
1.2 Medidas Calculadas-------------------------------------------------------------------------------------------------- 3
2 Crear esquema (Estrella o copo de nieve)-----------------------------------------------------------------------------4
2.1 Justificación------------------------------------------------------------------------------------------------------------ 5
3 Explicar porque se considera necesario ETL:--------------------------------------------------------------------------6
3.1 Proceso de extracción------------------------------------------------------------------------------------------------ 7
3.2 Proceso de transformación----------------------------------------------------------------------------------------- 7
3.3 Proceso de carga------------------------------------------------------------------------------------------------------ 8
4 Bibliografía-------------------------------------------------------------------------------------------------------------------- 9
1 Definir conceptos

1.1 Jerarquías
Las jerarquías a nivel de dimensiones son grupos de atributos que siguen un orden preestablecido. Una
jerarquía implica una organización de niveles dentro de una dimensión, con cada nivel representando el
total agregado de los datos del nivel inferior.

Se encuentran representadas por un ordenamiento lógico dentro de la dimensión, se encuentran


formadas por los diferentes tipos de relaciones entre los atributos de una misma dimensión. Las
jerarquías típicas que aparecen en cualquier sistema de Business Intelligence, son:

- Jerarquía geográfica o de cliente (país del cliente, región, ciudad, cliente)


- Jerarquía de producto (marca, familia, producto, presentación)
- Jerarquía comercial (país, zona, punto de venta)
- Jerarquía temporal (año, trimestre, mes, día)

Claramente, pueden existir otro tipo de jerarquías, o inclusive puede haber diferentes maneras de
jerarquizar una misma información. En particular, es habitual la existencia de diferentes jerarquías de
producto. Existen 2 maneras principales de modelizar jerarquías:

- Modelo en estrella
- Modelo copo de nieve

1.2 Medidas Calculadas

Las medidas permiten al usuario analizar los valores almacenados en el DW. Representan la cantidad de
un elemento determinado del a Dimensión y es posible obtenerlas directamente de la fuente de datos.
Las medidas representan conceptos tales como; Precios, unidades vendidas, márgenes de ganancias,
costos, entre otros. Es por esto, que en el problema planteado las medidas calculadas serian:

- Sobre ventas: Cantidad de equipos vendidos e importe y cantidad de cada producto.


- Sobre compras: Valor del producto adquirido y cantidad de productos comprados.
2 Crear esquema (Estrella o copo de nieve)

Esquema Estrella (Tabla de Hechos Ventas)

Esquema Estrella (Tabla de Hechos Compras)


2.1 Justificación

De acuerdo con lo expuesto por Curto Díaz para estructurar los datos de un almacén de datos existen
principalmente dos tipos de esquemas: estrella y copo de nieve.

Para el presente informe se ha optado por utilizar el esquema de estrella, puesto que se presenta la
información de una manera más sintética y acotada permitiendo en un futuro poder ampliarlo con el
desarrollo del esquema copo de nieve.

Gracias a esta vista podemos ver a simple vista en el centro las tablas de hechos principales y a su
alrededor las principales dimensiones que conforman el caso a tratar.

Además, y de acuerdo con lo señalado en Guía de aprendizaje Datawarehose por Inacap, los hechos o
medidas de negocio almacenados, mediante un esquema estrella, podrán ser analizados de forma
exhaustiva, típicamente mediante técnicas OLAP (procesamiento analítico online.)
3 Explicar porque se considera necesario ETL:

Los ETL son softwares que tienen el objetivo de extraer datos de diferentes sistemas, transformarlos
según las necesidades de la empresa y finalmente, cargarlos en algún lugar de almacenamiento (un Data
Warehouse).

En prácticamente cualquier operación empresarial los datos cumplen un papel importante; para que
tengan valor, deben trasladarse y prepararse para su uso, y para ello se necesitan procesos de ETL.
Algunos de los más importantes en aplicación de ETL son:

 Migración de datos de una aplicación a otra.


 Replicación de datos para copias de seguridad o análisis de redundancia.
 Procesos operativos, como la migración de datos desde un CRM a un ODS (almacén de datos
operativos) para potenciar o enriquecer los datos y luego devolverlos al CRM.
 Depositar los datos en un almacén de datos para ingerir, clasificar y transformarlos en business
intelligence.
 Migración de aplicaciones de infraestructuras locales a cloud, cloud híbrida o multicloud.
 Sincronización de sistemas clave.

Al saber qué es ETL, se entiende que es un sistema que ayuda a consolidar datos y puede servir de base
para la toma de decisiones.

Cuando se utiliza un sistema ETL con un almacén de datos, es posible tener un historial completo de todos
los datos que fueron generados por una empresa.

El ETL también contribuye a la creación y elaboración de informes relevantes para la planificación


estratégica de un negocio, ya que brinda una visión amplia y consolidada de todo lo que se ha generado.
3.1 Proceso de extracción

El objetivo de un proceso ETL es producir datos limpios y accesibles que puedan utilizarse para analíticas u
operaciones comerciales. Los datos en bruto deben extraerse de una variedad de fuentes, por ejemplo:

 Bases de datos existentes


 Registros de actividad como el tráfico de red, informes de errores, etc.
 Rendimiento y anomalías de aplicaciones
 Incidencias de seguridad
 Otras actividades transaccionales que deben comunicarse para dar cumplimiento normativo

Los datos extraídos en ocasiones se transfieren a otro destino como por ejemplo una data laque o un
almacén de datos

3.2 Proceso de transformación

La fase de transformación de ETL es donde se produce la operación más crítica. El resultado más
destacado de la transformación pasa por aplicar las normas necesarias del negocio a los datos para
cumplir con los requisitos de notificación. La transformación modifica los datos en bruto para que
presenten los formatos de notificación correctos. Si los datos no se limpian, resulta más complicado
aplicar las normas comerciales de notificación.

La transformación se efectúa mediante una serie de normas y reglamentos que se esbozan. Estos son
algunos de los estándares que garantizan la calidad de datos y su accesibilidad durante esta fase:

 Normalización: definir qué datos entrarán en juego, cómo se formatearán y almacenarán, y


otras consideraciones básicas que definirán las etapas sucesivas.
 Eliminación de duplicados: notificar los duplicados a los administradores de datos; excluyendo
y/o eliminando los datos redundantes.
 Verificación: ejecutar comprobaciones automatizadas para cotejar información similar, como
tiempos de transacción o registros de acceso. Las tareas de verificación permiten seguir cribando
los datos no utilizables y pueden alertar sobre anomalías en sus sistemas, aplicaciones o datos.
 Clasificación: maximizar la eficiencia de los almacenes de datos agrupando y clasificando
elementos como los datos en bruto, audios, archivos multimedia y otros objetos en categorías.
Las normas de transformación determinarán cómo se clasifica cada dato y dónde se trasladará a
continuación. A menudo el proceso de ETL se emplea para crear tablas de agregación a efectos de
informes resumidos. Para ello debemos clasificar y, posteriormente, agregar.
 Las demás tareas: Se configuran para que se ejecuten automáticamente.
3.3 Proceso de carga

El último proceso ETL típico es la carga de esos datos extraídos y transformados a su nuevo destino.
Existen dos vías habituales de cargar los datos a un almacén de datos:

 Carga completa
 Carga incremental.

La ejecución de un ciclo aislado de ETL o de una serie de ellos programada puede realizarse ejecutando
una tarea desde una línea de comando o una interfaz GUI. Sin embargo, debemos estar atentos a varios
frentes. Gestionar las excepciones, por ejemplo, puede resultar un proceso muy complicado. Muchas
veces las extracciones de datos pueden fallar cuando hay incidencias en uno o varios sistemas. La
existencia de datos erróneos en un sistema puede afectar a datos que estén siendo extraídos de otro, por
lo que el seguimiento y la gestión de errores son actividades fundamentales.
4 Bibliografía

Curto Díaz, J. (2016). Introducción al business intelligence. Barcelona, Editorial UOC. Recuperado de
https://elibro.net/es/ereader/inacap/101030?page=47.

Guía de aprendizaje Datawarehouse (2018). Dirección de Planificación y Desarrollo Online - INACAP


Online Universidad Tecnológica de Chile – INACAP.

https://www.businessintelligence.info/serie-dwh/jerarquias-business-intelligence.html

https://www.adictosaltrabajo.com/2007/10/30/datawarehouse-4/

También podría gustarte