Data Warehouse

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 12

DATA WAREHOUSE

I.

OBJETIVOS
a) General:
Con el presente trabajo pretendemos Conocer a profundidad sobre data
warehouse.
b) Especificos:

Definir
qu es data warehouse as como su relacin con data
warehousing.
Indicar las diferencias y similitudes entre data warehouse y data
mart.
Definir y diferenciar OLTP Y OLAP
Conocer la arquitectura de data warehouse y su metodologa.
analizar el proceso de construccin e implantacin de las
herramientas Data Warehouse en las empresas.

II. MARCO TEORICO


1.

Definiciones de data Warehouse y data Warehousing anlisis de


las definiciones.
1.1. Data Warehouse
a. Qu es Data Warehouse?
Antes veamos algunas definiciones concebidas por diversos
expertos en el tema:
Un Data Warehouse es un conjunto integrado de bases de
datos, con orientacin temtica, que estn diseados para el
apoyo a la Toma de Decisiones, y donde cada unidad de datos
es relevante en algn momento del tiempo
Bill H. Inmon
b. Caractersticas:
Un Data Warehouse se caracteriza por ser un conjunto de datos
orientados a temas, integrado, variante en el tiempo y no
voltiles, que dan soporte al proceso de toma de decisiones.
Vamos a analizar esto por partes.
i.

Orientado a temas
1

Orientado a los temas principales de la organizacin. La


informacin se clasifica en funcin de los aspectos que son de
inters para la organizacin. Se organizan por temas para
facilitar el acceso y el entendimiento por parte de los usuarios
finales.
ii.

Integrado
En un sistema operacional no hay integracin, pero en un
Data Warehouse todos los datos se encuentran integrados.
Esta integracin se muestra de diferentes maneras:
consistencia en codificacin de estructuras, en unidades de
medida de las variables, en mltiples fuentes, en
convenciones de nombres, en atributos fsicos de los datos
etc.

iii.

Variante en el tiempo
En los sistemas operacionales, los datos siempre reflejan el
estado de la actividad del negocio en el momento presente,
por el contrario, la informacin almacenada en el Data
Warehouse refleja un histrico de los datos en un horizonte de
tiempo mucho ms amplio (del orden de aos). De esta forma
podemos detectar tendencias en el tiempo.

iv.

No voltil
El Data Warehouse existe para ser ledo y no para ser
modificado, la informacin es por tanto permanente, la
actualizacin del Data Warehouse significa la incorporacin de
los ltimos valores que tomaron las distintas variables
contenidas en l, sin ningn tipo de accin sobre lo que ya
exista. Los datos ms recientes no sustituyen a los
precedentes, sino que suelen mantenerse con un mayor nivel
de detalle.

1.2. Data Warehousing:


Data Warehousing es el proceso de extraer y filtrar los datos de las
operaciones comunes a la organizacin, procedentes de los distintos
sistemas de informacin y/o sistemas externos, para transformarlos,
integrarlos y almacenarlos en un depsito o almacn de datos (Data
Warehouse) con el fin de acceder a ellos para dar soporte en el
proceso de toma de decisiones de una organizacin.
El objetivo es convertir los datos operacionales en informacin
relacionada y estructurada, homognea, de mayor calidad y que se
mantenga en el tiempo, es decir, los datos ms recientes no
sustituyen a los precedentes, pero tampoco se acumulan de
cualquier manera, sino que se suelen mantener con un mayor nivel
de detalle los datos actuales y de manera ms agregada los datos
anteriores.
2

1.3. Qu diferencia hay entre Data Warehousing y Data


Warehouse?
Cuando queremos hacer referencia al proceso global en el que a
partir de diferentes fuentes de datos (SGDB, ficheros planos, .csv,
etc.) se crea y se mantiene un almacn central de datos y que
puede ser consultado por herramientas con un propsito de anlisis
concreto y de ayuda a la toma de decisiones, se debe utilizar el
trmino de Data Warehousing.
Para referirnos no al proceso en s, sino al repositorio central de
datos sobre el que se construye el sistema y que integra todos los
datos de la organizacin desde el punto de vista del usuario y no de
los procesos, nos estamos refiriendo a Data Warehouse.
2.

Principales aportaciones de un Data Warehouse.


Entre las principales aportaciones o beneficios de un Data Warehouse,
podemos mencionar las siguientes:
Proporciona una herramienta para la toma de decisiones en cualquier
rea funcional, basndose en informacin integrada y global del
negocio.
Facilita la aplicacin de tcnicas estadsticas de anlisis y
modelizacin para encontrar relaciones ocultas entre los datos del
almacn; obteniendo un valor aadido para el negocio de dicha
informacin.
Proporciona la capacidad de aprender de los datos del pasado y de
predecir situaciones futuras en diversos escenarios.
Simplifica dentro de la empresa la implantacin de sistemas de
gestin integral de la relacin con el cliente.

3.

Diferencias y similitudes entre data Warehouse y data


3.1. Diferencias

Data warehouse
Data Mart
Almacn de datos de un Almacn de datos de una
sistema
completo
por rea
especfica;
ventas,
ejemplo de una empresa
compras, marketing, etc.
Conjunto de datos mart
Es nico

Mart.

3.2. Similitud:
Ambos son almacn de datos, que facilitan la informacin para la
buena gestin de la organizacin.

4.

Definicin y comparacin entre OLTP y OLAP.


4.1. OLTP (On-Line Transaction Processing)
Son aplicaciones que definen el comportamiento habitual de un
entorno operacional de gestin y ejecutan las operaciones del da a
da. Algunas de las caractersticas ms comunes de este tipo de
transacciones podran ser:
Altas/Bajas/Modificaciones.
Consultas rpidas, escuetas y predecibles.
Poco volumen de informacin e informacin disgregada
Transacciones rpidas
Gran nivel de concurrencia
Modo de actualizacin on-line
Baja redundancia de datos
4.2. OLAP (On-Line Analytical Process)
Son aplicaciones que se encargan de analizar datos del negocio para
generar informacin tctica y estratgica que sirve de soporte para
la toma de decisiones. Mientras que las transacciones OLTP utilizan
Bases de Datos Relacionales u otro tipo de archivos, OLAP logra su
mxima eficiencia y flexibilidad operando sobre Bases de datos
Multidimensionales.
4.3. Diferencias entre OLTP y OLAP
Mientras que las aplicaciones OLTP se caracterizan por estar
actualizadas constantemente por varios usuarios a travs de
transacciones operacionales sobre datos individuales, las
aplicaciones OLAP son utilizadas por personal de niveles
ejecutivos que requieren datos con alto grado de agregacin y
desde distintas perspectivas (dimensiones), como ser: totales de
venta por regin, por producto, por perodo de tiempo,..., etc.

5.

Arquitectura de un Data Warehouse.


Una de las razones por las que el desarrollo de un data warehouse crece
rpidamente, es que realmente es una tecnologa muy entendible. De
hecho, data warehousing puede representar mejor la estructura amplia de
una empresa para administrar los datos informacionales dentro de la
organizacin. A fin de comprender cmo se relacionan todos los
componentes involucrados en una estrategia data warehousing, es
4

esencial tener una Arquitectura Data Warehouse.


5.1. Elementos
Warehouse

constituyentes

de

una

Arquitectura

Data

Una Arquitectura Data Warehouse (Data Warehouse Architecture DWA) es una forma de representar la estructura total de datos,
comunicacin, procesamiento y presentacin, que existe para los
usuarios finales que disponen de una computadora dentro de la
empresa.
La arquitectura
interconectadas:

se

constituye

de

un

nmero

de

partes

Base de datos operacional / Nivel de base de datos externo


Nivel de acceso a la informacin
Nivel de acceso a los datos
Nivel de directorio de datos (Metadata)
Nivel de gestin de proceso
Nivel de mensaje de la aplicacin
Nivel de data warehouse
Nivel de organizacin de datos

5.2. Elementos
Warehouse

constituyentes

de

una

Arquitectura

Data

En la Figura se muestra algunos de los tipos de operaciones que se


efectan dentro de un ambiente data warehousing.

6.

Proceso de construccin de un Data Warehouse.


6.1. Componentes a tener en cuenta a la hora de construir un
Data Warehose

Hardware
Software de almacenamiento (SGBD)
Software de extraccin y manipulacin de datos
Herramientas Middleware

a) Hardware
Un componente fundamental a la hora de poder contar con un
Data Warehouse que responda a las necesidades analticas
avanzadas de los usuarios, es el poder contar con una
infraestructura hardware que la soporte.
b) Software de almacenamiento (SGBD)
Como hemos comentado, el sistema que gestione el
almacenamiento de la informacin (Sistema de Gestin de Base
de Datos o SGBD), es otro elemento clave en un Data Warehouse.
Independientemente de que la informacin almacenada en el
Data Warehouse se pueda analizar mediante visualizacin
multidimensional, el SGBD puede estar realizado utilizando
tecnologa de Bases de Datos Relacionales o Multidimensionales.
Las bases de datos relacionales, se han popularizado en los
sistemas operacionales, pero se han visto incapaces de
enfrentarse a las necesidades de informacin de los entornos
Data Warehouse. Por ello, y puesto que, como hemos comentado,
las necesidades de informacin suelen atender a consultas
multidimensionales, parece que unas Bases de Datos
multidimensionales, parten con ventaja. En este sentido son de
aplicacin los comentarios que realizamos en el apartado de
hardware, por requerimientos de prestaciones, escalabilidad y
consolidacin tecnolgica.
c) Software de extraccin y manipulacin de datos
Para la extraccin y manipulacin de datos, es crtico el poder
contar con herramientas que permitan controlar y automatizar
los continuos "mimos" y necesidades de actualizacin del Data
Warehouse. Estas herramientas debern proporcionar las
siguientes funcionalidades:
Control de la extraccin de los datos y su automatizacin.
6

Acceso a diferentes tecnologas, haciendo un uso efectivo del


hardware, software, datos y recursos humanos existentes.
Proporcionar la gestin integrada del Data Warehouse y los Data
Marts existentes.
Uso de la arquitectura de metadatos.
Acceso a una gran variedad de fuentes de datos diferentes.
Manejo de excepciones.
Planificacin, logs, interfaces a schedulers de terceros.
Interfaz independiente de hardware.
Soporte en la explotacin del Data Warehouse.
d) Herramientas Middleware
Como herramientas de soporte a la fase de gestin de un Data
Warehouse, analizaremos a continuacin dos tipos de
herramientas:
Por un lado herramientas Middleware, que provean
conectividad entre entornos diferentes, para ayudar en la
gestin del Data Warehouse. Con el uso de estas herramientas
de Middleware lograremos:

Maximizar los recursos ejecutando las aplicaciones en la


plataforma ms adecuada.

Integrar los datos y aplicaciones existentes en una


plataforma distribuida.

Automatizar la distribucin de datos y aplicaciones desde


un sistema centralizado.

Reducir trfico en la red, balanceando los niveles de


cliente servidor.

Explotar las capacidades de sistemas remotos sin tener


que aprender mltiples entornos operativos.

Asegurar la escalabilidad del sistema.

Desarrollar aplicaciones en local y explotarlas en el


servidor.
Por otro, analizadores y aceleradores de consultas, que
permitan optimizar tiempos de respuestas en las necesidades
analticas, o de carga de los diferentes datos desde los
sistemas operacionales hasta el Data Warehouse. El implantar
un sistema analizador de consultas, en el entorno real tiene
adems una serie de ventajas tales como:
Se pueden monitorizar los tiempos de respuesta del entorno
real.
Se pueden implantar mecanismos de optimizacin de las
consultas, reduciendo la carga del sistema.
Se puede imputar costes a los usuarios por el coste del Data
7

Warehouse.
Se pueden implantar mecanismos de bloqueo para las
consultas que vayan a implicar un tiempo de respuesta
excesivo.
6.2. Fases de implantacin de un Data Warehouse
La construccin e implantacin de un Data Warehouse es un proceso
evolutivo. Este proceso se tiene que apoyar en una metodologa
especfica para este tipo de procesos, siendo importante el realizar
un control para asegurar el seguimiento de la misma. Planteamos
aqu la metodologa propuesta por SAS Institute: la "Rapid
Warehousing Methodology". Dicha metodologa es iterativa, y est
basada en el desarrollo incremental del proyecto de Data Warehouse
dividido en cinco fases:

a. Definicin de los objetivos


b. Definicin de los requerimientos de informacin: Tal como
sucede en todo tipo de proyectos, es importante analizar las
necesidades y hacer comprender las ventajas que este sistema
puede reportar.
c. Diseo y modelizacin
Los requerimientos de informacin identificados durante la
anterior fase proporcionarn las bases para realizar el diseo y
la modelizacin del Data Warehouse.
En esta fase se identificarn las fuentes de los datos (sistema
operacional, fuentes externas) y las transformaciones necesarias
para, a partir de dichas fuentes, obtener el modelo lgico de
datos del Data Warehouse. Este modelo estar formado por
entidades y relaciones que permitirn resolver las necesidades
de negocio de la organizacin. El modelo lgico se traducir
posteriormente en el modelo fsico de datos que se almacenar
8

en el Data Warehouse y que definir la arquitectura de


almacenamiento del Data Warehouse adaptndose al tipo de
explotacin que se realice del mismo.
d. Implementacin
La implantacin de un Data Warehouse lleva implcitos los
siguientes pasos:
Extraccin de los datos del sistema operacional y
transformacin de los mismos.
Carga de los datos validados en el Data Warehouse.
Explotacin del Data Warehouse mediante diversas tcnicas
dependiendo del tipo de aplicacin que se d a los datos
Con la finalizacin de esta fase se obtendr un Data Warehouse
disponible para su uso por parte de los usuarios finales y el
departamento de informtica.
e. Revisin
La construccin del Data Warehouse no finaliza con la
implantacin del mismo, despus de implantarse, debera
realizarse una revisin del Data Warehouse planteando
preguntas que permitan, despus de los seis o nueve meses
posteriores a su puesta en marcha, definir cules seran los
aspectos a mejorar o potenciar en funcin de la utilizacin que
se haga del nuevo sistema.
7. Metodologa para la implementacin de un Data Warehouse.
Existen muchas metodologas de diseo y construccin de DW. Sin
embargo, se imponen entre la mayora 3 metodologas ms conocidas: la
de Ralph Kimball, Barry Devlin y la de Wiliam Inmon. Desarrollaremos la
primera.
7.1. Metologia de Ralph Kimball.
Conocido tambin como El ciclo de Vida del Data Warehouse de
Ralph Kimball. Ciclo de Vida se refiere a todos los pasos del proceso
completo de desarrollo de software: planeacin, diseo, codificacin,
prueba, implementacin y administracin, el ciclo de vida de Kimball
es una metodologa paso a paso para disear, desarrollar y
desplegar Data Marts y Data Warehouses.
a) Administracin del Proyecto y Requerimientos:

a.1. Planeacin y Gestin del Proyecto: Este es el primer


paso que se debe efectuar al iniciar la construccin de un
DataWarehouse:
a.2. definir el proyecto: En esta etapa se debe determinar la
preparacin de la organizacin para afrontar dicho proyecto.
a.3. Obtencin de Requerimientos: Cada organizacin es
nica en si misma, por tanto se debe de hacer uso de entrevistas
o sesiones con facilitador para lograr obtener datos de la
informacin necesaria en la empresa
b) Diseo de Datos o Modelado Dimensional:
Este es el corazn de la metodologa de Kimball, El Modelado
Dimensional, es el diseo fsico y lgico que transformar las
antiguas fuentes de datos en las estructuras finales del Data
Warehouse.
b.1. La Arquitectura de Bus del Data Warehouse: Cualquier
implementador de Data Warehouse que quiera ser exitoso
inevitablemente realiza los siguientes pasos:
Crear una arquitectura circundante que defina el alcance e
implementacin del Data Warehouse completo.
Supervisar la construccin de cada pieza del Data Warehouse
completo.
b.2. Tcnicas de Modelado Dimensional: Los elementos
esenciales del modelado dimensional son: Hechos, Atributos y
Dimensiones.
b.3. Mtodo de Diseo de cuatro pasos para disear una
tabla de hechos individual: el diseo lgico detallado de un
esquema dimensional es dirigido por los siguientes cuatro pasos:
Escoger el Data Mart
Declarar la Granularidad de la tabla de Hechos
Escoger las Dimensiones
Escoger los Hechos
b.4. Construccin de Modelos Dimensionales: en la
siguiente etapa, una vez que ya se han identificado los Data
Marts y sus dimensiones asociadas, se procede con los diseos
fsico y lgico detallados de las tablas individuales, se utiliza el
mtodo de cuatro pasos para disear cada tabla de hechos.
c) Arquitectura.
c.1. Arquitectura de Datos: en el rea de arquitectura de datos
se incluye el contenido del Warehouse, el diseo fsico y lgico de
los modelos de datos, agregaciones, jerarquas y ms.
10

c.2. Arquitectura Tcnica: el rea de arquitectura tcnica cubre


los procesos y herramientas que se aplican a los datos. En el rea
tcnica existen dos conjuntos que tienen distintos requerimientos:
El back room (habitacin trasera) y el front room (habitacin
frontal).
El back room es el responsable de la obtencin y preparacin
de los datos, por lo que tambin se conoce como adquisicin
de datos.
El front room es responsable de entregar los datos a la
comunidad de usuario y tambin se le conoce como acceso de
datos. A pesar de esta separacin ambos componentes
interactan de manera significativa.
c.3. Arquitectura de Infraestructura y Metadatos: El rea de
arquitectura de infraestructura se refiere a las plataformas que
soportan los datos y procesos. Es la planta fsica del Data
Warehouse y provee los cimientos para todos los elementos de la
arquitectura ya descritos. La Infraestructura incluye el hardware,
la red y funciones de bajo nivel que los componentes de ms alto
nivel.
d) Implementacin
Antes de iniciar la implementacin es importante decidir qu
hechos deben ser agregados con respecto a que dimensiones con
el objetivo de mejorar el desempeo general del Data Warehouse.
e) Despliegue y Crecimiento
Un despliegue exitoso de un Data Warehouse requiere planeacin
consistente y coordinacin previa a la culminacin de los
esfuerzos de desarrollo. Un apropiado mantenimiento y
crecimiento evidencian el xito de llevar a cabo un proyecto
importante como es un Data Warehouse, una correcta gestin que
ponga en primer lugar satisfacer a los usuarios de negocio, sin
sacrificar atencin al back room y entorno tcnico permite
asegurar una adecuada evolucin del Data Warehouse si es
acompaado de mediciones y rastreo en el Data Warehouse y
retroalimentacin de parte de los usuarios.
8. Herramientas para la implementacin de data Warehouse.
Las herramientas se clasifican en cuatro categoras bsicas:
a. Herramientas de Almacenamiento: corresponde a la herramienta
en la cual se irn a almacenar los datos. Existen muchas opciones
dependiendo del volumen de los datos, presupuesto y capacidad de
su sistema. Cada uno de los sistemas de administracin de bases de
datos, como Oracle, DB2, Informix, TeraData, Sybase, etc, tienen una
facilidad de Data Warehouse.
b. Herramientas de Extraccin y Coleccin: Ayudan a definir,
acumular, totalizar y filtrar los datos de sus sistemas transaccionales
11

en el Data Warehouse. La mayora de esas herramientas son


desarrolladas por el personal interno de la compaa dado el gran
conocimiento que tienen de los sistemas transaccionales.
c. Herramientas para Elaboracin de Reportes a Usuarios
Finales: Es la interfase vista por el usuario. Al usuario se le debe
proveer un mecanismo para que vea los datos a un alto nivel y que
entonces obtenga con ello la solucin a preguntas especficas.
Existen muchas herramientas, incluyendo Cognos Powerplay,
Business Objects, SAS, ShowCase Strategy etc.
d. Herramientas de Anlisis Inteligente: Entre ellas estn las de
empresas como IBM, SAS, Arbor, Cognos, Business Objects, entre
otras. Estas herramientas han sido construidas utilizando inteligencia
artificial que buscan alrededor del Data Warehouse modelos y
relaciones en los datos. Estas herramientas utilizan una tcnica
conocida como Data Minning o Minera de datos.
Adems de estos tenemos herramientas:
-

Herramientas de consultas / reportes, con interfaz grfica, sin


usar sentencias SQL, realizar queries o peticiones complejas.
Herramientas OLAP (On-Line Analytical Processing). Permiten
obtener informacin generando consultas multidimensionales, con
columnas y filas mviles y diversos grados de agrupamiento para
diferentes parmetros.

12

También podría gustarte