Practico #3
Practico #3
Practico #3
1. BUSINESS INTELLIGENCE
1.1. Introducción
La Inteligencia de Negocios (Business Intelligence - BI), permite realizar este tipo de segmentación, además, está
orientada a encontrar información que no solo se encargue de responder a preguntas de lo que está sucediendo o
ya sucedió, sino también, posibilita la construcción de modelos, mediante los cuales se podrán predecir eventos fu
1.2. Definición
definición muy popular acerca de BI, que dice: “Inteligencia de Negocios es el proceso de convertir datos en
conocimiento y el conocimiento en acción, para la toma de decisiones”.
BI hace hincapié en los procesos de recolectar y utilizar efectivamente la información, con el fin de mejorar la
operación de un negocio, brindando a sus usuarios, el acceso a la información clave que necesitan para llevar a
cabo sus tareas habituales y más precisamente, para poder tomar decisiones oportunas bas
1.3. Proceso de BI
una organización puede crear inteligencia de sus datos, para, como ya se ha mencionado, proveer a los usuarios
finales oportuna y acertadamente acceso a esta información
1.4. Beneficios
Reduce el tiempo mínimo que se requiere para recoger toda la información relevante del negocio, ya que
la misma se encontrará integrada en una fuente única de fácil acceso.
Automatiza la asimilación de la información, debido a que la extracción y carga de los datos necesarios se
realizará a través de procesos predefinidos.
Proporciona herramientas de análisis para establecer comparaciones y tomar decisiones.
Cierra el círculo que hace pasar de la decisión a la acción.
Permite a los usuarios no depender de reportes o informes programados, porque los mismos serán
generados de manera dinámica.
Posibilita la formulación y respuesta de preguntas que son claves para el desempeño de la empresa.
Permite acceder y analizar directamente los indicadores de éxito.
Se pueden identificar cuáles son los factores que inciden en el buen o mal funcionamiento de la empresa.
Se podrán detectar situaciones fuera de lo normal.
Se encontrarán y/o descubrirán cuáles son los factores que maximizarán el beneficio.
Permitirá predecir el comportamiento futuro con un alto porcentaje de certeza, basado en el entendimiento
del pasado.
El usuario podrá consultar y analizar los datos de manera sencilla.
2. DATA WAREHOUSE
2.1. Introducción
Data Warehouse (DW), que básicamente se encarga de consolidar, integrar y centralizar los datos que la empresa
genera en todos los ámbitos de una actividad de negocios (Compras, Ventas, Producción, etc), para luego ser
almacenados mediante una estructura que permite el acceso y exploración de la información requerida con buena
performance, facilitando posteriormente, una amplia gama de posibilidad de análisis multivariables, que permitirá
la toma de decisiones estratégicas y tácticas
2.2. Definición
Un Data Warehouse es una colección de datos orientada al negocio, integrada, variante en el tiempo y no volátil
para el soporte del proceso de toma de decisiones de la gerencia”.
2.3. Características
2.3.1. Orientada al negocio
se clasifica en base a los aspectos que son de interés para la empresa. Esta clasificación afecta el diseño y
la implementación de los datos encontrados en el almacén de datos
resuelve diferentes variados tipos de problemas relacionados con las convenciones de nombres,
unidades de medidas, codificaciones, fuentes múltiples, etc
Los puntos de integración afectan casi todos los aspectos de diseño, y cualquiera sea su forma, el
resultado es el mismo, ya que la información será almacenada en el DW en un modelo
globalmente aceptable y singular
2.3.3. Variante en el tiempo
se manejará en el DW, cuando se le realiza una consulta, los resultados deseados demorarán en originarse
2.3.4. No volátil
es útil para el análisis y la toma de decisiones solo cuando es estable. Los datos operacionales varían
momento a momento, en cambio, los datos una vez que entran en el DW no cambian.
2.4. Cualidades
Una de las primeras cualidades que se puede mencionar del DW, es que maneja un gran volumen de datos, debido
a que consolida en su estructura la información recolectada durante años, proveniente de diversas fuentes, en un
solo lugar centralizado
Con respecto a las tecnologías empleadas, en un almacén de datos se pueden encontrar las siguientes:
Arquitectura cliente/servidor
Técnicas avanzadas para replicar, refrescar y actualizar datos
Software front-end, para acceso y análisis de datos.
Herramientas para extraer, transformar y cargar datos en el depósito, desde múltiples fuentes muy
heterogéneas.
Sistema de Gestión de Base de Datos4 (SGBD).
2.5. Ventajas
Los datos son extraídos desde aplicaciones, bases de datos, archivos, etc
Los datos son integrados, transformados y limpiados, para luego ser cargados en el DW.
DW se estructura en cubos multidimensionales, los cuales preparan esta información para responder a
consultas dinámicas con una buena performance
Los usuarios acceden al DW utilizando diversas herramientas de consulta, exploración, análisis, reportes,
etc
3.2. OLTP
los OLTP más habituales que pueden existir en cualquier organización se encuentran:
Archivos de textos.
Hipertextos
Hojas de cálculos.
Informes semanales, mensuales, anuales, etc.
Bases de datos transaccionales.
3.3. Load Manager
En síntesis, las funciones específicas de los ETL son tres:
Extracción.
Transformación.
Carga
3.3.1. Extracción
los datos son seleccionados y extraídos, se guardan en un almacenamiento intermedio, lo cual permite,
entre otras ventajas:
o Manipular los datos sin interrumpir ni paralizar los OLTP, ni tampoco el DW.
o Almacenar y gestionar los metadatos que se generarán en los procesos ETL.
o Facilitar la integración de las diversas fuentes, internas y externas.
3.3.2. Transformación
Esta función es la encargada de convertir aquellos datos inconsistentes en un conjunto de datos
compatibles y congruentes,
3.3.2.1. Codificación
integrar varias fuentes de datos, es la de tener más de una sola forma de codificar un atributo en
común. Por ejemplo, en el campo “género”, algunos diseñadores completan su valor con “0” y
“1”, otros con “F” y “M”
Aquellos datos que han sido transformados y que residen en el almacenamiento intermedio.
Aquellos datos de los OLTP que tienen correspondencia directa con el depósito de datos.
3.3.4. Proceso ETL
el accionar del proceso ETL, y cuál es la relación existente entre sus diversas funciones. En la siguiente
figura se puede apreciar mejor lo antes descrito
3.4.2.3. Relación
Una relación representa la forma en que dos atributos interactúan dentro de una jerarquía. Existen
básicamente dos tipos de relaciones:
Explicitas
Implicitas
3.4.2.4. Granularidad
representa el nivel de detalle al que se desea almacenar la información sobre el negocio que se
esté analizando
ejemplo
los datos almacenados con granularidad media podrán resumirse, pero no tendrán la facultad de
ser analizados a nivel de detalle
3.4.3. Tablas de Hechos
Los hechos son datos instantáneos en el tiempo, que son filtrados, agrupados y explorados
3.4.7. OLTP vs DW
Los OLTP son diseñados para soportar el procesamiento de información diaria de las empresas, y el
énfasis recae en maximizar la capacidad transaccional de sus datos para brindar mayor eficiencia a
sistemas con muchas transacciones que acceden a un pequeño número de registros y están fuertemente
condicionadas por los procesos operacionales que deben soportar, para la óptima actualización de sus
datos
3.4.8. ROLAP
ROLAP (Relational On Line Analytic Processing) cuenta con todos los beneficios de una SGBD
Relacional a los cuales se les provee extensiones y herramientas para poder utilizarlo como un Sistema
Gestor de DW
características más importantes y sobresalientes de ROLAP
3.4.9. MOLAP
MOLAP (Multidimentional On Line Analytic Processing) es almacenar físicamente los datos en
estructuras multidimensionales de manera que la representación externa y la interna coincidan
Las principales características de MOLAP son:
3.4.12.Metadatos
metadatos es análogo al uso de índices para localizar objetos en lugar de datos
Las funciones que cumplen los metadatos en el almacén de datos son muy importantes y significativas,
algunas de ellas son
3.5.2. Drill-up
Drill-up es ir de lo específico a lo general. Gráficamente
3.5.3. Drill-across
Parecido a drill-down su forma de ir de lo general a lo específico es agregar como nuevo criterio de
análisis una nueva dimension
3.5.4. Roll-across
Parecido drill-up su forma de ir de lo específico a lo general es quitar un criterio de análisis eliminando de
la consulta una dimensión.
3.5.5. Pivot
Permite seleccionar el orden de visualización de las dimensiones, con el objetivo de analizar la
información desde diferentes perspectivas.
3.5.6. Page
Presenta el cubo dividido en secciones, a través de los valores de una dimensión, como si se tratase de
páginas de un libro. Gráficamente:
Permite recolectar y organizar la información analítica necesaria para los usuarios y disponer de
ella en diversos formatos, tales como tablas, gráficos, reportes, etc.
Soporta análisis complejos de grandes volúmenes de datos.
No tiene limitaciones con respecto al número máximo de dimensiones permitidas.
3.6.3. Data Mining
una poderosa tecnología con un gran potencial que ayuda y brinda soporte a los usuarios, con el fin de
permitirles analizar y extraer conocimientos ocultos y predecibles a partir de los datos almacenados en un
DW o en un OLTP.
Los sistemas Data Mining se desarrollan bajo lenguajes de última generación basados en la Inteligencia
Artificial y utilizan métodos matemáticos
3.6.3.1. Redes Neuronales
es un modelo computacional con un conjunto de propiedades específicas, como la habilidad de
adaptarse o aprender, generalizar u organizar la información, todo ello basado en un
procesamiento eminentemente paralelo.
las redes neuronales pueden emplearse para:
Resolver problemas, para los cuales es difícil y no natural tratar de especificar o restringir
con anticipación el tamaño y forma de una solución eventual.
nalizar sistemas que actúan sobre condiciones inestables en ambientes cambiantes
Generar de manera automática programas que solucionen problemas planteados.
3.6.3.4. Árboles de Decisión
Son estructuras de forma de árbol que representan conjuntos de decisiones
los árboles de decisión pueden emplearse para:
Hacer transparente al usuario los detalles del almacenamiento físico de los datos
Permitir la realización de cambios a la estructura de la base de datos
Proveer al usuario la seguridad de que sus datos no podrán ser accedidos,
Mantener la integridad de los datos
Proporcionar una manera eficiente de realizar copias de seguridad de la información
Controlar el acceso concurrente de los usuarios.
Facilitar el manejo de grandes volúmenes de información.
II HEFESTO: Metodología propia para la Construcción de un Data Warehouse
5. METODOLOGÍA HEFESTO
5.1. Introducción
5.3. Características
Los objetivos y resultados esperados en cada fase se distinguen fácilmente y son sencillos de comprender
Se basa en los requerimientos del usuario
Reduce la resistencia al cambio, en cada etapa para que tome decisiones respecto al comportamiento y
funciones del DW
Utiliza modelos conceptuales y lógicos
Es independiente del tipo de ciclo de vida, herramientas que se utilicen para su implementación,
estructuras físicas que contengan el DW y de su respectiva distribución.
se aplica tanto para DM como para DW.
5.4. Empresa analizada
Antes de comenzar con el primer paso, es menester describir las características principales de la empresa a la cual
se le aplicará la metodología HEFESTO para que se tome decisión respecto a la implementación y diseño del DW
5.5. Pasos y aplicación metodológica
5.5.1. PASO 1) ANÁLISIS DE REQUERIMIENTOS
5.5.1.1. a) Identificar preguntas
El análisis de los requerimientos de los diferentes usuarios es el punto de partida de esta
metodología
El objetivo principal es identificar las necesidades de información clave de alto nivel , es muy
importante que se preste especial atención al relevar los datos. un buen análisis, es que el
resultado del mismo debe hacer explícitos los objetivos estratégicos
5.5.1.2. b) Identificar indicadores y perspectivas de análisis
los indicadores para que sean realmente efectivos son, en general, valores numéricos y
representan lo que se desea analizar concretamente, por ejemplo: saldos, promedios, cantidades,
sumatorias, fórmulas, etc.
las perspectivas se refieren a los objetos mediante los cuales se quiere examinar los indicadores,
con el fin de responder a las preguntas planteadas, por ejemplo: clientes, proveedores, sucursales,
países, productos, rubros, etc
5.5.2.2. b) Seleccionar los campos que integrarán cada perspectiva Nivel de granularidad
la perspectiva “Tiempo”, es muy importante definir el ámbito mediante el cual se agruparán o
sumarizarán los dato
se debe presentar al usuario los datos de análisis disponibles para cada perspectiva
Crear procedimientos que compriman los datos y que los descompriman en el momento en que se requieran.
Prestar atención a los tipos de datos utilizados, por ejemplo, para valores enteros pequeños conviene utilizar
tinyint o smallint
Definir siempre que sea posible claves numéricas
Realizar particiones al DW para dividirlo en otras pequeñas unidades
6.5. Mantenimiento
Un punto muy importante es mantener en correcto funcionamiento al DW, ya que a medida que pase el tiempo,
este tenderá a crecer significativamente, y surgirán cambios, tanto en los requerimientos como en las fuentes de
datos.
6.6. Impactos
los procesos de toma de decisiones serán optimizados, al obtener información correcta al instante en que se
necesita, evitando perdidas de tiempo y anomalías en los datos . los DW integrarán fuentes de datos de diversas
áreas y sectores de la empresa
6.7. DM como sub proyectos
diseñar e implementar DM se debe tener en cuenta que el análisis que se efectuará, los modelos que intervendrán
y el alcance, deben ser globales con fin de determiner las dimenciones generales antes de dares mas tarea
6.8. Teoría de grafos
teoría de grafos la cual afirma que su estructura será correcta sí y solo sí está conformada únicamente por
trayectorias acíclicas.
trayectoria acíclica
Se deben descartar aquellos campos cuyos valores tengan muy poca variabilidad
Se deben descartar los campos que tengan valores diferentes para cada objeto
que no existan jerarquías dentro de alguna dimensión, en la cual la cantidad de registros que posee la
misma son demasiados
La misma no posee ninguna jerarquía definida y la cantidad de registros con que cuenta son cientos:
Se definira nueva jerarquia tomando en cuenta con una nueva table letra