Practico #3

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 25

UNIVERSIDAD AUTÓNOMA GABRIEL RENÉ MORENO

FACULTAD DE INGENIERIA EN CIENCIAS DE LA COMPUTACION Y


TELECOMUNICACIONES

Nombre: Elian Paz Alvarez Choque


Registro: 218112203
Materia: Sistemas para el soporte a la toma de decisiones
Docente: Rodolfo Erasmo Arana Gonzales

20 de diciembre del 2022


METODOLOGIA HEFESTO
METODOLOGIA PROPIA PARA LA COSTRUCCION DE UN DATA WAREHOUSE

1. BUSINESS INTELLIGENCE
1.1. Introducción
La Inteligencia de Negocios (Business Intelligence - BI), permite realizar este tipo de segmentación, además, está
orientada a encontrar información que no solo se encargue de responder a preguntas de lo que está sucediendo o
ya sucedió, sino también, posibilita la construcción de modelos, mediante los cuales se podrán predecir eventos fu
1.2. Definición
definición muy popular acerca de BI, que dice: “Inteligencia de Negocios es el proceso de convertir datos en
conocimiento y el conocimiento en acción, para la toma de decisiones”.
BI hace hincapié en los procesos de recolectar y utilizar efectivamente la información, con el fin de mejorar la
operación de un negocio, brindando a sus usuarios, el acceso a la información clave que necesitan para llevar a
cabo sus tareas habituales y más precisamente, para poder tomar decisiones oportunas bas
1.3. Proceso de BI
una organización puede crear inteligencia de sus datos, para, como ya se ha mencionado, proveer a los usuarios
finales oportuna y acertadamente acceso a esta información

1.4. Beneficios

 Reduce el tiempo mínimo que se requiere para recoger toda la información relevante del negocio, ya que
la misma se encontrará integrada en una fuente única de fácil acceso.
 Automatiza la asimilación de la información, debido a que la extracción y carga de los datos necesarios se
realizará a través de procesos predefinidos.
 Proporciona herramientas de análisis para establecer comparaciones y tomar decisiones.
 Cierra el círculo que hace pasar de la decisión a la acción.
 Permite a los usuarios no depender de reportes o informes programados, porque los mismos serán
generados de manera dinámica.

 Posibilita la formulación y respuesta de preguntas que son claves para el desempeño de la empresa.
 Permite acceder y analizar directamente los indicadores de éxito.
 Se pueden identificar cuáles son los factores que inciden en el buen o mal funcionamiento de la empresa.
 Se podrán detectar situaciones fuera de lo normal.
 Se encontrarán y/o descubrirán cuáles son los factores que maximizarán el beneficio.
 Permitirá predecir el comportamiento futuro con un alto porcentaje de certeza, basado en el entendimiento
del pasado.
 El usuario podrá consultar y analizar los datos de manera sencilla.
2. DATA WAREHOUSE
2.1. Introducción
Data Warehouse (DW), que básicamente se encarga de consolidar, integrar y centralizar los datos que la empresa
genera en todos los ámbitos de una actividad de negocios (Compras, Ventas, Producción, etc), para luego ser
almacenados mediante una estructura que permite el acceso y exploración de la información requerida con buena
performance, facilitando posteriormente, una amplia gama de posibilidad de análisis multivariables, que permitirá
la toma de decisiones estratégicas y tácticas
2.2. Definición
Un Data Warehouse es una colección de datos orientada al negocio, integrada, variante en el tiempo y no volátil
para el soporte del proceso de toma de decisiones de la gerencia”.

2.3. Características
2.3.1. Orientada al negocio
se clasifica en base a los aspectos que son de interés para la empresa. Esta clasificación afecta el diseño y
la implementación de los datos encontrados en el almacén de datos

 el DW excluye la información que no será utilizada exclusivamente en el proceso de toma de


decisiones;
 los datos operacionales mantienen una relación continua entre dos o más tablas, basadas en
alguna regla comercial vigente
2.3.2. Integrada
son producidos por distintos departamentos, secciones y aplicaciones, tanto internos como externos,
deben ser consolidados en una instancia antes de ser agregados al DW

 resuelve diferentes variados tipos de problemas relacionados con las convenciones de nombres,
unidades de medidas, codificaciones, fuentes múltiples, etc
 Los puntos de integración afectan casi todos los aspectos de diseño, y cualquiera sea su forma, el
resultado es el mismo, ya que la información será almacenada en el DW en un modelo
globalmente aceptable y singular
2.3.3. Variante en el tiempo
se manejará en el DW, cuando se le realiza una consulta, los resultados deseados demorarán en originarse
2.3.4. No volátil
es útil para el análisis y la toma de decisiones solo cuando es estable. Los datos operacionales varían
momento a momento, en cambio, los datos una vez que entran en el DW no cambian.

2.4. Cualidades
Una de las primeras cualidades que se puede mencionar del DW, es que maneja un gran volumen de datos, debido
a que consolida en su estructura la información recolectada durante años, proveniente de diversas fuentes, en un
solo lugar centralizado
Con respecto a las tecnologías empleadas, en un almacén de datos se pueden encontrar las siguientes:

 Arquitectura cliente/servidor
 Técnicas avanzadas para replicar, refrescar y actualizar datos
 Software front-end, para acceso y análisis de datos.
 Herramientas para extraer, transformar y cargar datos en el depósito, desde múltiples fuentes muy
heterogéneas.
 Sistema de Gestión de Base de Datos4 (SGBD).

2.5. Ventajas

 Transforma datos orientados a las aplicaciones en información orientada a la toma de decisiones.


 Integra y consolida diferentes fuentes de datos y departamentos empresariales,
 que anteriormente formaban islas, en una única plataforma sólida y centralizada.
 Provee la capacidad de analizar y explotar las diferentes áreas de trabajo
 Permite reaccionar rápidamente a los cambios del mercado.
 Aumenta la competitividad en el mercado.
 Elimina la producción y el procesamiento de datos que no son utilizados
 Mejora la entrega de información es decir información complete
 Logra un impacto positivo al proceso empresarial
 Aumento de la competitividad de los encargados de tomar decisions
 Permite la toma de decisiones estratégicas y tácticas.
2.6. Desventajas

 Requiere una gran inversion y recursos


 Existe resistencia al cambio por parte de los usuarios.
 Los beneficios del almacén de datos son apreciados en el mediano y largo plazo.
 Si se incluyen datos propios y confidenciales de clientes, proveedores, etc,
 Infravaloración de los recursos necesarios para la captura, carga y almacenamiento
 Infravaloración del esfuerzo necesario para su diseño y creación.
 Incremento continuo de los requerimientos del usuario.
2.7. Redundancia

 Los datos del ambiente operacional se filtran antes de pertenecer al DW.


 El horizonte de tiempo es muy diferente entre los dos ambientes.
 El almacén de datos contiene un resumen de la información que no se encuentra en el ambiente
operacional.
 Los datos experimentan una considerable transformación, antes de ser cargados al
 DW
2.8. Estructura

2.9. Flujo de Datos


La informacion puede permanecer y ocurrir 3 eventos

 Sean borrados del depósito de datos.


 Sean resumidos, ya sea a nivel de Datos ligeramente resumidos o a nivel de Datos altamente resumidos.
 Sean archivados a nivel de Detalle de datos históricos
3. ARQUITECTURA DEL DATA WAREHOUSE
3.1. Introducción
En el esquema se lo resume de esta manera los procedimientos que sigue

 Los datos son extraídos desde aplicaciones, bases de datos, archivos, etc
 Los datos son integrados, transformados y limpiados, para luego ser cargados en el DW.
 DW se estructura en cubos multidimensionales, los cuales preparan esta información para responder a
consultas dinámicas con una buena performance
 Los usuarios acceden al DW utilizando diversas herramientas de consulta, exploración, análisis, reportes,
etc
3.2. OLTP

los OLTP más habituales que pueden existir en cualquier organización se encuentran:

 Archivos de textos.
 Hipertextos
 Hojas de cálculos.
 Informes semanales, mensuales, anuales, etc.
 Bases de datos transaccionales.
3.3. Load Manager
En síntesis, las funciones específicas de los ETL son tres:

 Extracción.
 Transformación.
 Carga
3.3.1. Extracción
los datos son seleccionados y extraídos, se guardan en un almacenamiento intermedio, lo cual permite,
entre otras ventajas:
o Manipular los datos sin interrumpir ni paralizar los OLTP, ni tampoco el DW.
o Almacenar y gestionar los metadatos que se generarán en los procesos ETL.
o Facilitar la integración de las diversas fuentes, internas y externas.

3.3.2. Transformación
Esta función es la encargada de convertir aquellos datos inconsistentes en un conjunto de datos
compatibles y congruentes,
3.3.2.1. Codificación
integrar varias fuentes de datos, es la de tener más de una sola forma de codificar un atributo en
común. Por ejemplo, en el campo “género”, algunos diseñadores completan su valor con “0” y
“1”, otros con “F” y “M”

3.3.2.2. Medida de atributos


representar los atributos de una entidad, varían considerablemente entre sí, a través de los
diferentes OLTP. Por ejemplo, al registrar la longitud de un producto determinado, de acuerdo a
la aplicación
3.3.2.3. Convenciones de nombramiento
un mismo atributo es nombrado de diversas maneras en los diferentes OLTP. Por ejemplo al
referirse al nombre del proveedor, puede hacerse como “nombre”, “razón_social”, “proveedor”,
etc

3.3.2.4. Fuentes múltiples


Un mismo elemento puede derivarse desde varias fuentes. En este caso, se debe elegir aquella
fuente que se considere más fiable y apropiada.

3.3.2.5. Limpieza de datos


Las acciones más típicas que se pueden llevar a cabo al encontrarse con Datos Anómalos
(Outliers) son:
• Ignorarlos.
• Eliminar la columna.
• Filtrar la columna.
• Filtrar la fila errónea, ya que a veces su origen, se debe a casos especiales.
• Reemplazar el valor.
• Discretizar los valores de las columnas. Por ejemplo de 1 a 2, poner “bajo”; de 3 a 7,
“óptimo”; de 8 a 10, “alto”. Para que los outliers caigan en “bajo” o en “alto” sin mayores
problemas.
Las acciones que suelen efectuarse contra Datos Faltantes (Missing Values) son:
• Ignorarlos.
• Eliminar la columna.
• Filtrar la columna.
• Filtrar la fila errónea, ya que a veces su origen, se debe a casos especiales.
• Reemplazar el valor.
• Esperar hasta que los datos faltantes estén disponibles.
3.3.3. Carga
Este proceso es el responsable de cargar la estructura de datos del DW con:

 Aquellos datos que han sido transformados y que residen en el almacenamiento intermedio.
 Aquellos datos de los OLTP que tienen correspondencia directa con el depósito de datos.
3.3.4. Proceso ETL
el accionar del proceso ETL, y cuál es la relación existente entre sus diversas funciones. En la siguiente
figura se puede apreciar mejor lo antes descrito

3.3.5. Tareas del ETL


Los ETL, son los encargados de realizar dos tareas bien definidas:

 Carga Inicial (Initial Load).


 Actualización, mantenimiento o refresco periódico (siempre teniendo en cuenta un intervalo de
tiempo predefinido para tal operación).
3.4. Data Warehouse Manager

3.4.1. Base de datos multidimensional


Las bases de datos multidimensionales, proveen una estructura que permite tener acceso flexible a los
datos, para explorar y analizar sus relaciones, y resultados consiguientes
Ejemplo
3.4.2. Tablas de Dimensiones
Las tablas de dimensiones definen como están los datos organizados lógicamente y proveen el medio para
analizar el contexto del negocio.

3.4.2.1. Dimensión Tiempo


En un DW, la dimensión Tiempo es obligatoria, y la definición de granularidad y jerarquía de la
misma depende de la dinámica del negocio que se este analizando
ejemplo analizar las ventas realizadas teniendo en cuenta el día de la semana en que se
produjeron, quincena, mes, trimestre, semestre, año, etc
3.4.2.2. Jerarquías
Una jerarquía representa una relación lógica entre dos o más atributos dentro de una misma
dimensión.
Ejemplo

3.4.2.3. Relación
Una relación representa la forma en que dos atributos interactúan dentro de una jerarquía. Existen
básicamente dos tipos de relaciones:

 Explicitas
 Implicitas
3.4.2.4. Granularidad
representa el nivel de detalle al que se desea almacenar la información sobre el negocio que se
esté analizando
ejemplo
los datos almacenados con granularidad media podrán resumirse, pero no tendrán la facultad de
ser analizados a nivel de detalle
3.4.3. Tablas de Hechos
Los hechos son datos instantáneos en el tiempo, que son filtrados, agrupados y explorados

3.4.4. Esquema en Estrella


consta de una tabla de hechos central y de varias tablas de dimensiones relacionadas a esta

3.4.5. Esquema Copo de Nieve


una extensión del modelo en estrella cuando las dimensiones se organizan en jerarquías de dimensiones

3.4.6. Esquema Constelación


compuesto por una serie de esquemas en estrella, y tal como se puede apreciar en la siguiente figura Su
diseño y cualidades son muy similares a las del esquema en estrella

3.4.7. OLTP vs DW
Los OLTP son diseñados para soportar el procesamiento de información diaria de las empresas, y el
énfasis recae en maximizar la capacidad transaccional de sus datos para brindar mayor eficiencia a
sistemas con muchas transacciones que acceden a un pequeño número de registros y están fuertemente
condicionadas por los procesos operacionales que deben soportar, para la óptima actualización de sus
datos

3.4.8. ROLAP
ROLAP (Relational On Line Analytic Processing) cuenta con todos los beneficios de una SGBD
Relacional a los cuales se les provee extensiones y herramientas para poder utilizarlo como un Sistema
Gestor de DW
características más importantes y sobresalientes de ROLAP

 Almacena la información en una base de datos relacional.


 Posee tres capas lógicas: de almacenamiento, de análisis y de presentación.
 Utiliza índices de mapas de bits.
 Utiliza índices de Join.
 Posee técnicas de particionamiento de datos.
 Posee optimizadores de consultas.
 Cuenta con extensiones del SQL (drill-up, drill-down, etc).

3.4.9. MOLAP
MOLAP (Multidimentional On Line Analytic Processing) es almacenar físicamente los datos en
estructuras multidimensionales de manera que la representación externa y la interna coincidan
Las principales características de MOLAP son:

 Posee tecnología optimizada para consultas y análisis, basada en el modelo multidimensional.


 Cuenta con un motor especializado.
 Provee herramientas limitadas y propietarias.
 No es adecuada para muchas dimensiones.
 Construye y almacena datos en estructuras multidimensionales.
3.4.10.HOLAP
HOLAP (Hybrid On Line Analytic Processing) constituye un sistema híbrido entre MOLAP y ROLAP,
que combina estas dos implementaciones para almacenar algunos datos en un motor relacional y otros en
una base de datos multidimensional.
3.4.11.Cubo Multidimensional
Un cubo multidimensional o hipercubo, representa o convierte los datos planos que se encuentran en filas
y columnas, en una matriz de N dimensiones.

3.4.12.Metadatos
metadatos es análogo al uso de índices para localizar objetos en lugar de datos
Las funciones que cumplen los metadatos en el almacén de datos son muy importantes y significativas,
algunas de ellas son

 Facilitan el flujo de trabajo, convirtiendo datos automáticamente de un formato a otro.


 Facilita la búsqueda y descripción de los contenidos del DW
 se transforman e integran los datos fuentes operacionales y externos al ambiente del depósito de
datos
3.4.12.1.Mapping
se refiere a relacionar un conjunto de objetos, tal como actualmente están almacenados en memoria o en
disco, con otros objetos. Por ejemplo: una estructura de base de datos lógica, se proyecta sobre la base de
datos física.
3.5. Query Manager
3.5.1. Drill-down
Drill-down es ir de lo general a lo específico. Gráficamente

3.5.2. Drill-up
Drill-up es ir de lo específico a lo general. Gráficamente

3.5.3. Drill-across
Parecido a drill-down su forma de ir de lo general a lo específico es agregar como nuevo criterio de
análisis una nueva dimension
3.5.4. Roll-across
Parecido drill-up su forma de ir de lo específico a lo general es quitar un criterio de análisis eliminando de
la consulta una dimensión.

3.5.5. Pivot
Permite seleccionar el orden de visualización de las dimensiones, con el objetivo de analizar la
información desde diferentes perspectivas.
3.5.6. Page
Presenta el cubo dividido en secciones, a través de los valores de una dimensión, como si se tratase de
páginas de un libro. Gráficamente:

3.6. Herramientas de Consulta y Análisis

3.6.1. Reportes y Consultas


es la producción de consultas y reportes, que ofrecen a los usuarios, a través de pantallas gráficas
intuitivas, la posibilidad de generar informes avanzados y detallados del área de interés del negocio
3.6.2. OLAP
OLAP (On Line Analytic Processing), es la componente más poderosa de los DW, ya que es el motor de
consultas especializado de la bodega.
OLAP, son una tecnología de software para análisis en línea, administración y ejecución de consultas, que
permiten inferir información del comportamiento del negocio.
OLAP requieren que los datos estén organizados dentro del depósito en forma multidimensional

 Permite recolectar y organizar la información analítica necesaria para los usuarios y disponer de
ella en diversos formatos, tales como tablas, gráficos, reportes, etc.
 Soporta análisis complejos de grandes volúmenes de datos.
 No tiene limitaciones con respecto al número máximo de dimensiones permitidas.
3.6.3. Data Mining
una poderosa tecnología con un gran potencial que ayuda y brinda soporte a los usuarios, con el fin de
permitirles analizar y extraer conocimientos ocultos y predecibles a partir de los datos almacenados en un
DW o en un OLTP.
Los sistemas Data Mining se desarrollan bajo lenguajes de última generación basados en la Inteligencia
Artificial y utilizan métodos matemáticos
3.6.3.1. Redes Neuronales
es un modelo computacional con un conjunto de propiedades específicas, como la habilidad de
adaptarse o aprender, generalizar u organizar la información, todo ello basado en un
procesamiento eminentemente paralelo.
las redes neuronales pueden emplearse para:

 Resolver problemas en dominios complejos con variables continuas y categóricas.


 Modelizar relaciones no lineales.
 Clasificar y predecir resultados.
3.6.3.2. Sistemas Expertos
puede definirse como un sistema informático (hardware y software) que simula a los expertos
humanos en un área de especialización dada
los sistemas expertos pueden utilizarse para:

 Realizar transacciones bancarias a través de cajeros automáticos.


 Controlar y regular el flujo de tráfico en las calles y en los ferrocarriles, mediante la
operación automática de semáforos
 Resolver complicados problemas de planificación en los cuales intervienen muchas
variables.
 Descubrir relaciones entre diversos conjuntos de variables.
3.6.3.3. Programación Genética
El verdadero valor de esta inducción está fundamentado en que todos los problemas se pueden
expresar como un programa de computadora.
la programación genética se utiliza para:

 Resolver problemas, para los cuales es difícil y no natural tratar de especificar o restringir
con anticipación el tamaño y forma de una solución eventual.
 nalizar sistemas que actúan sobre condiciones inestables en ambientes cambiantes
 Generar de manera automática programas que solucionen problemas planteados.
3.6.3.4. Árboles de Decisión
Son estructuras de forma de árbol que representan conjuntos de decisiones
los árboles de decisión pueden emplearse para:

 Optimizar respuestas de campañas.


 Identificar clientes potenciales.
 Realizar evaluación de riesgos.
3.6.3.5. Detección de Desviación
Analiza una serie de datos similares, y cuando encuentra un elemento que no coincide con el resto
lo considera una desviación
la detección de desviación puede utilizarse para:

 Descubrir excepciones a modelos establecidos.


 Delimitar grupos que cumplan con condiciones preestablecidas.
3.6.4. EIS
EIS se utiliza para analizar las métricas e indicadores de performance y desempeño del negocio o área de
interés, a través de la presentación de vistas con datos simplificados, altamente consolidados, mayormente
estáticos y preferentemente gráficos
3.7. Usuarios
Los usuarios que posee el DW son aquellos que se encargan de tomar decisiones y de planificar las actividades
del negocio

4. OTROS CONCEPTOS A TENER EN CUENTA


4.1. Sistema de Misión Crítica
Los usuarios siempre poseen una cierta resistencia al cambio cada vez que se les presenta una nueva herramienta
o software, es por ello que al principio no todos confiarán en el DW, y por ende no lo utilizarán. Pero a medida
que pasa el tiempo y los usuarios pueden comprobar por sí mismos su buen funcionamiento
En resumen, conforme la empresa comienza a utilizar cada vez más los datos del DW, y desde luego se fían de su
buen funcionamiento y desempeño para producir de forma sencilla
4.2. Data Mart
Data Mart (DM) departamentales. Un DM es la implementación de un DW con alcance restringido a un área
funcional, problema en particular, departamento, tema o grupo de necesidades

Los DM se cargan a través de procesos ETL


4.3. SGBD
SGBD (Sistema de Gestión de Base de Datos) son un tipo de software muy específico, dedicados a servir de
interfaz entre la base de datos, el usuario y las aplicaciones que lo utilizan.
objetivos que deben cumplir los SGBD

 Hacer transparente al usuario los detalles del almacenamiento físico de los datos
 Permitir la realización de cambios a la estructura de la base de datos
 Proveer al usuario la seguridad de que sus datos no podrán ser accedidos,
 Mantener la integridad de los datos
 Proporcionar una manera eficiente de realizar copias de seguridad de la información
 Controlar el acceso concurrente de los usuarios.
 Facilitar el manejo de grandes volúmenes de información.
II HEFESTO: Metodología propia para la Construcción de un Data Warehouse
5. METODOLOGÍA HEFESTO
5.1. Introducción

HEFESTO es una metodología propia para el proceso de confección de almacenes de datos


5.2. Descripción
La metodología HEFESTO puede resumirse a través del siguiente gráfico

5.3. Características

 Los objetivos y resultados esperados en cada fase se distinguen fácilmente y son sencillos de comprender
 Se basa en los requerimientos del usuario
 Reduce la resistencia al cambio, en cada etapa para que tome decisiones respecto al comportamiento y
funciones del DW
 Utiliza modelos conceptuales y lógicos
 Es independiente del tipo de ciclo de vida, herramientas que se utilicen para su implementación,
estructuras físicas que contengan el DW y de su respectiva distribución.
 se aplica tanto para DM como para DW.
5.4. Empresa analizada
Antes de comenzar con el primer paso, es menester describir las características principales de la empresa a la cual
se le aplicará la metodología HEFESTO para que se tome decisión respecto a la implementación y diseño del DW
5.5. Pasos y aplicación metodológica
5.5.1. PASO 1) ANÁLISIS DE REQUERIMIENTOS
5.5.1.1. a) Identificar preguntas
El análisis de los requerimientos de los diferentes usuarios es el punto de partida de esta
metodología
El objetivo principal es identificar las necesidades de información clave de alto nivel , es muy
importante que se preste especial atención al relevar los datos. un buen análisis, es que el
resultado del mismo debe hacer explícitos los objetivos estratégicos
5.5.1.2. b) Identificar indicadores y perspectivas de análisis
los indicadores para que sean realmente efectivos son, en general, valores numéricos y
representan lo que se desea analizar concretamente, por ejemplo: saldos, promedios, cantidades,
sumatorias, fórmulas, etc.
las perspectivas se refieren a los objetos mediante los cuales se quiere examinar los indicadores,
con el fin de responder a las preguntas planteadas, por ejemplo: clientes, proveedores, sucursales,
países, productos, rubros, etc

5.5.1.3. c) Modelo Conceptual


se construirá un modelo conceptual1 a partir de los indicadores y perspectivas obtenidas
5.5.2. PASO 2) ANÁLISIS DE LOS OLTP
5.5.2.1. a) Establecer correspondencias con los requerimientos
El objetivo de este análisis, es el de examinar los OLTP disponibles que contengan la
información requerida . En el caso de los indicadores, deben explicitarse como se calcularán

5.5.2.2. b) Seleccionar los campos que integrarán cada perspectiva Nivel de granularidad
la perspectiva “Tiempo”, es muy importante definir el ámbito mediante el cual se agruparán o
sumarizarán los dato
se debe presentar al usuario los datos de análisis disponibles para cada perspectiva

5.5.3. PASO 3) ELABORACIÓN DEL MODELO LÓGICO DE LA ESTRUCTURA DEL DW


5.5.3.1. a) Diseñar tablas de dimensiones
crear las dimensiones del mismo, para ello se tomará cada perspectiva con sus atributos
relacionados y se les realizará el siguiente proceso

5.5.3.2. b) Diseñar tablas de hechos


se definirán las tablas de hechos, que son las que contendrán los indicadores de studio

5.5.3.3. c) Realizar uniones

5.5.3.4. d) Determinar jerarquías

5.5.4. PASO 4) PROCESOS ETL, LIMPIEZA DE DATOS Y SENTENCIAS SQL


Una vez construido el modelo lógico, se deberá proceder a probarlo con datos, a través de procesos ETL.
Al generar los ETL, se debe tener en cuenta cual es la información que se desea almacenar en el depósito
de datos
6. OTRAS CONSIDERACIONES A TENER EN CUENTA
6.1. Tamaño del DW
tamaño del depósito de datos, se lo puede clasificar como

 Personal: si su tamaño es menor a 1 Gigabyte.


 Pequeño: si su tamaño es mayor a 1 Gigabyte y menor a 50 Gigabyte.
 Mediano: si su tamaño es mayor a 50 Gigabyte y menor a 100 Gigabyte
 Grande: si su tamaño es mayor a 100 Gigabyte y menor a 1 Terabyte.
 Muy grande: si su tamaño es mayor a 1 Terabyte
6.2. Tiempo de construcción
factor tiempo

 El 70 % definir el problema y en preparar la tabla de datos


 El primer 90 % de la construcción de un sistema absorbe el 90 % del tiempo y esfuerzo asignados; el
último 10 % se lleva el otro 90 % del tiempo y esfuerzo asignado.
6.3. Implementación
Las implementaciones de los depósitos de datos varían entre sí de forma considerable, teniendo en cuenta las
herramientas de software que se empleen, los modelos que se utilicen, recursos disponibles, SGBD que lo
soporten, herramientas de análisis y consulta, entre otros
6.4. Performance
los tiempos incurridos en el procesamiento y acceso a la información serán esenciales, y más aún si el DW es
considerado o tomado como un sistema de misión crítica
performance del depósito pueden realizarse dos acciones diferente

 Darle mayor interés a velocidad de acceso y procesamiento de los datos.


 Optimizar el espacio en disco, reduciendo su volumen.
si se desea tener performance en lo referido a espacio en disco

 Crear procedimientos que compriman los datos y que los descompriman en el momento en que se requieran.
 Prestar atención a los tipos de datos utilizados, por ejemplo, para valores enteros pequeños conviene utilizar
tinyint o smallint
 Definir siempre que sea posible claves numéricas
 Realizar particiones al DW para dividirlo en otras pequeñas unidades
6.5. Mantenimiento
Un punto muy importante es mantener en correcto funcionamiento al DW, ya que a medida que pase el tiempo,
este tenderá a crecer significativamente, y surgirán cambios, tanto en los requerimientos como en las fuentes de
datos.
6.6. Impactos
los procesos de toma de decisiones serán optimizados, al obtener información correcta al instante en que se
necesita, evitando perdidas de tiempo y anomalías en los datos . los DW integrarán fuentes de datos de diversas
áreas y sectores de la empresa
6.7. DM como sub proyectos
diseñar e implementar DM se debe tener en cuenta que el análisis que se efectuará, los modelos que intervendrán
y el alcance, deben ser globales con fin de determiner las dimenciones generales antes de dares mas tarea
6.8. Teoría de grafos
teoría de grafos la cual afirma que su estructura será correcta sí y solo sí está conformada únicamente por
trayectorias acíclicas.
trayectoria acíclica

Una trayectoria cíclica

6.9. Elección de columnas


se seleccionan los atributos que integrarán el DW, se debe tener en cuenta lo siguiente

 Se deben descartar aquellos campos cuyos valores tengan muy poca variabilidad
 Se deben descartar los campos que tengan valores diferentes para cada objeto
 que no existan jerarquías dentro de alguna dimensión, en la cual la cantidad de registros que posee la
misma son demasiados
La misma no posee ninguna jerarquía definida y la cantidad de registros con que cuenta son cientos:
Se definira nueva jerarquia tomando en cuenta con una nueva table letra

También podría gustarte