Business Inteiligence

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 16

Business Intelligence:

Término paraguas que incluye las aplicaciones, infraestructuras y herramientas, y las


mejores prácticas que facilitan el acceso y análisis de información para mejorar y
optimizar decisiones y rendimiento o desempeño (performance).

La combinación de tecnología, herramientas y procesos que me permiten transformar


mis datos almacenados en información, esta información en conocimiento y este
conocimiento dirigido a un plan o una estrategia comercial.

Business Analytics
Comprensión de las soluciones utilizadas para construir modelos de análisis y
simulaciones para crear escenarios, comprender realidades y predecir estados
futuros.

Estrategias, tecnologías y sistemas que permiten analizar el rendimiento pasado de


una organización para poder predecir comportamientos futuros, así como para
detectar patrones ocultos en la información.

Big Data
Se entiende por Big Data el conjunto de estrategias, tecnologías y sistemas para
el almacenamiento, procesamiento, análisis y visualización de conjuntos de datos
complejos, que frecuentemente, pero no siempre, viene definida por volumen,
velocidad y variedad.

ARQUITECTURA DE LA INTELIGENCIA DE NEGOCIOS


La arquitectura de Bl es un marco de trabajo (framework) que detalla los diferentes
componentes del sistema de Inteligencia de Negocios, tales como datos, personas,
procesos, tecnologías y gestión/administración, y la forma en que estos componentes
se han de combinar y coordinar para asegurar el correcto funcionamiento del sistema.

 Capa de fuentes de datos


o Fuentes internas (CRM, ERP, SCM)
o Fuentes externas
 Capa de proceso ETL (Extract, Transform, Load)
 Capa de almacenes de datos (Data Warehouse, Data Mart)
 Capa de metadatos
 Capa de usuario final (análisis y visualización de resultados)
o Herramientas de informes y consulta
o OLAP (minería de datos)
o Herramientas de visualización de datos1
o Apps analíticas

FUENTES DE DATOS
1
Qlik View, QlikSesion, Tableau, Power Bl, Domo, Pentaho, MicroStrategy, Business Object.
Los datos son estructurados (tablas, bases de datos), semiestructurados (texto, logs,
xml, etc.) o no estructurados (texto, vídeo, audio, imágenes, redes sociales) 2.
Fuentes Internas. Los datos son capturados pos sistemas operacionales (CRM, ERP,
GIS, SCM) relacionados con operaciones de negocio y procesos (compras, ventas, etc).
Fuente externas. Partners, proveedores de datos, Internet, gobiernos y corporaciones
nacionales y locales, organizaciones de investigación de mercados o científicas, datos
demográficos.

PROCESO ETL
Extracción es el proceso de identificación y recolección de datos relevantes o
significativos de diferentes fuentes.
Los datos extraídos se envían a unárea de almacenamiento temporal que se
llama Data Staging, que es previa al proceso de transformación y limpieza.
Transformación es el proceso de conversión de los datos, utilizando un conjunto
de reglas de negocio, aplicando un conjunto de reglas de unificación de datos básicos
(misma dimensión) para transformar los datos desde el origen al destino (Staging
Area)
Carga de los datos delárea de staging en el repositorio destino (Data Warehouse y
Data Marts), normalmente a través de un almacén de datos operacional (ODS).

Flujo de datos en proceso ETL3

CAPA DE METADATOS
2
Se calcula que los datos no estructurados corresponden, aproximadamente, a un 90 % de toda la
información disponible por las organizaciones y empresas.
3
Un proceso ELT transforma y carga en el Data Warehouse e una sola operación. Este es el almacén
general que contiene todos los datos, que segregará en almacenes independientes según
departamentos, áreas, funciones, etc. (data marts). Los Data Marts, o Data Warehouses
departamentales, son un subconjunto de los almacenes de datos enfocados y de valor para un
departamento determinado de la empresa, para un conjunto de usuarios o, incluso, para un análisis de
datos específico.
La capa describe dónde se utilizan y almacenan los datos, las fuentes de datos, qué
cambios se realizan a los datos, almacenan información técnica, así como reglas de
negocio y definiciones de datos de todas las capas.

CAPA DE USUARIO FINAL


Las herramientas de la capa de usuario más usuales son: aplicaciones de analítica de
datos, procesamiento analítico en línea (OLAP), herramientas de informes (reporting) y
consultas (query), herramientas de analítica (minería de datos) y herramientas de
visualización.

BIG DATA (INTRODUCCIÓN)


Conjunto de datos de gran volumen y complejos que las herramientas tradicionales,
como las bases de datos relacionales, son incapaces de procesar en un rango de
tiempo aceptables o dentro de un rango de costes razonables. No solo por su cantidad,
ahora los datos provienen de fuentes que proveen datos heterogéneos,
desestructurados y estructurados, en gran volumen y diversos formatos, que no se
pueden procesar con las herramientas tradicionales precisamente por la velocidad a la
que se generan. Por tanto: volumen, variedad, velocidad definen el big data.

ARQUITECTURA DE INTELIGENCIA DE NEGOCIOS CON BIG DATA INTEGRADA


La arquitectura Big Data está compuesta generalmente por cinco capas:
Recolección de datos, almacenamiento, procesamiento de datos, visualización y
administración.

Recolección de datos4.
EL sistema se conecta a las fuentes y extrae datos. Puede hacerlo:
 Batch (por lotes): se conecta periódicamente y actualiza las bases de datos.
 Streaming: conexión en tiempo real de forma continua a la fuente de datos.

Almacenamiento. Ya sea un sistema de archivos distribuido (varios ordenadores o


clúster, o una base de datos NoSQL) para almacenar la información no estructurada en
grandes volúmenes de datos y, posteriormente, se almacenan los resultados de los
procesos y análisis realizados sobre estosdatos en un sistema SQL, obteniendo una
mayor velocidad de respuesta al consultar los resultados.

ARQUITECTURA DE INTELIGENCIA DE NEGOCIOS


incluye bases de datos relaciónales tradicionales, pero, sobretodo, almacenes o
repositorios de datos (Data Warehouses y Data Marts), almacenes de datos Hadoop y
Spark (Big Data) y bases de datos en memoria.
 Almacenes de Datos: Hadoop y Spark: La manipulación de datos (no)
estructurados y semiestructurados requiere de nuevas infraestructuras de
almacenamiento: las más usuales Hadoop y Spark (una versión avanzada de
Hadoop para procesamientos de datos en tiempo real), bases de datos “en
memoria” (in-memory) o las clásicas bases de datos analíticas MPP (siempre
que puedan procesar datos no estructurados y semiestructurados). Hadoop
consta de dos componentes clave: HDFS (un sistema de archivos para
4
En esta etapa puede efectuarse algún procesamiento en los datos: filtrados formateos, por ejemplo.
almacenamiento de datos) y MapReduce, un algoritmo para procesamiento de
datos (de distintos formatos) en paralelo y de alto rendimiento.
 Bases de datos en memoria. Reducen los tiempos de lectura, consulta, etc.
(alto coste).

VISION GERENCIAL DE LA INTELIGENCIA DE NEGOCIOS 5

La Inteligencia de Negocios (Bl) realiza el análisis del pasado (histórico) para describir y
diagnosticar. En esta capa incluye: análisis descriptivo (¿Qué paso?: análisis de la
información histórica) y análisis de diagnostico (¿Por qué sucedió?: análisis de
retrospección).

Los análisis avanzados son métodos cuantitativos sofisticados para la predicción y


prescripción del futuro. Hay de dos tipos: análisis predictivo (¿Qué pasará?) y análisis
prescriptivo (¿Cómo hacemos que suceda?). Buscan la optimización mediante la
comprensión y la prospección6.

5
Existen diferentes arquitecturas de Inteligencia de Negocios de los proveedores de soluciones (Oracle,
SAS, IBM, Microstrategy, SAP, Microsoft) y modelos de expertos y consultores de Inteligencia de
Negocios.
6
La herramienta de Microsoft de Bl y Analítica es Microsoft Cortana Analytics. Las empresas
proveedoras de Inteligencia de Negocios líderes en 2016 son Microsoft, Qlik y Tableau.
ANALÍTICA DE DATOS: CONCEPTOS Y TIPOS

Técnica consistente en capturar, procesar y analizar los datos, con el objetivo de


predecir y anticiparse al futuro en la toma de decisiones. Pretende obtener
conclusiones sobre la información, con el propósito de encontrar patrones o
conocimiento útil que permita optimizar o rentabilizar un proceso de negocio.

Analítica descriptiva
Es un análisis de la información histórica. Se consultan y visualizan datos de manera
agregada provenientes de los diferentes indicadores de negocio, con el objeto de
obtener una visión de lo que ha pasado y lo que está pasando.

Permite a una organización responder ¿qué está pasando? ¿qué ha pasado?, y tomar
decisiones basadas en los resultados.

Una vez realizado el análisis, se aplican estrategias de visualización de datos para


resumir el modelo de negocio. Se puede definir un conjunto de métricas clave (KPI)
para ser visualizadas o bien definir una serie de reglas, de forma que se generen avisos
o alertas automáticas cuando se desvíen de los valores esperados.

Analítica predictiva
aplicación de técnicas matemáticas y estadísticas avanzadas, así como el aprendizaje
automático (machine Iearning), para predecir datos necesarios pero que no se
visualizan directamente y están ausentes.
Se suele realizar tras el análisis descriptivo y permite predecir los posibles escenarios
futuros. Busca extraer conocimiento de los datos en forma de patrones, tendencias o
modelos, que nos proporcionan una cierta certeza sobre situaciones potenciales
futuras. La Analítica predictiva realiza las predicciones de datos que fortalecen las
decisiones del negocio. Responde a las preguntas ¿qué va a pasar? ¿qué es lo que
podría pasar?

Analítica Prescriptiva
El modelo de analítica prescriptiva lleva a efecto una integración completa con el
negocio, mediante la propuesta de recomendaciones sobre las acciones que se han de
seguir para reducir costes o mejorar los beneficios tratando de conseguir, en todos los
casos, un incremento del retorno de la inversión (ROI). Encargada de la automatización
de la toma de decisiones (El sistema prescriptivo recopila información del negocio,
predice, sobre la base de dicha información, el impacto que tendrán las diferentes
políticas o acciones que se vayan a tomar y selecciona la política por seguir con un
mayor retorno de inversión mediante el proceso de optimización. Emite informes de
impacto en escenarios futuros para prevenir, actualiza de forma proactiva las
recomendaciones basadas en sucesos cambiantes.

Responde a preguntas tales como: ¿Qué hacer para que pase? ¿Qué necesito hacer?
¿Cómo podemos hacer que algo suceda?

ANALÍTICA DE DATOS (MODELO DE GARTNER)

La consultora Gartner considera cuatro etapas en la analítica de datos: descriptiva,


diagnóstico, predictiva y prescriptiva.
BIG DATA ANALYTICS
Incluye los diferentes tipos de análisis de datos añadiendo la analítica web, analítica de
textos, analítica social, etc. para obtener valor y conocimiento a partir de grandes
volúmenes de datos.

Proceso de examinar grandes volúmenes de información para descubrir patrones


ocultos, correlaciones desconocidas que pueden originar nuevos servicios o productos
y otra información útil (tendencias de mercado o preferencias de clientes) que se
puede utilizar para tomar mejores decisiones en elámbito de la empresa.

CIENCIA DE DATOS: EVOLUCIÓN DE LA ANALÍTICA DE NEGOCIOS Y EL ANÁLISIS DE


DATOS
Ámbito de conocimiento que engloba las habilidades asociadas a la extracción de
conocimiento de datos. Un científico de datos es un profesional que utiliza técnicas
matemáticas, estadísticas y algorítmicas para encontrar soluciones a problemas
complejos científicos y de negocios. Para ser un buen científico de datos se necesita
tener experiencia en matemáticas y estadística, programación de computadoras y
dominio específico del campo o materia donde se vaya a utilizar.
Ingeniería de datos: Los ingenieros de datos utilizan la destreza en ciencias de la
computación e ingeniería de software para diseñar sistemas y solucionar problemas
que surgen en el proceso y manipulación de grandes conjuntos de datos. Los
ingenieros de
datos han de tener experiencia en las infraestructuras (marcos de trabajo) de
procesamiento en tiempo real (como Spark) y plataformas de procesamiento masivo
(bases de datos NoSQL, “en memoria", bases de datos relaciónales, MPP). Deben ser
capaces de desarrollar código de programación como Java, C+ + o Python, y deben ser
expertos y conocer infraestructuras como la citada Spark y, sobre todo, Hadoop y sus
sistemas de tratamiento de archivos HDFS y sistemas de algoritmos MapReduce para
manejar, procesar y refinar los Big Data como conjuntos más pequeños y manejables.

CAPÍTULO 3.
TRANSFORMACIÓN DIGITAL EN ORGANIZACIONES Y EMPRESAS (ECONOMÍA
COLABORATIVA, EXPERIENCIA DE CLIENTE Y BLOCKCHAIN).

La Transformación Digital es la oportunidad estratégica de incorporar nuevas


tecnologías, pero sobre todo nuevas lógicas, para que el negocio sea más eficiente y
permita nuevas oportunidades. Implica un cambio en la manera de hacer las cosas en
una empresa y en la forma en que ésta se relaciona con sus clientes y stakeholders.
Necesaria si quieren competir en un mercado cada vez más globalizado,
interconectado, digital y omnicanal, pero también hibridación de productos físicos y
servicios virtuales o en la conexión de productos, servicios, cosas y personas de forma
inteligente.

Algunas ventajas:
 Permite una mejor y más rápida adaptabilidad a los cambios de contextos
 Posibilita la competitividad mediante la innovación
 Permite la flexibilidad del trabajo remoto
 Big data y Analytics permiten medir todo.
 Orientada al internet de las cosas, IoT (el mayor disruptor de los negocios en el
futuro).
Un modelo para realizar la digitalización de una empresa que se compone de
doceámbitos o dominios en los que la digitalización impacta a las empresas: Marketing
digital: Comercio digital. Redes sociales. Analíticas. Procesos digitales. Colaboración
digital. Innovación digital. Habilidades digitales. Conocimiento digital. Roles digitales.
Plataforma digital. Puesto de trabajo digital.

Las cuatro palancas de la Transformación Digital (Siemmens): información digital,


automatización de los procesos, conectividad y acceso digital al cliente. Cada palanca
ofrece unas propuestas y unas tecnologías facilitadoras.

El proceso de Delgado7 de Transformación Digital de la empresa, fases:


 Concienciación. Creación de sentido de urgencia. En el comité de dirección.
 Coalición: creación de un grupo de trabajo (task force) que lidere el
proceso.
 Visión: inspiradora de lo que la se quiere conseguir con esta
transformación.
 Comunicación. A toda la organización.
 Plan de implantación. Asignación de recursos, calendario; la estrategia.
 Piloto. Identificar proyectos y actuaciones que tengan un retorno rápido.
 Monitorización de la implantación del plan. Evaluación y comunicación al
comité de dirección.

ECONOMÍA COLABORATIVA
«Un modelo de relaciones y conjuntos de iniciativas basadas en redes horizontales con
la participación de una comunidad y que tiene efectos en todos losámbitos de la
sociedad».

Modelo CoCoMaFiGoSi. Todas las iniciativas forman parte de los bloques: consumo
colaborativo (blablacar), conocimiento abierto (Mooc), makers (Arduino, raspberry pi),
finanzas (crowfounding), Gobierno (transpariencia), sistemas de inrtercambio de
valores (Timerepublik).

EXPERIENCIA DE CLIENTE
Evolución natural del CRM y fundamental en Inteligencia de Negocios. Conjunto de
experiencias (recuerdo/percepción) que (man)tiene un cliente con una marca durante
el tiempo en que haya una relación de servicio. El producto de las percepciones de un
cliente después de interactuar.

Siendo multicanal, la gestión de experiencia de cliente requiere que todas las


conversaciones tengan un único discurso coherente, ordenado y con un trato y
exquisitez que ha de ser igual en todos los canales.

7
En su obra «Digitalízate».
La recopilación, proceso y análisis de los datos extraídos durante el recorrido de un
cliente en la gestión empresarial requiere la integración de la Inteligencia de Negocios
para mejorar la experiencia de cliente. Se hace necesario un conocimiento exhaustivo,
automatizado y en continua actualización, para generar un ciclo de personalización
constante. La recopilación de datos en cada punto de interacción del recorrido del
cliente aporta una foto instantánea del rendimiento integral.

Es necesario integrar la inteligencia de negocios a la experiencia de cliente 8.

BLOCKCHAIN (CADENA DE BLOQUES)


Blockchain es una contabilidad pública entre pares que se mantiene mediante una red
de computadores y que no requiere ninguna autoridad central ni terceras partes que
actúen como intermediarios. En esencia, es una base de datos distribuida que registra
bloques de información y los enlaza mediante apuntadores aleatorios, para facilitar la
recuperación posterior de la información y verificar que no se han modificado. Las
cadenas de bloques están diseñadas para evitar su modificación (si no es con el
consenso de todas las máquinas) una vez creadas. Hace a las redes más seguras 9,
transparentes y confiables sin necesidad de intermediarios.

Implica una reducción significativa de costes, al permitir interactuar y hacer


transacciones sin intermediarios, por lo que se simplifican y se abaratan los procesos.

8
Especialmente mediante la microsegmentación, entendida como la agrupación de clientes que
comparten características similares (sociodemográficas, geográficas, preferencias, etc.), sobre los que
incidiremos a partir de objetivos.
9
Las comunicaciones y transacciones entre computadoras se encriptan (cifran) e incluyen un sello de
tiempo, en fracciones de segundo, para evitar que puedan hacerse dos operaciones iguales a la vez
(como hacer dos pagos con el mismo dinero o que dos personas un mismo objeto). El sellado de tiempo
detecta la primera transacción y la segunda se rechaza.
PARTE II
INFRAESTRUCTURAS Y ARQUITECTURA
DE INTELIGENCIA DE NEGOCIOS

CAPITULO 4
ALMACENES DE DATOS: DATA WAREHOUSE, OLAP Y DATA LAKE

Problemas en la gestión de datos:


 La cantidad de datos aumenta exponencialmente con el tiempo10.
 Los datos están dispersos en diferentes bases de datos o servidores, son
heterogéneos o son recopilados con diferentes métodos.
 Se obtienen de múltiples y diferentes fuentes (BB.DD. propietarias).
 Los datos se degradan con el tiempo (necesitan actualizarse).
 Heterogeneidad de formato, contenido y procedencia.

GOBIERNO DE DATOS
El ciclo de vida de los datos está muy relacionado con la gestión del conocimiento, ya
que la transformación de los datos en conocimiento (las aplicaciones o soluciones que
utilizan eficazmente la información) se realiza en varias etapas. Comienza con la
captura de colecciones de datos que proceden de distintas fuentes (datos internos,
externos y personales o de usuarios finales), y su almacenamiento en bases de datos. A
continuación, serán preprocesados para adaptarse al formato de un Data Warehouse o
un Data Mart, donde se alojarán definitivamente. Luego, Los usuarios acceden allí y
recogen los datos, una muestra, que necesitan para su análisis. El análisis de datos se
realiza con técnicas de análisis y herramientas de Minería de Datos, que obtienen
patrones para corregir la interpretación mediante resultados (visualización de datos,
apoyo a la decisión y herramientas de gestión del conocimiento) y el uso de
herramientas o soluciones (sistemas de información) como CRM, ERP, SCM o comercio
electrónico.

Implica la capacidad de almacenar, mantener, intercambiar y sincronizar los datos


maestros11, de modo que sean consistentes, precisos (correctos) y oportunos.

Calidad de los datos


Determina la utilidad de los datos as í como la calidad de las decisiones que se basan
en ellos. Se rige por la veracidad, integridad y calidad de los mismos; con distintas
dimensiones: precisión, accesibilidad, relevancia, oportunidad y completitud.

Organización jerárquica de datos


10
Muchos datos históricos se deben mantener durante largos períodos, y además nuevos datos se
añaden con gran rapidez.
11
Los datos maestros (categorías) implican transacciones múltiples y se utilizan para categorizar,
agregar y evaluar los datos transaccionales. Por ejemplo, un dato transaccional puede ser: Luis ha
comprado en un gran almacén un televisor LED Smart TV de 42 pulgadas, el 5 de septiembre de 2014. En
este caso, los datos maestros son “vendedor", “número de serie”, “precio de la compra", “fecha de la
compra”, etc. La aplicación de los valores específicos a un dato maestro representa una transacción.
Un bit representa la unidad más pequeña de datos (001) que puede procesar una
computadora. Un byte (conjunto de ocho bits) representa un único carácter (letra,
dígito, símbolo). Un campo es una palabra, un grupo de palabras o un número ('‘Pintor
Murillo”, “Maestría”, “64.549”). Un registro es un conjunto de campos relacionados
entre sí (nombre, edad, dirección, curso que estudia, etc.). Un archivo o archivo de
datos es un conjunto de registros. Una base de datos es un conjunto de archivos
relacionados (una base de datos de un banco puede contener un archivo de clientes,
de empleados o de productos).

Bases de Datos12
 Centralizadas (más lentas y vulnerables: si se rompe, lo hace para todos).
 Distribuidas
o Particionadas: cada posición tiene una parte de la base de datos.
o Replicadas: bases de datos completas en diferentes localizaciones13.

DATA WAREHOUSE
Es un gran almacén o depósito de datos, donde se integran datos procedentes de
varias fuentes: internas (procedentes de los sistemas transaccionales de los diferentes
departamentos de la empresa, tales como recursos humanos, marketing, ingenierías,
etc.), externas y personales. Repositorio de gran capacidad de datos históricos que se
organizan por temas para el apoyo en la toma de decisiones.

Proveedores

Características
 Orientado a temas o entidades (vendedor, cliente, producto, precio, etc.).
 Integrado. Los datos que se producen en las diferentes fuentes se integran y
homogenizan a medida que se cargan en un Data Warehouse.
 Almacenar años de datos, es decir, datos históricos de varios años.
 No volátil. Después de que los datos se han introducido en un Data
Warehouse, los usuarios no pueden cambiar o actualizar los datos 14.
 Multidimensional: Las bases de datos relaciónales almacenan datos en tablas
bidimensionales. Los DW tienen una estructura de cubos, cuyas aristas serian
las dimensiones del negocio, temas o quizá las entidades.
 Basados en la Web.
 Cliente / servidor. Tienen esta estructura de acceso.
 Tiempo real. Permiten su uso constantemente actualizado.
 Metadatos. Un Data Warehouse contiene metadatos (datos que generan
datos), que facilitan la gestión de datos complejos.
 Complejos de implantar15 y costosos.

DATE MART

12
Los mejores proveedores son: Microsoft, Oracle, Amazon y SAP.
13
Presentan el problema de la actualización: la consistencia falla cuando se modifican los registros.
14
Los datos se actualizan, pero solo a través de procesos de carga (entrada).
15
Para su implantación, dos a tres meses para un Data Mart, y no menos de seis a nueve meses para un
Data Warehouse. Conviene centralizar cuando el volumen de datos crezca.
Almacén de datos departamental o funcional, de un tamaño más pequeño y aplicado a
un departamento específico, en lugar del Data Warehouse global de la empresa.
Pueden ser dependientes (de un DW), ofreciendo más consistencia, o independientes
(se nutren directamente de las fuentes).

Están hechos para necesidades específicas (no tanto para analítica de negocio). 16

INTEGRACIÓN 17DE DATOS (ETL): Extraction, Transform, Load.


Los datos (internos, externos y personales) requieren su extracción (de diferentes
fuentes), transformación (para hacerlos eficaces) y carga (en el DW).

La extracción de datos mediante:


 consulta con SQL (el lenguaje de consulta) en bases de datos.
 Software comercial especifico de integración de datos (ETL).
 desarrollo propio.

METADATOS, CALIDAD Y GOBIERNO DE UN DATA WAREHOUSE


Los metadatos indican para cada atributo de un Data Warehouse la fuente original de
datos, su significado y las transformaciones a las que ellos se han sometido. La
documentación proporcionada por los metadatos debe mantenerse constantemente
actualizada, con el objetivo de reflejar cualquier modificación en la estructura del
Data Warehouse.

CALIDAD DE LOS DATOS EN UN ALMACEN DE DATOS


 Precisión (accuracy). Los datos deben ser altamente correctos.
 Completitud. Procurar que no se produzcan pérdidas de valores.

16
Sistemas operacionales/transaccionales: OLTP, son las bases de datos bidimensionales tradicionales.
17
Los proveedores que mejor integran todas las herramientas (adquisición de datos para Inteligencia de
Negocios, Analítica y Data Warehousing; Gestión de datos maestros; Consistencia de datos entre
aplicaciones comerciales; Compartición de datos entre empresas; Gestión de datos en Lagos de Datos;
Migración de datos) según Gartner, 2018, son: IBM, SAP, SAS, Oracle, Informática y Talend.
 Consistencia. De formato y contenido tras procedimientos de integración.
 Oportunos. Deben actualizarse según los objetivos del análisis.
 No redundantes, significativos y accesibles.

OLAP. PROCESAMIENTO ANALÍTICO EN LÍNEA (MULTIDEMENSIONAL)18.


Las bases de datos relacionales (convencionales) son idóneas para registrar datos
provenientes de las transacciones ordinarias (sistemas OLTP, procesamiento de
transacciones en línea), ya que almacenan los datos en tablas discretas que han sido
normalizadas. Esta estructura es idónea para los OLTP, como ya se ha comentado, pero
para consultas complejas tipo multitabla (comparar ventas de diferentes ventas, por
ejemplo) se vuelve relativamente lenta; en este caso, el modelo más adecuado es una
base de datos multidimensional o cubo de datos OLAP.

Hay escenarios con mucha actividad de lectura, como el análisis y la inteligencia


empresarial (OLAP), a diferencia del procesamiento de datos transaccionales (OLTP)
con una elevada actividad de escritura.

CUBOS OLAP
Un cubo OLAP es una base de datos que posee varias dimensiones, que amplía las
posibilidades que hasta el momento ofrecían las conocidas hojas de calculo. Una base
de datos multidimensional puede contener varios cubos o vectores (hipercubos). Las
herramientas OLAP19: MOLAP, ROLAP, HOLAP y DOLAP (sistemas OLAP de escritorio).
 MOLAP: base de datos multidimensional. Los datos se organizan en una
estructura tipo cubo que el usuario puede rotar. Es muy adecuado para
resúmenes e informes financieros.
 ROLAP: base de datos relacional. Puede crear vistas multidimensionales
(proporciona la función analítica), pero no de estructura cubo de datos.
 HOLAP: Almacena algunos datos en un motor relacional, y otros, en una base
de datos multidimensional. Trata de combinar las ventajas de MOLAP y ROLAP.
Por ejemplo, cuando se necesita información tipo resúmenes, HOLAP potencia
la tecnología de cubos para el desempeño más rápido. Cuando se necesita una
información detallada, HOLAP se apoya en los datos relacionales.

DATA LAKE (LAGOS DE DATOS): LOS NUEVOS DEPÓSITOS DE ALMACENAMIENTO

Los repositorios de información de la empresa se dividen en dos:


18
Considere el uso de OLAP en los siguientes escenarios:
 Necesita ejecutar consultas ad hoc y análisis complejos rápidamente, sin afectar negativamente
a los sistemas OLTP. Manera sencilla de generar informes que permitirán a los usuarios obtener
resultados rápidos y coherentes.
 El procedimiento Cubos OLAP (On-Line Analytic Processing) calcula totales, medias y otros
estadísticos univariantes para variables de resumen continuas dentro de las categorías de una o
más variables categóricas de agrupación. En la tabla se creará una nueva capa para cada
categoría de cada variable de agrupación. Ejemplo. El total y el promedio de ventas para
diversas regiones y líneas de producto, dentro de las regiones.

19
Proveedores de OLAP: Microsoft, Business Object, Qlik, etc.
1. Los almacenes de datos (Data Warehouse y Data Mart) soportados por bases de
datos relacionales, que soportan datos estructurados organizados en filas y columnas
(tablas).
2. Sistemas de Big Data que soportan grandes volúmenes de datos estructurados, no
estructurados y semiestructurados, basados esencialmente en marcos de trabajo
Hadoop y, cada vez con mayor frecuencia, Spark.

Un Data Lake es un repositorio de almacenamiento que contiene una gran cantidad de


datos en bruto en su formato original, incluyendo datos (semi)estucturados y no
estructurados, que se guardan sin ningún procesamiento (raw data). Su estructura y
los requisitos de los datos no se definen hasta que se necesitan. Hadoop es la
tecnología más utilizada para crear Lagos de Datos. No es un Data Warehouse 20 ni
tampoco un sustituto, conviven. A cada dato se le asigna un identificador único y es
etiquetado con un conjunto de etiquetas de metadatos ampliados (para hacer
consultas).

BIG DATA: ARQUITECTURA, ECOSISTEMA HADOOP Y OPEN DATA

Un modelo de datos ─ciclo de vida del dato o cadena de valor del dato─ contiene: los
tipos de datos empresariales que su empresa va a registrar, el modo de
almacenamiento, el proceso y el modo de acceso a dichos datos. Se rige por las 5 uves:

20
A diferencia del Lago (permite almacenar datos sin procesar y luego aplicar incrementalmente la
estructura, según los requisitos analíticos), es un repositorio de datos estructurados, modelados,
integrados, de múltiples fuentes, organizados para la recreación de informes analíticos.
Modelo de las 7 V:

Velocidad, Volumen, Variedad, (IBM) Veracidad y Valor, Visualización y Viabilidad.

Distribuciones comerciales de Hadoop (basadas en código abierto)


Hadoop es un sistema open source (gratuito), disponible para cualquiera que lo desee
utilizar. Sin embargo, las empresas necesitan alinear las soluciones de Hadoop con sus
necesidades para el desarrollo de las soluciones específicas para ellas. Por estas
razones, las distribuciones comerciales vienen empaquetadas para resolver las
necesidades de gestión de datos y soluciones de analítica. Las principales son:
Cloudera, Amazon Elastic MapReduce, Hortonworks, MapR Technologies, Pivotal y
Altiscale.

Además de estas soluciones anteriores basadas en código abierto, los grandes


distribuidores de software comercial ofrecen soluciones también para la integración
de Hadoop con sus propias soluciones: IBM, Oracle y Microsoft, además de SAP o SAS
y Microstrategy.

OPEN DATA. EL MOVIMIENTO DE LOS DATOS ABIERTOS.

Ejemplos: Europa, Madrid, Barcelona, Zaragoza, País Vasco, Canarias, España, Aragón,
la plataforma Civio
BASES DE DATOS

BASES DE DATOS RELACIONALES

También podría gustarte