Big Data Architecture Con Pentaho
Big Data Architecture Con Pentaho
Big Data Architecture Con Pentaho
LOS DATOS SE
40 DUPLICAN CADA 2 AÑOS 80%
35 DE LA INFORMACIÓN ES NO
30 ESTRUCTURADA
(Gartner, December 2011)
25
ZB
20
“El aumento exponencial en la cantidad de información disponible ha hecho que las empresas recurran
a nuevas herramientas y procesos para recopilar datos (tanto estructurados como no estructurados) y
para almacenar, administrar, manipular, analizar, e integrar datos. ”
J|M|P Securities, Big Data and How BI Got Its Groove Back, Nov. 2011
Qué es Big Data?
Big Data es el nombre que se le da a conjuntos de información que crecen de una
manera tan exponencial que resulta prohibitivo almacenarlos y/o procesarlos con
métodos o técnicas tradicionales del mundo de base de datos relacionales.
Big Data son tres V’s y una C:
Velocidad: los datos se generan a un ritmo exponencial.
Volumen: la irrupción de Big Data dejó en el
pasado el Terabyte para hablar de Petabytes y
Zetabytes.
Variedad: datos estructurados y no estructurados,
proveniente de la web 2.0, sensores, logs, etc.
Complejidad: volumen de datos tal que no
permite procesarlo con técnicas tradicionales
De dónde viene?
Información transaccional
Operaciones bancarias
Servicios financieros, portales de bolsa
Tiendas virtuales / e-commerce
La nube
World Wide Web / Blogs
Redes sociales: Twitter, Facebook, LinkedIn
Machine-generated data (MGD)
Weblogs
Centrales telefónicas
Sensores de todo tipo
Logs de aplicaciones
Tipos de bases de datos
El concepto de base de datos que utilizábamos hasta hace 2 años cambió
Distintos tipos de bases de datos, para distintos tipos de necesidades.
Bases de datos transaccionales: para almacenar información crítica del negocio, con origen en
las aplicaciones de siempre (CRM, ERP, sistemas legacy, …)
NoSQL: para capturar de manera segura y escalable, grandes volúmenes
de información continua generados por eventos.
Analíticas: para permitir a múltiples usuarios contestar rápidamente preguntas
de negocio que requieran de grandes volúmenes de información.
Big Data
Tareas de
Excelente tasa de
Motor iterativo administración
compresión
mínimas
Almacenamiento en columnas, no filas
ID Tarea Departamento Ciudad 1 Envío Operaciones Medellín
Almacenamiento
en Columnas El almacenamiento en columnas sirve si…
Sólo se requieren algunas columnas para el análisis
1 Envío Operaciones Medellín Por ejemplo, el total vendido del producto X en cada una
de las sucursales en los últimos 3 meses.
2 Recepción Operaciones Medellín
Información consolidada (sumas, cantidades,
3 Registración Finanzas Bogotá
promedios, …)
Ideal para un mundo analítico, donde la información se
concentra en métrica de distintas entidades
Almacenamiento en filas vs. columnas
30 columnas
Ejemplo de aplicación:
50 días con información; 30
columnas/variables por
cada registro; un millón de
registros por cada día
El acceso a disco es un
problema
El almacenamiento en filas 50 millones de registros
obliga a recuperar la
información de todas las
columnas
Al incrementarse el tamaño
de la tabla, se incrementan
los índices
La velocidad de carga se
degrada dado que los
índices deben recrearse al
incorporarse nuevos datos
Almacenamiento en filas vs. columnas
30 columnas
Objetivo: obtener el total de
ventas de una semana del
año.
La consulta SQL sería algo
como:
Select sum(ventas)
from tabla
where semana = X 50 millones de registros
Día de la semana
Venta diaria
Almacenamiento en filas vs. columnas
30 columnas
Utilizando un esquema de
almacenamiento en filas
(esquema tradicional)
Se recorren 7 millones de
registros (un millón por cada
día)
Para acceder a un valor en
50 millones de registros
particular (el valor de la
Día de la semana
venta) es necesario leer las
Venta diaria
30 columnas, aún cuando Información recuperada para el cálculo
no tengan información (210 millones de variables!)
relevante.
Se procesan TODAS las
columnas (210 millones,
30 x 7), y se DESCARTAN
TODAS MENOS una.
Es decir se procesó un 93%
más de información.
Almacenamiento en columnas, no filas
Utilizando un esquema de
almacenamiento en columnas
(esquema utilizado por
Infobright)
Se recorren 7 millones de
registros (un millón por cada
día)
50 millones de registros
Se procesan sólo las 2
Día de la semana
Venta diaria
columnas necesarias: día y
venta diaria.
Es decir, sólo se procesa la
información necesaria.
La inteligencia está en la
forma de almacenamiento y
en el algoritmo usado para 93% menos de información
extraer los datos. recuperada!
Tipos de bases de datos
El concepto de base de datos que utilizábamos hasta hace 2 años cambió
Distintos tipos de bases de datos, para distintos tipos de necesidades.
Bases de datos transaccionales: para almacenar información crítica del negocio, con origen en
las aplicaciones de siempre (CRM, ERP, sistemas legacy, …)
NoSQL: para capturar de manera segura y escalable, grandes volúmenes
de información continua generados por eventos.
Analíticas: para permitir a múltiples usuarios contestar rápidamente preguntas
de negocio que requieran de grandes volúmenes de información.
Big Data
Cuantas veces
aparece la palabra
Datalytics en Contá las
Archivo.txt? repeticiones
de Datalytics
en el Bloque C
Archivo.txt
Sumá
“Datalytics”
Resultados.txt (*)
(Datalytics = 14)
Datalytics =0
(*) (*) (*)
DATOS
ESTRUCTURADOS
Hadoop
DATOS NO
ESTRUCTURADOS NoSQL
Databases
Cargar
Manipular & Transformar
Integrar
Analytic
Acceso Databases
Modelado
Integración con Big Data
Ejecutivos
Explo-
ración
Usuario final
Predi-
Analistas cción
Mode-
DM / DW
IT/DBA lado
Extracción/Carga Transformación
Programadores
0 5 10 15
20 25 30 35 Días
Enfoque tradicional
Arquitectura de solución
Structured Data
Column Store or MPP
Database
Dashboard
PDI
PDI PDI
PDI PDI
PDI
Analyzer
Workflow
Instaview: acceso rápido a fuentes complejas
Sencillo, orientado al usuario final
Herramienta desktop para analistas de negocio
Simplifica drásticamente el acceso a fuentes de
información “Complejas” (Hadoop, NoSQL,
1. Selección de fuente de información fuentes de tiempo real, …)
Big Data Analytics
Permite al analista acceder a fuentes de tiempo
real o complejas enmascarando la complejidad
subyacente.
2. Preparado automático para análisis
Analistas consultan su información sin
intermediarios.