Big Data
Big Data
Big Data
Agenda
Introduccin: La revolucin de los Datos
Escenarios de Business Analytics
Y cmo exploto toda esta informacin?: Microsoft Excel
La revolucin de los
Datos
Tendencias de la
Industria
EXPLOSIN
DE DATOS
CONSUMERIZACIN
DE TI
NUBE PBLICA Y
PRIIVADA
46%
Qu es Big Data?
Big data Consists of datasets that grow so large that
they become awkward to work with using on-hand DB
Management tools.
Wikipedia
Big data is when the size of the data itself becomes
part of the problem
Mike Lukides, OReilly Radar
Its not just your Big Data problems, its all about your
BIG data Problems.
Alexander Stojanovic, Hadoop Manager on Win Azure
Las 4 Vs
Volumen
Velocidad
Variedad
Variabilidad
21 Pb
Hadoop
cluster
7 Pb
mes
1 Tb
tweets/dia
75
Millio
n
scores/day
14 Tb
Hadoop
cluster
7 Tb
datos/dia
4
Billion
Graph
edg/day
Entoncescmo obtengo
insights?
Datos
estructurad
os
Datos estructurados
Registros
Ficheros
log
Datos
menos
estructur
ados
Datos
pblicos
Device
outputs
Texto/
Imgenes
Archivados y Borrados
Acceso caro
MIDAMO
Escenarios de Business
Analytics
Qu es Hadoop?
Open Source
Plataforma de almacenamiento de datos y
anlisis para Big Data
Qu es Hadoop?: Ventajas
Escalable
Escala linealmente en capacidad de almacenamiento
y computacin
Tolerante a Fallos
Proporcionado por el Sistema de ficheros distribuido y
el framework de lectura
Procesamiento distribuido
Sigue la estrategia de divide y vencers
Qu es Hadoop?:
Componentes
Mahout
Pegasus
Pig
Lucene
Hive
Map Reduce
HDFS
Sqoop
Qu es Hadoop?:
Componentes
Mahout
Pegasus
Pig
Lucene
Hive
Map Reduce
HDFS
Sqoop
File
File
File
NameNod
eFile File File
File
DataNode
File
File
File
File
File
File
File
File
File
File
File
File
File
File
File
File
File
File
File
File
File
File
File
File
File
File
File
File
DataNode
DataNode
Qu es Hadoop?:
Componentes
Mahout
Pegasus
Pig
Lucene
Hive
Map Reduce
HDFS
Sqoop
Pares Clave-Valor
Funcin Map
Funcin Reduce
TaskTracker
File
File
File
File
File
File
File
File
File
ma File
p
File
File
File
Reduce
File
File
ma
File
p
File
File
File
File
File
File
ma
p File
File
File
File
File
File
File
File
File
File
TaskTracker
TaskTracker
Qu es Hadoop?:
Componentes
Mahout
Pegasus
Pig
Lucene
Hive
Map Reduce
HDFS
Sqoop
Sqoop
Tecnologa que sirve de interfaz entre HDFS
y los Sistemas de informacin empresarial
Qu es Hadoop?:
Componentes
Mahout
Pegasus
Pig
Lucene
Hive
Map Reduce
HDFS
Sqoop
Pig
Lenguaje de flujo de datos de alto nivel y
framework de ejecucin
Qu es Hadoop?:
Componentes
Mahout
Pegasus
Pig
Lucene
Hive
Map Reduce
HDFS
Sqoop
Hive
Infraestructura Data Warehouse desde
Hadoop
Proporciona
Sumarizacin de Datos
Consultas Ad-hoc
Qu es Hadoop?:
Componentes
Mahout
Pegasus
Pig
Lucene
Hive
Map Reduce
HDFS
Sqoop
Pegasus
HDInsight
Project Isotope
Proporciona Apache Hadoop en
Windows Server
Windows Azure
Hadoop: Componentes
Originales
Mahout
Pegasus
Pig
Lucene
Hive
Map Reduce
HDFS
Sqoop
HDInsight
Mahout
Pegasus
Pig
Flume
Hive
Map Reduce
HDFS
Sqoop
HDinsight
Mahout
Pegasus
Pig
Hive
Flume
Hive ODBC
Map Reduce
HDFS
Sqoop
JDBC
Microsoft
BI
Platform
HDInsight
Mahout
Pegasus
Pig
Hive
Flume
Hive ODBC
Map Reduce
HDFS
Sqoop
JDBC
Microsoft
BI
Platform
Caractersticas HDInsight
HDFS
Basado en Windows
Compatibilidad con Directorio Activo
Almacenamiento compatible:
HDFS
Azure Blob Storage
Amazon S3
MapReduce Framework
Compatibilidad JavaScript
Hadoop Streaming con compatibilidad F# y C#
Caractersticas HDInsight
Hive
Consola Interactiva
Complemento Hive para Excel
Hive ODBC Driver
Potentes funciones regex
Pig
Consola Interactiva
Sqoop
Driver JDBC para SQL Server y SQL Server PDW
Icon de tecnologa
Icon de tecnologa
Administrando un cluster
HDinsight en Windows
Azure
Primeros pasos
Icon de tecnologa
Escenarios de Integracin
Y cmo explotamos
esta informacin?
PowerPivot
Complementos Excel para Minera de Datos
Acceso a Datos Hadoop
Data Explorer
Icon de tecnologa
Icon de tecnologa
Icon de tecnologa