Big Data

Descargar como pptx, pdf o txt
Descargar como pptx, pdf o txt
Está en la página 1de 46

Big Data: La Hora H

Agenda
Introduccin: La revolucin de los Datos
Escenarios de Business Analytics
Y cmo exploto toda esta informacin?: Microsoft Excel

La revolucin de los
Datos

Tendencias de la
Industria
EXPLOSIN
DE DATOS

CONSUMERIZACIN
DE TI

Los datos digitales crecern

NUBE PBLICA Y
PRIIVADA

44x prxima dcada

En 2015, servicios de nube pblica tendrn

46%

de crecimiento neto en gasto de ti

IDC Digital Universe Study, sponsored by EMC, May 2010.


Worldwide and Regional Public IT Cloud Services 2011 2015 Forecast, IDC , June 2011Doc #228485

Introduccin: La revolucin de los datos

Big Data, Data Science y lo que nos pueden proporcionar


Actores de mercado en Big Data
Utilidades de Big Data

Qu es Big Data?
Big data Consists of datasets that grow so large that
they become awkward to work with using on-hand DB
Management tools.

Wikipedia
Big data is when the size of the data itself becomes
part of the problem
Mike Lukides, OReilly Radar
Its not just your Big Data problems, its all about your
BIG data Problems.
Alexander Stojanovic, Hadoop Manager on Win Azure

Las 4 Vs
Volumen
Velocidad
Variedad
Variabilidad

Ejemplos de Big Data


12 Tb
da

21 Pb
Hadoop
cluster

7 Pb
mes

1 Tb

tweets/dia

75
Millio
n

scores/day

14 Tb
Hadoop
cluster

7 Tb

datos/dia

4
Billion
Graph
edg/day

Entoncescmo obtengo
insights?
Datos
estructurad
os

Datos estructurados

Registros
Ficheros
log

Datos
menos
estructur
ados

Datos
pblicos
Device
outputs

Texto/
Imgenes

Bases de Datos relacionales


Bases de Datos analticas

Datos menos estructurados


Intentar un ETL para
transformarlo en relacional
New
Insight
s

Tiempo de desarrollo elevado


Son datos susceptibles a
cambios de estructura

Archivados y Borrados
Acceso caro

Qu es Big Data para

Datos, datos, datos..


Big? Hoy es Big, pero dentro de 2-3 aos, seguir siendo big?
Equipos y negocios centrados en datos
Big Data: Barreras para que una organizacin o equipo puedan
almacenar, procesar y acceder todos los datos que necesitan para operar
con eficiencia, tomar decisiones, reducir riesgos, etc.

Utilidades de Big Data


Vista completa de nuestros usuarios
Seguridad / inteligencia
Operaciones Analticas (TI, dispositivos,)
Complemento de DW

Caso de xito: Mood Index

MIDAMO

Escenarios de Business
Analytics

Escenarios de Business Analytics


Anlisis sencillo de gran cantidad de datos no
estructurados: Microsoft HDInsight

Anlisis sencillo de datos en memoria: Microsoft


StreamInsight

Anlisis en profundidad: SQL Server y Self-Service BI

Qu es Hadoop?
Open Source
Plataforma de almacenamiento de datos y
anlisis para Big Data

Optimizado para manejar

Datos masivos a travs de paralelismo


Variedad de datos (Estructurados, Noestructurados, Menos estructurados)
Uso de hardware econmico

No para OLTP / OLAP

Qu es Hadoop?: Ventajas
Escalable
Escala linealmente en capacidad de almacenamiento
y computacin

Tolerante a Fallos
Proporcionado por el Sistema de ficheros distribuido y
el framework de lectura

Procesamiento distribuido
Sigue la estrategia de divide y vencers

Qu es Hadoop?:
Componentes

Mahout

Pegasus
Pig

Lucene

Hive

Map Reduce
HDFS

Sqoop

Qu es Hadoop?:
Componentes

Mahout

Pegasus
Pig

Lucene

Hive

Map Reduce
HDFS

Sqoop

Hadoop Distributed File System


(HDFS)
Sistema de ficheros distribuido diseado para
grandes conjuntos de datos

Fiable y con buen rendimiento


Alto rendimiento de acceso: Latencia de disco
Alto ancho de banda Almacenamiento Clustered
auto-reparable

Divide los datos entre los nodos en un Cluster


NameNode: Mantiene el mapeo de bloques de

ficheros a nodos esclavos


DataNode: Almacena y sirve bloques de datos

Hadoop Distributed File System


(HDFS)
Block Size = 64 Mb
Replication Factor
=3
File

File

File

File

NameNod
eFile File File
File

DataNode
File

File

File

File

File

File

File

File

File

File

File

File

File

File

File

File

File

File

File

File

File

File

File

File

File

File

File

File

DataNode

DataNode

Qu es Hadoop?:
Componentes

Mahout

Pegasus
Pig

Lucene

Hive

Map Reduce
HDFS

Sqoop

Map Reduce Framework


Motor de planificacin parar Procesamiento de
carga distribuido

Pares Clave-Valor
Funcin Map
Funcin Reduce

Lenguajes de Script : Java, python, Javascript


Saca provecho de la distribucin de datos de
HDFS

JobTracker: Planifica los trabajos entre los TaskTrackers


TaskTracker: unidades de trabajo

Map Reduce Framework


JobTracker
MapReduc
e Job

TaskTracker

File

File

File

File

File

File

File

File

File

ma File
p

File

File

File

Reduce
File

File

ma
File
p

File

File

File

File

File

File

ma
p File

File

File

File

File

File

File

File

File

File

TaskTracker

TaskTracker

Qu es Hadoop?:
Componentes

Mahout

Pegasus
Pig

Lucene

Hive

Map Reduce
HDFS

Sqoop

Sqoop
Tecnologa que sirve de interfaz entre HDFS
y los Sistemas de informacin empresarial

Orgenes de datos relacionales integrados

MySQL, Oracle, SQL Server

Importacin / Exportacin (Bidireccional)

Qu es Hadoop?:
Componentes

Mahout

Pegasus
Pig

Lucene

Hive

Map Reduce
HDFS

Sqoop

Pig
Lenguaje de flujo de datos de alto nivel y
framework de ejecucin

Lenguaje de consulta: PigLatin

Posibilidad de join de tablas

Por detrs ejecuta trabajos MapReduce

Qu es Hadoop?:
Componentes

Mahout

Pegasus
Pig

Lucene

Hive

Map Reduce
HDFS

Sqoop

Hive
Infraestructura Data Warehouse desde
Hadoop

Proporciona
Sumarizacin de Datos
Consultas Ad-hoc

Lenguaje consulta estilo SQL: HiveQL

Por detrs ejecuta trabajos MapReduce

Qu es Hadoop?:
Componentes

Mahout

Pegasus
Pig

Lucene

Hive

Map Reduce
HDFS

Sqoop

Otros componentes: Hadoop


Ecosystem
Mahout

Minera de Datos y Machine Learning

Pegasus

Page Rank y Graph Mining


Social Network Analysis

HDInsight

Project Isotope
Proporciona Apache Hadoop en

Windows Server
Windows Azure

Active Directory & System Center

Hadoop: Componentes
Originales

Mahout

Pegasus
Pig

Lucene

Hive

Map Reduce
HDFS

Sqoop

HDInsight

Mahout

Pegasus
Pig

Flume

Hive

Map Reduce
HDFS

Sqoop

HDinsight

Mahout

Pegasus
Pig

Hive

Flume
Hive ODBC

Map Reduce
HDFS

Sqoop

JDBC

Microsoft
BI
Platform

HDInsight

Mahout

Pegasus
Pig

Hive

Flume
Hive ODBC

Map Reduce
HDFS

Sqoop

Windows Azure & Windows Server

JDBC

Microsoft
BI
Platform

Caractersticas HDInsight
HDFS
Basado en Windows
Compatibilidad con Directorio Activo
Almacenamiento compatible:
HDFS
Azure Blob Storage
Amazon S3

MapReduce Framework
Compatibilidad JavaScript
Hadoop Streaming con compatibilidad F# y C#

Caractersticas HDInsight
Hive
Consola Interactiva
Complemento Hive para Excel
Hive ODBC Driver
Potentes funciones regex
Pig
Consola Interactiva
Sqoop
Driver JDBC para SQL Server y SQL Server PDW

Icon de tecnologa

Icon de tecnologa

Administrando un cluster
HDinsight en Windows
Azure
Primeros pasos

Icon de tecnologa

Escenarios de Integracin

Y cmo explotamos
esta informacin?

Y cmo exploto toda esta informacin?: Microsoft Excel

PowerPivot
Complementos Excel para Minera de Datos
Acceso a Datos Hadoop
Data Explorer

Icon de tecnologa

Icon de tecnologa

Excel y sus complementos

Icon de tecnologa

Big Data: La Hora H

También podría gustarte