E BookBigDataV2
E BookBigDataV2
E BookBigDataV2
Apresentação do Instrutor
Introdução à
Ciência de Dados
Pyhton Fundamentos
Para Análise de Dados
Nossa Equipe
Microsoft Power BI preparou esses treinamentos
Para Data Science especialmente
para você!
Nossa
Escola
www.datascienceacademy.com.br
www.datascienceacademy.com.br Data Science Academy
Data Science Academy – Localização
No Brasil e no Mundo.
1 Introdução
2 O que é Big Data?
3 Introdução ao Hadoop
4 Arquitetura Hadoop
5 Ecossistema Hadoop
10 Avaliação e Certificado de
Conclusão
Objetivo
Este curso oferece uma introdução detalhada
dos principais conceitos envolvendo Big Data,
permitindo uma compreensão clara do que há
de mais avançado em tecnologia de Carreira
Engenharia de Dados. Compreensão clara do
que é o universo do Big
Data para que você
possa avançar sua
carreira nesta vibrante
área.
45 %
Muita Vontade de Aprender!
1 a 2 horas
de dedicação por semana.
Bibliografia Interação
Leia a bibliografia
adicional, acesse os links Utilize nossas Apps e interaja
úteis e realize os quizzes na rede com outros alunos no
ao final dos capítulos. fórum exclusivo e na timeline
da Comunidade.
Category 4
Category 3
Category 2
Category 1
0 1 2 3 4 5 6
Seja aprovado,
Utilize um dos nossos canais de comunicação e
obtenha suporte sempre que precisar!
E receba o e-book com todo o
Nossa equipe é obcecada
conteúdo do curso pelo sucesso dos
nossos alunos!
de forma gratuita
Oferecemos mais do que cursos online.
Oferecemos uma experiência de aprendizagem!
Seja aprovado,
E receba o e-book com todo o
conteúdo do curso
de forma gratuita.
Seja aprovado,
E receba o e-book com todo o
conteúdo do curso
de forma gratuita
Perfil de
Infraestrutura
e/ou Formação Engenheiro de Dados
Administração de
Sistemas
www.datascienceacademy.com.br
Transforme Dados em Resultados Data Science Academy
1. Big Data Analytics com R e Microsoft Azure Machine Learning
2. Big Data Real-Time Analytics com Python e Apache Spark
3. Engenharia de Dados com Hadoop e Spark
4. Machine Learning com R e Python
5. Business Analytics
6. Visualização de Dados e Design de Dashboards
7. Preparação para Carreira de Cientista de Dados
4 5 6 7
1 2 3
www.datascienceacademy.com.br Data Science Academy
Formação Inteligência Artificial
O Futuro é Agora
www.datascienceacademy.com.br Data Science Academy
1. Introdução à Inteligência Artificial
2. Deep Learning Frameworks
3. Programação Paralela em GPU
4. Deep Learning I
5. Deep Learning II
6. Visão Computacional e Reconhecimento de Imagens
7. Processamento de Linguagem Natural e Reconhecimento de Voz
8. Análise em Grafos Para Big Data
9. Sistemas Cognitivos
10. Projeto – Assistente Virtual Inteligente
7 8 9 10
4 5 6
1 2 3
www.datascienceacademy.com.br Data Science Academy
Construa
Aplicações
Analíticas
Comerciais
2 3 4
1
www.datascienceacademy.com.br Data Science Academy
Formações DSA
Perfil de
Infraestrutura
e/ou Formação Engenheiro de Dados
Administração de
Sistemas
4 5
1 2 3
www.datascienceacademy.com.br Data Science Academy
Treinamentos DSA
Aproximadamente 80%
dos dados são não-
estruturados ou estão em
diferentes formatos, o que
dificulta a análise.
Estamos em um período de
transformação no modo em
que dirigimos nossos
negócios e, principalmente,
as nossas vidas.
Big Data
Zettabyte x 1024
Exabyte x 1024
Petabyte x 1024
Terabyte
x 1024
Gigabyte
Volume Variedade
Tamanho dos Dados. Formato dos Dados
Velocidade Veracidade
Geração dos Dados.
Confiabilidade dos Dados
http://hadoop.apache.org
http://hadoop.apache.org
http://hadoop.apache.org
E muito mais
ainda está por
vir!!
Um das principais
características do Hadoop é a Seja aprovado,
confiabilidade e sua E receba o e-bok com todo o
capacidade de se recuperar conteúdo do curso de forma gratuita.
de falhas automaticamente.
Hadoop HDFS
Seja
Hadoop MapReduce
aprovado,
E receba o e-bok com todo o
conteúdo do curso de forma gratuita.
Seja aprovado,
= +
E receba o e-bok com todo o
conteúdo do curso de forma gratuita.
Por que o Hadoop está se tornando o padrão nos projetos de Big Data?
Baixo Tolerante a
Escalável Flexível
Custo Falhas
Livre
Introdução ao
Hadoop
Namenode
Namenode
Namenode
Datanode
Datanode
Introdução
ao Hadoop
Dados
K = Key
A função de Mapeamento V = Value
mapeamento, converte
dados em pares de
chave(K)/valor(V)
K1:V K2:V K3:V K4:V
Mapper 1 Reducer 1
Mapper 2 Reducer 2
Mapper 4 Reducer 4
MapReduce x RDBMS
RDBMS* MapReduce
Tamanho dos dados Gigabytes (10ˆ9) Petabytes (10ˆ12)
Acesso Interativo e Batch Batch
Updates Leitura e Escrita diversas vezes WORM (Write Once, Read Many Times)
Estrutura de Dados Esquema estático Esquema dinâmico
Integridade Alta Baixa
Escalabilidade Não-linear Linear
Por que?
Hadoop x RDBMS
Hadoop RDBMS
▪ Conceito de transações
▪ Conceito de Jobs
Modelo de ▪ Uma transação é uma unidade de
▪ Cada Job é uma unidade de trabalho
Computação trabalho
▪ Não há controle de concorrência
▪ Controle de concorrência
▪ Qualquer tipo de dado pode ser usado ▪ Dados estruturados com controle
Modelo de
▪ Dados em qualquer formato de esquema
Dados
▪ Modelo de apenas leitura ▪ Modelo de leitura/escrita
Modelo de ▪ Máquinas de custo mais baixo podem ser ▪ Servidores de maior custo são
Custo usadas necessários
Seja aprovado,
= +
E receba o e-bok com todo o
conteúdo do curso de forma gratuita.
Master node
Worker (slave) node
Slave
Storage Processamento
HDFS MapReduce
Datanode TaskTracker
Master Node
Storage Processamento
HDFS MapReduce
Datanode TaskTracker
Armazenamento Computação
➢ NameNode Master
➢ TaskTracker
NameNode
HDFS
Slave DataNode DataNode Slave
Cluster Hadoop
MapReduce HDFS
Master Secondary
Nodes JobTracker NameNode
NameNode
Dados
Programa
Dados
Modo Standalone Todos os serviços Hadoop são executados em uma única JVM, no mesmo servidor
Totalmente Serviços individuais do Hadoop são executados em JVM’s individuais, mas através
Distribuído de cluster
Arquitetura HDFS
Secondary
Master NameNode
NameNone
Slave
Cluster HDFS
Processamento
MapReduce
MapReduce
Listas Ordenadas
MapReduce
MapReduce funciona através de 2 operações:
Mapeamento e Redução.
No processo de mapeamento (Map), os dados são separados em pares (key-value
pairs), transformados e filtrados.
Então os dados são distribuídos para os nodes e processados.
MapReduce vem sendo largamente utilizado em aplicações de Big Data, tais como:
MapReduce
Cache Distribuído
Cache Distribuído
Uma vez que você armazena um arquivo em cache para o seu trabalho, a estrutura
Hadoop irá torná-lo disponível em cada node (em sistema de arquivos, não em
memória) onde as tarefas de mapeamento / redução estão em execução.
Segurança
Segurança
Segurança
Apache
Hadoop
Ecossistema
Inteligência
(Mahout, Drill)
Interação de Dados Busca
(Pig, Hive, Spark, Storm) (Lucene, Solr)
Gráficos
(Giraph) Operação e
Desenvolimento
Segurança (Ooozie,
(Knox, Sentry) Execução de Jobs (MapReduce, YARN)
Zookeeper,
Ambari)
Serialização (Avro, Trevni, Thrift)
Armazenamento de Dados
Sistema de Arquivos (HDFS)
(HBase, Cassandra)
Apache Zookeeper
http://zookeeper.apache.org
Apache Zookeeper
http://zookeeper.apache.org
Apache Zookeeper
http://zookeeper.apache.org
Apache Zookeeper
http://zookeeper.apache.org
Apache Zookeeper
O framework ZooKeeper foi originalmente construído no
"Yahoo!" para acessar seus aplicativos de uma forma fácil e
robusta.
Mais tarde, Apache ZooKeeper se tornou um padrão para a
organização de serviços do Hadoop, HBase e outras
estruturas distribuídas.
Por exemplo, o HBase usa ZooKeeper para acompanhar o
estado de dados distribuídos através do Cluster.
http://zookeeper.apache.org
Apache Zookeeper
http://zookeeper.apache.org
Apache Oozie
Apache Oozie
Oozie é integrado com o restante dos componentes do
ecossistema Hadoop para apoiar vários tipos de trabalhos do
Hadoop (como Java Map-Reduce, streaming Map-Reduce, Pig,
Hive e Sqoop), bem como jobs específicos do sistema (como
http://oozie.apache.org programas Java e scripts shell).
Apache Oozie
Oozie é um sistema de processamento de fluxo de trabalho que
permite aos usuários definir uma série de jobs escritos em
diferentes linguagens - como Map Reduce, Pig e Hive – e então
inteligentemente ligá-los um ao outro.
http://oozie.apache.org
Apache Oozie
Apache Oozie Oozie é um sistema versátil que pode ser usado para configurar
e automatizar até mesmo o mais complicado workflow de
processamento de dados.
Apache Hive
http://hive.apache.org
Apache Hive
Apache Hive
http://hive.apache.org
Apache Hive
http://hive.apache.org
Apache Hive
Apache Hive
Hive utiliza:
MapReduce
(para execução)
http://hive.apache.org
HDFS
(para armazenamento
e pesquisa de dados)
Exemplo:
Apache Sqoop
Sqoop é um projeto do ecossistema do Apache Hadoop, cuja
responsabilidade é importar e exportar dados de bancos de
dados relacionais.
http://sqoop.apache.org
Apache Sqoop
Sqoop é um projeto do ecossistema do Apache Hadoop, cuja
responsabilidade é importar e exportar dados de bancos de
dados relacionais.
Sqoop significa SQL-to-Hadoop.
http://sqoop.apache.org
Apache Sqoop
Apache Sqoop
É possível importar tabelas individuais ou bancos de dados
inteiros para o HDFS e o desenvolvedor pode determinar que
colunas ou linhas serão importadas.
http://sqoop.apache.org
Apache Sqoop
Apache Sqoop
Apache Sqoop
Ele também gera classes Java através das quais você pode
facilmente interagir com os dados importados.
http://sqoop.apache.org
Apache Sqoop
Apache Sqoop
Apache Sqoop
Exemplo: Listando tabelas de um
banco MySQL com Sqoop:
http://sqoop.apache.org
Apache Pig
http://pig.apache.org
Apache Pig
http://pig.apache.org
Apache Pig
http://pig.apache.org
Apache Pig
http://pig.apache.org
Apache Pig
http://pig.apache.org
Apache Pig
http://pig.apache.org
Apache Pig
Para analisar dados usando Apache Pig, os programadores
precisam escrever scripts usando linguagem Pig Latin.
Todos esses scripts são convertidos internamente para
tarefas de mapeamento e redução.
Apache Pig tem um componente conhecido como Pig
engine que aceita os scripts Pig Latin como entrada e
http://pig.apache.org converte esses scripts em jobs MapReduce.
Runtime engine
• Compilador que produz sequências de programas
http://pig.apache.org MapReduce
• Utiliza HDFS para armazenar e buscar dados
• Usado para interagir com sistemas Hadoop
• Valida e compila scripts em sequências de Jobs
MapReduce
www.datascienceacademy.com.br Data Science Academy
Ecossistema Hadoop
Pig X SQL
Apache Pig
Pig SQL
Linguagem de script usada para Linguagem de query usada para
interagir com o HDFS interagir com bancos de dados
Passo a passo Bloco único
Avaliação não imediata Avaliação imediata
Requer que um join seja executado 2
http://pig.apache.org
Permite resultados intermediários vezes ou materializado como um
resultado intermediário
Apache HBase
HBase é um banco de dados orientado a coluna construído sobre
o sistema de arquivos do Hadoop.
http://hbase.apache.org
Apache HBase
HBase é um banco de dados orientado a coluna construído sobre
o sistema de arquivos do Hadoop.
HBase é o banco de dados oficial do Hadoop.
http://hbase.apache.org
Apache HBase
Apache HBase
Apache HBase
Ele aproveita a tolerância a falhas fornecida pelo sistema de
arquivos do Hadoop (HDFS).
É uma parte do ecossistema Hadoop que fornece em tempo real
http://hbase.apache.org
acesso aleatório de leitura / gravação aos dados do HDFS.
Apache HBase
Apache HBase
Apache Flume
http://flume.apache.org
Apache Flume
http://flume.apache.org
Apache Flume
Apache Flume
http://flume.apache.org
http://flume.apache.org
Apache Flume
http://flume.apache.org
Apache Flume
http://flume.apache.org
Apache Flume
Apache Mahout
Apache Mahout
http://mahout.apache.org
Apache Mahout
Apache Mahout
http://mahout.apache.org
Apache Mahout
Apache Kafka
http://kafka.apache.org
Apache Kafka
Apache Kafka
Apache Kafka
http://kafka.apache.org
Apache Kafka
http://kafka.apache.org
Apache Kafka
Apache Kafka
O Apache Kafka foi desenvolvido com um propósito
específico em mente: servir como um repositório central
de fluxos de dados
Apache Kafka
Baixa latência
http://kafka.apache.org
Apache Kafka
http://kafka.apache.org
EMR
Amazon Elastic MapReduce
https://aws.amazon.com/elasticmapreduce
• Apache Hadoop
• Apache Pig
• Apache Hive
• Apache HBase
• Apache Sqoop
http://www.cloudera.com
http://hortonworks.com
https://www.mapr.com
Distribuição
Comercial
Hadoop
http://pivotal.io
https://azure.microsoft.com/en-us/services/hdinsight
http://spark.apache.org
x
2- Estou pensando em usar o Hadoop, devo desistir e usar o Spark?
x
www.datascienceacademy.com.br Data Science Academy
Introdução ao Apache Spark
A verdade é que criaram o Hadoop para processar grandes volumes de dados em batch.
O Hadoop MapReduce possui limitações e não atende a alguns requisitos cada vez mais
importantes:
Hadoop Spark
Armazenamento distribuído + Computação Somente computação distribuída
distribuída
Framework MapReduce Computação genérica
Normalmente processa dados em disco Em disco / Em memória
(HDFS)
Não é ideal para trabalho iterativo Excelente para trabalhos iterativos (Machine
Learning)
Até 10x mais rápido para dados em disco
Processo batch Até 100x mais rápido para dados em
memória
Basicamente Java Suporta Java, Python, Scala
Não possui um shell unificado Shell para exploração ad-hoc
Não.
• Tente o Spark
http://storm.apache.org
Alguns afirmam que a sigla significa Not Only SQL, enquanto outros afirmam que
significa Non-SQL. Não há um consenso sobre isso. Mas pense sobre NoSQL como uma
classe de banco de dados não-relacionais que não se enquadram na classificação de
bancos de dados relacionais (RDBMS), que utilizam linguagem SQL.
• Graph databases
• Document databases
• Key-values stores
• Column family stores
MongoDB HBase
CouchDB Cassandra*
Document Column
RavenDB Hypertable
Terrastore Accumulo
http://nosql-database.org
• Indexação
• Agregação
• Armazenamento
MongoDB RDBMS
Database Database
Collection Table
Document Tuple/Row
Field Column
Embedded Documents Table Join
Primary Key Primary Key
• Big Data
• Gestão de Conteúdo
• Infraestrutura Social e Mobile
• Gestão de Dados de Usuários
• Data Hub
http://cassandra.apache.org
http://couchdb.apache.org
Manufatura
Finanças
Saúde
Varejo
http://caesarscorporate.com
http://www.cerner.com
http://www.mastercard.com/br
http://www.mastercard.com/br
https://farmlogs.com
O Hadoop já é realidade!
10 Encerramento
Encerramento
Fique tranquilo,