SlideShare a Scribd company logo
Cloudera Apache 
Hadoopトレーニング 
番外編 
Cloudera World Tokyo 2014 2014/11/6 
ライトニングトーク 
Tatsuo Kawasaki, Cloudera
© 2014 Cloudera, Inc. All rights reserved. 2 
About Me 
• 川崎達夫(かわさきたつお) 
• Senior Instructor @ Cloudera 
• email: kawasaki@cloudera.com 
• twitter: @kernel023
© 2014 Cloudera, Inc. All rights reserved. 3 
最近のHadoop事情 
• Hadoopが登場して8年半、Hadoopコアもエコシ 
ステムも大きく進化しています 
• その中から最近のトピックを紹介します
© 2014 Cloudera, Inc. All rights reserved. 4 
1. HDFSの単一障害点? 
• HDFSには単一障害点があるから使えないよね 
• -> いいえ、高可用性の構成を組むことができます
© 2014 Cloudera, Inc. All rights reserved. 5 
2. HDFSは遅い? 
• HDFSのパフォーマンスってイマイチなんだって 
…. 
• -> 最近のHDFSはかなり高速化されています 
• HDFS Caching (HDFS-4949) 
• Short-circuit read (HDFS-2246) 
• Zero copy read (mmap) (HDFS-4953) 
• SSE4.2 CRC32 (HDFS-2080) 
• Read Path improvement (HDFS-2080) 
• …. 
もちろんワークロードに依存するので、ベンチマーク等での 
評価をお勧めします。その際は最新版(CDH5.2やHadoop 
2.5.1)で!
3. HDFSには機能が足りない? 
• HDFSって機能が足りないのよね.. 
• -> 最近のHDFSには多くの機能が追加されていま 
す 
• Extended Attributes (拡張属性) 
/ 
• ディレクトリスナップショット 
users reports 
• NFSゲートウェイ 
• HDFSキャッシング 
• フェデレーション 
• ローリングアップグレード 
• 暗号化(HDFS-6134: 2.6.0以降) 
• Hueを使えばGUIでアクセスも可 
© 2014 Cloudera, Inc. All rights reserved. 6 
engineering finance 
marketing sales inventory TPS 
.snapshot 
s20140331-154625.330 
s20140331-161417.664 
s20140401-084002.901 
HDFS Snapshot
4. MapReduce(YARN)には単一障害点が? 
• MapReduce(YARN)には単一障害点がある(略) 
• -> HDFS同様に、高可用性の構成が可能です 
© 2014 Cloudera, Inc. All rights reserved. 7 
Resource 
Manager 
(Active) NodeManager 
Resource 
Manager 
(Standby) 
NodeManager 
NodeManager 
… Job History 
Server 
Master 
Nodes 
Slave 
Nodes
5. MRv1からMRv2への移行は? 
• MRv1からMRv2の移行って、新しいAPIを使って 
アプリの書き直しが必要なんでしょ? 
• -> いいえ、MRv1とMRv2は、旧API (mapred)、新 
API (mapreduce)の両方に対応しています 
• 開発者の負担は少ない 
© 2014 Cloudera, Inc. All rights reserved. 8 
• バイナリーコンパチビリティ 
• 一部のソースコードのビルドには 
コードの変更が必要[*1] 
• 運用側の負担はある 
• 運用や設定項目が変更となるので 
YARNについての理解が必要 
*1) http://tiny.cloudera.com/yarnmigrate
6. Hadoopを分析に使うには遅くて.. 
• Hiveで分析しているんだけど遅くって… 
• -> 選択肢が増えています 
• SQL on Hadoop 
• Hiveは処理基盤にMapReduceを使用しているため、分析等の用途 
に使うには速度面などに課題があるかもしれません 
• 現在はMapReduceを使用しないSQL on Hadoopの選択肢があり 
ます 
© 2014 Cloudera, Inc. All rights reserved. 9 
• Cloudera Impala、Presto、SparkSQLなど 
• 参考ベンチマーク[*1] 
• Apache Spark 
• オンメモリデータ処理の分散処理基盤 
• 将来的にMapReduceの置き換えに? 
*1 http://www.slideshare.net/Cloudera_jp/evolution-of-impala-hcj2014
7. Hadoopの構築、運用って大変? 
• Hadoopの構築や運用って、ツールを組み合わせて 
やらないといけないから大変だよね 
• -> 多くの運用、管理ツールが登場しています 
• Cloudera Manager(構築/運用),Cloudera Navigator 
© 2014 Cloudera, Inc. All rights reserved. 10 
(監査) 
• Ambari(構築/運用) 
• Hue (主にユーザー用途) 
Hue Cloudera Manager
© 2014 Cloudera, Inc. All rights reserved. 11 
まとめ 
• Hadoopが登場して8年半、Hadoopコアもエコシステムも 
大きく進化しています 
• 進化したHadoopを活用しましょう! 
• Hadoopのトレーニングで最新情報の習得を! 
http://www.cloudera.co.jp/unive 
rsity/
Cloudera University トレーニング 
© 2014 Cloudera, Inc. All rights reserved. 12 
コース概要 
Cloudera Apache Hadoop エッセンシャル 
1 日 
なぜHadoopが存在しているのか、いつ利用するのが適切か、拡張 
を成功させるために必要なリソースは何かを学習します。Hadoop 
の主要なコンポーネントと広範囲なHadoopエコシステムを紹介し 
ます。 
Cloudera Apache Hadoop 開発者向け 
トレーニング4 日間 
HDFSとMapReduceの基本と同様に、APIを使用してどのようにプ 
ログラムを記述するのか、デバッグと最適化のテクニック、大きな 
ワークフローの管理方法を学習します。関連するApacheプロジェ 
クトの概要を紹介します。 
Cloudera Apache Hadoop 管理者向け 
トレーニング4 日間 
Hadoopシステム管理者のコンセプトと実務について、インストー 
ルと設定、デプロイにおける問題の診断と解決するための負荷分散 
とチューニングについて学習します。 
Cloudera Apache Spark 開発者向けトレーニング 
3日間 
バッチ、ストリーミング、インタラクティブな分析を組み合わせた 
完全に統合したビッグデータアプリケーションを構築するために、 
Apache Sparkを使用した開発者のためのコースです。 
Cloudera Apache HBase トレーニング 
4日間 
低遅延クエリと高スループットを実現するための分散データストア 
として、HBaseの使用方法を学習します。本コースではスキーマ設 
計、アプリケーションの作成、設定とメンテナンスも網羅していま 
す。 
Cloudera データサイエンス入門 
3日間(日本での開催は未定) 
Apache Hadoopで分析とデータ変換を行うための、2つの人気のあ 
るApacheプロジェクト、HiveとPigの使用方法について、フィルタ、 
結合、ユーザー定義関数などを学習します。 
データサイエンス入門:レコメンドシステムを 
構築する3日間(日本での開催は未定) 
データサイエンティストとは何か、解決できる問題は何か、異なる 
業界においてデータからビジネスの価値を導くために現実的な課題 
に適用する方法について学習します。自動化されたレコメンダシス 
テムを実装します。
Thank You!

More Related Content

Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜

  • 1. Cloudera Apache Hadoopトレーニング 番外編 Cloudera World Tokyo 2014 2014/11/6 ライトニングトーク Tatsuo Kawasaki, Cloudera
  • 2. © 2014 Cloudera, Inc. All rights reserved. 2 About Me • 川崎達夫(かわさきたつお) • Senior Instructor @ Cloudera • email: kawasaki@cloudera.com • twitter: @kernel023
  • 3. © 2014 Cloudera, Inc. All rights reserved. 3 最近のHadoop事情 • Hadoopが登場して8年半、Hadoopコアもエコシ ステムも大きく進化しています • その中から最近のトピックを紹介します
  • 4. © 2014 Cloudera, Inc. All rights reserved. 4 1. HDFSの単一障害点? • HDFSには単一障害点があるから使えないよね • -> いいえ、高可用性の構成を組むことができます
  • 5. © 2014 Cloudera, Inc. All rights reserved. 5 2. HDFSは遅い? • HDFSのパフォーマンスってイマイチなんだって …. • -> 最近のHDFSはかなり高速化されています • HDFS Caching (HDFS-4949) • Short-circuit read (HDFS-2246) • Zero copy read (mmap) (HDFS-4953) • SSE4.2 CRC32 (HDFS-2080) • Read Path improvement (HDFS-2080) • …. もちろんワークロードに依存するので、ベンチマーク等での 評価をお勧めします。その際は最新版(CDH5.2やHadoop 2.5.1)で!
  • 6. 3. HDFSには機能が足りない? • HDFSって機能が足りないのよね.. • -> 最近のHDFSには多くの機能が追加されていま す • Extended Attributes (拡張属性) / • ディレクトリスナップショット users reports • NFSゲートウェイ • HDFSキャッシング • フェデレーション • ローリングアップグレード • 暗号化(HDFS-6134: 2.6.0以降) • Hueを使えばGUIでアクセスも可 © 2014 Cloudera, Inc. All rights reserved. 6 engineering finance marketing sales inventory TPS .snapshot s20140331-154625.330 s20140331-161417.664 s20140401-084002.901 HDFS Snapshot
  • 7. 4. MapReduce(YARN)には単一障害点が? • MapReduce(YARN)には単一障害点がある(略) • -> HDFS同様に、高可用性の構成が可能です © 2014 Cloudera, Inc. All rights reserved. 7 Resource Manager (Active) NodeManager Resource Manager (Standby) NodeManager NodeManager … Job History Server Master Nodes Slave Nodes
  • 8. 5. MRv1からMRv2への移行は? • MRv1からMRv2の移行って、新しいAPIを使って アプリの書き直しが必要なんでしょ? • -> いいえ、MRv1とMRv2は、旧API (mapred)、新 API (mapreduce)の両方に対応しています • 開発者の負担は少ない © 2014 Cloudera, Inc. All rights reserved. 8 • バイナリーコンパチビリティ • 一部のソースコードのビルドには コードの変更が必要[*1] • 運用側の負担はある • 運用や設定項目が変更となるので YARNについての理解が必要 *1) http://tiny.cloudera.com/yarnmigrate
  • 9. 6. Hadoopを分析に使うには遅くて.. • Hiveで分析しているんだけど遅くって… • -> 選択肢が増えています • SQL on Hadoop • Hiveは処理基盤にMapReduceを使用しているため、分析等の用途 に使うには速度面などに課題があるかもしれません • 現在はMapReduceを使用しないSQL on Hadoopの選択肢があり ます © 2014 Cloudera, Inc. All rights reserved. 9 • Cloudera Impala、Presto、SparkSQLなど • 参考ベンチマーク[*1] • Apache Spark • オンメモリデータ処理の分散処理基盤 • 将来的にMapReduceの置き換えに? *1 http://www.slideshare.net/Cloudera_jp/evolution-of-impala-hcj2014
  • 10. 7. Hadoopの構築、運用って大変? • Hadoopの構築や運用って、ツールを組み合わせて やらないといけないから大変だよね • -> 多くの運用、管理ツールが登場しています • Cloudera Manager(構築/運用),Cloudera Navigator © 2014 Cloudera, Inc. All rights reserved. 10 (監査) • Ambari(構築/運用) • Hue (主にユーザー用途) Hue Cloudera Manager
  • 11. © 2014 Cloudera, Inc. All rights reserved. 11 まとめ • Hadoopが登場して8年半、Hadoopコアもエコシステムも 大きく進化しています • 進化したHadoopを活用しましょう! • Hadoopのトレーニングで最新情報の習得を! http://www.cloudera.co.jp/unive rsity/
  • 12. Cloudera University トレーニング © 2014 Cloudera, Inc. All rights reserved. 12 コース概要 Cloudera Apache Hadoop エッセンシャル 1 日 なぜHadoopが存在しているのか、いつ利用するのが適切か、拡張 を成功させるために必要なリソースは何かを学習します。Hadoop の主要なコンポーネントと広範囲なHadoopエコシステムを紹介し ます。 Cloudera Apache Hadoop 開発者向け トレーニング4 日間 HDFSとMapReduceの基本と同様に、APIを使用してどのようにプ ログラムを記述するのか、デバッグと最適化のテクニック、大きな ワークフローの管理方法を学習します。関連するApacheプロジェ クトの概要を紹介します。 Cloudera Apache Hadoop 管理者向け トレーニング4 日間 Hadoopシステム管理者のコンセプトと実務について、インストー ルと設定、デプロイにおける問題の診断と解決するための負荷分散 とチューニングについて学習します。 Cloudera Apache Spark 開発者向けトレーニング 3日間 バッチ、ストリーミング、インタラクティブな分析を組み合わせた 完全に統合したビッグデータアプリケーションを構築するために、 Apache Sparkを使用した開発者のためのコースです。 Cloudera Apache HBase トレーニング 4日間 低遅延クエリと高スループットを実現するための分散データストア として、HBaseの使用方法を学習します。本コースではスキーマ設 計、アプリケーションの作成、設定とメンテナンスも網羅していま す。 Cloudera データサイエンス入門 3日間(日本での開催は未定) Apache Hadoopで分析とデータ変換を行うための、2つの人気のあ るApacheプロジェクト、HiveとPigの使用方法について、フィルタ、 結合、ユーザー定義関数などを学習します。 データサイエンス入門:レコメンドシステムを 構築する3日間(日本での開催は未定) データサイエンティストとは何か、解決できる問題は何か、異なる 業界においてデータからビジネスの価値を導くために現実的な課題 に適用する方法について学習します。自動化されたレコメンダシス テムを実装します。

Editor's Notes

  1. 3年ぐらい日本でトレーニングをやっている 最近はHiveやImpala、Pigのトレーニング、今後Sparkも始まる
  2. Impala B-4 YJ杉山 Spark B-5 MUIT土佐、B-5 NTTD土橋, C-5 NEC中台
  3. Navigator C-2 Hue LT夜