NTT Tech Conference #2 にて話した資料 時間が足りなかったので全部は話せなかった。Read less
Hadoopの時代は終わった、という言説をたまに見かけるようになりました。 もちろん終わってなどいません。しかし、Hadoopとその取り巻く環境が変化したのは事実です。 本記事では、この変化が何なのかを明らかにし、その上で、なぜHadoopの時代は終わったという主張が実態を正しく表していないのかを説明していきます。 DISCLAIMER 私はHadoopを中心としたデータ基盤を取り扱うベンダー、Clouderaの社員です。 中立的に書くよう努めますが、所属組織によって発生するバイアスの完全な排除を保証することはできません。 以上をご了承の上、読み進めてください。 要約 データ基盤は、Hadoopの登場により非常に安価となり、今まででは不可能だった大量のデータを取り扱えるようになりました。 Hadoopは、NoSQLブームの中、処理エンジンであるMapReduceとストレージであるHDFSが
今回はAmazon Elastic MapReduce(EMR)について解説します。Amazon EMRは、Amazonクラウド内でHadoopフレームワークを利用可能にする機能です。Hadoopフレームワークとは、分散処理を実現するミドルウエアの一つで、例えば大量のログやトランザクションデータの集計などのバッチ処理を、複数のサーバーで並列処理するアプリケーションを開発できます。 Amazon EMRの用途は、ログ分析、ウェブインデックス作成、データウエアハウス、機械学習、財務分析、科学シミュレーション、バイオインフォマティクスなど多岐にわたります。2009年にサービスを開始して以来、550万以上の Amazon EMR クラスターが利用者によって起動されています。 例えば、何万人分ものゲノム情報の収集や解析、医療情報のグローバル共有など、医療や科学の発展を目的とした国際プロジェクトで、A
ポニーの群れからシマウマを探す By エレン·フリードマン(MapR Technologies ビッグデータ・コンサルタント Apache Mahoutコミッター) オライリー社の実践機械学習シリーズの第2弾、テッド・ダニング氏との共著「異常検出の最新」が今週発行されました。以前の著作ではレコメンデーションに対する実践的なアプローチを取り上げ、皆さんが「ポニーが必要である」と考えるというところから始めました。第2弾では、ポニーの群れにいるシマウマ、群れの動きに逆らって泳ぐ魚のような稀に起こりうる異常値の発見について考えます。今回の目的は、どのように実践的な機械学習システムを構築すれば異常を発見できるか探ることです。このシリーズの目標は、実際の現場で必要とされる作業を考慮して問題解決を探っていくことです。 なぜ異常検出を使うのでしょうか? この手法への需要は広がり成長し続けています。異常検出
GoogleのMapReduceアルゴリズムをJavaで理解する:いま再注目の分散処理技術(前編)(1/2 ページ) 最近注目を浴びている分散処理技術「MapReduce」の利点をサンプルからアルゴリズムレベルで理解し、昔からあるJava関連の分散処理技術を見直す特集企画(編集部) いま注目の大規模分散処理アルゴリズム 最近、大規模分散処理が注目を浴びています。特に、「MapReduce」というアルゴリズムについて目にすることが多くなりました。Googleの膨大なサーバ処理で使われているということで、ここ数年の分散処理技術の中では特に注目を浴びているようです(参考「見えるグーグル、見えないグーグル」)。MapReduceアルゴリズムを使う利点とは、いったい何なのでしょうか。なぜ、いま注目を浴びているのでしょうか。 その詳細は「MapReduce : Simplified Data Proc
NECはビッグデータ分析を高速化する分散処理技術を開発。機械学習で頻繁に用いられる繰り返し演算および行列演算を、信頼性を損なわずにHadoopによる機械学習処理を大幅に高速化する。 今回開発した技術では、繰り返し演算と行列演算を多用するHadoopの機械演算を高速化するもの。具体的には、Hadoopの分散処理手法であるMapReduce間のデータ受け渡しをHDDではなく、メモリで実現することで、繰り返し演算を高速化。また、行列演算に関しては、分散処理手法としてMPI(Message Passing Interface)を利用可能にした。これにより、機械学習プログラムにおいてHadoopの10倍以上の速度を実現したという。 さらに新技術の高速化と信頼性を両立するため、メモリ上にある処理の状態を高速にハードディスクに保存する技術を世界で初めて開発した。Hadoopでは、サーバーの故障時にハード
MapReduceのJava実装Apache Hadoopを使ってみた:いま再注目の分散処理技術(後編)(1/3 ページ) 最近注目を浴びている分散処理技術「MapReduce」の利点をサンプルからアルゴリズムレベルで理解し、昔からあるJava関連の分散処理技術を見直す特集企画(編集部) Apache Hadoopプロジェクトとは何か? 本特集では、いま再注目の分散処理技術についていろいろと紹介してきました。前編の「GoogleのMapReduceアルゴリズムをJavaで理解する」では、分散処理技術で最近注目を浴びているものとして、グーグルのMapReduceアルゴリズムを紹介し、中編の「イロイロな分散処理技術とイマドキのWebサービス」では、MapReduceに至るまでのさまざまな分散処理技術やWebサービスについて紹介しました。 そのMapReduceアルゴリズムをJavaで実装したも
インストール時に打ったコマンドのログです。 素直にQuick Startを見た方が参考になると思いますが、日本語で実際に入れた人間のログが役に立つこともあると思ったので公開してみた感じです。 ディレクトリやユーザの構成は、割と自分仕様になっています。 # hadoop用にユーザを追加してみる(任意) $ sudo addgroup -gid 5000 hadoop $ sudo adduser --uid 5000 --home /home/hadoop --shell /bin/bash --system --group hadoop $ sudo passwd hadoop # hadoopユーザになる $ sudo su hadoop $ cd ~ # SUN純正のJDK6をここからダウンロード http://java.sun.com/javase/ja/6/download.htm
ubuntu9.10にhadoop環境を構築。 ちょっとお試しレベルなので、擬似分散モードで構築。 参考にしたURL:http://metasearch.sourceforge.jp/wiki/index.php?Hadoop%A5%BB%A5%C3%A5%C8%A5%A2%A5%C3%A5%D7 環境 Linux ns1 2.6.24-27-server #1 SMP Thu Jan 28 00:36:19 UTC 2010 i686 GNU/Linux 下準備 sunのjavaと、SSHとrsyncが必要なのでインストール。 $ sudo apt-get install ssh rsync sun-java6-jdk $ java -version java version "1.6.0_12" Java(TM) SE Runtime Environment (build 1.6.0_
次世代Hadoopの開発が進んでいる。現状の推移では、少なくとも分散クラウドでの「OSSインフラ」としてはHadoopが最有力候補であることは間違いない。クラウド上での分散処理基盤での技術競争ではGoogleやAmazonが相当抜きんでいる現在、それに対抗しうる可能性があるOSSはHadoopの潮流の延長線上にしか考えられない。その形としてHadoop-MapReduce2.0があるように見える。現在の状態で自分なりの次世代Hadoopの理解をまとめておく。基本的に全部は見切れていないので、そのあたりはあしからず。基本的に次世代Hadoopの仕組みは大きく二つの要素からなる 現在のところの柱はHDFSとMapreduce2.0の二つだ。 まずMapReduce。これは従来の「MapReduce」というものからはほど遠い。むしろ「任意」の分散処理実行フレームワークにたいして、適切なリソースを
This document comprehensively describes all user-facing facets of the Hadoop Map/Reduce framework and serves as a tutorial. Ensure that Hadoop is installed, configured and is running. More details: Hadoop Quick Start for first-time users. Hadoop Cluster Setup for large, distributed clusters. Hadoop Map/Reduce is a software framework for easily writing applications which process vast amounts of dat
業界トップ のエンタープライズ Hadoop 企業 Cloudera に入社しました http://www.cloudera.co.jp/ 今年の6月に、「平成21年度 産学連携ソフトウェア工学実践事業報告書」というドキュメント群が経産省から公表されました。 そのうちの一つに、NTTデータに委託されたHadoopに関する実証実験の報告書がありましたので、今更ながら読んでみることにしました。 Hadoop界隈の人はもうみんなとっくに読んでるのかもしれませんけど。 http://www.meti.go.jp/policy/mono_info_service/joho/downloadfiles/2010software_research/clou_dist_software.pdf 「高信頼クラウド実現用ソフトウェア開発(分散制御処理技術等に係るデータセンター高信頼化に向けた実証事業)」という
ジェミナイ・モバイル・テクノロジーズは2011年3月3日、リアルタイムログ解析システム「Flume-Cassandra Log Processor」をオープンソースソフトウエア(OSS)として公開した(配布サイト)。大量のシステムログを瞬時に分析して、グラフィカルなレポートを作成できる。ログ保存には、OSSの分散キー・バリュー型データストア(KVS)「Cassandra」を使用する。 Flume-Cassandra Log Processorでは、監視対象のサーバーで発生したイベントのログを、1秒以内にストレージであるCassandraに保存する。Cassandraは書き込みが高速な分散KVSで、サーバーの台数に比例して、ストレージ容量とI/Oを拡張できる。そのため、クラスターのサーバー台数を増やすことで、数百Tバイトのログの格納が可能になるとしている。ログの分析機能やレポート作成機能のほ
Hadoop(ハドゥープ)は複数のサーバーでクラスターを構成し、MapReduceという実行環境や、HDFS(Hadoop Distributed File System)という分散ファイルシステムなどによって、効率的な並列分散処理を実現するミドルウエアである。 MapReduceでは、データを整理・抽出するMapタスク、Mapタスクの出力を基にデータを集計するReduceタスクを、クラスターの各ノードで分散処理することで性能を高める。 現状では、Hadoopは主にログ分析やBI(Business Intelligence)に使用され、大量データを分析するための基盤ソフトと理解されることも多いが、それにとどまらず企業の基幹システムを大きく変える可能性を持っている。 Hadoopは分散処理を容易かつ高速に実現するため、割り切った作りになっている。基本的に処理中のデータの外部からの更新や複雑な
ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、R&D統括本部の吉田です。 前回と前々回の記事では、Hadoopのカスタマイズポイントを解説しました。 単純な問題に対しては、map関数とreduce関数の組み合わせだけでも、処理を行うことができますが、ある程度複雑な問題に対しては、今までに解説したカスタマイズポイントの活用が重要になるという話でした。 今回は実際のサービスの事例を紹介し、カスタマイズポイントがどう活用されているか紹介したいと思います。 ABYSS ABYSSの事例を紹介しましょう。 ABYSSとは、検索サービスを簡単に構築できる社内プラットフォームのことで、詳しくは以下のTechBlog記事で紹介しています。先日無事に社内リリースされました。 新検索
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く