タグ

kvsとhadoopに関するimai78のブックマーク (4)

  • 「データのライフ・サイクル」で考えるHadoopの使いどころ

    前回は、Hadoopがどのような仕組みでスケール・アウト性を実現しているのかを述べました。また、Hadoopが基的に、バッチ処理のスループットの向上を目的にしていることを指摘しました。 Hadoopには、「できること」と「できないこと」があります。処理の性質によっては、既存のリレーショナル・データベース管理システム(RDBMS)や、最近注目されているKey-Value Store(KVS)型データベースなどが適していることもあります。 今回は、RDBMSが果たしている役割とニーズの変化を踏まえながら、「データのライフ・サイクル」に着目して、RDBMS、Hadoop、KVSの3者をどのように使い分けていくべきかを解説します。 RDBMSが果たしている役割 RDBMSは、米IBMの研究所に勤務していたエドガー・F・コッドが1970年に発表した、「関係モデル」というデータ・モデルを採用したデー

  • Hadoopは企業のための新たな情報分析プラットフォームとなる、とCloudera

    グーグルが大規模分散システムのために用いているMapReduceという技術を、オープンソースとして実装したJavaベースのソフトウェア「Hadoop」です。 Hadoopは当初、Yahoo!やFacebook、Facebookといったネット企業が数テラバイト、ペタバイトにおよぶ大規模なログなどを分析するのに利用していましたが、現在ではVISAやJP Morgan Chase、China Moblieなど一般の企業でも大規模なデータ処理にHadoopを用いています。多くの処理がネットで行われるにつれ、「Big Data」と呼ばれる大規模データは処理のニーズはさまざまな企業に広がっています。 Hadoopは新しいデータ分析プラットフォームになる Hadoopの商用ディストリビューションを提供する「Cloudera」は、Hadoopをあらゆる企業、組織の情報分析プラットフォームにするというビジョ

    Hadoopは企業のための新たな情報分析プラットフォームとなる、とCloudera
  • Hadoopを使いこなす(1)

    まず、 1 の入力ファイルを分割する方法は、InputFormatクラスの、getSplits関数を上書きすることで、カスタマイズできます。 また、 3 のInputSplitから、KeyとValueを抽出する処理も、InputFormatクラスを通じてカスタマイズできます。 InputFormatのgetRecordReader関数を通じて、RecordReaderクラスを生成するのですが、これに任意のRecordReaderクラスを指定すればOKです。 2 のMap処理ですが、ユーザが指定したMapperクラスの処理を実行します。 Mapperクラスは、MapRunnerクラスを通じて、初期化処理、map関数を繰り返す過程、終了処理といった一連の流れを実行します。 MapRunnerクラスをカスタマイズすれば、こうした流れを制御することができます。 0.20.0からの新しいMapRed

    Hadoopを使いこなす(1)
  • Hadoop、hBaseで構築する大規模分散データ処理システム

    CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

    Hadoop、hBaseで構築する大規模分散データ処理システム
  • 1