タグ

Hadoopに関するkatttonのブックマーク (4)

  • 「データのライフ・サイクル」で考えるHadoopの使いどころ

    前回は、Hadoopがどのような仕組みでスケール・アウト性を実現しているのかを述べました。また、Hadoopが基的に、バッチ処理のスループットの向上を目的にしていることを指摘しました。 Hadoopには、「できること」と「できないこと」があります。処理の性質によっては、既存のリレーショナル・データベース管理システム(RDBMS)や、最近注目されているKey-Value Store(KVS)型データベースなどが適していることもあります。 今回は、RDBMSが果たしている役割とニーズの変化を踏まえながら、「データのライフ・サイクル」に着目して、RDBMS、Hadoop、KVSの3者をどのように使い分けていくべきかを解説します。 RDBMSが果たしている役割 RDBMSは、米IBMの研究所に勤務していたエドガー・F・コッドが1970年に発表した、「関係モデル」というデータ・モデルを採用したデー

    kattton
    kattton 2010/11/19
    とても良記事。DBの種類による使いどころを丁寧に解説。RDBMS, KVS, Hadoopの使い分け。
  • Hadoopがスケール・アウトする仕組み

    前回の記事では、Hadoopが膨大なデータをバッチ処理するための「インフラ」としての性質を備えていること、情報爆発時代の新たなインフラとして普及しつつあることを説明しました。その中で、情報爆発時代に必要とされるインフラは、「スケール・アウトが可能であること」という条件を備えていなければならないことを示しました。サーバーの台数を増やすことで容易にシステムの処理性能が増やせることは、Hadoopの重要な特徴です。今回は、Hadoopがどのようにしてスケール・アウトを可能にしているかを、「分散ファイル・システム」と「MapReduceフレームワーク」の2つの観点から解説します。 スケール・アウトとは? コンピュータ・システムを新たに構築するときは、必ず「運用」のことを考えておく必要があります。システム・トラブルが発生した場合の対応策を決めたり、将来の仕様変更に備えてプログラムに拡張性を持たせたり

    kattton
    kattton 2010/11/19
    なんとわかりやすい!
  • 大量データのバッチ処理を高速化するHadoop

    Hadoopというソフトウエアが、いま注目を集めています。米Googleが発表した論文のアイディアをオープンソース・モデルで実装したソフトウエアです。膨大な量のデータを処理する必要に迫られた企業や研究組織が、続々とHadoopを実際に活用しはじめています。 私たちの研究グループでは、Wikipediaなどの巨大なテキスト・データを解析するために、2007年頃からHadoopを利用しはじめましたが、日国内でも2009年あたりからHadoopを使った事例を多く見聞きするようになりました。国内で初めてのHadoop関連イベントが2009年11月に東京で開催され、オライリー・ジャパンから2010年1月にHadoopの邦訳が出版されるなど、Hadoopが多くの開発者の注目を浴びています。 しかしながら、「Hadoopは何となくすごそうなんだけど、複雑だし、どんなソフトなのかいまいち分からないんだ

  • 「グーグル脅威論」をぶっ飛ばせ

    トヨタ、次代の敵はグーグル」---。こう題するコラムが、2010年10月13日付の日経産業新聞に掲載された。米グーグルは弊社のようなメディア産業だけでなく、広告産業やソフトウエア産業の既存企業に深刻な打撃を与えてきた。そして今や、世界最大の自動車メーカーであるトヨタ自動車さえも、グーグルを脅威と見なし始めているというのだ。 トヨタグーグルの何を脅威と感じているのか。トヨタは10月5日、スマートグリッド(次世代送電網)の中核となる独自の情報システム「トヨタ スマート センター」を開発したと発表した(発表資料)。日経産業新聞によれば、トヨタの幹部は「スマートグリッドで(グーグルに)攻め込まれたら、事業の根幹が崩れる」との危機感から、自社によるスマートグリッドシステムの開発に取り組んでいるのだという。 電気自動車を充電するためのインフラを他社に押さえられ、規格や仕様を支配されると、「車を自由

    「グーグル脅威論」をぶっ飛ばせ
    kattton
    kattton 2010/11/19
    Hadoopを活用できることが、グーグルと戦う上で最低限必要な条件である
  • 1