Hadoopは分散処理によって、大量データの一括処理をRDBMSよりも大幅に高速化できるミドルウエアで、これまではログ解析など特定の分野で使われてきた。これを、基幹バッチ処理に適用するためのフレームワークが登場した。オープンソースソフトウエアの「Asakusa」である。 本連載では、Asakusaの開発責任者がその全体像を解説する。Hadoopがなぜ速いのかを解説したあと、Asakusaの構成要素や設計方法、実際のコーディング例を示す。
Amazon Elastic Mapreduce(EMR)は、Hadoop環境を構築することなくMapReduceが使える、PaaSに近いものです。しかし、中身はAmazonが独自にカスタマイズしているHadoopなので、一般的なHadoopのチューニング手法をそのまま適用できない場合があったりします。 前回の予告とは若干異なりますが、今回はいったんEMRを離れてHadoopの基礎を説明します。順番的にも先にこちらを説明したほうが内部のしくみもわかってより理解しやすいと思います。 HDFSではサイズが大きいファイルを扱うほうが効率的 あえて今回まで触れませんでしたが、Hadoopとは言わずと知れたGoogleの論文をもとに作成されたGFS(Google File System)とMapReduceのオープンソースのクローンです。GFSはHDFS(Hadoop Distributed Fil
MahoutのCanopyとK-Meansを用い、Canopy生成しCanopy Centroidを用いたK-Means Clustering実行できる Driverの実装法を解説します。次のようなコマンドライン呼び出しで、質の良い Canopy+K-Meansの一連のClusteringの手続きを実行できます。以下では、org.apache.mahout.clustering.canopykmeans packageを作り、追加実装しコンパイルしたJobファイルを $MAHOUT_HOME/bin/mahout-core-0.4-job.jar に置いています。MahoutのVersionは最新の0.4です。 実行例 $HADOOP_HOME/bin/hadoop jar $MAHOUT_HOME/bin/mahout-core-0.4-job.jar \ org.apache.maho
2011/02/22 Hadoop Conference Japan 2011に登壇してきました。35分の Main Talk。 『モバゲーの大規模データマイニング基盤におけるHadoop活用』に関して話しています。 『モバゲーの大規模データマイニング基盤におけるHadoop活用』−Hadoop Conference Japan 2011− #hcj2011 『モバゲーの大規模データマイニング基盤におけるHadoop活用』−Hadoop Conference Japan 2011− #hcj2011 View more presentations from Koichi Hamada. 現在のモバゲータウンでの、大規模データマイニング基盤の構成や、データマイニング・機械学習の活用、統一行動記述、それらの重要性等、話しています。データマイニング活用の部分等、口頭のみの説明で済ませてしまった箇
AgentSpace ver.3 佐藤一郎 (国立情報学研究所) はじめに 旧版AgentSpaceは1997年秋に開発された Java 言語を利用したモバイルエージェントシステムです。そもそもJava言語の手習いを兼ねて短時間で作ったシステムであしたが、結果として多くの方々にご利用頂くことになりました。1999年以降同システムの更新は行っていませんでしたが、ここ1,2年は再び多くの問い合わせをいただいておりました。ただ、その問い合わせの多くが、J2SE上で動作するようにして欲しいというものでした。古いシステムのメンテナンスはしたくないのですが、2005年5月に10日間ほど欧州出張をしていたときに暇を見つけて新規に書き直しました。 2020年代になっても利用者(卒論や修論向けなど)がおられることから、2020年の年末にメンテナンスを行いました。また、UDPマルチキャストを利用して、近場のA
This page describes the code used to run experiments in the following paper: Jimmy Lin and Michael Schatz. Design Patterns for Efficient Graph Algorithms in MapReduce. Proceedings of the 2010 Workshop on Mining and Learning with Graphs Workshop (MLG-2010), July 2010, Washington, D.C. There's code in Cloud9 that illustrates three different design patterns for graph algorithms in MapReduce using Pag
2. Introduction ‣ How We Arrived at NoSQL: A Crash Course ‣ Collecting Data (Scribe) ‣ Storing and Analyzing Data (Hadoop) ‣ Rapid Learning over Big Data (Pig) ‣ And More: Cassandra, HBase, FlockDB 3. My Background ‣ Studied Mathematics and Physics at Harvard, Physics at Stanford ‣ Tropos Networks (city-wide wireless): mesh routing algorithms, GBs of data ‣ Cooliris (web media): Hadoop and Pig for
What does business chat mean on Instagram? If that’s what you are trying to figure out right now, you have landed in the right place. If you have just opened a brand new Instagram profile for your business and hope to promote your products or services, you will… Wondering how to change the Instagram notification sound? Don’t worry. We’ve got you covered. Listening to the same notification sound ca
Following are some pitfalls and bugs that we have run into while running Hadoop. If you have a problem that isn't here please let the TA know so that we can help you out and share the solution with the rest of the class. Back to checklist General Advice If you are having problems, check the logs in the logs directory to see if there are any Hadoop errors or Java Exceptions. Logs are named by machi
An Introduction to Hadoop Date: This event took place live on July 16 2009 Presented by: Tom White, Christophe Bisciglia Duration: Approximately 60 minutes. Cost: Free Questions? Please send email to Tweet Description: In this webcast, Cloudera founder Christophe Bisciglia and O'Reilly author Tom White will provide an introduction to Hadoop/MapReduce, the open source project that allows organizati
Security in Hadoop by Jason Schlesinger Data is growing at an increasing rate, and processing and storing that data is a real issue that present and future generations will have to deal with. Hadoop, Apache's open source implementation of Google's MapReduce, can scale both storage space and processing power almost indefinitely across a large dataset. This is achieved by how Hadoop distributes data
前回、JavaScriptでMap Reduceのコードが書けるHadoop Streamingについて紹介しました。 標準入出力さえサポートされてあれば、任意のコードでMap Reduuceの処理が書ける、というものでしたが、エンジニアはそもそも面倒くさがり。コードも書くのも面倒です。 と、いうわけで、今回はもうコードすら書かずにSQLライクでMap ReduceできるHiveというプロダクトについて、まとめたいと思います。 Hive Hiveとは、簡単に言うとHadoop上で動作するRDBのようなものです。 HDFSなどの分散ファイルシステム上に存在するデータに対して、HiveQLというSQLライクな言語で操作できます。 で、面白いのがHiveQLの操作は基本的にMap Reduceのラッパーになっていること。 要するに、SELECT文実行すると裏でMap&Reduceのタスクが走り出
■HadoopDBのアーキテクチャについて HadoopDB: An Architectural Hybrid of MapReduce and DBMS Technologies for Analytical Workloads. Azza Abouzeid, Kamil Bajda-Pawlikowski, Daniel J. Abadi, Avi Silberschatz, Alex Rasin. In Proceedings of VLDB, 2009. より、 HadoopDBのアーキテクチャに関する章から、Hadoopに追加された4つのコンポーネントについて順に読んできます。 ▼Database Connector Database Connectorは、クラスタの各ノードにある個別のデータベースとTaskTrackerの間のインタフェースで、 HadoopのInputFo
HadoopDB An Architectural Hybrid of MapReduce and DBMS Technologies for Analytical Workloads. HadoopDB is: A hybrid of DBMS and MapReduce technologies that targets analytical workloads Designed to run on a shared-nothing cluster of commodity machines, or in the cloud An attempt to fill the gap in the market for a free and open source parallel DBMS Much more scalable than currently available parall
Hadoop Related Downloads Oozie – Yahoo!'s workflow engine for Hadoop Download the source code of Oozie, Yahoo!'s workflow engine for Hadoop: Apache Hadoop Sandbox Download the sandbox version of Apache Hadoop with security and Pig. The sandbox version contains a VMWare(TM) based virtual machine with a preinstalled Hadoop cluster, enabling easy setup and experimentation. Notice Yahoo! does not offe
前回はGoogleの基盤技術とそれに対応するオープンソースソフトウェアとして、Hadoop & hBaseを紹介しました(図1 参照)。今回はHadoopを1台にインストールし、サンプルプログラムを動かします。次にHDFSとMapReduceのアーキテクチャを解説します。最後にサンプルプログラムのソースコードを解説します。 2. Hadoopの概要 Hadoopは主にYahoo! Inc.のDoug Cutting氏によって開発が進められているオープンソースソフトウェアで、GoogleFileSystemとMapReduceというGoogleの基盤技術のオープンソース実装です。Hadoopという名前は開発者の子供が持っている黄色い象のぬいぐるみの名前に由来しています。HadoopはHDFS(Hadoop Distributed File System)、Hadoop MapReduce F
2008/08/25 Preferred Infrastructure(PFI)は8月25日、NTTレゾナントと共同で行った、オープンソースの分散システム「Hadoop」(ハドゥープ)に関する調査を行い、その解析資料を公開した。 HadoopはApacheの1プロジェクトとして開発が進められているJavaで書かれたソフトウェアで、グーグルの大規模データ処理基盤技術である「Google File System」(GFS)、「MapReduce」をオープンソースで実装したもの。多数のサーバを使って大規模なデータ処理が行える。Hadoopへの貢献度の高さで知られる米ヤフーは2008年2月19日に、1万台のLinuxクラスタを使ったHadoopシステムを発表。5PBのディスクストレージを使い、Web検索用のデータを作成しているという。ヤフーのほか、Facebook、IBMなど採用例が増えており、注
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く