[B! mapreduce] takemikamiのブックマーク

takemikami id:takemikami

mapreduceに関するtakemikamiのブックマーク (1)

MapReduceで巨大データ同士をJOINする
立春をすぎて、暖かく感じる日も増えてきた今日この頃です。さて春といえばミツバチ、ミツバチといえばHiveですが、今日はHiveを使わないで純粋なMapReduceで、巨大データ同士をJOINするための一つの方法を書き留めたいと思います。よくある問題具体的に考えるために、状況を想定してみます。例えば以下の２つのテーブル、アクセスログ（日時，ユーザID，アクセスURL）とユーザマスタ（ユーザID，年齢，性別，住所）があるとします。これらのテーブルをユーザIDで結合したいとしましょう。 SQLで言えば次のような処理ということになります。 SELECT * FROM access_log LEFT OUTER JOIN user USING (user_id); つまり何ということはない普通のJOINなのですが、この２つのデータがとても大きなものであるとき、私たちは問題に直面します。解この
takemikami 2013/05/15
MapReduceで巨大データ同士をJoinするアルゴリズムの説明

mapreduce

hadoop
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx