[B! hadoop] yagitoshiroのブックマーク

yagitoshiro id:yagitoshiro

hadoopに関するyagitoshiroのブックマーク (19)

Hadoop向け基幹バッチ分散処理ソフト「Asakusa」の全貌
Hadoopは分散処理によって、大量データの一括処理をRDBMSよりも大幅に高速化できるミドルウエアで、これまではログ解析など特定の分野で使われてきた。これを、基幹バッチ処理に適用するためのフレームワークが登場した。オープンソースソフトウエアの「Asakusa」である。本連載では、Asakusaの開発責任者がその全体像を解説する。Hadoopがなぜ速いのかを解説したあと、Asakusaの構成要素や設計方法、実際のコーディング例を示す。
yagitoshiro 2011/04/02
hadoop

asakusa
リンク
第7回　Amazon Elastic MapReduceのパフォーマンスを引き出すためのHadoopの基礎知識 | gihyo.jp
Amazon Elastic Mapreduce（EMR）は、Hadoop環境を構築することなくMapReduceが使える、PaaSに近いものです。しかし、中身はAmazonが独自にカスタマイズしているHadoopなので、一般的なHadoopのチューニング手法をそのまま適用できない場合があったりします。前回の予告とは若干異なりますが、今回はいったんEMRを離れてHadoopの基礎を説明します。順番的にも先にこちらを説明したほうが内部のしくみもわかってより理解しやすいと思います。 HDFSではサイズが大きいファイルを扱うほうが効率的あえて今回まで触れませんでしたが、Hadoopとは言わずと知れたGoogleの論文をもとに作成されたGFS（Google File System）とMapReduceのオープンソースのクローンです。GFSはHDFS（Hadoop Distributed Fil
yagitoshiro 2011/03/31
hadoop

aws
リンク
Mahout: Canopy and K-means Clustering - hamadakoichi blog
MahoutのCanopyとK-Meansを用い、Canopy生成しCanopy Centroidを用いたK-Means Clustering実行できる Driverの実装法を解説します。次のようなコマンドライン呼び出しで、質の良い Canopy+K-Meansの一連のClusteringの手続きを実行できます。以下では、org.apache.mahout.clustering.canopykmeans packageを作り、追加実装しコンパイルしたJobファイルを $MAHOUT_HOME/bin/mahout-core-0.4-job.jar に置いています。MahoutのVersionは最新の0.4です。実行例 $HADOOP_HOME/bin/hadoop jar $MAHOUT_HOME/bin/mahout-core-0.4-job.jar \ org.apache.maho
yagitoshiro 2011/02/25
hadoop

mahout

statistics

k-means
リンク
「モバゲーの大規模データマイニング基盤におけるHadoop活用」−Hadoop Conference Japan 2011 #hcj2011 で登壇してきました - hamadakoichi blog
2011/02/22 Hadoop Conference Japan 2011に登壇してきました。35分の Main Talk。『モバゲーの大規模データマイニング基盤におけるHadoop活用』に関して話しています。『モバゲーの大規模データマイニング基盤におけるHadoop活用』−Hadoop Conference Japan 2011− #hcj2011 『モバゲーの大規模データマイニング基盤におけるHadoop活用』−Hadoop Conference Japan 2011− #hcj2011 View more presentations from Koichi Hamada. 現在のモバゲータウンでの、大規模データマイニング基盤の構成や、データマイニング・機械学習の活用、統一行動記述、それらの重要性等、話しています。データマイニング活用の部分等、口頭のみの説明で済ませてしまった箇
yagitoshiro 2011/02/25
hadoop
リンク
無題ドキュメント
AgentSpace ver.3 佐藤一郎 (国立情報学研究所) はじめに旧版AgentSpaceは1997年秋に開発された Java 言語を利用したモバイルエージェントシステムです。そもそもJava言語の手習いを兼ねて短時間で作ったシステムであしたが、結果として多くの方々にご利用頂くことになりました。1999年以降同システムの更新は行っていませんでしたが、ここ1,2年は再び多くの問い合わせをいただいておりました。ただ、その問い合わせの多くが、J2SE上で動作するようにして欲しいというものでした。古いシステムのメンテナンスはしたくないのですが、2005年5月に10日間ほど欧州出張をしていたときに暇を見つけて新規に書き直しました。 2020年代になっても利用者（卒論や修論向けなど）がおられることから、2020年の年末にメンテナンスを行いました。また、UDPマルチキャストを利用して、近場のA
yagitoshiro 2011/01/13
agentspace

mobileagent

mapreduce

hadoop

java
リンク
Cloud9: A MapReduce Library for Hadoop
This page describes the code used to run experiments in the following paper: Jimmy Lin and Michael Schatz. Design Patterns for Efficient Graph Algorithms in MapReduce. Proceedings of the 2010 Workshop on Mining and Learning with Graphs Workshop (MLG-2010), July 2010, Washington, D.C. There's code in Cloud9 that illustrates three different design patterns for graph algorithms in MapReduce using Pag
yagitoshiro 2010/07/05
algorithm

hadoop

mapreduce

pagerank
リンク
NoSQL at Twitter (NoSQL EU 2010)
2. Introduction ‣ How We Arrived at NoSQL: A Crash Course ‣ Collecting Data (Scribe) ‣ Storing and Analyzing Data (Hadoop) ‣ Rapid Learning over Big Data (Pig) ‣ And More: Cassandra, HBase, FlockDB 3. My Background ‣ Studied Mathematics and Physics at Harvard, Physics at Stanford ‣ Tropos Networks (city-wide wireless): mesh routing algorithms, GBs of data ‣ Cooliris (web media): Hadoop and Pig for
yagitoshiro 2010/04/23
twitter

cassandra

database

hadoop

scalability

scribe

Architecture

programming

analytics

cloud
リンク
GetLikes Blog: Latest Social Media News!
What does business chat mean on Instagram? If that’s what you are trying to figure out right now, you have landed in the right place. If you have just opened a brand new Instagram profile for your business and hope to promote your products or services, you will… Wondering how to change the Instagram notification sound? Don’t worry. We’ve got you covered. Listening to the same notification sound ca
yagitoshiro 2010/01/05
scala

hadoop

java
リンク
Hadoop Troubleshooting
Following are some pitfalls and bugs that we have run into while running Hadoop. If you have a probl em that isn't here please let the TA know so that we can help you out and share the solution with the rest of the class. Back to checklist General Advice If you are having probl ems, check the logs in the logs directory to see if there are any Hadoop errors or Java Exceptions. Logs are named by machi
yagitoshiro 2009/10/13
hadoop

troubleshooting
リンク
An Introduction to Hadoop - O'Reilly Media Free, Live Events
An Introduction to Hadoop Date: This event took place live on July 16 2009 Presented by: Tom White, Christophe Bisciglia Duration: Approximately 60 minutes. Cost: Free Questions? Please send em ail to Tweet Description: In this webcast, Cloudera founder Christophe Bisciglia and O'Reilly author Tom White will provide an introduction to Hadoop/MapReduce, the open source project that allows organizati
yagitoshiro 2009/10/09
hadoop

mapreduce

cloud

oreilly
リンク
- HACKED -
Security in Hadoop by Jason Schlesinger Data is growing at an increasing rate, and processing and storing that data is a real issue that present and future generations will have to deal with. Hadoop, Apache's open source implementation of Google's MapReduce, can scale both storage space and processing power almost indefinitely across a large dataset. This is achieved by how Hadoop distributes data
yagitoshiro 2009/09/29
security

hadoop
リンク
blog.katsuma.tv
前回、JavaScriptでMap Reduceのコードが書けるHadoop Streamingについて紹介しました。標準入出力さえサポートされてあれば、任意のコードでMap Reduuceの処理が書ける、というものでしたが、エンジニアはそもそも面倒くさがり。コードも書くのも面倒です。と、いうわけで、今回はもうコードすら書かずにSQLライクでMap ReduceできるHiveというプロダクトについて、まとめたいと思います。 Hive Hiveとは、簡単に言うとHadoop上で動作するRDBのようなものです。 HDFSなどの分散ファイルシステム上に存在するデータに対して、HiveQLというSQLライクな言語で操作できます。で、面白いのがHiveQLの操作は基本的にMap Reduceのラッパーになっていること。要するに、SELECT文実行すると裏でMap&Reduceのタスクが走り出
yagitoshiro 2009/09/09
hive

hadoop

mapreduce
リンク
http://www.hadoopstudio.org/
yagitoshiro 2009/08/20
hadoop
リンク
Silicon Soul » HadoopDBのアーキテクチャ
■HadoopDBのアーキテクチャについて HadoopDB: An Architectural Hybrid of MapReduce and DBMS Techno logies for Analytical Workloads. Azza Abouzeid, Kamil Bajda-Pawlikowski, Daniel J. Abadi, Avi Silberschatz, Alex Rasin. In Proceedings of VLDB, 2009. より、 HadoopDBのアーキテクチャに関する章から、Hadoopに追加された４つのコンポーネントについて順に読んできます。 ▼Database Connector Database Connectorは、クラスタの各ノードにある個別のデータベースとTaskTrackerの間のインタフェースで、 HadoopのInputFo
yagitoshiro 2009/07/31
hadoopdb

hadoop
リンク
HadoopDB Project
HadoopDB An Architectural Hybrid of MapReduce and DBMS Techno logies for Analytical Workloads. HadoopDB is: A hybrid of DBMS and MapReduce techno logies that targets analytical workloads Designed to run on a shared-nothing cluster of commodity machines, or in the cloud An attempt to fill the gap in the market for a free and open source parallel DBMS Much more scala ble than currently available parall
yagitoshiro 2009/07/28
hadoopdb

hadoop
リンク
Yahoo! Distribution of Hadoop Security
Hadoop Related Downloads Oozie – Yahoo!'s workflow engine for Hadoop Download the source code of Oozie, Yahoo!'s workflow engine for Hadoop: Apache Hadoop Sandbox Download the sandbox version of Apache Hadoop with security and Pig. The sandbox version contains a VMWare(TM) based virtual machine with a preinstalled Hadoop cluster, enabling easy setup and experimentation. Notice Yahoo! does not offe
yagitoshiro 2009/06/15
hadoop

yahoo
リンク
IBM Developer
IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant techno logies such as generative AI, data science, AI, and open source.
yagitoshiro 2009/01/28
New York Times は Hadoop と EC2 を使うことによって、4TB の TIFF 画像 (40.5 万枚の巨大な TIFF 画像と 330 万本の SGML 記事、そして 40.5 万個の XML ファイルなど) を Web で使いやすい 80 万枚の PNG 画像に 36 時間で変換したのです。

Linux

apache

yahoo

mapreduce

hadoop

amazon
リンク
Hadoopのインストールとサンプルプログラムの実行
前回はGoogleの基盤技術とそれに対応するオープンソースソフトウェアとして、Hadoop & hBaseを紹介しました（図1 参照）。今回はHadoopを1台にインストールし、サンプルプログラムを動かします。次にHDFSとMapReduceのアーキテクチャを解説します。最後にサンプルプログラムのソースコードを解説します。 2. Hadoopの概要 Hadoopは主にYahoo! Inc.のDoug Cutting氏によって開発が進められているオープンソースソフトウェアで、GoogleFileSystemとMapReduceというGoogleの基盤技術のオープンソース実装です。Hadoopという名前は開発者の子供が持っている黄色い象のぬいぐるみの名前に由来しています。HadoopはHDFS（Hadoop Distributed File System）、Hadoop MapReduce F
yagitoshiro 2008/09/30
hadoop
リンク
Hadoopは耐障害性に課題があるが実用性十分－＠IT
2008/08/25 Preferred Infrastructure（PFI）は8月25日、NTTレゾナントと共同で行った、オープンソースの分散システム「Hadoop」（ハドゥープ）に関する調査を行い、その解析資料を公開した。 HadoopはApacheの1プロジェクトとして開発が進められているJavaで書かれたソフトウェアで、グーグルの大規模データ処理基盤技術である「Google File System」（GFS）、「MapReduce」をオープンソースで実装したもの。多数のサーバを使って大規模なデータ処理が行える。Hadoopへの貢献度の高さで知られる米ヤフーは2008年2月19日に、1万台のLinuxクラスタを使ったHadoopシステムを発表。5PBのディスクストレージを使い、Web検索用のデータを作成しているという。ヤフーのほか、Facebook、IBMなど採用例が増えており、注
yagitoshiro 2008/08/31
hadoop
リンク
1