http://d.hatena.ne.jp/nokuno/20100915/1284564957 のスライドを眺めながら,「メモリを有効利用するのは MapReduce でも重要だよね」などとぼんやりと思いました. 以前,N-gram コーパスの作成に MapReduce を試したとき,並列に実行されるプロセスの数と全体のメモリ容量を考慮して C++ で mapper を書かないと,効率が悪くて仕方がないという結論に落ち着いていたことが,「だよね」につながっています. とはいっても,大規模なデータに関しては,できる限りメモリ上で取り扱うべしというのは一つの基本ですから,なんだか伝統への回帰のような印象も受けました.これは,最近読んだ本に書いてあったからかもしれません. [Web開発者のための]大規模サービス技術入門 ―データ構造、メモリ、OS、DB、サーバ/インフラ (WEB+DB PRE
