タグ

crawlerとツールに関するbeth321のブックマーク (2)

  • 1日最大20億ページのクローリングを安価に実現!『80legs』 | 100SHIKI

    1日最大20億ページのクローリングを安価に実現!『80legs』 September 28th, 2009 Posted in 便利ツール(ウェブ) Write comment サービスの開発上、大量のウェブページのクローリングが必要な場合もある(お行儀良くやりましょうね)。 通常、そうしたクローリングには別途マシンを割り当ててがしがし処理をまわすのだが、あまりに膨大な量のクローリングをする必要がある場合、いろいろとコストがかかってしまう。 そこで「クローリングならうちに任せて!」と声を上げたのが80legsだ。 なんと5万台のマシンを使い、最大20億ページ/日のクローリングが可能だという。しかもデータセンターやクラウドを使うよりぐっと安価ときている。なおかつ、使い方も簡単で、どんなクローリングをしたいかをフォームで申し込むだけらしい。 クローリングという実にニッチなサービスではあるが、必

    1日最大20億ページのクローリングを安価に実現!『80legs』 | 100SHIKI
  • あらためてRuby製のクローラー、"anemone"を調べてみた - プログラマでありたい

    3年ほど前に、Ruby製のクローラー"anemone"を紹介しました。その当時から完成度が高く、Rubyでクローラーを使う場合はanemoneを利用してきました。最近、他に新しくて良いのがないか調べましたが、機能面の網羅性という意味でanemoneを超えるものは見つけられませんでした。そこで改めてanemoneのソースを読んでみたところ、クローラーが必要とする機能を必要最小限で実装され、やはり中々良い出来です。冬休みの宿題ではないですが、勉強の意味を兼ねてソースを追っていくことにします。 Anemoneが利用しているライブラリ一覧 anemoneが利用しているライブラリは、4種類に分類できます。 Ruby標準or一般的なライブラリ データ取得で利用しているライブラリ データ解析で利用しているライブラリ データ保存で利用しているライブラリ この分類別に構造をみるとわかりやすいので、順番に追っ

    あらためてRuby製のクローラー、"anemone"を調べてみた - プログラマでありたい
  • 1