タグ

crawlerに関するmainyaaのブックマーク (4)

  • https://labs.cybozu.co.jp/blog/kazuho/archives/2008/04/q4m_crawler.php

    mainyaa
    mainyaa 2008/04/07
    メッセージキューを使うことで、高速なクローラを簡潔に、きれいに実装できる
  • Perlメモ/Gungho/簡単なRSSクローラ - Walrus, Digit.

    Gunghoでもっともカスタムメイドの機会が多い部品は、プロバイダとハンドラです。「何を取得したいか」「取得してどうするのか」という用途に密接にかかわる部品だからです。ここではサンプルとして、データベースをストレージとした、RSS(フィード)クローラを作ってみることにします。 Gunghoの概要や情報源についてはPerlメモ/Gunghoを参照してください。 このフィードクローラは、次のような動作をします。 データベースに、フィード情報を保持するfeedテーブルとエントリ情報、コンテンツを保持するentryテーブルがあります。 フィードの取得 フィードテーブルから、未取得、または最終取得から1時間経過したフィードのURLを読み出します。 読み出したフィードを取得します。 取得したフィードから、エントリ情報を抽出します。新しいエントリURLがあれば、entryテーブルに追加します。 エントリ

    mainyaa
    mainyaa 2008/03/18
  • mixi Engineers’ Blog » 新RSS Crawlerの裏側

    このブログでは初めましての長野雅広(kazeburo)です。mixi開発部・運用グループでアプリケーションの運用を担当しています。 12月12日よりmixiのRSSのCrawlerが改善され、外部ブログの反映が今までと比べ格段にはやくなっているのに気付かれた方も多いかと思います。この改善されたRSS Crawlerの裏側について書きたいと思います 以前のCrawlerについて 以前のCrawlerは cronからbrokerと呼ばれるプログラムを起動 brokerはmember DBから全件、idをincrementしながら取得し、外部ブログが設定されていればcrawlerを起動(fork) crawlerはRSSを取得しDBに格納して終了 このような設計になっていました。 この設計の問題として、member DBを全件走査するという無駄な動作と、一件一件crawlerを起動するためオーバ

    mixi Engineers’ Blog » 新RSS Crawlerの裏側
    mainyaa
    mainyaa 2007/12/25
  • Ywcafe.net

    Ywcafe.net This Page Is Under Construction - Coming Soon! Why am I seeing this 'Under Construction' page? Related Searches: Health Insurance Online classifieds fashion trends Best Penny Stocks Free Credit Report Trademark Free Notice Review our Privacy Policy Service Agreement Legal Notice Privacy Policy|Do Not Sell or Share My Personal Information

    mainyaa
    mainyaa 2006/03/07
    使うのは怖いな。
  • 1