[B! crawler] mainyaaのブックマーク

mainyaa id:mainyaa

crawlerに関するmainyaaのブックマーク (4)

https://labs.cybozu.co.jp/blog/kazuho/archives/2008/04/q4m_crawler.php
mainyaa 2008/04/07
メッセージキューを使うことで、高速なクローラを簡潔に、きれいに実装できる

perl

mysql

q4m

crawler
リンク
Perlメモ/Gungho/簡単なRSSクローラ - Walrus, Digit.
Gunghoでもっともカスタムメイドの機会が多い部品は、プロバイダとハンドラです。「何を取得したいか」「取得してどうするのか」という用途に密接にかかわる部品だからです。ここではサンプルとして、データベースをストレージとした、RSS（フィード）クローラを作ってみることにします。 Gunghoの概要や情報源についてはPerlメモ/Gunghoを参照してください。このフィードクローラは、次のような動作をします。データベースに、フィード情報を保持するfeedテーブルとエントリ情報、コンテンツを保持するentryテーブルがあります。フィードの取得フィードテーブルから、未取得、または最終取得から1時間経過したフィードのURLを読み出します。読み出したフィードを取得します。取得したフィードから、エントリ情報を抽出します。新しいエントリURLがあれば、entryテーブルに追加します。エントリ
mainyaa 2008/03/18
perl

crawler

gungho
リンク
mixi Engineers’ Blog » 新RSS Crawlerの裏側
このブログでは初めましての長野雅広(kazeburo)です。mixi開発部・運用グループでアプリケーションの運用を担当しています。 12月12日よりmixiのRSSのCrawlerが改善され、外部ブログの反映が今までと比べ格段にはやくなっているのに気付かれた方も多いかと思います。この改善されたRSS Crawlerの裏側について書きたいと思います以前のCrawlerについて以前のCrawlerは cronからbrokerと呼ばれるプログラムを起動 brokerはmember DBから全件、idをincrementしながら取得し、外部ブログが設定されていればcrawlerを起動(fork) crawlerはRSSを取得しDBに格納して終了このような設計になっていました。この設計の問題として、member DBを全件走査するという無駄な動作と、一件一件crawlerを起動するためオーバ
mainyaa 2007/12/25
mixi

perl

rss

crawler

poe
リンク
Ywcafe.net
Ywcafe.net This Page Is Under Construction - Coming Soon! Why am I seeing this 'Under Construction' page? Related Searches: Health Insurance Online classifieds fashion trends Best Penny Stocks Free Credit Report Trademark Free Notice Review our Privacy Policy Service Agreement Legal Notice Privacy Policy|Do Not Sell or Share My Personal Information
mainyaa 2006/03/07
使うのは怖いな。

php

crawler
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx