Anemone is ruby gem for crawler. How to use Anemone.

official connpass 「Webスクレイピングの基礎知識」(@nezuq) SlideShare 3つの壁を突破する 倫理 情報解析目的なら合法と解析と解釈(文化庁のQAに肯定的記述) 常識的な範囲でのアクセス障害なら過失と言える。(国立国会図書館の場合、1秒以上あけてスクレイピングなら可能) 技術 最低限でもHTMLの知識 事例(どう使うか) データジャーナリズム(データからストーリーを見つけ提供する。NHKでやってる) Data Journalism Handbook(大義がある) 「オープンデータのためのスクレイピング 〜抽出・共有・分析まで〜」(@ito_nao) SlideShare プログラミング不要でスクレイピング出来るwebサービスのご紹介 Tabula PDFからデータを抽出するツール kimono paginationが得意。 構造化されたクローリングは苦手
CocProxyというツールがあります。名前の通りプロキシサーバーなのですが、用途が開発用です。置換プロキシと言うらしいですが、これがとっても便利です。例えば、クローラーの開発や、HTML,CSS,JavaScriptの修正をする際に、このCocProxyを利用するとダウンロード待ちのイライラが解消され、効率アップ間違いなしです。ローカルのみで完結するのと、Webへのアクセスが必要とするのでは、スピードが数十〜数百倍違います。一回だけでみたら、数百ミリSecの差ですが累積で考えると大きいですよ。 CocProxyとは? Ruby製のProxyServerです。かつ標準ライブラリで動くことを目標としているので、Rubyの環境があれば、ダウンロードして直ぐに使えます。また基本的には1ファイルで完結するので、導入も簡単です。Ruby1.9をベースにしていますが、Ruby 2.0でも特に問題なく動
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く