あるページのリンク (aタグ) を全て抜き出すスクリプト。 require 'hpricot' require 'open-uri' doc = Hpricot( open("http://www.kmc.gr.jp/").read ) (doc/:a).each do |link| puts "#{link.inner_html} → #{link[:href]}" end
RubyによるWeb Scrapingライブラリの情報をまとめるためのWikiです。 HpricotHTMLを「Rubyらしく」扱うライブラリ MechanizeWebサイトへ自動でアクセスするためのライブラリ scRUBYt!DSLを使って簡単にスクレイピングを行うライブラリ feedalizerhtmlからRSSフィードを作るのに役立つライブラリ scrAPIパーサを定義することでHTMLを解析するライブラリ ウェブサイトから必要なデータを抽出すること。(Scrape = 削り取る) ライブラリによっては、受信したデータの解析だけでなくデータの送信にも対応している。 例: RSSを配信していないウェブサイトのHTMLをスクレイピングして野良RSSを作る Googleの検索結果をスクレイピングして自動でGoogle検索するスクリプトを書く ブログの投稿ページを解析して、コマンドラインから
This post is also available in: Español (Spanish) Last Updated on December 25, 2020 by Jay (Updated testing results for 2020) Summary: There are three methods available to unlock iPhone 6/6s or 6 plus/6s plus – software unlocking, hardware unlocking, and IMEI unlocking. Software unlocking is a scam and doesn’t work, and hardware unlocking can ruin your device and will void your warranty. The only
Hpricotは Ruby用の HTML パーサです。スキャン部分は C 言語で書かれていて高速に動作します。 HTMLの解析や書き換えに威力を発揮する便利なライブラリです。 rubygemsを使うのが簡単です。 # gem install hpricot すると以下のようにプラットフォームを聞いてきます。Unix系OSであれば 1 を、mswin32 であれば 2 を選びます。 Select which gem to install for your platform (i386-freebsd6) 1. hpricot 0.4 (ruby) 2. hpricot 0.4 (mswin32) 3. Cancel installation コンパイルが始まり、インストールが行われます。 Building native extensions. This could take a while.
Rubyの勉強 SHOUTcastとYouTubeのサイトを解析してみる。とりあえずスゴク簡単にできてしまう。ザウルスだとライブラリの読み込みにちょっと時間がかかるかなとは思うものの、後々にメンテナンスなんかを考えるとソースが簡潔になるメリットは大きいと思います。もうひとつBitWarp経由でhtmlソースを取得すると改行が無くなってしまう問題がありましたがHpricotで解析すれば、この問題も気にしなくて済むようになりますね。 <foo class=bar>はfoo.bar、<foo id=bar>はfoo#barという指定方法が可能みたいなので、各タグの中にclass属性が埋め込まれているYouTubeのソースの方が簡単にできた。SHOUTcastの方は(doc/:html/:body/:table)[10]の様にn番目という方法でタグを指定したけど、もっと良い方法がありそうな気がする
Rubyの勉強 簡単な部分の機能を使ってみる。難しい部分はまだ良くわかっていません(^^ゞ とりあえず以前勉強したREXMLでXMLの解析を行った雰囲気で簡単にhtmlの解析ができるっぽいです。 参考サイト http://mono.kmc.gr.jp/~yhara/w/?HpricotShowcaseJa http://mono.kmc.gr.jp/~yhara/d/?date=20070205#p01 ザウルスのw3mのブックマークファイルbookmark.htmlを解析 以下の様なhtmlファイルです。 <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=euc-jp"> <TITLE>Bookmarks</TITLE> </head> <body> <h2>Search Box</h2>
■ [ruby] RubyでHTMLとWebを操作するためのライブラリ、HpricotとWWW::Mechanize 今日は、RubyでWebサイトを解析するときに強い味方となるライブラリ、HpricotとWWW::Mechanizeを紹介します。 どちらも非常に強力なので、覚えておいて損はないよ! 以下ではまずHpricotでHTMLを解析・編集する方法について解説します。 次に、「はてなダイアリーの自動更新」を例にWWW::Mechanizeの使い方を解説します。 Hpricot HpricotはHTMLを解析するためのライブラリです。 例えば「あるページのリンクだけを全部抜き出したい」と思ったとき、どうしますか?scrAPIを使う?でもscrAPIはやっぱり ちょっと使いたいだけなのにパーザ(Scrape)用のクラスを定義するのが面倒なんだよね! Hpricotなら、たったこれだけで
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く