PHP5でのスクレイピングについて調査してみた。 正規表現でやってもいいのだけど。 PHP5でやるのだからSimpleXMLでやってみたい。 となると、いかに未整形HTMLを整形済にしてSimpleXMLとするかが 課題となる。これについて調べてみた。 ↓これが答え。なるものを見つけました。 HTMLParser(PEARのXML_HTMLSax3使用)orTidyで整形してるそうです。 HTMLをXML化してDOMやXPathで操作するWebスクレイピング用PHPクラス : Under Construction, Baby: # SimpleXML+HTMLParser or Tidy+HTTP_Request+Cache_Lite http://www.rcdtokyo.com/ucb/contents/i000851.php これで調査終了。というのも寂しいので。 もう少しお手軽にで
ページ情報 制作日 2004-02-14 最終更新日 2004-02-14 参照用URI http://www.arielworks.net/articles/2004/0214a 分野 PHP XSLT関数に慣れていると名前空間の仕様に混乱するかもしれないので簡単な説明を書いておく。PHPのバージョンは4.3.4だ。 デフォルトの名前空間 まずはXHTML文章の名前空間を思い出す。 <?xml version="1.0" encoding="UTF-8"?> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>テストページ</title> </head> <body> <h1>見出し</h1> <p>本文</p> </body> </html> このXHTML文章(のようなXML文章)はxmlns="http://www.w
メソッドDOMDocument->createAttribute() - 新しい属性を作成するDOMDocument->createAttributeNS() - 関連付けられた名前空間に新しい属性を作成するDOMDocument->createCDATASection() - 新しい cdata ノードを作成するDOMDocument->createComment() - 新しい comment ノードを作成するDOMDocument->createDocumentFragment() - 新しい文書片を作成するDOMDocument->createElement() - 新しい要素ノードを作成するDOMDocument->createElementNS() - 関連付けられた名前空間に新しい要素ノードを作成するDOMDocument->createEntityReference() -
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く