はじめに こんにちは、Python界の情弱です。さて、今日ふと必要があってスクレイピングをしてたんですが、その時にうまいこと文字列を抜き出すのに苦労したんでメモ。 参考 pyquery – PyQuery complete API — pyquery 1.2.1 documentation ソース jQueryならcontents()とかでうまいことできるっぽいけど、pyqueryには残念ながらありません。そこで力技で必要ない要素を削除した後にtext()で返される文字列をsplitして決め打ちで文字列取ってくるという方法を採りました。なんかださいけどしょうがない。 from pyquery import PyQuery as pq # この要素中の"piyo"だけ抜き出したい html_str = "<div>hoge<span>foo</span><h3>bar</h3>piyo</d