都道府県別環境放射能水準調査結果をscrapingするの法 または PDF をスクレイピングするの法 http://www.mext.go.jp/a_menu/saigaijohou/syousai/1303723.htm このあたりからデータを取得できるわけだが、なぜか PDF なので、うんざりする。 こんなもんどうみても excel かなにかでつくってるんだから生データを提供しろといいたい。 まあ文句をいっていてもしょうがないので、こういう PDF をスクレイピングする方法について解説する。 pdftotext などのコマンドをつかうのがオススメ。今だと、poppler というライブラリが日本語もあつかえてすばらしすぎるので、これをつかうとよい。これは Perl/Python/Ruby のバインディングがあるので、それをつかってもよいがこういう場合、ライブラリなどでがんばって PDF