tokuhirom's Blog

都道府県別環境放射能水準調査結果をscrapingするの法 または PDF をスクレイピングするの法

http://www.mext.go.jp/a_menu/saigaijohou/syousai/1303723.htm
このあたりからデータを取得できるわけだが、なぜか PDF なので、うんざりする。
こんなもんどうみても excel かなにかでつくってるんだから生データを提供しろといいたい。

まあ文句をいっていてもしょうがないので、こういう PDF をスクレイピングする方法について解説する。
pdftotext などのコマンドをつかうのがオススメ。今だと、poppler というライブラリが日本語もあつかえてすばらしすぎるので、これをつかうとよい。これは Perl/Python/Ruby のバインディングがあるので、それをつかってもよいがこういう場合、ライブラリなどでがんばって PDF を解析するのはわりと時間の無駄となる場合がおおい。

poppler は homebrew で一発インストールできるので、osx ならそれで OK。ubuntu なら poppler-utils と poppler-data をいれよう。

そうすると pdftotext コマンドが利用可能となるので、pdftotext コマンドをつかって出力した結果をもとに、regexp などでパーズすればよろしい。