http://www.mext.go.jp/a_menu/saigaijohou/syousai/1303723.htm
このあたりからデータを取得できるわけだが、なぜか PDF なので、うんざりする。
こんなもんどうみても excel かなにかでつくってるんだから生データを提供しろといいたい。
まあ文句をいっていてもしょうがないので、こういう PDF をスクレイピングする方法について解説する。
pdftotext などのコマンドをつかうのがオススメ。今だと、poppler というライブラリが日本語もあつかえてすばらしすぎるので、これをつかうとよい。これは Perl/Python/Ruby のバインディングがあるので、それをつかってもよいがこういう場合、ライブラリなどでがんばって PDF を解析するのはわりと時間の無駄となる場合がおおい。
poppler は homebrew で一発インストールできるので、osx ならそれで OK。ubuntu なら poppler-utils と poppler-data をいれよう。
そうすると pdftotext コマンドが利用可能となるので、pdftotext コマンドをつかって出力した結果をもとに、regexp などでパーズすればよろしい。