PDFに記述された表をCSVにしたい(とりあえずできた)
10秒でわかるまとめ
フリーソフトの「tabula」でOK
本題
きっかけ
俗に言う高級住宅街は浅い知識ながらも把握していたが、実は公示価だとここも高級住宅街なんだぜ!っていう豆知識を得たかった(あるかは不明だが)。
公示価くらいなら公開情報だし、csvとかで転がってるしょ、だったらExcelとかNumbersでソートしたらおわりっしょ、つーかこれからっしょ、と甘く考えながら検索したら、統計局のホームページを発見。
リンク先の国土交通省のページを開き意気揚々と東京都のデータを開こうとしたら・・・事件は起こった。
事件
https://www.mlit.go.jp/common/001335504.pdf
をみたら分かる通り、pdfなんですわ。しかも表形式で。
なんぞやと。なぜxlsxとかcsvじゃないんだと。
解決策
色々考えるまでもなく、前に見た覚えがあったフリーソフトをぶちこんでちょこちょこっと処理したら終了。
てことで軽くメモ書き。
まずはWIndowsやMac向けに公開されているTabulaをいれましょう。UbuntuとかArchLinuxの人は公式GitHubのReadMeに記載されている、jar形式のやつでOK。
jarなので言うまでもなくJava Runtimeは必須。
tabula.technology
インストール完了したら、起動。
そうするとブラウザ上で勝手にhttp://127.0.0.1:8080/ もしくは http://localhost:8080/ でTabulaが起動します。
あとは
このImportでインポートしてあげて
出てきた結果から1ページあたりの表形式の範囲を選んであげて緑のPreview & Export Extracted Dataボタンを押す。
そしたら
こんな感じでいい感じの切り抜きができてるはずなので、あとはExportする。
Excelは改行周りがめんどいので、Numbersで開いたら普通にいけました。
普通?普通です。
あとがき
GUIベースでサクッと処理できるのは便利ですね。特に官公庁周りの資料だとpdf形式も多々あるので、細かい章で試してみて大本でやってみる、というのがよさそうです。
ちなみに、最初の目的自体はまだ検証していません。
Enjoy!
Adobe Acrobat Pro DC 12か月版(最新PDF)|Windows/Mac対応|オンラインコード版
- 発売日: 2017/11/01
- メディア: Software Download