タイトルって難しい。

学力も体力もない人間の雑記帳。

PDFに記述された表をCSVにしたい(とりあえずできた)

10秒でわかるまとめ

フリーソフトの「tabula」でOK

本題

きっかけ

俗に言う高級住宅街は浅い知識ながらも把握していたが、実は公示価だとここも高級住宅街なんだぜ!っていう豆知識を得たかった(あるかは不明だが)。
公示価くらいなら公開情報だし、csvとかで転がってるしょ、だったらExcelとかNumbersでソートしたらおわりっしょ、つーかこれからっしょ、と甘く考えながら検索したら、統計局のホームページを発見。
リンク先の国土交通省のページを開き意気揚々と東京都のデータを開こうとしたら・・・事件は起こった。

事件

https://www.mlit.go.jp/common/001335504.pdf

をみたら分かる通り、pdfなんですわ。しかも表形式で。
なんぞやと。なぜxlsxとかcsvじゃないんだと。

解決策

色々考えるまでもなく、前に見た覚えがあったフリーソフトをぶちこんでちょこちょこっと処理したら終了。
てことで軽くメモ書き。

まずはWIndowsMac向けに公開されているTabulaをいれましょう。UbuntuとかArchLinuxの人は公式GitHubのReadMeに記載されている、jar形式のやつでOK。
jarなので言うまでもなくJava Runtimeは必須。 tabula.technology

github.com

インストール完了したら、起動。
そうするとブラウザ上で勝手にhttp://127.0.0.1:8080/ もしくは http://localhost:8080/ でTabulaが起動します。
あとは

f:id:cancolle:20200712111219p:plain

このImportでインポートしてあげて

f:id:cancolle:20200712111255p:plain 出てきた結果から1ページあたりの表形式の範囲を選んであげて緑のPreview & Export Extracted Dataボタンを押す。
そしたら

f:id:cancolle:20200712111556p:plain こんな感じでいい感じの切り抜きができてるはずなので、あとはExportする。

f:id:cancolle:20200712111600p:plain

Excelは改行周りがめんどいので、Numbersで開いたら普通にいけました。
普通?普通です。

あとがき

GUIベースでサクッと処理できるのは便利ですね。特に官公庁周りの資料だとpdf形式も多々あるので、細かい章で試してみて大本でやってみる、というのがよさそうです。
ちなみに、最初の目的自体はまだ検証していません。
Enjoy!