cheerup-ehime / cheerup-ehime.github.io

jekyll site for this organization
MIT License
7 stars 5 forks source link

愛媛県が公開している災害状況のPDFをデータ化したい #40

Open kkd opened 6 years ago

kkd commented 6 years ago

概要

このページ被害状況のPDFから、災害についての数値データを抜いてSpreadSheetなりTSV/CSVにできないか?

現在はこちら→http://www.pref.ehime.jp/h12200/documents/higaijokyo57.pdf

毎日 PM 12:00に更新される。 (higaijokyoNN.pdfという名称)

やりたいこと

災害に関するデータを公開しているが、PDFになっているのでデータとして扱うことが難しい。 それぞれ表になっている情報を、個別の表形式にしてスプレッドシートに格納したい。 (日々の差分が確認見れるようにCSV・TSVにしてgitに格納するのが望ましいかも)

なぜ必要か

これらのデータを元に愛媛県の被害状況ダッシュボードを作成したいため( #35 参照)

不明点

PDFから抜き出して表としてまとめるのが簡単にできるか? pdftotextだと、表としては取得できないっぽい。

sassy commented 6 years ago

表にまとめるのが難しくて、 矩形の中にあるテキストを探すのが結構手間ですね。 ってやっていて気がつきました。 本当は表をcsvとして出力したいのですが。

kkd commented 6 years ago

@sassy この方も、同じのをテキスト化していて紹介していただきました。

https://imabari.hateblo.jp/entry/2018/08/01/180518

tabula使うと、PDFのテキストをテーブルに落とせると言う話も聞きました。 (サンプルがブログにあるとかいってましたが) ちょっと見てもらえたりします?

imabari commented 6 years ago

はじめまして

記事はこちらになります https://imabari.hateblo.jp/entry/2017/08/29/211526

こちらからtabulaをダウンロードして https://github.com/tabulapdf/tabula-java/releases

java -jar .\tabula-1.0.2-jar-with-dependencies.jar -o higaijokyo65.csv -p all -r .\higaijokyo65.pdf

表の部分はテキスト化されます。

kkd commented 6 years ago

tabulaで表のままテキスト化できれば、その部分をpandasに読み込む、あるいはcsvに出力することは可能でしょうか?

imabari commented 6 years ago

変換するとcsvになっています higaijokyo65.xlsx

sassy commented 6 years ago

@imabari @kkd 情報ありがとうございます!(javaには疎いので助かります。) やってみたらできました。

これをそのままPR出せばいいですか?

imabari commented 6 years ago

テキスト化するだけでしたらWordでPDFを開いてexcelに貼り付けするほうがきれいかもしれません。 pythonでしたらtabula-pyを使うといいかもしれません https://github.com/chezou/tabula-py

sassy commented 6 years ago

tabula-py はただのJavaのラッパーでpandasのデータ形式で出力するものなので、 今回の用途とはずれるかなと思いました。

imabari commented 6 years ago

平成30年7月豪雨による被害状況等について(第65報)をテキスト化しましたが 毎回変換するのは難しいので差分更新するほうがいいかと思います。 https://docs.google.com/spreadsheets/d/1y9DEzNqESRJlHQ4g3lXshRlheRhR5W-i2iazEAtKzVw/edit?usp=sharing

kazweda commented 6 years ago

参考までに、愛媛県の被害状況のpdfをfeedにしてみました。 https://feed43.com/ehime-h3007-higaijokyo-pdf.xml 見出しの「被害状況」と「道路に関する情報」の間を取得しています。 (と偉そうに言いながら、もしかしたら imabari さんの記事を参考にfeed43を使い始めたような...

imabari commented 6 years ago

@npmyj ありがとうございます。使うきっかけになったようで記事を書いてよかったです。

@kkd PDFをテキスト化またはCSVしても今日のように取り消し線で消されている場合は目視でのチェックが必要です。 tabulaとwordで変換したものを整形しましたが実質2時間ぐらいかかりました。 差分にしても変更箇所がたくさんありチェックするのも時間がかかります。 あと更新されるたびに前のPDFは削除されるため追いかけていくのも大変です。 ちなみPDFは12:00までに報告されたものをまとめて17:00すぎに更新されるようです。 結論はテキスト化ぐらいがまだ現実的だと思います。

htmlの見た目だけでいいならPopplerのpdftohtmlでhtmlにはできます。 http://pdf-file.nnn2.com/?p=884

kkd commented 6 years ago

@npmyj 遅ればせながらTwitterにフィード流すようにしました。ありがとうとざいます!

@imabari 大変な作業ありがとうございます!これほんと大変ですよね。。。 県の人とつながって元ファイルのままの公開お願いしたいところです。。。