Open kkd opened 6 years ago
表にまとめるのが難しくて、 矩形の中にあるテキストを探すのが結構手間ですね。 ってやっていて気がつきました。 本当は表をcsvとして出力したいのですが。
@sassy この方も、同じのをテキスト化していて紹介していただきました。
https://imabari.hateblo.jp/entry/2018/08/01/180518
tabula使うと、PDFのテキストをテーブルに落とせると言う話も聞きました。 (サンプルがブログにあるとかいってましたが) ちょっと見てもらえたりします?
はじめまして
記事はこちらになります https://imabari.hateblo.jp/entry/2017/08/29/211526
こちらからtabulaをダウンロードして https://github.com/tabulapdf/tabula-java/releases
java -jar .\tabula-1.0.2-jar-with-dependencies.jar -o higaijokyo65.csv -p all -r .\higaijokyo65.pdf
表の部分はテキスト化されます。
tabulaで表のままテキスト化できれば、その部分をpandasに読み込む、あるいはcsvに出力することは可能でしょうか?
変換するとcsvになっています higaijokyo65.xlsx
@imabari @kkd 情報ありがとうございます!(javaには疎いので助かります。) やってみたらできました。
これをそのままPR出せばいいですか?
テキスト化するだけでしたらWordでPDFを開いてexcelに貼り付けするほうがきれいかもしれません。 pythonでしたらtabula-pyを使うといいかもしれません https://github.com/chezou/tabula-py
tabula-py はただのJavaのラッパーでpandasのデータ形式で出力するものなので、 今回の用途とはずれるかなと思いました。
平成30年7月豪雨による被害状況等について(第65報)をテキスト化しましたが 毎回変換するのは難しいので差分更新するほうがいいかと思います。 https://docs.google.com/spreadsheets/d/1y9DEzNqESRJlHQ4g3lXshRlheRhR5W-i2iazEAtKzVw/edit?usp=sharing
参考までに、愛媛県の被害状況のpdfをfeedにしてみました。 https://feed43.com/ehime-h3007-higaijokyo-pdf.xml 見出しの「被害状況」と「道路に関する情報」の間を取得しています。 (と偉そうに言いながら、もしかしたら imabari さんの記事を参考にfeed43を使い始めたような...
@npmyj ありがとうございます。使うきっかけになったようで記事を書いてよかったです。
@kkd PDFをテキスト化またはCSVしても今日のように取り消し線で消されている場合は目視でのチェックが必要です。 tabulaとwordで変換したものを整形しましたが実質2時間ぐらいかかりました。 差分にしても変更箇所がたくさんありチェックするのも時間がかかります。 あと更新されるたびに前のPDFは削除されるため追いかけていくのも大変です。 ちなみPDFは12:00までに報告されたものをまとめて17:00すぎに更新されるようです。 結論はテキスト化ぐらいがまだ現実的だと思います。
htmlの見た目だけでいいならPopplerのpdftohtmlでhtmlにはできます。 http://pdf-file.nnn2.com/?p=884
@npmyj 遅ればせながらTwitterにフィード流すようにしました。ありがとうとざいます!
@imabari 大変な作業ありがとうございます!これほんと大変ですよね。。。 県の人とつながって元ファイルのままの公開お願いしたいところです。。。
概要
このページの被害状況のPDFから、災害についての数値データを抜いてSpreadSheetなりTSV/CSVにできないか?
現在はこちら→http://www.pref.ehime.jp/h12200/documents/higaijokyo57.pdf
毎日 PM 12:00に更新される。 (higaijokyoNN.pdfという名称)
やりたいこと
災害に関するデータを公開しているが、PDFになっているのでデータとして扱うことが難しい。 それぞれ表になっている情報を、個別の表形式にしてスプレッドシートに格納したい。 (日々の差分が確認見れるようにCSV・TSVにしてgitに格納するのが望ましいかも)
なぜ必要か
これらのデータを元に愛媛県の被害状況ダッシュボードを作成したいため( #35 参照)
不明点
PDFから抜き出して表としてまとめるのが簡単にできるか? pdftotextだと、表としては取得できないっぽい。