code4nagoya / covid19-aichi-tools

MIT License
6 stars 5 forks source link

patients.csvの日付がずれる #81

Closed imabari closed 3 years ago

imabari commented 3 years ago

nowで西暦を取得しているため、去年の日付が今年の日付になっている

https://github.com/code4nagoya/covid19-aichi-tools/blob/7e07b0f4beb261d29f35be15202dc473c660b9d1/scrape_patients.py#L131

https://github.com/code4nagoya/covid19/issues/73

変更履歴 https://github.com/code4nagoya/covid19-scrape/commit/9135292bbc56c62eb599cd88e1bb0c77b46aa9ab#diff-b10564ab7d2c520cdd0243874879fb0a782862c3c902ab535faabe57d5a505e1

imabari commented 3 years ago

参考までに全体書き直しました https://imabari.hateblo.jp/entry/2021/01/02/163126

amay077 commented 3 years ago

@imabari さん、ありがとうございます。 とりあえず現状から最小の修正で対応しました。 https://github.com/code4nagoya/covid19-aichi-tools/issues/81#issuecomment-753443533 のコードはいずれ参考にさせていただきます。

imabari commented 3 years ago

2月になりましたが残念ながら西暦は追加されませんでしたね

takainou commented 3 years ago

「1月まで」の一覧PDFファイル(366119.pdf)は、2020年1月と2021年1月をうまく取り込めている様ですね。

ただ「2月」の一覧PDFファイル(366120.pdf)が取り込まれていない様です。

imabari commented 3 years ago

Microsoft: Print To PDFで作成されていますね pdfplumberとは相性が悪そうです

過去のファイルも変更時のみに更新するようにして camelotの方がいいかもしれませんね

imabari commented 3 years ago

1月までのPDF自分の環境だとcamelotのページ数が多すぎてメモリが足りなくて落ちます

amay077 commented 3 years ago

https://github.com/code4nagoya/covid19-aichi-tools/issues/81#issuecomment-771348972

ページ数が増えると camelot では指数関数的に遅くなる気がするので、

Python, PyPDF2でPDFを結合・分割(ファイル全体・個別ページ) | note.nkmk.me

の方法で事前に PDF をページごとに分割して、処理した方が早くメモリ節約になるのかもしれませんね。

amay077 commented 3 years ago

とりあえず明日には pdfplumber で取り込める PDF が公開されることを期待して2月をスクレイピング対象に追加しました。

https://github.com/code4nagoya/covid19-aichi-tools/pull/91

愛知県のPDF公開方針が固まったと判断したら3月以降も追加するつもりです。

imabari commented 3 years ago

一周回ってtabulaを使っていますがこちらの方がよさそうです https://github.com/tabulapdf/tabula-java

amay077 commented 3 years ago

Java ですか、できれば python だけで何とかしたいところです(開発・実行環境のシンプルさの維持のため)。 とは言え、性能が飛び抜けてよいものであれば採用の価値はあります。

imabari commented 3 years ago

https://github.com/code4nagoya/covid19/issues/73

自分がcamelot紹介する前はtabulaでした

tabula -> camelot -> pdfplumber -> tabula

imabari commented 3 years ago

PDF変換なのでこちらに移動します https://github.com/code4nagoya/covid19-aichi-tools/issues/90

amay077 commented 3 years ago

こちらは close しますね。