patients.csvの日付がずれる

imabari commented 3 years ago

nowで西暦を取得しているため、去年の日付が今年の日付になっている

imabari commented 3 years ago

amay077 commented 3 years ago

@imabari さん、ありがとうございます。とりあえず現状から最小の修正で対応しました。 https://github.com/code4nagoya/covid19-aichi-tools/issues/81#issuecomment-753443533 のコードはいずれ参考にさせていただきます。

imabari commented 3 years ago

2月になりましたが残念ながら西暦は追加されませんでしたね

takainou commented 3 years ago

「1月まで」の一覧PDFファイル(366119.pdf)は、2020年1月と2021年1月をうまく取り込めている様ですね。

ただ「2月」の一覧PDFファイル(366120.pdf)が取り込まれていない様です。

imabari commented 3 years ago

Microsoft: Print To PDFで作成されていますね pdfplumberとは相性が悪そうです

過去のファイルも変更時のみに更新するようにして camelotの方がいいかもしれませんね

imabari commented 3 years ago

1月までのPDF自分の環境だとcamelotのページ数が多すぎてメモリが足りなくて落ちます

amay077 commented 3 years ago

https://github.com/code4nagoya/covid19-aichi-tools/issues/81#issuecomment-771348972

ページ数が増えると camelot では指数関数的に遅くなる気がするので、

の方法で事前に PDF をページごとに分割して、処理した方が早くメモリ節約になるのかもしれませんね。

amay077 commented 3 years ago

とりあえず明日には pdfplumber で取り込める PDF が公開されることを期待して２月をスクレイピング対象に追加しました。

愛知県のPDF公開方針が固まったと判断したら３月以降も追加するつもりです。

imabari commented 3 years ago

一周回ってtabulaを使っていますがこちらの方がよさそうです https://github.com/tabulapdf/tabula-java

amay077 commented 3 years ago

Java ですか、できれば python だけで何とかしたいところです（開発・実行環境のシンプルさの維持のため）。とは言え、性能が飛び抜けてよいものであれば採用の価値はあります。

imabari commented 3 years ago

自分がcamelot紹介する前はtabulaでした

tabula -> camelot -> pdfplumber -> tabula

imabari commented 3 years ago

amay077 commented 3 years ago

こちらは close しますね。

code4nagoya / covid19-aichi-tools