Closed imabari closed 3 years ago
参考までに全体書き直しました https://imabari.hateblo.jp/entry/2021/01/02/163126
@imabari さん、ありがとうございます。 とりあえず現状から最小の修正で対応しました。 https://github.com/code4nagoya/covid19-aichi-tools/issues/81#issuecomment-753443533 のコードはいずれ参考にさせていただきます。
2月になりましたが残念ながら西暦は追加されませんでしたね
「1月まで」の一覧PDFファイル(366119.pdf)は、2020年1月と2021年1月をうまく取り込めている様ですね。
ただ「2月」の一覧PDFファイル(366120.pdf)が取り込まれていない様です。
Microsoft: Print To PDFで作成されていますね pdfplumberとは相性が悪そうです
過去のファイルも変更時のみに更新するようにして camelotの方がいいかもしれませんね
1月までのPDF自分の環境だとcamelotのページ数が多すぎてメモリが足りなくて落ちます
https://github.com/code4nagoya/covid19-aichi-tools/issues/81#issuecomment-771348972
ページ数が増えると camelot では指数関数的に遅くなる気がするので、
Python, PyPDF2でPDFを結合・分割(ファイル全体・個別ページ) | note.nkmk.me
の方法で事前に PDF をページごとに分割して、処理した方が早くメモリ節約になるのかもしれませんね。
とりあえず明日には pdfplumber で取り込める PDF が公開されることを期待して2月をスクレイピング対象に追加しました。
https://github.com/code4nagoya/covid19-aichi-tools/pull/91
愛知県のPDF公開方針が固まったと判断したら3月以降も追加するつもりです。
一周回ってtabulaを使っていますがこちらの方がよさそうです https://github.com/tabulapdf/tabula-java
Java ですか、できれば python だけで何とかしたいところです(開発・実行環境のシンプルさの維持のため)。 とは言え、性能が飛び抜けてよいものであれば採用の価値はあります。
https://github.com/code4nagoya/covid19/issues/73
自分がcamelot紹介する前はtabulaでした
tabula -> camelot -> pdfplumber -> tabula
PDF変換なのでこちらに移動します https://github.com/code4nagoya/covid19-aichi-tools/issues/90
こちらは close しますね。
nowで西暦を取得しているため、去年の日付が今年の日付になっている
https://github.com/code4nagoya/covid19-aichi-tools/blob/7e07b0f4beb261d29f35be15202dc473c660b9d1/scrape_patients.py#L131
https://github.com/code4nagoya/covid19/issues/73
変更履歴 https://github.com/code4nagoya/covid19-scrape/commit/9135292bbc56c62eb599cd88e1bb0c77b46aa9ab#diff-b10564ab7d2c520cdd0243874879fb0a782862c3c902ab535faabe57d5a505e1