Closed amay077 closed 3 years ago
camelotもすごい遅いはずです
自分の環境でscrape_patients.pyが838秒かかっています
camelot
CPU times: user 13min 49s, sys: 8.88 s, total: 13min 58s Wall time: 14min 1s
pdfplumber
CPU times: user 1min 23s, sys: 945 ms, total: 1min 24s Wall time: 1min 29s
pip → pip3、python:3 → python:3.8 にしたら docker イメージを作成する時間は削減できて 30min → 15min まで短縮できました。
camelot → pdfplumber もやりたいですねえ。
https://github.com/code4nagoya/covid19-aichi-tools/pull/86 で pdfplumber へ変更したところ、15min → 4.5min に短縮できました。
成果としては十分なので、本件はこれで close します。 @imabari さん、ご協力ありがとうございました。
本件対応ありがとうございました。Closeした所にコメントしてすみません。
定時のデータ取り込みにかかる時間が長くなった事により、GitHub Actionsの無料使用枠を超えそうなので、定時のデータ取り込みを3回/日(10時、13時、18時)を、1回/日(10時)に減らしたという認識です。
しばらく様子を見てGitHub Actionsの無料使用枠を超えそうで無ければ、13時のデータ取り込みの復活を検討いただけませんでしょうか。OCR導入時の「10時はOCR読み込みを優先し、OCR結果が使えないなら13時までに手入力」という運用にさせていただければと思っています。
なお、18時は、12月以降愛知県HPでの検査件数の夕刻の更新が無くなっており当サイトへのデータ更新が発生しない想定ですので、復活は不要の認識です。
そうですね、復活させましょう(させました)。
docker使わないほうが速くないですか? 兵庫県や北海道は使ってないので
早速の対応ありがとうございます。早速明日1/7朝10時からOCR読み込みを優先させます。
docker使わないほうが速くないですか?
現状では docker でも十分な(GitHub Actionsの無料使用枠に収まる)速度なので、これでいいかなと。 GitHub Actions に依存してしまうことと、GitHub Actions の yaml を組んで動作確認するのが面倒なんですよね。 今は、自PCで開発するときも GitHub Actions で使われるのも同じ Dockerfile なので便利です。
早速の対応ありがとうございます。早速明日1/7朝10時からOCR読み込みを優先させます。
たぶんここ数日の修正で OCR読み込みが機能しなくなってたので修正しておきました。 https://github.com/code4nagoya/covid19-aichi-tools/pull/88
OCR読み込みの修正対応ありがとうございました。早速OCR読み取り結果が利用されて良かったです。
現状OCRでの適用率は何パーセントぐらいなんですか?
2020/10/07 以降、GitHub Actions による定時処理にかかる時間が 1h 程度になった(それまでは 10分未満で完了していた)
https://github.com/code4nagoya/covid19-aichi-tools/actions
https://github.com/code4nagoya/covid19-aichi-tools/commit/b3defb61b08437e3a2df454eec8ec2f586e4889f がトリガーと思われるが、原因追及は未。