amay077 commented 4 years ago

2020/10/07 以降、GitHub Actions による定時処理にかかる時間が 1h 程度になった（それまでは 10分未満で完了していた）

https://github.com/code4nagoya/covid19-aichi-tools/actions

https://github.com/code4nagoya/covid19-aichi-tools/commit/b3defb61b08437e3a2df454eec8ec2f586e4889f がトリガーと思われるが、原因追及は未。

imabari commented 3 years ago

camelotもすごい遅いはずです

自分の環境でscrape_patients.pyが838秒かかっています

camelot

CPU times: user 13min 49s, sys: 8.88 s, total: 13min 58s Wall time: 14min 1s

pdfplumber

CPU times: user 1min 23s, sys: 945 ms, total: 1min 24s Wall time: 1min 29s

amay077 commented 3 years ago

pip → pip3、python:3 → python:3.8 にしたら docker イメージを作成する時間は削減できて 30min → 15min まで短縮できました。

camelot → pdfplumber もやりたいですねえ。

amay077 commented 3 years ago

https://github.com/code4nagoya/covid19-aichi-tools/pull/86 で pdfplumber へ変更したところ、15min → 4.5min に短縮できました。

成果としては十分なので、本件はこれで close します。 @imabari さん、ご協力ありがとうございました。

takainou commented 3 years ago

本件対応ありがとうございました。Closeした所にコメントしてすみません。

定時のデータ取り込みにかかる時間が長くなった事により、GitHub Actionsの無料使用枠を超えそうなので、定時のデータ取り込みを3回/日(10時、13時、18時)を、1回/日(10時)に減らしたという認識です。

しばらく様子を見てGitHub Actionsの無料使用枠を超えそうで無ければ、13時のデータ取り込みの復活を検討いただけませんでしょうか。OCR導入時の「10時はOCR読み込みを優先し、OCR結果が使えないなら13時までに手入力」という運用にさせていただければと思っています。

なお、18時は、12月以降愛知県HPでの検査件数の夕刻の更新が無くなっており当サイトへのデータ更新が発生しない想定ですので、復活は不要の認識です。

amay077 commented 3 years ago

そうですね、復活させましょう（させました）。

87

imabari commented 3 years ago

docker使わないほうが速くないですか？兵庫県や北海道は使ってないので

takainou commented 3 years ago

早速の対応ありがとうございます。早速明日1/7朝10時からOCR読み込みを優先させます。

amay077 commented 3 years ago

docker使わないほうが速くないですか？

現状では docker でも十分な（GitHub Actionsの無料使用枠に収まる）速度なので、これでいいかなと。 GitHub Actions に依存してしまうことと、GitHub Actions の yaml を組んで動作確認するのが面倒なんですよね。今は、自PCで開発するときも GitHub Actions で使われるのも同じ Dockerfile なので便利です。

早速の対応ありがとうございます。早速明日1/7朝10時からOCR読み込みを優先させます。

たぶんここ数日の修正で OCR読み込みが機能しなくなってたので修正しておきました。 https://github.com/code4nagoya/covid19-aichi-tools/pull/88

takainou commented 3 years ago

OCR読み込みの修正対応ありがとうございました。早速OCR読み取り結果が利用されて良かったです。

imabari commented 3 years ago

現状OCRでの適用率は何パーセントぐらいなんですか？

code4nagoya / covid19-aichi-tools

定時のデータ取り込みにかかる時間が長くなった #77

87