Closed pm5 closed 4 years ago
雖然說目前 update.py 每天只跑一次,所以間隔小於一天的 next_snapshot_at 結果應該差不多,都要隔天才會抓,但目前 crawler 跑起來並不快(在可見的未來也都不會快),這樣設定會有問題。看了一下資料庫:
update.py
SELECT snapshot_count, COUNT(*) FROM `Article` WHERE article_type = "FBPost" GROUP BY snapshot_count
目前結果是
snapshot_count | COUNT(*) | -- | -- | -- 0 | 62691 1 | 14 2 | 155
所以 update.py 會一直在更新已經抓過 snapshot 的 post,但還有 60k 篇還沒有抓過 snapshot 的 post 都不會去更新它。
暫時調整成三天 by this commit e2ce4b674e442853bc42b5e85016210ab7176772
雖然說目前
update.py
每天只跑一次,所以間隔小於一天的 next_snapshot_at 結果應該差不多,都要隔天才會抓,但目前 crawler 跑起來並不快(在可見的未來也都不會快),這樣設定會有問題。看了一下資料庫:目前結果是
所以
update.py
會一直在更新已經抓過 snapshot 的 post,但還有 60k 篇還沒有抓過 snapshot 的 post 都不會去更新它。