disinfoRG / FbScraper

MIT License
3 stars 2 forks source link

next_snapshot_at 只間隔一個小時太短了 #14

Closed pm5 closed 4 years ago

pm5 commented 4 years ago

雖然說目前 update.py 每天只跑一次,所以間隔小於一天的 next_snapshot_at 結果應該差不多,都要隔天才會抓,但目前 crawler 跑起來並不快(在可見的未來也都不會快),這樣設定會有問題。看了一下資料庫:

SELECT snapshot_count, COUNT(*) FROM `Article` WHERE article_type = "FBPost" GROUP BY snapshot_count

目前結果是

snapshot_count | COUNT(*) |  
-- | -- | --
0 | 62691
1 | 14
2 | 155

所以 update.py 會一直在更新已經抓過 snapshot 的 post,但還有 60k 篇還沒有抓過 snapshot 的 post 都不會去更新它。

dieface commented 4 years ago

暫時調整成三天 by this commit e2ce4b674e442853bc42b5e85016210ab7176772