disinfoRG / FbScraper

MIT License
3 stars 2 forks source link

update article 要依 next_snapshot_at 的順序 #15

Closed pm5 closed 4 years ago

pm5 commented 4 years ago

與 #14 類似的問題:

update.py 會一直在更新已經抓過 snapshot 的 post,但還有 60k 篇還沒有抓過 snapshot 的 post 都不會去更新它。

要更新的文章列表應該依 next_snapshot_at 的值,由小到大排序,讓每次執行時 update.py 優先去更新最舊的文章。這個加上 #14 的修正才可以在各種執行週期下都有效解決這個問題。

https://github.com/disinfoRG/FbScraping/blob/master/db_manager.py#L11