抓数据频繁被中断，请求加入自动更新start_page的功能

dataabc / weibo-crawler

新浪微博爬虫，用python爬取新浪微博数据，并下载微博图片和微博视频

3.25k stars 739 forks source link

感谢作者大大的代码！我用定期自动爬取微博的方式，在固定抓取一部分微博账号，user_id_list里包含多人，每人的since_date自动更新。

最近可能是微博方面升级限制，抓数据频繁被卡住，再也动不了，只能重新开始运行程序。但是在被迫中断前，有的人已经抓了不少内容了，却因为没有完成，所以重新运行时还得从today重新往回抓。

仔细研究documentation之后感觉可以通过更改start_page来“跳过”已抓取页面，直接从中断的地方开始。不知道作者大大是否能在user_id_list增加一个start_page字段，每次自动写入20页数据之后就自动更新，给当前id赋值start_page，以便被迫中断时能从start_page开始？

dataabc / weibo-crawler

抓数据频繁被中断，请求加入自动更新start_page的功能 #391