dataabc / weibo-crawler

新浪微博爬虫,用python爬取新浪微博数据,并下载微博图片和微博视频
3.25k stars 739 forks source link

抓数据频繁被中断,请求加入自动更新start_page的功能 #391

Closed uofcyx closed 11 months ago

uofcyx commented 11 months ago

感谢作者大大的代码!我用定期自动爬取微博的方式,在固定抓取一部分微博账号,user_id_list里包含多人,每人的since_date自动更新。

最近可能是微博方面升级限制,抓数据频繁被卡住,再也动不了,只能重新开始运行程序。但是在被迫中断前,有的人已经抓了不少内容了,却因为没有完成,所以重新运行时还得从today重新往回抓。

仔细研究documentation之后感觉可以通过更改start_page来“跳过”已抓取页面,直接从中断的地方开始。不知道作者大大是否能在user_id_list增加一个start_page字段,每次自动写入20页数据之后就自动更新,给当前id赋值start_page,以便被迫中断时能从start_page开始?

dataabc commented 11 months ago

感谢建议。目前我没有办法调试程序,所以暂时无法这个功能。不过确实是通过start_page跳过,您可以您可以仿造since_date的方式修改代码,应该不难的。

uofcyx commented 11 months ago

感谢大大回复!也感谢告知这个思路是对的。我来试试修改代码。