Closed uofcyx closed 11 months ago
感谢作者大大的代码!我用定期自动爬取微博的方式,在固定抓取一部分微博账号,user_id_list里包含多人,每人的since_date自动更新。
最近可能是微博方面升级限制,抓数据频繁被卡住,再也动不了,只能重新开始运行程序。但是在被迫中断前,有的人已经抓了不少内容了,却因为没有完成,所以重新运行时还得从today重新往回抓。
仔细研究documentation之后感觉可以通过更改start_page来“跳过”已抓取页面,直接从中断的地方开始。不知道作者大大是否能在user_id_list增加一个start_page字段,每次自动写入20页数据之后就自动更新,给当前id赋值start_page,以便被迫中断时能从start_page开始?
感谢建议。目前我没有办法调试程序,所以暂时无法这个功能。不过确实是通过start_page跳过,您可以您可以仿造since_date的方式修改代码,应该不难的。
感谢大大回复!也感谢告知这个思路是对的。我来试试修改代码。
感谢作者大大的代码!我用定期自动爬取微博的方式,在固定抓取一部分微博账号,user_id_list里包含多人,每人的since_date自动更新。
最近可能是微博方面升级限制,抓数据频繁被卡住,再也动不了,只能重新开始运行程序。但是在被迫中断前,有的人已经抓了不少内容了,却因为没有完成,所以重新运行时还得从today重新往回抓。
仔细研究documentation之后感觉可以通过更改start_page来“跳过”已抓取页面,直接从中断的地方开始。不知道作者大大是否能在user_id_list增加一个start_page字段,每次自动写入20页数据之后就自动更新,给当前id赋值start_page,以便被迫中断时能从start_page开始?