dataabc / weibo-crawler

新浪微博爬虫,用python爬取新浪微博数据,并下载微博图片和微博视频
3.41k stars 761 forks source link

请求添加设置时间区间的功能,或者检查是否已经爬取的功能 #322

Open gaawinglf opened 2 years ago

gaawinglf commented 2 years ago

有时候第一次不能把一个账号下的推文从最新日期爬到第一条推文,希望大佬可以实现指定时间,这样之后就可以继续爬取上次为爬到的推文,而不是重新从最新一条重复爬取到最旧的一条

dataabc commented 2 years ago

使用txt输入id就可以实现,把user_id_list后的内容改成txt路径就行。

uofcyx commented 1 year ago

请问大佬能不能展开讲讲这个“断点续接”的方法?我的user_id_list包含多个人,最近可能是微博方面升级限制,抓数据频繁被卡住再也动不了,只能重新开始。但是很多人已经抓了不少内容了,却因为没有完成,since_date不变,所以还得从”today“重新来过。仔细研究documentation之后感觉可以通过start_page来实现,但不知道有没有在user_id_list自动给每个id赋值start_page的可能?就像since_date自动更新一样。