dataabc / weibo-crawler

新浪微博爬虫,用python爬取新浪微博数据,并下载微博图片和微博视频
3.25k stars 739 forks source link

爬取范围不对 #353

Open lonely67373 opened 1 year ago

lonely67373 commented 1 year ago

我爬一些博主的时候,比如cn域名下看能翻到早年的有一两百页,但是实际爬取中爬了3,40页就停了,时间上最早能看到16年,但是实际就爬到了20甚至21年的。我是挂了cookie的,而且这个有的博主会发生,有的就不发生。有的里面会出现‘list index out of range’报错,有的就是直接像结束那样中止。

dataabc commented 1 year ago

可能cookie无效,您可以把cookie用到weibospider项目,看看是否运行。

lonely67373 commented 1 year ago

就同一个博主吧,我重复跑有可能能爬完,但是也有可能爬一部分,就存在随机性。

CaoYueYang commented 1 year ago

同样有这样的问题,用了cookie,但是progress显示爬取60%的时候就弹出“信息抓取完毕”然后就结束了,重复跑可以多爬一点点。还有一个问题是启动之后要很久才有提示信息开始爬取。想问下作者这两个问题是什么原因,是网络的问题吗?

dataabc commented 1 year ago

@lonely67373 这个可能和接口有关,可能是现在接口不稳定吧。

dataabc commented 1 year ago

@CaoYueYang 程序进度是相当于用户全部微博来说的,全部爬完是百分之百,但因为设置了end_date,只有满足这个参数就停了;可能是网络原因,也可能之前爬了很多,被限制了速度。