srx-2000 / spider_collection

python爬虫,目前库存:网易云音乐歌曲爬取,B站视频爬取,知乎问答爬取,壁纸爬取,xvideos视频爬取,有声书爬取,微博爬虫,安居客信息爬取+数据可视化,哔哩哔哩视频封面提取器,ip代理池封装,知乎百万级用户爬虫+数据分析,github用户爬虫
MIT License
1.22k stars 221 forks source link

知乎问答爬虫bug #21

Closed Owenxu0510 closed 2 years ago

Owenxu0510 commented 2 years ago

你好 #20 这个问题好像没有完全修复

zhihu_answer.py 的第58行循环: for i in range(0, total_num // limit):

也就是说当该回答的问题数total_num小于limit时,是不会进行爬取的

建议将第139行 result_dict = self.get_answer(question_id, limit=20) 改为 result_dict = self.get_answer(question_id, limit=min(self.get_total(question_id), 20))

srx-2000 commented 2 years ago

嗯嗯,确实存在这个问题,当时考虑的情况还是不周全了,感谢你的建议,我这里就将min(limit,total_num)放到函数里面了,尽量减少函数外的操作。再次感谢你对项目的建议啦