srx-2000 / spider_collection

python爬虫,目前库存:网易云音乐歌曲爬取,B站视频爬取,知乎问答爬取,壁纸爬取,xvideos视频爬取,有声书爬取,微博爬虫,安居客信息爬取+数据可视化,哔哩哔哩视频封面提取器,ip代理池封装,知乎百万级用户爬虫+数据分析,github用户爬虫
MIT License
1.22k stars 221 forks source link

关于各个URL #25

Closed stu-xsy closed 2 years ago

stu-xsy commented 2 years ago

请问各个URL如何获取到的,我只能看到回答的URL

srx-2000 commented 2 years ago

嗯?具体是哪个子项目的url?

stu-xsy commented 2 years ago

就是获取知乎答案的URL,即zhihu_answer.py中的url的获得,我只能通过浏览器找到get_answer()函数中的url 同时我好像发现知乎相似答案的id给出的不一定是回答,而是知乎上的文章(并没有answer_id,只是文章号),这也是造成爬虫爬不到的原因吧

srx-2000 commented 2 years ago

就是获取知乎答案的URL,即zhihu_answer.py中的url的获得,我只能通过浏览器找到get_answer()函数中的url 同时我好像发现知乎相似答案的id给出的不一定是回答,而是知乎上的文章(并没有answer_id,只是文章号),这也是造成爬虫爬不到的原因吧

image

知乎问答的那个我是通过上面那个图片里的相关问题递归爬取的,额,我没有仔细研究过他是否会定位到文章,如果是会定位到文章的话,那确实可能会造成爬取失败的问题吧....