关于各个URL - Githubissues

srx-2000 / spider_collection

python爬虫，目前库存：网易云音乐歌曲爬取，B站视频爬取，知乎问答爬取，壁纸爬取，xvideos视频爬取，有声书爬取，微博爬虫，安居客信息爬取+数据可视化，哔哩哔哩视频封面提取器，ip代理池封装，知乎百万级用户爬虫+数据分析，github用户爬虫

MIT License

1.22k stars 221 forks source link

Closed stu-xsy closed 2 years ago

stu-xsy commented 2 years ago

请问各个URL如何获取到的，我只能看到回答的URL

srx-2000 commented 2 years ago

嗯？具体是哪个子项目的url？

stu-xsy commented 2 years ago

就是获取知乎答案的URL，即zhihu_answer.py中的url的获得，我只能通过浏览器找到get_answer()函数中的url 同时我好像发现知乎相似答案的id给出的不一定是回答，而是知乎上的文章（并没有answer_id,只是文章号），这也是造成爬虫爬不到的原因吧

srx-2000 commented 2 years ago

就是获取知乎答案的URL，即zhihu_answer.py中的url的获得，我只能通过浏览器找到get_answer()函数中的url 同时我好像发现知乎相似答案的id给出的不一定是回答，而是知乎上的文章（并没有answer_id,只是文章号），这也是造成爬虫爬不到的原因吧

知乎问答的那个我是通过上面那个图片里的相关问题递归爬取的，额，我没有仔细研究过他是否会定位到文章，如果是会定位到文章的话，那确实可能会造成爬取失败的问题吧....