srx-2000 / spider_collection

python爬虫,目前库存:网易云音乐歌曲爬取,B站视频爬取,知乎问答爬取,壁纸爬取,xvideos视频爬取,有声书爬取,微博爬虫,安居客信息爬取+数据可视化,哔哩哔哩视频封面提取器,ip代理池封装,知乎百万级用户爬虫+数据分析,github用户爬虫
MIT License
1.22k stars 221 forks source link

关于知乎爬虫 #7

Open MercuialC opened 3 years ago

MercuialC commented 3 years ago

感谢优秀的工作! 知乎用户文章有反爬机制,作者有空可以拓展一下知乎的爬虫,或者分享一下爬取公众号文章的经验吗

srx-2000 commented 3 years ago

嗯嗯,对于知乎的那个反爬后面会更新ip代理池来修复的,之前也有想过做一下知乎用户信息爬取的爬虫,在未来可能会实现并加入到该仓库吧,对于公众号文章的爬取我还没有具体涉及,后续会找时间试试看,如果有什么进展会在这个帖子给你答复的

MercuialC commented 3 years ago

好的 期待更新

srx-2000 commented 2 years ago

目前知乎问答的那个爬虫已经可以较为有效的反反爬啦,同时用户个人信息那个爬虫也已经提交了第一版,基本可以做到每日5w-10w用户数据的爬取,后续还会持续更新,会优化爬取算法。也会增加用户信息分析,用户排行榜等多个模块,公众号文章那个之前在得到你的反馈后,我有去尝试,但好像没有想象中的那么好爬,可能明年一月份我会突击一下,如果有什么进展我会在这里通知你的

MercuialC commented 2 years ago

好的, 本想做一个个性化邮箱推送的小软件,但是反爬机制直接给我劝退了。期待大佬更新时学习一波!

srx-2000 commented 2 years ago

嗯嗯,感谢支持

srx-2000 commented 2 years ago

em...抱歉啦,微信公众号文章那个爬虫,我这段时间确实研究了一下,可惜的是前段时间微信刚刚改版之前使用历史记录爬取的方案应该已经作废了,我也不是很想通过搜狗的接口去爬取微信,所以可能要需要一段时间去找找别的方式.......如果有进展了我在这里给你回复吧,还请见谅了

ZXB1020 commented 2 years ago

知乎问题的那个有人运行成功了吗 raise ProgramError(value) execjs._exceptions.ProgramError: SyntaxError: 语法错误 我的报这个错

srx-2000 commented 2 years ago

那个有人运行成功了吗

首先确保自己电脑中有nodejs环境,同时安装了execjs库 然后可以参考这个issue中的解决办法:[#23]

today5566 commented 1 week ago

nodejs版本有要求吗?