srx-2000 / spider_collection

python爬虫,目前库存:网易云音乐歌曲爬取,B站视频爬取,知乎问答爬取,壁纸爬取,xvideos视频爬取,有声书爬取,微博爬虫,安居客信息爬取+数据可视化,哔哩哔哩视频封面提取器,ip代理池封装,知乎百万级用户爬虫+数据分析,github用户爬虫
MIT License
1.22k stars 221 forks source link

知乎的爬虫项目还会更新吗? #40

Closed shuliu586 closed 10 months ago

shuliu586 commented 11 months ago

大佬您好,我仔细看了你昨天发布的知乎加密规则的更新,确实写的十分详细,我这个新手小白也受益匪浅,感谢~

想请问下关于知乎的爬虫项目,大佬之后是否会有更新计划?是这样的,我们是名为知识岛(KnowledgeDAO)的自发项目,目的是希望为中文AI提供高质量训练数据(目前已经有八个数据集,还在计划不断扩充中。。。),项目地址为:https://github.com/shuliu586/AI_Chinese_DataSet_KnowledgeDAO。项目目前还处于早期阶段,目前的计划是想扩充知乎的数据集,万幸找到了您这个项目,所有想问下大佬是否有继续更新知乎爬虫的计划,感谢回复

srx-2000 commented 11 months ago

大佬您好,我仔细看了你昨天发布的知乎加密规则的更新,确实写的十分详细,我这个新手小白也受益匪浅,感谢~

想请问下关于知乎的爬虫项目,大佬之后是否会有更新计划?是这样的,我们是名为知识岛(KnowledgeDAO)的自发项目,目的是希望为中文AI提供高质量训练数据(目前已经有八个数据集,还在计划不断扩充中。。。),项目地址为:https://github.com/shuliu586/AI_Chinese_DataSet_KnowledgeDAO。项目目前还处于早期阶段,目前的计划是想扩充知乎的数据集,万幸找到了您这个项目,所有想问下大佬是否有继续更新知乎爬虫的计划,感谢回复!

我不是很清楚你这里指的更新计划是大批量爬取的脚本嘛,如果是的话,可能不会有这方面的计划了,主要有两个原因,一个是个人大批量高频率的爬取肯定是不太好的,第二个是我个人之前搞过一个多线程爬取的代码,花费了很多精力,但是现在再看之前的那个代码,感觉很多都是无用功,从个人的感受上来说没有一个加密文件接口来的精干好看。 当然,我刚刚发的那个加密脚本本身对外暴露出来的方法应该也算是很简单了,如果你们真的有需要倒是可以在那个接口的基础上自己写一些爬取策略。具体调用时的各种参数更改应该也不是很难,具体的值可以根据你们自己的需求更改。

srx-2000 commented 11 months ago

大佬您好,我仔细看了你昨天发布的知乎加密规则的更新,确实写的十分详细,我这个新手小白也受益匪浅,感谢~

想请问下关于知乎的爬虫项目,大佬之后是否会有更新计划?是这样的,我们是名为知识岛(KnowledgeDAO)的自发项目,目的是希望为中文AI提供高质量训练数据(目前已经有八个数据集,还在计划不断扩充中。。。),项目地址为:https://github.com/shuliu586/AI_Chinese_DataSet_KnowledgeDAO。项目目前还处于早期阶段,目前的计划是想扩充知乎的数据集,万幸找到了您这个项目,所有想问下大佬是否有继续更新知乎爬虫的计划,感谢回复!

当然,如果更新计划指的是后续跟进知乎的新加密的话,我这边确实有一些计划,比如加入客户端和js补环境两种别的方式,如果后续知乎那边替换了算法,我这边也会根据自己的能力以及时间看看是否要进一步跟进。