srx-2000 / spider_collection

python爬虫,目前库存:网易云音乐歌曲爬取,B站视频爬取,知乎问答爬取,壁纸爬取,xvideos视频爬取,有声书爬取,微博爬虫,安居客信息爬取+数据可视化,哔哩哔哩视频封面提取器,ip代理池封装,知乎百万级用户爬虫+数据分析,github用户爬虫
MIT License
1.22k stars 221 forks source link

请问该爬虫不再能爬取知乎用户信息了吗? #47

Closed Pam1aos closed 4 months ago

Pam1aos commented 4 months ago

具体项目 【知乎用户爬虫】

bug描述 NotADirectoryError: [WinError 267] 目录名称无效。 [WinError 267] 目录名称无效。

bug复现步骤

  1. 仅在本地主机运行,更改zhihu_user_info\proxypool\config.yaml中的默认选项为is_proxy: False

报错信息 请贴出完整的报错信息 image 不断重复以上 的错误

系统环境

其他

srx-2000 commented 4 months ago

用这个新的,原来那个已经失效

https://github.com/srx-2000/spider_collection/tree/master/zhihuEncrypt

Pam1aos commented 4 months ago

用这个新的,原来那个已经失效

https://github.com/srx-2000/spider_collection/tree/master/zhihuEncrypt

项目初始的URL运行的结果如下 image

然后url改成目前知乎使用的格式,如下结果 image

这是否意味着知乎现在的加密方式变更,需要我自己来重新解码

srx-2000 commented 4 months ago

用这个新的,原来那个已经失效 https://github.com/srx-2000/spider_collection/tree/master/zhihuEncrypt

项目初始的URL运行的结果如下 image

然后url改成目前知乎使用的格式,如下结果 image

这是否意味着知乎现在的加密方式变更,需要我自己来重新解码

image

我这里自己测试的是还可以使用,我用的测试连接是:

https://www.zhihu.com/api/v4/members/28-26-21-77-24/followers?include=data%5B*%5D.answer_count%2Carticles_count%2Cgender%2Cfollower_count%2Cis_followed%2Cis_following%2Cbadge%5B%3F%28type%3Dbest_answerer%29%5D.topics&offset=0&limit=20

Pam1aos commented 4 months ago

用这个新的,原来那个已经失效 https://github.com/srx-2000/spider_collection/tree/master/zhihuEncrypt

项目初始的URL运行的结果如下 image 然后url改成目前知乎使用的格式,如下结果 image 这是否意味着知乎现在的加密方式变更,需要我自己来重新解码

image

我这里自己测试的是还可以使用,我用的测试连接是:

https://www.zhihu.com/api/v4/members/28-26-21-77-24/followers?include=data%5B*%5D.answer_count%2Carticles_count%2Cgender%2Cfollower_count%2Cis_followed%2Cis_following%2Cbadge%5B%3F%28type%3Dbest_answerer%29%5D.topics&offset=0&limit=20

感谢您的再次答复,不过我使用这个测试连接结果和第一次报错一样 image 并且,这个连接即使直接点进去也并没有加载知乎的相关信息

srx-2000 commented 4 months ago

用这个新的,原来那个已经失效 https://github.com/srx-2000/spider_collection/tree/master/zhihuEncrypt

项目初始的URL运行的结果如下 image 然后url改成目前知乎使用的格式,如下结果 image 这是否意味着知乎现在的加密方式变更,需要我自己来重新解码

image 我这里自己测试的是还可以使用,我用的测试连接是: https://www.zhihu.com/api/v4/members/28-26-21-77-24/followers?include=data%5B*%5D.answer_count%2Carticles_count%2Cgender%2Cfollower_count%2Cis_followed%2Cis_following%2Cbadge%5B%3F%28type%3Dbest_answerer%29%5D.topics&offset=0&limit=20

感谢您的再次答复,不过我使用这个测试连接结果和第一次报错一样 image 并且,这个连接即使直接点进去也并没有加载知乎的相关信息

直接点进去肯定是没有数据的,毕竟如果直接点进去就有数据的话,那就没必要写这个加密了。你可以把318行的res.json(),改成res.text,看看她具体返回的是什么,现在报错的原因就是因为她返回的数据不是json数据,应该是一段文本信息,只有知道他返回的文本信息是什么,我才好进一步帮你看下

Pam1aos commented 4 months ago

用这个新的,原来那个已经失效 https://github.com/srx-2000/spider_collection/tree/master/zhihuEncrypt

项目初始的URL运行的结果如下 image 然后url改成目前知乎使用的格式,如下结果 image 这是否意味着知乎现在的加密方式变更,需要我自己来重新解码

image 我这里自己测试的是还可以使用,我用的测试连接是: https://www.zhihu.com/api/v4/members/28-26-21-77-24/followers?include=data%5B*%5D.answer_count%2Carticles_count%2Cgender%2Cfollower_count%2Cis_followed%2Cis_following%2Cbadge%5B%3F%28type%3Dbest_answerer%29%5D.topics&offset=0&limit=20

感谢您的再次答复,不过我使用这个测试连接结果和第一次报错一样 image 并且,这个连接即使直接点进去也并没有加载知乎的相关信息

直接点进去肯定是没有数据的,毕竟如果直接点进去就有数据的话,那就没必要写这个加密了。你可以把318行的res.json(),改成res.text,看看她具体返回的是什么,现在报错的原因就是因为她返回的数据不是json数据,应该是一段文本信息,只有知道他返回的文本信息是什么,我才好进一步帮你看下 好的,感谢,基础薄弱的同时第一次面对这种庞大且复杂的项目感觉太忙然和吃力了,还要忙着收集其他方面数据确实有点应接不暇...

srx-2000 commented 4 months ago

用这个新的,原来那个已经失效 https://github.com/srx-2000/spider_collection/tree/master/zhihuEncrypt

项目初始的URL运行的结果如下 image 然后url改成目前知乎使用的格式,如下结果 image 这是否意味着知乎现在的加密方式变更,需要我自己来重新解码

image 我这里自己测试的是还可以使用,我用的测试连接是: https://www.zhihu.com/api/v4/members/28-26-21-77-24/followers?include=data%5B*%5D.answer_count%2Carticles_count%2Cgender%2Cfollower_count%2Cis_followed%2Cis_following%2Cbadge%5B%3F%28type%3Dbest_answerer%29%5D.topics&offset=0&limit=20

感谢您的再次答复,不过我使用这个测试连接结果和第一次报错一样 image 并且,这个连接即使直接点进去也并没有加载知乎的相关信息

直接点进去肯定是没有数据的,毕竟如果直接点进去就有数据的话,那就没必要写这个加密了。你可以把318行的res.json(),改成res.text,看看她具体返回的是什么,现在报错的原因就是因为她返回的数据不是json数据,应该是一段文本信息,只有知道他返回的文本信息是什么,我才好进一步帮你看下 好的,感谢,基础薄弱的同时第一次面对这种庞大且复杂的项目感觉太忙然和吃力了,还要忙着收集其他方面数据确实有点应接不暇...

之前版本确实有点小问题,主要是请求头里携带了 , br参数导致返回的是二进制数据乱码【我这边自己测试确实不存在这个问题,可能和电脑之类的有关?我也不确定】,目前版本的可以使用了,你可以重新下载一下,或者直接自己把 , br删掉就行了