Open v-0-n opened 8 months ago
一样
爬了多长时间,下载了多少本书?网页端打开有提示吗?
爬了多长时间,下载了多少本书?网页端打开有提示吗?
1.25到1.26共15本书,也就是一两天的时间。网页端扫码登陆会反复出现二维码,但不会提示错误。转用手机app登录则显示截图内容。现在提示账号已经封禁。
估计是频率太高了,命中策略了
会封号,下载了两本书就永久封号了
两本书被封号的话说明就不能用了,对于微信读书的反爬,程序需要改了
jmlee2012 @.***> 于 2024年1月31日周三 17:31写道:
会封号,下载了两本书就永久封号了
— Reply to this email directly, view it on GitHub https://github.com/drunkdream/weread-exporter/issues/64#issuecomment-1918719813, or unsubscribe https://github.com/notifications/unsubscribe-auth/APG6JJQQM6YIFPWAB3HD4E3YRIFQPAVCNFSM6AAAAABCLQBTXOVHI2DSMVQWIX3LMV43OSLTON2WKQ3PNVWWK3TUHMYTSMJYG4YTSOBRGM . You are receiving this because you authored the thread.Message ID: @.***>
嗯,现在微信读书对爬书监控很严格,第一次警告封5天,第二次永久封号。
实测发现,目前检测逻辑跟频率无关,即使将频率设的非常低(300秒翻一页),也会很快被发现,猜测可能用到了针对本项目的特定检测技术(例如:浏览器指纹之类,具体方式还没有定位到)
实测发现,目前检测逻辑跟频率无关,即使将频率设的非常低(300秒翻一页),也会很快被发现,猜测可能用到了针对本项目的特定检测技术(例如:浏览器指纹之类,具体方式还没有定位到)
我认为检测的方法不是频率,而是翻页间隔。假如一本书需要翻页100次,软件的翻页频率无论设置1秒还是10秒,那这100次操作之间间隔都是一样的,就会被判定为爬取。只要把翻页间隔设随机延迟0.1秒-10秒。应该就能避过判定
实测发现,目前检测逻辑跟频率无关,即使将频率设的非常低(300秒翻一页),也会很快被发现,猜测可能用到了针对本项目的特定检测技术(例如:浏览器指纹之类,具体方式还没有定位到)
我认为检测的方法不是频率,而是翻页间隔。假如一本书需要翻页100次,软件的翻页频率无论设置1秒还是10秒,那这100次操作之间间隔都是一样的,就会被判定为爬取。只要把翻页间隔设随机延迟0.1秒-10秒。应该就能避过判定
不是的,另一个项目wrx是手动翻页,也被检测出爬取了
实测发现,目前检测逻辑跟频率无关,即使将频率设的非常低(300秒翻一页),也会很快被发现,猜测可能用到了针对本项目的特定检测技术(例如:浏览器指纹之类,具体方式还没有定位到)
我认为检测的方法不是频率,而是翻页间隔。假如一本书需要翻页100次,软件的翻页频率无论设置1秒还是10秒,那这100次操作之间间隔都是一样的,就会被判定为爬取。只要把翻页间隔设随机延迟0.1秒-10秒。应该就能避过判定
不是的,另一个项目wrx是手动翻页,也被检测出爬取了
那就是翻得太快了,对翻页频率和翻页间隔都进行检测判定。整本书都快速翻过说明不是正常阅读,每一页都固定时间有机器特征,都可以进行判定。
我的也被封了,
在这里讨论反爬策略,哈哈微信的团队难道看不见吗?
这个应该在项目说明里提示一下吧
点进来我就想,这很容易被封吧。为什么要爬微信阅读啊,外面大把免费的书,其实微信阅读唯一的好处就是看划线点评,应该不能爬点评,不然没啥值得特意爬