drunkdream / weread-exporter

将微信读书中的书籍导出成epub、pdf、mobi等格式
1.2k stars 185 forks source link

被检测到爬取 #64

Open v-0-n opened 8 months ago

v-0-n commented 8 months ago

photo_2024-01-26_10-38-09

lp380490944 commented 8 months ago

一样

drunkdream commented 8 months ago

爬了多长时间,下载了多少本书?网页端打开有提示吗?

v-0-n commented 8 months ago

爬了多长时间,下载了多少本书?网页端打开有提示吗?

1.25到1.26共15本书,也就是一两天的时间。网页端扫码登陆会反复出现二维码,但不会提示错误。转用手机app登录则显示截图内容。现在提示账号已经封禁。

drunkdream commented 8 months ago

估计是频率太高了,命中策略了

jmlee2012 commented 8 months ago

会封号,下载了两本书就永久封号了

v-0-n commented 8 months ago

两本书被封号的话说明就不能用了,对于微信读书的反爬,程序需要改了

jmlee2012 @.***> 于 2024年1月31日周三 17:31写道:

会封号,下载了两本书就永久封号了

— Reply to this email directly, view it on GitHub https://github.com/drunkdream/weread-exporter/issues/64#issuecomment-1918719813, or unsubscribe https://github.com/notifications/unsubscribe-auth/APG6JJQQM6YIFPWAB3HD4E3YRIFQPAVCNFSM6AAAAABCLQBTXOVHI2DSMVQWIX3LMV43OSLTON2WKQ3PNVWWK3TUHMYTSMJYG4YTSOBRGM . You are receiving this because you authored the thread.Message ID: @.***>

jmlee2012 commented 8 months ago

嗯,现在微信读书对爬书监控很严格,第一次警告封5天,第二次永久封号。

drunkdream commented 8 months ago

实测发现,目前检测逻辑跟频率无关,即使将频率设的非常低(300秒翻一页),也会很快被发现,猜测可能用到了针对本项目的特定检测技术(例如:浏览器指纹之类,具体方式还没有定位到)

mecyl commented 7 months ago

实测发现,目前检测逻辑跟频率无关,即使将频率设的非常低(300秒翻一页),也会很快被发现,猜测可能用到了针对本项目的特定检测技术(例如:浏览器指纹之类,具体方式还没有定位到)

我认为检测的方法不是频率,而是翻页间隔。假如一本书需要翻页100次,软件的翻页频率无论设置1秒还是10秒,那这100次操作之间间隔都是一样的,就会被判定为爬取。只要把翻页间隔设随机延迟0.1秒-10秒。应该就能避过判定

Lepton-Lee commented 7 months ago

实测发现,目前检测逻辑跟频率无关,即使将频率设的非常低(300秒翻一页),也会很快被发现,猜测可能用到了针对本项目的特定检测技术(例如:浏览器指纹之类,具体方式还没有定位到)

我认为检测的方法不是频率,而是翻页间隔。假如一本书需要翻页100次,软件的翻页频率无论设置1秒还是10秒,那这100次操作之间间隔都是一样的,就会被判定为爬取。只要把翻页间隔设随机延迟0.1秒-10秒。应该就能避过判定

不是的,另一个项目wrx是手动翻页,也被检测出爬取了

mecyl commented 7 months ago

实测发现,目前检测逻辑跟频率无关,即使将频率设的非常低(300秒翻一页),也会很快被发现,猜测可能用到了针对本项目的特定检测技术(例如:浏览器指纹之类,具体方式还没有定位到)

我认为检测的方法不是频率,而是翻页间隔。假如一本书需要翻页100次,软件的翻页频率无论设置1秒还是10秒,那这100次操作之间间隔都是一样的,就会被判定为爬取。只要把翻页间隔设随机延迟0.1秒-10秒。应该就能避过判定

不是的,另一个项目wrx是手动翻页,也被检测出爬取了

那就是翻得太快了,对翻页频率和翻页间隔都进行检测判定。整本书都快速翻过说明不是正常阅读,每一页都固定时间有机器特征,都可以进行判定。

liwooood commented 6 months ago

我的也被封了,

aikongmeng commented 4 months ago

在这里讨论反爬策略,哈哈微信的团队难道看不见吗?

IwfWcf commented 3 months ago

这个应该在项目说明里提示一下吧

lvhuixian commented 2 months ago

点进来我就想,这很容易被封吧。为什么要爬微信阅读啊,外面大把免费的书,其实微信阅读唯一的好处就是看划线点评,应该不能爬点评,不然没啥值得特意爬