Open xmdt opened 4 years ago
试了下其他bookid的书,会报同样的错误。看来是文泉学堂那边修改了? update~ 好像是看书的功能挂了。。。浏览器翻墙状态下也看不了。。。
从昨天开始 这个点就没办法爬了 到官网上面也没有办法查看 等到明天白天就会好了
就刚才 下不了了 ooManyRetry: 重试次数超出设定次数 2020-02-09 11:47:08,829 [ERROR] 3207309 发生了严重错误,暂停20秒 第329页(329/411) 正在重试第6次 2020-02-09 11:47:29,241 [CRITICAL] 重试次数过多,程序终止,请尝试重新执行main.py
------------------ 原始邮件 ------------------ 发件人: "xmdt"<notifications@github.com>; 发送时间: 2020年2月9日(星期天) 中午11:48 收件人: "kajweb/wqxuetang_downloader"<wqxuetang_downloader@noreply.github.com>; 抄送: "Subscribed"<subscribed@noreply.github.com>; 主题: Re: [kajweb/wqxuetang_downloader] 文泉学堂报错说明 (#67)
Reopened #67.
— You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub, or unsubscribe.
update: 刚刚似乎无法使用了,是不是网站又更新规则了? 报错跟书籍无关,跟ip无关,网页可以浏览书籍。 已检查cookie,PHPSESSID没有更新。 提示以下信息:
2020-02-09 11:47:37,159 [ERROR] 3202739 发生了严重错误,暂停20秒 第1页(1/209) 正在重试第1次 2020-02-09 11:47:57,537 [ERROR] 3202739 发生了严重错误,暂停20秒 第1页(1/209) 正在重试第2次 2020-02-09 11:48:17,914 [ERROR] 3202739 发生了严重错误,暂停20秒 第1页(1/209) 正在重试第3次 2020-02-09 11:48:38,333 [ERROR] 3202739 发生了严重错误,暂停20秒 第1页(1/209) 正在重试第4次
就刚才 下不了了 ooManyRetry: 重试次数超出设定次数 2020-02-09 11:47:08,829 [ERROR] 3207309 发生了严重错误,暂停20秒 第329页(329/411) 正在重试第6次 2020-02-09 11:47:29,241 [CRITICAL] 重试次数过多,程序终止,请尝试重新执行main.py … ------------------ 原始邮件 ------------------ 发件人: "xmdt"<notifications@github.com>; 发送时间: 2020年2月9日(星期天) 中午11:48 收件人: "kajweb/wqxuetang_downloader"<wqxuetang_downloader@noreply.github.com>; 抄送: "Subscribed"<subscribed@noreply.github.com>; 主题: Re: [kajweb/wqxuetang_downloader] 文泉学堂报错说明 (#67) Reopened #67. — You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub, or unsubscribe.
我也是如此。
什么情况 ~大神出来走两步~
------------------ 原始邮件 ------------------ 发件人: "xmdt"<notifications@github.com>; 发送时间: 2020年2月9日(星期天) 中午11:50 收件人: "kajweb/wqxuetang_downloader"<wqxuetang_downloader@noreply.github.com>; 抄送: "世上疼我的去了"<ouyijun@qq.com>; "Comment"<comment@noreply.github.com>; 主题: Re: [kajweb/wqxuetang_downloader] 文泉学堂报错说明 (#67)
就刚才 下不了了 ooManyRetry: 重试次数超出设定次数 2020-02-09 11:47:08,829 [ERROR] 3207309 发生了严重错误,暂停20秒 第329页(329/411) 正在重试第6次 2020-02-09 11:47:29,241 [CRITICAL] 重试次数过多,程序终止,请尝试重新执行main.py … ------------------ 原始邮件 ------------------ 发件人: "xmdt"<notifications@github.com>; 发送时间: 2020年2月9日(星期天) 中午11:48 收件人: "kajweb/wqxuetang_downloader"<wqxuetang_downloader@noreply.github.com>; 抄送: "Subscribed"<subscribed@noreply.github.com>; 主题: Re: [kajweb/wqxuetang_downloader] 文泉学堂报错说明 (#67) Reopened #67. — You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub, or unsubscribe.
我也是如此。
— You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.
3207309,3208473,3208241,3208458,3208247,3207887,3207140,3207278 任务中。。。 3206903,3205244,3208320,3207694,3207991,3203618 哪位大神给我帮个忙
------------------ 原始邮件 ------------------ 发件人: "世上疼我的去了"<chengyouli@vip.qq.com>; 发送时间: 2020年2月9日(星期天) 中午11:51 收件人: "kajweb/wqxuetang_downloader"<reply@reply.github.com>;"kajweb/wqxuetang_downloader"<wqxuetang_downloader@noreply.github.com>; 抄送: "Comment"<comment@noreply.github.com>; 主题: 回复: [kajweb/wqxuetang_downloader] 文泉学堂报错说明 (#67)
什么情况 ~大神出来走两步~
------------------ 原始邮件 ------------------ 发件人: "xmdt"<notifications@github.com>; 发送时间: 2020年2月9日(星期天) 中午11:50 收件人: "kajweb/wqxuetang_downloader"<wqxuetang_downloader@noreply.github.com>; 抄送: "世上疼我的去了"<ouyijun@qq.com>; "Comment"<comment@noreply.github.com>; 主题: Re: [kajweb/wqxuetang_downloader] 文泉学堂报错说明 (#67)
就刚才 下不了了 ooManyRetry: 重试次数超出设定次数 2020-02-09 11:47:08,829 [ERROR] 3207309 发生了严重错误,暂停20秒 第329页(329/411) 正在重试第6次 2020-02-09 11:47:29,241 [CRITICAL] 重试次数过多,程序终止,请尝试重新执行main.py … ------------------ 原始邮件 ------------------ 发件人: "xmdt"<notifications@github.com>; 发送时间: 2020年2月9日(星期天) 中午11:48 收件人: "kajweb/wqxuetang_downloader"<wqxuetang_downloader@noreply.github.com>; 抄送: "Subscribed"<subscribed@noreply.github.com>; 主题: Re: [kajweb/wqxuetang_downloader] 文泉学堂报错说明 (#67) Reopened #67. — You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub, or unsubscribe.
我也是如此。
— You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.
PHPSESSID同样没有变化,报错 我刚才去网页端看了,增加了每页增加了滑块
PHPSESSID同样没有变化,报错
重启浏览器,PHPSESSID确实更新了。。。 不过我把新的PHPSESSID值写入cookies.txt文件后,重新跑程序还是不行诶~
PHPSESSID同样没有变化,报错
重启浏览器,PHPSESSID确实更新了。。。 不过我把新的PHPSESSID值写入cookies.txt文件后,重新跑程序还是不行诶~
每滑动几页就有一个滑块验证,应该是这个东西。
每滑动几页就有一个滑块验证,应该是这个东西。
嗯嗯,我们把问题定位到这个滑块验证模块了~
每滑动几页就有一个滑块验证。
之前就有了 但是没有报错~还可以下载~
------------------ 原始邮件 ------------------ 发件人: "Markgolzh"<notifications@github.com>; 发送时间: 2020年2月9日(星期天) 中午12:15 收件人: "kajweb/wqxuetang_downloader"<wqxuetang_downloader@noreply.github.com>; 抄送: "世上疼我的去了"<ouyijun@qq.com>; "Comment"<comment@noreply.github.com>; 主题: Re: [kajweb/wqxuetang_downloader] 文泉学堂报错说明 (#67)
每滑动几页就有一个滑块验证。
— You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.
这么多人遇到同样的问题,看来应该是网站把规则改了
大神快出来~清华大学的气质严重违背了你的初衷~
------------------ 原始邮件 ------------------ 发件人: "jackydi"<notifications@github.com>; 发送时间: 2020年2月9日(星期天) 中午12:26 收件人: "kajweb/wqxuetang_downloader"<wqxuetang_downloader@noreply.github.com>; 抄送: "世上疼我的去了"<ouyijun@qq.com>; "Comment"<comment@noreply.github.com>; 主题: Re: [kajweb/wqxuetang_downloader] 文泉学堂报错说明 (#67)
这么多人遇到同样的问题,看来应该是网站把规则改了
— You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.
每滑动几页就有一个滑块验证,应该是这个东西。
嗯嗯,我们把问题定位到这个滑块验证模块了~
据说selenium能解决问题
同样的问题,网页看没问题,下载出错。但滑动很多页没见到滑块验证啊~
update: 刚刚似乎无法使用了,是不是网站又更新规则了? 报错跟书籍无关,跟ip无关,网页可以浏览书籍。 已检查cookie,PHPSESSID没有更新。 提示以下信息:
2020-02-09 11:47:37,159 [ERROR] 3202739 发生了严重错误,暂停20秒 第1页(1/209) 正在重试第1次 2020-02-09 11:47:57,537 [ERROR] 3202739 发生了严重错误,暂停20秒 第1页(1/209) 正在重试第2次 2020-02-09 11:48:17,914 [ERROR] 3202739 发生了严重错误,暂停20秒 第1页(1/209) 正在重试第3次 2020-02-09 11:48:38,333 [ERROR] 3202739 发生了严重错误,暂停20秒 第1页(1/209) 正在重试第4次
你从第一页就开始下载不了了啊,然而我现在下载了20多页还是没有问题啊
统一回复一下,我这边目前下载了30页左右都没有这种超出重试次数的情况,那按这种症状的话基本的原理应该是没变的。我用这个工具这么多天只完整下过3本书,从来没暴力爬过,大家可以试试换个ip再换个账号试试。大家就爬爬自己需要的就可以啦,给服务器省点资源
统一回复一下,我这边目前下载了30页左右都没有这种超出重试次数的情况,那按这种症状的话基本的原理应该是没变的。我用这个工具这么多天只完整下过3本书,从来没暴力爬过,大家可以试试换个ip再换个账号试试。大家就爬爬自己需要的就可以啦,给服务器省点资源
你看一下下载下来的图片,现在我发现是可以下载但是图片非常的小,那样的话清晰度会有问题。
统一回复一下,我这边目前下载了30页左右都没有这种超出重试次数的情况,那按这种症状的话基本的原理应该是没变的。我用这个工具这么多天只完整下过3本书,从来没暴力爬过,大家可以试试换个ip再换个账号试试。大家就爬爬自己需要的就可以啦,给服务器省点资源
你看一下下载下来的图片,现在我发现是可以下载但是图片非常的小,那样的话清晰度会有问题。
嗯我发现问题了,这个好解决,稍等我做一个新的commit。目前主要问题主要是大家这个报错的问题我没法复现,我也有过重试次数过多退出的情况但是重启脚本还是可以下载。
我下载的图片一个才4、5kb,为啥这么小啊?看不清的
我下载的图片一个才4、5kb,为啥这么小啊?看不清的
我现在也是,我先看看有没有什么紧急办法
@BillXuce 下了26页后就一直失败了
我下载的图片一个才4、5kb,为啥这么小啊?看不清的
我现在也是,我先看看有没有什么紧急办法
貌似Mobile模式刷出来的都是缩略图,桌面版浏览器可以刷出大图。
貌似Mobile模式刷出来的都是缩略图,桌面版浏览器可以刷出大图。
好像文泉学堂没有手机模式。用手机打开都是电脑页面的
目前我电脑尚未出现滑块,请求中好像比之前多出 https://lib-nuanxin.wqxuetang.com/v1/read/nvc?……(印象中)
我刚上文泉学堂的网站上看了下,图片是先出缩略图(10K~12K),然后出清晰图(100K以上)。以前貌似直接出清晰图~~刷了十几页,滑块好像也没有了。。。 看上去可能会出两张图,是不是根据文件大小筛选一下? ps 可能存在一些占位用的空白页面也被筛去(这些空白或者文字很少的页面本来就比较小)
我刚上文泉学堂的网站上看了下,图片是先出缩略图(10K~12K),然后出清晰图(100K以上)。以前貌似直接出清晰图~~ 看上去可能会出两张图,是不是根据文件大小筛选一下? ps 可能存在一些占位用的空白页面也被筛去(这些空白或者文字很少的页面本来就比较小)
之前也是会先出缩略图的,文泉刚开始也是先加载缩略图再加载清晰图。 可能是之前人少,有足够的资源预加载清晰图,所以没有留意到缩略图。
我刚上文泉学堂的网站上看了下,图片是先出缩略图(10K~12K),然后出清晰图(100K以上)。以前貌似直接出清晰图~~ 看上去可能会出两张图,是不是根据文件大小筛选一下? ps 可能存在一些占位用的空白页面也被筛去(这些空白或者文字很少的页面本来就比较小)
之前也是会先出缩略图的,文泉刚开始也是先加载缩略图再加载清晰图。 可能是之前人少,有足够的资源预加载清晰图,所以没有留意到缩略图。
嗯,加载一个1s的延时估计就差不多够用了
貌似Mobile模式刷出来的都是缩略图,桌面版浏览器可以刷出大图。
好像文泉学堂没有手机模式。用手机打开都是电脑页面的
用浏览器调试的时候发现,如果用Mobile模式,不管是iPhone还是Kindle,刷图出来的都是缩略图,出不来大图。桌面浏览器就行。
图片应该是需要base64解码进行保存
用浏览器调试的时候发现,如果用Mobile模式,不管是iPhone还是Kindle,刷图出来的都是缩略图,出不来大图。桌面浏览器就行。
iPhone和Kindle稍等一会儿看看会不会变成大图。
图片应该是需要base64解码进行保存
目前看来并不需要,在开发者工具中读取到的原来请求的地址仍然是完整的大图,怀疑是新的请求的参数有所变动
加油 大神~
------------------ 原始邮件 ------------------ 发件人: "BillXuce"<notifications@github.com>; 发送时间: 2020年2月9日(星期天) 晚上9:26 收件人: "kajweb/wqxuetang_downloader"<wqxuetang_downloader@noreply.github.com>; 抄送: "世上疼我的去了"<ouyijun@qq.com>; "Comment"<comment@noreply.github.com>; 主题: Re: [kajweb/wqxuetang_downloader] 文泉学堂报错说明 (#67)
图片应该是需要base64解码进行保存
目前看来并不需要,在开发者工具中读取到的原来请求的地址仍然是完整的大图,怀疑是新的请求的参数有所变动
— You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.
我注意到了一个名为nvc的一次请求,这个请求在文泉之前的版本里存在吗?这个请求会返回一个RequestID不知道对后续的参数是否会有影响
用浏览器调试的时候发现,如果用Mobile模式,不管是iPhone还是Kindle,刷图出来的都是缩略图,出不来大图。桌面浏览器就行。
iPhone和Kindle稍等一会儿看看会不会变成大图。
额,又试了下,等2-3秒,能变…… Sorry。。。
图片应该是需要base64解码进行保存
目前看来并不需要,在开发者工具中读取到的原来请求的地址仍然是完整的大图,怀疑是新的请求的参数有所变动
目前发现两个问题(印象中):
1、readJS由read.v5.3.1.722eb.js
更新为read.v5.3.1.2ffa3.js
2、(2/7/2018, 5:02:18 PM)新增https://g.alicdn.com/sd/nvc/1.1.112/guide.js?t=1581255014913
阿里云人机交互验证
3、在PC网页阅读,每个图片请求前会触发https://lib-nuanxin.wqxuetang.com/v1/read/nvc?……, 这个应该是判断用户是否正常阅读的关键,应该想办法从这里突破。
图片应该是需要base64解码进行保存
目前看来并不需要,在开发者工具中读取到的原来请求的地址仍然是完整的大图,怀疑是新的请求的参数有所变动
目前发现两个问题(印象中): 1、readJS由
read.v5.3.1.722eb.js
更新为read.v5.3.1.2ffa3.js
2、(2/7/2018, 5:02:18 PM)新增https://g.alicdn.com/sd/nvc/1.1.112/guide.js?t=1581255014913
阿里云人机交互验证
3、在PC网页阅读,每个图片请求前会触发https://lib-nuanxin.wqxuetang.com/v1/read/nvc?……, 这个应该是判断用户是否正常阅读的关键,应该想办法从这里突破。
同意,根据阿里云文档的现实,会有1.无痕认证2.滑动认证3.刮刮认证,其中滑动认证有一些用户已经遇到,刮刮认证在js脚本中也出现了,大概率锁定是nvc的问题
开发思路猜测1:由于nvc携带了bid和页码,所以RequestId不一定有用,有可能是服务器储存请求的依据,可能不会对后面参数造成影响。 破解nvc难度较高,可以考虑使用hendless的方式模拟发出请求,但是开发成本较高,不太推荐。
破解思路2:无法下载、发生了验证码后,进入文泉学堂首页,点击右下角在线客服。 跟客服说清楚你在刚刚正常阅读,然后要求输入验证码,然后验证验证码或者无法继续阅读的事实。
大家务必事实求是,减少对客服、开发人员的打扰。
破解思路2:无法下载、发生了验证码后,进入文泉学堂首页,点击右下角在线客服。 跟客服说清楚你在刚刚正常阅读,然后要求输入验证码,然后验证验证码或者无法继续阅读的事实。
大家务必事实求是,减少对客服、开发人员的打扰。
现在的问题在于无感认证,我平时阅读的时候从来没有要求任何验证方式,怀疑是直接无感验证不通过而导致的无法下载
现在的问题在于无感认证,我平时阅读的时候从来没有要求任何验证方式,怀疑是直接无感验证不通过而导致的无法下载
我现在网页浏览也没有其他验证方式了,可能是你说的无感认证。 如果是滑块验证或刮刮认证,在中午的时候是直接下载出错。
开发思路猜测1:由于nvc携带了bid和页码,所以RequestId不一定有用,有可能是服务器储存请求的依据,可能不会对后面参数造成影响。 破解nvc难度较高,可以考虑使用hendless的方式模拟发出请求,但是开发成本较高,不太推荐。
headless 模式nvc直接返回800,无痕验证无法通过
油猴脚本还好使吗有人还在用吗?
看来没希望了~~
------------------ 原始邮件 ------------------ 发件人: "BillXuce"<notifications@github.com>; 发送时间: 2020年2月9日(星期天) 晚上10:31 收件人: "kajweb/wqxuetang_downloader"<wqxuetang_downloader@noreply.github.com>; 抄送: "世上疼我的去了"<ouyijun@qq.com>; "Comment"<comment@noreply.github.com>; 主题: Re: [kajweb/wqxuetang_downloader] 文泉学堂报错说明 (#67)
开发思路猜测1:由于nvc携带了bid和页码,所以RequestId不一定有用,有可能是服务器储存请求的依据,可能不会对后面参数造成影响。 破解nvc难度较高,可以考虑使用hendless的方式模拟发出请求,但是开发成本较高,不太推荐。
headless 模式nvc直接返回800,无痕验证无法通过
— You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.
破解思路2:无法下载、发生了验证码后,进入文泉学堂首页,点击右下角在线客服。 跟客服说清楚你在刚刚正常阅读,然后要求输入验证码,然后验证验证码或者无法继续阅读的事实。 大家务必事实求是,减少对客服、开发人员的打扰。
现在的问题在于无感认证,我平时阅读的时候从来没有要求任何验证方式,怀疑是直接无感验证不通过而导致的无法下载
社会工程学,当大多数人说某项功能不发正常使用的时候,该项功能可能会下架。
油猴的也不行!单页打印也显示不了,感觉数据没有存在本地,像远程桌面一样!
破解思路2:无法下载、发生了验证码后,进入文泉学堂首页,点击右下角在线客服。 跟客服说清楚你在刚刚正常阅读,然后要求输入验证码,然后验证验证码或者无法继续阅读的事实。 大家务必事实求是,减少对客服、开发人员的打扰。
现在的问题在于无感认证,我平时阅读的时候从来没有要求任何验证方式,怀疑是直接无感验证不通过而导致的无法下载
社会工程学,当大多数人说某项功能不发正常使用的时候,该项功能可能会下架。
行吧,也到寿命了,过两天也不免费了,原本寻思以后付费也可以下到电子版
真要是想下载的书,就用图片助手(ImageAssistant)这个chrome扩展,chrome-extension://dbjbempljhcmhlfpfacalomonjpalpko/options.html?showMsg=about 手动刷页面刷出完整的书,然后识别1366*768以上的图片,下载下来然后自己转成pdf吧~ @BillXuce @kajweb 你们看看这个思路可以用脚本实现吗?
update: 下面的问题没有出现了,新的问题见3楼4楼回复。 —————————————————————— https://lib-nuanxin.wqxuetang.com/#/Book/3202557 获取最后一页的时候报错。 Traceback (most recent call last): File "main.py", line 66, in
parseMultBid(books)
File "main.py", line 25, in parseMultBid
book.start([]);
File "C:\Users\sky\Desktop\wqxuetang_downloader-master\wqxtDownloader.py", line 165, in start
downloadPage = self.downloadImage( url, path );
File "C:\Users\sky\Desktop\wqxuetang_downloader-master\wqxtDownloader.py", line 237, in downloadImage
self.img_converter(data, path)
File "C:\Users\sky\Desktop\wqxuetang_downloader-master\wqxtDownloader.py", line 244, in img_converter
origin_img = Image.open(img)
File "C:\Users\sky\AppData\Local\Programs\Python\Python38\lib\site-packages\PIL\Image.py", line 2861, in open
raise UnidentifiedImageError(
PIL.UnidentifiedImageError: cannot identify image file <_io.BytesIO object at 0x0000027E45AED400>