kajweb / wqxuetang_downloader

文泉学堂、悦读下载器 | 2020-02-16网站不再公益开放阅读,项目失效。
MIT License
219 stars 119 forks source link

文泉学堂报错说明 #67

Open xmdt opened 4 years ago

xmdt commented 4 years ago

update: 下面的问题没有出现了,新的问题见3楼4楼回复。 —————————————————————— https://lib-nuanxin.wqxuetang.com/#/Book/3202557 获取最后一页的时候报错。 Traceback (most recent call last): File "main.py", line 66, in parseMultBid(books) File "main.py", line 25, in parseMultBid book.start([]); File "C:\Users\sky\Desktop\wqxuetang_downloader-master\wqxtDownloader.py", line 165, in start downloadPage = self.downloadImage( url, path ); File "C:\Users\sky\Desktop\wqxuetang_downloader-master\wqxtDownloader.py", line 237, in downloadImage self.img_converter(data, path) File "C:\Users\sky\Desktop\wqxuetang_downloader-master\wqxtDownloader.py", line 244, in img_converter origin_img = Image.open(img) File "C:\Users\sky\AppData\Local\Programs\Python\Python38\lib\site-packages\PIL\Image.py", line 2861, in open raise UnidentifiedImageError( PIL.UnidentifiedImageError: cannot identify image file <_io.BytesIO object at 0x0000027E45AED400>

xmdt commented 4 years ago

试了下其他bookid的书,会报同样的错误。看来是文泉学堂那边修改了? update~ 好像是看书的功能挂了。。。浏览器翻墙状态下也看不了。。。

HoeYeungHo commented 4 years ago

从昨天开始 这个点就没办法爬了 到官网上面也没有办法查看 等到明天白天就会好了

lovejun277 commented 4 years ago

就刚才 下不了了 ooManyRetry: 重试次数超出设定次数 2020-02-09 11:47:08,829 [ERROR] 3207309 发生了严重错误,暂停20秒 第329页(329/411) 正在重试第6次 2020-02-09 11:47:29,241 [CRITICAL] 重试次数过多,程序终止,请尝试重新执行main.py

------------------ 原始邮件 ------------------ 发件人: "xmdt"<notifications@github.com>; 发送时间: 2020年2月9日(星期天) 中午11:48 收件人: "kajweb/wqxuetang_downloader"<wqxuetang_downloader@noreply.github.com>; 抄送: "Subscribed"<subscribed@noreply.github.com>; 主题: Re: [kajweb/wqxuetang_downloader] 文泉学堂报错说明 (#67)

Reopened #67.

— You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub, or unsubscribe.

xmdt commented 4 years ago

update: 刚刚似乎无法使用了,是不是网站又更新规则了? 报错跟书籍无关,跟ip无关,网页可以浏览书籍。 已检查cookie,PHPSESSID没有更新。 提示以下信息:

2020-02-09 11:47:37,159 [ERROR] 3202739 发生了严重错误,暂停20秒 第1页(1/209) 正在重试第1次 2020-02-09 11:47:57,537 [ERROR] 3202739 发生了严重错误,暂停20秒 第1页(1/209) 正在重试第2次 2020-02-09 11:48:17,914 [ERROR] 3202739 发生了严重错误,暂停20秒 第1页(1/209) 正在重试第3次 2020-02-09 11:48:38,333 [ERROR] 3202739 发生了严重错误,暂停20秒 第1页(1/209) 正在重试第4次

xmdt commented 4 years ago

就刚才 下不了了 ooManyRetry: 重试次数超出设定次数 2020-02-09 11:47:08,829 [ERROR] 3207309 发生了严重错误,暂停20秒 第329页(329/411) 正在重试第6次 2020-02-09 11:47:29,241 [CRITICAL] 重试次数过多,程序终止,请尝试重新执行main.py ------------------ 原始邮件 ------------------ 发件人: "xmdt"<notifications@github.com>; 发送时间: 2020年2月9日(星期天) 中午11:48 收件人: "kajweb/wqxuetang_downloader"<wqxuetang_downloader@noreply.github.com>; 抄送: "Subscribed"<subscribed@noreply.github.com>; 主题: Re: [kajweb/wqxuetang_downloader] 文泉学堂报错说明 (#67) Reopened #67. — You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub, or unsubscribe.

我也是如此。

lovejun277 commented 4 years ago

什么情况 ~大神出来走两步~

------------------ 原始邮件 ------------------ 发件人: "xmdt"<notifications@github.com>; 发送时间: 2020年2月9日(星期天) 中午11:50 收件人: "kajweb/wqxuetang_downloader"<wqxuetang_downloader@noreply.github.com>; 抄送: "世上疼我的去了"<ouyijun@qq.com>; "Comment"<comment@noreply.github.com>; 主题: Re: [kajweb/wqxuetang_downloader] 文泉学堂报错说明 (#67)

就刚才 下不了了 ooManyRetry: 重试次数超出设定次数 2020-02-09 11:47:08,829 [ERROR] 3207309 发生了严重错误,暂停20秒 第329页(329/411) 正在重试第6次 2020-02-09 11:47:29,241 [CRITICAL] 重试次数过多,程序终止,请尝试重新执行main.py … ------------------ 原始邮件 ------------------ 发件人: "xmdt"<notifications@github.com>; 发送时间: 2020年2月9日(星期天) 中午11:48 收件人: "kajweb/wqxuetang_downloader"<wqxuetang_downloader@noreply.github.com>; 抄送: "Subscribed"<subscribed@noreply.github.com>; 主题: Re: [kajweb/wqxuetang_downloader] 文泉学堂报错说明 (#67) Reopened #67. — You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub, or unsubscribe.

我也是如此。

— You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.

lovejun277 commented 4 years ago

3207309,3208473,3208241,3208458,3208247,3207887,3207140,3207278 任务中。。。 3206903,3205244,3208320,3207694,3207991,3203618    哪位大神给我帮个忙

------------------ 原始邮件 ------------------ 发件人: "世上疼我的去了"<chengyouli@vip.qq.com>; 发送时间: 2020年2月9日(星期天) 中午11:51 收件人: "kajweb/wqxuetang_downloader"<reply@reply.github.com>;"kajweb/wqxuetang_downloader"<wqxuetang_downloader@noreply.github.com>; 抄送: "Comment"<comment@noreply.github.com>; 主题: 回复: [kajweb/wqxuetang_downloader] 文泉学堂报错说明 (#67)

什么情况 ~大神出来走两步~

------------------ 原始邮件 ------------------ 发件人: "xmdt"<notifications@github.com>; 发送时间: 2020年2月9日(星期天) 中午11:50 收件人: "kajweb/wqxuetang_downloader"<wqxuetang_downloader@noreply.github.com>; 抄送: "世上疼我的去了"<ouyijun@qq.com>; "Comment"<comment@noreply.github.com>; 主题: Re: [kajweb/wqxuetang_downloader] 文泉学堂报错说明 (#67)

就刚才 下不了了 ooManyRetry: 重试次数超出设定次数 2020-02-09 11:47:08,829 [ERROR] 3207309 发生了严重错误,暂停20秒 第329页(329/411) 正在重试第6次 2020-02-09 11:47:29,241 [CRITICAL] 重试次数过多,程序终止,请尝试重新执行main.py … ------------------ 原始邮件 ------------------ 发件人: "xmdt"<notifications@github.com>; 发送时间: 2020年2月9日(星期天) 中午11:48 收件人: "kajweb/wqxuetang_downloader"<wqxuetang_downloader@noreply.github.com>; 抄送: "Subscribed"<subscribed@noreply.github.com>; 主题: Re: [kajweb/wqxuetang_downloader] 文泉学堂报错说明 (#67) Reopened #67. — You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub, or unsubscribe.

我也是如此。

— You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.

lastpass8 commented 4 years ago

PHPSESSID同样没有变化,报错 我刚才去网页端看了,增加了每页增加了滑块

xmdt commented 4 years ago

PHPSESSID同样没有变化,报错

重启浏览器,PHPSESSID确实更新了。。。 不过我把新的PHPSESSID值写入cookies.txt文件后,重新跑程序还是不行诶~

lastpass8 commented 4 years ago

PHPSESSID同样没有变化,报错

重启浏览器,PHPSESSID确实更新了。。。 不过我把新的PHPSESSID值写入cookies.txt文件后,重新跑程序还是不行诶~

每滑动几页就有一个滑块验证,应该是这个东西。

xmdt commented 4 years ago

每滑动几页就有一个滑块验证,应该是这个东西。

嗯嗯,我们把问题定位到这个滑块验证模块了~

zky001 commented 4 years ago

每滑动几页就有一个滑块验证。

lovejun277 commented 4 years ago

之前就有了 但是没有报错~还可以下载~

------------------ 原始邮件 ------------------ 发件人: "Markgolzh"<notifications@github.com>; 发送时间: 2020年2月9日(星期天) 中午12:15 收件人: "kajweb/wqxuetang_downloader"<wqxuetang_downloader@noreply.github.com>; 抄送: "世上疼我的去了"<ouyijun@qq.com>; "Comment"<comment@noreply.github.com>; 主题: Re: [kajweb/wqxuetang_downloader] 文泉学堂报错说明 (#67)

每滑动几页就有一个滑块验证。

— You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.

jackydi commented 4 years ago

这么多人遇到同样的问题,看来应该是网站把规则改了

lovejun277 commented 4 years ago

大神快出来~清华大学的气质严重违背了你的初衷~

------------------ 原始邮件 ------------------ 发件人: "jackydi"<notifications@github.com>; 发送时间: 2020年2月9日(星期天) 中午12:26 收件人: "kajweb/wqxuetang_downloader"<wqxuetang_downloader@noreply.github.com>; 抄送: "世上疼我的去了"<ouyijun@qq.com>; "Comment"<comment@noreply.github.com>; 主题: Re: [kajweb/wqxuetang_downloader] 文泉学堂报错说明 (#67)

这么多人遇到同样的问题,看来应该是网站把规则改了

— You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.

Samachi commented 4 years ago

每滑动几页就有一个滑块验证,应该是这个东西。

嗯嗯,我们把问题定位到这个滑块验证模块了~

据说selenium能解决问题

qiuyu2020 commented 4 years ago

同样的问题,网页看没问题,下载出错。但滑动很多页没见到滑块验证啊~

BillXuce commented 4 years ago

update: 刚刚似乎无法使用了,是不是网站又更新规则了? 报错跟书籍无关,跟ip无关,网页可以浏览书籍。 已检查cookie,PHPSESSID没有更新。 提示以下信息:

2020-02-09 11:47:37,159 [ERROR] 3202739 发生了严重错误,暂停20秒 第1页(1/209) 正在重试第1次 2020-02-09 11:47:57,537 [ERROR] 3202739 发生了严重错误,暂停20秒 第1页(1/209) 正在重试第2次 2020-02-09 11:48:17,914 [ERROR] 3202739 发生了严重错误,暂停20秒 第1页(1/209) 正在重试第3次 2020-02-09 11:48:38,333 [ERROR] 3202739 发生了严重错误,暂停20秒 第1页(1/209) 正在重试第4次

你从第一页就开始下载不了了啊,然而我现在下载了20多页还是没有问题啊

BillXuce commented 4 years ago

统一回复一下,我这边目前下载了30页左右都没有这种超出重试次数的情况,那按这种症状的话基本的原理应该是没变的。我用这个工具这么多天只完整下过3本书,从来没暴力爬过,大家可以试试换个ip再换个账号试试。大家就爬爬自己需要的就可以啦,给服务器省点资源

lastpass8 commented 4 years ago

统一回复一下,我这边目前下载了30页左右都没有这种超出重试次数的情况,那按这种症状的话基本的原理应该是没变的。我用这个工具这么多天只完整下过3本书,从来没暴力爬过,大家可以试试换个ip再换个账号试试。大家就爬爬自己需要的就可以啦,给服务器省点资源

你看一下下载下来的图片,现在我发现是可以下载但是图片非常的小,那样的话清晰度会有问题。

BillXuce commented 4 years ago

统一回复一下,我这边目前下载了30页左右都没有这种超出重试次数的情况,那按这种症状的话基本的原理应该是没变的。我用这个工具这么多天只完整下过3本书,从来没暴力爬过,大家可以试试换个ip再换个账号试试。大家就爬爬自己需要的就可以啦,给服务器省点资源

你看一下下载下来的图片,现在我发现是可以下载但是图片非常的小,那样的话清晰度会有问题。

嗯我发现问题了,这个好解决,稍等我做一个新的commit。目前主要问题主要是大家这个报错的问题我没法复现,我也有过重试次数过多退出的情况但是重启脚本还是可以下载。

purzelon commented 4 years ago

我下载的图片一个才4、5kb,为啥这么小啊?看不清的

BillXuce commented 4 years ago

我下载的图片一个才4、5kb,为啥这么小啊?看不清的

我现在也是,我先看看有没有什么紧急办法

pcbcos commented 4 years ago

@BillXuce 下了26页后就一直失败了

Samachi commented 4 years ago

我下载的图片一个才4、5kb,为啥这么小啊?看不清的

我现在也是,我先看看有没有什么紧急办法

貌似Mobile模式刷出来的都是缩略图,桌面版浏览器可以刷出大图。

kajweb commented 4 years ago

貌似Mobile模式刷出来的都是缩略图,桌面版浏览器可以刷出大图。

好像文泉学堂没有手机模式。用手机打开都是电脑页面的

kajweb commented 4 years ago

目前我电脑尚未出现滑块,请求中好像比之前多出 https://lib-nuanxin.wqxuetang.com/v1/read/nvc?……(印象中

xmdt commented 4 years ago

我刚上文泉学堂的网站上看了下,图片是先出缩略图(10K~12K),然后出清晰图(100K以上)。以前貌似直接出清晰图~~刷了十几页,滑块好像也没有了。。。 看上去可能会出两张图,是不是根据文件大小筛选一下? ps 可能存在一些占位用的空白页面也被筛去(这些空白或者文字很少的页面本来就比较小)

kajweb commented 4 years ago

我刚上文泉学堂的网站上看了下,图片是先出缩略图(10K~12K),然后出清晰图(100K以上)。以前貌似直接出清晰图~~ 看上去可能会出两张图,是不是根据文件大小筛选一下? ps 可能存在一些占位用的空白页面也被筛去(这些空白或者文字很少的页面本来就比较小)

之前也是会先出缩略图的,文泉刚开始也是先加载缩略图再加载清晰图。 可能是之前人少,有足够的资源预加载清晰图,所以没有留意到缩略图。

xmdt commented 4 years ago

我刚上文泉学堂的网站上看了下,图片是先出缩略图(10K~12K),然后出清晰图(100K以上)。以前貌似直接出清晰图~~ 看上去可能会出两张图,是不是根据文件大小筛选一下? ps 可能存在一些占位用的空白页面也被筛去(这些空白或者文字很少的页面本来就比较小)

之前也是会先出缩略图的,文泉刚开始也是先加载缩略图再加载清晰图。 可能是之前人少,有足够的资源预加载清晰图,所以没有留意到缩略图。

嗯,加载一个1s的延时估计就差不多够用了

Samachi commented 4 years ago

貌似Mobile模式刷出来的都是缩略图,桌面版浏览器可以刷出大图。

好像文泉学堂没有手机模式。用手机打开都是电脑页面的

用浏览器调试的时候发现,如果用Mobile模式,不管是iPhone还是Kindle,刷图出来的都是缩略图,出不来大图。桌面浏览器就行。

kiualen commented 4 years ago

图片应该是需要base64解码进行保存

kajweb commented 4 years ago

用浏览器调试的时候发现,如果用Mobile模式,不管是iPhone还是Kindle,刷图出来的都是缩略图,出不来大图。桌面浏览器就行。

iPhone和Kindle稍等一会儿看看会不会变成大图。

BillXuce commented 4 years ago

图片应该是需要base64解码进行保存

目前看来并不需要,在开发者工具中读取到的原来请求的地址仍然是完整的大图,怀疑是新的请求的参数有所变动

lovejun277 commented 4 years ago

加油 大神~

------------------ 原始邮件 ------------------ 发件人: "BillXuce"<notifications@github.com>; 发送时间: 2020年2月9日(星期天) 晚上9:26 收件人: "kajweb/wqxuetang_downloader"<wqxuetang_downloader@noreply.github.com>; 抄送: "世上疼我的去了"<ouyijun@qq.com>; "Comment"<comment@noreply.github.com>; 主题: Re: [kajweb/wqxuetang_downloader] 文泉学堂报错说明 (#67)

图片应该是需要base64解码进行保存

目前看来并不需要,在开发者工具中读取到的原来请求的地址仍然是完整的大图,怀疑是新的请求的参数有所变动

— You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.

BillXuce commented 4 years ago

我注意到了一个名为nvc的一次请求,这个请求在文泉之前的版本里存在吗?这个请求会返回一个RequestID不知道对后续的参数是否会有影响

Samachi commented 4 years ago

用浏览器调试的时候发现,如果用Mobile模式,不管是iPhone还是Kindle,刷图出来的都是缩略图,出不来大图。桌面浏览器就行。

iPhone和Kindle稍等一会儿看看会不会变成大图。

额,又试了下,等2-3秒,能变…… Sorry。。。

kajweb commented 4 years ago

图片应该是需要base64解码进行保存

目前看来并不需要,在开发者工具中读取到的原来请求的地址仍然是完整的大图,怀疑是新的请求的参数有所变动

目前发现两个问题(印象中): 1、readJS由read.v5.3.1.722eb.js更新为read.v5.3.1.2ffa3.js 2、(2/7/2018, 5:02:18 PM)新增https://g.alicdn.com/sd/nvc/1.1.112/guide.js?t=1581255014913

阿里云人机交互验证 3、在PC网页阅读,每个图片请求前会触发https://lib-nuanxin.wqxuetang.com/v1/read/nvc?……, 这个应该是判断用户是否正常阅读的关键,应该想办法从这里突破。

BillXuce commented 4 years ago

图片应该是需要base64解码进行保存

目前看来并不需要,在开发者工具中读取到的原来请求的地址仍然是完整的大图,怀疑是新的请求的参数有所变动

目前发现两个问题(印象中): 1、readJS由read.v5.3.1.722eb.js更新为read.v5.3.1.2ffa3.js 2、(2/7/2018, 5:02:18 PM)新增https://g.alicdn.com/sd/nvc/1.1.112/guide.js?t=1581255014913

阿里云人机交互验证 3、在PC网页阅读,每个图片请求前会触发https://lib-nuanxin.wqxuetang.com/v1/read/nvc?……, 这个应该是判断用户是否正常阅读的关键,应该想办法从这里突破。

同意,根据阿里云文档的现实,会有1.无痕认证2.滑动认证3.刮刮认证,其中滑动认证有一些用户已经遇到,刮刮认证在js脚本中也出现了,大概率锁定是nvc的问题

kajweb commented 4 years ago

开发思路猜测1:由于nvc携带了bid和页码,所以RequestId不一定有用,有可能是服务器储存请求的依据,可能不会对后面参数造成影响。 破解nvc难度较高,可以考虑使用hendless的方式模拟发出请求,但是开发成本较高,不太推荐。

kajweb commented 4 years ago

破解思路2:无法下载、发生了验证码后,进入文泉学堂首页,点击右下角在线客服。 跟客服说清楚你在刚刚正常阅读,然后要求输入验证码,然后验证验证码或者无法继续阅读的事实。

大家务必事实求是,减少对客服、开发人员的打扰。

BillXuce commented 4 years ago

破解思路2:无法下载、发生了验证码后,进入文泉学堂首页,点击右下角在线客服。 跟客服说清楚你在刚刚正常阅读,然后要求输入验证码,然后验证验证码或者无法继续阅读的事实。

大家务必事实求是,减少对客服、开发人员的打扰。

现在的问题在于无感认证,我平时阅读的时候从来没有要求任何验证方式,怀疑是直接无感验证不通过而导致的无法下载

xmdt commented 4 years ago

现在的问题在于无感认证,我平时阅读的时候从来没有要求任何验证方式,怀疑是直接无感验证不通过而导致的无法下载

我现在网页浏览也没有其他验证方式了,可能是你说的无感认证。 如果是滑块验证或刮刮认证,在中午的时候是直接下载出错。

BillXuce commented 4 years ago

开发思路猜测1:由于nvc携带了bid和页码,所以RequestId不一定有用,有可能是服务器储存请求的依据,可能不会对后面参数造成影响。 破解nvc难度较高,可以考虑使用hendless的方式模拟发出请求,但是开发成本较高,不太推荐。

headless 模式nvc直接返回800,无痕验证无法通过

BillXuce commented 4 years ago

油猴脚本还好使吗有人还在用吗?

lovejun277 commented 4 years ago

看来没希望了~~

------------------ 原始邮件 ------------------ 发件人: "BillXuce"<notifications@github.com>; 发送时间: 2020年2月9日(星期天) 晚上10:31 收件人: "kajweb/wqxuetang_downloader"<wqxuetang_downloader@noreply.github.com>; 抄送: "世上疼我的去了"<ouyijun@qq.com>; "Comment"<comment@noreply.github.com>; 主题: Re: [kajweb/wqxuetang_downloader] 文泉学堂报错说明 (#67)

开发思路猜测1:由于nvc携带了bid和页码,所以RequestId不一定有用,有可能是服务器储存请求的依据,可能不会对后面参数造成影响。 破解nvc难度较高,可以考虑使用hendless的方式模拟发出请求,但是开发成本较高,不太推荐。

headless 模式nvc直接返回800,无痕验证无法通过

— You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.

kajweb commented 4 years ago

破解思路2:无法下载、发生了验证码后,进入文泉学堂首页,点击右下角在线客服。 跟客服说清楚你在刚刚正常阅读,然后要求输入验证码,然后验证验证码或者无法继续阅读的事实。 大家务必事实求是,减少对客服、开发人员的打扰。

现在的问题在于无感认证,我平时阅读的时候从来没有要求任何验证方式,怀疑是直接无感验证不通过而导致的无法下载

社会工程学,当大多数人说某项功能不发正常使用的时候,该项功能可能会下架。

lsz52469803 commented 4 years ago

油猴的也不行!单页打印也显示不了,感觉数据没有存在本地,像远程桌面一样!

BillXuce commented 4 years ago

破解思路2:无法下载、发生了验证码后,进入文泉学堂首页,点击右下角在线客服。 跟客服说清楚你在刚刚正常阅读,然后要求输入验证码,然后验证验证码或者无法继续阅读的事实。 大家务必事实求是,减少对客服、开发人员的打扰。

现在的问题在于无感认证,我平时阅读的时候从来没有要求任何验证方式,怀疑是直接无感验证不通过而导致的无法下载

社会工程学,当大多数人说某项功能不发正常使用的时候,该项功能可能会下架。

行吧,也到寿命了,过两天也不免费了,原本寻思以后付费也可以下到电子版

xmdt commented 4 years ago

真要是想下载的书,就用图片助手(ImageAssistant)这个chrome扩展,chrome-extension://dbjbempljhcmhlfpfacalomonjpalpko/options.html?showMsg=about 手动刷页面刷出完整的书,然后识别1366*768以上的图片,下载下来然后自己转成pdf吧~ @BillXuce @kajweb 你们看看这个思路可以用脚本实现吗?