7325156 / jjwxcNovelCrawler

使用python3爬虫下载晋江小说(可下载VIP章节,app源下载)【此项目仅供学习交流使用,严禁用于商业用途,请在24小时之内删除。】
283 stars 48 forks source link

bug汇总 #9

Open 7325156 opened 3 years ago

7325156 commented 3 years ago

常见问题如下:常见问题汇总 如果找不到解答,可以把遇到的bug放这里

everything411 commented 3 years ago

txt下载无法在linux下工作

linux下路径分隔符不是\而是/,同时在windows下,也可以用/作为路径分隔符,建议改成统一用/ https://github.com/7325156/jjwxcNovelCrawler/blob/38fc6872075538458f4f59bb48d092e5c5d2d336/main_txt.py#L414

linux下文件夹下os.listdir()获得的文件列表不是按照文件名顺序排列的,需要将获得的list进行sort()操作才能保证整合结果正确,即

filenames=os.listdir(ppp)
filenames.sort()

https://github.com/7325156/jjwxcNovelCrawler/blob/38fc6872075538458f4f59bb48d092e5c5d2d336/main_txt.py#L411

blackwindmill2020 commented 3 years ago

http://www.jjwxc.net/onebook.php?novelid=3171389 使用反爬虫对照表之后每到大约一半就闪退并生成内容不全的文件(账号已购买全本VIP,使用旧版本可下载全本但有缺字) update:用9天前更新的最新代码尝试可用了,看样子确实是release里exe的问题

7325156 commented 3 years ago

如果用的最新代码的话,我再看看。release里的exe有不少bug,我的pyinstaller轮子出了点问题,还无法生成新的exe。

---原始邮件--- 发件人: "blackwindmill2020"<notifications@github.com> 发送时间: 2021年2月16日(周二) 凌晨0:16 收件人: "7325156/jjwxcNovelCrawler"<jjwxcNovelCrawler@noreply.github.com>; 抄送: "7325156"<1048047680@qq.com>;"Author"<author@noreply.github.com>; 主题: Re: [7325156/jjwxcNovelCrawler] bug汇总 (#9)

http://www.jjwxc.net/onebook.php?novelid=3171389 使用反爬虫对照表之后每到大约一半就闪退并生成内容不全的文件(账号已购买全本VIP)

— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or unsubscribe.

LZW96731 commented 3 years ago

遭遇了下载下来的文件章节顺序错乱,参考楼上everything411大神的代码修改了之后就正常了

113000 commented 3 years ago

下载的时候发现有些章节不知道为什么没下载完,下面是我发现的一个例子 地址:http://www.jjwxc.net/onebook.php?novelid=4725302 《跟哒宰一体双魂的日子》 出问题的章节:92-95,100

例子1:CH.93 原文 L111(青花鱼去死(╯>д<)╯˙˙):哈?横滨歌姬是什么鬼? TXT结局是 L111(青花鱼去死(╯>д 整行后面的文字都不见了

例子2:CH.100 原文 主持人:原来是这样啊,贵圈真乱啊。 出来结局主持人:原来是 后面的都没了

风格兰仕 - 跟哒宰一体双魂的日子.4725302.txt

LZW96731 commented 3 years ago

今天用txt.py下载乱码了,而且全是乱码没有一章正常 一开始以为又更新字体,但发现fonts文件夹没有新字体,于是我把fonts里面的字体文件都删了又重下,发现下到的字体文件是相同的没有新增,用在线编辑打开也是老字体没变。 确定 1 下载加密字体功能正常 2 没有更新或新增加密字体库 我感觉是晋江改了哪里导致程序里加密字体替换为正常字体这一步出错了,奈何没有程序基础,看半天不知道怎么改,希望可以帮忙看看(每本书入v后每章都是这样,以前正常下载的现在也不正常) 补充案例 灌木丛开满蓝色的花,梁承道:“‌年生草本,四季都能开。” 乔苑林心想,这他妈是生物实践活动吗?当年走之前,这个浑蛋留给他一份整理好的复习资料,‌少个长夜,他一边睹物思人一边含泪学习。

Varmorphism commented 3 years ago

今天(2021.7.19)用最新发布的txtdownloader下载时出现章节下载未完全就停止的情况,选了三部订全本的小说(其中一部在之前下载过,之前可以正常下载)试验了多次都是这种情况。而在之前均为发生此情况。 一个示例

 下载完成,总进度:579/660

txt文件整合完成

此外,这三本中另外两本均是在下载完非V章节就停止了下载。

7325156 commented 3 years ago

今天(2021.7.19)用最新发布的txtdownloader下载时出现章节下载未完全就停止的情况,选了三部订全本的小说(其中一部在之前下载过,之前可以正常下载)试验了多次都是这种情况。而在之前均为发生此情况。 一个示例

 下载完成,总进度:579/660

txt文件整合完成

此外,这三本中另外两本均是在下载完非V章节就停止了下载。

你把下面这段代码注释掉(409-414) with concurrent.futures.ThreadPoolExecutor(max_workers=threadnum) as executor: tlist = {executor.submit(self.get_sin,i):i for i in self.href_list} for future in concurrent.futures.as_completed(tlist): if self.percent < section_ct: print('\r 下载进度:%d/%d' % (self.percent,section_ct),end='',flush=True) print('\r 下载完成,总进度:%d/%d\r\n' % (self.percent,section_ct),end='',flush=True) 再把上面这段代码下方的两行从注释里放出来(416-417) for i in self.href_list: self.get_sin(i) 再在IDLE里运行一遍,就能找出bug了(我下载的没啥问题)

blackwindmill2020 commented 3 years ago

和上面4月的那位遇到了同样的问题,软件和字体库确定用的都是发布出的最新版本,依然会在近几个月的章节中发现脱字漏字现象,还挺严重的……文章地址是http://www.jjwxc.net/onebook.php?novelid=3171389

7325156 commented 3 years ago

emmm如果用的是EXE的话那就很正常了,因为那个版本本来就有bug,而我的pyinstaller还没修好,没法生成新的EXE。 如果是最新版的py文件……我再研究研究吧

---原始邮件--- 发件人: @.> 发送时间: 2021年8月1日(周日) 下午4:27 收件人: @.>; 抄送: @.**@.>; 主题: Re: [7325156/jjwxcNovelCrawler] bug汇总 (#9)

和上面4月的那位遇到了同样的问题,软件和字体库确定用的都是发布出的最新版本,依然会在近几个月的章节中发现脱字漏字现象,还挺严重的……文章地址是http://www.jjwxc.net/onebook.php?novelid=3171389

— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or unsubscribe.

blackwindmill2020 commented 3 years ago

emmm如果用的是EXE的话那就很正常了,因为那个版本本来就有bug,而我的pyinstaller还没修好,没法生成新的EXE。 如果是最新版的py文件……我再研究研究吧

用的是py文件,事实上包括最新版本在内我试了三个历史版本的py文件,都不行……看了一下不只是新章而是之前用某版本可以正常拖下来的章节现在用同样的操作也会出现脱字漏字,怀疑是晋江改了反爬虫

7325156 commented 3 years ago

emmm如果用的是EXE的话那就很正常了,因为那个版本本来就有bug,而我的pyinstaller还没修好,没法生成新的EXE。 如果是最新版的py文件……我再研究研究吧

用的是py文件,事实上包括最新版本在内我试了三个历史版本的py文件,都不行……看了一下不只是新章而是之前用某版本可以正常拖下来的章节现在用同样的操作也会出现脱字漏字,怀疑是晋江改了反爬虫

我这边没有任何问题,要不试试看最新校对过的对照表? Fonts.zip

blackwindmill2020 commented 3 years ago

emmm如果用的是EXE的话那就很正常了,因为那个版本本来就有bug,而我的pyinstaller还没修好,没法生成新的EXE。 如果是最新版的py文件……我再研究研究吧

用的是py文件,事实上包括最新版本在内我试了三个历史版本的py文件,都不行……看了一下不只是新章而是之前用某版本可以正常拖下来的章节现在用同样的操作也会出现脱字漏字,怀疑是晋江改了反爬虫

我这边没有任何问题,要不试试看最新校对过的对照表? Fonts.zip

还是没有解决,换电脑(win10)重装环境用最新这个对照表试了一下,epub版报错闪退,txt版出来是这样的 6F3B1F2A-9A7F-4345-A9F1-ADF8525EFC50 比较明显的缺字和乱码就不说了,所有的“竹中治”都应该是“竹中重治”…… update:“竹中治”的问题看了一下作话应该是我记错了

7325156 commented 3 years ago

@blackwindmill2020 好吧,现在可以考虑python的问题了。如果你的python是在3.7.5以上或者3.8以上、还下载了所有相关的轮子的话,那我也不知道怎么办了,因为我这儿一切正常。或许可以把97-101取消注释,看看有没有多出几个字体文件?

blackwindmill2020 commented 3 years ago

@blackwindmill2020 好吧,现在可以考虑python的问题了。如果你的python是在3.7.5以上或者3.8以上、还下载了所有相关的轮子的话,那我也不知道怎么办了,因为我这儿一切正常。或许可以把97-101取消注释,看看有没有多出几个字体文件?

换3.7.9的python以后虽然epub版还是不明原因闪退用不了但txt版本的问题都解决了!谢谢! update: epub版本经测试旧版可用,只有最新的那版会闪退

guolicheng1990 commented 3 years ago

突然也出现了抓取缺字的情况,前一天还能正常使用,结果今天一用就缺字了,下了好几个版本都没用,请问作者有解决办法了么

113000 commented 3 years ago

今天发现一堆新的WOFF2文件,我的是大约是8月17号开始的,不过今天才发现,大家出现的时间不一样?所以这是楼上的人出现漏字的原因吗? Fonts.zip 要开新的“众筹字体反爬虫文件”楼吗?

7325156 commented 3 years ago

@113000 @guolicheng1990 最近忙得很,咱们先用这个,等我解析透了原理再改改。 https://github.com/fffonion/JJGet

7325156 commented 3 years ago

@113000 @guolicheng1990 新版反爬虫表弄出来了,以后再也不需要手动制作反爬虫表了!(快乐)

guolicheng1990 commented 3 years ago

@113000 @guolicheng1990 新版反爬虫表弄出来了,以后再也不需要手动制作反爬虫表了!(快乐) QQ截图20210823185347 大大,是我操作的问题么,只能下载未入v的章节,购买过的v章下不下来都

7325156 commented 3 years ago

重新登录换cookie(如果不是chrome,那么连user-agent也要换),或者更新Python版本。

---原始邮件--- 发件人: @.> 发送时间: 2021年8月23日(周一) 晚上7:01 收件人: @.>; 抄送: @.**@.>; 主题: Re: [7325156/jjwxcNovelCrawler] bug汇总 (#9)

@113000 @guolicheng1990 新版反爬虫表弄出来了,以后再也不需要手动制作反爬虫表了!(快乐)

大大,是我操作的问题么,只能下载未入v的章节,购买过的v章下不下来都

— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or unsubscribe. Triage notifications on the go with GitHub Mobile for iOS or Android.

guolicheng1990 commented 3 years ago

重新登录换cookie(如果不是chrome,那么连user-agent也要换),或者更新Python版本。 ---原始邮件--- 发件人: @.> 发送时间: 2021年8月23日(周一) 晚上7:01 收件人: @.>; 抄送: @.**@.>; 主题: Re: [7325156/jjwxcNovelCrawler] bug汇总 (#9) @113000 @guolicheng1990 新版反爬虫表弄出来了,以后再也不需要手动制作反爬虫表了!(快乐) 大大,是我操作的问题么,只能下载未入v的章节,购买过的v章下不下来都 — You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or unsubscribe. Triage notifications on the go with GitHub Mobile for iOS or Android.

还是一样的问题,换了好多个版本了,用的也是chrome,还是无法下载v章,您那里能下载v章么

7325156 commented 3 years ago

重新登录换cookie(如果不是chrome,那么连user-agent也要换),或者更新Python版本。 ---原始邮件--- 发件人: @.**> 发送时间: 2021年8月23日(周一) 晚上7:01 收件人: @.**>; 抄送: @.**@.**>; 主题: Re: [7325156/jjwxcNovelCrawler] bug汇总 (#9) @113000 @guolicheng1990 新版反爬虫表弄出来了,以后再也不需要手动制作反爬虫表了!(快乐) 大大,是我操作的问题么,只能下载未入v的章节,购买过的v章下不下来都 — You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or unsubscribe. Triage notifications on the go with GitHub Mobile for iOS or Android.

还是一样的问题,换了好多个版本了,用的也是chrome,还是无法下载v章,您那里能下载v章么

……忘了把import json加上了,你现在看看行不行。

guolicheng1990 commented 3 years ago

重新登录换cookie(如果不是chrome,那么连user-agent也要换),或者更新Python版本。 ---原始邮件--- 发件人: @.**> 发送时间: 2021年8月23日(周一) 晚上7:01 收件人: @.**>; 抄送: @.**@.**>; 主题: Re: [7325156/jjwxcNovelCrawler] bug汇总 (#9) @113000 @guolicheng1990 新版反爬虫表弄出来了,以后再也不需要手动制作反爬虫表了!(快乐) 大大,是我操作的问题么,只能下载未入v的章节,购买过的v章下不下来都 — You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or unsubscribe. Triage notifications on the go with GitHub Mobile for iOS or Android.

还是一样的问题,换了好多个版本了,用的也是chrome,还是无法下载v章,您那里能下载v章么

……忘了把import json加上了,你现在看看行不行。

可以啦,谢谢,感恩!!

Jlazyegg commented 2 years ago

当我检查所有文本字体txt文件时, 我看到的是”愚“而不是“想”. 我也看这个错词“丸”在某些文件中。 不知道其他人有没有遇到同样的问题。

113000 commented 2 years ago

当我检查所有文本字体txt文件时, 我看到的是”愚“而不是“想”. 我也看这个错词“丸”在某些文件中。 不知道其他人有没有遇到同样的问题。

我倒没有,”愚“或者“丸”,你有修改过main_txt.py吗?会不会是ANSI和UNICODE之间的编码问题?就好像我用静读天下APP读UTF-16 TXT 的时候(明明APP是编码UTF-16的),“乾坤”永远都是“干坤”,可是在电脑TXT里是“乾坤”,没问题的

yianxen commented 2 years ago

[半娄烟沙]他们的老婆很可怕.txt

rduwjjnh commented 2 years ago

当我检查所有文本字体txt文件时, 我看到的是”愚“而不是“想”. 我也看这个错词“丸”在某些文件中。 不知道其他人有没有遇到同样的问题。

I have the same issue: 愚 instead of 想, 丸 instead of 义, and 亿 instead of 它. Only these 3.

7325156 commented 2 years ago

当我检查所有文本字体txt文件时, 我看到的是”愚“而不是“想”. 我也看这个错词“丸”在某些文件中。 不知道其他人有没有遇到同样的问题。

可以在网页上打开编码出错的章节,按Ctrl+U,在打开的源代码网页上搜索“ttf”,找到对应的字体文件名发给我,我来手动修改文件。

Jlazyegg commented 2 years ago

谢谢你,我可以自己修改文件。因为编码的字体都有相同的200个字,它们只是有不同的Unicode编码。检查一两个ttf/woff文件后,我可以使用文本编辑器批量替换所有错误的字体文本文件。 我在这里问是因为我只想知道是什么导致了这个问题,我检查了jjget-1.3.1.0的.jjfont文件,它也有相同的错误的词。 另外,我也想知道我是不是唯一一个遇到这个问题的人,和通知其他人,他们的font文件可能有错误的词。

7325156 commented 2 years ago

因为我是按照别人的对照表解析的,他是根据点阵解析的字体,生成的对照表大部分都是对的,但难免有bug,目前我正在众筹校对对照表,详情可以看最新版的readme(疯狂暗示.jpg) 例如:https://jjwxc.yooooo.us/jjwxcfont_00gxm.json

Jlazyegg commented 2 years ago

我不知道这是否有帮助,何时我检查了glyph编码的字体文件,我发现同一个词有相同的glyph编码,也许它们也有相同的HTML编码。 你可以制作1个源字体来自jj字体文件,然后将其他字体与它进行比较以找到并替换正确的单词。

guolicheng1990 commented 2 years ago

你好,请问一下作者,为什么用了新版本的exe,用一段时间就会在下载小说的过程中闪退啊

7325156 commented 2 years ago

你好,请问一下作者,为什么用了新版本的exe,用一段时间就会在下载小说的过程中闪退啊

如果你用的是最新版的话(10月6日之后的),把你保存的config.yml发给我,我研究研究。(cookie就不用了)

guolicheng1990 commented 2 years ago

你好,请问一下作者,为什么用了新版本的exe,用一段时间就会在下载小说的过程中闪退啊

如果你用的是最新版的话(10月6日之后的),把你保存的config.yml发给我,我研究研究。(cookie就不用了)

换了6号之后的版本好了,但是现在用软件下载的时候提示请检查反爬虫文件是否错误,然后v章就下不下来了

7325156 commented 2 years ago

@guolicheng1990 试试看我新发布的版本

guolicheng1990 commented 2 years ago

@guolicheng1990 试试看我新发布的版本

第一次用是可以的,然后下第二篇文的时候提示请检查cookie是否正确,但是购买的章节还是可以下下来的

EveJiang26 commented 2 years ago

🎉新的2.4版exe很好用!速度特别快!🎉 问题反映: epub2和epub3下载没有问题,但是下载txt会闪退(其实这种没啥影响) epub3的卷标是第一个章节的名字而不是卷名(其实这种没啥影响) 然后没有全订容易死机,如果跳订,(例如跳过12 13 直接订阅 14 15,就会在12 13章显示14 15章的内容。 网址只接受http不接受https(这样不算问题)

EveJiang26 commented 2 years ago

http://www.jjwxc.net/onebook.php?novelid=3660250 这本每次下载都会闪退

7325156 commented 2 years ago

http://www.jjwxc.net/onebook.php?novelid=3660250 这本每次下载都会闪退

刚刚更新了一下,试试看新版本。

levi330 commented 2 years ago

您好,请问exe运行后没有文件只出现yml,再运行弹出来如图 mmexport1638157083544 请问是我操作失误吗

levi330 commented 2 years ago

您好,请问exe运行后没有文件只出现yml,再运行弹出来如图 mmexport1638157083544 请问是我操作失误吗

搞定了,我犯傻了

guolicheng1990 commented 2 years ago

你好,请问用新版本,运行exe提示Failed to obtain/convert traceback!,这个该怎么操作啊

guolicheng1990 commented 2 years ago

您好,请问exe运行后没有文件只出现yml,再运行弹出来如图 mmexport1638157083544 请问是我操作失误吗

搞定了,我犯傻了

请问你是怎么解决的

7325156 commented 2 years ago

你好,请问用新版本,运行exe提示Failed to obtain/convert traceback!,这个该怎么操作啊

把yml文件删了再运行试试 还不行就把exe换一个磁盘或文件夹运行试试

guolicheng1990 commented 2 years ago

你好,请问用新版本,运行exe提示Failed to obtain/convert traceback!,这个该怎么操作啊

把yml文件删了再运行试试 还不行就把exe换一个磁盘或文件夹运行试试

删掉了yml文件可以了,但是新版本只能下载一本,下完了在下另外一本就卡住了,然后保存配置就闪退,重新登录就又提示failed了,然后又要删除yml才行

7325156 commented 2 years ago

你的配置是不是有违规字符?如果实在试不出来,把你的yml除cookie以外的内容发给我,我研究研究。

---原始邮件--- 发件人: @.> 发送时间: 2022年2月5日(周六) 晚上10:06 收件人: @.>; 抄送: @.**@.>; 主题: Re: [7325156/jjwxcNovelCrawler] bug汇总 (#9)

你好,请问用新版本,运行exe提示Failed to obtain/convert traceback!,这个该怎么操作啊

把yml文件删了再运行试试 还不行就把exe换一个磁盘或文件夹运行试试

删掉了yml文件可以了,但是新版本只能下载一本,下完了在下另外一本就卡住了,然后保存配置就闪退,重新登录就又提示failed了,然后又要删除yml才行

— Reply to this email directly, view it on GitHub, or unsubscribe. Triage notifications on the go with GitHub Mobile for iOS or Android. You are receiving this because you authored the thread.Message ID: @.***>

guolicheng1990 commented 2 years ago

你的配置是不是有违规字符?如果实在试不出来,把你的yml除cookie以外的内容发给我,我研究研究。 ---原始邮件--- 发件人: @.> 发送时间: 2022年2月5日(周六) 晚上10:06 收件人: @.>; 抄送: @.**@.>; 主题: Re: [7325156/jjwxcNovelCrawler] bug汇总 (#9) 你好,请问用新版本,运行exe提示Failed to obtain/convert traceback!,这个该怎么操作啊 把yml文件删了再运行试试 还不行就把exe换一个磁盘或文件夹运行试试 删掉了yml文件可以了,但是新版本只能下载一本,下完了在下另外一本就卡住了,然后保存配置就闪退,重新登录就又提示failed了,然后又要删除yml才行 — Reply to this email directly, view it on GitHub, or unsubscribe. Triage notifications on the go with GitHub Mobile for iOS or Android. You are receiving this because you authored the thread.Message ID: @.***>

我的yml文件是0kb,里面啥也没有,我又重新配置了一次,还是一样,现在的情况就是输入了cookie我就不能点保存配置,点了就闪退了,闪退在重新开就提示failed,然后我删了yml才行,不过也能用,就是打开exe之后输入cookie然后直接下载小说,下次如果用之前先删掉yml就行了,也能用

JoMoney963 commented 2 years ago

我全订V文,随机出现账号未登陆,真的是每次都是不同章节随机未登陆,我清理了缓存,重新登陆了JJ账号,换了浏览器获取cookie也没用。这到底是咋了。

rduwjjnh commented 2 years ago

我全订V文,随机出现账号未登陆,真的是每次都是不同章节随机未登陆,我清理了缓存,重新登陆了JJ账号,换了浏览器获取cookie也没用。这到底是咋了。

我开始有同样的问题了。