FishHawk / auto-novel

轻小说机翻网站,支持网络小说/文库小说/本地小说
https://books.fishhawk.top/
GNU General Public License v3.0
434 stars 43 forks source link

是否可以直接删除pixiv小说爬取内容中[newpage]和[chapter:]部分呢 #124

Open Volta-XTY opened 1 month ago

Volta-XTY commented 1 month ago

似乎相当多pixiv小说内容里都有大量的[newpage]和[chapter:],如下图所示: image 这些多余部分主要会影响Sakura翻译器,造成行数不匹配进而进入逐行翻译: image 上面的就是[newpage]无法被翻译器原样输出的例子。 进入逐行翻译以后,翻译器的效率剧烈下降,过滤掉这些字段或许有帮助。

FishHawk commented 1 month ago

我的行动点数有点跟不上网站维护了,得等等

Volta-XTY commented 1 month ago

/web/src/domain/translate/TranslateWeb.ts 里面似乎有对原文预处理的代码: image 那么是不是可以姑且多加两个匹配规则作预处理呢:/\[newpage\]/ /\[chapter:[^\]]*\]/ 匹配到直接替换成空字符串。

FishHawk commented 1 month ago

那个是目录翻译处理,爬虫在后端。实在等不及可以提pr,爬虫这块不搭数据库也能测,用kotest就行。