是否可以直接删除pixiv小说爬取内容中[newpage]和[chapter:]部分呢

FishHawk / auto-novel

轻小说机翻网站，支持网络小说/文库小说/本地小说

https://books.fishhawk.top/

GNU General Public License v3.0

434 stars 43 forks source link

Open Volta-XTY opened 1 month ago

Volta-XTY commented 1 month ago

似乎相当多pixiv小说内容里都有大量的[newpage]和[chapter:]，如下图所示：这些多余部分主要会影响Sakura翻译器，造成行数不匹配进而进入逐行翻译：上面的就是[newpage]无法被翻译器原样输出的例子。进入逐行翻译以后，翻译器的效率剧烈下降，过滤掉这些字段或许有帮助。

FishHawk commented 1 month ago

我的行动点数有点跟不上网站维护了，得等等

Volta-XTY commented 1 month ago

/web/src/domain/translate/TranslateWeb.ts 里面似乎有对原文预处理的代码：那么是不是可以姑且多加两个匹配规则作预处理呢：/\[newpage\]/ /\[chapter:[^\]]*\]/ 匹配到直接替换成空字符串。

FishHawk commented 1 month ago

那个是目录翻译处理，爬虫在后端。实在等不及可以提pr，爬虫这块不搭数据库也能测，用kotest就行。