Artrajz / vits-simple-api

A simple VITS HTTP API, developed by extending Moegoe with additional features.
GNU Affero General Public License v3.0
822 stars 121 forks source link

分词语言检测问题 #173

Closed grider-withourai closed 4 months ago

grider-withourai commented 4 months ago

运行环境

问题描述

bert-vits2语言设置为audo,当遇到ご主人様时会读成中文的主人样而不是日文,如在それは残念だったわね、ご主人様。内。

Artrajz commented 4 months ago

建议语言直接写ja。目前的auto是先按标点符号切分再进行识别的,而语种识别库对中日文的短文本识别不佳,从而导致了有时中文识别为日文、日文识别为中文的情况。

grider-withourai commented 4 months ago

可以选择分割的符号吗,我觉得顿号,逗号这些可以不用分割的,如果不用这些分割我觉得正确识别的概率会比较大。

Artrajz commented 4 months ago

做了一次更新 https://github.com/Artrajz/vits-simple-api/commit/68cdddae905b5ce19b07ee7c556e150828a449d0 可以在config.yaml中修改split_pattern的正则表达式,在这里去掉顿号,逗号。

grider-withourai commented 4 months ago

好像可以了,谢谢。