innnky / emotional-vits

无需情感标注的情感可控语音合成模型,基于VITS
MIT License
1.33k stars 169 forks source link

1500条英文语音训练了1000epoch,合成后是莫名其妙的英文语句 #32

Open zhanglina94 opened 11 months ago

zhanglina94 commented 11 months ago

大佬,你好

我在1500条英文语音训练了1000epoch,

在训练时没有遇到问题,推理后生成语音有点奇怪,

不提示任何错误,但是生成的语音听着是英文,一点都不通顺,像是音素拼到一起的感觉。

请问有什么解决建议吗?

提前感谢~

对于错误音频,我上传了这个位置,https://github.com/zhanglina94/tts-v1/tree/main/emo_tts

感兴趣的朋友可查看~~

huweihua123 commented 7 months ago

请问您解决了吗,我也遇到了相同的问题

ruobingli1103 commented 7 months ago

是不是cleaner出了问题,你们选的是哪个cleaner

zhanglina94 commented 7 months ago

请问您解决了吗,我也遇到了相同的问题

没有,没时间修改呢~

zhanglina94 commented 7 months ago

是不是cleaner出了问题,你们选的是哪个cleaner

我用的就是默认的英文的cleaner

ruobingli1103 commented 7 months ago

是不是cleaner出了问题,你们选的是哪个cleaner

我用的就是默认的英文的cleaner

噢噢,我看你的JSON文件里写的是 "text_cleaners":["korean_cleaners"],我还以为是不是这里写错了

huweihua123 commented 7 months ago

是cleaner的问题,我从另一个代码中复制了cleaner就比以前好多了

ruobingli1103 commented 7 months ago

是cleaner的问题,我从另一个代码中复制了cleaner就比以前好多了

可以问问你用了哪个cleaner吗?我换了好几个效果都不太行,我用的原版vits的Englishcleaner2

huweihua123 commented 7 months ago

def english_cleaners2(text): '''Pipeline for English text, including abbreviation expansion. + punctuation + stress''' text = convert_to_ascii(text) text = lowercase(text) text = expand_abbreviations(text) phonemes = phonemize(text, language='en-us', backend='espeak', strip=True, preserve_punctuation=True, with_stress=True) phonemes = collapse_whitespace(phonemes) return phonemes

使用这个cleaner是可以出效果的,你试试

zhaojingxin123 commented 2 months ago

请问你们有用中文实现的吗?我用中文实现,合成出来的也是乱七八糟的声音