PlayVoice / vits_chinese

Best practice TTS based on BERT and VITS with some Natural Speech Features Of Microsoft; Support ONNX streaming out!
https://huggingface.co/spaces/maxmax20160403/vits_chinese
MIT License
1.16k stars 168 forks source link

多说话人模型发音混乱? #65

Closed hildazzz closed 1 year ago

hildazzz commented 1 year ago

大佬,我构建了多说话人数据集,修改了train.py和对应的配置文件。训练的模型发音混乱是为啥呀?说话人顺序不定,生成语音质量也差。

MaxMax2016 commented 1 year ago

你为说话人建立索引没有呢?

hildazzz commented 1 year ago

建立了,从0开始的连续索引。

MaxMax2016 commented 1 year ago

那里就不应该了,要不您研究研究vits官方代码里面的多发音人模型?

hildazzz commented 1 year ago

请问大佬试过多人模型的训练吗?我之前在官方的库上也跑过多人训练,不会出现这样子的发音人混乱问题。没找到问题原因……

MaxMax2016 commented 1 year ago

没,但是这里只是在输入上面加上了bert向量,模型和官方上面一样的;要不您用官方库训练,在输入上面加上bert也是一样的。

hildazzz commented 1 year ago

好的,谢谢

pgolds commented 1 year ago

我用biaobei+aishell3训练过多说话人, 试过几个说话人推理没有你说的说话人顺序混乱问题, 可能我没大量测试过

hildazzz commented 1 year ago

我用biaobei+aishell3训练过多说话人, 试过几个说话人推理没有你说的说话人顺序混乱问题, 可能我没大量测试过

请问训练了多少个epoch呢?我也感觉流程没问题,但是生成语音不好。

pgolds commented 1 year ago

我用biaobei+aishell3训练过多说话人, 试过几个说话人推理没有你说的说话人顺序混乱问题, 可能我没大量测试过

请问训练了多少个epoch呢?我也感觉流程没问题,但是生成语音不好。

将近500 epoch, 音质我感觉还行,有的说话人稍差可能语料质量没那么好

dayu1979 commented 1 year ago

500epoch要训练多久啊。我赶紧20个epoch都要好久

pgolds commented 1 year ago

500epoch要训练多久啊。我赶紧20个epoch都要好久

几天吧,我数据量不多的。你是不是数据量太多了

TinaChen95 commented 1 year ago

会不会是不同说话人的文件名有重复的呢?

dayu1979 commented 1 year ago

我改成多人,发现,确实不太容易收敛。这或许是vits的通病,我看很多训练多人的结果都是大佐音。而且音调不自然

大佬,我构建了多说话人数据集,修改了train.py和对应的配置文件。训练的模型发音混乱是为啥呀?说话人顺序不定,生成语音质量也差。

hildazzz commented 1 year ago

会不会是不同说话人的文件名有重复的呢?

没有哦,路径都是不同的,说话人索引也分配好了的

hildazzz commented 1 year ago

我改成多人,发现,确实不太容易收敛。这或许是vits的通病,我看很多训练多人的结果都是大佐音。而且音调不自然

大佬,我构建了多说话人数据集,修改了train.py和对应的配置文件。训练的模型发音混乱是为啥呀?说话人顺序不定,生成语音质量也差。

应该要训练很多次。主要是我这边单人的语料太少,担心文本覆盖不到。

TinaChen95 commented 1 year ago

我改成多人,发现,确实不太容易收敛。这或许是vits的通病,我看很多训练多人的结果都是大佐音。而且音调不自然

大佬,我构建了多说话人数据集,修改了train.py和对应的配置文件。训练的模型发音混乱是为啥呀?说话人顺序不定,生成语音质量也差。

请问什么是大佐音呀?哪里可以听一下样例呢?