多说话人模型发音混乱？

PlayVoice / vits_chinese

Best practice TTS based on BERT and VITS with some Natural Speech Features Of Microsoft; Support ONNX streaming out!

MIT License

1.16k stars 168 forks source link

Closed hildazzz closed 1 year ago

hildazzz commented 1 year ago

大佬，我构建了多说话人数据集，修改了train.py和对应的配置文件。训练的模型发音混乱是为啥呀？说话人顺序不定，生成语音质量也差。

MaxMax2016 commented 1 year ago

你为说话人建立索引没有呢？

hildazzz commented 1 year ago

建立了，从0开始的连续索引。

MaxMax2016 commented 1 year ago

那里就不应该了，要不您研究研究vits官方代码里面的多发音人模型？

hildazzz commented 1 year ago

请问大佬试过多人模型的训练吗？我之前在官方的库上也跑过多人训练，不会出现这样子的发音人混乱问题。没找到问题原因……

MaxMax2016 commented 1 year ago

没，但是这里只是在输入上面加上了bert向量，模型和官方上面一样的；要不您用官方库训练，在输入上面加上bert也是一样的。

hildazzz commented 1 year ago

好的，谢谢

pgolds commented 1 year ago

我用biaobei+aishell3训练过多说话人, 试过几个说话人推理没有你说的说话人顺序混乱问题, 可能我没大量测试过

hildazzz commented 1 year ago

我用biaobei+aishell3训练过多说话人, 试过几个说话人推理没有你说的说话人顺序混乱问题, 可能我没大量测试过

请问训练了多少个epoch呢？我也感觉流程没问题，但是生成语音不好。

pgolds commented 1 year ago

我用biaobei+aishell3训练过多说话人, 试过几个说话人推理没有你说的说话人顺序混乱问题, 可能我没大量测试过

请问训练了多少个epoch呢？我也感觉流程没问题，但是生成语音不好。

将近500 epoch, 音质我感觉还行，有的说话人稍差可能语料质量没那么好

dayu1979 commented 1 year ago

500epoch要训练多久啊。我赶紧20个epoch都要好久

pgolds commented 1 year ago

500epoch要训练多久啊。我赶紧20个epoch都要好久

几天吧，我数据量不多的。你是不是数据量太多了

TinaChen95 commented 1 year ago

会不会是不同说话人的文件名有重复的呢？

dayu1979 commented 1 year ago

我改成多人，发现，确实不太容易收敛。这或许是vits的通病，我看很多训练多人的结果都是大佐音。而且音调不自然

大佬，我构建了多说话人数据集，修改了train.py和对应的配置文件。训练的模型发音混乱是为啥呀？说话人顺序不定，生成语音质量也差。

hildazzz commented 1 year ago

会不会是不同说话人的文件名有重复的呢？

没有哦，路径都是不同的，说话人索引也分配好了的

hildazzz commented 1 year ago

我改成多人，发现，确实不太容易收敛。这或许是vits的通病，我看很多训练多人的结果都是大佐音。而且音调不自然

大佬，我构建了多说话人数据集，修改了train.py和对应的配置文件。训练的模型发音混乱是为啥呀？说话人顺序不定，生成语音质量也差。

应该要训练很多次。主要是我这边单人的语料太少，担心文本覆盖不到。

TinaChen95 commented 1 year ago

我改成多人，发现，确实不太容易收敛。这或许是vits的通病，我看很多训练多人的结果都是大佐音。而且音调不自然

大佬，我构建了多说话人数据集，修改了train.py和对应的配置文件。训练的模型发音混乱是为啥呀？说话人顺序不定，生成语音质量也差。

请问什么是大佐音呀？哪里可以听一下样例呢？