AlexandaJerry / vits-mandarin-biaobei

application of vits on mandarin tts
MIT License
120 stars 104 forks source link

关于训练步数 #6

Open hello-xiaow opened 1 year ago

hello-xiaow commented 1 year ago

感谢作者推出的针对中文的vits代码,我使用标贝女生数据集加一个目标人数据训练模型,目标人大概30分钟,以32的批次跑了480k步,不论是标贝女生还是自定义的目标人,效果很一般,感觉不太自然,而且有些发音不太准确。 请问作者的训练细节是什么呢,比如使用批次大小多少,在训练到多少步,合成效果比较好呢?

AlexandaJerry commented 1 year ago

这种情况应该是走多人训练,或者单独训练一个人的模型。您的批次和步数没有任何问题,主要因为仓库里的代码是单人代码,多个人的音色会互相冲突,录音质量好的话一般10k步之后效果就可以了。

hello-xiaow commented 1 year ago

这种情况应该是走多人训练,或者单独训练一个人的模型。您的批次和步数没有任何问题,主要因为仓库里的代码是单人代码,多个人的音色会互相冲突,录音质量好的话一般10k步之后效果就可以了。 上面忘记说了 我用的就是多说话人的那个版本 我有注意到项目中有两个中文clearn 作者选用的是chinese_cleaners1,也就是转化为拼音,没有转化为对应音素 我在想这里有什么讲究不 因为我之前跑过adaspeech的项目,一般都是还需要一级拼音到音素的转换

AlexandaJerry commented 1 year ago

这种情况应该是走多人训练,或者单独训练一个人的模型。您的批次和步数没有任何问题,主要因为仓库里的代码是单人代码,多个人的音色会互相冲突,录音质量好的话一般10k步之后效果就可以了。 上面忘记说了 我用的就是多说话人的那个版本 我有注意到项目中有两个中文clearn 作者选用的是chinese_cleaners1,也就是转化为拼音,没有转化为对应音素 我在想这里有什么讲究不 因为我之前跑过adaspeech的项目,一般都是还需要一级拼音到音素的转换

感谢回复,转为拼音和音素应该都是可以的,我预计差别不会太大。拼音本身也是对底层音位的记录,当然以音素作为记录应该是更准确的单位,因为音素是不可分割的最小语音单位。多说话人版本我之前没有认真研究过,主要是由另一位github用户完成并pr进来的,所以多人训练的流程和性能我不是特别清楚,感谢你的反馈。

hello-xiaow commented 1 year ago

好的 非常感谢你的解答!