关于训练步数 - Githubissues

hello-xiaow commented 1 year ago

感谢作者推出的针对中文的vits代码，我使用标贝女生数据集加一个目标人数据训练模型，目标人大概30分钟，以32的批次跑了480k步，不论是标贝女生还是自定义的目标人，效果很一般，感觉不太自然，而且有些发音不太准确。请问作者的训练细节是什么呢，比如使用批次大小多少，在训练到多少步，合成效果比较好呢？

AlexandaJerry commented 1 year ago

这种情况应该是走多人训练，或者单独训练一个人的模型。您的批次和步数没有任何问题，主要因为仓库里的代码是单人代码，多个人的音色会互相冲突，录音质量好的话一般10k步之后效果就可以了。

hello-xiaow commented 1 year ago

这种情况应该是走多人训练，或者单独训练一个人的模型。您的批次和步数没有任何问题，主要因为仓库里的代码是单人代码，多个人的音色会互相冲突，录音质量好的话一般10k步之后效果就可以了。上面忘记说了我用的就是多说话人的那个版本我有注意到项目中有两个中文clearn 作者选用的是chinese_cleaners1，也就是转化为拼音，没有转化为对应音素我在想这里有什么讲究不因为我之前跑过adaspeech的项目，一般都是还需要一级拼音到音素的转换

AlexandaJerry commented 1 year ago

这种情况应该是走多人训练，或者单独训练一个人的模型。您的批次和步数没有任何问题，主要因为仓库里的代码是单人代码，多个人的音色会互相冲突，录音质量好的话一般10k步之后效果就可以了。上面忘记说了我用的就是多说话人的那个版本我有注意到项目中有两个中文clearn 作者选用的是chinese_cleaners1，也就是转化为拼音，没有转化为对应音素我在想这里有什么讲究不因为我之前跑过adaspeech的项目，一般都是还需要一级拼音到音素的转换

感谢回复，转为拼音和音素应该都是可以的，我预计差别不会太大。拼音本身也是对底层音位的记录，当然以音素作为记录应该是更准确的单位，因为音素是不可分割的最小语音单位。多说话人版本我之前没有认真研究过，主要是由另一位github用户完成并pr进来的，所以多人训练的流程和性能我不是特别清楚，感谢你的反馈。

hello-xiaow commented 1 year ago

好的非常感谢你的解答！

AlexandaJerry / vits-mandarin-biaobei

关于训练步数 #6