Open yc930401 opened 2 hours ago
作者您好呀,我想尝试微调一个大概几千人音色的sovits模型。前面做了5人和50人音色实验,在大概100-200个epoch就能把训练集覆盖到的音色学得很像了。但是我目前我在训练800+人音色的sovits模型,到了700个epoch,训练集的音色都还没有学得很像。不清楚是epoch还要继续增加的原因,还是s2_train中有个参数n_speakers=300这个的原因。想请教一下,是不是底模用了300人的音色训练呢?如果我想用更多人的音色,是直接改s2_train.json中的n_speakers再微调就管用嘛?还是需要重新用vits代码 https://github.com/jaywalnut310/vits 训练一个底模呢?或者用别的什么代码嘛?
要是我没记错的话,n_speakers没有任何用
用vits的代码必定报错,用这个仓库的代码,wiki里有写怎么做
作者您好呀,我想尝试微调一个大概几千人音色的sovits模型。前面做了5人和50人音色实验,在大概100-200个epoch就能把训练集覆盖到的音色学得很像了。但是我目前我在训练800+人音色的sovits模型,到了700个epoch,训练集的音色都还没有学得很像。不清楚是epoch还要继续增加的原因,还是s2_train中有个参数n_speakers=300这个的原因。想请教一下,是不是底模用了300人的音色训练呢?如果我想用更多人的音色,是直接改s2_train.json中的n_speakers再微调就管用嘛?还是需要重新用vits代码 https://github.com/jaywalnut310/vits 训练一个底模呢?或者用别的什么代码嘛?