微调sovits模型n_speaker的问题

yc930401 commented 2 hours ago

作者您好呀，我想尝试微调一个大概几千人音色的sovits模型。前面做了5人和50人音色实验，在大概100-200个epoch就能把训练集覆盖到的音色学得很像了。但是我目前我在训练800+人音色的sovits模型，到了700个epoch，训练集的音色都还没有学得很像。不清楚是epoch还要继续增加的原因，还是s2_train中有个参数n_speakers=300这个的原因。想请教一下，是不是底模用了300人的音色训练呢？如果我想用更多人的音色，是直接改s2_train.json中的n_speakers再微调就管用嘛？还是需要重新用vits代码 https://github.com/jaywalnut310/vits 训练一个底模呢？或者用别的什么代码嘛？

XXXXRT666 commented 2 hours ago

要是我没记错的话,n_speakers没有任何用

XXXXRT666 commented 2 hours ago

用vits的代码必定报错,用这个仓库的代码,wiki里有写怎么做

RVC-Boss / GPT-SoVITS

微调sovits模型n_speaker的问题 #1787