Open endlllll opened 1 year ago
我使用 4.0 训练了 10k 和 100k 后进行了对比,转换出来的音频没有任何差异,与目标音色差距也非常大。
训练过程均使用的默认配置与默认的预训练模型,没有做任何改动。
这过拟合了吧,数据太少或者检查一下数据集是否都是相同音色的
我用了 2 个小时时长的说话干声训练的,理论上数据量足够了,数据集也都是相同音色的 同样的数据集使用 RVC 训练过一次,效果还 OK
音频切片时间小于2秒的会被直接忽略。反正你这个验证集loss肯定是有问题的
自己推理点歌曲试试吧,以听感为主
我使用 4.0 训练了 10k 和 100k 后进行了对比,转换出来的音频没有任何差异,与目标音色差距也非常大。
训练过程均使用的默认配置与默认的预训练模型,没有做任何改动。