Open liubin3702 opened 1 year ago
我用中文数据200个speaker训练了800k steps 后,用不同的source 转为同一个target 音色差距较大,音色基本是跟着source类似,是训练程度还不够嘛,能继续做什么改进呢?
你好,我也遇到了和您类似的情况,转换后的音色基本是跟着 source 走的。请问您后来发现是什么原因,解决了吗?
而且,ssl model 我替换为了中文版的 wav2vec2/hubert,不管是 retrain 还是 fine-tune 结果都是这样。
我用中文数据200个speaker训练了800k steps 后,用不同的source 转为同一个target 音色差距较大,音色基本是跟着source类似,是训练程度还不够嘛,能继续做什么改进呢?