转换后音色跟着 source 而不是 target

OlaWod / FreeVC

FreeVC: Towards High-Quality Text-Free One-Shot Voice Conversion

MIT License

603 stars 111 forks source link

Open Blakey-Gavin opened 1 month ago

Blakey-Gavin commented 1 month ago

您好，我将 ssl model 更换为中文版 wav2vec2 和 hubert，然后进行了 retrain 和 fine-tune，但不管哪种方式，转换出来的结果都是音色和 source 相似而不是 target。

请问可能的原因是什么，我应该怎么解决这个问题？

zxj329 commented 1 month ago

我也是，而且我还用了很多数据

Blakey-Gavin commented 1 month ago

我数据也有七八十小时。你找到原因了吗？我查了很久，不知道问题出在哪儿

zxj329 commented 1 month ago

我的数据有几千个小时都不行，还在找

Blakey-Gavin commented 1 month ago

好的，你要是找到原因了方便告知一下吗？非常感谢！

zxj329 commented 1 month ago

你看下你的mel-loss是多少，有没有下降

Blakey-Gavin commented 1 month ago

整体上看是下降的

zxj329 commented 1 month ago

我现在在做实验，你的数据是否每个人的声音数目差不多嘛？还是说有些人数据很多

Blakey-Gavin commented 1 month ago

这个我之前倒是没统计。统计出来如下：小于 100：non 100-200：10 speakers 200-300：30 speakers 300-400：34 speakers 400-500：119 speakers 500-600：16 speakers 大于 600: non

utterances 数范围：139-506

zxj329 commented 1 month ago

你试试每个speaker在数目差不多呢

Blakey-Gavin commented 1 month ago

嗯嗯，等有时间的吧，现在还需要忙其它事情。