RVC-Boss / GPT-SoVITS

1 min voice data can also be used to train a good TTS model! (few shot voice cloning)
MIT License
32.73k stars 3.77k forks source link

有没有什么办法用广东话的原声训练来推理生成普通话的语音? #1127

Open imyellow opened 3 months ago

imyellow commented 3 months ago

原声是广东话,第一步打标就没法打了,有没有类似xtts那样但不直接TTS生成语音,而是上传两条音频,把右边的音色换为左边的

v3ucn commented 3 months ago

用one-shot配合webui里面的无参考文本推理即可

1044690543 commented 3 months ago

用one-shot配合webui里面的无参考文本推理即可

刘悦大佬,one-shot是啥

v3ucn commented 3 months ago

用one-shot配合webui里面的无参考文本推理即可

刘悦大佬,one-shot是啥

就是用GPT-SoVITS的底膜直接推理,不用训练,完全根据参考音频的音色来克隆声音,就是one-shot,感觉非常强

anitman commented 3 months ago

用one-shot配合webui里面的无参考文本推理即可

刘悦大佬,one-shot是啥

就是用GPT-SoVITS的底膜直接推理,不用训练,完全根据参考音频的音色来克隆声音,就是one-shot,感觉非常强

这种方法是可以,但几乎丧失原声音的所有语气特征,除了男女性别可以区分外,其他的部分与原语音并不像,比较可行的方案是用谐音进行训练。

Separatee commented 3 months ago

参考VITS-Fast-FineTuning 这个仓库实现了TTS音色转换,也有详细的云端炼丹教程(README.md)和本地炼丹/推理教程(仓库的LOCAL.md)