Open imyellow opened 3 months ago
用one-shot配合webui里面的无参考文本推理即可
用one-shot配合webui里面的无参考文本推理即可
刘悦大佬,one-shot是啥
用one-shot配合webui里面的无参考文本推理即可
刘悦大佬,one-shot是啥
就是用GPT-SoVITS的底膜直接推理,不用训练,完全根据参考音频的音色来克隆声音,就是one-shot,感觉非常强
用one-shot配合webui里面的无参考文本推理即可
刘悦大佬,one-shot是啥
就是用GPT-SoVITS的底膜直接推理,不用训练,完全根据参考音频的音色来克隆声音,就是one-shot,感觉非常强
这种方法是可以,但几乎丧失原声音的所有语气特征,除了男女性别可以区分外,其他的部分与原语音并不像,比较可行的方案是用谐音进行训练。
参考VITS-Fast-FineTuning 这个仓库实现了TTS音色转换,也有详细的云端炼丹教程(README.md)和本地炼丹/推理教程(仓库的LOCAL.md)
原声是广东话,第一步打标就没法打了,有没有类似xtts那样但不直接TTS生成语音,而是上传两条音频,把右边的音色换为左边的