有没有什么办法用广东话的原声训练来推理生成普通话的语音？

RVC-Boss / GPT-SoVITS

1 min voice data can also be used to train a good TTS model! (few shot voice cloning)

MIT License

32.73k stars 3.77k forks source link

Open imyellow opened 3 months ago

imyellow commented 3 months ago

原声是广东话，第一步打标就没法打了，有没有类似xtts那样但不直接TTS生成语音，而是上传两条音频，把右边的音色换为左边的

v3ucn commented 3 months ago

用one-shot配合webui里面的无参考文本推理即可

1044690543 commented 3 months ago

用one-shot配合webui里面的无参考文本推理即可

刘悦大佬，one-shot是啥

v3ucn commented 3 months ago

用one-shot配合webui里面的无参考文本推理即可

刘悦大佬，one-shot是啥

就是用GPT-SoVITS的底膜直接推理，不用训练，完全根据参考音频的音色来克隆声音，就是one-shot，感觉非常强

anitman commented 3 months ago

用one-shot配合webui里面的无参考文本推理即可

刘悦大佬，one-shot是啥

就是用GPT-SoVITS的底膜直接推理，不用训练，完全根据参考音频的音色来克隆声音，就是one-shot，感觉非常强

这种方法是可以，但几乎丧失原声音的所有语气特征，除了男女性别可以区分外，其他的部分与原语音并不像，比较可行的方案是用谐音进行训练。

Separatee commented 3 months ago

参考VITS-Fast-FineTuning 这个仓库实现了TTS音色转换，也有详细的云端炼丹教程(README.md)和本地炼丹/推理教程(仓库的LOCAL.md)