lenML / Speech-AI-Forge

🍦 Speech-AI-Forge is a project developed around TTS generation model, implementing an API Server and a Gradio-based WebUI.
https://huggingface.co/spaces/lenML/ChatTTS-Forge
GNU Affero General Public License v3.0
711 stars 87 forks source link

[ISSUE] OpenVoice克隆的音色的文件需要以什么方式才能导入进来。这块目前有实现吗? #72

Open wenyangchou opened 3 months ago

wenyangchou commented 3 months ago

阅读 README.md 和 dependencies.md

检索 issue 和 discussion

检查 Forge 版本

你的issues

OpenVoice克隆的音色的文件需要以什么方式才能导入进来。这块目前有实现吗?

如果没有,有计划加入这个功能吗 或者接受pr?

zhzLuke96 commented 3 months ago

现在没有关于 open voice 的支持,之前也没计划接入 open voice,原因主要是 open voice 输出质量一般,中文支持也不太好,最重要的是 chattts 本身就可以做 finetune/clone 的,目测质量比 open voice 高,只不过现在官方还没开源出来

想提 pr 的话当然接受~ 如果想加的话,建议写成类似 adjust 和 enhancer 一样的后处理模块

zhzLuke96 commented 3 months ago

可能相关的issues https://github.com/2noise/ChatTTS/issues/369

qazwsx921028 commented 2 months ago

adjust 和 enhancer 一样的后处理模块

大佬,如果ChatTTS-OpenVoice克隆的音色特征模型的话,我采用这个后处理,但是音色维度转换后从复刻生成se.pth: torch.Size([1, 256, 1]),转换为chattts可以使用的torch.Size([768]),但是遇到一个问题时,我复刻时,输入的音频是女生声音,转换维度后,输出的声音是男生声音,或则输入的音频是男生声音,转换维度后,输出的声音是女生声音,大佬有遇到这个问题吗?不知道大佬有没有好的解决思路呀 非常感谢

zhzLuke96 commented 2 months ago

adjust 和 enhancer 一样的后处理模块

大佬,如果ChatTTS-OpenVoice克隆的音色特征模型的话,我采用这个后处理,但是音色维度转换后从复刻生成se.pth: torch.Size([1, 256, 1]),转换为chattts可以使用的torch.Size([768]),但是遇到一个问题时,我复刻时,输入的音频是女生声音,转换维度后,输出的声音是男生声音,或则输入的音频是男生声音,转换维度后,输出的声音是女生声音,大佬有遇到这个问题吗?不知道大佬有没有好的解决思路呀 非常感谢

额,感觉你弄混了吧?这是两个模型,是两个不同的向量空间,肯定是不能互相转换的 并且,open voice其实和chattts没有任何关系,甚至和tts没关系,你完全可以用它处理非tts生成的音频

还有更多想问的请发到 https://github.com/lenML/ChatTTS-Forge/discussions 里,谢谢