[ISSUE] OpenVoice克隆的音色的文件需要以什么方式才能导入进来。这块目前有实现吗？

lenML / Speech-AI-Forge

🍦 Speech-AI-Forge is a project developed around TTS generation model, implementing an API Server and a Gradio-based WebUI.

https://huggingface.co/spaces/lenML/ChatTTS-Forge

GNU Affero General Public License v3.0

711 stars 87 forks source link

[ISSUE] OpenVoice克隆的音色的文件需要以什么方式才能导入进来。这块目前有实现吗？ #72

Open wenyangchou opened 3 months ago

wenyangchou commented 3 months ago

阅读 README.md 和 dependencies.md

[X] 我已经阅读过 README.md 和 dependencies.md 文件

检索 issue 和 discussion

[X] 我已经确认之前没有 issue 或 discussion 涉及此 BUG

检查 Forge 版本

[X] 我已经确认问题发生在最新代码或稳定版本中

你的issues

OpenVoice克隆的音色的文件需要以什么方式才能导入进来。这块目前有实现吗？

如果没有，有计划加入这个功能吗或者接受pr？

zhzLuke96 commented 3 months ago

现在没有关于 open voice 的支持，之前也没计划接入 open voice，原因主要是 open voice 输出质量一般，中文支持也不太好，最重要的是 chattts 本身就可以做 finetune/clone 的，目测质量比 open voice 高，只不过现在官方还没开源出来

想提 pr 的话当然接受~ 如果想加的话，建议写成类似 adjust 和 enhancer 一样的后处理模块

zhzLuke96 commented 3 months ago

可能相关的issues https://github.com/2noise/ChatTTS/issues/369

qazwsx921028 commented 2 months ago

adjust 和 enhancer 一样的后处理模块

大佬，如果ChatTTS-OpenVoice克隆的音色特征模型的话，我采用这个后处理，但是音色维度转换后从复刻生成se.pth: torch.Size([1, 256, 1])，转换为chattts可以使用的torch.Size([768])，但是遇到一个问题时，我复刻时，输入的音频是女生声音，转换维度后，输出的声音是男生声音，或则输入的音频是男生声音，转换维度后，输出的声音是女生声音，大佬有遇到这个问题吗？不知道大佬有没有好的解决思路呀非常感谢

zhzLuke96 commented 2 months ago

adjust 和 enhancer 一样的后处理模块

大佬，如果ChatTTS-OpenVoice克隆的音色特征模型的话，我采用这个后处理，但是音色维度转换后从复刻生成se.pth: torch.Size([1, 256, 1])，转换为chattts可以使用的torch.Size([768])，但是遇到一个问题时，我复刻时，输入的音频是女生声音，转换维度后，输出的声音是男生声音，或则输入的音频是男生声音，转换维度后，输出的声音是女生声音，大佬有遇到这个问题吗？不知道大佬有没有好的解决思路呀非常感谢

额，感觉你弄混了吧？这是两个模型，是两个不同的向量空间，肯定是不能互相转换的并且，open voice其实和chattts没有任何关系，甚至和tts没关系，你完全可以用它处理非tts生成的音频

还有更多想问的请发到 https://github.com/lenML/ChatTTS-Forge/discussions 里，谢谢