[ISSUE] 微调效果问题 - Githubissues

lenML / Speech-AI-Forge

🍦 Speech-AI-Forge is a project developed around TTS generation model, implementing an API Server and a Gradio-based WebUI.

https://huggingface.co/spaces/lenML/ChatTTS-Forge

GNU Affero General Public License v3.0

710 stars 87 forks source link

[ISSUE] 微调效果问题 #73

Closed wangqun888 closed 3 months ago

wangqun888 commented 3 months ago

阅读 README.md 和 dependencies.md

[X] 我已经阅读过 README.md 和 dependencies.md 文件

检索 issue 和 discussion

[X] 我已经确认之前没有 issue 或 discussion 涉及此 BUG

检查 Forge 版本

[X] 我已经确认问题发生在最新代码或稳定版本中

你的issues

我使用了大概4分钟的wav语音，切分了45段每段大概5-6秒进行了微调，但是效果感觉不太好。使用的微调参数如下图

loss一直不收敛，不知道是哪里出了问题，还请大神帮忙看看。谢谢～

zhzLuke96 commented 3 months ago

因为官方没有完全开源权重，所以这个微调脚本只是属于实验性质的目前无法clone，只能 微调 embedding

还有，其实是在收敛的，text_loss 降了（mse audio 因为没有 encoder 权重所以几乎随机）

zhzLuke96 commented 3 months ago

可能相关的issues https://github.com/2noise/ChatTTS/issues/369

wangqun888 commented 3 months ago

谢谢大神😊