lenML / Speech-AI-Forge

🍦 Speech-AI-Forge is a project developed around TTS generation model, implementing an API Server and a Gradio-based WebUI.
https://huggingface.co/spaces/lenML/ChatTTS-Forge
GNU Affero General Public License v3.0
710 stars 87 forks source link

[ISSUE] 微调效果问题 #73

Closed wangqun888 closed 3 months ago

wangqun888 commented 3 months ago

阅读 README.md 和 dependencies.md

检索 issue 和 discussion

检查 Forge 版本

你的issues

我使用了大概4分钟的wav语音,切分了45段每段大概5-6秒进行了微调,但是效果感觉不太好。使用的微调参数如下图

image

loss一直不收敛,不知道是哪里出了问题,还请大神帮忙看看。谢谢~

zhzLuke96 commented 3 months ago

因为官方没有完全开源权重,所以这个微调脚本只是属于实验性质的 目前无法clone,只能 微调 embedding

还有,其实是在收敛的,text_loss 降了 (mse audio 因为没有 encoder 权重所以几乎随机)

zhzLuke96 commented 3 months ago

可能相关的issues https://github.com/2noise/ChatTTS/issues/369

wangqun888 commented 3 months ago

谢谢大神😊