[BUG:WebUI] 生成的spk和参考音频不符

lenML / ChatTTS-Forge

🍦 ChatTTS-Forge is a project developed around TTS generation model, implementing an API Server and a Gradio-based WebUI.

GNU Affero General Public License v3.0

650 stars 82 forks source link

Closed tuxiaoseng closed 3 weeks ago

tuxiaoseng commented 1 month ago

26d9b0edcf15b074d36c31a0f226769b60a26676

3.10.8

2.3.1

linux

No response

tiandao.spkv1.json 带有参考音频的spk测试声音发现胡言论语，音色不匹配 text：chat T T S 是一款强大的对话式文本转语音模型。它有中英混读和多说话人的能力。参考音频：

正常

异常

No response

zhzLuke96 commented 1 month ago

感谢反馈

这个问题有点复杂

建议首先，你看看你本地的 gradio 版本是否是最新的，尝试更新一下gradio版本其次，我给你修复了一个 spk 文件，你可以参考这个再调试下看看 tmpjd0wdkxi.spkv1.json

如果还有问题的话继续提供信息，这一块代码刚加，测试还不太完善

tuxiaoseng commented 1 month ago

楼上给我的修复spk确实没有问题了，gradio升级到最新的4.41，使用了带句号的参考文本，在webui下新建spk还是有这样的问题，版本用的是8月11日更新后的

zhzLuke96 commented 1 month ago

还需要更多信息，不好定位是什么问题

taindao_0001.mp4 这个文件应该是转码过的吧？源文件是 mp3/wav/flac 之类的？可以提供一份你用来创建的spk的音频源文件吗？我怀疑有可能是处理不同音频文件的时候有什么bug，得有你的原文件才好排查

zhzLuke96 commented 1 month ago

zhzLuke96 commented 3 weeks ago

fixed 1047efad4192b949e25cfb7f8a8bb88282a79518

应该在这个 commit 修复了