lenML / ChatTTS-Forge

🍦 ChatTTS-Forge is a project developed around TTS generation model, implementing an API Server and a Gradio-based WebUI.
https://huggingface.co/spaces/lenML/ChatTTS-Forge
GNU Affero General Public License v3.0
650 stars 82 forks source link

[BUG:WebUI] 生成的spk和参考音频不符 #133

Closed tuxiaoseng closed 3 weeks ago

tuxiaoseng commented 1 month ago

确认清单

Forge Commit 或者 Tag

26d9b0edcf15b074d36c31a0f226769b60a26676

Python 版本

3.10.8

PyTorch 版本

2.3.1

操作系统信息

linux

浏览器信息

No response

BUG 描述

tiandao.spkv1.json 带有参考音频的spk测试声音发现胡言论语,音色不匹配 text:chat T T S 是一款强大的对话式文本转语音模型。它有中英混读和多说话人的能力。 参考音频:

https://github.com/user-attachments/assets/66edace5-edea-4d7d-817c-d2dde65db892

复现步骤

微信图片_20240810172551

期望结果

正常

实际结果

异常

错误信息

No response

zhzLuke96 commented 1 month ago

感谢反馈

这个问题有点复杂

建议 首先,你看看你本地的 gradio 版本是否是最新的,尝试更新一下gradio版本 其次,我给你修复了一个 spk 文件,你可以参考这个再调试下看看 tmpjd0wdkxi.spkv1.json

如果还有问题的话继续提供信息,这一块代码刚加,测试还不太完善

tuxiaoseng commented 1 month ago

楼上给我的修复spk确实没有问题了,gradio升级到最新的4.41,使用了带句号的参考文本,在webui下新建spk还是有这样的问题,版本用的是8月11日更新后的

zhzLuke96 commented 1 month ago

还需要更多信息,不好定位是什么问题

taindao_0001.mp4 这个文件应该是转码过的吧?源文件是 mp3/wav/flac 之类的? 可以提供一份你用来创建的spk的音频源文件吗?我怀疑有可能是处理不同音频文件的时候有什么bug,得有你的原文件才好排查

zhzLuke96 commented 1 month ago

可能相关 https://github.com/2noise/ChatTTS/issues/648

zhzLuke96 commented 3 weeks ago

fixed 1047efad4192b949e25cfb7f8a8bb88282a79518

应该在这个 commit 修复了