[BUG:WebUI] 上传参考音频输出的音色不匹配并且全是杂音，前摇也很长

lenML / Speech-AI-Forge

🍦 Speech-AI-Forge is a project developed around TTS generation model, implementing an API Server and a Gradio-based WebUI.

https://huggingface.co/spaces/lenML/ChatTTS-Forge

GNU Affero General Public License v3.0

710 stars 87 forks source link

[BUG:WebUI] 上传参考音频输出的音色不匹配并且全是杂音，前摇也很长 #158

Closed nulinuli closed 1 week ago

nulinuli commented 2 weeks ago

确认清单

[X] 我已经阅读过 README.md 和 dependencies.md 文件
[X] 我已经确认之前没有 issue 或 discussion 涉及此 BUG
[X] 我已经确认问题发生在最新代码或稳定版本中

Forge Commit 或者 Tag

e071063

Python 版本

3.10

PyTorch 版本

2.3.1+cu118

操作系统信息

ubuntu22.04

浏览器信息

谷歌

BUG 描述

如标题所示，音频文件格式是wav

复现步骤

上传音频文件

期望结果

获取正确结果

实际结果

1727063680059 这是音频文件 audio.zip

错误信息

No response

zhzLuke96 commented 1 week ago

没有你的输入音频，没能稳定复现出来，如果没有报错的话，估计还是模型的'特性"或者说能力不够。建议参考文本尽量不要有特殊token，然后重试的时候可以试试调整采样配置，设置随机的推理种子

可以提供输入音频吗，如果不方便提供输入音频的话，可以提供一些音频文件信息方便排查比如音频采样率音频编码格式之类的

nulinuli commented 1 week ago

没有你的输入音频，没能稳定复现出来，如果没有报错的话，估计还是模型的'特性"或者说能力不够。建议参考文本尽量不要有特殊token，然后重试的时候可以试试调整采样配置，设置随机的推理种子

可以提供输入音频吗，如果不方便提供输入音频的话，可以提供一些音频文件信息方便排查比如音频采样率音频编码格式之类的

参考音频.zip 你好这是参考音频

zhzLuke96 commented 1 week ago

fixed 8bd11c82ecff18503644baffbea3f65a4fa79096