lenML / Speech-AI-Forge

🍦 Speech-AI-Forge is a project developed around TTS generation model, implementing an API Server and a Gradio-based WebUI.
https://huggingface.co/spaces/lenML/ChatTTS-Forge
GNU Affero General Public License v3.0
710 stars 87 forks source link

[BUG:WebUI] 上传参考音频输出的音色不匹配并且全是杂音,前摇也很长 #158

Closed nulinuli closed 1 week ago

nulinuli commented 2 weeks ago

确认清单

Forge Commit 或者 Tag

e071063

Python 版本

3.10

PyTorch 版本

2.3.1+cu118

操作系统信息

ubuntu22.04

浏览器信息

谷歌

BUG 描述

如标题所示,音频文件格式是wav

复现步骤

上传音频文件

期望结果

获取正确结果

实际结果

1727063680059 这是音频文件 audio.zip

错误信息

No response

zhzLuke96 commented 1 week ago

没有你的输入音频,没能稳定复现出来,如果没有报错的话,估计还是模型的'特性"或者说能力不够。 建议参考文本尽量不要有特殊token,然后重试的时候可以试试调整采样配置,设置随机的推理种子

可以提供输入音频吗,如果不方便提供输入音频的话,可以提供一些音频文件信息方便排查 比如 音频采样率 音频编码格式 之类的

nulinuli commented 1 week ago

没有你的输入音频,没能稳定复现出来,如果没有报错的话,估计还是模型的'特性"或者说能力不够。 建议参考文本尽量不要有特殊token,然后重试的时候可以试试调整采样配置,设置随机的推理种子

可以提供输入音频吗,如果不方便提供输入音频的话,可以提供一些音频文件信息方便排查 比如 音频采样率 音频编码格式 之类的

参考音频.zip 你好这是参考音频

zhzLuke96 commented 1 week ago

fixed 8bd11c82ecff18503644baffbea3f65a4fa79096