生成的音频是杂音

Plachtaa / VALL-E-X

An open source implementation of Microsoft's VALL-E X zero-shot TTS model. Demo is available in https://plachtaa.github.io

MIT License

7.42k stars 747 forks source link

生成的音频是杂音 #149

Open yangyi-hup opened 7 months ago

yangyi-hup commented 7 months ago

你好：我在按照说明文中的基本使用方法，使用下载的预训练模型直接生成时遇到了问题：生成的是空白杂声音频。运行python -X utf8 launch-ui.py进入用户交互界面生成的音频同样如此。但是使用您提供的在线演示链接打开进行生成的结果却是正常的，不明白哪里出了问题？（vallex_checkpoint.pt和vocos模型均在指定链接下载。）

kill136 commented 6 months ago

是的，中文声音有很大问题，杂音太多了

hkzbiyx commented 5 months ago

@yangyi-hup 可能是背景噪声的问题，这个模型会尝试保留音乐、环境噪声等声音。要干净没杂音的声音才能生成的比较好。可以分享一下你用来生成的音频让我测试一下看看问题在哪。

Vic1025 commented 3 months ago

我即使输入和输出都是英文，也出现了这个问题