Plachtaa / VALL-E-X

An open source implementation of Microsoft's VALL-E X zero-shot TTS model. Demo is available in https://plachtaa.github.io
MIT License
7.42k stars 747 forks source link

生成的音频是杂音 #149

Open yangyi-hup opened 7 months ago

yangyi-hup commented 7 months ago

你好: 我在按照说明文中的基本使用方法,使用下载的预训练模型直接生成时遇到了问题:生成的是空白杂声音频。 运行python -X utf8 launch-ui.py进入用户交互界面生成的音频同样如此。 但是使用您提供的在线演示链接打开进行生成的结果却是正常的,不明白哪里出了问题? (vallex_checkpoint.pt和vocos模型均在指定链接下载。)

kill136 commented 6 months ago

是的 ,中文声音有很大问题,杂音太多了

hkzbiyx commented 5 months ago

@yangyi-hup 可能是背景噪声的问题,这个模型会尝试保留音乐、环境噪声等声音。要干净没杂音的声音才能生成的比较好。可以分享一下你用来生成的音频让我测试一下看看问题在哪。

Vic1025 commented 3 months ago

我即使输入和输出都是英文,也出现了这个问题