babysor / MockingBird

🚀AI拟声: 5秒内克隆您的声音并生成任意语音内容 Clone a voice in 5 seconds to generate arbitrary speech in real-time
Other
34.45k stars 5.14k forks source link

克隆后的音频播放时,杂音很重 #883

Open DrewdropLife opened 1 year ago

DrewdropLife commented 1 year ago

合成后的杂音很重怎么处理

Env & To Reproduce[复现与环境] encoder: pretrained_bak_5805000 ppg_extractor:24epoch.pt ppg2mel:ppg2mel.yaml ppg2melbest_loss_step_322000.pth vocoder_hifigan_24k:hifigan_24k.pt config.json

用到的模型如上所示,我运行了run.py得到合成后的音频,播放时发现杂音非常大,合成的音色和给定的音色还算接近,如何处理掉杂音问题? 另外我从README的2.3中下载了社区提供的预训练合成器,但不知道这个模型要用在何处?只有运行toolbox时指定了这个模型,run.py不需要用到吗?

烦请解答,谢谢!

JupyterChu commented 1 year ago

我用的最新版的代码,未修改,encoder选pretrained,synthesizer选ferret_70k #245 ,vocoder选pretrained, 同样会有杂音以及吞字的情况