babysor / MockingBird

🚀AI拟声: 5秒内克隆您的声音并生成任意语音内容 Clone a voice in 5 seconds to generate arbitrary speech in real-time
Other
34.89k stars 5.18k forks source link

【初尝试】使用Tacotron2替换Tacotron模型!! #244

Open Rita-ritally opened 2 years ago

Rita-ritally commented 2 years ago

由于之前一直关注Real-Time-Voice-Cloning(https://github.com/CorentinJ/Real-Time-Voice-Cloning) 这个项目,这次Mocking Bird项目没有使用Tacotron2太令人可惜了。所以自己斗胆将Tacotron2迁到这个系统中,比较粗糙但是可以成功训练和推理。 image

模型还在训练中,有效果及时来这里更新! 代码肯定漏洞百出.....求各位大佬指点!

babysor commented 2 years ago

需要更多协助可以随时联系我

Rita-ritally commented 2 years ago

image @babysor 大佬您好,现在一直在这个阶段,loss下降特别慢。。。。 我的代码在https://github.com/Rita-ritally/Tacotron2-CN-tts 这个仓库中,希望能得到您的指导~

Rita-ritally commented 2 years ago

现在训练了46000步,平均loss在0.74,从测试结果中可以看出已经收敛,且合成的mel谱纹路清晰。 IMG_0852 IMG_0853 但是正式测试的时候发现使用aishell+aidatadang_200zh训练46000步的合成器无法正确合成语音,mel谱很模糊。 还没有只使用aishell训练合成器8w步合成的效果好

截屏2021-12-03 上午10 25 23 截屏2021-12-03 上午10 26 15

现在还在继续训练,不知道是不是训练 步数少的问题。。。。。。

babysor commented 2 years ago

现在效果会好一些了吗?我本来也打算fork个分支试试的,你这边可以fork试一下吗,成为contributor?

Rita-ritally commented 2 years ago

现在效果会好一些了吗?我本来也打算fork个分支试试的,你这边可以fork试一下吗,成为contributor?

在我的实验中使用aishell3数据集训练的效果比aidatatang效果好,由于aishell3男性说话人语料较小,发现无法正确合成男性说话人的声音。所以我将train和test的所有语料整合在一起训练,可以缓解这个问题。

在我的仓库中只有synthesizer的code是有变化的,vocoder中加入了melgan和waveglow声码器,但是效果还不是很好。

如果可以的话,非常荣幸能成为这个项目的contributor!!!!

facenl commented 2 years ago

大佬牛啊!!!