【初尝试】使用Tacotron2替换Tacotron模型！！ - Githubissues

babysor / MockingBird

🚀AI拟声: 5秒内克隆您的声音并生成任意语音内容 Clone a voice in 5 seconds to generate arbitrary speech in real-time

Other

34.89k stars 5.18k forks source link

【初尝试】使用Tacotron2替换Tacotron模型！！ #244

Open Rita-ritally opened 2 years ago

Rita-ritally commented 2 years ago

由于之前一直关注Real-Time-Voice-Cloning(https://github.com/CorentinJ/Real-Time-Voice-Cloning) 这个项目，这次Mocking Bird项目没有使用Tacotron2太令人可惜了。所以自己斗胆将Tacotron2迁到这个系统中，比较粗糙但是可以成功训练和推理。

模型还在训练中，有效果及时来这里更新！代码肯定漏洞百出.....求各位大佬指点！

babysor commented 2 years ago

需要更多协助可以随时联系我

Rita-ritally commented 2 years ago

@babysor 大佬您好，现在一直在这个阶段，loss下降特别慢。。。。我的代码在https://github.com/Rita-ritally/Tacotron2-CN-tts 这个仓库中，希望能得到您的指导～

Rita-ritally commented 2 years ago

现在训练了46000步，平均loss在0.74，从测试结果中可以看出已经收敛，且合成的mel谱纹路清晰。但是正式测试的时候发现使用aishell+aidatadang_200zh训练46000步的合成器无法正确合成语音，mel谱很模糊。还没有只使用aishell训练合成器8w步合成的效果好

截屏2021-12-03 上午10 25 23

截屏2021-12-03 上午10 26 15

现在还在继续训练，不知道是不是训练步数少的问题。。。。。。

babysor commented 2 years ago

现在效果会好一些了吗？我本来也打算fork个分支试试的，你这边可以fork试一下吗，成为contributor？

Rita-ritally commented 2 years ago

现在效果会好一些了吗？我本来也打算fork个分支试试的，你这边可以fork试一下吗，成为contributor？

在我的实验中使用aishell3数据集训练的效果比aidatatang效果好，由于aishell3男性说话人语料较小，发现无法正确合成男性说话人的声音。所以我将train和test的所有语料整合在一起训练，可以缓解这个问题。

在我的仓库中只有synthesizer的code是有变化的，vocoder中加入了melgan和waveglow声码器，但是效果还不是很好。

如果可以的话，非常荣幸能成为这个项目的contributor！！！！

facenl commented 2 years ago

大佬牛啊！！！