babysor / MockingBird

🚀AI拟声: 5秒内克隆您的声音并生成任意语音内容 Clone a voice in 5 seconds to generate arbitrary speech in real-time
Other
35.42k stars 5.21k forks source link

第二次贡献模型,同时谈谈相关经验。 #245

Open ferretgeek opened 3 years ago

ferretgeek commented 3 years ago

先上图再说 attention_step_70000_sample_1 step-70000-mel-spectrogram_sample_1

aidatatang_200zh以及aishell3两个数据集,混合训练,batch size 96。 在训练40K就可以达到0.18了,不过我觉得还是多训练一会好, 所以分享的这个是70K、0.2的模型。

链接:https://pan.baidu.com/s/17yWmyq6_rh5MbCOwE3hH2Q 提取码:7777

接下来为个人训练模型经验,可不看。

443127316 commented 2 years ago

非常感谢提供模型,刚刚尝试了一下,体验如下:

1.整体效果较Readme中的第一个模型(三个数据集混合),还是有一些差距; 2.电音有点大,我在测“北京天气很不错”的时候,“错”字会出现回声; 3.在切换了录音人的时候,发现生成的是一样的音色,这一点有点不太理解(替换其他模型的时候,不会出现这样的问题) 4.对于batch size 深以为然,我用的是batch 12,三个数据集混合,到133k step,依然是电音,效果很差,准备重新训练。

再次感谢,希望大家一起交流,训练出好的模型

ferretgeek commented 2 years ago

非常感谢提供模型,刚刚尝试了一下,体验如下:

1.整体效果较Readme中的第一个模型(三个数据集混合),还是有一些差距; 2.电音有点大,我在测“北京天气很不错”的时候,“错”字会出现回声; 3.在切换了录音人的时候,发现生成的是一样的音色,这一点有点不太理解(替换其他模型的时候,不会出现这样的问题) 4.对于batch size 深以为然,我用的是batch 12,三个数据集混合,到133k step,依然是电音,效果很差,准备重新训练。

再次感谢,希望大家一起交流,训练出好的模型

个人之前用220K的aishell3单数据集克隆真实的女生语音,测试时就很不错。这个只跑了70K应该是比较差的,虽然loss值好看。但我并没有实际测试过这个70K的,因为无法生成有效的游戏角色语音克隆,故就放弃。

delcompan commented 2 years ago

试用了几个现有的分享,能正常发音就很不错了,大多数情况下,要么是电音,要么就是部分是杂音,更不用说和原始声音相似了,距离克隆声音还有一段路,无奈自己的机器不行,没法自己训练

ferretgeek commented 2 years ago

试用了几个现有的分享,能正常发音就很不错了,大多数情况下,要么是电音,要么就是部分是杂音,更不用说和原始声音相似了,距离克隆声音还有一段路,无奈自己的机器不行,没法自己训练

这个主要分享经验,如果你要相对好的结果,可以看我之前分享的160K aishell3,往后翻翻能找到

delcompan commented 2 years ago

@ferretgeek 非常感谢各位的无私分享

wrk226 commented 2 years ago

其实iteration不是一个很好的指标,bs(batch size)=12的时候一个iter模型能看到12个数据,而bs=96的时候一个iter模型能看到96个数据。所以同样10k的模型,bs=12和96是不具备太大的可比性的。非要比的话bs=96的40k和bs=12的320k是可以比一比的。

babysor commented 2 years ago

置顶了哦

Kristen-PRC commented 2 years ago

image qiu'jiao求教,安装模型后运行出现Tacotron报错,已参考#37、#209均无法解决,烦请各位帮助,谢谢

gxground commented 2 years ago

想咨询一下楼主 BATCH SIZAE怎么调高 我感觉我的3080TI还能再冲一冲

ferretgeek commented 2 years ago

想咨询一下楼主 BATCH SIZAE怎么调高 我感觉我的3080TI还能再冲一冲

訓練合成器時:將 synthesizer/hparams.py中的batch_size參數調小

//調整前 tts_schedule = [(2, 1e-3, 20_000, 12), # Progressive training schedule (2, 5e-4, 40_000, 12), # (r, lr, step, batch_size) (2, 2e-4, 80_000, 12), # (2, 1e-4, 160_000, 12), # r = reduction factor (# of mel frames (2, 3e-5, 320_000, 12), # synthesized for each decoder iteration) (2, 1e-5, 640_000, 12)], # lr = learning rate //調整後 tts_schedule = [(2, 1e-3, 20_000, 8), # Progressive training schedule (2, 5e-4, 40_000, 8), # (r, lr, step, batch_size) (2, 2e-4, 80_000, 8), # (2, 1e-4, 160_000, 8), # r = reduction factor (# of mel frames (2, 3e-5, 320_000, 8), # synthesized for each decoder iteration) (2, 1e-5, 640_000, 8)], # lr = learning rate

这里调整。另外3080TI的显存其实并不足以开多大,个人推荐从32开始看看能不能加,如果32都不行就慢慢减少

gxground commented 2 years ago

成功了非常感谢~~~ 我社区模型自己跑了20K左右 我现在改BATCH SIZE 建议继续跑呢 还是重新跑好

harrett commented 1 year ago

File "D:\anaconda3\envs\mocking_bird\lib\site-packages\torch\nn\modules\module.py", line 1671, in load_state_dict raise RuntimeError('Error(s) in loading state_dict for {}:\n\t{}'.format( RuntimeError: Error(s) in loading state_dict for Tacotron: size mismatch for encoder_proj.weight: copying a param with shape torch.Size([128, 1024]) from checkpoint, the shape in current model is torch.Size([128, 512]). size mismatch for gst.stl.attention.W_query.weight: copying a param with shape torch.Size([512, 512]) from checkpoint, the shape in current model is torch.Size([512, 256]). size mismatch for decoder.attn_rnn.weight_ih: copying a param with shape torch.Size([384, 1280]) from checkpoint, the shape in current model is torch.Size([384, 768]). size mismatch for decoder.rnn_input.weight: copying a param with shape torch.Size([1024, 1152]) from checkpoint, the shape in current model is torch.Size([1024, 640]). size mismatch for decoder.stop_proj.weight: copying a param with shape torch.Size([1, 2048]) from checkpoint, the shape in current model is torch.Size([1, 1536]).

tag为 v0.0.1,替换楼主的模型后报错。大神们有没有遇到的
hanc44 commented 1 year ago

试用了几个现有的分享,能正常发音就很不错了,大多数情况下,要么是电音,要么就是部分是杂音,更不用说和原始声音相似了,距离克隆声音还有一段路,无奈自己的机器不行,没法自己训练

这个主要分享经验,如果你要相对好的结果,可以看我之前分享的160K aishell3,往后翻翻能找到

请问这个160K aishell3的在哪里可以找到呢,试了好几个模型,效果都比较不理想,想看看案例后自己训练