babysor / MockingBird

🚀AI拟声: 5秒内克隆您的声音并生成任意语音内容 Clone a voice in 5 seconds to generate arbitrary speech in real-time
Other
34.47k stars 5.14k forks source link

请问作者大大,encoder如何训练? #996

Open onedotone-wei opened 2 months ago

onedotone-wei commented 2 months ago

看了知乎链接的教程,尝试训练encoder Screenshot 2024-04-29 184437 练了半天,这结果似乎没什么变化 wei_umap_038600 wei_umap_038700 数据自建的,有2个多G 问题1:这种情况是正常的吗?如果不正常是什么原因造成的? 问题2:根据知乎上的说法“实测了一次 训练synthesizer时,4000左右step就能attention收敛,22k step的时候loss就到0.35了,可以很快进行finetune,算是超越预期。”,训练synthesizer时,如何把encoder加入?

babysor commented 2 months ago

正常。encoder的训练要求要高很多,数据量要大、step要多很多,建议只做微调。

由于结构问题,encoder和synth是分开训练的

onedotone-wei commented 2 months ago

感谢回复,我再跑一段时间看看