FunAudioLLM / CosyVoice

Multi-lingual large voice generation model, providing inference, training and deployment full-stack ability.
https://funaudiollm.github.io/
Apache License 2.0
6.47k stars 698 forks source link

flow模型SFT训练不收敛 #642

Open JohnHerry opened 1 week ago

JohnHerry commented 1 week ago

flow模型结构,用10W+小时从头训练了100W步得到了一个base模型。然后用从中精选的15W条高质量音频样本,在base模型基础上做FT训练。训练过程中发现损失函数上下跳荡不收敛。拿FT训练后的一些checkpoint来测试,测试的CER,比base模型的CER还高。【中文,CER 3.8%到3.9%】 测试时的音色范围,是15W条高质量音频样本的音色范围。 FT训练时,batch大小设置为2000, lr为5e-5, 都比base模型训练的配置要小。

aluminumbox commented 1 week ago

base模型是指你10w+小时训的吗,base模型收敛了但是sft不收敛?这个我们也不清楚,我们sft一般也就一个人1h以上数据小学习率训一下。

JohnHerry commented 1 week ago

base模型是指你10w+小时训的吗,base模型收敛了但是sft不收敛?这个我们也不清楚,我们sft一般也就一个人1h以上数据小学习率训一下。

是的,base模型是10W+小时训练的, base训练到100W steps之后,损失下降到0.2 左右。SFT是从10W小时中筛选的15W+条样本,大概不到30个说话人。每个人20分钟到7小时不等。 训练的时候,损失总是在0.15到0.35 上下跳荡。训练到15W步还没有稳定下降。

Strive-for-excellence commented 6 days ago

base模型是指你10w+小时训的吗,base模型收敛了但是sft不收敛?这个我们也不清楚,我们sft一般也就一个人1h以上数据小学习率训一下。

方便问下sft的时候小学习率有多大啊,loss大概范围有多少