Closed Duyz232 closed 1 year ago
您好,由于您的batchsize设置较小,因此几个step可能loss的变化并不会特别明显。
建议您首先对比一下目前的loss和刚开始训练时的loss,如果在逐渐降低则说明模型应该是在正常收敛的,您可以再多观察一段时间看看loss的变化。
您也可以尝试适当增大一些学习率,同时可以参考模型finetune部分的说明,尝试加入--grad-checkpointing
参数来启用重计算策略等方式来减少显存占用,进而设置更大的batchsize。
@Duyz232 检查一下你的checkout 是否加载成功,的sh在默写环境下,环境变量是失效的,需要你把相对路径修改为绝对路径,我先前也遇到过这样的问题,检查了初始化就没问题了
您好,非常感谢您的回复。 一开始我是打算从头开始训练,checkpoints被我注释掉了。我后面会采取您的建议,加载已经练好的checkpoints,进行微调
------------------ 原始邮件 ------------------ 发件人: "OFA-Sys/Chinese-CLIP" @.>; 发送时间: 2023年6月19日(星期一) 下午3:01 @.>; @.**@.>; 主题: Re: [OFA-Sys/Chinese-CLIP] 训练时损失一直不降,这种情况怎么样处理呢? (Issue #142)
@Duyz232 检查一下你的checkout 是否加载成功,的sh在默写环境下,环境变量是失效的,需要你把相对路径修改为绝对路径,我先前也遇到过这样的问题,检查了初始化就没问题了
— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you were mentioned.Message ID: @.***>
以下是我训练用的脚本:
训练时候损失一直不降: