训练时损失一直不降，这种情况怎么样处理呢？

Duyz232 commented 1 year ago

以下是我训练用的脚本：

训练时候损失一直不降:

DtYXs commented 1 year ago

您好，由于您的batchsize设置较小，因此几个step可能loss的变化并不会特别明显。建议您首先对比一下目前的loss和刚开始训练时的loss，如果在逐渐降低则说明模型应该是在正常收敛的，您可以再多观察一段时间看看loss的变化。您也可以尝试适当增大一些学习率，同时可以参考模型finetune部分的说明，尝试加入--grad-checkpointing参数来启用重计算策略等方式来减少显存占用，进而设置更大的batchsize。

Huang9495 commented 1 year ago

@Duyz232 检查一下你的checkout 是否加载成功，的sh在默写环境下，环境变量是失效的，需要你把相对路径修改为绝对路径，我先前也遇到过这样的问题，检查了初始化就没问题了

Duyz232 commented 1 year ago

您好，非常感谢您的回复。一开始我是打算从头开始训练，checkpoints被我注释掉了。我后面会采取您的建议，加载已经练好的checkpoints，进行微调

------------------ 原始邮件 ------------------ 发件人: "OFA-Sys/Chinese-CLIP" @.>; 发送时间: 2023年6月19日(星期一) 下午3:01 @.>; @.**@.>; 主题: Re: [OFA-Sys/Chinese-CLIP] 训练时损失一直不降，这种情况怎么样处理呢？ (Issue #142)

@Duyz232 检查一下你的checkout 是否加载成功，的sh在默写环境下，环境变量是失效的，需要你把相对路径修改为绝对路径，我先前也遇到过这样的问题，检查了初始化就没问题了

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you were mentioned.Message ID: @.***>

OFA-Sys / Chinese-CLIP

训练时损失一直不降，这种情况怎么样处理呢？ #142