OFA-Sys / Chinese-CLIP

Chinese version of CLIP which achieves Chinese cross-modal retrieval and representation generation.
MIT License
4.5k stars 464 forks source link

训练时损失一直不降,这种情况怎么样处理呢? #142

Closed Duyz232 closed 1 year ago

Duyz232 commented 1 year ago

以下是我训练用的脚本:

5c0cef5b37035b54e4d89836ced1c79 450b557adf006c6f7a41d32e818232c

训练时候损失一直不降:

360dbc34a37276e853d9764cfc5d196
DtYXs commented 1 year ago

您好,由于您的batchsize设置较小,因此几个step可能loss的变化并不会特别明显。 建议您首先对比一下目前的loss和刚开始训练时的loss,如果在逐渐降低则说明模型应该是在正常收敛的,您可以再多观察一段时间看看loss的变化。 您也可以尝试适当增大一些学习率,同时可以参考模型finetune部分的说明,尝试加入--grad-checkpointing参数来启用重计算策略等方式来减少显存占用,进而设置更大的batchsize。

Huang9495 commented 1 year ago

@Duyz232 检查一下你的checkout 是否加载成功,的sh在默写环境下,环境变量是失效的,需要你把相对路径修改为绝对路径,我先前也遇到过这样的问题,检查了初始化就没问题了

Duyz232 commented 1 year ago

您好,非常感谢您的回复。 一开始我是打算从头开始训练,checkpoints被我注释掉了。我后面会采取您的建议,加载已经练好的checkpoints,进行微调

------------------ 原始邮件 ------------------ 发件人: "OFA-Sys/Chinese-CLIP" @.>; 发送时间: 2023年6月19日(星期一) 下午3:01 @.>; @.**@.>; 主题: Re: [OFA-Sys/Chinese-CLIP] 训练时损失一直不降,这种情况怎么样处理呢? (Issue #142)

@Duyz232 检查一下你的checkout 是否加载成功,的sh在默写环境下,环境变量是失效的,需要你把相对路径修改为绝对路径,我先前也遇到过这样的问题,检查了初始化就没问题了

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you were mentioned.Message ID: @.***>