namespace-Pt / UltraGist

MIT License
15 stars 2 forks source link

grad_norm of qwen2 is 'nan' #2

Open ShengyiLiao opened 3 months ago

ShengyiLiao commented 3 months ago

image 你好,请问我想适配qwen2模型,新增了对应的模型结构,代码跑起来之后grad_norm为nan,这可能是什么原因呢?

namespace-Pt commented 3 months ago

这里的代码不支持qwen,请参考这里,我们已经适配了qwen-2。数据和环境是通用的。

ShengyiLiao commented 3 months ago

感谢,我继续进行了尝试,但是发现pretrain和sft的loss都是从一开始有很小幅度下降之后,很快就进入了震荡,拿sft的举例,从一开始loss=2.1,到最后的loss都是在1.85~1.95左右震荡,请问这是正常的吗,作者可以告诉一下你们的loss正常会收敛到什么程度吗 image

namespace-Pt commented 3 months ago

pretrain通常在2左右,ft通常熟练到1以下