Open ShengyiLiao opened 3 months ago
你好,请问我想适配qwen2模型,新增了对应的模型结构,代码跑起来之后grad_norm为nan,这可能是什么原因呢?
这里的代码不支持qwen,请参考这里,我们已经适配了qwen-2。数据和环境是通用的。
感谢,我继续进行了尝试,但是发现pretrain和sft的loss都是从一开始有很小幅度下降之后,很快就进入了震荡,拿sft的举例,从一开始loss=2.1,到最后的loss都是在1.85~1.95左右震荡,请问这是正常的吗,作者可以告诉一下你们的loss正常会收敛到什么程度吗
pretrain通常在2左右,ft通常熟练到1以下
你好,请问我想适配qwen2模型,新增了对应的模型结构,代码跑起来之后grad_norm为nan,这可能是什么原因呢?