Closed KATHERINE0511 closed 4 days ago
zheg作者您好,上图是我的训练时的配置信息,我是单机多卡训练,但是在训练过程中会出现grad_norm=nan的情况,我设置了梯度裁剪的值为1,为什么还是会出现这种情况?下图是训练过程中的log情况
用 bf16