单机多卡微调glm4-9B设置max_grad_norm=1,但是仍然出现了梯度爆炸的问题

hiyouga / LLaMA-Factory

Unify Efficient Fine-Tuning of 100+ LLMs

Apache License 2.0

25.26k stars 3.13k forks source link

单机多卡微调glm4-9B设置max_grad_norm=1,但是仍然出现了梯度爆炸的问题 #4438

Closed KATHERINE0511 closed 4 days ago

KATHERINE0511 commented 5 days ago

img_v3_02c5_09f7efc9-c06b-497a-a6be-c1af36563cbg zheg作者您好，上图是我的训练时的配置信息，我是单机多卡训练，但是在训练过程中会出现grad_norm=nan的情况，我设置了梯度裁剪的值为1，为什么还是会出现这种情况？下图是训练过程中的log情况 img_v3_02c5_62f3e742-6e40-4983-bcce-ed863034700g

hiyouga commented 5 days ago

用 bf16