训练时，loss =nan - Githubissues

HuangLK / transpeeder

train llama on a single A100 80G node using 🤗 transformers and 🚀 Deepspeed Pipeline Parallelism

Apache License 2.0

208 stars 18 forks source link

Closed zhangsanfeng86 closed 1 year ago

zhangsanfeng86 commented 1 year ago

您好！ @HuangLK ，

在训练时，loss=nan，这个您遇到过吗？

HuangLK commented 1 year ago

max_seq_len设置多少？可能跟input过长有关

zhangsanfeng86 commented 1 year ago

--max_seq_len 1024

1024 是不是有些长了

zhangsanfeng86 commented 1 year ago

这是推理的结果，感觉没有自动停止生成，一直到了max lenth才停止

HuangLK commented 1 year ago

prompt长度超过max_seq_len时算cross_entropy会nan，因为没有有效的labels算loss。训练时过长数据的比例太高的，可能会频繁出现nan，此时建议加大max_seq_len或者过滤掉过长的数据，不然模型其实没有充分训练

zhangsanfeng86 commented 1 year ago

谢谢