HuangLK / transpeeder

train llama on a single A100 80G node using 🤗 transformers and 🚀 Deepspeed Pipeline Parallelism
Apache License 2.0
208 stars 18 forks source link

训练时,loss =nan #8

Closed zhangsanfeng86 closed 1 year ago

zhangsanfeng86 commented 1 year ago

您好! @HuangLK ,

在训练时,loss=nan,这个您遇到过吗?

HuangLK commented 1 year ago

max_seq_len设置多少?可能跟input过长有关

zhangsanfeng86 commented 1 year ago
--max_seq_len 1024

1024 是不是有些长了

zhangsanfeng86 commented 1 year ago
image

这是推理的结果,感觉没有自动停止生成,一直到了max lenth才停止

HuangLK commented 1 year ago

prompt长度超过max_seq_len时算cross_entropy会nan,因为没有有效的labels算loss。训练时过长数据的比例太高的,可能会频繁出现nan,此时建议加大max_seq_len或者过滤掉过长的数据,不然模型其实没有充分训练

zhangsanfeng86 commented 1 year ago

谢谢