Closed zhangsanfeng86 closed 1 year ago
max_seq_len
设置多少?可能跟input过长有关
--max_seq_len 1024
1024 是不是有些长了
这是推理的结果,感觉没有自动停止生成,一直到了max lenth才停止
prompt长度超过max_seq_len时算cross_entropy会nan,因为没有有效的labels算loss。训练时过长数据的比例太高的,可能会频繁出现nan,此时建议加大max_seq_len或者过滤掉过长的数据,不然模型其实没有充分训练
谢谢
您好! @HuangLK ,
在训练时,loss=nan,这个您遇到过吗?