Open ScottishFold007 opened 4 days ago
在微调模型的时候,train和eval的loss和梯度有时是nan,这个情况是否正常?可能的原因有哪些呢?
不是一直nan就可以
在微调模型的时候,train和eval的loss和梯度有时是nan,这个情况是否正常?可能的原因有哪些呢?