Open hyttyfj211 opened 3 years ago
为什么总是训练到第6个epoch的时候,损失函数就会变成nan
在paddle2.1版本上会有loss nan,在paddle2.0上无此问题,看一下是哪个版本,推荐先使用2.0版本。paddle后期会修复这个问题。
用的确实是2.1,但是如果不做开发集的预测的话就不会有nan了,只做训练
我使用11g的显卡训练模型,显存不够,修改max_seq_len为256,batch_size=1,但是代码报错,这个有解决的办法吗?
为什么总是训练到第6个epoch的时候,损失函数就会变成nan