Open xuxuanbo opened 4 years ago
检查过所有数据,确认标签都是在[0, num_classes)范围内了吗?
检查过了,增加的数据仅是用pandas和numpy做了复制操作而已
方便提供一份可复现的代码和数据吗?如果可以的话发到我邮箱,我来调试下
谢谢苏神!不过是公司的代码和数据,所以没有办法,我再调试调试,如果找出原因,会再在issue下回复,感谢!
好的,但是我还是感觉是数据异常的问题。如果真的是数据量,你可以试试几条数据复制几万份看看。
没错,我也感觉应该是这个原因,回去看了一下自己建数据集的代码,是先复制数据再划分训练集测试集和验证集的划分,并且是固定随机种子。因此很有可能是之前脏数据碰巧没有被划分到训练集中,增多数据后被划分进了训练集中。验证后会再来回复,再次感谢!
用7条数据复制了几万份,确实没有出现为nan的问题,这么看应该是数据的问题了。但是我将一整份数据放入到网络当中,并且将batch_size调为1,但是没有哪个batch出现为nan的情况,不知道苏神对这种情况还有什么建议吗
这个应该不只是数据的问题,模型也有关系。我是先用垂直领域的语料训练albert模型,然后再做下游分类任务。同样的下游任务,如果预训练过程过拟合越严重,下游分类任务出现nan的概率就越高
卡在这里很久了,希望苏神赐教!
基本信息
核心代码
自我尝试
在此基础上做了几组实验排查原因,由于实验思路不一定正确,因此附上实验步骤的描述