Closed rangehow closed 1 year ago
一个tips orz 斯皮尔曼系数因为依赖于类内的标签序,如果一个batch的标签全部一致,在这个项目的训练就会产生loss全0的错误。
数据训练前,做手动shuffle操作。
微调一个bert-large大小的模型,在24G显存上也只能开到batch_size=8。如果只是在0、1这种粗略标签上做最好手动分成一个batch内标签处于均衡状态,如果依赖随机shuffle,还是有概率一个batch全不同标签。
你好,我现在用我自己的样本数据,数据只有text1 和text2 相似,我是需要自己做 为0 的标签数据好还是做无监督的效果好一点呢
手动加0
Describe the Question
一个tips orz 斯皮尔曼系数因为依赖于类内的标签序,如果一个batch的标签全部一致,在这个项目的训练就会产生loss全0的错误。