Closed stevewyl closed 3 years ago
是数据生成阶段的padding没加上 已正常运行
想请教下苏神关于预训练的问题。目前模型已经正常训练起来了,但是loss变化非常奇怪。 每个epoch为250个step,mlm_acc大概经过5-6个epoch后,开始出现不断下降
epoch,loss,mlm_acc_loss,mlm_loss_loss 0,9.975207859039307,0.44808972,9.527121 1,9.961372146606445,0.5752151,9.386159 2,9.960256561279296,0.5910834,9.369174 3,9.959727100372314,0.6022016,9.357516 4,9.95986014175415,0.60329336,9.356565 5,9.959882137298584,0.5863511,9.373529 6,9.9597060546875,0.58159727,9.378114 7,9.959792503356933,0.5641684,9.395623
预训练的语料为,如 “罗技(Logitech)适用于Mac的MX Master 3无线蓝牙优联双模跨计算机控制鼠标-深空灰” 这样的非正常语义的商品标题,是不是这种文本不适合做预训练任务,或者说和加载的预训练模型的训练语料差异太大,应该从头开始训练一个商品标题语言模型?
想请教下苏神关于预训练的问题。目前模型已经正常训练起来了,但是loss变化非常奇怪。 每个epoch为250个step,mlm_acc大概经过5-6个epoch后,开始出现不断下降
epoch,loss,mlm_acc_loss,mlm_loss_loss 0,9.975207859039307,0.44808972,9.527121 1,9.961372146606445,0.5752151,9.386159 2,9.960256561279296,0.5910834,9.369174 3,9.959727100372314,0.6022016,9.357516 4,9.95986014175415,0.60329336,9.356565 5,9.959882137298584,0.5863511,9.373529 6,9.9597060546875,0.58159727,9.378114 7,9.959792503356933,0.5641684,9.395623
预训练的语料为,如 “罗技(Logitech)适用于Mac的MX Master 3无线蓝牙优联双模跨计算机控制鼠标-深空灰” 这样的非正常语义的商品标题,是不是这种文本不适合做预训练任务,或者说和加载的预训练模型的训练语料差异太大,应该从头开始训练一个商品标题语言模型?
你mlm_acc都60了,mlm_loss还这么高,看上去不大正常吧,是不是哪里写错了。。。
我该用bert4keras/pretraining,py脚本在我的商品标题数据上进行mlm任务训练 只调整了下batch_size(改为64)和grad_accum_steps(改为1,改为其他值会出现错误)还是会出现这样的情况
epoch,loss,mlm_acc_loss,mlm_loss_loss 0,9.975546821594238,0.4527319,9.522816 1,9.961218914031983,0.57211065,9.389108 2,9.96013719177246,0.58912295,9.371013 3,9.959897575378418,0.60324585,9.356652 4,9.959748355865479,0.59947634,9.360272 5,9.959580730438232,0.5856575,9.373923 6,9.959896369934082,0.57579464,9.3841 7,9.959613983154297,0.558508,9.401109 8,9.959290103912354,0.29001126,9.669282 9,9.958436988830567,0.04440407,9.914034 10,9.95843703842163,0.042420294,9.916016 11,9.958437007904053,0.04402391,9.91441 12,9.958448265075683,0.042767487,9.91568 13,9.958436534881592,0.042882875,9.915551 14,9.958435176849365,0.044536836,9.913898 15,9.958435420989991,0.043750964,9.914683
大概还是因为语料不匹配的原因吧
@bojone 调整了下学习率,现在loss和acc(维持在0.58左右)比较稳定了。想问下苏神大概用的多少机器资源训预训练模型,看代码中学习率设的1e-3,batch_size设的4096。
46606445,0.5752151,9.386159 2,9.960256561279296,0.5910834,9.369174 3,9.959727100372314,0.6022016,9.357516 4,9.95986014175415,0.60329336,9.356565 5,9.959882137298584,0.5863511,9.373529 6,9.9597060546875,0.58159727,9.378
你好,请问你用此方法预训练产生的模型,你验证了吗,效果如何,方便沟通一下吗?感谢
提问时请尽可能提供如下信息:
基本信息
修改思路
希望在原有的MLM任务上增加一个监督的分类任务来提升预训练模型在微调任务时的表现 文本较短且不存在语义联系,故改成长度128的单个文档,不进行文档间的拼接
核心代码
输出信息
自我尝试
不管什么问题,请先尝试自行解决,“万般努力”之下仍然无法解决再来提问。此处请贴上你的努力过程。
数据打印正常
求教苏神有什么debug思路吗?谢谢!