Open bigprince97 opened 3 years ago
您好,我们公司也在做unilm预训练的工作,想跟您交流下经验。在预训练时batch size为多少,训练了多少步,学习率,以及warm up的步数,最后验证集的loss降到了多少,这些参数能否分享下?我们的训练逻辑基本和论文一致,用的论文语料基于您开源的中文unilm继续预训练,第一次我们用了4g语料,构建了240w训练实例,batch size 384,训练了6000步,验证集loss大概降到了1.5。测试在论文语料上的生成任务的确获得了不错的提升。第二次预训练我们准备使用14g数据,构建了750w训练数据,因为数据量过大,内存不够,因为采用了分批加载数据,训练一批释放掉,再训练下一批的策略,不确定这种加载数据的策略是否影响效果。最近的论文提到预训练阶段不使用dropout效果会更好,这一点您怎样看?
您好,我们公司也在做unilm预训练的工作,想跟您交流下经验。在预训练时batch size为多少,训练了多少步,学习率,以及warm up的步数,最后验证集的loss降到了多少,这些参数能否分享下?我们的训练逻辑基本和论文一致,用的论文语料基于您开源的中文unilm继续预训练,第一次我们用了4g语料,构建了240w训练实例,batch size 384,训练了6000步,验证集loss大概降到了1.5。测试在论文语料上的生成任务的确获得了不错的提升。第二次预训练我们准备使用14g数据,构建了750w训练数据,因为数据量过大,内存不够,因为采用了分批加载数据,训练一批释放掉,再训练下一批的策略,不确定这种加载数据的策略是否影响效果。最近的论文提到预训练阶段不使用dropout效果会更好,这一点您怎样看?