预训练细节？ - Githubissues

您好，我们公司也在做unilm预训练的工作，想跟您交流下经验。在预训练时batch size为多少，训练了多少步，学习率，以及warm up的步数，最后验证集的loss降到了多少，这些参数能否分享下？我们的训练逻辑基本和论文一致，用的论文语料基于您开源的中文unilm继续预训练，第一次我们用了4g语料，构建了240w训练实例，batch size 384，训练了6000步，验证集loss大概降到了1.5。测试在论文语料上的生成任务的确获得了不错的提升。第二次预训练我们准备使用14g数据，构建了750w训练数据，因为数据量过大，内存不够，因为采用了分批加载数据，训练一批释放掉，再训练下一批的策略，不确定这种加载数据的策略是否影响效果。最近的论文提到预训练阶段不使用dropout效果会更好，这一点您怎样看？

YunwenTechnology / Unilm

预训练细节？ #15