Closed oyjxer closed 9 months ago
代码中提供了三种DEMD和MLE的融合方式, 请问论文中使用的是哪一种呐?
您好,language modeling和sft的实验使用第一种,continual pre-training是只用emo不用mle。
代码中提供了三种DEMD和MLE的融合方式, 请问论文中使用的是哪一种呐?