代码中提供了三种DEMD和MLE的方式, 请问论文中使用的是哪一种呐?

DRSY / EMO

[ICLR 2024]EMO: Earth Mover Distance Optimization for Auto-Regressive Language Modeling(https://arxiv.org/abs/2310.04691)

111 stars 13 forks source link

Closed oyjxer closed 9 months ago

oyjxer commented 9 months ago

代码中提供了三种DEMD和MLE的融合方式, 请问论文中使用的是哪一种呐?

DRSY commented 9 months ago

您好，language modeling和sft的实验使用第一种，continual pre-training是只用emo不用mle。