Open wangqiangneu opened 4 years ago
把BART应用到了multilingual NMT上。#50里BART只是在英文上预训练的,这里把BART用到了CC25 corpus(包含25个语种的单语数据)。具体做法很简单,还是BART的noise构造方式,但是每个batch中采样不同的语种,每个语种被采样的权重$\lambda_i=\frac{1}{p_i} \cdot \frac{p_i^{\alpha}}{\sum_j{p_j^\alpha}}$,$\alpha=0.7$。每次一个语种被采样到,类似BART,也是document的输入(包含多个句子,从而支持document-level MT)。句子间被</s>分割,document结尾加<LANG_ID>标记语种。其他的就跟BART没啥区别了。
CC25 corpus
</s>
<LANG_ID>
一些细节:
dropout decay
3e-5
有意思的点:
back-translation
document-level
document-level NMT
简介
把BART应用到了multilingual NMT上。#50里BART只是在英文上预训练的,这里把BART用到了
CC25 corpus
(包含25个语种的单语数据)。具体做法很简单,还是BART的noise构造方式,但是每个batch中采样不同的语种,每个语种被采样的权重$\lambda_i=\frac{1}{p_i} \cdot \frac{p_i^{\alpha}}{\sum_j{p_j^\alpha}}$,$\alpha=0.7$。每次一个语种被采样到,类似BART,也是document的输入(包含多个句子,从而支持document-level MT)。句子间被</s>
分割,document结尾加<LANG_ID>
标记语种。其他的就跟BART没啥区别了。一些细节:
dropout decay
的技巧,开始时dropout=0.1,250K时decay到0.05,400K时无dropout(一共训练500K)3e-5
的lr。>10M双语的系统finetune 100K,其他的finetune 40K有意思的点:
back-translation
能互补(用相同或不同的单语数据都行),虽然直接BT比mBART有效,但是mBART可以得到一个初始模型后继续BTdocument-level
的NMT提升巨大~document-level的bitext本身很少,用monolingual做是必然的。有意思的是,直接训document-level NMT
基本都失败了论文信息
总结