20-Arxiv-Multilingual Denoising Pre-training for Neural Machine Translation

简介

把BART应用到了multilingual NMT上。#50里BART只是在英文上预训练的，这里把BART用到了CC25 corpus（包含25个语种的单语数据）。具体做法很简单，还是BART的noise构造方式，但是每个batch中采样不同的语种，每个语种被采样的权重$\lambda_i=\frac{1}{p_i} \cdot \frac{p_i^{\alpha}}{\sum_j{p_j^\alpha}}$，$\alpha=0.7$。每次一个语种被采样到，类似BART，也是document的输入（包含多个句子，从而支持document-level MT）。句子间被</s>分割，document结尾加<LANG_ID>标记语种。其他的就跟BART没啥区别了。

一些细节：
- 预训练时也用到了dropout decay的技巧，开始时dropout=0.1，250K时decay到0.05，400K时无dropout(一共训练500K)
- large vocabulary: 250K subwords
- finetune时，dropout=0.3, label smooth=0.2, 2500的warmup，3e-5的lr。>10M双语的系统finetune 100K，其他的finetune 40K
有意思的点：
- 如果Bitext>25M，pretrain会轻微伤害性能，还是对低资源的方向更有帮助
- 如果目标语的单语数据很少，用更多的语种pretrain有帮助，否则还是使用跟test language一致或相近要好。e.g. mBART02 > mBART25
- 跟back-translation能互补(用相同或不同的单语数据都行)，虽然直接BT比mBART有效，但是mBART可以得到一个初始模型后继续BT
- 用mBART预训练后，甚至可以在预训练时unseen的语种上通过finetune提高。其中，如果unseen的语种在源语端，效果更差一些，这个任务更难（编码的更不准确，所以说encoder-decoder里还是encoder更重要，嘿嘿）。一定程度上也说明，transformer里的参数是universial的
- 对document-level的NMT提升巨大~document-level的bitext本身很少，用monolingual做是必然的。有意思的是，直接训document-level NMT基本都失败了

论文信息

Author: FAIR
[Paper](Multilingual Denoising Pre-training for Neural Machine Translation)

总结

mBART里用的model是12层encoder和decoder，明显更大，直接跟XLM和MASS比有点不公平。。
跟BART类似，mBART还是很适合translation task的~
卡多真好。。256个V100(32G)训练2.5 weeks，，，什么概念

wangqiangneu / MT-PaperReading

20-Arxiv-Multilingual Denoising Pre-training for Neural Machine Translation #51

简介

论文信息

总结