20-AAAI-Cross-lingual Pre-training Based Transfer for Zero-shot Neural Machine Translation

简介

pre-training做带pivot的zero-shot的NMT（不是完全unsupervised NMT，src-pivot和pivot-tgt有大量bitext）。pipeline还是挺长的，先用src-pivot的monolingual or bilingual pretrain (过程是，先用MLM训，再用TLM/文章提出的改进方法训)。训完之后用这个universial encoder去initpivot-tgt的模型，这个模型训好后就可以直接翻译src-tgt了。方法本身比较简单，就是在TLM的基础上，TLM是随机的mask，他用了外部对齐工具(hard)或者加一个cross attention layer(soft)去显式的让对齐的词预测。

有意思的点
- 在用universial encoder init pivot-tgt的模型后，需要freeze一些层防止性能退化。推荐前4层

论文信息

Author: Ali
Paper

总结

挺神奇呀，第一阶段训src-pivot，第二阶段只拿它做init，翻译方向是pivot-tgt居然可以在训完之后直接就翻译src-tgt还效果不错。。。

wangqiangneu / MT-PaperReading

20-AAAI-Cross-lingual Pre-training Based Transfer for Zero-shot Neural Machine Translation #43

简介

论文信息

总结