20-ACL-Improving Massively Multilingual Neural Machine Translation and Zero-Shot Translation

简介

对MNMT的改进，包括释放了opus-100的数据集。改进很直接，两个角度：model capacity和off-target(指翻译跑偏成别的语种了，主要发生在zero-shot时)。前者干了三件事：deep network, conditional layernorm(condition是t，也就是目标语语种），以及conditional linear transformation(加到encoder的输出上，条件也是t)。后者则干了一件事，在pre-trained的MNMT上，继续finetune若干步，随机选择一个t' (t' != t)，用当前的MNMT做online BT，得到x'。这样，finetune的时候，训练数据中除了已知的(x, y, t)还有(x', y, t)。这相当于告诉模型，不管x是啥，只要我指定了t，你都要给我保证是t的形式，从而避免off-target

有意思的点

把conditional linear transformation分解成更小的matrix效果不好
为了训练效率，random online BT使用greedy search
用langdetect library检测翻译出的语种，以衡量zero-shot时off-target的情况
因为语种很多，用win ratio(WR)表示是否超过baseline

论文信息

Author: Edinburgh
Paper
Code

总结

开放数据集很赞，会让这块的玩家越来越多
方法符合我的直觉，conditional layernorm我也想到了，哈哈
从哪些角度decouple multilingual还会是这块的热点

wangqiangneu / MT-PaperReading

20-ACL-Improving Massively Multilingual Neural Machine Translation and Zero-Shot Translation #61

简介

有意思的点

论文信息

总结