对MNMT的改进,包括释放了opus-100的数据集。改进很直接,两个角度:model capacity和off-target(指翻译跑偏成别的语种了,主要发生在zero-shot时)。前者干了三件事:deep network, conditional layernorm(condition是t,也就是目标语语种),以及conditional linear transformation(加到encoder的输出上,条件也是t)。后者则干了一件事,在pre-trained的MNMT上,继续finetune若干步,随机选择一个t' (t' != t),用当前的MNMT做online BT,得到x'。这样,finetune的时候,训练数据中除了已知的(x, y, t)还有(x', y, t)。这相当于告诉模型,不管x是啥,只要我指定了t,你都要给我保证是t的形式,从而避免off-target
有意思的点
把conditional linear transformation分解成更小的matrix效果不好
简介
对MNMT的改进,包括释放了
opus-100
的数据集。改进很直接,两个角度:model capacity
和off-target
(指翻译跑偏成别的语种了,主要发生在zero-shot时)。前者干了三件事:deep network
,conditional layernorm
(condition是t
,也就是目标语语种),以及conditional linear transformation
(加到encoder的输出上,条件也是t
)。后者则干了一件事,在pre-trained的MNMT上,继续finetune若干步,随机选择一个t' (t' != t),用当前的MNMT做online BT,得到x'。这样,finetune的时候,训练数据中除了已知的(x, y, t)还有(x', y, t)。这相当于告诉模型,不管x是啥,只要我指定了t
,你都要给我保证是t
的形式,从而避免off-target
有意思的点
conditional linear transformation
分解成更小的matrix效果不好random online BT
使用greedy searchlangdetect
library检测翻译出的语种,以衡量zero-shot时off-target的情况win ratio
(WR)表示是否超过baseline论文信息
总结