20-ACL-Jointly Masked Sequence-to-Sequence Model for Non-Autoregressive Neural Machine Translation

简介

对mask-predict的改进。先整了几个实验验证了encoder在NAT中更重要（实际跟之前NMT的结论一样，encoder对性能影响更大）。然后就各种mask开搞。具体做法是，encoder中类似bert进行mask并预测，decoder则套了个ngram loss （n=2），最后再跟AT的loss插值在一起训练。解码的时候跟mask-predict类似，也是iterative refinement，只不过mask的不是单个token，而是训练时采用的ngram

有意思的点

通过实验验证了encoder是比decoder处理更复杂的任务，不容易得到充分训练。具体做法是，拿一个pre-trained的encoder/decoder初始化并固定，然后看trainable encoder/decoder的收敛速度

论文信息

Author: 中科大
Paper
Code 目前还是空的

总结

虽然实验结果看着很不错，但感觉就是一些之前方法的叠加，没啥更多的insight
代码还没放出来，想具体测试下看看，wmt en-de看着挺高，我很好奇

wangqiangneu / MT-PaperReading

20-ACL-Jointly Masked Sequence-to-Sequence Model for Non-Autoregressive Neural Machine Translation #65

简介

有意思的点

论文信息

总结