19-EMNLP-Mask-Predict: Parallel Decoding of Conditional Masked Language Models

wangqiangneu commented 4 years ago

简介

non-autogression decoding. 用iterative的方式不断refine已有的翻译结果。第一轮是完全NAT，然后再次基础上，选择confidence差的N个词，mask掉，去对mask的内容进行refine，迭代X轮结束。对mask的恢复过程类似BERT。整篇文章读起来很舒服，听起来也合理。后面实验部分也很饱满。

论文信息

Author: Facebook
Paper
Code

总结

似乎最好的结果，在WMT en-de上，比baseline低0.7 BLEU，但是速度的提升就不那么明显了，大概30%；速度提升3倍，BLEU能掉2个点以上
其中对译文长度预测的那个实验显示如果能完全预测对译文的长度，bleu还有上升的空间。我看了一眼他的代码，似乎length loss那块实现有点问题，直觉是这个方法的结果应该能更好
直觉感觉relative positional embedding应该比absolute要好呢，似乎没人讨论
code是基于fairseq的，操作性很好
定义了很多启发式的方法来选mask（mask的选择标准，mask的数量 etc.）
为什么distillation那么必要？似乎还没人回答这个问题
用类似BERT的方式恢复mask，存在的问题是这里会假设mask之间是independent，这个问题在XLNET里讨论过，有没有借鉴的地方？

yokusama commented 4 years ago

为什么distillation必要这篇感觉做的挺好的： Understanding Knowledge Distillation in Non-autoregressive Machine Translation

wangqiangneu commented 4 years ago

Understanding Knowledge Distillation in Non-autoregressive Machine Translation

多谢~ 学习学习~

wangqiangneu / MT-PaperReading

19-EMNLP-Mask-Predict: Parallel Decoding of Conditional Masked Language Models #21

简介

论文信息

总结