Open wangqiangneu opened 4 years ago
non-autogression decoding. 用iterative的方式不断refine已有的翻译结果。第一轮是完全NAT,然后再次基础上,选择confidence差的N个词,mask掉,去对mask的内容进行refine,迭代X轮结束。对mask的恢复过程类似BERT。整篇文章读起来很舒服,听起来也合理。后面实验部分也很饱满。
fairseq
XLNET
为什么distillation必要 这篇感觉做的挺好的: Understanding Knowledge Distillation in Non-autoregressive Machine Translation
Understanding Knowledge Distillation in Non-autoregressive Machine Translation
多谢~ 学习学习~
简介
non-autogression decoding. 用iterative的方式不断refine已有的翻译结果。第一轮是完全NAT,然后再次基础上,选择confidence差的N个词,mask掉,去对mask的内容进行refine,迭代X轮结束。对mask的恢复过程类似BERT。整篇文章读起来很舒服,听起来也合理。后面实验部分也很饱满。
论文信息
总结
fairseq
的,操作性很好XLNET
里讨论过,有没有借鉴的地方?