20-ACL-Improving Non-autoregressive Neural Machine Translation with Monolingual Data - Githubissues

wangqiangneu / MT-PaperReading

Record my paper reading about Machine Translation and other related works.

36 stars 2 forks source link

20-ACL-Improving Non-autoregressive Neural Machine Translation with Monolingual Data #60

Open wangqiangneu opened 4 years ago

wangqiangneu commented 4 years ago

简介

NAT基本都用seq-kd，也就是训练数据是用AT翻译的结果（源语是gold，目标语是AT）。所以一个很自然的想法就是，用更多的source monolingual data，都让AT翻译。。。就这么简单。。。

有意思的点

用了一个gausian kernel做decoder的input，第i个decoder token的输入是$\sum__{i=1}^T x_i \dot K(i, t)$，K是gausian，mean是T/T'*t， variance是学的
position attention module没啥用
把NAT的embedding和encoder用AT来初始化

论文信息

Author: Harvard University
Paper

总结

感觉信息量不大，认可标准的NAT会很容易过拟合到训练数据的问题，这也是为什么类似mask-predict和lev这种在训练阶段引入random的方法能好使的原因（猜测）