Open wangqiangneu opened 4 years ago
NAT基本都用seq-kd,也就是训练数据是用AT翻译的结果(源语是gold,目标语是AT)。所以一个很自然的想法就是,用更多的source monolingual data,都让AT翻译。。。就这么简单。。。
gausian kernel
mask-predict
lev
random
简介
NAT基本都用seq-kd,也就是训练数据是用AT翻译的结果(源语是gold,目标语是AT)。所以一个很自然的想法就是,用更多的source monolingual data,都让AT翻译。。。就这么简单。。。
有意思的点
gausian kernel
做decoder的input,第i个decoder token的输入是$\sum__{i=1}^T x_i \dot K(i, t)$,K是gausian,mean是T/T'*t, variance是学的论文信息
总结
mask-predict
和lev
这种在训练阶段引入random
的方法能好使的原因(猜测)