Open wangqiangneu opened 5 years ago
做non-autoregressive translation的。基本想法是,把ART(Auto Regressive Translation)作为teacher去教NART的student。虽然distillation data已经包含ART教NART了。具体来说,主要从两方面学:hidden state和attention。这两个点角度倒是很普通了,是常规做法。属于single-stage的方法,速度快,最后需要ART模型rescore一下
ART
NART
hidden state
attention
repeated word
L_s
C
L_t
简介
做non-autoregressive translation的。基本想法是,把
ART
(Auto Regressive Translation)作为teacher去教NART
的student。虽然distillation data已经包含ART
教NART
了。具体来说,主要从两方面学:hidden state
和attention
。这两个点角度倒是很普通了,是常规做法。属于single-stage的方法,速度快,最后需要ART模型rescore一下hidden state
的时候不是直接去regressive,而是学不同词之间的cosine similarity。作者的观点是:第一,直接regressive很难,因为student和teacher是两个不同的网络,差异比较大;第二是说,因为NART的主要问题之一是repeated word
,就是因为词和词之间的hidden state很相似,那作者希望,如果ART某两个词相似度小,而NART这两个词相似度却很高(很有可能是重复词),就要进行惩罚L_s
和一个预先统计值C
就确定了译文长度L_t
。如果是beam>1的话,再以L_t
为中心,作为扩一下论文信息
总结