wangqiangneu / MT-PaperReading

Record my paper reading about Machine Translation and other related works.
36 stars 2 forks source link

20-AAAI-Fine-Tuning by Curriculum Learning for Non-Autoregressive Neural Machine Translation #52

Open wangqiangneu opened 4 years ago

wangqiangneu commented 4 years ago

简介

想把AT的model transfer到NAT上,算是一种curriculum learning。AT和NAT在训练的时候主要是两个地方不同,一个是decoder input,另一个是decoder self-attention的mask。前者用CL的方式是先AT的decoder input,然后逐渐的替换一些NAT的decoder input (token level比直接sentence level效果要好,粒度更小,学的更好)。而后者是等decoder input中的NAT token的比重足够大时(>0.6)开始启用NAT的mask方式。整个训练过程可以分三部分,1. AT 2. CL 3. NAT。看table 2的training step,我有点惊。。为了训最后的NAT,wmt en-de数据集上最终更新了1.5M step你敢信?太夸张了。。。

论文信息

总结