Open wangqiangneu opened 4 years ago
想把AT的model transfer到NAT上,算是一种curriculum learning。AT和NAT在训练的时候主要是两个地方不同,一个是decoder input,另一个是decoder self-attention的mask。前者用CL的方式是先AT的decoder input,然后逐渐的替换一些NAT的decoder input (token level比直接sentence level效果要好,粒度更小,学的更好)。而后者是等decoder input中的NAT token的比重足够大时(>0.6)开始启用NAT的mask方式。整个训练过程可以分三部分,1. AT 2. CL 3. NAT。看table 2的training step,我有点惊。。为了训最后的NAT,wmt en-de数据集上最终更新了1.5M step你敢信?太夸张了。。。
简介
想把AT的model transfer到NAT上,算是一种curriculum learning。AT和NAT在训练的时候主要是两个地方不同,一个是decoder input,另一个是decoder self-attention的mask。前者用CL的方式是先AT的decoder input,然后逐渐的替换一些NAT的decoder input (token level比直接sentence level效果要好,粒度更小,学的更好)。而后者是等decoder input中的NAT token的比重足够大时(>0.6)开始启用NAT的mask方式。整个训练过程可以分三部分,1. AT 2. CL 3. NAT。看table 2的training step,我有点惊。。为了训最后的NAT,wmt en-de数据集上最终更新了1.5M step你敢信?太夸张了。。。
论文信息
总结