20-AAAI-Fine-Tuning by Curriculum Learning for Non-Autoregressive Neural Machine Translation

简介

想把AT的model transfer到NAT上，算是一种curriculum learning。AT和NAT在训练的时候主要是两个地方不同，一个是decoder input，另一个是decoder self-attention的mask。前者用CL的方式是先AT的decoder input，然后逐渐的替换一些NAT的decoder input (token level比直接sentence level效果要好，粒度更小，学的更好)。而后者是等decoder input中的NAT token的比重足够大时(>0.6)开始启用NAT的mask方式。整个训练过程可以分三部分，1. AT 2. CL 3. NAT。看table 2的training step，我有点惊。。为了训最后的NAT，wmt en-de数据集上最终更新了1.5M step你敢信？太夸张了。。。

有意思的点：
- 直接从pretrained AT模型开始finetune训NAT效果并不是很好

论文信息

Author: MSRA
Paper
Code 目前是空的

总结

我之前尝试做的不是用CL这种finetune的方式做，而是把AT和NAT joint learning的方式做，当时感觉并没带来啥提升。现在想想应该还是我自己的问题，比如我没考虑decoder input的问题（在我的实现中NAT的decoder input全是mask，并不是像类似这篇文章这种是source sentence的copy），可能让AT的decoder input里随机放一些mask会好些？另一个点是更新次数的问题，比如这篇都能训1.5M次了。。太夸张了。。。我是单纯的用同样的设置跟baseline比，可能训的时间长点会更好？
至于这篇的工作，至少是training step这块我觉得有点扯了，不是很实用的感觉呢。。但是我认同这个思想，就是想把AT作为一个辅助去帮助NAT的训练

wangqiangneu / MT-PaperReading

20-AAAI-Fine-Tuning by Curriculum Learning for Non-Autoregressive Neural Machine Translation #52

简介

论文信息

总结