19-EMNLP-Understanding Data Augmentation in Neural Machine Translation: Two Perspectives towards Generalization

wangqiangneu / MT-PaperReading

Record my paper reading about Machine Translation and other related works.

36 stars 2 forks source link

简介

分析data augmentation方法的一致性。动机是说不同的DA方法，比如RAML, Switchout, Self-training(实际就是distillation)，Target-agree(right-to-left)以及Back-translation，在不同数据集上的表现不一致（有的这个bleu高，有的那个bleu高），用single-reference的bleu衡量的话，consistence很差。这篇就是想研究用啥手段能measure不同DA方法的consistence。采用两个角度来分析，input sensitive以及prediction margin。但是，比较蛋疼的是只在bitext上比较了几种DA的方法，没有在更常用的monolingual data上实验。

论文信息

Author: HIT
Paper

总结

老实说，这两个衡量consistent的方法，本身没啥惊喜，挺容易想的
最后的结论也觉得怪怪的，比如margin的方法虽然一致性高，但是得到的结果里，有些DA的方法的一致性比baseline还差，所以一致性高低到底和generalization(或者说性能的好坏）到底有啥关系呢？
DA对low-frequence的token有帮助，这个结论也没啥新价值呢

嗯~总结得很好，大部分认可：

“挺容易想的”：确实，基本了解NN泛化领域研究的是很容易借用过来；其实，前期做了很多更直观的分析，例如：缓解的exposure bias，输入token扰动的鲁棒性等，都没有很一致的结论——DA未必比不加DA强，原因可能在于不同DA方法在baseline上的BLEU涨得不是很明显吧；所以，再mono上做分析很重要，但是就需要各自分析KD和Data noising两种DA范式了；
DA对low-frequency的帮助确实比较鸡肋，当时确实不知道再怎么给出更有insight的分析了；但是回想，其实DA不一定是让低频词翻译的precision更好，特别是KD类方法，因为KD会使得augment的部分更多是高频现象，或许是使得高频的翻译更加context-independent了，不受低频现象的坏影响，这块其实还挺值得研究的；
目前large-scale NMT上，DA应该是最有效的方法（没有之一）了，但是怎么很principled地去研究DA为什么有效，进而去做什么data去选来做DA进行incremental tuning，改善什么常见错误，是很有理论和实用价值的吧；

wangqiangneu / MT-PaperReading

19-EMNLP-Understanding Data Augmentation in Neural Machine Translation: Two Perspectives towards Generalization #34

简介

论文信息

总结