Record my paper reading about Machine Translation and other related works.
36
stars
2
forks
source link
19-EMNLP-Understanding Data Augmentation in Neural Machine Translation: Two Perspectives towards Generalization #34
Open
wangqiangneu opened 5 years ago
简介
分析data augmentation方法的一致性。动机是说不同的DA方法,比如
RAML
,Switchout
,Self-training
(实际就是distillation),Target-agree
(right-to-left)以及Back-translation
,在不同数据集上的表现不一致(有的这个bleu高,有的那个bleu高),用single-reference的bleu衡量的话,consistence很差。这篇就是想研究用啥手段能measure不同DA方法的consistence。采用两个角度来分析,input sensitive
以及prediction margin
。但是,比较蛋疼的是只在bitext上比较了几种DA的方法,没有在更常用的monolingual data上实验。论文信息
总结
margin
的方法虽然一致性高,但是得到的结果里,有些DA的方法的一致性比baseline还差,所以一致性高低到底和generalization(或者说性能的好坏)到底有啥关系呢?