wangqiangneu / MT-PaperReading

Record my paper reading about Machine Translation and other related works.
36 stars 2 forks source link

19-ACL-Soft Contextual Data Augmentation for Neural Machine Translation #48

Open wangqiangneu opened 4 years ago

wangqiangneu commented 4 years ago

简介

做data augmentation的,不过是在bilingual data上做,不像back-translation这种用monolingual data。之前的在bilingual data做数据增强的方式比较简单,包括:随机的swap(在一个窗口内shuffle),随机的drop word,随机的把word替换为另一个词(可以根据vocabulary frequency,或者从一个LM的distribution中采样)。但是基于替换的方法存在一个问题:如果有多个词需要替换的话,candidates的数量是|V|^n,太大了。本质原因是把token作为离散的符号。方法是用soft形式的token表示,实际就是拿一个LM(从左至右)的distribution所对应的expection of word embedding。encoder和decoder都做随机的替换。

论文信息

总结