19-ACL-Soft Contextual Data Augmentation for Neural Machine Translation

简介

做data augmentation的，不过是在bilingual data上做，不像back-translation这种用monolingual data。之前的在bilingual data做数据增强的方式比较简单，包括：随机的swap（在一个窗口内shuffle），随机的drop word，随机的把word替换为另一个词（可以根据vocabulary frequency，或者从一个LM的distribution中采样）。但是基于替换的方法存在一个问题：如果有多个词需要替换的话，candidates的数量是|V|^n，太大了。本质原因是把token作为离散的符号。方法是用soft形式的token表示，实际就是拿一个LM（从左至右）的distribution所对应的expection of word embedding。encoder和decoder都做随机的替换。

论文信息

Author: MSRA
Paper
Code

总结

感觉做法还是很简单，比如替换的时候没有考虑对齐，LM是单向的，没有利用bi-directional的context，替换的单位是词。。。
提高的空间挺大的

wangqiangneu / MT-PaperReading

19-ACL-Soft Contextual Data Augmentation for Neural Machine Translation #48

简介

论文信息

总结