做data augmentation的,不过是在bilingual data上做,不像back-translation这种用monolingual data。之前的在bilingual data做数据增强的方式比较简单,包括:随机的swap(在一个窗口内shuffle),随机的drop word,随机的把word替换为另一个词(可以根据vocabulary frequency,或者从一个LM的distribution中采样)。但是基于替换的方法存在一个问题:如果有多个词需要替换的话,candidates的数量是|V|^n,太大了。本质原因是把token作为离散的符号。方法是用soft形式的token表示,实际就是拿一个LM(从左至右)的distribution所对应的expection of word embedding。encoder和decoder都做随机的替换。
简介
做data augmentation的,不过是在bilingual data上做,不像back-translation这种用monolingual data。之前的在bilingual data做数据增强的方式比较简单,包括:随机的swap(在一个窗口内shuffle),随机的drop word,随机的把word替换为另一个词(可以根据vocabulary frequency,或者从一个LM的distribution中采样)。但是基于
替换
的方法存在一个问题:如果有多个词需要替换的话,candidates的数量是|V|^n,太大了。本质原因是把token作为离散的符号。方法是用soft形式的token表示,实际就是拿一个LM(从左至右)的distribution所对应的expection of word embedding。encoder和decoder都做随机的替换。论文信息
总结