20-ACL-BPE-Dropout: Simple and Effective Subword Regularization

简介

针对BPE只能确定性的segmentation问题改进，提出bpe-dropout。方法很简单，首先还是学习标准的BPE，然后训练时在BPE merge时，以一定概率p(通常p=0.1)忽略本次merge，而在inference时则使用标准的BPE（等价于p=0）。相比kudo之前提出的subword regularization，bpe-dropout更简单，效果看着也不错。subword regularization需要先训练一个unigram LM做segment，再EM、viterbi生成samples，比较麻烦

有意思的点

因为BPE在切分初始阶段，全是character，忽略merge会导致subword的粒度更细，变向的增加序列长度(p=0.1时，seq长度为p=0的1.25倍）
虽然训练的时候，用bpe-dropout的序列会变长，但inference时还是标准的BPE，并不会导致生成的seq变长，从而增加decoding cost，好评~
使用bpe-drop的一个好处是，模型对vocab size不敏感。而标准BPE训练的模型，通常数据规模大需要大的voacb size，反之则需要小的size
源语和目标语都使用bpe-dropout最好，但单独使用时明显加在encoder上更好
标准的BPE中，高频的substring通常都是以indivisal token的形式存在，而bpe-dropout缓解了这个现象，seq的多样性提升了
标准BPE中，rare word的embedding相邻的通常还是rare word，学不到特别好的semantic；而bpe-dropout的rare word分布跟freq word更接近
对拼写错误的输入robustness很好，好评~

论文信息

Author: Yandex
Paper

总结

本质还是data augmentation，但跟单纯叠数据的角度不同；从seq segmentation的角度出发，引入更多样的segmentation形式，所以应该是有互补性的我觉得。但是paper里没有讨论
方法很简单，对inference友好，好评
对spell error更robust，也很适合线上的MT系统

wangqiangneu / MT-PaperReading

20-ACL-BPE-Dropout: Simple and Effective Subword Regularization #56

简介

有意思的点

论文信息

总结