Open wangqiangneu opened 4 years ago
针对BPE只能确定性的segmentation问题改进,提出bpe-dropout。方法很简单,首先还是学习标准的BPE,然后训练时在BPE merge时,以一定概率p(通常p=0.1)忽略本次merge,而在inference时则使用标准的BPE(等价于p=0)。相比kudo之前提出的subword regularization,bpe-dropout更简单,效果看着也不错。subword regularization需要先训练一个unigram LM做segment,再EM、viterbi生成samples,比较麻烦
bpe-dropout
kudo
subword regularization
bpe-drop
vocab size
简介
针对BPE只能确定性的segmentation问题改进,提出
bpe-dropout
。方法很简单,首先还是学习标准的BPE,然后训练时在BPE merge时,以一定概率p(通常p=0.1)忽略本次merge,而在inference时则使用标准的BPE(等价于p=0)。相比kudo
之前提出的subword regularization
,bpe-dropout
更简单,效果看着也不错。subword regularization
需要先训练一个unigram LM做segment,再EM、viterbi生成samples,比较麻烦有意思的点
bpe-dropout
的序列会变长,但inference时还是标准的BPE,并不会导致生成的seq变长,从而增加decoding cost,好评~bpe-drop
的一个好处是,模型对vocab size
不敏感。而标准BPE训练的模型,通常数据规模大需要大的voacb size,反之则需要小的sizebpe-dropout
最好,但单独使用时明显加在encoder上更好bpe-dropout
缓解了这个现象,seq的多样性提升了bpe-dropout
的rare word分布跟freq word更接近论文信息
总结