19-IWSLT-Multitask Learning For Different Subword Segmentations In Neural Machine Translation

简介

做token segmentation的。本来看题目觉得挺有意思，脑海中闪现很多想法，结果一看文章，感觉有点水呀。基本思路是，共享一个encoder，对于target language提供多个segmentation的方式（实际就是BPE的merge operation数不同），每一种segmentation的方式都有一个独立的decoder，然后一起训练，说是比单独训要好。最后每一种segmentation的结果可以用system combination的方式做个集成

论文信息

Author: CMU
Paper

总结

实验比较水，看看就好
但是我觉得用multi-task做segmentation是有前途的。一个简单的思路，例子临时有点没想好，但就是这个意思。比如说现有的BPE把hello当做一个词，但实际上也可以拆成he@@ +llo。虽然对hello而言，在inference的时候只会被切成hello，不会有其他形式的存在。但是he@@和llo可能会在别的地方出现，把他们一起考虑进来做joint learning听起来是make sense的
之前应该是有工作类似上面的idea，把多种segmentation的embedding简单的sum起来，但是这种结合就很浅了
从某种形式上讲，这样的multiple segmentation实际也是一种数据增强
multiple segmentation的时候，还可以加个loss，让不同的segmentation之间的什么东西应该是一致的

wangqiangneu / MT-PaperReading

19-IWSLT-Multitask Learning For Different Subword Segmentations In Neural Machine Translation #26

简介

论文信息

总结