Open wangqiangneu opened 5 years ago
做token segmentation的。本来看题目觉得挺有意思,脑海中闪现很多想法,结果一看文章,感觉有点水呀。基本思路是,共享一个encoder,对于target language提供多个segmentation的方式(实际就是BPE的merge operation数不同),每一种segmentation的方式都有一个独立的decoder,然后一起训练,说是比单独训要好。最后每一种segmentation的结果可以用system combination的方式做个集成
system combination
hello
he@@
llo
sum
简介
做token segmentation的。本来看题目觉得挺有意思,脑海中闪现很多想法,结果一看文章,感觉有点水呀。基本思路是,共享一个encoder,对于target language提供多个segmentation的方式(实际就是BPE的merge operation数不同),每一种segmentation的方式都有一个独立的decoder,然后一起训练,说是比单独训要好。最后每一种segmentation的结果可以用
system combination
的方式做个集成论文信息
总结
hello
当做一个词,但实际上也可以拆成he@@
+llo
。虽然对hello
而言,在inference的时候只会被切成hello
,不会有其他形式的存在。但是he@@
和llo
可能会在别的地方出现,把他们一起考虑进来做joint learning听起来是make sense的sum
起来,但是这种结合就很浅了