wangqiangneu / MT-PaperReading

Record my paper reading about Machine Translation and other related works.
36 stars 2 forks source link

20-ICLR-Poly-encoders: architectures and pre-training strategies for fast and accurate multi-sentence scoring #68

Open wangqiangneu opened 4 years ago

wangqiangneu commented 4 years ago

简介

文章是做multi-sentence scoring的:给一个输入句子,有一堆候选句子,给这些候选句子打分,经常在retrivaldialogue里用。就要考虑性能,又要考虑速度(尤其是候选数量大的情况)。常见两种做法:bi-encoder, cross-encoder

论文里提的是结合了上面两个模型的特点,即要性能好,还想速度快,叫poly-encoder,思路就是:candidate还是像bi-encoder里的单独编码成一个vector,保证candidate能cache。而input这块,在最顶层的时候,先把序列长度N压缩到了m (这块还算有点意思),然后增加了一个attention让cand和input交互,使得input context是candidate-aware的。

我没感觉到这块有啥特别的地方,可能是在这么任务里普遍N很大所以才需要压缩到m的么?不过不是的话,感觉没有这个序列压缩也没关系不是。。

有意思的点

论文信息

总结