Record my paper reading about Machine Translation and other related works.
36
stars
2
forks
source link
20-ICLR-Poly-encoders: architectures and pre-training strategies for fast and accurate multi-sentence scoring #68
Open
wangqiangneu opened 4 years ago
简介
文章是做multi-sentence scoring的:给一个输入句子,有一堆候选句子,给这些候选句子打分,经常在
retrival
和dialogue
里用。就要考虑性能,又要考虑速度(尤其是候选数量大的情况)。常见两种做法:bi-encoder, cross-encoderinteraction
,效果好,但是inference慢论文里提的是结合了上面两个模型的特点,即要性能好,还想速度快,叫poly-encoder,思路就是:candidate还是像bi-encoder里的单独编码成一个vector,保证candidate能cache。而input这块,在最顶层的时候,先把序列长度N压缩到了m (这块还算有点意思),然后增加了一个attention让cand和input交互,使得input context是candidate-aware的。
我没感觉到这块有啥特别的地方,可能是在这么任务里普遍N很大所以才需要压缩到m的么?不过不是的话,感觉没有这个序列压缩也没关系不是。。
有意思的点
论文信息
总结