20-ICLR-Poly-encoders: architectures and pre-training strategies for fast and accurate multi-sentence scoring

简介

文章是做multi-sentence scoring的：给一个输入句子，有一堆候选句子，给这些候选句子打分，经常在retrival 和dialogue里用。就要考虑性能，又要考虑速度（尤其是候选数量大的情况）。常见两种做法：bi-encoder, cross-encoder

前者是两个句子分别编码，reduce之后形成sentence vector。这样input vector跟candidate vectors点积就可以。这样可以提前把所有的candidate cache起来，inference快
后者是把input跟candidate拼起来，这样两个句子能一直保持interaction，效果好，但是inference慢

论文里提的是结合了上面两个模型的特点，即要性能好，还想速度快，叫poly-encoder，思路就是：candidate还是像bi-encoder里的单独编码成一个vector，保证candidate能cache。而input这块，在最顶层的时候，先把序列长度N压缩到了m (这块还算有点意思)，然后增加了一个attention让cand和input交互，使得input context是candidate-aware的。

我没感觉到这块有啥特别的地方，可能是在这么任务里普遍N很大所以才需要压缩到m的么？不过不是的话，感觉没有这个序列压缩也没关系不是。。

有意思的点

我唯一感兴趣的是他的这种序列压缩的方式，构造m个query，网络自己学的。序列只提供key, value，但query只有m，所以不管序列多长，都会变压缩到m
- 这里m个query (vector)是input-agnostic，这样不同长度的序列都能压缩到相同m个vector，相比较一般地把句子表示成一个向量，还是有优势的

论文信息

Author: Facebook
Paper

总结

本身任务不太熟悉，没get到太多，对立面的序列压缩的方式感觉还不错: query只要变成是网络自己学的就可以，而不是限制为输入

wangqiangneu / MT-PaperReading

20-ICLR-Poly-encoders: architectures and pre-training strategies for fast and accurate multi-sentence scoring #68

简介

有意思的点

论文信息

总结