FlagOpen / FlagEmbedding

Retrieval and Retrieval-augmented LLMs
MIT License
6.63k stars 477 forks source link

句子级别Colbert结合 #648

Open xiaofan-luan opened 4 months ago

xiaofan-luan commented 4 months ago

Colbert的思路是将每个token存成embedding,做late interaction,问题是消耗过多存储

Dense embedding则是过早的interaction,导致查询精度下降。

有没有可能做Sentence level的colbert,单个chunk可能会有10-100个sentence embedding,然后query用token level embedding然后做interaction?

staoxiao commented 4 months ago

是一种可行的策略。可以参考poly-encoder:https://arxiv.org/pdf/1905.01969.pdf