句子级别Colbert结合

FlagOpen / FlagEmbedding

Retrieval and Retrieval-augmented LLMs

MIT License

6.63k stars 477 forks source link

Open xiaofan-luan opened 4 months ago

xiaofan-luan commented 4 months ago

Colbert的思路是将每个token存成embedding，做late interaction，问题是消耗过多存储

Dense embedding则是过早的interaction，导致查询精度下降。

有没有可能做Sentence level的colbert，单个chunk可能会有10-100个sentence embedding，然后query用token level embedding然后做interaction？

staoxiao commented 4 months ago

是一种可行的策略。可以参考poly-encoder：https://arxiv.org/pdf/1905.01969.pdf