BrambleXu / knowledge-graph-learning

A curated list of awesome knowledge graph tutorials, projects and communities.
MIT License
743 stars 120 forks source link

arXiv-2022-An Analysis of Fusion Functions for Hybrid Retrieval #374

Open BrambleXu opened 2 months ago

BrambleXu commented 2 months ago

Summary:

本文分析了文本搜索中混合搜索的融合函数,具体探讨了词汇搜索和语义搜索的融合方法,包括凸结合(Convex Combination, CC)和相互排名融合(Reciprocal Rank Fusion, RRF),并揭示了它们各自的优点和潜在问题。研究发现,RRF对参数敏感,而CC对分数正则化的选择一般不敏感,CC在域内和域外设置中均优于RRF。此外,CC在少量训练例的情况下,能够有效调整目标域唯一参数。

Resource:

Paper information:

Notes:

重要要点 混合搜索的重要性:

词汇搜索和语义搜索互为补充,融合可以提高搜索质量。 融合方法的比较:

比较了凸结合(CC)和相互排名融合(RRF)两种融合方法。 CC对分数正则化一般不敏感,而RRF对参数敏感。 CC的优势:

CC在域内和域外设置中均表现出优于RRF的性能。 CC能够在少量训练数据情况下高效调整参数。 RRF的问题:

RRF对参数敏感,尤其在域外数据集上难以泛化。 忽略分数分布,可能丢弃重要信息。 正则化的作用:

在凸结合中,分数正则化很重要,但具体正则化方法选择并不那么重要。 结论 本文详细分析了混合搜索中融合函数的特性,表明凸结合(CC)优于相互排名融合(RRF)。CC对分数正则化选择一般不敏感,能在少量训练例下高效调整,且在域内外数据集中表现一致。而RRF对参数敏感,尤其在域外数据集上难以泛化。本文的分析为混合搜索研究提供了重要见解。

Model Graph:

Result:

Thoughts:

下面是Elasticsearch的文章,提供了CC和RBF两种融合方法

Elasticsearch Hybrid Search

Next Reading:

BrambleXu commented 2 months ago

https://zilliz.com/blog/metadata-filtering-hybrid-search-or-agent-in-rag-applications

image