521xueweihan / HelloGitHub

:octocat: 分享 GitHub 上有趣、入门级的开源项目。Share interesting, entry-level open source projects on GitHub.
https://hellogithub.com
93.34k stars 9.64k forks source link

【开源自荐】Denser Retriever: 企业级AI检索器,构建自己专属的RAG应用和聊天机器人🤖 #2781

Open zhiheng-huang opened 4 months ago

zhiheng-huang commented 4 months ago

推荐项目

我们会持续跟新增加新的features.

Imaanshah commented 4 months ago

推荐项目

  • 类别:Python
  • 项目标题:Denser Retriever: 企业级AI检索器,构建自己专属的RAG应用和聊天机器人🤖
  • 项目描述:Denser Retriever是一个企业级AI检索器,旨在简化应用程序的集成,确保精确度。你是否还在苦恼大型语言模型的「幻觉」问题?是否希望构建自己网站或者自己需求专属的聊天机器人?是否正在寻找简单易用且准确性高的RAG模型? Denser Retriever 这款工具帮到你!
  • 亮点:

    • 支持关键词搜索、向量搜索和机器学习模型重排等异构检索器
    • 利用xgboost机器学习技术有效结合异构检索器
    • 在MTEB检索基准测试上达到最先进的精确度
    • 展示如何使用Denser检索器为聊天机器人和语义搜索等端到端应用提供动力
    • 提供了详细的开发文档和安装指南
    • 表现评估. 我们在MTEB数据集上的实验表明,通过xgboost模型(记作ES+VS+RR_n)将关键词搜索、向量搜索和重排序器结合,可以显著提升向量搜索(VS)的基线(snowflake-arctic-embed-m模型, 在MTEB/BEIR排行榜达到了最先进的性能)。ES+VS+RR_n模型在15个MTEB数据集上达到了最高的NDCG@10得分56.47,相比snowflake模型(NDCG@10得分54.24)绝对提升了2.23,相对提升了4.11%。在广泛认可的MSMARCO基准数据集上,ES+VS+RR_n模型将snowflake模型的NDCG@10得分从41.77提升到47.23,带来了13.07%的相对提升。
  • 示例代码:(可选)

  • 截图:(可选)gif/png/jpg mteb_ndcg_plot

  • 后续更新计划:

我们会持续跟新增加新的features.