ConnectAI-E / DataChat-API

👨‍🌾 基于langchain实现的知识库对话引擎,DataChat的后端核心API接口 A knowledge base dialogue engine based on langchain,
MIT License
15 stars 2 forks source link

V3版本 规划 #29

Open lloydzhou opened 6 months ago

lloydzhou commented 6 months ago
  1. 使用inference API GPTS 支持 向量搜索 a. 通过pipeline自动处理向量化过程(支持huggingface api 以及openai api) b. 通过query_vector_builder在knn查询阶段也使用inference进行向量化
  2. 使用huggingface/text-embeddings-inference 作为api移除之前内置pytouch做向量化的过程,这里可以提升之前知识库做向量化的性能
  3. 利用es 支持 inner hits的特性 改进存储结构
  4. 文档拆分https://github.com/Filimoa/open-parse a. 使用这个开源的open parse项目。对pdf支持挺好。 b. 另外就是这个项目readme提到的 google document ai,以及aws的相关api,还有一个公司的产品(这些都是付费的 $10 / 1000page)
    • Typically priced at ≈ $10 / 1k pages. See here, here and here.
lloydzhou commented 3 months ago

https://github.com/labring/FastGPT/blob/main/python/api/main.py

lloydzhou commented 3 months ago

https://github.com/langgenius/dify/blob/main/api/core/rag/extractor

image

lloydzhou commented 3 months ago

https://python.langchain.com/v0.1/docs/integrations/document_loaders/larksuite/

langchain的loader还是最多的