TyCoding / langchat

LangChat: Java LLMs/AI Project, Supports Multi AI Providers( 智谱清言 / 阿里通义 / 百度千帆 / DeepSeek / 抖音豆包 / 零一万物 / 讯飞星火 / OpenAI / Gemini / Ollama / Azure / Claude 等大模型), Java生态下AI大模型产品解决方案,快速构建企业级AI知识库、AI机器人应用
http://langchat.cn
GNU Affero General Public License v3.0
488 stars 101 forks source link

本地启动、配置了ollama自部署的qwen2:7b模型,使用文档分析功能感觉在乱回答。 #17

Closed kuschzzp closed 1 month ago

kuschzzp commented 1 month ago

如下图,使用的文档是从弱智吧语录里面找的几句。

image
TyCoding commented 1 month ago

你可以改为使用openai 来测试这个场景,排除是模型的问题还是代码的问题,但是我觉得大概率是模型的问题。

muzhix commented 1 month ago

经过实测中文文档分词切片效果不是太好,目前判断可能跟DocumentSplitter有关,langchat使用的时langchain4j的默认实现,在默认实现中,是按照paragraph -> line -> sentence -> word 的顺序来处理,直到满足设定的token要求。在这个过程中,DocumentBySentenceSplitter使用的是英文分词模型/opennlp/opennlp-en-ud-ewt-sentence-1.0-1.9.3.bin,感觉效果不好,向量搜索命中匹配度较差。 目前我在尝试优化

TyCoding commented 1 month ago

经过实测中文文档分词切片效果不是太好,目前判断可能跟DocumentSplitter有关,langchat使用的时langchain4j的默认实现,在默认实现中,是按照paragraph -> line -> sentence -> word 的顺序来处理,直到满足设定的token要求。在这个过程中,DocumentBySentenceSplitter使用的是英文分词模型/opennlp/opennlp-en-ud-ewt-sentence-1.0-1.9.3.bin,感觉效果不好,向量搜索命中匹配度较差。 目前我在尝试优化

好的辛苦