本地启动、配置了ollama自部署的qwen2:7b模型，使用文档分析功能感觉在乱回答。

TyCoding / langchat

LangChat: Java LLMs/AI Project, Supports Multi AI Providers( 智谱清言 / 阿里通义 / 百度千帆 / DeepSeek / 抖音豆包 / 零一万物 / 讯飞星火 / OpenAI / Gemini / Ollama / Azure / Claude 等大模型), Java生态下AI大模型产品解决方案，快速构建企业级AI知识库、AI机器人应用

http://langchat.cn

GNU Affero General Public License v3.0

488 stars 101 forks source link

本地启动、配置了ollama自部署的qwen2:7b模型，使用文档分析功能感觉在乱回答。 #17

Closed kuschzzp closed 1 month ago

kuschzzp commented 1 month ago

如下图，使用的文档是从弱智吧语录里面找的几句。

TyCoding commented 1 month ago

你可以改为使用openai 来测试这个场景，排除是模型的问题还是代码的问题，但是我觉得大概率是模型的问题。

muzhix commented 1 month ago

经过实测中文文档分词切片效果不是太好，目前判断可能跟DocumentSplitter有关，langchat使用的时langchain4j的默认实现，在默认实现中，是按照paragraph -> line -> sentence -> word 的顺序来处理，直到满足设定的token要求。在这个过程中，DocumentBySentenceSplitter使用的是英文分词模型/opennlp/opennlp-en-ud-ewt-sentence-1.0-1.9.3.bin，感觉效果不好，向量搜索命中匹配度较差。目前我在尝试优化

TyCoding commented 1 month ago

经过实测中文文档分词切片效果不是太好，目前判断可能跟DocumentSplitter有关，langchat使用的时langchain4j的默认实现，在默认实现中，是按照paragraph -> line -> sentence -> word 的顺序来处理，直到满足设定的token要求。在这个过程中，DocumentBySentenceSplitter使用的是英文分词模型/opennlp/opennlp-en-ud-ewt-sentence-1.0-1.9.3.bin，感觉效果不好，向量搜索命中匹配度较差。目前我在尝试优化

好的辛苦