Closed kuschzzp closed 1 month ago
你可以改为使用openai 来测试这个场景,排除是模型的问题还是代码的问题,但是我觉得大概率是模型的问题。
经过实测中文文档分词切片效果不是太好,目前判断可能跟DocumentSplitter
有关,langchat
使用的时langchain4j
的默认实现,在默认实现中,是按照paragraph -> line -> sentence -> word 的顺序来处理,直到满足设定的token要求。在这个过程中,DocumentBySentenceSplitter
使用的是英文分词模型/opennlp/opennlp-en-ud-ewt-sentence-1.0-1.9.3.bin
,感觉效果不好,向量搜索命中匹配度较差。
目前我在尝试优化
经过实测中文文档分词切片效果不是太好,目前判断可能跟
DocumentSplitter
有关,langchat
使用的时langchain4j
的默认实现,在默认实现中,是按照paragraph -> line -> sentence -> word 的顺序来处理,直到满足设定的token要求。在这个过程中,DocumentBySentenceSplitter
使用的是英文分词模型/opennlp/opennlp-en-ud-ewt-sentence-1.0-1.9.3.bin
,感觉效果不好,向量搜索命中匹配度较差。 目前我在尝试优化
好的辛苦
如下图,使用的文档是从弱智吧语录里面找的几句。