Closed zixiaotan21 closed 6 months ago
当您使用Qwen-14B模型在本地部署进行知识库问答时,遇到的问题可能与模型的大规模推理能力有关。这种情况下,第一次提问无法得到回答,而多次提问后才能正确回答的现象,可能是由于模型首次加载、文档的缓存以及重新排序过程的优化等因素导致的性能不一致。为了提高效率,可能的优化措施包括搜索结果的缓存、语言模型的缓存以及提高文档处理的效率。
具体的代码实现和进一步的讨论可以在Langchain-Chatchat的GitHub页面找到。此外,以下是一些相关问题的讨论,可能对您有所帮助:
如果您有任何其他问题或需要进一步的澄清,请随时告诉我。
可能你问的太快了,第一次需要启动embed模型
问题描述 / Problem Description 知识库问答,提问同一个问题,第一次问无法回答,第二次问,或者多次提问之后,才能正确回答 使用的是Qwen-14B模型,在本地部署,是大模型推理能力问题导致的吗?
复现问题的步骤 / Steps to Reproduce