chatchat-space / Langchain-Chatchat

Langchain-Chatchat(原Langchain-ChatGLM)基于 Langchain 与 ChatGLM, Qwen 与 Llama 等语言模型的 RAG 与 Agent 应用 | Langchain-Chatchat (formerly langchain-ChatGLM), local knowledge based LLM (like ChatGLM, Qwen and Llama) RAG and Agent app with langchain
Apache License 2.0
31.23k stars 5.45k forks source link

pdf加载出错,显示 file is not a zip file #4929

Open kylinwn opened 1 week ago

kylinwn commented 1 week ago

pdf 加载出错,显示 file is not a zip file

2024-09-09 10:28:12.630 | INFO | chatchat.server.knowledge_base.utils:file2docs:336 - RapidOCRPDFLoader used for C:\Users\A01598\NewChat\data\knowledge_base\GWB\content\10KV变电所0.4KV侧设备预防性维修作业基准(2024.6.26).pdf RapidOCRPDFLoader context page index: 2: 100%|█████████████████████████| 3/3 [00:00<00:00, 23.82it/s] 2024-09-09 10:28:16.958 | ERROR | chatchat.server.knowledge_base.utils:files2docs_in_thread_file2docs:419 - BadZipFile: 从文件 GWB/10KV变电所0.4KV侧设备预防性维修作业基准(2024.6.26).pdf 加载文档时出 错:File is not a zip file 2024-09-09 10:28:16.969 | INFO | chatchat.server.knowledge_base.kb_cache.faiss_cache:save:40 - 已 将向量库 ('GWB', 'bge-m3_latest') 保存到磁盘

预期的结果 / Expected Result 描述应该出现的结果 / Describe the expected result.

实际结果 / Actual Result 描述实际发生的结果 / Describe the actual result.

环境信息 / Environment Information

==

948024326 commented 1 week ago

同样遇到这个问题了

948024326 commented 1 week ago

image

我解决了,我这样放nltk就没出现了, 知识库会话也正常了

kylinwn commented 6 days ago

啥意思,我Windows下PIP部署的,怎么搞啊老哥 图片

948024326 commented 6 days ago

啥意思,我Windows下PIP部署的,怎么搞啊老哥 图片

你按我那样创建试一试, 根目录下创建 data/nltk_data, 然后把nltk里面三个文件夹复制进去再把根目录的nltk文件夹删了试一下

kylinwn commented 6 days ago

就是我先创建data文件夹,然后把nltk_data文件夹移动进去是这个意思吗?、我看我倒数第五个文件夹就是nltk_data

948024326 commented 6 days ago

就是我先创建data文件夹,然后把nltk_data文件夹移动进去是这个意思吗?、我看我倒数第五个文件夹就是nltk_data

是的你试试,感觉核心是可能代码拉早了, 他好像最新版本解决了这个问题已经, 还不行可以直接拉最新

kylinwn commented 6 days ago

我这就是拉的最新版本的,麻了,啥情况到底