chatchat-space / Langchain-Chatchat

Langchain-Chatchat(原Langchain-ChatGLM)基于 Langchain 与 ChatGLM, Qwen 与 Llama 等语言模型的 RAG 与 Agent 应用 | Langchain-Chatchat (formerly langchain-ChatGLM), local knowledge based LLM (like ChatGLM, Qwen and Llama) RAG and Agent app with langchain
Apache License 2.0
31.45k stars 5.48k forks source link

[BUG] 无法将ppt/pptx文件向量化 #4968

Closed iceyymoon closed 1 week ago

iceyymoon commented 1 week ago

问题描述 / Problem Description 在上传ppt文件时(其他格式的文件都正常),可以上传到知识库,但是无法将其向量化,报错如下:

2024-09-24 14:29:45.972 | ERROR | chatchat.server.knowledge_base.utils:files2docs_in_thread_file2docs:419 - ModuleNotFoundError: 从文件 test/20181007 marco检出下刀短纵报废报告.ppt 加载文档时出错:No module named 'pptx'

948024326 commented 1 week ago

好像不支持pptx 得转成ppt 但是是v0.2版本, 也可以试下装下这个库看看

iceyymoon commented 1 week ago

装了pptx包后报这个错 0.0

2024-09-24 15:49:54.969 | ERROR | chatchat.server.knowledge_base.utils:files2docs_in_thread_file2docs:419 - KeyError: 从文件 test/20181007 marco检出下刀短纵报废报告 - 韦伟 0L1.ppt 加载文档时出错:"no relationship of type 'http://schemas.openxmlformats.org/officeDocument/2006/relationships/officeDocument' in collection"

iceyymoon commented 1 week ago

没事了,好像是这个ppt文件损坏了

948024326 commented 1 week ago

没事了,好像是这个ppt文件损坏了

好的