chatchat-space / Langchain-Chatchat

Langchain-Chatchat(原Langchain-ChatGLM)基于 Langchain 与 ChatGLM, Qwen 与 Llama 等语言模型的 RAG 与 Agent 应用 | Langchain-Chatchat (formerly langchain-ChatGLM), local knowledge based LLM (like ChatGLM, Qwen and Llama) RAG and Agent app with langchain
Apache License 2.0
32.05k stars 5.57k forks source link

[BUG] 上传知识库文件Eml文件类型做向量化无法正确读取邮件内容 #5083

Closed github5588 closed 3 hours ago

github5588 commented 3 hours ago

问题描述 / Problem Description 上传知识库文件Eml文件类型做向量化无法正确读取邮件内容

复现问题的步骤 / Steps to Reproduce

  1. 执行 '...' 知识库管理 '...'
  2. 点击 '...' 添加文件到知识库'...'
  3. 滚动到 '...' 上传的文件列表 '...'
  4. 问题出现 Eml文件无法正确的提取内容导致无法正常的进行向量化

预期的结果 / Expected Result 描述应该出现的结果 创建向量成功.

实际结果 / Actual Result 描述实际发生的结果 / 没有创建向量.

环境信息 / Environment Information

附加信息 / Additional Information 在调试到 unstructred 库的partition下的email.py partition_email函数下的发现下面这处代码会导致误判邮件带有附件无法正确的获取邮件内容 if part.get_content_disposition() is not None: continue

github5588 commented 3 hours ago

这个问题应该是 unstructred 库的问题