1Panel-dev / MaxKB

🚀 基于大语言模型和 RAG 的知识库问答系统。开箱即用、模型中立、灵活编排,支持快速嵌入到第三方业务系统。
https://maxkb.cn/
GNU General Public License v3.0
10.92k stars 1.43k forks source link

[BUG] 知识库上传docx文件后,图片未正常识别导入 #1380

Open Henry-Shaw opened 4 days ago

Henry-Shaw commented 4 days ago

联系方式

No response

MaxKB 版本

1.6.1

问题描述

知识库导入由doc文件批量转换后的docx文件,文档中的图片未能正常识别

重现步骤

  1. 使用程序转换doc文件为docx文件。参考代码

    def convert_doc_to_docx(doc_file_path, docx_file_path):
    """
    将 .doc 文件转换为 .docx 文件。
    
    :param doc_file_path: 输入的 .doc 文件路径
    :param docx_file_path: 输出的 .docx 文件路径
    """
    # 创建 Word 应用程序对象
    word = win32com.client.Dispatch("Kwps.Application")
    try:
        # 后台运行,不显示界面
        word.Visible = True
        # 打开 .doc 文件
        doc = word.Documents.Open(doc_file_path)
        # 另存为 .docx 格式
        doc.SaveAs(docx_file_path, FileFormat=12)  # 通过宏录制,确定wps中12表示 .docx 格式
        # 关闭文档
        doc.Close()
    finally:
        # 关闭 Word 应用程序
        # word.Quit()
        pass
  2. 转换后的文档中的docx的xml类似以下结果 微信截图_20241015192312
  3. 由于源代码中未实现对的转换,导致图片丢失 微信图片_20241015193723

期待的正确结果

实现对wps转换的docx文档进行支持

相关日志输出

No response

附加信息

No response

baixin513 commented 3 days ago

感谢支持!