使用 docs/http /api_doc_demo.py 的上传代码测试返回未上传文件。

hiroi-sora / Umi-OCR

OCR software, free and offline. 开源、免费的离线OCR软件。支持截屏/批量导入图片，PDF文档识别，排除水印/页眉页脚，扫描/生成二维码。内置多国语言库。

MIT License

27.56k stars 2.77k forks source link

使用 docs/http /api_doc_demo.py 的上传代码测试返回未上传文件。 #598

Closed Jerryyuanyuan closed 3 months ago

Jerryyuanyuan commented 4 months ago

Issues

[X] I have browsed through the Issues. 我已浏览过Issues，确定没有重复提问。

Umi-OCR version 程序版本

Umi-OCR_Paddle_v2.1.3_beta_1

Windows version 系统版本

win10

OCR plugins Used 使用的OCR插件

PaddleOCR

Reproduction steps 复现步骤

base_url = "http://127.0.0.1:1224"
# 我已修改为本地有的pdf文档
file_path = r"test.pdf"

mission_options = {
    "doc.extractionMode": "fullPage",
}

print("=======================================")
print("===== 1. Upload file, get task ID =====")
url = f"{base_url}/api/doc/upload"
with open(file_path, "rb") as file:
    print("Request URL:", url)
    print("Request Files:", {"file": file})
    print("Request Data:", {"json": json.dumps(mission_options)})
    response = requests.post(url, files={"file": file}, data={"json": json.dumps(mission_options)})

response.raise_for_status()
res_data = json.loads(response.text)
assert res_data["code"] == 100, f"Task submission failed: {res_data}"

id = res_data["data"]
print("Task ID:", id)

执行上述代码，返回结果：

AssertionError Traceback (most recent call last)

in () 18 response.raise_for_status() 19 res_data = json.loads(response.text) ---> 20 assert res_data["code"] == 100, f"Task submission failed: {res_data}" 21 22 id = res_data["data"] AssertionError: Task submission failed: {'code': 101, 'data': '[Error] No file was uploaded.'} ### Problem screenshots or related files (optional) 问题截图或相关文件（可选） _No response_

hiroi-sora commented 4 months ago

你好，请问PDF文件多大？换成别的PDF文件可以吗？

或者，试下将 file_path 换成一个不合法格式的文件（比如 .txt 、 .png 文件），正常情况下应该报错 Task submission failed: {'code': 102, 'data': "[Error] File extension '.txt' is not allowed."} 。如果还是报错 'code': 101 ，说明网络传输有问题。

Jerryyuanyuan commented 4 months ago

你好，请问PDF文件多大？换成别的PDF文件可以吗？

或者，试下将 file_path 换成一个不合法格式的文件（比如 .txt 、 .png 文件），正常情况下应该报错 Task submission failed: {'code': 102, 'data': "[Error] File extension '.txt' is not allowed."} 。如果还是报错 'code': 101 ，说明网络传输有问题。

我找到原因了：文档的名字中有中文不行。改成数字和字母命名就没有问题了。

hiroi-sora commented 4 months ago

文档的名字中有中文不行。改成数字和字母命名就没有问题了。

感谢，已复现。这应该是我这边的缺陷，之后修复。

hiroi-sora commented 4 months ago

对了，能否告诉我，报错'code': 101的时候，文件名是什么？

我使用中文文件名进行测试，虽然会有问题，但是不会报 101 。我试试你的文件名。

Jerryyuanyuan commented 4 months ago

Request Files: {'file': <_io.BufferedReader name='./huanya_ocr/LSJWB4093PZ823424识别单.pdf'>} 是这种前面英文数字后面中文的名字，你试试看。

Jerryyuanyuan commented 4 months ago

我这里一直都是解析到101的报错。补充一点，我是内网调用，而且是用的linux系统写代码去调用win10上部署的识别服务。

hiroi-sora commented 4 months ago

好的，我用相同环境测试一下。

hiroi-sora commented 4 months ago

使用 ubuntu-22.04 调用：正常，不会出现 101 。
使用 centos-7 + python 2.7 调用：异常，复现 101 报错。

请问你的LInux版本和python版本是啥？

Jerryyuanyuan commented 4 months ago

使用 ubuntu-22.04 调用：正常，不会出现 101 。

使用 centos-7 + python 2.7 调用：异常，复现 101 报错。

请问你的LInux版本和python版本是啥？

hiroi-sora commented 4 months ago

你好。经过测试，有一个很简单的方法可以避免此问题。

在 api_doc_demo.py 上传文件时，原本的代码是：

    response = requests.post(
        url, files={"file": file}, data={"json": json.dumps(mission_options)}
    )

现在，请将 {"file": file} 改为双元组 {"file": (temp_name, file)} 。temp_name 是你生成的一个临时文件名，比如 temp_name = "temp.pdf" 。注意：

temp_name 的后缀（如.pdf, .epub, .mobi 等，必须与原文件的后缀一致。
temp_name 必须为纯ascii码（字母、数字）。
如果并发提交多个任务，那么 temp_name 可以重复，服务端内部不会冲突。但是，要保证客户端内不冲突（比如管理好不同任务的下载路径）。
客户端在得到下载文件后，可自行将文件名改回原始文件名。

示例：

    temp_name = "temp" + 原文件的后缀
    response = requests.post(
        url, files={"file": (temp_name,file)}, data={"json": json.dumps(mission_options)}
    )

Jerryyuanyuan commented 4 months ago

好的谢谢

hiroi-sora / Umi-OCR

使用 docs/http /api_doc_demo.py 的上传代码 测试返回未上传文件。 #598

Issues

Umi-OCR version 程序版本

Windows version 系统版本

OCR plugins Used 使用的OCR插件

Reproduction steps 复现步骤

执行上述代码，返回结果：

使用 docs/http /api_doc_demo.py 的上传代码测试返回未上传文件。 #598