hiroi-sora / Umi-OCR

OCR software, free and offline. 开源、免费的离线OCR软件。支持截屏/批量导入图片,PDF文档识别,排除水印/页眉页脚,扫描/生成二维码。内置多国语言库。
MIT License
26.78k stars 2.69k forks source link

图片请求识别接口,参数携带的是返回 text,实际返回的是 Unicode编码 #684

Open LiRongming321 opened 2 weeks ago

LiRongming321 commented 2 weeks ago

Issues

Umi-OCR version 程序版本

2.1.3

Windows version 系统版本

win10

OCR plugins Used 使用的OCR插件

PaddleOCR

Reproduction steps 复现步骤

接口:http://127.0.0.1:1224/api/ocr "options": { "ocr.language": "models/config_chinese.txt", "ocr.cls": false, "ocr.limit_side_len": 960, "tbpu.parser": "multi_para", "data.format": "text" } } 如果识别文本中有数字,返回的是数字,返回值中既有Umicode,也有数字,不是存文本

Problem screenshots or related files (optional) 问题截图或相关文件(可选)

No response

hiroi-sora commented 2 weeks ago

你好,可能你的理解稍有误差。

"data.format" 控制返回值的 数据类型 。如果为 dict ,那么返回值中 ["data"] 是字典。如果为 text ,那么 ["data"] 是字符串。

不管数据类型是text还是dict,它们都是 json中的一个元素 。而 json 本身是用 Unicode 编码的,即text或者dict中的文本都是Unicode编码。

实际上,文本编码对于你应该是透明的。只要你用任何编程语言中的json解析器去导入json,解析器都会自动将unicode转换为人类可读的编码。除非你直接阅读原始json结果,或者用自己开发的json解析器,才会见到unicode。