两个问题 1.图片识别文字坐标不精准 2.返回文本编码是unicode

hiroi-sora / Umi-OCR

OCR software, free and offline. 开源、免费的离线OCR软件。支持截屏/批量导入图片，PDF文档识别，排除水印/页眉页脚，扫描/生成二维码。内置多国语言库。

MIT License

23.05k stars 2.35k forks source link

两个问题 1.图片识别文字坐标不精准 2.返回文本编码是unicode #502

Closed sreedom1 closed 1 month ago

sreedom1 commented 2 months ago

Issues

[X] I have browsed through the Issues. 我已浏览过Issues，确定没有重复提问。

Umi-OCR version 程序版本

2.1.1

Windows version 系统版本

windows10

OCR plugins Used 使用的OCR插件

No response

Reproduction steps 复现步骤

测试请求本地的接口返回值里面 text的数据是unicode编码，希望能变回中文，还有就是识别出来坐标是负数不精准。任意图片文件都是不太精准

Problem screenshots or related files (optional) 问题截图或相关文件（可选）

QQ图片20240505174356

hiroi-sora commented 2 months ago

1. 坐标不精准

你的测试图的尺寸过小，可能影响文本位置det的准确性。使用100~1000像素的图片，准确性会较好。

另外，一些OCR引擎（尤其RapidOCR）默认使用了“文本区域像素拓展”的技术，识别出的文本框的大小会主动增大若干像素，以包含更完整的文本区域。因此，假设原文本的左上角是 [0,0] ，拓展5像素后就变成了 [-5,-5] ，这是正常的。如果想要更准确的坐标位置，可以选用 PaddleOCR引擎 。

2. 返回文本编码是unicode

json中，用ascii字符的unicode编码表示中文等字符，是业界通用的做法，可以保证数据的兼容性和一致性。基本所有的json解析器都能解析unicode编码。你用任意编程语言中的json解析器读入原始json字符串，就能自动得到“直观的中文”了，unicode对于你的操作是透明的，无需关心。

sreedom1 commented 2 months ago

我图片是只做base64处理，然后当参数传递的，没用别的ocr处理过啊。而且我也拿大的图片测试过都是不准的，都有偏差

hiroi-sora commented 2 months ago

没用别的ocr处理过啊

不好意思我没说清楚。Umi-OCR有不同引擎的版本，你下载的可能是Rapid版本，可能存在文本框坐标偏移的情况。你可以尝试换用Paddle版本（下图红圈）。

https://github.com/hiroi-sora/Umi-OCR/releases/tag/v2.1.1

sreedom1 commented 2 months ago

换了个试下额坐标还是有偏差 -.- 而且这个Paddle的图片小的话识别不出来字

hiroi-sora commented 1 month ago

如果在软件中截图，软件界面中的文本框的位置是准确的吗？

如果软件中是准确，那么大概率是你的调用或测试代码有问题。

如果你认为软件界面中也不够准确，那么就是OCR引擎的精度限制了，暂时没有好的解决办法。

hiroi-sora / Umi-OCR

两个问题 1.图片识别文字 坐标不精准 2.返回文本编码是unicode #502

Issues

Umi-OCR version 程序版本

Windows version 系统版本

OCR plugins Used 使用的OCR插件

Reproduction steps 复现步骤

Problem screenshots or related files (optional) 问题截图或相关文件（可选）

1. 坐标不精准

2. 返回文本编码是unicode

两个问题 1.图片识别文字坐标不精准 2.返回文本编码是unicode #502