hiroi-sora / Umi-OCR

OCR software, free and offline. 开源、免费的离线OCR软件。支持截屏/批量导入图片,PDF文档识别,排除水印/页眉页脚,扫描/生成二维码。内置多国语言库。
MIT License
23.05k stars 2.35k forks source link

两个问题 1.图片识别文字 坐标不精准 2.返回文本编码是unicode #502

Closed sreedom1 closed 1 month ago

sreedom1 commented 2 months ago

Issues

Umi-OCR version 程序版本

2.1.1

Windows version 系统版本

windows10

OCR plugins Used 使用的OCR插件

No response

Reproduction steps 复现步骤

测试请求本地的接口 返回值里面 text的数据是unicode编码,希望能变回中文 ,还有就是识别出来坐标是负数 不精准。 任意图片文件都是不太精准

Problem screenshots or related files (optional) 问题截图或相关文件(可选)

QQ图片20240505174356

hiroi-sora commented 2 months ago

1. 坐标不精准

你的测试图的尺寸过小,可能影响文本位置det的准确性。使用100~1000像素的图片,准确性会较好。

另外,一些OCR引擎(尤其RapidOCR)默认使用了“文本区域像素拓展”的技术,识别出的文本框的大小会主动增大 若干像素,以包含更完整的文本区域。因此,假设原文本的左上角是 [0,0] ,拓展5像素后就变成了 [-5,-5] ,这是正常的。如果想要更准确的坐标位置,可以选用 PaddleOCR引擎

2. 返回文本编码是unicode

json中,用ascii字符的unicode编码表示中文等字符,是业界通用的做法,可以保证数据的兼容性和一致性。基本所有的json解析器都能解析unicode编码。你用任意编程语言中的json解析器读入原始json字符串,就能自动得到“直观的中文”了,unicode对于你的操作是透明的,无需关心。

sreedom1 commented 2 months ago

我图片是只做base64处理,然后当参数传递的, 没用别的ocr处理过啊。 而且 我也拿大的图片测试过 都是不准的,都有偏差

hiroi-sora commented 2 months ago

没用别的ocr处理过啊

不好意思我没说清楚。Umi-OCR有不同引擎的版本,你下载的可能是Rapid版本,可能存在文本框坐标偏移的情况。你可以尝试换用Paddle版本(下图红圈)。

image

https://github.com/hiroi-sora/Umi-OCR/releases/tag/v2.1.1

sreedom1 commented 2 months ago

换了个试下 额 坐标还是有偏差 -.- 而且这个Paddle的图片小的话识别不出来字

hiroi-sora commented 1 month ago

如果在软件中截图,软件界面中的文本框的位置是准确的吗?

如果软件中是准确,那么大概率是你的调用或测试代码有问题。

如果你认为软件界面中也不够准确,那么就是OCR引擎的精度限制了,暂时没有好的解决办法。