hiroi-sora / Umi-OCR

OCR software, free and offline. 开源、免费的离线OCR软件。支持截屏/批量导入图片,PDF文档识别,排除水印/页眉页脚,扫描/生成二维码。内置多国语言库。
MIT License
27.45k stars 2.76k forks source link

截图识别比PDF文档识别 效果好 #713

Open jqwangai opened 2 weeks ago

jqwangai commented 2 weeks ago

Issues

Umi-OCR version 程序版本

2.1.4

Windows version 系统版本

win11

OCR plugins Used 使用的OCR插件

PaddleOCR

Reproduction steps 复现步骤

识别文档中的“不寐”两字时,截图识别可以很容易的识别出来,而批量文档识别,却识别不出“寐”字,或者错识别出其它文字。

调大“限制图片边长”,也无法解决。 在处理其它文档时也有类似的问题。

请问,我在批量文档识别时,需要注意什么配置吗?或者需要对PDF做什么预处理操作。

Problem screenshots or related files (optional) 问题截图或相关文件(可选)

源文件PDF截图: image

配置: image

hiroi-sora commented 1 week ago

你已经选择为 整页强制OCR ,这样程序会用类似截图的原理获取页面图像来识别。你可以修改参数提高DPI来增加图片精度:

用记事本打开 Umi-OCR\UmiOCR-data\py_src\mission\mission_doc.py ,前面第19行有个:

MinSize = 1080  # 最小渲染分辨率

它表示将PDF渲染为图片时,最短边的边长。您可以调高此数值,如 MinSize = 2160

改完后保存、重启Umi。