hiroi-sora / Umi-OCR

OCR software, free and offline. 开源、免费的离线OCR软件。支持截屏/批量导入图片,PDF文档识别,排除水印/页眉页脚,扫描/生成二维码。内置多国语言库。
MIT License
23.48k stars 2.39k forks source link

自主选定识别区域的功能需求 #451

Closed ragclothdoll closed 3 months ago

ragclothdoll commented 3 months ago

Expected behavior 预期的功能

大大好,现在有忽略识别区域的功能,能不能加一个自己选定识别区域的功能。 如果也能导入自己的规则那就更好了。就是可以有一个配置文件,里面写满了各个识别区域的参数。识别区域通常是四个参数决定的,比如左上的xy坐标还有识别区域的长和宽。可能这个功能有些小众,我也不需要这个功能太自动化,识别区域的脚本我会自己写,谢谢大大。

Approximate reference (optional) 近似的参考(可选)

No response

hiroi-sora commented 3 months ago

你好,这个需求确实比较小众。如果会写脚本,那么建议自己实现该功能。

你可以先通过Umi-OCR获取原始识别结果(批量识别时,勾选:保存文件类型 → jsonl原始信息)。用脚本逐行读入.jsonl文件,按照 文档 的说明来解析结果,根据"box"的坐标来收集/屏蔽 每一行文本。

ragclothdoll commented 3 months ago

好的,谢谢大大