hiroi-sora / Umi-OCR

OCR software, free and offline. 开源、免费的离线OCR软件。支持截屏/批量导入图片,PDF文档识别,排除水印/页眉页脚,扫描/生成二维码。内置多国语言库。
MIT License
27.48k stars 2.76k forks source link

出现PDF未启动引擎就完成识别的现象,wdf #394

Closed qwedc001 closed 8 months ago

qwedc001 commented 8 months ago

hiroi-sora/RapidOCR-json/issues/16 的伴生issue。 PDF样本已上传: 心血管-中药新药临床研究指导原则.pdf

在执行完显示引擎后,在执行批量识别文档的时候偶然发现此文档识别速度极快,并且没有弹出引擎开启的黑框。

我之前执行过此文档的OCR识别,Umi会保存之前的识别记录吗?好像不会吧

很怪

hiroi-sora commented 8 months ago

文档识别速度极快,并且没有启动引擎

检查一下 设置 → 文档处理 → 内容提取模式 。你可能设为了 仅拷贝原有文本 ,该选项下不会调用引擎。

我测试了你的样本。当上述选项不为 仅拷贝…… 时,是可以正常调用引擎的。

qwedc001 commented 8 months ago

image (?)

qwedc001 commented 8 months ago

我这里的软件行为是只有设置选项打到“整页强制OCR”会调用引擎,其他三个选项均为0.2秒出结果并且精度很差

hiroi-sora commented 8 months ago

你用的还是 alpha1 版本,我后来应该修过这个bug,更新到v2.1.0正式版试试?

qwedc001 commented 8 months ago

忘了关issue了,这个问题已经解决