hiroi-sora / Umi-OCR

OCR software, free and offline. 开源、免费的离线OCR软件。支持截屏/批量导入图片,PDF文档识别,排除水印/页眉页脚,扫描/生成二维码。内置多国语言库。
MIT License
24.51k stars 2.48k forks source link

部分pdf文件识别光速完成但什么也没识别出来 #368

Open idealkindom opened 6 months ago

idealkindom commented 6 months ago

如题,原因是分辨率匹配问题吗?!

hiroi-sora commented 6 months ago

可以上传一些样本看看吗

hijos commented 6 months ago

可以上传一些样本看看吗

我也遇到了这个问题,我上传了一个pdf,大佬你看看 [Uploading 政治经济学批判:马克思《资本论》导论.pdf…]()

hiroi-sora commented 6 months ago

@hijos

你文件没有上传完哦。将文件拖进网页后,一定要等文件链接刷新出来,再 Comment 。

hijos commented 6 months ago

@hijos

你文件没有上传完哦。将文件拖进网页后,一定要等文件链接刷新出来,再 Comment 。

不好意思,重新上传了 政治经济学批判:马克思《资本论》导论.pdf

hiroi-sora commented 6 months ago

好,我已复现相同问题,正在调查。

作为代替方案,设置 → 内容提取模式 → 改为 整页强制OCR 可以避免该问题。

hiroi-sora commented 6 months ago

在样例PDF中,图像实际上超出了页面范围,在页面以外还存在一部分。因此,Umi误以为这张图片不属于本页,因此忽略了该图片。

v2.1.0正式已修复该问题。如果出现识别内容显著乱码的情况,请尝试:设置 → 内容提取模式 → 改为 整页强制OCR

另外,样例中,PDF首页的图片的源文件 实际上旋转了90°,可能导致常规模式的OCR无法识别,或者识别后的文字位置不匹配。 暂时没有好的解决办法。

image

hiroi-sora commented 4 months ago

正在尝试解决 该PDF的文本写入偏移问题。

目前(最新main分支)用 整页强制OCR 模式,可以准确写入所有文本。但 混合OCR 模式会出现写入文本位置不正确的问题。

Link: 异常样本:政治经济学批判_1_10.pdf | https://github.com/hiroi-sora/Umi-OCR/commit/beb9b8ba7833853b5be375ee93e05e3042dba7a6#r140847597 | #460

yang-521 commented 4 months ago

正在解决 PDF 的文本偏移尝试问题。

目前(最新主分支)用整页强制OCR模式,可以准确写入所有文本。但混合OCR模式会出现写入文本位置不正确的问题。

链接: 异常样本:政治经济学批评_1_10.pdf | #r140847597 | beb9b8b第460章

  • [x] 图像仅偏移
  • [x] 图片仅旋转
  • [ ] 偏移+旋转

这个样本不单是旋转和超越边界的问题,我试了裁剪页面再识别时发现还有个缩放问题.....