部分pdf文件识别光速完成但什么也没识别出来

hiroi-sora / Umi-OCR

OCR software, free and offline. 开源、免费的离线OCR软件。支持截屏/批量导入图片，PDF文档识别，排除水印/页眉页脚，扫描/生成二维码。内置多国语言库。

MIT License

24.51k stars 2.48k forks source link

部分pdf文件识别光速完成但什么也没识别出来 #368

Open idealkindom opened 6 months ago

idealkindom commented 6 months ago

如题，原因是分辨率匹配问题吗？！

hiroi-sora commented 6 months ago

可以上传一些样本看看吗

hijos commented 6 months ago

可以上传一些样本看看吗

我也遇到了这个问题，我上传了一个pdf，大佬你看看 [Uploading 政治经济学批判：马克思《资本论》导论.pdf…]()

hiroi-sora commented 6 months ago

@hijos

你文件没有上传完哦。将文件拖进网页后，一定要等文件链接刷新出来，再 Comment 。

hijos commented 6 months ago

@hijos

你文件没有上传完哦。将文件拖进网页后，一定要等文件链接刷新出来，再 Comment 。

不好意思，重新上传了政治经济学批判：马克思《资本论》导论.pdf

hiroi-sora commented 6 months ago

好，我已复现相同问题，正在调查。

作为代替方案，设置 → 内容提取模式 → 改为 整页强制OCR 可以避免该问题。

hiroi-sora commented 6 months ago

在样例PDF中，图像实际上超出了页面范围，在页面以外还存在一部分。因此，Umi误以为这张图片不属于本页，因此忽略了该图片。

v2.1.0正式已修复该问题。如果出现识别内容显著乱码的情况，请尝试：设置 → 内容提取模式 → 改为 整页强制OCR 。

另外，样例中，PDF首页的图片的源文件实际上旋转了90°，可能导致常规模式的OCR无法识别，或者识别后的文字位置不匹配。 暂时没有好的解决办法。

hiroi-sora commented 4 months ago

正在尝试解决该PDF的文本写入偏移问题。

目前（最新main分支）用 整页强制OCR 模式，可以准确写入所有文本。但 混合OCR 模式会出现写入文本位置不正确的问题。

Link: 异常样本：政治经济学批判_1_10.pdf | https://github.com/hiroi-sora/Umi-OCR/commit/beb9b8ba7833853b5be375ee93e05e3042dba7a6#r140847597 | #460

[x] 图像仅偏移
[x] 图像仅旋转
[ ] 偏移+旋转

yang-521 commented 4 months ago

正在解决 PDF 的文本偏移尝试问题。

目前（最新主分支）用整页强制OCR模式，可以准确写入所有文本。但混合OCR模式会出现写入文本位置不正确的问题。

链接：异常样本：政治经济学批评_1_10.pdf | #r140847597 | beb9b8b 第460章

[x] 图像仅偏移

[x] 图片仅旋转

[ ] 偏移+旋转

这个样本不单是旋转和超越边界的问题，我试了裁剪页面再识别时发现还有个缩放问题.....