hiroi-sora / Umi-OCR

OCR software, free and offline. 开源、免费的离线OCR软件。支持截屏/批量导入图片,PDF文档识别,排除水印/页眉页脚,扫描/生成二维码。内置多国语言库。
MIT License
23.05k stars 2.35k forks source link

[已解决]某些pdf识别后文本层每页都有一定程度的错位(附样本) #483

Closed lforlgg closed 2 months ago

lforlgg commented 2 months ago

Issues

Umi-OCR version 程序版本

2.1.1

Windows version 系统版本

Windows10

OCR plugins Used 使用的OCR插件

PaddleOCR

Reproduction steps 复现步骤

pdf识别后文本层有错位问题。 Umi-OCR_Paddle_v2.1.1.7z.exe Umi-OCR_Rapid_v2.1.1.7z.exe 都测试过,都有此问题。

Problem screenshots or related files (optional) 问题截图或相关文件(可选)

{ "cpu": "Intel64 Family 6 Model 158 Stepping 10, GenuineIntel | 6C6T", "home": "D:\AI\UmiOCR_Paddle", "path": "D:\AI\UmiOCR_Paddle\Umi-OCR.exe", "platform": "Windows-10-10.0.17763", "python": "3.8.10", "ram": "47.9 GB" } 错位样本P24-28.pdf

hiroi-sora commented 2 months ago

好的,已确认 默认模式下有文本错位的问题,后续会尝试修复。

因为PDF内容格式比较灵活,有一些生成器(扫描仪)又不按规范写入,所以解析时会有预料以外的情况发生,见谅。

目前,你可以将内容提取模式改为整页强制OCR,如下图。可以避免文本错位问题。

image

lforlgg commented 2 months ago

谢谢大佬,我懂了。试了一下,用您说的选项,完美解决!👍️❤️

那些选项的确有点专业,没接触过的,不敢随意更改默认选项。 如果方便,可以在鼠标移向选项时,给点tips提示: tips_ziped

😋

hiroi-sora commented 2 months ago

收到,好建议

lforlgg commented 2 months ago

好的,已确认 默认模式下有文本错位的问题,后续会尝试修复。

因为PDF内容格式比较灵活,有一些生成器(扫描仪)又不按规范写入,所以解析时会有预料以外的情况发生,见谅。

目前,你可以将内容提取模式改为整页强制OCR,如下图。可以避免文本错位问题。

image @hiroi-sora 叨扰大佬,帮看看。 又有一个批量文档ocr错位的样本,这次结果有点惨不忍睹。重置默认设置和用你的设置办法,都差不多结果。 截图ocr倒是还好。 这种类似目录这样排版的,umi-ocr似乎总是喜欢把页码放在一堆,它不是每个条目一行一行。abbyy这块表现比较正常。 排版会错位的OCR样本.pdf

考虑到类似问题集中,我要么不开新帖避免占用更多资源。

hiroi-sora commented 2 months ago

image

你这份样本,OCR出来的文本位置是没有错的。可能你指的是文本顺序错误,先左边的标题,后右边的页码。

这是因为,Umi默认将PDF当成 多栏排版 ,左边的标题和右边的页码被识别成了 两栏 ,因此先左后右。

你可以在设置里,将 排版解析方案 改为任意的 单栏 ,即可应付这种情景。

当前Umi的算法没办法识别是单栏目录还是双栏正文,所以必须手动选择排版方案。未来可能会引入专门的排版识别AI模型,类似ABBYY那样,支持智能排版。

image

lforlgg commented 2 months ago

比较困惑,我同样设置得不到您那样的排版结果(识别结果如附件)。 OCR样本_识别后的排版.pdf cor2_ziped cor_ziped

hiroi-sora commented 2 months ago

哦哦,懂了,v2.1.1确实存在这个问题。我拿最新main分支做的测试,已经修复了这个问题。

你可以拉取一下main分支(或者github主页下载zip包),直接将 UmiOCR-data 整个目录,覆盖粘贴到v2.1.1的相同目录。

lforlgg commented 2 months ago

预览窗口倒是看着蛮好的,基本像你展示那样 preVu_ziped

好我一会按您方法“拉取一下main分支”试试

lforlgg commented 2 months ago

按您提示,把源代码中最新的UmiOCR-data部分搞下来覆盖后,表现十分完美👍👍👍 😄👏👏👏 之前一直以为是我自己哪里没搞明白,憋了好久,没提。 这次终于完美!感谢感谢!

关于默认设置,其实截图这种一般单栏的多,应该作为默认。 如果多栏,截图的人发现不对,会分两次画框的。 但是倒过来,很多人就搞不明白了,就放弃尝试了。 或者指向默认值时,边上加气泡提示:如果排版有问题,考虑改变设置:xxxx处

hiroi-sora commented 2 months ago

👍 收到