Closed lforlgg closed 7 months ago
好的,已确认 默认模式下有文本错位的问题,后续会尝试修复。
因为PDF内容格式比较灵活,有一些生成器(扫描仪)又不按规范写入,所以解析时会有预料以外的情况发生,见谅。
目前,你可以将内容提取模式改为整页强制OCR
,如下图。可以避免文本错位问题。
谢谢大佬,我懂了。试了一下,用您说的选项,完美解决!👍️❤️
那些选项的确有点专业,没接触过的,不敢随意更改默认选项。 如果方便,可以在鼠标移向选项时,给点tips提示:
😋
收到,好建议
好的,已确认 默认模式下有文本错位的问题,后续会尝试修复。
因为PDF内容格式比较灵活,有一些生成器(扫描仪)又不按规范写入,所以解析时会有预料以外的情况发生,见谅。
目前,你可以将内容提取模式改为
整页强制OCR
,如下图。可以避免文本错位问题。@hiroi-sora 叨扰大佬,帮看看。 又有一个批量文档ocr错位的样本,这次结果有点惨不忍睹。重置默认设置和用你的设置办法,都差不多结果。 截图ocr倒是还好。 这种类似目录这样排版的,umi-ocr似乎总是喜欢把页码放在一堆,它不是每个条目一行一行。abbyy这块表现比较正常。 排版会错位的OCR样本.pdf
考虑到类似问题集中,我要么不开新帖避免占用更多资源。
你这份样本,OCR出来的文本位置是没有错的。可能你指的是文本顺序错误,先左边的标题,后右边的页码。
这是因为,Umi默认将PDF当成 多栏排版 ,左边的标题和右边的页码被识别成了 两栏 ,因此先左后右。
你可以在设置里,将 排版解析方案 改为任意的 单栏
,即可应付这种情景。
当前Umi的算法没办法识别是单栏目录还是双栏正文,所以必须手动选择排版方案。未来可能会引入专门的排版识别AI模型,类似ABBYY那样,支持智能排版。
比较困惑,我同样设置得不到您那样的排版结果(识别结果如附件)。 OCR样本_识别后的排版.pdf
哦哦,懂了,v2.1.1确实存在这个问题。我拿最新main分支做的测试,已经修复了这个问题。
你可以拉取一下main分支(或者github主页下载zip包),直接将 UmiOCR-data
整个目录,覆盖粘贴到v2.1.1的相同目录。
预览窗口倒是看着蛮好的,基本像你展示那样
好我一会按您方法“拉取一下main分支”试试
按您提示,把源代码中最新的UmiOCR-data部分搞下来覆盖后,表现十分完美👍👍👍 😄👏👏👏 之前一直以为是我自己哪里没搞明白,憋了好久,没提。 这次终于完美!感谢感谢!
关于默认设置,其实截图这种一般单栏的多,应该作为默认。 如果多栏,截图的人发现不对,会分两次画框的。 但是倒过来,很多人就搞不明白了,就放弃尝试了。 或者指向默认值时,边上加气泡提示:如果排版有问题,考虑改变设置:xxxx处
👍 收到
Issues
Umi-OCR version 程序版本
2.1.1
Windows version 系统版本
Windows10
OCR plugins Used 使用的OCR插件
PaddleOCR
Reproduction steps 复现步骤
pdf识别后文本层有错位问题。 Umi-OCR_Paddle_v2.1.1.7z.exe Umi-OCR_Rapid_v2.1.1.7z.exe 都测试过,都有此问题。
Problem screenshots or related files (optional) 问题截图或相关文件(可选)
{ "cpu": "Intel64 Family 6 Model 158 Stepping 10, GenuineIntel | 6C6T", "home": "D:\AI\UmiOCR_Paddle", "path": "D:\AI\UmiOCR_Paddle\Umi-OCR.exe", "platform": "Windows-10-10.0.17763", "python": "3.8.10", "ram": "47.9 GB" } 错位样本P24-28.pdf