[已解决]某些pdf识别后文本层每页都有一定程度的错位（附样本）

hiroi-sora / Umi-OCR

OCR software, free and offline. 开源、免费的离线OCR软件。支持截屏/批量导入图片，PDF文档识别，排除水印/页眉页脚，扫描/生成二维码。内置多国语言库。

MIT License

27.56k stars 2.77k forks source link

[已解决]某些pdf识别后文本层每页都有一定程度的错位（附样本） #483

Closed lforlgg closed 7 months ago

lforlgg commented 7 months ago

Issues

[X] I have browsed through the Issues. 我已浏览过Issues，确定没有重复提问。

Umi-OCR version 程序版本

2.1.1

Windows version 系统版本

Windows10

OCR plugins Used 使用的OCR插件

PaddleOCR

Reproduction steps 复现步骤

pdf识别后文本层有错位问题。 Umi-OCR_Paddle_v2.1.1.7z.exe Umi-OCR_Rapid_v2.1.1.7z.exe 都测试过，都有此问题。

Problem screenshots or related files (optional) 问题截图或相关文件（可选）

{ "cpu": "Intel64 Family 6 Model 158 Stepping 10, GenuineIntel | 6C6T", "home": "D:\AI\UmiOCR_Paddle", "path": "D:\AI\UmiOCR_Paddle\Umi-OCR.exe", "platform": "Windows-10-10.0.17763", "python": "3.8.10", "ram": "47.9 GB" } 错位样本P24-28.pdf

hiroi-sora commented 7 months ago

好的，已确认默认模式下有文本错位的问题，后续会尝试修复。

因为PDF内容格式比较灵活，有一些生成器（扫描仪）又不按规范写入，所以解析时会有预料以外的情况发生，见谅。

目前，你可以将内容提取模式改为整页强制OCR，如下图。可以避免文本错位问题。

lforlgg commented 7 months ago

谢谢大佬，我懂了。试了一下，用您说的选项，完美解决！👍️❤️

那些选项的确有点专业，没接触过的，不敢随意更改默认选项。如果方便，可以在鼠标移向选项时，给点tips提示： tips_ziped

😋

hiroi-sora commented 7 months ago

收到，好建议

lforlgg commented 7 months ago

好的，已确认默认模式下有文本错位的问题，后续会尝试修复。

因为PDF内容格式比较灵活，有一些生成器（扫描仪）又不按规范写入，所以解析时会有预料以外的情况发生，见谅。

目前，你可以将内容提取模式改为整页强制OCR，如下图。可以避免文本错位问题。

@hiroi-sora 叨扰大佬，帮看看。又有一个批量文档ocr错位的样本，这次结果有点惨不忍睹。重置默认设置和用你的设置办法，都差不多结果。截图ocr倒是还好。这种类似目录这样排版的，umi-ocr似乎总是喜欢把页码放在一堆，它不是每个条目一行一行。abbyy这块表现比较正常。排版会错位的OCR样本.pdf