hiroi-sora / Umi-OCR

OCR software, free and offline. 开源、免费的离线OCR软件。支持截屏/批量导入图片,PDF文档识别,排除水印/页眉页脚,扫描/生成二维码。内置多国语言库。
MIT License
25.57k stars 2.59k forks source link

OCR后的文字后处理不会保持原有格式 #590

Closed netsonicyxf closed 1 month ago

netsonicyxf commented 2 months ago

Issues

Umi-OCR version 程序版本

2.1.2

Windows version 系统版本

win10 x64

OCR plugins Used 使用的OCR插件

PaddleOCR

Reproduction steps 复现步骤

OCR附件目录内容(1.pdf),粘贴到txt后发现排版和原文件不一致,排版解析方案试过“多行”的所有选项+“不做处理”。 用Abbyy的OCR,粘贴到txt(FreePic2Pdf_bkmk.txt)后排版和原文件一致。

Problem screenshots or related files (optional) 问题截图或相关文件(可选)

1.pdf FreePic2Pdf_bkmk.txt

hiroi-sora commented 2 months ago

你好。对于你的PDF,属于单栏布局,推荐使用 单栏-总是换行 的排版解析方案。此时OCR结果的顺序与原文基本一致的。不过 ………… 这些符号可能无法识别。

目录
第1讲不进位加法 1
秘籍1一位数加一位数 1
秘籍2两位数加一位数 2
秘籍3两位数加两位数 4
秘籍4多个数相加 6
第2讲进位加法 8
秘籍1一位数加一位数 8
秘籍2两位数加一位数 9
秘籍3两位数加两位数 12

我们目前采用的开源OCR引擎本身不具有版面分析功能,靠后期规则匹配进行排版整理,因此需要人工选择排版方案,而且准确度有限。

Abbyy等商业闭源软件,可能内置了版面分析的神经网络模型,也许能更灵活、更准确的识别不同排版。毕竟商业项目会投入更多的成本。