OCR后的文字后处理不会保持原有格式

hiroi-sora / Umi-OCR

OCR software, free and offline. 开源、免费的离线OCR软件。支持截屏/批量导入图片，PDF文档识别，排除水印/页眉页脚，扫描/生成二维码。内置多国语言库。

MIT License

25.57k stars 2.59k forks source link

你好。对于你的PDF，属于单栏布局，推荐使用 单栏-总是换行 的排版解析方案。此时OCR结果的顺序与原文基本一致的。不过 ………… 这些符号可能无法识别。

目录
第1讲不进位加法 1
秘籍1一位数加一位数 1
秘籍2两位数加一位数 2
秘籍3两位数加两位数 4
秘籍4多个数相加 6
第2讲进位加法 8
秘籍1一位数加一位数 8
秘籍2两位数加一位数 9
秘籍3两位数加两位数 12

我们目前采用的开源OCR引擎本身不具有版面分析功能，靠后期规则匹配进行排版整理，因此需要人工选择排版方案，而且准确度有限。

Abbyy等商业闭源软件，可能内置了版面分析的神经网络模型，也许能更灵活、更准确的识别不同排版。毕竟商业项目会投入更多的成本。

hiroi-sora / Umi-OCR