Closed netsonicyxf closed 1 month ago
你好。对于你的PDF,属于单栏布局,推荐使用 单栏-总是换行
的排版解析方案。此时OCR结果的顺序与原文基本一致的。不过 …………
这些符号可能无法识别。
目录
第1讲不进位加法 1
秘籍1一位数加一位数 1
秘籍2两位数加一位数 2
秘籍3两位数加两位数 4
秘籍4多个数相加 6
第2讲进位加法 8
秘籍1一位数加一位数 8
秘籍2两位数加一位数 9
秘籍3两位数加两位数 12
我们目前采用的开源OCR引擎本身不具有版面分析功能,靠后期规则匹配进行排版整理,因此需要人工选择排版方案,而且准确度有限。
Abbyy等商业闭源软件,可能内置了版面分析的神经网络模型,也许能更灵活、更准确的识别不同排版。毕竟商业项目会投入更多的成本。
Issues
Umi-OCR version 程序版本
2.1.2
Windows version 系统版本
win10 x64
OCR plugins Used 使用的OCR插件
PaddleOCR
Reproduction steps 复现步骤
OCR附件目录内容(1.pdf),粘贴到txt后发现排版和原文件不一致,排版解析方案试过“多行”的所有选项+“不做处理”。 用Abbyy的OCR,粘贴到txt(FreePic2Pdf_bkmk.txt)后排版和原文件一致。
Problem screenshots or related files (optional) 问题截图或相关文件(可选)
1.pdf FreePic2Pdf_bkmk.txt