hiroi-sora / Umi-OCR

OCR software, free and offline. 开源、免费的离线OCR软件。支持截屏/批量导入图片,PDF文档识别,排除水印/页眉页脚,扫描/生成二维码。内置多国语言库。
MIT License
27.62k stars 2.77k forks source link

小学教材orc出错 #562

Closed snakeying closed 5 months ago

snakeying commented 5 months ago

Issues

Umi-OCR version 程序版本

2.1.2

Windows version 系统版本

win10

OCR plugins Used 使用的OCR插件

No response

Reproduction steps 复现步骤

尝试orc小学教材时候经常出错,一开始进度是正常的,比如一本教材有140页左右,测试3本教材基本都是前1到45~50页进度正常,然后就开始卡住,等待30分钟都没有任何新进度。

无论是默认设置还是调整其他设置都一样问题

Problem screenshots or related files (optional) 问题截图或相关文件(可选)

test.pdf 类似这种教材

hiroi-sora commented 5 months ago

感谢你提供的样本。经过测试,发现该文档的第48页及以后,存在一些宽度、高度为0的图片(即错误的数据), Umi-OCR 无法处理这些不存在的图片,因此卡死。

不过,我们可以跳过这些特殊图片,来避免此Bug。

  1. 用编辑器打开 UmiOCR-data\py_src\mission\mission_doc.py
  2. 第152行,插入如下的代码:
                    # 特殊情况:图片宽高为0
                    if w2 <= 0 or h2 <= 0:
                        continue

    如图所示: image

更改完后,即可正常处理你的样例。

(不过,你的样例 本身是文字型PDF,其中的文字原本就可以复制的,一般情况下无需OCR哦)

snakeying commented 5 months ago

( ⊙o⊙ )哇 如此快速的回复 非常感谢

经过修改后测试成功,其他两个样本也pass,证明确实是因为这个特殊图片导致的。

嗯,我也知道这个是文字型PDF,我只是想偷懒通过orc获得json,然后喂给模型。如果直接embedding的话效果不佳,模型经常会跳出限制。比如用初中的数学来解答小学问题,用高中生的词汇来写小学生英文作文。

snakeying commented 5 months ago

再次感谢你的快速帮助,也非常感激你提供了如此棒的开源项目,加油~