小学教材orc出错 - Githubissues

hiroi-sora / Umi-OCR

OCR software, free and offline. 开源、免费的离线OCR软件。支持截屏/批量导入图片，PDF文档识别，排除水印/页眉页脚，扫描/生成二维码。内置多国语言库。

MIT License

22.96k stars 2.34k forks source link

Closed snakeying closed 2 weeks ago

snakeying commented 2 weeks ago

2.1.2

win10

No response

尝试orc小学教材时候经常出错，一开始进度是正常的，比如一本教材有140页左右，测试3本教材基本都是前1到45~50页进度正常，然后就开始卡住，等待30分钟都没有任何新进度。

无论是默认设置还是调整其他设置都一样问题

test.pdf 类似这种教材

hiroi-sora commented 2 weeks ago

感谢你提供的样本。经过测试，发现该文档的第48页及以后，存在一些宽度、高度为0的图片（即错误的数据）， Umi-OCR 无法处理这些不存在的图片，因此卡死。

不过，我们可以跳过这些特殊图片，来避免此Bug。

第152行，插入如下的代码：

                # 特殊情况：图片宽高为0
                if w2 <= 0 or h2 <= 0:
                    continue

如图所示：

更改完后，即可正常处理你的样例。

（不过，你的样例本身是文字型PDF，其中的文字原本就可以复制的，一般情况下无需OCR哦）

snakeying commented 2 weeks ago

( ⊙o⊙ )哇如此快速的回复非常感谢

经过修改后测试成功，其他两个样本也pass，证明确实是因为这个特殊图片导致的。

嗯，我也知道这个是文字型PDF，我只是想偷懒通过orc获得json，然后喂给模型。如果直接embedding的话效果不佳，模型经常会跳出限制。比如用初中的数学来解答小学问题，用高中生的词汇来写小学生英文作文。

snakeying commented 2 weeks ago

再次感谢你的快速帮助，也非常感激你提供了如此棒的开源项目，加油~