Closed snakeying closed 5 months ago
感谢你提供的样本。经过测试,发现该文档的第48页及以后,存在一些宽度、高度为0的图片(即错误的数据), Umi-OCR 无法处理这些不存在的图片,因此卡死。
不过,我们可以跳过这些特殊图片,来避免此Bug。
UmiOCR-data\py_src\mission\mission_doc.py
# 特殊情况:图片宽高为0
if w2 <= 0 or h2 <= 0:
continue
如图所示:
更改完后,即可正常处理你的样例。
(不过,你的样例 本身是文字型PDF,其中的文字原本就可以复制的,一般情况下无需OCR哦)
( ⊙o⊙ )哇 如此快速的回复 非常感谢
经过修改后测试成功,其他两个样本也pass,证明确实是因为这个特殊图片导致的。
嗯,我也知道这个是文字型PDF,我只是想偷懒通过orc获得json,然后喂给模型。如果直接embedding的话效果不佳,模型经常会跳出限制。比如用初中的数学来解答小学问题,用高中生的词汇来写小学生英文作文。
再次感谢你的快速帮助,也非常感激你提供了如此棒的开源项目,加油~
Issues
Umi-OCR version 程序版本
2.1.2
Windows version 系统版本
win10
OCR plugins Used 使用的OCR插件
No response
Reproduction steps 复现步骤
尝试orc小学教材时候经常出错,一开始进度是正常的,比如一本教材有140页左右,测试3本教材基本都是前1到45~50页进度正常,然后就开始卡住,等待30分钟都没有任何新进度。
无论是默认设置还是调整其他设置都一样问题
Problem screenshots or related files (optional) 问题截图或相关文件(可选)
test.pdf 类似这种教材