hiroi-sora / Umi-OCR

OCR software, free and offline. 开源、免费的离线OCR软件。支持截屏/批量导入图片,PDF文档识别,排除水印/页眉页脚,扫描/生成二维码。内置多国语言库。
MIT License
27.48k stars 2.76k forks source link

太长的图片无法识别 #432

Closed Xmug closed 7 months ago

Xmug commented 8 months ago

Umi-OCR version 程序版本

2.1.0

Windows version 系统版本

win11

Reproduction steps 复现步骤

图片高度为53234,点开始任务会导致识别器崩了。

异常状态码:904 异常信息:识别器输出值反序列化JSON失败。异常信息:[Expecting value: line 1 column 1 (char 0)]。原始内容:[]

再次点开始任务

异常状态码:902 异常信息:子进程已崩溃。

Rapid和Paddle两个引擎都是一样,限制图片边长均已选择无限制。

Problem screenshots or related files (optional) 问题截图或相关文件(可选)

No response

hiroi-sora commented 8 months ago

50000 像素实在是有点夸张。我估计是爆内存了(OCR推理需要数倍~数十倍于位图的内存),硬件限制无法避免。也没有任何一个OCR引擎设计能应对这种极端场景。

建议手动裁切为多张图再跑吧,长边在10000像素左右,应该是没问题的。