hiroi-sora / Umi-OCR

OCR software, free and offline. 开源、免费的离线OCR软件。支持截屏/批量导入图片,PDF文档识别,排除水印/页眉页脚,扫描/生成二维码。内置多国语言库。
MIT License
23.48k stars 2.39k forks source link

关于批量文档识别生成双层可搜索文档失败的疑惑 #416

Closed XinTsui closed 4 months ago

XinTsui commented 4 months ago

截图_20240313211355 生成后是0KB打不开,什么原因呢

hiroi-sora commented 4 months ago

因为OCR任务完成后,软件需要一小段时间来保存文件。你的截图里,软件显示”停止任务“的按钮,表示保存未完成。

后来可以了吗?

XinTsui commented 4 months ago

因为OCR任务完成后,软件需要一小段时间来保存文件。你的截图里,软件显示”停止任务“的按钮,表示保存未完成。

后来可以了吗?

后来Umi就白屏卡住了,然后我现在发现可能是我的该pdf文件的毛病,因为我测试别的pdf,可以正常生成,而且功能真的非常好用;现在就是无法定性到这个不能成功的pdf文件到底有什么限制,导致无法生成双层可搜索文档,苦恼。

XinTsui commented 4 months ago

因为OCR任务完成后,软件需要一小段时间来保存文件。你的截图里,软件显示”停止任务“的按钮,表示保存未完成。

后来可以了吗?

我观察就是Umi无法正常结束这个生成任务,导致一直持续,直到卡死白屏,但是我找不到原因。

XinTsui commented 4 months ago

截图_20240313214817 这个状态是成功状态,就是不知道为啥这个pdf不能成功

hiroi-sora commented 4 months ago

OKK,将这个文件上传上来,帮你看看。

XinTsui commented 4 months ago

OKK,将这个文件上传上来,帮你看看。

来了来了 [Uploading 全国医疗服务项目技术规范(2023年版)1.pdf…]()

XinTsui commented 4 months ago

我不怎么会用github,不知道这样你能不能拿到? ![Uploading 截图_20240313220655.png…]()

XinTsui commented 4 months ago

OKK,将这个文件上传上来,帮你看看。

你尝试转几页就行,文件页数很大,转几页问题就能复现。

hiroi-sora commented 4 months ago

你文件没上传完成,还是 Uploading 状态。 将pdf直接拖入github文字框,等待链接(https://)刷新出来才算上传完成,再Comment。 如果文件太大,你可以用wps等工具切几页下来,保证能复现问题即可,将这几页的pdf上传。

XinTsui commented 4 months ago

全国医疗服务项目技术规范(2023年版)1.pdf

XinTsui commented 4 months ago

你文件没上传完成,还是 Uploading 状态。 将pdf直接拖入github文字框,等待链接(https://)刷新出来才算上传完成,再Comment。 如果文件太大,你可以用wps等工具切几页下来,保证能复现问题即可,将这几页的pdf上传。

我通过打印生成pdf的方式裁出来两页后,单独操作两页,任务就能跑完,然后生成双层pdf的效果不理想,麻烦老大下载上面全量pdf测试,谢谢了。

hiroi-sora commented 4 months ago

已收到你的文件。

你这份PDF本身是纯文字的,不需要OCR。

Umi-OCR支持从这类pdf中直接提取文字,保存为txt等格式。但是,保存为双层PDF就没有必要了,因为原文件本身就可以搜索。

hiroi-sora commented 4 months ago

我调试了一下代码,大概是原PDF本身含有大量文字,所以Umi保存新PDF时进行的 空间压缩和垃圾回收步骤 需要花费大量的时间,甚至可能造成卡死。

我会优化一下对存在大量文本的PDF的处理逻辑。

XinTsui commented 4 months ago

已收到你的文件。

你这份PDF本身是纯文字的,不需要OCR。

Umi-OCR支持从这类pdf中直接提取文字,保存为txt等格式。但是,保存为双层PDF就没有必要了,因为原文件本身就可以搜索。

我才知道“原文件本身就可以搜索”,谢谢老大,我方向错了。

XinTsui commented 4 months ago

我调试了一下代码,大概是原PDF本身含有大量文字,所以Umi保存新PDF时进行的 空间压缩和垃圾回收步骤 需要花费大量的时间,甚至可能造成卡死。

我会优化一下对存在大量文本的PDF的处理逻辑。

这么严谨的嘛,我觉得我这种需求比较另类,很难有别人会干这种画蛇添足的事。我刚才跑了个纯图片的pdf,ocr然后生成双层pdf,功能用起来真的不错。