关于批量文档识别生成双层可搜索文档失败的疑惑

hiroi-sora / Umi-OCR

OCR software, free and offline. 开源、免费的离线OCR软件。支持截屏/批量导入图片，PDF文档识别，排除水印/页眉页脚，扫描/生成二维码。内置多国语言库。

MIT License

27.63k stars 2.77k forks source link

关于批量文档识别生成双层可搜索文档失败的疑惑 #416

Closed XinTsui closed 8 months ago

XinTsui commented 8 months ago

截图_20240313211355 生成后是0KB打不开，什么原因呢

hiroi-sora commented 8 months ago

因为OCR任务完成后，软件需要一小段时间来保存文件。你的截图里，软件显示”停止任务“的按钮，表示保存未完成。

后来可以了吗？

XinTsui commented 8 months ago

因为OCR任务完成后，软件需要一小段时间来保存文件。你的截图里，软件显示”停止任务“的按钮，表示保存未完成。

后来可以了吗？

后来Umi就白屏卡住了，然后我现在发现可能是我的该pdf文件的毛病，因为我测试别的pdf，可以正常生成，而且功能真的非常好用；现在就是无法定性到这个不能成功的pdf文件到底有什么限制，导致无法生成双层可搜索文档，苦恼。

XinTsui commented 8 months ago

因为OCR任务完成后，软件需要一小段时间来保存文件。你的截图里，软件显示”停止任务“的按钮，表示保存未完成。

后来可以了吗？

我观察就是Umi无法正常结束这个生成任务，导致一直持续，直到卡死白屏，但是我找不到原因。

XinTsui commented 8 months ago

截图_20240313214817 这个状态是成功状态，就是不知道为啥这个pdf不能成功

hiroi-sora commented 8 months ago

OKK，将这个文件上传上来，帮你看看。

XinTsui commented 8 months ago

OKK，将这个文件上传上来，帮你看看。

来了来了 [Uploading 全国医疗服务项目技术规范（2023年版）1.pdf…]()

XinTsui commented 8 months ago

我不怎么会用github，不知道这样你能不能拿到？ ![Uploading 截图_20240313220655.png…]()

XinTsui commented 8 months ago

OKK，将这个文件上传上来，帮你看看。

你尝试转几页就行，文件页数很大，转几页问题就能复现。

hiroi-sora commented 8 months ago

你文件没上传完成，还是 Uploading 状态。将pdf直接拖入github文字框，等待链接（https://）刷新出来才算上传完成，再Comment。如果文件太大，你可以用wps等工具切几页下来，保证能复现问题即可，将这几页的pdf上传。

XinTsui commented 8 months ago

全国医疗服务项目技术规范（2023年版）1.pdf

XinTsui commented 8 months ago

你文件没上传完成，还是 Uploading 状态。将pdf直接拖入github文字框，等待链接（https://）刷新出来才算上传完成，再Comment。如果文件太大，你可以用wps等工具切几页下来，保证能复现问题即可，将这几页的pdf上传。

我通过打印生成pdf的方式裁出来两页后，单独操作两页，任务就能跑完，然后生成双层pdf的效果不理想，麻烦老大下载上面全量pdf测试，谢谢了。

hiroi-sora commented 8 months ago

已收到你的文件。

你这份PDF本身是纯文字的，不需要OCR。

Umi-OCR支持从这类pdf中直接提取文字，保存为txt等格式。但是，保存为双层PDF就没有必要了，因为原文件本身就可以搜索。

hiroi-sora commented 8 months ago

我调试了一下代码，大概是原PDF本身含有大量文字，所以Umi保存新PDF时进行的 空间压缩和垃圾回收步骤 需要花费大量的时间，甚至可能造成卡死。

我会优化一下对存在大量文本的PDF的处理逻辑。

XinTsui commented 8 months ago

已收到你的文件。

你这份PDF本身是纯文字的，不需要OCR。

Umi-OCR支持从这类pdf中直接提取文字，保存为txt等格式。但是，保存为双层PDF就没有必要了，因为原文件本身就可以搜索。

我才知道“原文件本身就可以搜索”，谢谢老大，我方向错了。

XinTsui commented 8 months ago

我调试了一下代码，大概是原PDF本身含有大量文字，所以Umi保存新PDF时进行的 空间压缩和垃圾回收步骤 需要花费大量的时间，甚至可能造成卡死。

我会优化一下对存在大量文本的PDF的处理逻辑。

这么严谨的嘛，我觉得我这种需求比较另类，很难有别人会干这种画蛇添足的事。我刚才跑了个纯图片的pdf，ocr然后生成双层pdf，功能用起来真的不错。