Closed XinTsui closed 8 months ago
因为OCR任务完成后,软件需要一小段时间来保存文件。你的截图里,软件显示”停止任务“的按钮,表示保存未完成。
后来可以了吗?
因为OCR任务完成后,软件需要一小段时间来保存文件。你的截图里,软件显示”停止任务“的按钮,表示保存未完成。
后来可以了吗?
后来Umi就白屏卡住了,然后我现在发现可能是我的该pdf文件的毛病,因为我测试别的pdf,可以正常生成,而且功能真的非常好用;现在就是无法定性到这个不能成功的pdf文件到底有什么限制,导致无法生成双层可搜索文档,苦恼。
因为OCR任务完成后,软件需要一小段时间来保存文件。你的截图里,软件显示”停止任务“的按钮,表示保存未完成。
后来可以了吗?
我观察就是Umi无法正常结束这个生成任务,导致一直持续,直到卡死白屏,但是我找不到原因。
这个状态是成功状态,就是不知道为啥这个pdf不能成功
OKK,将这个文件上传上来,帮你看看。
OKK,将这个文件上传上来,帮你看看。
来了来了 [Uploading 全国医疗服务项目技术规范(2023年版)1.pdf…]()
我不怎么会用github,不知道这样你能不能拿到? ![Uploading 截图_20240313220655.png…]()
OKK,将这个文件上传上来,帮你看看。
你尝试转几页就行,文件页数很大,转几页问题就能复现。
你文件没上传完成,还是 Uploading 状态。 将pdf直接拖入github文字框,等待链接(https://)刷新出来才算上传完成,再Comment。 如果文件太大,你可以用wps等工具切几页下来,保证能复现问题即可,将这几页的pdf上传。
你文件没上传完成,还是 Uploading 状态。 将pdf直接拖入github文字框,等待链接(https://)刷新出来才算上传完成,再Comment。 如果文件太大,你可以用wps等工具切几页下来,保证能复现问题即可,将这几页的pdf上传。
我通过打印生成pdf的方式裁出来两页后,单独操作两页,任务就能跑完,然后生成双层pdf的效果不理想,麻烦老大下载上面全量pdf测试,谢谢了。
已收到你的文件。
你这份PDF本身是纯文字的,不需要OCR。
Umi-OCR支持从这类pdf中直接提取文字,保存为txt等格式。但是,保存为双层PDF就没有必要了,因为原文件本身就可以搜索。
我调试了一下代码,大概是原PDF本身含有大量文字,所以Umi保存新PDF时进行的 空间压缩和垃圾回收步骤 需要花费大量的时间,甚至可能造成卡死。
我会优化一下对存在大量文本的PDF的处理逻辑。
已收到你的文件。
你这份PDF本身是纯文字的,不需要OCR。
Umi-OCR支持从这类pdf中直接提取文字,保存为txt等格式。但是,保存为双层PDF就没有必要了,因为原文件本身就可以搜索。
我才知道“原文件本身就可以搜索”,谢谢老大,我方向错了。
我调试了一下代码,大概是原PDF本身含有大量文字,所以Umi保存新PDF时进行的 空间压缩和垃圾回收步骤 需要花费大量的时间,甚至可能造成卡死。
我会优化一下对存在大量文本的PDF的处理逻辑。
这么严谨的嘛,我觉得我这种需求比较另类,很难有别人会干这种画蛇添足的事。我刚才跑了个纯图片的pdf,ocr然后生成双层pdf,功能用起来真的不错。
生成后是0KB打不开,什么原因呢