hiroi-sora / Umi-OCR

OCR software, free and offline. 开源、免费的离线OCR软件。支持截屏/批量导入图片,PDF文档识别,排除水印/页眉页脚,扫描/生成二维码。内置多国语言库。
MIT License
23.48k stars 2.39k forks source link

想问下ocr文档混合模式原文文本是怎么处理的 #422

Closed yang-521 closed 4 months ago

yang-521 commented 4 months ago

有点看不太明白,提取的文本跟ocr文本重新整理,输出文档时跳过提取部分,但好像也没看到复制整个pdf页面之类的步骤,原文提取的部分是在什么时候置入进页面的

hiroi-sora commented 4 months ago

请看 output_pdf_layered.py_getPDF 方法。它实现了打开原始文档,获取文档对象。非PDF格式会被转换为PDF格式。

因此,文档对象就是原文档在内存中的副本。后续的操作,都是在这个文档对象上进行操作。

yang-521 commented 4 months ago

请看 output_pdf_layered.py_getPDF 方法。它实现了打开原始文档,获取文档对象。非PDF格式会被转换为PDF格式。

因此,文档对象就是原文档在内存中的副本。后续的操作,都是在这个文档对象上进行操作。

感谢答复