想问下ocr文档混合模式原文文本是怎么处理的

hiroi-sora / Umi-OCR

OCR software, free and offline. 开源、免费的离线OCR软件。支持截屏/批量导入图片，PDF文档识别，排除水印/页眉页脚，扫描/生成二维码。内置多国语言库。

MIT License

23.48k stars 2.39k forks source link

Closed yang-521 closed 4 months ago

yang-521 commented 4 months ago

有点看不太明白，提取的文本跟ocr文本重新整理，输出文档时跳过提取部分，但好像也没看到复制整个pdf页面之类的步骤，原文提取的部分是在什么时候置入进页面的

hiroi-sora commented 4 months ago

请看 output_pdf_layered.py 的 _getPDF 方法。它实现了打开原始文档，获取文档对象。非PDF格式会被转换为PDF格式。

因此，文档对象就是原文档在内存中的副本。后续的操作，都是在这个文档对象上进行操作。

yang-521 commented 4 months ago

请看 output_pdf_layered.py 的 _getPDF 方法。它实现了打开原始文档，获取文档对象。非PDF格式会被转换为PDF格式。

因此，文档对象就是原文档在内存中的副本。后续的操作，都是在这个文档对象上进行操作。

感谢答复