Closed yang-521 closed 4 months ago
请看 output_pdf_layered.py
的 _getPDF
方法。它实现了打开原始文档,获取文档对象。非PDF格式会被转换为PDF格式。
因此,文档对象就是原文档在内存中的副本。后续的操作,都是在这个文档对象上进行操作。
请看
output_pdf_layered.py
的_getPDF
方法。它实现了打开原始文档,获取文档对象。非PDF格式会被转换为PDF格式。因此,文档对象就是原文档在内存中的副本。后续的操作,都是在这个文档对象上进行操作。
感谢答复
有点看不太明白,提取的文本跟ocr文本重新整理,输出文档时跳过提取部分,但好像也没看到复制整个pdf页面之类的步骤,原文提取的部分是在什么时候置入进页面的