能否选择不对文档中的图片进行截图另存

opendatalab / MinerU

A one-stop, open-source, high-quality data extraction tool, supports PDF/webpage/e-book extraction.一站式开源高质量数据提取工具，支持PDF/网页/多格式电子书提取。

GNU Affero General Public License v3.0

13.43k stars 1.01k forks source link

我的程序需要对pdf文档做版面解析并提取为段落，但我所有对该文档的后处理所需的信息，即bbox坐标、版面成员分类和文本的ocr，通过model.json已经可以完全提供，因此我并不需要后续的转markdown部分。注意到在流程中对图片和表格截图的部分，最终这些截图只用于生成markdown，且这些截图会占用存储空间。因此希望是否可以提供参数选择以关闭对文档中的图片和表格截图（在不进行markdown生成时）

opendatalab / MinerU

能否选择不对文档中的图片进行截图另存 #767