Closed ElsaReedz closed 3 days ago
我的程序需要对pdf文档做版面解析并提取为段落,但我所有对该文档的后处理所需的信息,即bbox坐标、版面成员分类和文本的ocr,通过model.json已经可以完全提供,因此我并不需要后续的转markdown部分。注意到在流程中对图片和表格截图的部分,最终这些截图只用于生成markdown,且这些截图会占用存储空间。因此希望是否可以提供参数选择以关闭对文档中的图片和表格截图(在不进行markdown生成时)
你可以写个python脚本,只调用 magic_pdf.model.doc_analyze_by_custom_model.doc_analyze 方法,返回的结果就是model.json,自行写出到本地即可。
magic_pdf.model.doc_analyze_by_custom_model.doc_analyze
我的程序需要对pdf文档做版面解析并提取为段落,但我所有对该文档的后处理所需的信息,即bbox坐标、版面成员分类和文本的ocr,通过model.json已经可以完全提供,因此我并不需要后续的转markdown部分。注意到在流程中对图片和表格截图的部分,最终这些截图只用于生成markdown,且这些截图会占用存储空间。因此希望是否可以提供参数选择以关闭对文档中的图片和表格截图(在不进行markdown生成时)