opendatalab / MinerU

A high-quality tool for convert PDF to Markdown and JSON.一站式开源高质量数据提取工具,将PDF转换成Markdown和JSON格式。
https://opendatalab.com/OpenSourceTools?tool=extract
GNU Affero General Public License v3.0
20.13k stars 1.43k forks source link

表格识别丢失 #1181

Closed fmx0717 closed 2 hours ago

fmx0717 commented 16 hours ago

Description of the bug | 错误描述

企业微信截图_17332219542671 类似上图的效果,发现如果PDF中的扫面件中的表格很少,例如右边的位置的表格,读取JSON和MARKDOWN的时候会显示为一整张照片(此为缩小后的截图,正常图片是高清),但是如果中间图片中如果有文本段落和有表格就能正常的读取,请问如何可以控制调整支持检测右边的表格区域的检测

How to reproduce the bug | 如何复现

配置如下:{ "bucket_info":{ "bucket-name-1":["ak", "sk", "endpoint"], "bucket-name-2":["ak", "sk", "endpoint"] }, "models-dir":"/tmp/models", "layoutreader-model-dir": "/tmp/layoutreader", "device-mode":"cuda", "layout-config": { "model": "doclayout_yolo" }, "formula-config": { "mfd_model": "yolo_v8_mfd", "mfr_model": "unimernet_small", "enable": false }, "table-config": { "model": "rapid_table", "enable": true, "max_time": 400 }, "config_version": "1.0.0" }

Operating system | 操作系统

Linux

Python version | Python 版本

3.10

Software version | 软件版本 (magic-pdf --version)

0.10.x

Device mode | 设备模式

cuda

myhloli commented 16 hours ago

这种设计图类型的版式,我们的layout模型支持的不是很好,会有这种识别不准的情况的,目前我们主要针对的还是论文、图书、教材、研报、报纸、杂志这些常见的场景类型做了适配和优化。