opendatalab / MinerU

A one-stop, open-source, high-quality data extraction tool, supports PDF/webpage/e-book extraction.一站式开源高质量数据提取工具,支持PDF/网页/多格式电子书提取。
https://mineru.readthedocs.io/
GNU Affero General Public License v3.0
13.8k stars 1.03k forks source link

识别表格的时候只给出了图片,不是json数据。 #634

Closed stormsea closed 1 month ago

stormsea commented 1 month ago

Description of the bug | 错误描述

识别表格的时候,md文件里只有表格的图片,不是json数据。这样的话就毫无意义。

How to reproduce the bug | 如何复现

Operating system | 操作系统

Linux

Python version | Python 版本

3.10

Software version | 软件版本 (magic-pdf --version)

0.8.x

Device mode | 设备模式

cuda

myhloli commented 1 month ago

参考: https://github.com/opendatalab/MinerU/blob/master/README_zh-CN.md#3-拷贝配置文件并进行配置

表格识别功能需手动开启