opendatalab / MinerU

A one-stop, open-source, high-quality data extraction tool, supports PDF/webpage/e-book extraction.一站式开源高质量数据提取工具,支持PDF/网页/多格式电子书提取。
https://opendatalab.com/OpenSourceTools
GNU Affero General Public License v3.0
11.51k stars 864 forks source link

把表格内容当成图片进行输出,而没有进行文字识别输出 #326

Open UFOyyds opened 1 month ago

UFOyyds commented 1 month ago

Description of the bug | 错误描述

作者大佬您好,给您描述一个也许是Bug的问题,MinerU每次转换出的Markdown中,都将我原本PDF中的“表格内容”当成了“图片”,进行单独的 image 输出,而不能进行完整的文本解析: image

How to reproduce the bug | 如何复现

请问这个是需要我调整JSON文件中的啥代码吗?(例如:将magic-pdf. json 文件中 "is_table_recog_enable": false,里的 false 改为 true ? )多谢! image

Operating system | 操作系统

Windows

Python version | Python 版本

3.10

Software version | 软件版本 (magic-pdf --version)

0.6.x

Device mode | 设备模式

cpu

myhloli commented 1 month ago

表格解析能力目前还没有正式上线,0.6.x版本表格是作为图片直接保存到本地的,如果需要表格解析功能,需要等待0.7.x版本release。

freedom1993 commented 1 month ago

+1,0.7.x版本预计什么时候release

zouhuigang commented 1 month ago

不想要图片怎么设置呢,只想要图片里面的一些文字信息

papayalove commented 1 month ago

如果有cuda加速的话,可以将table-config中的参数设置为true,看一下表格的latex输出效果

papayalove commented 1 month ago

只有cpu的话,也可以跑一下,但是表格处理时间会很长

drunkpig commented 1 month ago

不想要图片怎么设置呢,只想要图片里面的一些文字信息

in the output directory find XXX_content_list.json, concat all elements with ignoring type equals images or table