opendatalab / MinerU

A one-stop, open-source, high-quality data extraction tool, supports PDF/webpage/e-book extraction.一站式开源高质量数据提取工具,支持PDF/网页/多格式电子书提取。
https://mineru.readthedocs.io/
GNU Affero General Public License v3.0
13.87k stars 1.04k forks source link

开启表格解析后依然有大部分表格未被解析 #548

Open mingyonga8 opened 2 months ago

mingyonga8 commented 2 months ago

Description of the bug | 错误描述

CPU 环境,跑了三个小时,我把47页的pdf转为md时,开启struct_eqtable,发现许多表格依然是图片的形式存在于md中,甚至存在同一个表格横跨三页时只把最后一页的表格内容转化为了文本,第一页和第二页依然是图片的情况。

How to reproduce the bug | 如何复现

使用的最新的版本,mode用的struct_eqtable。只要把下载一个财务报告进行解析即可重现问题。

Operating system | 操作系统

Linux

Python version | Python 版本

3.10

Software version | 软件版本 (magic-pdf --version)

0.7.x

Device mode | 设备模式

cpu

drunkpig commented 2 months ago

When the eqtable model generates tables, it may time out. Then it can be assumed that the table parsing has failed. Therefore, an original image has been placed at the corresponding table location.

mingyonga8 commented 2 months ago

When the eqtable model generates tables, it may time out. Then it can be assumed that the table parsing has failed. Therefore, an original image has been placed at the corresponding table location.

thanks,I try again.

mingyonga8 commented 2 months ago

我把超时时间改为40000之后依然解析出错,直接报错 table解析fail。表格解析功能急需提升一下。

myhloli commented 2 months ago

我把超时时间改为40000之后依然解析出错,直接报错 table解析fail。表格解析功能急需提升一下。

使用struct_eqtable时,输出的latex如果不以end{tabular}或end{table}结尾,我们会认为表格解析不完整,不信任模型输出的结果而使用图片代替,你可以试着在0.7.1以上的版本使用Tablemaster来解析表格。

mingyonga8 commented 2 months ago

Tablemaster

我把超时时间改为40000之后依然解析出错,直接报错 table解析fail。表格解析功能急需提升一下。

使用struct_eqtable时,输出的latex如果不以end{tabular}或end{table}结尾,我们会认为表格解析不完整,不信任模型输出的结果而使用图片代替,你可以试着在0.7.1以上的版本使用Tablemaster来解析表格。

使用Tablemaster解析问题更大,解析的结果是html 而且解析的完全不对,行列错乱。

SuperDZ commented 2 months ago

Tablemaster

我把超时时间改为40000之后依然解析出错,直接报错 table解析fail。表格解析功能急需提升一下。

使用struct_eqtable时,输出的latex如果不以end{tabular}或end{table}结尾,我们会认为表格解析不完整,不信任模型输出的结果而使用图片代替,你可以试着在0.7.1以上的版本使用Tablemaster来解析表格。

使用Tablemaster解析问题更大,解析的结果是html 而且解析的完全不对,行列错乱。

而且对于合并单元格的情况无法准确提取表格数据,存在数据丢失的情况。