Open mingyonga8 opened 2 months ago
When the eqtable model generates tables, it may time out. Then it can be assumed that the table parsing has failed. Therefore, an original image has been placed at the corresponding table location.
When the eqtable model generates tables, it may time out. Then it can be assumed that the table parsing has failed. Therefore, an original image has been placed at the corresponding table location.
thanks,I try again.
我把超时时间改为40000之后依然解析出错,直接报错 table解析fail。表格解析功能急需提升一下。
我把超时时间改为40000之后依然解析出错,直接报错 table解析fail。表格解析功能急需提升一下。
使用struct_eqtable时,输出的latex如果不以end{tabular}或end{table}结尾,我们会认为表格解析不完整,不信任模型输出的结果而使用图片代替,你可以试着在0.7.1以上的版本使用Tablemaster来解析表格。
Tablemaster
我把超时时间改为40000之后依然解析出错,直接报错 table解析fail。表格解析功能急需提升一下。
使用struct_eqtable时,输出的latex如果不以end{tabular}或end{table}结尾,我们会认为表格解析不完整,不信任模型输出的结果而使用图片代替,你可以试着在0.7.1以上的版本使用Tablemaster来解析表格。
使用Tablemaster解析问题更大,解析的结果是html 而且解析的完全不对,行列错乱。
Tablemaster
我把超时时间改为40000之后依然解析出错,直接报错 table解析fail。表格解析功能急需提升一下。
使用struct_eqtable时,输出的latex如果不以end{tabular}或end{table}结尾,我们会认为表格解析不完整,不信任模型输出的结果而使用图片代替,你可以试着在0.7.1以上的版本使用Tablemaster来解析表格。
使用Tablemaster解析问题更大,解析的结果是html 而且解析的完全不对,行列错乱。
而且对于合并单元格的情况无法准确提取表格数据,存在数据丢失的情况。
Description of the bug | 错误描述
CPU 环境,跑了三个小时,我把47页的pdf转为md时,开启struct_eqtable,发现许多表格依然是图片的形式存在于md中,甚至存在同一个表格横跨三页时只把最后一页的表格内容转化为了文本,第一页和第二页依然是图片的情况。
How to reproduce the bug | 如何复现
使用的最新的版本,mode用的struct_eqtable。只要把下载一个财务报告进行解析即可重现问题。
Operating system | 操作系统
Linux
Python version | Python 版本
3.10
Software version | 软件版本 (magic-pdf --version)
0.7.x
Device mode | 设备模式
cpu