opendatalab / MinerU

A high-quality tool for convert PDF to Markdown and JSON.一站式开源高质量数据提取工具,将PDF转换成Markdown和JSON格式。
https://opendatalab.com/OpenSourceTools?tool=extract
GNU Affero General Public License v3.0
18.18k stars 1.3k forks source link

使用RapidTable识别表格且已开启table-config中的识别表格功能,结果是图片而不是html #1028

Closed mrslimslim closed 3 days ago

mrslimslim commented 4 days ago

Description of the bug | 错误描述

使用RapidTable识别表格且已开启table-config中的识别表格功能,结果是图片而不是html

How to reproduce the bug | 如何复现

具体图片:

jljh201706004_page_4-0

Operating system | 操作系统

Linux

Python version | Python 版本

3.10

Software version | 软件版本 (magic-pdf --version)

0.9.x

Device mode | 设备模式

cpu

myhloli commented 4 days ago

magic-pdf.json的内容发一下看看?

mrslimslim commented 3 days ago

magic-pdf.json的内容发一下看看?

企业微信截图_d6d022c8-c855-44b2-98cb-e08ac836b90b

是这样的,辛苦看下,还有在Mineru官网测试和hf给的demo测试出来的效果也不一样。

myhloli commented 3 days ago

配置文件看着没啥问题,pdf文件能发一下吗

mrslimslim commented 3 days ago

配置文件看着没啥问题,pdf文件能发一下吗

这个是测试的几份文件,基本上用命令行转都有问题

b13e299cab4e88d7125435f686751539_page_18-1.pdf

jljh201706004_page_4-0.pdf

631775ee0b98483fe0e8525db9ff22c5_page_2-0.pdf

myhloli commented 3 days ago

image 我这边测试是正常的,请自行查看magic-pdf的版本是否为0.9.3

mrslimslim commented 3 days ago

image 我这边测试是正常的,请自行查看magic-pdf的版本是否为0.9.3

在hf表现是正常的,但是在https://opendatalab.com/OpenSourceTools/Extractor/PDF和本地测试都是直接识别为图片了

myhloli commented 3 days ago

https://opendatalab.com/OpenSourceTools/Extractor/PDF 的发版周期更长,相对而言新功能的上线会更晚,本地部署的可以自行查看版本是否最新版,如果不是最新版需要自己手动更新。

mrslimslim commented 3 days ago

https://opendatalab.com/OpenSourceTools/Extractor/PDF 的发版周期更长,相对而言新功能的上线会更晚,本地部署的可以自行查看版本是否最新版,如果不是最新版需要自己手动更新。

但是我们不是最新版本才支持rapid_table吗,不是最新版本应该用不了吧

myhloli commented 3 days ago

你 --version看下版本

mrslimslim commented 3 days ago

你 --version看下版本

版本确实是0.9.3

企业微信截图_b6c080f4-3344-4d56-bafc-ce85cb3dfdad
myhloli commented 3 days ago

跑一下你的样本,看看日志有什么异常?

mrslimslim commented 3 days ago

跑一下你的样本,看看日志有什么异常?

具体看哪些呢 只有一块WARN其他都是INFO

企业微信截图_891524f8-6aff-441c-ad79-9edc91bd227a

我把具体的输出文件压缩发给你吧 测试图片4.zip

myhloli commented 3 days ago

你跑的样本和你上传的不一样,你本地跑的图贴着顶格,你上传的表在页面中间,不建议使用这种样本进行测试,最好是符合真实文档结构的样式,不然layout模型无法准确识别区域和类别。

mrslimslim commented 3 days ago

你跑的样本和你上传的不一样,你本地跑的图贴着顶格,你上传的表在页面中间,不建议使用这种样本进行测试,最好是符合真实文档结构的样式,不然layout模型无法准确识别区域和类别。

好的感谢,我们定位到问题了