Closed mrslimslim closed 3 days ago
magic-pdf.json的内容发一下看看?
magic-pdf.json的内容发一下看看?
是这样的,辛苦看下,还有在Mineru官网测试和hf给的demo测试出来的效果也不一样。
配置文件看着没啥问题,pdf文件能发一下吗
我这边测试是正常的,请自行查看magic-pdf的版本是否为0.9.3
我这边测试是正常的,请自行查看magic-pdf的版本是否为0.9.3
在hf表现是正常的,但是在https://opendatalab.com/OpenSourceTools/Extractor/PDF和本地测试都是直接识别为图片了
https://opendatalab.com/OpenSourceTools/Extractor/PDF 的发版周期更长,相对而言新功能的上线会更晚,本地部署的可以自行查看版本是否最新版,如果不是最新版需要自己手动更新。
https://opendatalab.com/OpenSourceTools/Extractor/PDF 的发版周期更长,相对而言新功能的上线会更晚,本地部署的可以自行查看版本是否最新版,如果不是最新版需要自己手动更新。
但是我们不是最新版本才支持rapid_table吗,不是最新版本应该用不了吧
你 --version看下版本
你 --version看下版本
版本确实是0.9.3
跑一下你的样本,看看日志有什么异常?
你跑的样本和你上传的不一样,你本地跑的图贴着顶格,你上传的表在页面中间,不建议使用这种样本进行测试,最好是符合真实文档结构的样式,不然layout模型无法准确识别区域和类别。
你跑的样本和你上传的不一样,你本地跑的图贴着顶格,你上传的表在页面中间,不建议使用这种样本进行测试,最好是符合真实文档结构的样式,不然layout模型无法准确识别区域和类别。
好的感谢,我们定位到问题了
Description of the bug | 错误描述
使用RapidTable识别表格且已开启table-config中的识别表格功能,结果是图片而不是html
How to reproduce the bug | 如何复现
具体图片:
Operating system | 操作系统
Linux
Python version | Python 版本
3.10
Software version | 软件版本 (magic-pdf --version)
0.9.x
Device mode | 设备模式
cpu