把表格内容当成图片进行输出，而没有进行文字识别输出

opendatalab / MinerU

A one-stop, open-source, high-quality data extraction tool, supports PDF/webpage/e-book extraction.一站式开源高质量数据提取工具，支持PDF/网页/多格式电子书提取。

https://opendatalab.com/OpenSourceTools

GNU Affero General Public License v3.0

11.51k stars 864 forks source link

Open UFOyyds opened 1 month ago

UFOyyds commented 1 month ago

作者大佬您好，给您描述一个也许是Bug的问题，MinerU每次转换出的Markdown中，都将我原本PDF中的“表格内容”当成了“图片”，进行单独的 image 输出，而不能进行完整的文本解析：

请问这个是需要我调整JSON文件中的啥代码吗？（例如：将magic-pdf. json 文件中 "is_table_recog_enable": false,里的 false 改为 true ? ）多谢！

Windows

3.10

0.6.x

cpu

myhloli commented 1 month ago

表格解析能力目前还没有正式上线，0.6.x版本表格是作为图片直接保存到本地的，如果需要表格解析功能，需要等待0.7.x版本release。

freedom1993 commented 1 month ago

+1，0.7.x版本预计什么时候release

zouhuigang commented 1 month ago

不想要图片怎么设置呢，只想要图片里面的一些文字信息

papayalove commented 1 month ago

如果有cuda加速的话，可以将table-config中的参数设置为true，看一下表格的latex输出效果

papayalove commented 1 month ago

只有cpu的话，也可以跑一下，但是表格处理时间会很长

drunkpig commented 1 month ago

不想要图片怎么设置呢，只想要图片里面的一些文字信息

in the output directory find XXX_content_list.json, concat all elements with ignoring type equals images or table