opendatalab / MinerU

A one-stop, open-source, high-quality data extraction tool, supports PDF/webpage/e-book extraction.一站式开源高质量数据提取工具,支持PDF/网页/多格式电子书提取。
https://mineru.readthedocs.io/
GNU Affero General Public License v3.0
13.8k stars 1.03k forks source link

在表格识别时内容缺失 #633

Closed YoungWWan closed 4 days ago

YoungWWan commented 1 month ago

Description of the bug | 错误描述

目前我在进行表格识别时会遇到换行内容识别不全,我查看源码发现在进行图片识别时使用的是原始的RGB图片,我使用cv2.cvtColor(np.asarray(new_image), cv2.COLOR_RGB2BGR)转成BGR后丢失的部分就正常识别了

How to reproduce the bug | 如何复现

magic_pdf/model/pdf_extract_kit.py 380行

Snipaste_2024-09-19_11-06-48 Snipaste_2024-09-19_11-09-52 Snipaste_2024-09-19_11-11-40

Operating system | 操作系统

Linux

Python version | Python 版本

3.10

Software version | 软件版本 (magic-pdf --version)

0.8.x

Device mode | 设备模式

cuda

myhloli commented 1 month ago

感谢反馈,@papayalove 看一下这个问题

myhloli commented 4 days ago

你是对的,我重新阅读了ppocr的源码,paddle在表格解析前是使用cv2读取图片,这样默认是BGR通道,我们是使用pillow截图,这样默认是RGB通道