opendatalab / MinerU

A one-stop, open-source, high-quality data extraction tool, supports PDF/webpage/e-book extraction.一站式开源高质量数据提取工具,支持PDF/网页/多格式电子书提取。
https://opendatalab.com/OpenSourceTools
GNU Affero General Public License v3.0
13.43k stars 1.01k forks source link

碰到横版的pdf,解析效果不好,图片和文字的排版错乱了 #465

Open CyfZsj opened 2 months ago

CyfZsj commented 2 months ago

Description of the bug | 错误描述

解析文件:说明书.pdf 当pdf中有一页很宽时,解析有些问题: 1、解析出现图片和文字排版错位 2、有一些图片和文字没有识别到 解析结果(部分): layout.pdf spans.pdf

How to reproduce the bug | 如何复现

执行 magic-pdf -p ....... -o ......... -m auto

Operating system | 操作系统

Linux

Python version | Python 版本

3.10

Software version | 软件版本 (magic-pdf --version)

0.7.x

Device mode | 设备模式

cuda