opendatalab / MinerU

A high-quality tool for convert PDF to Markdown and JSON.一站式开源高质量数据提取工具,将PDF转换成Markdown和JSON格式。
https://opendatalab.com/OpenSourceTools?tool=extract
GNU Affero General Public License v3.0
17.96k stars 1.29k forks source link

页眉页脚解析问题 #1007

Open zhongxin129 opened 3 days ago

zhongxin129 commented 3 days ago

Description of the bug | 错误描述

特殊形式的页眉页脚没有去掉, image

How to reproduce the bug | 如何复现

页面从 深圳地铁轨道线路修理规则.pdf

Operating system | 操作系统

Linux

Python version | Python 版本

3.10

Software version | 软件版本 (magic-pdf --version)

0.9.x

Device mode | 设备模式

cuda