opendatalab / MinerU

A high-quality tool for convert PDF to Markdown and JSON.一站式开源高质量数据提取工具,将PDF转换成Markdown和JSON格式。
https://opendatalab.com/OpenSourceTools?tool=extract
GNU Affero General Public License v3.0
18.23k stars 1.31k forks source link

【QA】mineru公式后处理问题 #1014

Closed dt-yy closed 2 days ago

dt-yy commented 5 days ago

Description of the bug | 错误描述

识别结果 image

公式与文本拼接的时候,拼接了多于的text image 原pdf: image

How to reproduce the bug | 如何复现

test.zip

Operating system | 操作系统

Linux

Python version | Python 版本

3.10

Software version | 软件版本 (magic-pdf --version)

0.9.x

Device mode | 设备模式

cuda

myhloli commented 2 days ago

fixed