opendatalab / MinerU

A high-quality tool for convert PDF to Markdown and JSON.一站式开源高质量数据提取工具,将PDF转换成Markdown和JSON格式。
https://opendatalab.com/OpenSourceTools?tool=extract
GNU Affero General Public License v3.0
17.96k stars 1.29k forks source link

能不能做到标题和正文在一行时对标题的识别 #1041

Open ZzYAmbition opened 9 hours ago

ZzYAmbition commented 9 hours ago

当标题和正文在一行时无法识别出标题来。我使用你们提供的网页版demo得到的结果如下 image 另外对标题的识别结果好像也不够准确 image

所以能不能在标题和正文在一行时,实现比较准确提取标题的方法。

我使用的示例pdf文件如附件所示 桂枝茯苓胶囊临床应用指南(2021年)_《中成药治疗优势病种临床应用指南》标准化项目组.pdf