opendatalab / MinerU

A high-quality tool for convert PDF to Markdown and JSON.一站式开源高质量数据提取工具,将PDF转换成Markdown和JSON格式。
https://opendatalab.com/OpenSourceTools?tool=extract
GNU Affero General Public License v3.0
17.4k stars 1.25k forks source link

标题识别和代码识别需求 #1009

Open Tian14267 opened 2 hours ago

Tian14267 commented 2 hours ago

哈喽,各位大神们好。我想问下,咱们这个工具,目前在标题识别和代码、公式这块的效果都挺差的。咱们有啥优化提升吗

image image

myhloli commented 2 hours ago

你要不试试开启强制ocr呢?感觉你这文档有些字其实是图片?