opendatalab / MinerU

A one-stop, open-source, high-quality data extraction tool, supports PDF/webpage/e-book extraction.一站式开源高质量数据提取工具,支持PDF/网页/多格式电子书提取。
https://opendatalab.com/OpenSourceTools
GNU Affero General Public License v3.0
13.43k stars 1.01k forks source link

希望提供指定语言的选项。另外希望直接在magic命令这里提供有选择性得输出想要的out文件的选项。 #477

Open ywh-my opened 2 months ago

ywh-my commented 2 months ago

(1)希望提供指定OCR语言的选项。 (2)希望提供 有选择性地 :要 .md 文件,要 layout.pdf文件,要 middle.json文件,要images,等等。(因为需求最大的是.md文件,其他的反而比较占存储空间。) 目前看到这些选项都写在了 tools / cli.py 里面,修改 下面这个函数就可以:

do_parse(
                output_dir,
                file_name,
                pdf_data,
                [],
                method,
                f_draw_span_bbox=False,
                f_draw_layout_bbox=False,
                f_dump_md=True,
                f_dump_middle_json=False,
                f_dump_model_json=False,
                f_dump_orig_pdf=False,
                f_dump_content_list=False,
                f_draw_model_bbox=False,
            )

,希望以后的版本迭代把这些可选项加上。