opendatalab / MinerU

A one-stop, open-source, high-quality data extraction tool, supports PDF/webpage/e-book extraction.一站式开源高质量数据提取工具,支持PDF/网页/多格式电子书提取。
https://opendatalab.com/OpenSourceTools
GNU Affero General Public License v3.0
12.42k stars 923 forks source link

magic_pdf_parse_main.py的最佳配置 #516

Closed HaoRenkk123 closed 2 hours ago

HaoRenkk123 commented 1 month ago

谢谢分享这么棒的pdf2md方案,我想用python脚本入口来进行pdf的提取,而不是用命令行方式,并且本地下载好了models,请问最佳的配置是什么呢,gpu的设置以及是否可以设置多线程,ocr加速,请问在哪里设置呢

drunkpig commented 1 month ago

请参考readme文档上,使用GPU加速一节。win10, ubuntu

fanshuaiyao commented 1 week ago

请参考readme文档上,使用GPU加速一节。Win10Ubuntu

这一节也是用得命令行啊

myhloli commented 1 week ago

请参考readme文档上,使用GPU加速一节。Win10Ubuntu

这一节也是用得命令行啊

https://github.com/opendatalab/MinerU/blob/dev/projects/gradio_app/README_zh-CN.md

参考这个文档,可以运行gradio前端

bwnjnOEI commented 1 week ago

请问下parse_method 三种参数有具体描述吗?还有不同table模型的描述,我没在repo的文档中找到详细描述。

myhloli commented 1 week ago

请问下parse_method 三种参数有具体描述吗?还有不同table模型的描述,我没在repo的文档中找到详细描述。

auto适合90%以上的文档解析,再少部分使用auto解析效果不好的文档可以使用ocr模式提高解析效果