magic_pdf_parse_main.py的最佳配置

opendatalab / MinerU

A one-stop, open-source, high-quality data extraction tool, supports PDF/webpage/e-book extraction.一站式开源高质量数据提取工具，支持PDF/网页/多格式电子书提取。

https://opendatalab.com/OpenSourceTools

GNU Affero General Public License v3.0

12.42k stars 923 forks source link

Closed HaoRenkk123 closed 2 hours ago

HaoRenkk123 commented 1 month ago

谢谢分享这么棒的pdf2md方案，我想用python脚本入口来进行pdf的提取，而不是用命令行方式，并且本地下载好了models，请问最佳的配置是什么呢，gpu的设置以及是否可以设置多线程，ocr加速，请问在哪里设置呢

drunkpig commented 1 month ago

请参考readme文档上，使用GPU加速一节。win10, ubuntu

fanshuaiyao commented 1 week ago

请参考readme文档上，使用GPU加速一节。Win10、Ubuntu

这一节也是用得命令行啊

myhloli commented 1 week ago

请参考readme文档上，使用GPU加速一节。Win10、Ubuntu

这一节也是用得命令行啊

参考这个文档，可以运行gradio前端

bwnjnOEI commented 1 week ago

请问下parse_method 三种参数有具体描述吗？还有不同table模型的描述，我没在repo的文档中找到详细描述。

myhloli commented 1 week ago

请问下parse_method 三种参数有具体描述吗？还有不同table模型的描述，我没在repo的文档中找到详细描述。

auto适合90%以上的文档解析，再少部分使用auto解析效果不好的文档可以使用ocr模式提高解析效果