opendatalab / MinerU

A one-stop, open-source, high-quality data extraction tool, supports PDF/webpage/e-book extraction.一站式开源高质量数据提取工具,支持PDF/网页/多格式电子书提取。
https://opendatalab.com/OpenSourceTools
GNU Affero General Public License v3.0
13.2k stars 985 forks source link

使用CPU离线环境运行程序,运行带有图片的pdf会自动下载ch_PP-OCRv4_det_infer.tar #781

Closed qushencn closed 4 hours ago

qushencn commented 4 hours ago

Description of the bug | 错误描述

使用CPU离线环境运行程序,运行带有图片的pdf会自动下载ch_PP-OCRv4_det_infer.tar,但是模型里面是使用CPU离线环境运行程序,运行带有图片的pdf会自动下载ch_PP-OCRv3_det_infer。没有网络下载不下来,手动下载ch_PP-OCRv4_det_infer放model下不生效。

How to reproduce the bug | 如何复现

直接运行命令即可

Operating system | 操作系统

Windows

Python version | Python 版本

3.10

Software version | 软件版本 (magic-pdf --version)

0.8.x

Device mode | 设备模式

cpu

myhloli commented 4 hours ago

https://huggingface.co/spaces/opendatalab/MinerU/tree/main/paddleocr 下载这个目录到本地,然后执行

cp -r paddleocr ~/.paddleocr