opendatalab / MinerU

A one-stop, open-source, high-quality data extraction tool, supports PDF/webpage/e-book extraction.一站式开源高质量数据提取工具,支持PDF/网页/多格式电子书提取。
https://opendatalab.com/OpenSourceTools
GNU Affero General Public License v3.0
11.19k stars 835 forks source link

使用ocr模式运行一段时间后卡住 #457

Closed zuanzuanshao closed 3 weeks ago

zuanzuanshao commented 3 weeks ago

Description of the bug | 错误描述

image 图片上面是具体的运行信息,请问是因为内存不够才卡住吗?

How to reproduce the bug | 如何复现

magic-pdf -p 奥迪Q5混合动力技术培训.pdf -m ocr

Operating system | 操作系统

Linux

Python version | Python 版本

3.10

Software version | 软件版本 (magic-pdf --version)

0.7.x

Device mode | 设备模式

cuda

myhloli commented 3 weeks ago

截图能看到显存没满,内存32g的满了?

zuanzuanshao commented 3 weeks ago

@myhloli 这个是运行时的数据,我是在wsl里面的Ubuntu跑的。 image

myhloli commented 3 weeks ago

wsl的内存策略和物理机不同?

zuanzuanshao commented 3 weeks ago

刚查了下,没有物理机直接,多了一层。

myhloli commented 3 weeks ago

要不试下直接在win上跑呢,程序对windows兼容其实还不错的。

drunkpig commented 3 weeks ago

@zuanzuanshao 不建议wsl参与大规模提取,wsl无论做任何事情卡死是常态。

zuanzuanshao commented 3 weeks ago

@myhloli @drunkpig 好的,我试试直接Windows看看。