opendatalab / MinerU

A high-quality tool for convert PDF to Markdown and JSON.一站式开源高质量数据提取工具,将PDF转换成Markdown和JSON格式。
https://opendatalab.com/OpenSourceTools?tool=extract
GNU Affero General Public License v3.0
17.96k stars 1.29k forks source link

内网无法访问huggingface #1002

Closed yq-warehouse closed 3 days ago

yq-warehouse commented 3 days ago

因为是内网问题,无法直接访问huggingface,想问下是去这里下载模型参数吗https://huggingface.co/hantian/layoutreader/tree/main,并且下载完之后需要到哪里进行配置

myhloli commented 3 days ago

在有网的机器上通过download_model.py下载模型,然后根据log输出,拷贝缓存好的模型目录和配置文件到内网设备的用户目录下

yq-warehouse commented 3 days ago

在有网的机器上通过download_model.py下载模型,然后根据log输出,拷贝缓存好的模型目录和配置文件到内网设备的用户目录下

在运行demo目录下的magic_pdf_parse_main.py文件时,出现了下面这个错误,大佬有遇到过吗ImportError: cannot import name 'converter' from 'torch._export' (/opt/anaconda3/envs/MinerU/lib/python3.10/site-packages/torch/_export/init.py)

myhloli commented 3 days ago

torch没装好?

yq-warehouse commented 3 days ago

torch没装好?

有呀,查了一下是2.3.1版本 pip show torch

Name: torch Version: 2.3.1 Summary: Tensors and Dynamic neural networks in Python with strong GPU acceleration Home-page: https://pytorch.org/ Author: PyTorch Team Author-email: packages@pytorch.org License: BSD-3 Location: /opt/anaconda3/envs/MinerU/lib/python3.10/site-packages Requires: filelock, fsspec, jinja2, networkx, sympy, typing-extensions Required-by: accelerate, doclayout_yolo, fairscale, magic-pdf, struct-eqtable, thop, timm, torchaudio, torchtext, torchvision, ultralytics, ultralytics-thop, unimernet

myhloli commented 3 days ago

或者你可以pip list一下,看看torch开头的几个包的版本号是否相匹配

yq-warehouse commented 3 days ago

或者你可以pip list一下,看看torch开头的几个包的版本号是否相匹配

torch 2.3.1 torchaudio 2.4.0 torchtext 0.18.0 torchvision 0.18.1

torch开头的就这四个,torchaudio可能不匹配但应该没影响吧

myhloli commented 3 days ago

有影响,需要卸载掉torchaudio

yq-warehouse commented 3 days ago

有影响,需要卸载掉torchaudio

通过 pip uninstall torchaudio进行卸载后,查看了pip list确认没有这个依赖了,但是重新执行py文件还是报相同的错误。。

myhloli commented 3 days ago

把这几个torch开头的包都卸掉,重新装torch==2.3.1 torchtext==0.18.0 torchvision==0.18.1

yq-warehouse commented 3 days ago

把这几个torch开头的包都卸掉,重新装torch==2.3.1 torchtext==0.18.0 torchvision==0.18.1

可以执行了,想问下支持图片吗,试了一下pdf可以,但png图片好像不行

myhloli commented 3 days ago

png需要自己手动转一下pdf,未来我们会集成图片转pdf的逻辑,目前还是需要自己手动操作下

yq-warehouse commented 3 days ago

png需要自己手动转一下pdf,未来我们会集成图片转pdf的逻辑,目前还是需要自己手动操作下

pdf的内容是表格,我通过magic_pdf_parse_main.py执行处理,输出的结果中好像没有将文本提取出来,而是存储在一张图片里,然后在md中指向该图片 下面是所使用的case animals.pdf

myhloli commented 3 days ago

你没开表格开关,看下readme,改下配置文件。

yq-warehouse commented 3 days ago

你没开表格开关,看下readme,改下配置文件。

尴尬没注意下面的注释说明,我的问题。。。 还有个问题,我将拷贝缓存好的模型目录和配置文件到内网设备的用户目录后,还需要修改其他配置吗

myhloli commented 3 days ago

一般不用改别的配置,先试试能不能跑

yq-warehouse commented 3 days ago

一般不用改别的配置,先试试能不能跑

在idc运行遇到其他报错 ImportError: libGL.so.1: cannot open shared object file: No such file or directory ,上网查了一下用pip install opencv-python-headless,但还是没效果,大佬有遇到过么

myhloli commented 3 days ago

sudo apt install libgl1-mesa-glx

yq-warehouse commented 2 days ago

sudo apt install libgl1-mesa-glx

上面的命令没有,我执行的conda install -c conda-forge mesa,但还是有这个报错

myhloli commented 2 days ago

你系统不是ubuntu吧,网上搜下你的系统名称+ImportError: libGL.so.1: cannot open shared object file: No such file or directory,一般都有解决办法

yq-warehouse commented 2 days ago

你系统不是ubuntu吧,网上搜下你的系统名称+ImportError: libGL.so.1: cannot open shared object file: No such file or directory,一般都有解决办法

centos 8

yq-warehouse commented 2 days ago

你系统不是ubuntu吧,网上搜下你的系统名称+ImportError: libGL.so.1: cannot open shared object file: No such file or directory,一般都有解决办法

确实,查到yum install mesa-libGL.x86_64,可以解决这个报错,但又有新的报错了。。。

yq-warehouse commented 2 days ago

你系统不是ubuntu吧,网上搜下你的系统名称+ImportError: libGL.so.1: 无法打开共享对象文件: 没有这样的文件或目录,一般都有解决办法

看了下日志之前好像有集成这个模型StructTable-InternVL2-1B,如果我想用的话,是需要修改magic-pdf配置吗,修改为什么呢

myhloli commented 2 days ago

https://github.com/opendatalab/MinerU#3-modify-the-configuration-file-for-additional-configuration

yq-warehouse commented 2 days ago

https://github.com/opendatalab/MinerU#3-modify-the-configuration-file-for-additional-configuration

看名字像是struct_eqtable