opendatalab / MinerU

A one-stop, open-source, high-quality data extraction tool, supports PDF/webpage/e-book extraction.一站式开源高质量数据提取工具,支持PDF/网页/多格式电子书提取。
https://mineru.readthedocs.io/
GNU Affero General Public License v3.0
16.05k stars 1.15k forks source link

能否在版本发布时候,同时发布更新一个相应版本的docker镜像呢? #583

Open DreamTeamWangbowen opened 2 months ago

DreamTeamWangbowen commented 2 months ago

希望发布0.7.1版本的同时,能够提供相应docker镜像,像开源推理框架vllm,每发布一个版本都会同时发布一个相应版本的docker镜像,这样可以避免了复杂且重复的依赖环境安装问题。

world2025 commented 2 months ago

+1 同求

myhloli commented 2 months ago

@tkone2018 @DreamTeamWangbowen 后续发版会提供经过验证的Dockerfile文件,考虑到镜像build之后会有约25G大小,加上dockerhub在国内访问较为困难,因为build过程中的大部分内容都可以通过国内镜像源进行加速,所以我们希望可以由用户自行通过Dockerfile去执行build操作。

现在也想听听用户的声音,是希望可以自行build还是通过dockerhub下载镜像,欢迎提供反馈。

DreamTeamWangbowen commented 2 months ago

@tkone2018 @DreamTeamWangbowen 后续发版会提供经过验证的Dockerfile文件,考虑到镜像build之后会有约25G大小,加上dockerhub在国内访问较为困难,因为build过程中的大部分内容都可以通过国内镜像源进行加速,所以我们希望可以由用户自行通过Dockerfile去执行build操作。

现在也想听听用户的声音,是希望可以自行build还是通过dockerhub下载镜像,欢迎提供反馈。

我墙裂推荐 dockerhub用户自主下载镜像这个选项吧,原因是我们这边都是在内网离线build镜像,但如果依赖很多的话,会有些依赖包内网镜像源没有,从我安装了十几个依赖包当前卡住在detectron2这个包的安装上来看,后面肯定还有不少坑要踩,真的不如下载一个基础镜像内网docker直接就跑起来了,像比较知名的开源项目在dockerhub上面都是有留存镜像的,例如推理框架vllm、TGI等等。所以,真心求一个镜像:)

ML-GCN commented 2 months ago

dockerhub下载镜像

确实dockerhub下载镜像好 省去依赖麻烦

myhloli commented 2 months ago

@tkone2018 @DreamTeamWangbowen 后续发版会提供经过验证的Dockerfile文件,考虑到镜像build之后会有约25G大小,加上dockerhub在国内访问较为困难,因为build过程中的大部分内容都可以通过国内镜像源进行加速,所以我们希望可以由用户自行通过Dockerfile去执行build操作。

现在也想听听用户的声音,是希望可以自行build还是通过dockerhub下载镜像,欢迎提供反馈。

我墙裂推荐 dockerhub用户自主下载镜像这个选项吧,原因是我们这边都是在内网离线build镜像,但如果依赖很多的话,会有些依赖包内网镜像源没有,从我安装了十几个依赖包当前卡住在detectron2这个包的安装上来看,后面肯定还有不少坑要踩,真的不如下载一个基础镜像内网docker直接就跑起来了,像比较知名的开源项目在dockerhub上面都是有留存镜像的,例如推理框架vllm、TGI等等。所以,真心求一个镜像:)

可以直接使用huggingface的space镜像吗

docker run -it -p 7860:7860 --platform=linux/amd64 --gpus all \ registry.hf.space/opendatalab-mineru:latest python app.py

DreamTeamWangbowen commented 2 months ago

@tkone2018 @DreamTeamWangbowen 后续发版会提供经过验证的Dockerfile文件,考虑到镜像build之后会有约25G大小,加上dockerhub在国内访问较为困难,因为build过程中的大部分内容都可以通过国内镜像源进行加速,所以我们希望可以由用户自行通过Dockerfile去执行build操作。

现在也想听听用户的声音,是希望可以自行build还是通过dockerhub下载镜像,欢迎提供反馈。

我墙裂推荐 dockerhub用户自主下载镜像这个选项吧,原因是我们这边都是在内网离线build镜像,但如果依赖很多的话,会有些依赖包内网镜像源没有,从我安装了十几个依赖包当前卡住在detectron2这个包的安装上来看,后面肯定还有不少坑要踩,真的不如下载一个基础镜像内网docker直接就跑起来了,像比较知名的开源项目在dockerhub上面都是有留存镜像的,例如推理框架vllm、TGI等等。所以,真心求一个镜像:)

可以直接使用huggingface的space镜像吗

docker run -it -p 7860:7860 --platform=linux/amd64 --gpus all registry.hf.space/opendatalab-mineru:latest python app.py

找不到 registry.hf.space 的网页找不到与以下网址对应的网页:https://registry.hf.space/opendatalab-mineru:latest HTTP ERROR 404

这个好像下载不了镜像啊?@myhloli

myhloli commented 2 months ago

image 可能需要翻墙

hraefn999 commented 2 months ago

我也感觉dockerhub最好用,docker build经常会出奇奇怪怪的错误,其它几个站也是各有各的问题。

XiaoCC commented 1 month ago

需要dockerhub

wenzhaoabc commented 1 month ago

强烈希望增加构建好的镜像

eggb4by commented 1 month ago

希望直接提供image

Jarvie76 commented 1 month ago

可以将模型和环境分开,打包的时候让用户自己去下模型,这样镜像就不会过大了