MooreThreads / torch_musa

torch_musa is an open source repository based on PyTorch, which can make full use of the super computing power of MooreThreads graphics cards.
Other
298 stars 17 forks source link

ImportError: libmccl.so.2: cannot open shared object file: No such file or directory #5

Open Subury opened 1 year ago

Subury commented 1 year ago

按照我的理解,是不是应该要加装一个mccl的库?如果是的,哪里能得到这个库呢? 我是按照 MUSA Toolkit v1.4.0 安装的基础环境

lms-mt commented 1 year ago

docker镜像里是有mccl安装的,你不是在docker里使用torch_musa?

YueranTang-mt commented 1 year ago

目前torch-musa依赖的部分组件还没有正式发布,建议参考Readme使用docker运行。这里是docker的链接: https://mcconline.mthreads.com/repo/musa-pytorch-release-public?repoName=musa-pytorch-release-public&repoNamespace=mcconline&displayName=MUSA%20Pytorch%20Release%20Public

https://mcconline.mthreads.com/repo/musa-pytorch-dev-public?repoName=musa-pytorch-dev-public&repoNamespace=mcconline&displayName=MUSA%20Pytorch%20Dev%20Public

Subury commented 1 year ago

使用镜像依然出现问题:ImportError: libsrv_um_MUSA.so: cannot open shared object file: No such file or directory

caizhi-mt commented 1 year ago

--env MTHREADS_VISIBLE_DEVICES=all 起docker container时添加这个再测试一下呢? README.md有起docker的参考命令

Subury commented 1 year ago

1) sudo docker run -it --privileged --name=torch_musa_release --env MTHREADS_VISIBLE_DEVICES=all registry.mthreads.com/mcconline/musa-pytorch-release-public:latest /bin/bash,我有读过 readme.md, emmmm,应该是这个命令吧 ???? 2) 我的显卡型号是 MTT S80,MUSA ToolKIT 是不是只支持服务级别显卡呢?PS.前期邮件咨询过,回信说可以支持 S80

Subury commented 1 year ago

我的驱动截图:

截屏2023-07-14 10 42 45
mingyuanw-mt commented 1 year ago

执行dpkg -l | grep container-toolkit看一下mt-container-toolkit版本呢

caizhi-mt commented 1 year ago
  1. sudo docker run -it --privileged --name=torch_musa_release --env MTHREADS_VISIBLE_DEVICES=all registry.mthreads.com/mcconline/musa-pytorch-release-public:latest /bin/bash,我有读过 readme.md, emmmm,应该是这个命令吧 ????
  2. 我的显卡型号是 MTT S80,MUSA ToolKIT 是不是只支持服务级别显卡呢?PS.前期邮件咨询过,回信说可以支持 S80

是这个命令。musatoolkit是支持s80的。从报错log看,可能和container toolkit有关。 我想知道你的musa docker containertoolkit是怎么安装的?安装命令是什么?

Subury commented 1 year ago

抱歉,我并没有找到安装“musa docker containertoolkit”的方法。。。

Subury commented 1 year ago

image 我找到了 MUSA_toolkit 文档中的依赖环境,我猜想 ‘gpu-operator’是驱动,剩余三项我不清楚是什么?

caizhi-mt commented 1 year ago

是需要安装第3项container-toolkit:1.5.0。 container-toolkit还未放在对外发布的网站上。如果发布后,我在这里同步一下你吧。

image 我找到了 MUSA_toolkit 文档中的依赖环境,我猜想 ‘gpu-operator’是驱动,剩余三项我不清楚是什么?

caizhi-mt commented 1 year ago

image 我找到了 MUSA_toolkit 文档中的依赖环境,我猜想 ‘gpu-operator’是驱动,剩余三项我不清楚是什么?

请参考这个页面安装container toolkit相关组件: https://mcconline.mthreads.com/software/1?id=1 https://mcconline.mthreads.com/software

caizhi-mt commented 1 year ago

这个pr更新了mt-container-toolkit的下载链接 https://github.com/MooreThreads/torch_musa/pull/8

Jerry2623 commented 1 year ago

我也遇到相同的问题,import torch_musa 的时候报错,求解 image

caizhi-mt commented 1 year ago

我也遇到相同的问题,import torch_musa 的时候报错,求解 image

上文已经回复了,需要安装mt-container-toolkit, 安装方式已经更新文档了。https://github.com/MooreThreads/torch_musa/pull/8