blcuicall / BLCU-HPC

高性能GPU计算集群
6 stars 0 forks source link

我在用sabtch脚本时候出了一些问题 #18

Closed lunar333 closed 11 months ago

lunar333 commented 2 years ago

这是我用的shatch脚本:

!/bin/bash

SBATCH -J adainv4 # 任务名

SBATCH -o adainv4.log # 日志文件路径,也可删除此行由系统自动指定

SBATCH -N 1 # 申请节点数,根据用户配额,设置为1即可

SBATCH -G 1 # 申请的GPU数量

SBATCH --mem 60G # 内存大小

SBATCH -w compute6 # 可选具体申请哪个节点的资源,不写则按服务器顺序和可用情况分配

module purge module add anaconda3 module add cuda-10.0 conda activate pytorch python train.py 2>&1

之前都是没问题的,昨天有个模型,配置环境时候,好像是用了python-venv,后面这个sbatch就有问题,报如下错误 Loading anaconda3 Module ERROR: no such variable (read trace on "env(PATH)") invoked from within "split $env(PATH) :" (procedure "auto_execok" line 14) invoked from within "auto_execok $cmd" (procedure "getCommandPath" line 2) invoked from within "getCommandPath $shell" (procedure "execShAndGetEnv" line 84) invoked from within "execShAndGetEnv {}$args" (procedure "sh-to-mod" line 7) invoked from within "sh-to-mod {}$shtomodargs" (procedure "source-sh" line 5) invoked from within "source-sh bash /data/softwares/anaconda3/bin/activate" (file "/data/softwares/modulefiles/anaconda3" line 14) Please contact root@localhost /var/spool/slurm/d/job06457/slurm_script: line 12: conda: command not found /var/spool/slurm/d/job06457/slurm_script: line 13: python: command not found

chongruining commented 2 years ago

请问现在用的shell类型是什么,有修改过吗

lunar333 commented 2 years ago

请问现在用的shell类型是什么,有修改过吗

没有修改过,就是系统默认的

chongruining commented 2 years ago

可以提供sbatch的log信息以及python的源码信息吗

lunar333 commented 2 years ago

可以提供sbatch的log信息以及python的源码信息吗

log信息就是我上面 下面发的报错,python源码他都没有运行,其实没有影响到

chongruining commented 2 years ago

你提到用了python-venv,具体做了什么配置?

lunar333 commented 2 years ago

你提到用了python-venv,具体做了什么配置?

是配置novel ai 的一个脚本,github项目名字stable-diffusion-webui,配置代码太长不好放,你github搜下这个项目

lunar333 commented 2 years ago

你提到用了python-venv,具体做了什么配置?

是配置novel ai 的一个脚本,github项目名字stable-diffusion-webui,配置代码太长不好放,你github搜下这个项目

运行了webui.sh 后就这样了

chongruining commented 2 years ago

有用salloc尝试调试过吗

lunar333 commented 2 years ago

有用salloc尝试调试过吗

salloc可以用,但是sbatch一用就有上面的报错

chongruining commented 2 years ago

有用salloc尝试调试过吗

salloc可以用,但是sbatch一用就有上面的报错

之前sbatch可以正常运行?

lunar333 commented 2 years ago

有用salloc尝试调试过吗

salloc可以用,但是sbatch一用就有上面的报错

之前sbatch可以正常运行?

可以

chongruining commented 2 years ago

是否是venv虚拟环境冲突导致的,请检查一下

lunar333 commented 2 years ago

是否是venv虚拟环境冲突导致的,请检查一下

我不知道怎么检查

lunar333 commented 2 years ago

是否是venv虚拟环境冲突导致的,请检查一下

有没有办法把我集群的conda完全卸载再重新安装

chongruining commented 2 years ago

我修改了你的环境变量,试试现在好了没

lunar333 commented 2 years ago

我修改了你的环境变量,试试现在好了没

还是有之前的报错 Loading anaconda3 Module ERROR: no such variable (read trace on "env(PATH)") invoked from within "split $env(PATH) :" (procedure "auto_execok" line 14) invoked from within "auto_execok $cmd" (procedure "getCommandPath" line 2) invoked from within "getCommandPath $shell" (procedure "execShAndGetEnv" line 84) invoked from within "execShAndGetEnv {}$args" (procedure "sh-to-mod" line 7) invoked from within "sh-to-mod {}$shtomodargs" (procedure "source-sh" line 5) invoked from within "source-sh bash /data/softwares/anaconda3/bin/activate" (file "/data/softwares/modulefiles/anaconda3" line 14) Please contact root@localhost /var/spool/slurm/d/job06594/slurm_script: line 12: conda: command not found /var/spool/slurm/d/job06594/slurm_script: line 13: python: command not found

能不能麻烦学长,直接把我账号恢复出厂设置,数据我都保存了,直接初始化吧

chongruining commented 2 years ago

已重置

lunar333 commented 2 years ago

已重置 收到,感谢