blcuicall / BLCU-HPC

高性能GPU计算集群
6 stars 0 forks source link

srun python main.py 提示找不到文件bug #15

Closed ywh-my closed 2 years ago

ywh-my commented 2 years ago

image

---------------------- 运行日志----------------- skdf8389@admin:/data/private/skdf8389/workspace/ywhVC/AE_Cross_LangVC_projs/ecapa_StyleFormer_VAE_VC$ salloc -G 1 -N 1 -w compute6 salloc: Granted job allocation 2658 salloc: Waiting for resource configuration salloc: Nodes compute6 are ready for job skdf8389@admin:/data/private/skdf8389/workspace/ywhVC/AE_Cross_LangVC_projs/ecapa_StyleFormer_VAE_VC$ srun python main.py slurmstepd-compute6: error: execve(): python: No such file or directory srun: error: compute6: task 0: Exited with exit code 2 skdf8389@admin:/data/private/skdf8389/workspace/ywhVC/AE_Cross_LangVC_projs/ecapa_StyleFormer_VAE_VC$ ls Conversion_mel.py Experiments Melspec_Utils.py run_ecapamodelpy.sh TestSomeCode.py Create_Hparams.py finetune_new_spk.py Models.py run_main.sh tools.py ecapa_model.py loss_look.py MyDataSet.py shuwentaomodel Trainer.py ecapa_Trainer.py main.py pycache Styleformer train_spkswithsex.pickle ---------------------- 运行日志-----------------

就是,我的工作目录下有 main.py ,然后运行 srun python main.py的时候提示 slurmstepd-compute6: error: execve(): python: No such file or directory .不清楚为什么,到底是 srun本身发生错误,将python字段当成了文件路径,还是python命令错误,没找到main.py文件。

在第一个tmux窗口这样操作的时候没有问题, 但是开第二个tmux窗口 ,重复相同的操作却出问题了。 求解决,谢谢。

ywh-my commented 2 years ago

可能是 因为没有先 激活conda环境就运行了 srun ,应该是这原因。

chongruining commented 2 years ago

请问现在解决了吗

ywh-my commented 2 years ago

算是解决了。 ~不过请问目前sbatch还有问题吗?

chongruining commented 2 years ago

近期打算对集群进行更新,届时sbatch应该可以正常使用~