gmgitx / BLOG_natural_science

精于勤,荒于嬉;行成于思,毁于随。 韩愈
GNU General Public License v3.0
0 stars 0 forks source link

Simple Linux Utility for Resource Management(slurm)了解 #5

Open gmgitx opened 5 years ago

gmgitx commented 5 years ago

5

gmgitx commented 5 years ago

官方科普 slurm doc Slurm中文用户

国内使用slurm系统的高校 北京大学未名一号 武汉大学超算中心

国内使用slurm系统的机构 国家超级计算天津中心(NSCC-TJ)上面的天河一号(TH-1A)采用的是基于slurm 2.6.9修改的任务调度系统。

国外使用slurm系统的高校 哈佛奥赛德

围观slurm slurm随笔 slurm作业管理系统怎么用?

每个计算节点上的用户命令 sacct,salloc,sattach,sbatch,sbcast,scancel,scontrol, sinfo,SMAP,SQUEUE,SRUN,strigger 和sview

有方便查看的命令,提供了更方便的参数

命令 所有Slurm守护进程,命令和API函数都存在手册页。命令选项--help还提供了选项的简短摘要。请注意,命令选项都区分大小写。

sacct用于报告有关活动或已完成作业的作业或作业步骤会计信息。

salloc用于实时为作业分配资源。通常,这用于分配资源并生成shell。然后使用shell执行srun命令以启动并行任务。

sattach用于将标准输入,输出和错误加信号功能附加到当前正在运行的作业或作业步骤。可以多次附加和分离作业。

sbatch用于提交作业脚本以供以后执行。该脚本通常包含一个或多个用于启动并行任务的srun命令。

sbcast用于将文件从本地磁盘传输到分配给作业的节点上的本地磁盘。这可用于有效地使用无盘计算节点或相对于共享文件系统提供改进的性能。

scancel用于取消挂起或正在运行的作业或作业步骤。它还可用于向与正在运行的作业或作业步骤相关联的所有进程发送任意信号。

scontrol是用于查看和/或修改Slurm状态的管理工具。请注意,许多 scontrol 命令只能以root用户身份执行。

sinfo报告由Slurm管理的分区和节点的状态。它具有各种过滤,排序和格式选项。

smap报告由Slurm管理的作业,分区和节点的状态信息,但以图形方式显示反映网络拓扑的信息。

squeue报告工作或工作步骤的状态。它具有各种过滤,排序和格式选项。默认情况下,它按优先级顺序报告正在运行的作业,然后按优先级顺序报告挂起的作业。

srun用于提交作业以便实时执行或启动作业步骤。 srun 有多种选项来指定资源要求,包括:最小和最大节点数,处理器数,要使用或不使用的特定节点,以及特定节点特征(如此多的内存,磁盘空间,某些必需的功能等) 。作业可以包含在作业节点分配中的独立或共享资源上顺序或并行执行的多个作业步骤。

strigger用于设置,获取或查看事件触发器。事件触发器包括节点关闭或作业接近其时间限制等事件。

sview是一个图形用户界面,用于获取和更新Slurm管理的作业,分区和节点的状态信息。

#对分区的理解

分区(Partition)可看做 一系列节点的集合

#!!!!!!!!!!!!!!!!!! SLURM 使用参考

配置服务器运行环境

An example sbatch script: SBATCH脚本包含两个主要元素

#!/bin/bash
#SBATCH --job-name=test
#SBATCH --output=test.out
#SBATCH --error=test.err
#SBATCH --nodes=1
#SBATCH --ntasks-per-node=1

# load your modules here
module load intel

# execute your tasks here
echo "Hello, world"
date
ls
pwd
hostname
echo "Done with processing"