通过sinfo可查询各分区节点的空闲状态;显示集群的所有分区节点的空闲状态,idel为空闲,mix为节点部分核心可以使用,alloc为已被占用;队列状态会不断调整,具体更新信息可关注计算中心网站:http://hpc.cibr.ac.cn
-a, --all # 显示所有分区 ((包括隐藏的和那些无法访问)
-d, --dead #查看集群中没有响应的节点
-l, --long #长输出——显示更多信息
-n, --nodes=NODES # 显示指定节点的信息,如果指定多个节点的话用逗号隔开
-o, --format=format #按照指定格式输出
-p, --partition=PARTITION #显示指定分区的信息,如果指定多个分区的话用逗号隔开;
Help options:
--help # 显示sinfo命令的使用帮助信息;
查看提交作业的排队情况:
job #查看自己提交的作业信息
squeue #查看所有用户提交的作业信息
默认情况下job和squeue输出的内容如下,分别是作业号,分区,作业名,用户,作业状态,运行时间,节点数量,申请的cpu数,申请的内存数,运行节点:
JOBID PARTITION NAME USER ST TIME NODES CPUS MIN_M NODELIST
默认情况下squeue输出的内容如下,分别是作业号,分区,作业名,用户,作业状态,运行时间,节点数量,运行节点:
JOBID PARTITION NAME USER ST TIME NODES NODELIST(REASON)
squeue常用参数
--help # 显示squeue命令的使用帮助信息;
-A# 显示指定账户下所有用户的作业,如果是多个账户的话用逗号隔开;
-i # 每隔相应的秒数,对输出的作业信息进行刷新
-j #显示指定作业号的作业信息,如果是多个作业号的话用逗号隔开;
-n #显示指定节点上的作业信息,如果指定多个节点的话用逗号隔开;
-t #显示指定状态的作业信息,如果指定多个状态的话用逗号隔开;
-u #显示指定用户的作业信息,如果是多个用户的话用逗号隔开;
-w #显示指定节点上运行的作业,如果是多个节点的话用逗号隔开;
-l, --long #输出长报告
通过sacct和scontrol show job/node显示作业/节点信息。
通过sacct查询已经结束作业的相关信息,如下所示:
sacct -j 899775
指定格式输出作业信息:
sacct --format=jobid,user,alloccpu,allocgres,state%15,exit -S 2022-08-01
备注:详细参数可通过sacct –help查看
通过scontrol show job 查看正在运行作业的jobid资源:
通过scontrol show node 查看所占用节点的申请资源:
通过scancel取消队列中已提交的作业:
scancel jobid
scancel常见参数
--help # 显示scancel命令的使用帮助信息;
-n # 取消指定作业名的作业;
-p # 取消指定分区的作业;
-t # 取消指定作态的作业,"PENDING", "RUNNING" 或 "SUSPENDED";
-u # 取消指定用户下的作业;
© 2023 by Personal Life Coach. Proudly created with Wix.com ICP备案号:京ICP备18029179号