集群使用

  • 集群使用

  • 使用指南

任务提交规则

课题组服务器并入集群资源池:

流程: 确定需求--需要实验室自行购买与计算中心现有设备相近机型(或联系计算中心确认)cpu,内存及gpu 与现有设备最好相同--购买设备需要单独配有IB卡和IB线--安装规则:设备本地系统需要安装centos7.6系统--分区及相关配置需要与现有设备相同--加入计算中心网络镜像--并入集群池(为实现课题组对自身设备有优先权和折算成课题组机时收益,我们会把加入的设备设置成单独队列---添加slurm队列及参数配置,允许所内所有用户访问,课题组自身有优先权,启动相关服务--添加完成

优势: 托管设备并入公共资源池,不再收取托管费,课题组对自身设备有优先权(没有时长限制),中心其他用户使用课题组的设备折算成课题组的机时收益。同时,中心共享计算资源池得以扩大。

任务提交规则:

公共资源池

1. 集群默认qos(high)限制单个用户一共可提交(720核心,3600G内存)相当于q_cn队列20个节点,(加入公共资源池的课题组自身qos除外)
1.1 如果单个用户提交任务使用资源未达到限制,无排队情况下(默认限制策略无变动)
1.2 单用户提任务使用资源达到默认限制资源,排队状态(脚本1分钟检测1次,队列是否有空余资源和其他用户排队状态)
1.2.1 有空余资源无其他用户排队,有空余资源有其他用户排队(放开资源限制供排队用户使用(根据用户提交顺序和资源满足条件进行任务运行))(脚本1分钟检测1次,无空余资源时,恢复默认资源限制)
1.2.2 无空余资源有其他用户排队(默认策略无变动)
1.3 提交任务默认时长为2天(48小时),如需更长时间需要联系计算中心管理员进行延长,默认单次延长为2天(48小时)(在有排队无资源情况下是不给延长)
1.4 任务到期离结束还有3小时和到期会有邮箱提醒(为避免批量发送邮件在2.5小时内针对批量任务到期的任务也是提醒一次,)(发送邮箱是申请账户是申请表提供的邮箱),用户收到提醒的时候需要登录到集群具体查看一下哪些任务到期,然后联系管理员进行时间延长,说明一下(邮箱提醒只作为一个辅助提醒,用户提交任务后要做到心中有数,大概到期的时间,避免其他原因造成的邮箱接收延迟或者失败,带来不必要的麻烦)

课题组

加入集群资源池的课题组会多一个qos优先级如:high_l/high_c (命名规则为默认qos high_(课题组老师姓简写) ),用户查询自己所拥有的的qos命令:sacctmgr show assoc ,课题组队列优先级是在默认优先级之上(同等情况下排队任务需要小于等于其他任务方可生效),任务提交无时长限制,其他用户使用课题组提交任务不会享受优先级别,但是课题组的用户提交到其他(非自身设备队列上)是拥有默认优先级。
备注:提交任务需要单独指定课题组qos -q参数 ,否则为默认qos。(课题组qos默认没有限制单个用户的使用,如果需要可以联系计算中心管理员进行设置)

备注:

如果集群资源比较紧张可以把自己提交任务申请的资源划分为最小单元,以便更快的分配到计算资源,进行计算。
运行命令restat查看集群每个节点已使用资源,申请资源在剩余资源范围内方可直接分配资源,减少等待。
CfgTRES=cpu=36,mem=191891M,billing=36 AllocTRES=cpu=16,mem=125G
CfgTRES=cpu=36节点最大核心数 (mem=191891M为系统最大内存,但是要排除掉系统本身内存开销,最大可用内存可参考硬件配置-单节点核心数一栏:https://hpc.cibr.ac.cn/index.php?m=&c=Hpc&a=hpcInfo&pid=148) AllocTRES为已经申请的资源

以上资源限制策略是为了更好的使每位用户使用集群的计算资源,减少排队,欢迎大家将使用中发现的问题和建议及时反馈给我们,我们将随时进行调整和优化。

© 2023 by Personal Life Coach. Proudly created with Wix.com  ICP备案号:京ICP备18029179号