集群使用

  • 集群使用

  • 使用指南
  • ●    常见问题

常见问题

ssh连接时报错

问题:ssh无法登陆集群,报错WARNING: REMOTE HOST IDENTIFICATION HAS CHANGED!

解答:1>登录节点的主机密钥变化导致与用户之前保存的登录节点密钥不同,SSH 客户端会阻止此登录,正确的做法是编辑 ~/.ssh/known_hosts 文件,删除登录节点对应的那一行并保存退出就可以了,然后重新连接,选择信任新的主机密钥。

           2>这很可能是一种中间人攻击。因此ssh就会提示出上面的那个警告,告诉我们服务器的密钥与之前储存的不同,这种情况比较罕见

2.无法在登录节点启动图形化界面

问题:运行图形化程序报错

解答:   集群是支持图形程序跳转

 1>检查下自己使用的终端是否支持图形跳转,或者直接在登录节点测试运行xclock 是否可以跳出钟表图标,如不能跳转大概率说明你的终端不支持图形跳转,或者没有安装插件

2>如果可以再进行提交集群测试srun –p q_cn --x11 --pty xlcock 如果不行可以从以下2个方面去考虑问题

查看home空间是否已满,可以再DATA下做个软连接到home下,这样就不会占用home下空间

否则重新生成下本地秘钥(1>ssh-keygen  2>  cat id_dsa.pub > authorized_keys  3>chmod 600 authorized_keys )

3.Disk quota exceeded

问题: 本地无法写入,报错Disk quota exceeded

解答: 1> 查看所属实验室存储空间DATA和scratch60

查看组使用情况 mmlsquota -g `groups`(为默认DATA 2T+scratch60 10T)

查看DATA目录使用情况mmlsquota -j `groups`_permanent gpfs

查看scratch60目录使用情况mmlsquota -j `groups`_temp gpfs

存储空间不足需要清理掉不用的数据或者申请更大的存储空间

      2>查看home下空间

cd $HOME && du -sh  && du -sh .[!.]*

查看比较大的目录可以创建一个软连接,这样就不会占用home空间

mv $HOME/.local DATA/

ln -sf /GPFS/zhangli_lab_permanent/wangyanmin/.local  /home/zhangli_lab/wangyanmin/

4.任务自动停止

问题:提交的任务自动停止

解答: 1>程序报错导致/内存溢出

           2>超出时间限制,集群任务提交默认是2天,离任务结束3小时左右会有邮件提醒,需要延长的任务需要联系计算中心管理员进行时长延长

5. 请问可以给我sudo(root) 权限吗?

问题:安装软件需要管理员权限

解答:   root 或者 sudo 权限,任何情况下,都不会给用户。

如果你是想执行 sudo yum install 这样的操作,系统绝大部分依赖包都已经安装,

如果你是想执行 sudo apt install,计算中心集群使用的是 CentOS 而不是 Debian/Ubuntu,你要安装的包在 CentOS 里可能叫另外一个名字yum。同样因为绝大部分依赖包都已经安装,你只需要跳过这一步即可。

如果你后续的安装使用步骤提示确实缺少依赖包,请把这个依赖包的名字告诉计算中心系统管理员,让管理员来安装。

用户需要root(sudo)权限的另外一大原因是在安装软件的时候,没有修改默认的安装路径(通常是/opt,/usr/local 这样需要 root权限的系统目录)。要解决这类问题,如果是从源代码编译软件,一般是在configure的时候使用--prefix=这个选项把安装目录指定到用户自己的目录下。如果是安装型的软件,在安装向导里修改默认的安装目录为用户自己的目录。

© 2023 by Personal Life Coach. Proudly created with Wix.com  ICP备案号:京ICP备18029179号