问题:ssh无法登陆集群,报错WARNING: REMOTE HOST IDENTIFICATION HAS CHANGED!
解答:1>登录节点的主机密钥变化导致与用户之前保存的登录节点密钥不同,SSH 客户端会阻止此登录,正确的做法是编辑 ~/.ssh/known_hosts 文件,删除登录节点对应的那一行并保存退出就可以了,然后重新连接,选择信任新的主机密钥。
2>这很可能是一种中间人攻击。因此ssh就会提示出上面的那个警告,告诉我们服务器的密钥与之前储存的不同,这种情况比较罕见
问题:运行图形化程序报错
解答: 集群是支持图形程序跳转
1>检查下自己使用的终端是否支持图形跳转,或者直接在登录节点测试运行xclock 是否可以跳出钟表图标,如不能跳转大概率说明你的终端不支持图形跳转,或者没有安装插件
2>如果可以再进行提交集群测试srun –p q_cn --x11 --pty xlcock 如果不行可以从以下2个方面去考虑问题
查看home空间是否已满,可以再DATA下做个软连接到home下,这样就不会占用home下空间
否则重新生成下本地秘钥(1>ssh-keygen 2> cat id_dsa.pub > authorized_keys 3>chmod 600 authorized_keys )
问题: 本地无法写入,报错Disk quota exceeded
解答: 1> 查看所属实验室存储空间DATA和scratch60
查看组使用情况 mmlsquota -g `groups`(为默认DATA 2T+scratch60 10T)
查看DATA目录使用情况mmlsquota -j `groups`_permanent gpfs
查看scratch60目录使用情况mmlsquota -j `groups`_temp gpfs
存储空间不足需要清理掉不用的数据或者申请更大的存储空间
2>查看home下空间
cd $HOME && du -sh && du -sh .[!.]*
查看比较大的目录可以创建一个软连接,这样就不会占用home空间
mv $HOME/.local DATA/
ln -sf /GPFS/zhangli_lab_permanent/wangyanmin/.local /home/zhangli_lab/wangyanmin/
问题:提交的任务自动停止
解答: 1>程序报错导致/内存溢出
2>超出时间限制,集群任务提交默认是2天,离任务结束3小时左右会有邮件提醒,需要延长的任务需要联系计算中心管理员进行时长延长
问题:安装软件需要管理员权限
解答: root 或者 sudo 权限,任何情况下,都不会给用户。
如果你是想执行 sudo yum install 这样的操作,系统绝大部分依赖包都已经安装,
如果你是想执行 sudo apt install,计算中心集群使用的是 CentOS 而不是 Debian/Ubuntu,你要安装的包在 CentOS 里可能叫另外一个名字yum。同样因为绝大部分依赖包都已经安装,你只需要跳过这一步即可。
如果你后续的安装使用步骤提示确实缺少依赖包,请把这个依赖包的名字告诉计算中心系统管理员,让管理员来安装。
用户需要root(sudo)权限的另外一大原因是在安装软件的时候,没有修改默认的安装路径(通常是/opt,/usr/local 这样需要 root权限的系统目录)。要解决这类问题,如果是从源代码编译软件,一般是在configure的时候使用--prefix=这个选项把安装目录指定到用户自己的目录下。如果是安装型的软件,在安装向导里修改默认的安装目录为用户自己的目录。
© 2023 by Personal Life Coach. Proudly created with Wix.com ICP备案号:京ICP备18029179号