SLURM 集群环境使用指南

虽然现在感觉这些命令记起来都很容易,但是一段时间不用的话还真怕有些不记得。

sinfo: 查看集群节点的信息,其中state为idle的是空闲的。

squeue: 查看目前的任务队列。

swatch  [ID]  nv  : 动态查看某一个任务的GPU情况。 其中[ID]通过squeue 查看

scancel [ID] : 取消特定ID的任务(注意不要用Kill)

 

传文件到DATAshare目录下时,一定记得要先 chmod -R 777 

tensorboard报错缺少某.so文件的解决办法:

export LD_LIBRARY_PATH=/mnt/lustre/share/cuda-9.0/lib64

作者: CrazyKK

ex-ACMer@hust,stackoverflow-engineer@sensetime

说点什么

您将是第一位评论人!

提醒
wpDiscuz