【发布时间】:2016-11-03 01:15:39
【问题描述】:
当我在 slurm 中使用“sinfo”时,我在其中一个分区附近看到一个星号(例如:RUNNING-CLUSTER*)。
分区看起来不错,其下的所有节点都处于空闲状态。
例如,当我使用“sleep 300”运行一个简单的脚本时,我可以看到队列中的作业(使用“squeue”),但它们会运行几秒钟并结束。没有错误消息(我可以在日志中看到他们失败了。那里没有更多信息)。
知道星号是干什么用的吗? 说明书上没找到。
谢谢。
【问题讨论】:
-
@VermillionAzure - “Slurm 是一个开源工作负载管理器,专为各种规模的 Linux 集群而设计。它提供了三个关键功能。”。从这里:[slurm.schedmd.com/]
-
恕我直言,这个问题更适合ServerFault,但这里不是主题。
标签: slurm