【问题标题】:Jobs switching from Running state into Queued and back作业从 Running 状态切换到 Queued 并返回
【发布时间】:2017-12-04 10:43:04
【问题描述】:

我们在集群运行扭矩 pbs 和 maui 上的一些作业中观察到这种奇怪的行为:一些作业在 (R)unning 和 (Q)ueued 状态之间切换。尝试谷歌搜索并没有找到任何提示。可能是什么原因?值得注意的是,这些工作的性质不同:一些使用 TensorFlow 和 python,另一些是 C++ 可执行文件..

【问题讨论】:

  • 最近有什么系统变化吗?版本?
  • @clusterdude 没有变化。我是维护这些东西的新手,还没有改变任何东西。而曾经维护这些东西的人已经离开了公司:(

标签: cluster-computing pbs torque


【解决方案1】:

这里说的还不够,但我猜他们并没有真正运行。 pbs_mom 日志和系统日志应该提供线索。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2022-10-20
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多