【发布时间】:2016-05-10 13:23:24
【问题描述】:
我有想要在 Kubernetes 上运行的批处理作业。我对乔布斯的理解:
如果我选择restartPolicy: Never,这意味着如果 Job 失败,它将销毁 Pod 并重新调度到(可能)另一个节点。如果是restartPolicy: OnFailure,则会重启现有Pod中的容器。我认为一定数量的故障是不可恢复的。有没有办法可以防止它在一段时间后重新安排或重新启动并清理不可恢复的作业?
我目前的解决方法是设置一些看门狗进程来查看 retryTimes 并在指定重试次数后清理作业。
【问题讨论】:
标签: google-compute-engine kubernetes