【发布时间】:2019-05-21 10:24:11
【问题描述】:
我正在使用 spark yarn 集群模式进行测试。 火花作业在较低优先级队列中运行。 当更高优先级的工作来临时,它的容器会被抢占。 然而,它在被杀死后立即重新启动容器。 更高优先级的应用程序再次杀死他们。 所以应用程序陷入了这种僵局。
讨论了执行程序的无限重试here。 在日志中找到以下跟踪。
2019-05-20 03:40:07 [dispatcher-event-loop-0] INFO TaskSetManager :54 Task 95 failed because while it was being computed, its executor exited for a reason unrelated to the task. Not counting this failure towards the maximum number of failures for the task.
所以似乎我设置的任何重试计数都没有被考虑。 是否有一个标志表明应该计算 executor 中的所有失败,并且当 maxFailures 发生时作业应该失败?
火花版本 2.11
【问题讨论】: