【发布时间】:2018-01-07 17:59:07
【问题描述】:
在 yarn 上运行 spark 时,我总是看到退出代码和退出状态:
这里有几个:
CoarseGrainedExecutorBackend: RECEIVED SIGNAL 15: SIGTERM...failed 2 times due to AM Container for application_1431523563856_0001_000002 exited with exitCode: 10......Exit status: 143. Diagnostics: Container killed on request...Container exited with a non-zero exit code 52:......Container killed on request. Exit code is 137...
我从来没有发现这些消息中的任何一个有用....有没有机会解释这些实际上出了什么问题?我已经在高处和低处搜索了一个解释错误的表格,但没有。
我唯一能从上面的代码中破译的是退出代码 52,但那是因为我查看了源代码 here。就是说是OOM。
我应该停止尝试解释其余的这些退出代码和退出状态吗?还是我错过了这些数字实际上意味着什么的明显方式?
即使有人能告诉我exit code、exit status 和SIGNAL 之间的区别,那也会很有用。但我现在只是随机猜测,我周围其他使用 spark 的人似乎也是。
最后,为什么有些退出代码小于零以及如何解释这些代码?
例如Exit status: -100. Diagnostics: Container released on a *lost* node
【问题讨论】:
标签: hadoop apache-spark pyspark spark-dataframe hadoop-yarn