Spark 作业在 CPU 固定为 100% 的工作人员上挂起答案

【问题标题】：Spark job hangs on worker with CPU pegged at 100%Spark 作业在 CPU 固定为 100% 的工作人员上挂起
【发布时间】：2017-11-30 10:00:29
【问题描述】：

有时我的 Spark 工作似乎无限期地挂在一个 CPU 似乎处于 100% 的工作人员身上——我在反复运行 top 时注意到了这一点。

Tasks: 288 total,   1 running, 287 sleeping,   0 stopped,   0 zombie
%Cpu(s):  3.1 us,  0.0 sy,  0.0 ni, 96.9 id,  0.0 wa,  0.0 hi,  0.0 si,  0.0 st
KiB Mem : 25157609+total, 11158460+free, 55086460 used, 84905024 
buff/cache
KiB Swap:        0 total,        0 free,        0 used. 19393204+avail Mem

PID   USER      PR  NI    VIRT    RES    SHR S  %CPU %MEM     TIME+ 
COMMAND
71167 XXXX      20   0  0.213t 0.049t  28576 S 100.0 20.8 231:58.71 
java

我在 Spark 独立集群上运行 PySpark，它挂在 reduceByKey 操作上，该操作通常需要几秒钟才能完成。每当这种情况发生在一个工人身上时，我注意到 Locality Level 是 ANY。我通常只是重新启动 EC2 实例（在 AWS 上工作），然后将作业分配给另一个工作人员，作业最终成功。我想知道我有哪些更可持续的解决方案。是否会改用 YARN 来识别和杀死这些工人？到目前为止，我一直避免使用 YARN，因为需要安装 HDFS，因为我的管道直接持续到 S3。

【问题讨论】：

标签： apache-spark pyspark hadoop-yarn

【解决方案1】：

您不能让您的任何工作人员获得 100% 的 CPU。

如果您使用 Yarn，您可能会限制您允许作业使用的核心数量。

另一种选择是在工作线程上使用 cgroups 来限制 CPU 使用率。

【讨论】：

但是 YARN 是否可以帮助我识别这些 CPU 似乎已长时间固定的工人并杀死他们，以便重新分配任务以使工作继续进行？
如果您使用 Yarn 和/或 cgroups，您将不会遇到让工作人员首先达到 100% CPU 的不幸情况。请注意，如果您在 worker 上运行其他进程，Yarn 本身不会帮助您，您还需要 cgroups。