【发布时间】:2017-11-09 17:22:18
【问题描述】:
我有一个 Spark 提交作业 (PySpark),它 90% 的时间都可以正常工作,但有 10% 的时间它会在特定主机上停止。基本上,在其他主机上完成任务可能需要几秒钟,但有时它会在我可以通过 Spark UI 识别的主机上停止。在这种情况下,我最终会终止进程并重新运行。我想知道我的选择是什么来缓解这个问题。 我的基础设施是在 Amazon AWS 上运行的 EC2 实例上的独立 Spark 2.1 集群。我考虑过推测性执行,但我的进程写入 s3,并且有人建议我为最终坚持到 s3 的进程指定推测性执行是一个坏主意。欢迎提出任何建议。
【问题讨论】:
-
我的回答只是猜测,不知道你的工作细节。您的问题描述得不够具体,也许您可以包含 Spark UI 的屏幕截图,显示您的确切含义,如何识别这个停滞的主机。什么样的任务在拖延。
标签: apache-spark pyspark