【发布时间】:2017-09-22 00:11:40
【问题描述】:
我正在考虑 spark executor 的静态分配。 Spark on yarn 是否会在启动执行程序时考虑在 Spark 应用程序中使用原始输入数据集的数据局部性。
如果它确实处理了这一点,它是如何在初始化火花上下文时请求和分配火花执行器的。有可能在 spark 应用程序中使用多个原始输入数据集,这些数据集可以物理地驻留在许多不同的数据节点上。我们不能在所有这些节点上运行 executor。
我了解 spark 在执行器上调度任务时会处理数据局部性(如 https://spark.apache.org/docs/latest/tuning.html#data-locality 所述)。
【问题讨论】:
标签: apache-spark hdfs hadoop-yarn