【发布时间】:2018-02-16 21:32:43
【问题描述】:
我一直在研究火花,但有些领域对我来说仍然是灰色的,如果有人可以深入研究这将是一个很大的帮助。
1) 如果我有下面的 spark 提交配置,并且 spark 创建了大约 100 个分区,这个分区是如何在单个执行器中一个一个或并行处理的? > 1个执行者会是什么情况。
--master yarn \
--deploy-mode cluster \
--num-executors 1 \
--executor-memory 3g \
--executor-cores 3 \
2) 我们可以在 spark 中控制分区处理吗?
3) 我了解执行器核心有助于并行化分区中的任务,如果我有一个用例,我有一个 foreachPartition 方法,我正在处理一些消息(例如 max 和 min)并将此消息发送到 Kafka,什么角色执行器核心将在此操作中发挥作用。
【问题讨论】:
标签: hadoop apache-spark dataframe