【发布时间】:2021-03-12 08:01:20
【问题描述】:
目前正在学习 Spark,遇到了执行者的定义:
每个 executor 都会持有一块要处理的数据。这 chunk 称为 Spark 分区。它是行的集合 位于集群中的一台物理机器上。执行者负责 用于执行驾驶员分配的工作。每个执行者是 负责两件事:(1)执行驱动程序分配的代码, (2) 将计算状态报告给驱动程序
我想知道如果spark集群的存储量小于需要处理的数据会怎样? executors 将如何获取数据以放在集群中的物理机上?
同样的问题也适用于流数据,即未绑定的数据。 Spark 是否将所有传入的数据保存在磁盘上?
【问题讨论】:
标签: apache-spark spark-streaming