【发布时间】:2019-01-24 23:47:20
【问题描述】:
另一个我读得很少的项目。
将 S3 搁置一旁,现在还不能尝试对 Spark、Hadoop 的裸机经典数据本地化方法,而不是在动态资源分配模式下:
如果HDFS中的一个大数据集分布在Cluster中的(所有)N个数据节点上,但total-executor-cores参数设置低于N,我们显然需要读取所有数据怎么办? (全部)N 个相关数据节点?
我认为 Spark 必须忽略此参数才能从 HDFS 读取。还是不行?
如果忽略它,需要在该数据节点上分配一个 Executor Core 并因此被整个 Job 获取,因此需要将此参数解释为表示处理而不是读取块?
来自这样一个数据节点的数据是否立即洗牌到分配执行者的地方?
提前致谢。
【问题讨论】:
标签: apache-spark