【发布时间】:2020-07-08 00:21:43
【问题描述】:
我有一个生产箱,它有 14 个节点。其中 14、12 个节点具有相同的配置,其中 2 个具有更高配置(几乎是 3 倍),所以 1>会不会影响spark的整体资源利用率。 2> 我怎样才能利用只能从这 2 个节点获得的额外内存。 3> 此外,如果在此过程中,我的 rdd > 可用资源,它将在内存中对任务进行部分处理,并再次从 HDFS 剩余数据加载。那么如何克服这种情况以获得最佳性能
【问题讨论】:
标签: apache-spark hdfs cluster-computing mapr