【发布时间】:2018-06-13 02:53:57
【问题描述】:
为什么 1.6MB 随机写入和 2.4MB 输入的 spark shuffle 阶段如此缓慢?还有为什么随机写入只发生在一个执行程序上?我正在运行一个 3 节点集群,每个集群有 8 个核心。
火花用户界面:
*JavaPairRDD<String, String> javaPairRDD = c.mapToPair(new PairFunction<String, String, String>() {
@Override
public Tuple2<String, String> call(String arg0) throws Exception {
// TODO Auto-generated method stub
try {
if (org.apache.commons.lang.StringUtils.isEmpty(arg0)) {
return new Tuple2<String, String>("", "");
}
Tuple2<String, String> t = new Tuple2<String, String>(getESIndexName(arg0), arg0);
return t;
} catch (Exception e) {
e.printStackTrace();
System.out.println("******* exception in getESIndexName");
}
return new Tuple2<String, String>("", "");
}
});
java.util.Map<String, Iterable<String>> map1 = javaPairRDD.groupByKey().collectAsMap();*
【问题讨论】:
标签: apache-spark apache-spark-sql