【发布时间】:2017-02-08 13:17:09
【问题描述】:
我的工作流程如下:
rdd1 = sc.textFile(input);
rdd2 = rdd1.filter(filterfunc1);
rdd3 = rdd1.filter(fiterfunc2);
rdd4 = rdd2.map(mapptrans1);
rdd5 = rdd3.map(maptrans2);
rdd6 = rdd4.union(rdd5);
rdd6.foreach(some transformation);
1.我需要持久化 rdd1 吗?还是不需要持久化,因为 rdd6 处只有一个动作,它只会创建一个作业,而在单个作业中不需要持久化?
2.如果 rdd2 上的转换是 reduceByKey 而不是 map 怎么办?是否会再次发生同样的事情,因为单项工作不需要持续存在。
【问题讨论】:
标签: apache-spark