【发布时间】:2015-05-28 07:38:30
【问题描述】:
Spark PairRDD 可以选择保存文件。
JavaRDD<String> baseRDD = context.parallelize(Arrays.asList("This", "is", "dummy", "data"));
JavaPairRDD<String, Integer> myPairRDD =
baseRDD.mapToPair(new PairFunction<String, String, Integer>() {
@Override
public Tuple2<String, Integer> call(String input) throws Exception {
// TODO Auto-generated method stub
return new Tuple2<String, Integer>(input, input.length());
}
});
myPairRDD.saveAsTextFile("path");
Spark 上下文 textfile 仅将数据读取到 JavaRDD。
如何直接从源重构PairRDD?
注意:
可能的方法是将数据读取到
JavaRDD<String>并构造JavaPairRDD。
但是对于海量数据,它会占用大量资源。
以非文本格式存储这个中间文件也可以。
执行环境 - JRE 1.7
【问题讨论】:
-
如果您不介意结果文件不是人类可读的,您可以将它们保存为目标文件。
-
是的,目标文件也可以。
标签: apache-spark