【发布时间】:2017-04-26 20:20:19
【问题描述】:
我是新来的火花。我一直在研究涉及两个数据集的代码。因此,我从 PairFlatMapFunction 开始,在其中我正在处理映射器。
JavaPairRDD<Integer, String> trainingArray = trainingData.flatMapToPair(new PairFlatMapFunction<String, Integer, String>(){
public Iterable<Tuple2<Integer, String>> call(String s) {
//code to form the tuples of type Tuple2<Integer, String>
// new Tuples2<Integer, String>
}
如何将元组添加回由 reducer (reduceByKey) 处理的可迭代类。
任何指针将不胜感激。
【问题讨论】:
标签: java hadoop apache-spark rdd bigdata