【发布时间】:2015-11-15 14:50:12
【问题描述】:
教程中有一个字数统计示例:
JavaRDD<String> textFile = spark.textFile("hdfs://...");
JavaRDD<String> words = textFile.flatMap(new FlatMapFunction<String, String>() {
public Iterable<String> call(String s) { return Arrays.asList(s.split(" ")); }
});
JavaPairRDD<String, Integer> pairs = words.mapToPair(new PairFunction<String, String, Integer>() {
public Tuple2<String, Integer> call(String s) { return new Tuple2<String, Integer>(s, 1); }
});
JavaPairRDD<String, Integer> counts = pairs.reduceByKey(new Function2<Integer, Integer, Integer>() {
public Integer call(Integer a, Integer b) { return a + b; }
});
counts.saveAsTextFile("hdfs://...");
但是,我已经有一个 JavaPairRDD 为 words 而不是 JavaRDD:
JavaPairRDD<String, WebPage> myRDD
并希望对其进行字数统计(从 Hbase 数据库中检索)
那么,我该如何计算字数呢?
【问题讨论】:
标签: apache-spark hbase word-count