本地运行spark主要用于做测试和debug,在文件中抽取少量数据,用来测试

在hdfs上查找文件,输出文件需要的参数//System.setProperty("HADOOP_USER_NAME","root");
在本地运行需要的参数//SparkConf conf = new SparkConf().setAppName("LambdaWordCount2").setMaster("local[*]");

我将输入文件和输出文件用变量代替,所有我们选择运行的时候需要

JavaSpark在本地运行

JavaSpark在本地运行

JavaSpark在本地运行

找到所在的类

JavaSpark在本地运行

上传到hdfs上运行

JavaSpark在本地运行

本地运行直接写,输入文件的path和输出的path

注意输出的目录不要存在否则报错.如果读取输出hdfs中一定要加System.setProperty("HADOOP_USER_NAME","root");

 

  1. public class LambdaWordCount {
        public static void main(String[] args) {
    System.setProperty("HADOOP_USER_NAME","root");
            //获取javaSpark的conf传入Jsc
            SparkConf conf = new SparkConf().setAppName("LambdaWordCount").setMaster("local[*]");;
            //将conf传入jsc中
            JavaSparkContext jsc = new JavaSparkContext(conf);
            //获取RDD大集合
            JavaRDD<String> javaRDD = jsc.textFile(args[0]);
            //使用flatMap方法拆分压平--因为java中flatMap方法返回的是iterator迭代器,所以需要将数组转成集合,在.迭代器,让返回值也是迭代器
            JavaRDD<String> words = javaRDD.flatMap(lines -> Arrays.asList(lines.split(" ")).iterator());
            //使用map方法聚合+1,形成元组,但java没有元组,所以需要调取Tuple2.apply方法转成元组形式,不能调map方法,这样就没有ReduceByKe了
            JavaPairRDD<String, Integer> wordAndOne = words.mapToPair(w -> Tuple2.apply(w, 1));
            //使用ReduceByKey,输入x+y逻辑,将相同key的values聚合
            JavaPairRDD<String, Integer> reduceWord = wordAndOne.reduceByKey((x, y) -> (x + y));
            //排序,java中排序只有SortByKey,所以需要调mapToPair方法将 key和values翻转,这样values在前,key在后
            JavaPairRDD<Integer, String> swapWords = reduceWord.mapToPair(Tuple2::swap);
            //按照调换的value进行排序,false是倒叙
            JavaPairRDD<Integer, String> sortByWord = swapWords.sortByKey(false);
            //使用mapToPair再次调换value和key
            JavaPairRDD<String, Integer> gogogo = sortByWord.mapToPair(Tuple2::swap);
            //Transformation 结束
            //Action算子,会触发任务执行
            //将数据保存到HDFS
            gogogo.saveAsTextFile(args[1]);
            jsc.stop();
    
    
        }
    }

 

 

相关文章: