使用spark实现work count

----------------------------------------------------

  (1)用sc.textFile("  ")  来实现文件的加载

val rdd1 = sc.testFile("home/centos/test.txt");//加载文本文件,以换行符的方式切割文本文件.Array(hello world1 ,.........),产生第一个弹性分布式数据集

  (2)元素拿来之后对集合中的每个元素进行切割,按照空格进行切割

    def map[U](f:String=>U)(implict evidence$3:scala.reflect.ClassTag[u]):org.apache.spark.rdd.RDD[U]

    这个地方map是柯里化的,有两个参数,第二个是隐式的,函数f是是从String类型到U的映射,把一行按照空格来进行切割

    把每一行进行切割,切开之后,每个元素都变成了一个数组,第一个元素是[hello world1],第二个元素是[hello world2],第三个元素是[hello world3],第四个元素是[hello world4],这个时候已经变成数组的集合了

   (3)val rdd2 = rdd1.flatMap(line=>line.split(" "));    //压扁操作

   (4)val rdd3 = rdd2.map(word=>(word,1))    //变换成对偶(k,v)

   (5)val rdd4=reduceByKey(_ + _)       //_是对每个元素的引用,按照key来聚合value

   (6)rdd4.collect              //查看结果

   (7)一顿操作猛如虎

sc.textFile("/home/centos/test.txt").flatMap(_.split(" ")).reduceByKey(_ + _).collect

   (8)单词过滤 

sc.textFile("/home/centos/test.txt").flatMap(_.split(" ")).filter(_.contains("wor")).map((_,1)).reduceByKey(_ + _).collect

 

  

 

相关文章:

  • 2018-01-24
  • 2022-02-26
  • 2021-11-04
  • 2021-12-20
  • 2021-06-07
  • 2022-02-15
  • 2021-10-31
  • 2021-10-14
猜你喜欢
  • 2022-03-11
  • 2022-02-07
  • 2022-02-16
  • 2021-10-25
  • 2022-12-23
  • 2022-02-08
  • 2022-01-13
相关资源
相似解决方案