第4章 Spark Core RDD编程

【Python3实战Spark大数据分析及调度】第4章 Spark Core RDD编程

常用的Transformation算子

【Python3实战Spark大数据分析及调度】第4章 Spark Core RDD编程
【Python3实战Spark大数据分析及调度】第4章 Spark Core RDD编程
sortByKey
【Python3实战Spark大数据分析及调度】第4章 Spark Core RDD编程
【Python3实战Spark大数据分析及调度】第4章 Spark Core RDD编程
union
【Python3实战Spark大数据分析及调度】第4章 Spark Core RDD编程
distinct
【Python3实战Spark大数据分析及调度】第4章 Spark Core RDD编程
【Python3实战Spark大数据分析及调度】第4章 Spark Core RDD编程
结果就是partition中少了一个1,其他不变
【Python3实战Spark大数据分析及调度】第4章 Spark Core RDD编程

join,需要K-V类型的RDD
普通的join就是inner join,得到两者都有的
【Python3实战Spark大数据分析及调度】第4章 Spark Core RDD编程
leftOuterJoin
以左表为基准
【Python3实战Spark大数据分析及调度】第4章 Spark Core RDD编程
rightOuterJoin
以右表为基准
【Python3实战Spark大数据分析及调度】第4章 Spark Core RDD编程
fullOuterJoin
全部显示出来
【Python3实战Spark大数据分析及调度】第4章 Spark Core RDD编程

常用的Action算子

【Python3实战Spark大数据分析及调度】第4章 Spark Core RDD编程
collect count take max min sum
【Python3实战Spark大数据分析及调度】第4章 Spark Core RDD编程
reduce foreach
foreach类似map的操作,但是foreach是action操作
【Python3实战Spark大数据分析及调度】第4章 Spark Core RDD编程

RDD编程案例实战

  1. 词频统计
    【Python3实战Spark大数据分析及调度】第4章 Spark Core RDD编程
    代码示例
    【Python3实战Spark大数据分析及调度】第4章 Spark Core RDD编程
    【Python3实战Spark大数据分析及调度】第4章 Spark Core RDD编程
    集群提交

【Python3实战Spark大数据分析及调度】第4章 Spark Core RDD编程
如果输入的是文件夹并且文件夹下面有4个相同的txt
【Python3实战Spark大数据分析及调度】第4章 Spark Core RDD编程
【Python3实战Spark大数据分析及调度】第4章 Spark Core RDD编程
再来测试一下将结果写入文件系统
【Python3实战Spark大数据分析及调度】第4章 Spark Core RDD编程
【Python3实战Spark大数据分析及调度】第4章 Spark Core RDD编程
【Python3实战Spark大数据分析及调度】第4章 Spark Core RDD编程
【Python3实战Spark大数据分析及调度】第4章 Spark Core RDD编程

  1. Top N

【Python3实战Spark大数据分析及调度】第4章 Spark Core RDD编程
【Python3实战Spark大数据分析及调度】第4章 Spark Core RDD编程
集群提交
【Python3实战Spark大数据分析及调度】第4章 Spark Core RDD编程
【Python3实战Spark大数据分析及调度】第4章 Spark Core RDD编程
3. 平均数案例

【Python3实战Spark大数据分析及调度】第4章 Spark Core RDD编程

【Python3实战Spark大数据分析及调度】第4章 Spark Core RDD编程
【Python3实战Spark大数据分析及调度】第4章 Spark Core RDD编程

相关文章: