目录

 

1.创建 RDD

2.操作RDD

3.RDD之Spark运行流程


1.创建 RDD

使用程序中的集合创建RDD;
使用本地文件创建RDD;
        亦可以通过输入目录路径来生成(自动的将文件进行合并)
使用HDFS文件创建RDD;
         输入hdfs 上的文件路径即可!

 

2.操作RDD

transaction特性:
lazy : 基本的tansaction操作,都不会真正的执行
             直到 action 的操作!! 
             作用: 有利于 spark  对 transaction 的过程进行优化!
             理解: transaction 的算子操作就类似于  map + filter 的操作
                            放到一起运行时,存在着并行,任务与任务之间的交互的可能

action:会触发一个 spark job 的执行,然后会提交 Driver 到注册过的 worker 节点上 ,
                然后节点上的 Executor 进程在从 HDFS 上开始进行程序的运行

 

3.RDD之Spark运行流程

 

Spark RDD 基础入门

 

相关文章:

  • 2021-07-10
  • 2021-03-30
  • 2021-10-06
  • 2021-04-30
  • 2022-12-23
  • 2021-07-03
  • 2022-12-23
  • 2022-01-21
猜你喜欢
  • 2022-12-23
  • 2021-12-09
  • 2021-04-14
  • 2022-03-08
  • 2021-06-26
  • 2021-12-03
  • 2021-07-20
相关资源
相似解决方案