Spark 基本概念

Spark 基本概念

基本定义如下:

RDD(resillient distributed dataset):弹性分布式数据集。
Task:具体执行任务。Task分为ShuffleMapTask和ResultTask两种。ShuffleMapTask和ResultTask分别类似于Hadoop中的Map,Reduce。
Job:用户提交的作业。一个Job可能由一到多个Task组成。
Stage:Job分成的阶段。一个Job可能被划分为一到多个Stage。
Partition:数据分区。即一个RDD的数据可以划分为多少个分区。
NarrowDependency:窄依赖。即子RDD依赖于父RDD中固定的Partition。NarrowDependency分为OneToOneDependency和RangeDependency两种。
ShuffleDependency:shuffle依赖,也称为宽依赖。即子RDD对父RDD中的所有Partition都有依赖。
DAG(Directed Acycle graph):有向无环图。用于反映各RDD之间的依赖关系。

lightbatis 数据库访问包 Lightbatis

相关文章:

  • 2021-12-25
  • 2021-04-10
  • 2022-12-23
  • 2021-08-29
  • 2021-04-08
  • 2022-01-24
  • 2021-10-19
  • 2021-09-25
猜你喜欢
  • 2021-11-22
  • 2022-01-17
  • 2021-06-24
  • 2021-06-09
  • 2021-08-28
  • 2021-08-10
相关资源
相似解决方案