SparkCore抽象之RDD

【弹性的】分布式的数据集

弹性的:灵活的

Rdd的特性:

1、rdd是分布式的rdd里面的数据实际上是分布在集群的不同节点上的。

注:数据是可分区的,分区的个数和hdfs上文件块的个数有关,默认一个文件块对应一个分区,一个分区对于一个rdd里面的一部分文件。

2rdd是可分区的:分区的个数是我们可以指定的,但是默认的情况下,一个hdfs上的文件块就是一个分区,一个分区对应一个rdd里面的一部分文件 。

3rdd是弹性的:如果在计算的时候,节点的内存的容量有限,我们可以将一部分文件存储在磁盘中运行,像mapreduce的执行过程一样。

4rdd的容错性rdd里面计算的数据是来自于hdfs上面的几个文件块,而这些文件块在hdfs上都做了冗余备份,所有,即使在计算的时候某个节点宕机了,还可以去存储副本的节点上去运行。


相关文章:

  • 2022-02-11
  • 2021-11-08
  • 2019-12-23
  • 2021-10-15
  • 2022-01-25
  • 2022-01-02
猜你喜欢
  • 2022-12-23
  • 2021-11-11
  • 2021-09-20
  • 2021-06-27
  • 2021-10-20
  • 2021-05-27
  • 2022-02-28
相关资源
相似解决方案