cy0817

spark中的文件读取与存储

一、saveAsTextFile(path:String)

  把RDD保存到hdfs中。

二、reparation(numPartitions:Int)

  可以增加或减少此RDD的并行级别 在内部 它使用shuffle重新分发数据。

//首先查看这个RDD有多少分区
scala> allscores.partitions.size
res8: Int = 4

//把RDD的分区数量设为1 然后传入hdfs中。否则会在hdfs中默认创建四个分区
scala> allscores.repartition(1).saveAsTextFile("hdfs://master:9000//usr/root/sparkdata/scores")

 

 

 该目录下只有一个文件。

三、coalesce

coalesce(numPartitions:Int,shuffle:Boolean=false,partitionCoalescer:Option[PartitionCoalescer]=Option.empty)

分类:

技术点:

相关文章:

  • 2021-07-23
  • 2022-12-23
  • 2022-02-12
  • 2022-12-23
  • 2022-01-06
  • 2021-11-18
  • 2022-12-23
  • 2022-12-23
猜你喜欢
  • 2022-12-23
  • 2021-10-24
  • 2021-07-28
  • 2022-01-17
  • 2021-07-28
相关资源
相似解决方案