这三个数据集看似经常用,但是真正归纳总结的时候,很容易说不出来

三个之间的关系与区别参考我的另一篇blog  http://www.cnblogs.com/xjh713/p/7309507.html

 

则三个用代码转换如下:

 

1.RDD -> Dataset 
val ds = rdd.toDS()

2. RDD -> DataFrame 
    val df = spark.read.json(rdd)

3. Dataset -> RDD
    val rdd = ds.rdd

4. Dataset -> DataFrame
    val df = ds.toDF()

5. DataFrame -> RDD
    val rdd = df.toJSON.rdd

6. DataFrame -> Dataset
    val ds = df.toJSON

 

也许还有更好的办法,比如有些不一定是转换成json.....  等待大神补充

 

相关文章:

  • 2021-07-13
  • 2022-12-23
  • 2022-12-23
  • 2022-12-23
  • 2018-03-01
  • 2021-10-30
  • 2021-09-07
猜你喜欢
  • 2021-10-09
  • 2022-12-23
  • 2021-10-21
  • 2022-12-23
  • 2021-06-03
  • 2021-11-22
  • 2021-04-05
相关资源
相似解决方案