【问题标题】:How to save and load rdd to remote hive using spark Scala? [closed]如何使用 spark Scala 将 rdd 保存并加载到远程配置单元? [关闭]
【发布时间】:2017-05-08 07:32:50
【问题描述】:

现在我正在使用 sqoop 将数据写入 rdbms。所以它将数据存储到hdfs,然后到rdbms。有没有办法将rdd直接存储到Hive?

【问题讨论】:

    标签: apache-spark hive


    【解决方案1】:

    是的,您可以将RDD 写入hive,将RDD 写入hive 的一种方法是将RDD 转换为Df,然后将saveTableAs() 如下所示

    import org.apache.spark.sql.hive.HiveContext
    
    val hiveContext = new HiveContext(sc)
    
    import hiveContext.implicits._
    
    //read data perform some transformation
    
    val myDF = myRdd.toDF("column names")
    

    然后你可以创建一个表并转储数据

    myDF.write.saveAsTable("tableName")
    
    //with save mode 
    myDF.write().mode(SaveMode.Overwrite).saveAsTable("tableName")
    

    您可以像上面一样添加保存模式 SaveMode 是 Append、Ignore、Overwrite、ErrorIfExists

    【讨论】:

      猜你喜欢
      • 2016-01-30
      • 2018-09-23
      • 1970-01-01
      • 2016-10-11
      • 2015-07-05
      • 1970-01-01
      • 1970-01-01
      • 2019-03-25
      • 1970-01-01
      相关资源
      最近更新 更多