【问题标题】:Include Hive query in a Pyspark program在 Pyspark 程序中包含 Hive 查询
【发布时间】:2020-07-08 15:26:08
【问题描述】:

我是 Hive 新手,我需要在 Pyspark 程序中通过 HiveContext 创建一个新的 Hive 表。

如何做到这一点?请帮我解决这个问题。非常感谢!

【问题讨论】:

    标签: pyspark hive apache-spark-sql


    【解决方案1】:
    import pyspark
    from pyspark.sql import HiveContext
    
    sqlCtx= HiveContext(sc)
    
    test_df = spark.createDataFrame([(1, 'metric1', 10), (2, 'metric2', 20), (3, 'metric3', 30)], ['id', 'metric', 'score'])
    test_df.registerTempTable("df_table")
    
    sqlCtx.sql("CREATE TABLE df_hive_table AS SELECT * from df_table")
    

    【讨论】:

    • 非常感谢!我可以在 sqlCtx.sql 中运行任何类型的 Hive 查询吗?还是 SparkSQL?
    • Spark SQL 几乎支持大多数 Hive 查询,除了少数。他们在link 中有很好的记录
    • 非常感谢您的帮助!
    猜你喜欢
    • 2016-07-03
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2021-11-12
    • 1970-01-01
    相关资源
    最近更新 更多