【发布时间】:2020-09-08 16:16:18
【问题描述】:
免责声明:我对 pyspark 很陌生,这个问题可能不合适。
我在网上看过如下代码:
# Get the id, age where age = 22 in SQL
spark.sql("select id, age from swimmers where age = 22").show()
现在,我尝试使用带有以下代码的 pyspark 进行旋转:
complete_dataset.createOrReplaceTempView("df")
temp = spark.sql("SELECT core_id from df")
这是我得到的错误:
'java.lang.RuntimeException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient;'
我认为这很简单,但我似乎找不到解决方案。在 pyspark 中可以这样做吗?
注意:我在使用 Pyspark 笔记本的 EMR 集群上。
【问题讨论】:
-
如何创建 sparkSession 和 spark 版本?不确定是否相关,但仍想知道
-
您是否启用了 Hive 支持?在创建 sparksession 时检查
enableHiveSupport()是否存在 -
@SomeshwarKale:我在 EMR 集群上。我正在使用 Pyspark 笔记本。我没有明确创建 sparkSession。
-
从 sparkSession 检查
spark.sql.catalogImplementation属性的值 -
@SomeshwarKale 我收到以下错误:
AttributeError: 'function' object has no attribute 'catalogImplementation'。我对 spark/pyspark 很陌生,所以我可能会遗漏一些东西。任何帮助将不胜感激。
标签: pyspark amazon-emr