【问题标题】:Pyspark : Unable to import csv file in Zeppilin instancePyspark:无法在 Zeppilin 实例中导入 csv 文件
【发布时间】:2019-07-14 21:07:51
【问题描述】:

我无法运行以下代码行。

from pyspark.sql import SQLContext
sqlContext = SQLContext(sc)

df_t = sqlContext.read.format('com.databricks.spark.csv').options(header='true', inferschema='true').load('s3a://Bucket_name/Train - Copy.csv')

它抛出以下错误:

AnalysisException: u'java.lang.RuntimeException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient;'

我尝试重新启动解释器,但没有帮助。

有人可以帮忙解决这个问题吗?

谢谢, 纳赛尔

【问题讨论】:

  • 关于重新启动解释器:我遇到了这个问题 AnalysisException: u'Path does not exist: s3a://bucketname/train_45_var.csv;'

标签: csv import pyspark apache-zeppelin


【解决方案1】:

看来,hive metastore 没有运行,你可以试试启动服务

hive --service metastore  

您可以使用以下代码来读取不使用 SQLContext 的 csv

from pyspark.sql import SparkSession
spark = SparkSession \
    .builder \
    .appName("Reading CSV") \
    .getOrCreate()

df_t = spark.read.csv('s3a://Bucket_name/Train - Copy.csv',header=True, inferSchema=True)
df_t.show()

【讨论】:

  • 我只能访问 zepplin notebook,我可以在其中对导入的 csv 执行操作。在这种情况下,我如何启动我看到 hive 命令不起作用的服务。此外,会话代码也不起作用。
猜你喜欢
  • 2019-07-04
  • 1970-01-01
  • 2017-02-28
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2020-06-07
  • 2021-07-15
相关资源
最近更新 更多