【发布时间】:2018-08-14 13:31:50
【问题描述】:
我正在尝试从胶水 pyspark 脚本中的 s3 存储桶中检索 JSON 文件。
我正在 aws 胶水内的作业中运行此功能:
def run(spark):
s3_bucket_path = 's3://bucket/data/file.gz'
df = spark.read.json(s3_bucket_path)
df.show()
在此之后,我得到: AnalysisException: u'Path 不存在:s3://bucket/data/file.gz;'
我搜索了这个问题,但没有找到任何足以推断问题所在的类似内容。我认为访问存储桶可能存在权限问题,但是错误消息应该有所不同。
【问题讨论】:
-
您应该确保该 URL 可公开访问。如果您没有明确将其公开,则即使您是授权用户,也无法通过该 URL 访问它。
标签: python json amazon-s3 pyspark aws-glue