【问题标题】:ERROR Executor: Exception in task 0.0 in stage 0.0 (TID 0)/ 1] org.apache.spark.SparkException: Exception thrown in awaitResult:错误执行器:阶段 0.0 (TID 0)/ 1] 中任务 0.0 中的异常 org.apache.spark.SparkException:awaitResult 中抛出的异常:
【发布时间】:2022-12-30 15:17:45
【问题描述】:

我是 pyspark 和 AWS 的新手。我正在尝试从 aws s3 读取数据 pyspark 版本 3.3.0 我试过这个:

from pyspark.sql import SparkSession

spark = SparkSession\
.builder\
.config('spark.master', 'local')\
.config('spark.app.name', 's3app')\
.config('spark.jars.packages', 'org.apache.hadoop:hadoop-aws:3.3.4,org.apache.hadoop:hadoop-common:3.3.4')\
.getOrCreate()

sc = spark.sparkContext

sc._jsc.hadoopConfiguration().set('fs.s3a.access.key', 'access-key')
sc._jsc.hadoopConfiguration().set('fs.s3a.secret.key', 'secret-key')

df = spark.read.format('parquet').load('s3a://path-to-s3')

我尝试了几乎所有关于“堆栈溢出”的解决方案,但没有一个对我有用。 我收到以下error message,错误是代码的最后一行。

【问题讨论】:

  • 看起来您没有生产存储桶的权限,您是否向 AWS 管理员核实过您的权限?另外,读取其他桶是否成功?
  • 是的,你是对的。我更改了我的 IAM 策略,然后它开始工作了。这段代码没有错误。

标签: amazon-web-services amazon-s3 pyspark


【解决方案1】:

此错误是由于存储桶的权限,请检查您的 IAM 策略。

【讨论】:

    猜你喜欢
    • 2021-06-20
    • 1970-01-01
    • 1970-01-01
    • 2020-04-18
    • 2019-09-22
    • 2022-11-06
    • 2011-01-23
    • 2022-11-12
    相关资源
    最近更新 更多