【问题标题】:Error while making the call to AWS S3 bucket from Pyspark . AWS Error Code: null, AWS Error Message: Bad Request从 Pyspark 调用 AWS S3 存储桶时出错。 AWS 错误代码:null,AWS 错误消息:错误请求
【发布时间】:2020-09-04 03:13:13
【问题描述】:

错误是 Py4JJavaError: An error occurred while calling o411.csv.

com.amazonaws.services.s3.model.AmazonS3Exception:状态代码:400,AWS 服务:Amazon S3,AWS 请求 ID:fsdfewffsd,AWS 错误代码:null,AWS 错误消息:错误请求, S3 扩展请求 ID

我正在使用 spark 3.0 预览版。 我使用pyspark --packages=org.apache.hadoop:hadoop-aws:2.7.3 命令启动了 pyspark 会话。

我试过下面的代码

hadoop_conf = spark._jsc.hadoopConfiguration()
hadoop_conf.set("fs.s3a.impl","org.apache.hadoop.fs.s3a.S3AFileSystem")
hadoop_conf.set("com.amazonaws.services.s3.enableV4", "true")
hadoop_conf.set("fs.s3a.endpoint", "s3.us-east-2.amazonaws.com")    hadoop_conf.set("fs.s3a.aws.credentials.provider","org.apache.hadoop.fs.s3a.BasicAWSCredentialsProvider")
hadoop_conf.set("fs.s3a.access.key",ACCESS_KEY)
hadoop_conf.set("fs.s3a.secret.key",SECRET_KEY)

在这样调用存储桶之后,以下行将引发错误。

sdf = spark.read.csv("s3a://aai-team/neighbourhoods.csv")

【问题讨论】:

    标签: amazon-web-services apache-spark amazon-s3 pyspark


    【解决方案1】:

    我今天遇到了完全相同的问题。 刚刚用 setSystemProperty 解决了 ->

    spark = SparkSession.builder.appName("app").getOrCreate()
    sc=spark.sparkContext
    sc.setSystemProperty("com.amazonaws.services.s3.enableV4", "true")
    

    然后是和你一样的 hadoop_conf。

    【讨论】:

    • 非常感谢!我搜索了所有web
    猜你喜欢
    • 2018-06-01
    • 1970-01-01
    • 2019-03-30
    • 2015-12-07
    • 1970-01-01
    • 2018-06-19
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多