从 Pyspark 调用 AWS S3 存储桶时出错。 AWS 错误代码：null，AWS 错误消息：错误请求答案

【问题标题】：Error while making the call to AWS S3 bucket from Pyspark . AWS Error Code: null, AWS Error Message: Bad Request从 Pyspark 调用 AWS S3 存储桶时出错。 AWS 错误代码：null，AWS 错误消息：错误请求
【发布时间】：2020-09-04 03:13:13
【问题描述】：

错误是 Py4JJavaError: An error occurred while calling o411.csv.

com.amazonaws.services.s3.model.AmazonS3Exception：状态代码：400，AWS 服务：Amazon S3，AWS 请求 ID：fsdfewffsd，AWS 错误代码：null，AWS 错误消息：错误请求, S3 扩展请求 ID

我正在使用 spark 3.0 预览版。我使用pyspark --packages=org.apache.hadoop:hadoop-aws:2.7.3 命令启动了 pyspark 会话。

我试过下面的代码

hadoop_conf = spark._jsc.hadoopConfiguration()
hadoop_conf.set("fs.s3a.impl","org.apache.hadoop.fs.s3a.S3AFileSystem")
hadoop_conf.set("com.amazonaws.services.s3.enableV4", "true")
hadoop_conf.set("fs.s3a.endpoint", "s3.us-east-2.amazonaws.com")    hadoop_conf.set("fs.s3a.aws.credentials.provider","org.apache.hadoop.fs.s3a.BasicAWSCredentialsProvider")
hadoop_conf.set("fs.s3a.access.key",ACCESS_KEY)
hadoop_conf.set("fs.s3a.secret.key",SECRET_KEY)

在这样调用存储桶之后，以下行将引发错误。

sdf = spark.read.csv("s3a://aai-team/neighbourhoods.csv")

【问题讨论】：

标签： amazon-web-services apache-spark amazon-s3 pyspark

【解决方案1】：

我今天遇到了完全相同的问题。刚刚用 setSystemProperty 解决了 ->

spark = SparkSession.builder.appName("app").getOrCreate()
sc=spark.sparkContext
sc.setSystemProperty("com.amazonaws.services.s3.enableV4", "true")

然后是和你一样的 hadoop_conf。

【讨论】：

非常感谢！我搜索了所有web！