【发布时间】:2020-09-04 03:13:13
【问题描述】:
错误是 Py4JJavaError: An error occurred while calling o411.csv.
com.amazonaws.services.s3.model.AmazonS3Exception:状态代码:400,AWS 服务:Amazon S3,AWS 请求 ID:fsdfewffsd,AWS 错误代码:null,AWS 错误消息:错误请求, S3 扩展请求 ID
我正在使用 spark 3.0 预览版。
我使用pyspark --packages=org.apache.hadoop:hadoop-aws:2.7.3 命令启动了 pyspark 会话。
我试过下面的代码
hadoop_conf = spark._jsc.hadoopConfiguration()
hadoop_conf.set("fs.s3a.impl","org.apache.hadoop.fs.s3a.S3AFileSystem")
hadoop_conf.set("com.amazonaws.services.s3.enableV4", "true")
hadoop_conf.set("fs.s3a.endpoint", "s3.us-east-2.amazonaws.com") hadoop_conf.set("fs.s3a.aws.credentials.provider","org.apache.hadoop.fs.s3a.BasicAWSCredentialsProvider")
hadoop_conf.set("fs.s3a.access.key",ACCESS_KEY)
hadoop_conf.set("fs.s3a.secret.key",SECRET_KEY)
在这样调用存储桶之后,以下行将引发错误。
sdf = spark.read.csv("s3a://aai-team/neighbourhoods.csv")
【问题讨论】:
标签: amazon-web-services apache-spark amazon-s3 pyspark