无法将 Spark 作业输出直接写入 s3 存储桶答案

【问题标题】：Cannot write spark job output into s3 bucket directly无法将 Spark 作业输出直接写入 s3 存储桶
【发布时间】：2023-03-14 16:08:01
【问题描述】：

我有一个 Spark 作业，它将其结果写入 s3 存储桶，问题是当输出存储桶名称看起来像这样 s3a://bucket_name/ 时出现错误

Caused by: com.amazonaws.services.s3.model.AmazonS3Exception: Status Code: 404, AWS Service: Amazon S3, AWS Request ID: xxx, AWS Error Code: NoSuchKey, AWS Error Message: null, S3 Extended Request ID: xxx

但是当我在输出存储桶 (s3a://bucket_name/subfolder/) 中添加子文件夹时，它可以工作！

我正在使用 hadoop-aws 2.7.3 从 s3 读取数据。

有什么问题？

提前致谢。

【问题讨论】：

标签： hadoop apache-spark amazon-s3

【解决方案1】：

不是火花错误。 S3 客户端如何使用根目录的问题。他们是“特别的”。 HADOOP-13402 看着它。您那里的代码显然来自亚马逊自己的对象存储客户端，但它的行为方式显然相同。

换个角度考虑：你不会向“file:///”或“hdfs:///”提交工作；一切都需要一个子目录。

对不起。

【讨论】：