【问题标题】:Cannot write spark job output into s3 bucket directly无法将 Spark 作业输出直接写入 s3 存储桶
【发布时间】:2023-03-14 16:08:01
【问题描述】:

我有一个 Spark 作业,它将其结果写入 s3 存储桶,问题是当输出存储桶名称看起来像这样 s3a://bucket_name/ 时出现错误

Caused by: com.amazonaws.services.s3.model.AmazonS3Exception: Status Code: 404, AWS Service: Amazon S3, AWS Request ID: xxx, AWS Error Code: NoSuchKey, AWS Error Message: null, S3 Extended Request ID: xxx

但是当我在输出存储桶 (s3a://bucket_name/subfolder/) 中添加子文件夹时,它可以工作!

我正在使用 hadoop-aws 2.7.3 从 s3 读取数据。

有什么问题?

提前致谢。

【问题讨论】:

    标签: hadoop apache-spark amazon-s3


    【解决方案1】:

    不是火花错误。 S3 客户端如何使用根目录的问题。他们是“特别的”。 HADOOP-13402 看着它。您那里的代码显然来自亚马逊自己的对象存储客户端,但它的行为方式显然相同。

    换个角度考虑:你不会向“file:///”或“hdfs:///”提交工作;一切都需要一个子目录。

    对不起。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2021-11-17
      • 2021-11-15
      • 2017-09-29
      • 1970-01-01
      • 2020-08-11
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多