在使用存储在 amazon s3 上的数据运行 Map reduce WordCount 作业时需要帮助答案

【问题标题】：Need assistance with running the Map reduce WordCount job with data that is stored on amazon s3在使用存储在 amazon s3 上的数据运行 Map reduce WordCount 作业时需要帮助
【发布时间】：2013-01-20 21:46:30
【问题描述】：

我正在尝试对存储在 Amazon s3 存储桶中的文本文件运行 Map reduce WordCount 作业。我已经为 map reduce 框架设置了与 Amazon 通信所需的所有身份验证，但我继续运行此错误。知道为什么会这样吗？

13/01/20 13:22:15 ERROR security.UserGroupInformation:
PriviledgedActionException as:root
cause:org.apache.hadoop.mapred.InvalidInputException: Input path does
not exist: s3://name-bucket/test.txt
Exception in thread "main"
org.apache.hadoop.mapred.InvalidInputException: Input path does not
exist: s3://name-bucket/test.txt
    at org.apache.hadoop.mapred.FileInputFormat.listStatus(FileInputFormat.java:197)
    at org.apache.hadoop.mapred.FileInputFormat.getSplits(FileInputFormat.java:208)
    at org.apache.hadoop.mapred.JobClient.writeOldSplits(JobClient.java:989)
    at org.apache.hadoop.mapred.JobClient.writeSplits(JobClient.java:981)
    at org.apache.hadoop.mapred.JobClient.access$600(JobClient.java:174)
    at org.apache.hadoop.mapred.JobClient$2.run(JobClient.java:897)
    at org.apache.hadoop.mapred.JobClient$2.run(JobClient.java:850)
    at java.security.AccessController.doPrivileged(Native Method)
    at javax.security.auth.Subject.doAs(Subject.java:416)
    at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1121)
    at org.apache.hadoop.mapred.JobClient.submitJobInternal(JobClient.java:850)
    at org.apache.hadoop.mapred.JobClient.submitJob(JobClient.java:824)
    at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1261)
    at org.myorg.WordCount.main(WordCount.java:55)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:616)
    at org.apache.hadoop.util.RunJar.main(RunJar.java:156)

【问题讨论】：

您确定您的输入存在并且您输入了正确的存储桶名称吗？你试过用“s3n”代替“s3”吗？
感谢成功，我将输入 url 和 hadoop-site.xml 中的 s3 替换为 s3n。你知道为什么这行得通而只是 s3 没有吗？
我在答案中添加了更多细节。

标签： java hadoop amazon-s3 mapreduce

【解决方案1】：

您实际上必须将协议s3 替换为s3n。这是 2 个具有不同属性的不同文件系统：

s3n 是 s3 原生文件系统：用于在 S3 上读写常规文件的原生文件系统。此文件系统的优点是您可以访问 S3 上使用其他工具编写的文件。相反，其他工具可以访问使用 Hadoop 编写的文件。缺点是 S3 对文件大小施加了 5GB 的限制。因此，它不适合作为 HDFS（支持超大文件）的替代品。
s3 是块文件系统：由 S3 支持的基于块的文件系统。文件存储为块，就像它们在 HDFS 中一样。这允许有效地执行重命名。此文件系统要求您为文件系统专用一个存储桶 - 您不应使用包含文件的现有存储桶，或将其他文件写入同一存储桶。此文件系统存储的文件可以大于 5GB，但不能与其他 S3 工具互操作。

(source)

在您的情况下，您的存储桶可能使用s3n 文件系统，我相信这是默认设置，我使用的大多数存储桶也是s3n。所以你应该使用s3n://name-bucket/test.txt

【讨论】：