【问题标题】:S3DistCP copies some files for the manifest and doesnt copy the restS3DistCP 为清单复制一些文件,而不复制其余文件
【发布时间】:2015-02-24 16:28:10
【问题描述】:

我们使用 S3Distcp 通过清单文件将文件从 S3 复制到 HDFS - 即,我们在 S3Distcp 命令中使用 --copyFromManifest 参数。但是,在 S3DistCP 步骤中,仅复制清单中列出的部分文件。我不确定我们应该从哪里开始寻找问题 - 即,为什么有些文件是副本而其他文件不是?

谢谢

【问题讨论】:

  • 也许只有一些节点复制了他们的部分文件?你能检查你的任务节点日志看看是否有任何错误发生吗?

标签: amazon-s3 manifest emr


【解决方案1】:

也许问题是您有同名但位于不同目录的文件。在这种情况下,您需要更改构造 baseNamesrcDir 字段的方式。请描述您如何构建清单文件。

【讨论】:

    猜你喜欢
    • 2017-01-16
    • 1970-01-01
    • 2021-11-27
    • 2016-01-17
    • 2011-01-16
    • 1970-01-01
    • 2014-12-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多