【发布时间】:2017-05-10 17:25:57
【问题描述】:
我有 CDH hdfs 上的数据,我想将其移动到 Amazon S3 存储桶,因此我可以在 AWS EMR 而不是 CDH 上运行代码。 如何安全快速地移动它?
我可以使用 s3a 命令或任何其他有效的方式来做到这一点吗?
【问题讨论】:
-
您可以使用
aws s3 cp将任何文件复制到 S3 存储桶。 -
我尝试使用 aws S3 cp,但有时复制停止了。
-
如果传输因某种原因中断,您可以随时使用
aws s3 sync。 -
aws s3 cp 不起作用,因为我将文件从 hdfs 复制到 S3,而不是本地文件。因为我正在将数据从 CDH 复制到 Amazon S3,所以我需要传递 s3 访问密钥和密钥。我尝试运行命令: hdfs dfs -cp
s3n:// : @ 但它不起作用。它给了我“源文件列表和源路径都存在”。 -
但是你总是可以挂载 HDFS 文件系统,对吧? wiki.apache.org/hadoop/MountableHDFS
标签: hadoop amazon-s3 cloudera amazon-emr bigdata