【发布时间】:2017-10-06 15:24:38
【问题描述】:
我在 HDFS 中有以下 2 个文件和 1 个目录。
-rw-r--r-- 1 hadoop hadoop 11194859 2017-05-05 19:53 hdfs:///outputfiles/abc_output.txt
drwxr-xr-x - hadoop hadoop 0 2017-05-05 19:28 hdfs:///outputfiles/sample_directory
-rw-r--r-- 1 hadoop hadoop 68507436 2017-05-05 19:55 hdfs:///outputfiles/sample_output.txt
我想通过单个命令将 gzip 格式的 abc_output.txt 和 sample_directory 从 HDFS 复制到 S3。我不希望在 S3 上合并文件。
我的 S3 存储桶应包含以下内容: abc_output.txt.gzip 示例目录.gzip
我尝试了以下方法:
s3-dist-cp --s3Endpoint=s3.amazonaws.com --src=hdfs:///outputfiles/ --dest=s3://bucket-name/outputfiles/ --outputCodec=gzip
但这会将所有文件和文件夹从源复制到目标。
通过引用 Deduce the HDFS path at runtime on EMR,我也试过下面的命令:
s3-dist-cp --s3Endpoint=s3.amazonaws.com --src=hdfs:///outputfiles/ --dest=s3://bucket-name/outputfiles/ --srcPattern=.*abc_output。 txt.sample_directory. --outputCodec=gzip 但这失败了。
【问题讨论】: