【问题标题】:How to use s3distcp for selecting date ranges?如何使用 s3distcp 选择日期范围?
【发布时间】:2019-12-04 06:35:49
【问题描述】:

我在 s3 中有如下所示的日志,名称中带有时间戳。我想使用 s3distcp 将数据导入 EMR,这样我就可以使用 hive。

https://s3.amazonaws.com/mybucket/test/201305031003_0_ubuntu.gz
https://s3.amazonaws.com/mybucket/test/201305031004_0_ubuntu.gz
https://s3.amazonaws.com/mybucket/test/201305031005_0_ubuntu.gz
https://s3.amazonaws.com/mybucket/test/201305031006_0_ubuntu.gz

如何使用 s3distcp 选择日期范围?例如。从 201303031003 到 201305031003?相差两个月

【问题讨论】:

    标签: amazon-s3 hive amazon-emr emr


    【解决方案1】:

    您可以使用--srcPattern s3distcp option 指定正则表达式以仅选择要复制的月份。

    【讨论】:

      【解决方案2】:

      另一个选项是使用--srcPrefixesFile 参数来指定要复制/移动的所有对象。

      这涉及生成此列表的额外步骤,但如果您想在运行 s3distcp 步骤之前对其进行测试,这是一种更安全的方法。

      【讨论】:

        猜你喜欢
        • 2011-01-05
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2020-04-05
        • 2018-03-08
        相关资源
        最近更新 更多