【发布时间】:2018-10-02 01:00:38
【问题描述】:
我正在构建一个将数据从 s3 加载到 Amazon redshift 的数据管道,我有一个具有分层文件夹结构的 s3 存储桶,例如
Amazon S3>bucket-name/10849813427/2.0/2018/08/16/10958160321
我的文件放在最后一个目录中(例如 10958160321)。
我的 S3 存储桶(存储桶名称)中有多个这样的文件夹,现在我想从这个 S3 存储桶中的所有这些文件夹中复制过去两天在另一个 S3 存储桶中具有“last_modified_date”的文件。我将使用我的 ETL 作业处理这些文件并在 Redshift 中加载数据。
有没有办法在复制到另一个存储桶或同一存储桶内的另一个文件夹时过滤掉文件?
谢谢
【问题讨论】:
-
根据您的以下评论,您是否可以发布您的 boto3 解决方案或接受以下答案。 :)
标签: python amazon-s3 aws-lambda etl