【发布时间】:2021-08-06 22:07:23
【问题描述】:
我在 3 个独立的 S3 存储桶中有 3 个独立的数据源(文件)。这 3 个来源中的架构彼此不同,但时间戳相同(以纪元为单位的每小时)。
以前,我使用 Glue 从 1 个存储桶中读取数据并将转换应用到该存储桶中的文件并写入生成的存储桶。
使用 3 个数据源,我是否仍然可以从 3 个不同的存储桶中读取它们,并以某种方式将它们加入纪元时间戳,然后吐出统一的数据源(所有 3 个的组合).. 我猜 Glue 将不得不做行级别在这种情况下加入。
到目前为止,我在网上找到的关于 Glue 的博文只讨论了单源输入和转换。
如果按照我的要求不可能做到这一点?否则你会怎么做?
【问题讨论】:
标签: amazon-web-services amazon-s3 aws-glue aws-data-pipeline