Glue 管道中的多个 S3 输入答案

【问题标题】：Multiple S3 Inputs into Glue PipelineGlue 管道中的多个 S3 输入
【发布时间】：2021-08-06 22:07:23
【问题描述】：

我在 3 个独立的 S3 存储桶中有 3 个独立的数据源（文件）。这 3 个来源中的架构彼此不同，但时间戳相同（以纪元为单位的每小时）。

以前，我使用 Glue 从 1 个存储桶中读取数据并将转换应用到该存储桶中的文件并写入生成的存储桶。

使用 3 个数据源，我是否仍然可以从 3 个不同的存储桶中读取它们，并以某种方式将它们加入纪元时间戳，然后吐出统一的数据源（所有 3 个的组合）.. 我猜 Glue 将不得不做行级别在这种情况下加入。

到目前为止，我在网上找到的关于 Glue 的博文只讨论了单源输入和转换。

如果按照我的要求不可能做到这一点？否则你会怎么做？

【问题讨论】：

标签： amazon-web-services amazon-s3 aws-glue aws-data-pipeline

【解决方案1】：

我不太确定你在问什么，但Glue Dynamic Dataframe supports a join operation，虽然它仅限于内部连接。 Spark 数据框有一个robust join method，它支持内部、外部和交叉连接。因此，您应该能够将所有三个 S3 位置加载到（动态）数据帧中并将它们连接起来以获得可以转换和写出的单个结果集。

【讨论】：

有博文或教程可以指点我吗？谢谢！
sparkbyexamples.com/spark/spark-join-multiple-dataframes 看起来不错，并在末尾包含一个三数据框连接的示例。如果您不熟悉 SQL 连接，则可能需要对这些连接进行一些练习，以便熟悉这些概念。