如何在 AWS Glue 中运行查询答案

【问题标题】：How to run query in AWS Glue如何在 AWS Glue 中运行查询
【发布时间】：2019-10-18 08:16:29
【问题描述】：

我在 AWS Redshift 中有我需要的数据。它位于一个名为 Lz (Landingzone) 的数据库中。该数据插入到名为 Stage 的数据库中（相同的红移）。我有（选择）查询将数据从原始状态（LZ）转换为我需要的维度和事实。传统上，我会使用这些查询与插入相结合来转换数据。结果将被合并到数据仓库中（再次：相同的红移）

如何在 Glue 中执行此操作？我可以使用 python 在作业中执行查询吗？或者我可以在 redshift 中创建由作业执行/从作业执行的存储过程吗？

【问题讨论】：

为什么要从胶水安排这些？
我想防止到处都有日程安排......你会怎么做呢？

标签： python postgresql amazon-redshift aws-glue

【解决方案1】：

我认为您目前不能以直接和预定的方式从胶水运行 redshift sql（不幸的是）。在我看来，这是产品的一个重大遗漏。

可以选择使用本文所述的前置/后置语句。这是非常基本的，可能无法满足您的需求。

https://aws.amazon.com/premiumsupport/knowledge-center/sql-commands-redshift-glue-job/

您可以使用“适当的”调度产品（如气流）或 crontab 和 bash 脚本来执行以下操作 1) 监控胶水作业的状态（相关作业） 2）在redshift上运行sql

您也可以使用 cloudwatch（监视粘合完成）和 lambda（运行 redshift sql），但是由于 lambda 作业的运行时间限制（可能比您需要完成您的 redshift sql）

【讨论】：

嗯，我使用作业将数据从源传输到 Redshift，数据库 WareHouse，模式 LZ。最后一个数据接收器触发一个调用存储过程的后查询，该存储过程反过来转换数据，将其加载到阶段，然后从那里将其与 dwh 模式合并:) 就像一个魅力，谢谢你的提示！