【问题标题】:How to run query in AWS Glue如何在 AWS Glue 中运行查询
【发布时间】:2019-10-18 08:16:29
【问题描述】:

我在 AWS Redshift 中有我需要的数据。它位于一个名为 Lz (Landingzone) 的数据库中。 该数据插入到名为 Stage 的数据库中(相同的红移)。 我有(选择)查询将数据从原始状态(LZ)转换为我需要的维度和事实。 传统上,我会使用这些查询与插入相结合来转换数据。结果将被合并到数据仓库中(再次:相同的红移)

如何在 Glue 中执行此操作?我可以使用 python 在作业中执行查询吗?或者我可以在 redshift 中创建由作业执行/从作业执行的存储过程吗?

【问题讨论】:

  • 为什么要从胶水安排这些?
  • 我想防止到处都有日程安排......你会怎么做呢?

标签: python postgresql amazon-redshift aws-glue


【解决方案1】:

我认为您目前不能以直接和预定的方式从胶水运行 redshift sql(不幸的是)。在我看来,这是产品的一个重大遗漏。

可以选择使用本文所述的前置/后置语句。这是非常基本的,可能无法满足您的需求。

https://aws.amazon.com/premiumsupport/knowledge-center/sql-commands-redshift-glue-job/

您可以使用“适当的”调度产品(如气流)或 crontab 和 bash 脚本来执行以下操作 1) 监控胶水作业的状态(相关作业) 2)在redshift上运行sql

您也可以使用 cloudwatch(监视粘合完成)和 lambda(运行 redshift sql),但是由于 lambda 作业的运行时间限制(可能比您需要完成您的 redshift sql)

【讨论】:

  • 嗯,我使用作业将数据从源传输到 Redshift,数据库 WareHouse,模式 LZ。最后一个数据接收器触发一个调用存储过程的后查询,该存储过程反过来转换数据,将其加载到阶段,然后从那里将其与 dwh 模式合并:) 就像一个魅力,谢谢你的提示!
猜你喜欢
  • 1970-01-01
  • 2020-10-24
  • 1970-01-01
  • 1970-01-01
  • 2021-07-08
  • 2020-03-15
  • 1970-01-01
  • 2019-10-07
  • 2022-10-17
相关资源
最近更新 更多