【问题标题】:When to use Amazon Redshift spectrum over AWS Glue ETL to query on Amazon S3 data何时通过 AWS Glue ETL 使用 Amazon Redshift 频谱来查询 Amazon S3 数据
【发布时间】:2018-09-13 13:37:01
【问题描述】:

由于 AWS Glue ETL 可以是 Python 脚本,因此它可以用于使用数据库接口执行 SQL 查询,并且可以将数据从 Amazon S3 加载到 DynamicFrame 中。我试图了解何时使用 Amazon Redshift 频谱查询 S3 数据是有利的。

【问题讨论】:

  • 当您想降低存储成本并保持源数据不变而不进行任何转换时。

标签: amazon-web-services amazon-redshift aws-glue


【解决方案1】:

AWS Glue 用于收集元数据(爬行)和 ETL。它不适用于报告或分析。它可以应用高度复杂的转换(非常适合复杂的 ETL 要求)。

Redshift Spectrum 主要用于针对存储在 S3 中的数据生成报告和分析,通常与存储在 Redshift 中的数据相结合。但是也可以用于简单的 ETL。如果您只需要简单类型的 ETL,那么设置和使用比 Glue 简单得多。

还有一个您没有提到的选项,即 amazon Athena,这是直接针对 S3 数据运行查询的绝佳工具。它类似于 Redshift Spectrum,但通常更快、更便宜,具体取决于您的用例。它无法将 S3 数据与 Redshift 数据相结合。

【讨论】:

    猜你喜欢
    • 2018-04-25
    • 1970-01-01
    • 2018-01-30
    • 2018-09-19
    • 1970-01-01
    • 1970-01-01
    • 2017-12-20
    • 2023-03-13
    • 1970-01-01
    相关资源
    最近更新 更多