【问题标题】:AWS Data Glue ETL Filter Extract Input Based on Job ParameterAWS Data Glue ETL 根据作业参数过滤提取输入
【发布时间】:2021-07-29 19:23:00
【问题描述】:

AWS Glue ETL 处理新手并尝试实施一项作业以从 RDS MySQL 数据库中为特定客户提取数据,执行一些转换并将结果写入 S3。

过滤从源表中选择的数据输入的最佳方法是什么,可以作为源提取的一部分完成,还是需要基于特定键的单独过滤器转换?

如果将其实现为过滤器转换,是否有办法根据作业输入参数使其动态化?理想情况下,该作业将由作为用户启动工作流的一部分的事件触发。

任何帮助将不胜感激。 TIA

【问题讨论】:

    标签: aws-glue


    【解决方案1】:

    过滤从 源表可以作为源提取的一部分完成,或者 这需要基于特定的过滤器转换 钥匙?

    Glue 基本上是托管 Spark。 Spark 有一种称为 PushDownPredicate 的技术,可以优化过滤器操作。 Spark很可能会通过修改read语句,将filter操作直接推入read操作中。

    您可以通过使用 .toDF() 方法将 Glue DynamicFrame 转换为本机 Spark DataFrame 并在该 DataFrame 上调用 explain 操作来检查您的情况是否发生这种情况。

    如果将其实现为过滤器转换,是否有办法使 这个动态基于 Job 输入参数?理想情况下,这份工作将是 作为用户启动的工作流的一部分,由事件触发。

    可以,但不能通过 Glue Studio 的 Visual UI,您需要手动修改 ETL 脚本。

    【讨论】:

    • 很高兴,希望对您有所帮助!
    猜你喜欢
    • 2019-02-18
    • 1970-01-01
    • 2019-01-29
    • 1970-01-01
    • 1970-01-01
    • 2022-07-21
    • 2018-01-30
    • 2022-12-12
    • 1970-01-01
    相关资源
    最近更新 更多