【问题标题】:AWS Glue as a ETL tool?AWS Glue 作为 ETL 工具?
【发布时间】:2020-06-30 11:17:18
【问题描述】:

为什么 AWS 声称 Glue 是一种 ETL 工具?我们需要编写所有代码来提取数据,Glue 没有提供内置功能。使用 Glue 代替 Nifi 或其他一些摄取工具有什么好处?

【问题讨论】:

    标签: amazon-web-services apache-nifi aws-glue


    【解决方案1】:

    Glue 是 AWS 中一个很好的 ETL 工具。特别是对于大数据工作负载。毕竟它是在 spark 上运行的。

    Glue 确实能够生成一些基本的自动转换代码 -> 将数据从 A 移动到 B 并重新映射列名等。

    然而,真正让它与众不同的是编写自定义代码的灵活性。使用 Glue 代码编辑器或 Pycharm IDE,您可以使用 pyspark 和/或 scala 编写所需的任何转换脚本。

    将 Glue 与其他 AWS 服务结合使用时,它的优势才能真正发挥出来。 Glue 数据目录与 Athena 甚至 AWS EMR 共享,因此您最终会获得大数据生态系统的中心点。

    我发现 Glue 的一个限制是将大型数据集写入 MS SQL Server(超过 1000 万行)。 Glue 使用 JDBC 驱动程序,截至 2020 年,还没有可用于批量复制的 Microsoft JDBC 连接。因此,实际上您正在为每一行编写一个插入语句。因此,一旦您当前达到数千万行,性能就会受到影响。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2018-01-30
      • 2019-01-29
      • 1970-01-01
      • 2022-07-21
      • 1970-01-01
      • 2019-08-22
      • 2023-03-04
      相关资源
      最近更新 更多