【发布时间】:2020-06-30 11:17:18
【问题描述】:
为什么 AWS 声称 Glue 是一种 ETL 工具?我们需要编写所有代码来提取数据,Glue 没有提供内置功能。使用 Glue 代替 Nifi 或其他一些摄取工具有什么好处?
【问题讨论】:
标签: amazon-web-services apache-nifi aws-glue
为什么 AWS 声称 Glue 是一种 ETL 工具?我们需要编写所有代码来提取数据,Glue 没有提供内置功能。使用 Glue 代替 Nifi 或其他一些摄取工具有什么好处?
【问题讨论】:
标签: amazon-web-services apache-nifi aws-glue
Glue 是 AWS 中一个很好的 ETL 工具。特别是对于大数据工作负载。毕竟它是在 spark 上运行的。
Glue 确实能够生成一些基本的自动转换代码 -> 将数据从 A 移动到 B 并重新映射列名等。
然而,真正让它与众不同的是编写自定义代码的灵活性。使用 Glue 代码编辑器或 Pycharm IDE,您可以使用 pyspark 和/或 scala 编写所需的任何转换脚本。
将 Glue 与其他 AWS 服务结合使用时,它的优势才能真正发挥出来。 Glue 数据目录与 Athena 甚至 AWS EMR 共享,因此您最终会获得大数据生态系统的中心点。
我发现 Glue 的一个限制是将大型数据集写入 MS SQL Server(超过 1000 万行)。 Glue 使用 JDBC 驱动程序,截至 2020 年,还没有可用于批量复制的 Microsoft JDBC 连接。因此,实际上您正在为每一行编写一个插入语句。因此,一旦您当前达到数千万行,性能就会受到影响。
【讨论】: