【发布时间】:2019-04-15 06:44:24
【问题描述】:
我需要使用 aws Glue 将一个相当大的数据库表转换为 csv。但是我只有过去 24 小时内最新的表格行。有一列指定行的创建日期。是否可以只转换这些行,而不将整个表复制到 csv 文件中?我正在使用带有 Spark 的 python 脚本。
非常感谢您!
【问题讨论】:
标签: sql amazon-web-services etl aws-glue
我需要使用 aws Glue 将一个相当大的数据库表转换为 csv。但是我只有过去 24 小时内最新的表格行。有一列指定行的创建日期。是否可以只转换这些行,而不将整个表复制到 csv 文件中?我正在使用带有 Spark 的 python 脚本。
非常感谢您!
【问题讨论】:
标签: sql amazon-web-services etl aws-glue
AWS Glue 中有一些内置转换可用于处理您的数据。这种传输可以从 ETL 脚本中调用。
请参考以下链接: https://docs.aws.amazon.com/glue/latest/dg/built-in-transforms.html
【讨论】:
您尚未提及您尝试连接的database 的类型。无论如何,对于JDBC 连接,spark 有query 选项,您可以在其中发出通常的SQL query 来获取您需要的行。
【讨论】: