【发布时间】:2019-07-11 08:36:22
【问题描述】:
我们将原始数据作为 parquet 存储在 S3 中。 我想要将该数据的一个子集加载到 Redshift 中。 需要明确的是,Redshift 数据将是原始数据查询(连接、过滤器、聚合)的结果。
我原本以为我可以在 Athena 中构建视图,并将结果加载到 Redshift 中 - 但似乎没有那么简单!
Glue ETL 作业需要 S3 或 RDS 源 - 不接受来自 Athena 的视图。 (也无法抓取视图)。
下一个解决方案是使用 Athena CTAS 功能,将视图结果写入 S3,然后加载到 RedShift。 但是,CTAS 没有“覆盖”选项。
所以问题... 有没有更简单的方法来解决这个问题? (似乎是一个简单的要求) 是否有一个简单的解决方法来执行具有“覆盖”行为的 CTAS? 有了这个,就必须是一个可以捆绑到计划作业中的解决方案——而且我认为这已经导致了一个自定义脚本。
当一项简单的工作变得如此困难时 - 我不禁想我错过了一些简单的事情!?
谢谢
【问题讨论】:
标签: amazon-web-services amazon-redshift