【发布时间】:2018-06-19 06:16:50
【问题描述】:
我在 AWS Redshift 中维护了一个数据仓库。数据量和速度最近都有所增加。一种选择当然是在更高成本的范围内保持水平扩展集群。我想知道是否有任何可用的归档选项,以便我可以像往常一样查询整个数据(可能会在查询时间上有所妥协),但成本很低或没有额外成本?
一种选择是使用外部表并直接从 S3 查询数据,但用于实现此目的的工具(如 Athena 和 Glue)有其自身的成本,这也是基于每个查询。
【问题讨论】:
-
雅典娜/胶水/红移光谱 = 这是一个很好的选择。如果您不经常查询,并且如果您正确组织表格,则成本可以降到最低。
-
不确定你是否已经探索过但有
high disk and low computation系列的Redshift实例也是一种选择。 -
如果您不想有每次查询费用,您应该尝试 Presto。 (Athena 使用 Presto 的执行引擎)
-
@PiotrFindeisen Presto 会和 Athena 一样快吗?我认为要让它快速运行,我们必须保持大型集群,这又意味着额外的成本。没有?
-
如果 Athena 与 Presto 开发保持同步,它会一样快。它不是,Presto 可以更快。权力越大,责任越大——您可能希望扩大和缩小集群。当然,如果您只是不时查询,那是不值得的,Athena 的按查询付费模式将是最佳的。
标签: amazon-web-services amazon-redshift data-warehouse amazon-athena