【发布时间】:2017-05-19 16:09:23
【问题描述】:
我找不到任何直接的答案,所以我想我会在这里问。
ETL(例如 AWS Glue)能否用于执行聚合,以在任意时间范围内将数据分辨率降低为 AVG、MIN、MAX 等?
例如- 给定过去一个月的 2000 多个室外温度数据点,使用 ETL 作业将该分辨率降低到过去一个月的 30 个日平均值数据点。 (这些数据的实际用例除外,只是一个例子)。
这个想法是执行聚合以降低数据的分辨率,以使图表、图形等更快地显示大型数据集的长时间范围,因为我们不需要然后必须动态聚合的每个单独的数据点这些图表和图表的飞翔。
到目前为止,我的研究仅表明 ETL 用于数据的 1 到 1 转换,而不是 1000 到 1。似乎 ETL 更多地用于将数据转换为适当的结构以存储在数据库中,而不是用于聚合大型数据集。
我可以使用 ETL 来解决我的聚合需求吗?这将是非常大规模的,使用 AWS 和 Python 实现。
【问题讨论】:
-
我无法评论 AWS 对此类任务的适用性,但想提一下 ETL 可以包括通常使用 SQL GROUP BY 完成的数据行聚合。如果您没有义务使用 AWS,那么有多种纯 Python 解决方案可能会起作用,显然取决于您的具体情况。
-
ETL 是一个通用概念,不是一个具体的解决方案。它比你的研究更广泛。在数据仓库中维护聚合表和维度表是常见的 ETL 场景,两者几乎没有 1:1。
标签: python amazon-web-services etl aws-glue