使用 ETL 进行聚合

Using ETL for Aggregations

我找不到任何直接的答案,所以我想在这里问一下。

ETL(例如 AWS Glue)是否可用于执行聚合以在任意时间范围内将数据分辨率降低为 AVG、MIN、MAX 等?

例如- 给定过去一个月的 2000 多个室外温度数据点,使用 ETL 作业将该分辨率降低到过去一个月的每日平均值的 30 个数据点。 (除了此类数据的实际用例,仅作为示例)。

我们的想法是执行聚合以降低数据的分辨率,使图表、图形等更快地显示大型数据集的长时间范围,因为我们不需要每个单独的数据点,然后我们必须动态地即时汇总这些图表和图形。

到目前为止,我的研究只建议将 ETL 用于数据的 1 对 1 转换,而不是 1000 对 1。似乎 ETL 更多地用于将数据转换为适当的结构以存储在数据库中,而不是用于聚合在大型数据集上。

我可以使用 ETL 来解决我的聚合需求吗?这将是非常大规模的,通过 AWS 和 Python.

实施

ETL中的'T'代表'Transform',聚合是最常见的聚合之一。简而言之:是的,ETL 可以为您做到这一点。剩下的就看具体需求了。您需要深入了解吗?也许增加缩放分辨率?这会影响整个设计,但一般来说,为表示层准备数据正是 ETL 的用途。