我可以将时间序列数据存储在数据仓库中吗?

Can I store time series data in data warehouse?

背景:

我有一个 Airflow 作业,每 10 分钟从第三方端点收集一次数据(过去 24 小时的行业市场份额)。我目前将数据存储在 S3 中。我们想使用这些数据来计算我们的市场份额。我计划将数据作为独立的时间序列 table(不是维度或事实)保存在数据仓库中,以便在查询中将其与我们的数据(存储在星型模式中)进行比较以获得每日市场份额。

问题:

数据仓库是存储时序数据的合适场所吗?我们可以像这样存储独立的 tables 吗? table 是否需要成为星型模式的一部分才能将其保存在数据仓库中?

Snowflake存储时间序列数据没有限制,数据不需要存储在星型模式中。 您必须考虑如何加载这些数据,这取决于您希望以多快的速度在数据仓库中看到它。 您可以使用 Snowpipe 功能并即时加载数据。

演示文稿:Snowpipe: Load data fast, analyze even faster

文档:Introduction to Snowpipe

或者,使用 STREAM 和 TASK 功能以指定的时间间隔加载数据。设置例如如果 STREAM 在 AWS S3 上检测到任何新数据,则每 10 分钟执行一次循环任务并下载数据。

演示文稿:Randy Pitcher Streams & Tasks Hands on Lab

文档:Introduction to TasksCREATE STREAM

按时间序列,您指的是表示为 JSON?

的实时/近实时数据

是的,半结构化数据可以存储在 Variant 数据类型中,并且很容易就地查询或具体化为与 variant 数据类型 table 相同的结构化列