Druid - 流式数据摄取 - 连续聚合

Druid - Streaming Data Ingestion - Continuous Aggregations

我正在考虑使用 Druid 进行聚合。我的用例是我想将数据流式传输到 Druid(在同一天将 segmentGranularity 设置为 DAY)并且在摄取期间我想聚合数据。

我的问题是,当我们发送第一个数据流时,数据会汇总并计算聚合并写入 Druid。现在,当我向德鲁伊发送另一个数据流(与已经汇总的数据相关)时,德鲁伊如何处理它。

druid 是更新聚合数据还是将此数据附加到现有聚合数据?

Druid 处理两种类型的摄取 - 流式摄取和批处理文件摄取。对于流式摄取,它是通过 Tranquality 服务器或连接到 kafka 的 Firehose(推与拉)完成的。 -

For streaming data the rollup aggregation are appended to the previous data.

对于批量摄取 - Druid 在给定的时间范围或段内重新摄取全部数据。

对于您的用例(每天),如果您没有重复数据问题(即相同的数据流可能会再次出现),您可以进行流式摄取,否则最好是在指定的时间间隔完成批量摄取,例如.每小时。

感谢您发表评论。我能够让德鲁伊处理流式摄取和聚合。

我发现当再次流式传输数据时,数据聚合正在更新。

谢谢