Druid - 流式数据摄取 - 连续聚合

Druid - Streaming Data Ingestion - Continuous Aggregations

我正在考虑使用 Druid 进行聚合。我的用例是我想将数据流式传输到 Druid（在同一天将 segmentGranularity 设置为 DAY）并且在摄取期间我想聚合数据。

我的问题是，当我们发送第一个数据流时，数据会汇总并计算聚合并写入 Druid。现在，当我向德鲁伊发送另一个数据流（与已经汇总的数据相关）时，德鲁伊如何处理它。

druid 是更新聚合数据还是将此数据附加到现有聚合数据？

Druid 处理两种类型的摄取 - 流式摄取和批处理文件摄取。对于流式摄取，它是通过 Tranquality 服务器或连接到 kafka 的 Firehose（推与拉）完成的。 -

For streaming data the rollup aggregation are appended to the previous data.

对于批量摄取 - Druid 在给定的时间范围或段内重新摄取全部数据。

对于您的用例（每天），如果您没有重复数据问题（即相同的数据流可能会再次出现），您可以进行流式摄取，否则最好是在指定的时间间隔完成批量摄取，例如.每小时。

感谢您发表评论。我能够让德鲁伊处理流式摄取和聚合。

我发现当再次流式传输数据时，数据聚合正在更新。

谢谢