Druid - 流式数据摄取 - 连续聚合
Druid - Streaming Data Ingestion - Continuous Aggregations
我正在考虑使用 Druid 进行聚合。我的用例是我想将数据流式传输到 Druid(在同一天将 segmentGranularity 设置为 DAY)并且在摄取期间我想聚合数据。
我的问题是,当我们发送第一个数据流时,数据会汇总并计算聚合并写入 Druid。现在,当我向德鲁伊发送另一个数据流(与已经汇总的数据相关)时,德鲁伊如何处理它。
druid 是更新聚合数据还是将此数据附加到现有聚合数据?
Druid 处理两种类型的摄取 - 流式摄取和批处理文件摄取。对于流式摄取,它是通过 Tranquality 服务器或连接到 kafka 的 Firehose(推与拉)完成的。 -
For streaming data the rollup aggregation are appended to the
previous data.
对于批量摄取 - Druid 在给定的时间范围或段内重新摄取全部数据。
对于您的用例(每天),如果您没有重复数据问题(即相同的数据流可能会再次出现),您可以进行流式摄取,否则最好是在指定的时间间隔完成批量摄取,例如.每小时。
感谢您发表评论。我能够让德鲁伊处理流式摄取和聚合。
我发现当再次流式传输数据时,数据聚合正在更新。
谢谢
我正在考虑使用 Druid 进行聚合。我的用例是我想将数据流式传输到 Druid(在同一天将 segmentGranularity 设置为 DAY)并且在摄取期间我想聚合数据。
我的问题是,当我们发送第一个数据流时,数据会汇总并计算聚合并写入 Druid。现在,当我向德鲁伊发送另一个数据流(与已经汇总的数据相关)时,德鲁伊如何处理它。
druid 是更新聚合数据还是将此数据附加到现有聚合数据?
Druid 处理两种类型的摄取 - 流式摄取和批处理文件摄取。对于流式摄取,它是通过 Tranquality 服务器或连接到 kafka 的 Firehose(推与拉)完成的。 -
For streaming data the rollup aggregation are appended to the previous data.
对于批量摄取 - Druid 在给定的时间范围或段内重新摄取全部数据。
对于您的用例(每天),如果您没有重复数据问题(即相同的数据流可能会再次出现),您可以进行流式摄取,否则最好是在指定的时间间隔完成批量摄取,例如.每小时。
感谢您发表评论。我能够让德鲁伊处理流式摄取和聚合。
我发现当再次流式传输数据时,数据聚合正在更新。
谢谢