可以加载最新的可用数据点并丢弃 Druid 中的其余数据点吗?
possible to load the latest available datapoint and discard the rest in Druid?
考虑 timestamp | compoundId | dimension 1 | dimension 2 | metric 1 | metric 2
形式的原始事件(德鲁伊语中的 alpha 集)
通常在Druid中数据可以根据一些规则加载到实时节点和历史节点中。这些规则似乎与时间范围有关。例如:
- 加载框 A 上最后一天的数据
- 将上周(除最后一天外)加载到框 B
- 将其余部分保留在深层存储中,但不要加载片段。
相比之下,我想支持以下用例:
- 为框 A 上的每个给定
compoundId
加载最后一个事件。无论最后一个事件是今天还是昨天加载的。
这可能吗?
或者,如果上述方法不可行,我认为创建一个 betaset(最精细的粒度级别如下)可能是一种解决方法:
给定一个具有上面定义的模式的 alphaset,创建一个 betaset 以便:
- 给定
compoundId
的所有事件都已汇总。
metric1
和 metric2
设置为最后一次发生(最大时间戳)事件的指标。
非常感谢任何建议。
我相信 first and last aggregators 就是您要找的。
考虑 timestamp | compoundId | dimension 1 | dimension 2 | metric 1 | metric 2
通常在Druid中数据可以根据一些规则加载到实时节点和历史节点中。这些规则似乎与时间范围有关。例如:
- 加载框 A 上最后一天的数据
- 将上周(除最后一天外)加载到框 B
- 将其余部分保留在深层存储中,但不要加载片段。
相比之下,我想支持以下用例:
- 为框 A 上的每个给定
compoundId
加载最后一个事件。无论最后一个事件是今天还是昨天加载的。
这可能吗?
或者,如果上述方法不可行,我认为创建一个 betaset(最精细的粒度级别如下)可能是一种解决方法:
给定一个具有上面定义的模式的 alphaset,创建一个 betaset 以便:
- 给定
compoundId
的所有事件都已汇总。 metric1
和metric2
设置为最后一次发生(最大时间戳)事件的指标。
非常感谢任何建议。
我相信 first and last aggregators 就是您要找的。