在德鲁伊查询中使用 Javascript 聚合
Using Javascript aggregation in druid queries
我正在尝试为我的德鲁伊查询编写 javascript 聚合器。我需要计算指标的平均值 "Base_SalesRank".
到目前为止,我已经能够通过写作来做到这一点:
{
"queryType": "groupBy",
"dataSource": "marketdata",
"granularity": "all",
"dimensions" : ["Item"],
"filter": { "type": "and", "fields" : [{"type": "selector", "dimension": "Item", "value": "MN10CESWW"}]},
"intervals": ["2018-06-28T00:00Z/2018-07-04T00:00Z"],
"aggregations" : [
{ "type" : "count", "name" : "rows" },
{ "type" : "doubleSum", "name" : "Base_SalesRank", "fieldName" : "Base_SalesRank" }
],
"postAggregations" : [{
"type": "javascript",
"name": "Target DOS Average",
"fieldNames": ["Base_SalesRank", "rows"],
"function": "function(Base_SalesRank, rows) {return Base_SalesRank/ rows;}"
}]
}
但我注意到 Base_SalesRank 中的许多值都是 0。
[ {
"timestamp" : "2018-06-28T05:06:03.000Z",
"result" : {
"pagingIdentifiers" : {
"marketdata_2018-06-28T00:00:00.000Z_2018-06-29T00:00:00.000Z_2018-07-06T08:11:02.499Z" : 3
},
"dimensions" : [ "Item" ],
"metrics" : [ "Base_SalesRank" ],
"events" : [ {
"segmentId" : "marketdata_2018-06-28T00:00:00.000Z_2018-06-29T00:00:00.000Z_2018-07-06T08:11:02.499Z",
"offset" : 0,
"event" : {
"timestamp" : "2018-06-28T07:10:02.000Z",
"Item" : "MN10CESWW",
"Base_SalesRank" : 0
}
},
{
"segmentId" : "marketdata_2018-06-28T00:00:00.000Z_2018-06-29T00:00:00.000Z_2018-07-06T08:11:02.499Z",
"offset" : 3,
"event" : {
"timestamp" : "2018-06-28T07:20:21.000Z",
"Item" : "MN10CESWW",
"Base_SalesRank" : 5558
}
} ]
}
} ]
所以我没有得到真正的平均值。现在我需要清除这些 0 值,然后计算平均值。我们可以通过使用过滤器来做到这一点
{"type": "not", "field": {"type": "selector", "dimension": "Base_SalesRank", "value": "0"}}
但我有限制,我必须只在 javascript 函数内执行此过滤操作。
您只需添加一个 having 查询即可实现同样的效果 -
"having": {
"type": "greaterThan",
"aggregation": "Base_SalesRank",
"value": 0
}
如果你想在 javascript 函数中做同样的事情,可以按如下方式完成 -
- 您应该添加一个维度 (key/value) 在预摄取 json 数据期间将 "isValid" 说成“0”或“1”,如果 Base_SalesRank 是0 比 "isValid" 将是 0 否则 1.
在您的查询中对此字段应用过滤器。
使用 post 聚合中的行。
我正在尝试为我的德鲁伊查询编写 javascript 聚合器。我需要计算指标的平均值 "Base_SalesRank".
到目前为止,我已经能够通过写作来做到这一点:
{
"queryType": "groupBy",
"dataSource": "marketdata",
"granularity": "all",
"dimensions" : ["Item"],
"filter": { "type": "and", "fields" : [{"type": "selector", "dimension": "Item", "value": "MN10CESWW"}]},
"intervals": ["2018-06-28T00:00Z/2018-07-04T00:00Z"],
"aggregations" : [
{ "type" : "count", "name" : "rows" },
{ "type" : "doubleSum", "name" : "Base_SalesRank", "fieldName" : "Base_SalesRank" }
],
"postAggregations" : [{
"type": "javascript",
"name": "Target DOS Average",
"fieldNames": ["Base_SalesRank", "rows"],
"function": "function(Base_SalesRank, rows) {return Base_SalesRank/ rows;}"
}]
}
但我注意到 Base_SalesRank 中的许多值都是 0。
[ {
"timestamp" : "2018-06-28T05:06:03.000Z",
"result" : {
"pagingIdentifiers" : {
"marketdata_2018-06-28T00:00:00.000Z_2018-06-29T00:00:00.000Z_2018-07-06T08:11:02.499Z" : 3
},
"dimensions" : [ "Item" ],
"metrics" : [ "Base_SalesRank" ],
"events" : [ {
"segmentId" : "marketdata_2018-06-28T00:00:00.000Z_2018-06-29T00:00:00.000Z_2018-07-06T08:11:02.499Z",
"offset" : 0,
"event" : {
"timestamp" : "2018-06-28T07:10:02.000Z",
"Item" : "MN10CESWW",
"Base_SalesRank" : 0
}
},
{
"segmentId" : "marketdata_2018-06-28T00:00:00.000Z_2018-06-29T00:00:00.000Z_2018-07-06T08:11:02.499Z",
"offset" : 3,
"event" : {
"timestamp" : "2018-06-28T07:20:21.000Z",
"Item" : "MN10CESWW",
"Base_SalesRank" : 5558
}
} ]
}
} ]
所以我没有得到真正的平均值。现在我需要清除这些 0 值,然后计算平均值。我们可以通过使用过滤器来做到这一点
{"type": "not", "field": {"type": "selector", "dimension": "Base_SalesRank", "value": "0"}}
但我有限制,我必须只在 javascript 函数内执行此过滤操作。
您只需添加一个 having 查询即可实现同样的效果 -
"having": {
"type": "greaterThan",
"aggregation": "Base_SalesRank",
"value": 0
}
如果你想在 javascript 函数中做同样的事情,可以按如下方式完成 -
- 您应该添加一个维度 (key/value) 在预摄取 json 数据期间将 "isValid" 说成“0”或“1”,如果 Base_SalesRank 是0 比 "isValid" 将是 0 否则 1.
在您的查询中对此字段应用过滤器。
使用 post 聚合中的行。