在德鲁伊查询中使用 Javascript 聚合

Using Javascript aggregation in druid queries

我正在尝试为我的德鲁伊查询编写 javascript 聚合器。我需要计算指标的平均值 "Base_SalesRank".
到目前为止,我已经能够通过写作来做到这一点:

 {
   "queryType": "groupBy",
   "dataSource": "marketdata",
   "granularity": "all",

   "dimensions" : ["Item"],
   "filter": { "type": "and", "fields" : [{"type": "selector", "dimension": "Item", "value": "MN10CESWW"}]},
   "intervals": ["2018-06-28T00:00Z/2018-07-04T00:00Z"],
  "aggregations" : [
    { "type" : "count", "name" : "rows" },
    { "type" : "doubleSum", "name" : "Base_SalesRank", "fieldName" : "Base_SalesRank" }
  ],
  "postAggregations" : [{
   "type": "javascript",
  "name": "Target DOS Average",
  "fieldNames": ["Base_SalesRank", "rows"],
    "function": "function(Base_SalesRank, rows) {return Base_SalesRank/ rows;}" 
  }]
}

但我注意到 Base_SalesRank 中的许多值都是 0。

[ { 
  "timestamp" : "2018-06-28T05:06:03.000Z",
  "result" : {
    "pagingIdentifiers" : {
      "marketdata_2018-06-28T00:00:00.000Z_2018-06-29T00:00:00.000Z_2018-07-06T08:11:02.499Z" : 3
    },
    "dimensions" : [ "Item" ],
    "metrics" : [ "Base_SalesRank" ],
    "events" : [ {
      "segmentId" : "marketdata_2018-06-28T00:00:00.000Z_2018-06-29T00:00:00.000Z_2018-07-06T08:11:02.499Z",
      "offset" : 0,
      "event" : {
        "timestamp" : "2018-06-28T07:10:02.000Z",
        "Item" : "MN10CESWW",
        "Base_SalesRank" : 0
      }
    },
 {
      "segmentId" : "marketdata_2018-06-28T00:00:00.000Z_2018-06-29T00:00:00.000Z_2018-07-06T08:11:02.499Z",
      "offset" : 3,
      "event" : {
        "timestamp" : "2018-06-28T07:20:21.000Z",
        "Item" : "MN10CESWW",
        "Base_SalesRank" : 5558
      }
    } ]
  }
} ]

所以我没有得到真正的平均值。现在我需要清除这些 0 值,然后计算平均值。我们可以通过使用过滤器来做到这一点

{"type": "not", "field": {"type": "selector", "dimension": "Base_SalesRank", "value": "0"}}

但我有限制,我必须只在 javascript 函数内执行此过滤操作。

您只需添加一个 having 查询即可实现同样的效果 -

"having": {
    "type": "greaterThan",
    "aggregation": "Base_SalesRank",
    "value": 0
  }

如果你想在 javascript 函数中做同样的事情,可以按如下方式完成 -

  1. 您应该添加一个维度 (key/value) 在预摄取 json 数据期间将 "isValid" 说成“0”或“1”,如果 Base_SalesRank 是0 比 "isValid" 将是 0 否则 1.
  2. 在您的查询中对此字段应用过滤器。

  3. 使用 post 聚合中的行。