DataDog 中用于计算错误请求百分比和请求数量的指标

Metric in DataDog to count % of bad requests and number of requests

我们有一个 datadog 指标,用于测量成功 Web 请求的百分比,并在它超过阈值时提醒我们。这个指标的一个问题是周末晚上当我们没有太多请求时它会变得嘈杂,即使是一个错误也会使指标超过阈值。

现在的查询是这样的:

"query": "sum(last_30m):sum:q.inquiry{success:true}.as_count() / sum:q.inquiry.as_count() * 100 < 80"

计算成功的请求数与请求总数,如果超过 80% 则报告。

有没有办法做布尔运算来做类似的事情

above_query && sum(last_30m):sum:q.inquiry{success:false}.as_count() > 3

仅当错误请求的数量大于 3 时才会发出警报

创建一个 composite monitor 触发您的两个查询,一个是计数阈值,一个是百分比阈值。