指标每分钟递增的普罗米修斯警报规则

Question

我有一个跟踪错误计数的指标。我想要一个规则，其中当错误计数增加并且在过去 5 分钟内每分钟 > 100 时发出警报。

 rules:
      - alert: Error count greater than threshold     
        expr: error_count > 100
        for: 5m

上面的警报只检查错误计数是否 > 100 持续 5 分钟，但我想检查错误计数是否每分钟增加 100。可以查吗？

Answer 1

如果你想在最后一分钟看到 5，你必须像这样在 5 分钟内使用平均值

avg_over_time(error_count[5m])

如果您想在警报响应（集成）中看到您的价值，您必须像这样将价值添加到标签中

        expr: error_count > 100
        for: 5m
        labels:
          severity : critical
          value : "{{ $value }}"

Prometheus alert rule for metric incrementing every minute