指标每分钟递增的普罗米修斯警报规则

Prometheus alert rule for metric incrementing every minute

我有一个跟踪错误计数的指标。我想要一个规则,其中当错误计数增加并且在过去 5 分钟内每分钟 > 100 时发出警报。

 rules:
      - alert: Error count greater than threshold     
        expr: error_count > 100
        for: 5m

上面的警报只检查错误计数是否 > 100 持续 5 分钟,但我想检查错误计数是否每分钟增加 100。可以查吗?

如果你想在最后一分钟看到 5,你必须像这样在 5 分钟内使用平均值

avg_over_time(error_count[5m])

如果您想在警报响应(集成)中看到您的价值,您必须像这样将价值添加到标签中

        expr: error_count > 100
        for: 5m
        labels:
          severity : critical
          value : "{{ $value }}"