Prometheus 警报管理器 - CPU 高未警报
Prometheus Alert Manager - CPU high not alerting
我配置了 prometheus 警报管理器,但当我的其中一台服务器的 CPU 使用率达到 99% 时,他没有发出警报。
这是警报:
- alert: HostHighCpuLoad
expr: avg(irate(node_cpu_seconds_total{mode="idle"}[1m]) * 100) < 30
for: 1m
labels:
severity: warning
annotations:
summary: "High usage on {{ $labels.instance }}"
description: "{{ $labels.instance }} has a average CPU idle (current value: {{ $value }}s)"
它看起来像我的表达,取我所有服务器的全球平均值,但我需要为每个服务器监控此度量。
有人遇到过这个问题吗?
是的,它正在考虑所有实例的平均值。将表达式更改为:
avg by (instance) (irate(node_cpu_seconds_total{mode="idle"}[1m]) * 100) < 30
我配置了 prometheus 警报管理器,但当我的其中一台服务器的 CPU 使用率达到 99% 时,他没有发出警报。 这是警报:
- alert: HostHighCpuLoad
expr: avg(irate(node_cpu_seconds_total{mode="idle"}[1m]) * 100) < 30
for: 1m
labels:
severity: warning
annotations:
summary: "High usage on {{ $labels.instance }}"
description: "{{ $labels.instance }} has a average CPU idle (current value: {{ $value }}s)"
它看起来像我的表达,取我所有服务器的全球平均值,但我需要为每个服务器监控此度量。
有人遇到过这个问题吗?
是的,它正在考虑所有实例的平均值。将表达式更改为:
avg by (instance) (irate(node_cpu_seconds_total{mode="idle"}[1m]) * 100) < 30