当进程使用过多时,prometheus 中带有警报规则的进程导出器 CPU
process-exporter with alert rules in prometheus when process using too much CPU
我正在使用进程导出器来监视进程,然后在进程使用过多时发出警报CPU。
这是我的监视器 CPU 普罗米修斯仪表板中的代码
sum(rate(namedprocess_namegroup_cpu_seconds_total{groupname=~"$processes",instance="$host", mode=~"system|user"}[20s])) by (groupname, instance)
我已经尝试用这个编写警报(先测试 10% CPU)
- name: process
rules:
- alert: CPUProcess
expr: sum(rate(namedprocess_namegroup_cpu_seconds_total[20s])) by (groupname, instance) > 10
for: 1m
labels:
severity: critical
annotations:
summary: "(instance {{ $labels.instance }}) use too much CPU"
description: "Process (instance {{ $labels.groupname }}) use high CPU"
但是好像不行(另外一个alert可以正常工作),能否给个建议,谢谢。
已更改为 namedprocess_namegroup_cpu_seconds_total{groupname=~".+", mode=~"system"} > 10
我正在使用进程导出器来监视进程,然后在进程使用过多时发出警报CPU。
这是我的监视器 CPU 普罗米修斯仪表板中的代码
sum(rate(namedprocess_namegroup_cpu_seconds_total{groupname=~"$processes",instance="$host", mode=~"system|user"}[20s])) by (groupname, instance)
我已经尝试用这个编写警报(先测试 10% CPU)
- name: process
rules:
- alert: CPUProcess
expr: sum(rate(namedprocess_namegroup_cpu_seconds_total[20s])) by (groupname, instance) > 10
for: 1m
labels:
severity: critical
annotations:
summary: "(instance {{ $labels.instance }}) use too much CPU"
description: "Process (instance {{ $labels.groupname }}) use high CPU"
但是好像不行(另外一个alert可以正常工作),能否给个建议,谢谢。
已更改为 namedprocess_namegroup_cpu_seconds_total{groupname=~".+", mode=~"system"} > 10