Shinken主机监控立即进入Hard状态

Shinken host monitoring immediately goes into Hard state

在我的基础架构中,我有服务器,它们会定期执行一些繁重的工作。假设每 10 分钟 cpu 利用率为 100%,并且持续时间不超过 5 分钟。如果服务器在此状态下工作时间超过15分钟,那么我希望得到通知,否则短时间内的峰值利用率是正常的。

因此,我在 $SHINKEN_ETC/packs/company_packs/template.cfg 中创建了一个特殊的主机 class,如下所示:

(...)
define host {
        name                            linux_1min_15tries_every1min
        use                             linux
        max_check_attempts              15
        check_interval                  1
        retry_interval                  1
        flap_detection_enabled          0
        register                        0
}
(...)

然后我在 $SHINKEN_ETC/hosts/company_hosts.cfg 中这样使用它:

(...)
define host{
        use                     linux_1min_15tries_every1min
        contact_groups          admins
        host_name               serv1
        address                 10.10.16.1
        }
(...)

与此同时,每次使用高峰时,主机都会在 Shinken 中进入 CRITICAL 状态。看起来它在第一次检查后达到了 HARD 状态。此外,计数器永远不会上升。它始终保持在 1/15 等级。有什么解决办法吗?

Shinken 版本为 1.4.2

好的,所以我的问题是我修改了主机检查,它基本上是 ping,但没有修改服务检查,这是 cpu 和内存监控的处理方式。这样做之后一切都按预期工作。