Shinken主机监控立即进入Hard状态

Question

在我的基础架构中，我有服务器，它们会定期执行一些繁重的工作。假设每 10 分钟 cpu 利用率为 100%，并且持续时间不超过 5 分钟。如果服务器在此状态下工作时间超过15分钟，那么我希望得到通知，否则短时间内的峰值利用率是正常的。

因此，我在 $SHINKEN_ETC/packs/company_packs/template.cfg 中创建了一个特殊的主机 class，如下所示：

(...)
define host {
        name                            linux_1min_15tries_every1min
        use                             linux
        max_check_attempts              15
        check_interval                  1
        retry_interval                  1
        flap_detection_enabled          0
        register                        0
}
(...)

然后我在 $SHINKEN_ETC/hosts/company_hosts.cfg 中这样使用它：

(...)
define host{
        use                     linux_1min_15tries_every1min
        contact_groups          admins
        host_name               serv1
        address                 10.10.16.1
        }
(...)

与此同时，每次使用高峰时，主机都会在 Shinken 中进入 CRITICAL 状态。看起来它在第一次检查后达到了 HARD 状态。此外，计数器永远不会上升。它始终保持在 1/15 等级。有什么解决办法吗？

Shinken 版本为 1.4.2

Answer 1

好的，所以我的问题是我修改了主机检查，它基本上是 ping，但没有修改服务检查，这是 cpu 和内存监控的处理方式。这样做之后一切都按预期工作。

Shinken主机监控立即进入Hard状态

Shinken host monitoring immediately goes into Hard state

monitoring

nagios