Shinken主机监控立即进入Hard状态
Shinken host monitoring immediately goes into Hard state
在我的基础架构中,我有服务器,它们会定期执行一些繁重的工作。假设每 10 分钟 cpu 利用率为 100%,并且持续时间不超过 5 分钟。如果服务器在此状态下工作时间超过15分钟,那么我希望得到通知,否则短时间内的峰值利用率是正常的。
因此,我在 $SHINKEN_ETC/packs/company_packs/template.cfg
中创建了一个特殊的主机 class,如下所示:
(...)
define host {
name linux_1min_15tries_every1min
use linux
max_check_attempts 15
check_interval 1
retry_interval 1
flap_detection_enabled 0
register 0
}
(...)
然后我在 $SHINKEN_ETC/hosts/company_hosts.cfg
中这样使用它:
(...)
define host{
use linux_1min_15tries_every1min
contact_groups admins
host_name serv1
address 10.10.16.1
}
(...)
与此同时,每次使用高峰时,主机都会在 Shinken 中进入 CRITICAL 状态。看起来它在第一次检查后达到了 HARD 状态。此外,计数器永远不会上升。它始终保持在 1/15 等级。有什么解决办法吗?
Shinken 版本为 1.4.2
好的,所以我的问题是我修改了主机检查,它基本上是 ping,但没有修改服务检查,这是 cpu 和内存监控的处理方式。这样做之后一切都按预期工作。
在我的基础架构中,我有服务器,它们会定期执行一些繁重的工作。假设每 10 分钟 cpu 利用率为 100%,并且持续时间不超过 5 分钟。如果服务器在此状态下工作时间超过15分钟,那么我希望得到通知,否则短时间内的峰值利用率是正常的。
因此,我在 $SHINKEN_ETC/packs/company_packs/template.cfg
中创建了一个特殊的主机 class,如下所示:
(...)
define host {
name linux_1min_15tries_every1min
use linux
max_check_attempts 15
check_interval 1
retry_interval 1
flap_detection_enabled 0
register 0
}
(...)
然后我在 $SHINKEN_ETC/hosts/company_hosts.cfg
中这样使用它:
(...)
define host{
use linux_1min_15tries_every1min
contact_groups admins
host_name serv1
address 10.10.16.1
}
(...)
与此同时,每次使用高峰时,主机都会在 Shinken 中进入 CRITICAL 状态。看起来它在第一次检查后达到了 HARD 状态。此外,计数器永远不会上升。它始终保持在 1/15 等级。有什么解决办法吗?
Shinken 版本为 1.4.2
好的,所以我的问题是我修改了主机检查,它基本上是 ping,但没有修改服务检查,这是 cpu 和内存监控的处理方式。这样做之后一切都按预期工作。