警报管理器警报规则未正常运行
Alert Manager Alert rules are not functioning properly
我有一个关于警报管理器警报规则的快速问题,我有 500 个物联网设备连接到服务器并且正在使用普罗米修斯监控这些设备,我以这种方式配置警报规则以便在任何时候获得警报设备离线。到目前为止一切都很好,但是,当多个设备在不同时间离线时,警报管理器会发送当前离线的所有玩家的警报,而不是在特定时间显示特定玩家的警报。
ALERT IoT_online
IF IoT_online == 0
LABELS {severity="critical"}
ANNOTATIONS {description="This device is offline {{ $value }}.", summary="Instance {{ $labels.instance }} IoT device is offline"}
我想以这样的方式配置警报,即警报管理器应该只在特定时间发送特定设备警报的警报,而不是每次设备离线时发送所有离线设备的警报。谁能帮帮我?
提前致谢
这更像是一个 alertmanager 问题。
当警报组发送通知时,它将包括当前处于活动状态的每个警报,包括已经触发一段时间的警报。
您可以通过向 group_by
添加标签将警报组分成更小的组,但是这会增加您收到的通知量,并有可能向您发送垃圾邮件。
您还可以使用 group_interval
.
限制由于组更改而发送警报的频率
我有一个关于警报管理器警报规则的快速问题,我有 500 个物联网设备连接到服务器并且正在使用普罗米修斯监控这些设备,我以这种方式配置警报规则以便在任何时候获得警报设备离线。到目前为止一切都很好,但是,当多个设备在不同时间离线时,警报管理器会发送当前离线的所有玩家的警报,而不是在特定时间显示特定玩家的警报。
ALERT IoT_online
IF IoT_online == 0
LABELS {severity="critical"}
ANNOTATIONS {description="This device is offline {{ $value }}.", summary="Instance {{ $labels.instance }} IoT device is offline"}
我想以这样的方式配置警报,即警报管理器应该只在特定时间发送特定设备警报的警报,而不是每次设备离线时发送所有离线设备的警报。谁能帮帮我?
提前致谢
这更像是一个 alertmanager 问题。
当警报组发送通知时,它将包括当前处于活动状态的每个警报,包括已经触发一段时间的警报。
您可以通过向 group_by
添加标签将警报组分成更小的组,但是这会增加您收到的通知量,并有可能向您发送垃圾邮件。
您还可以使用 group_interval
.