警报管理器警报规则未正常运行

Alert Manager Alert rules are not functioning properly

我有一个关于警报管理器警报规则的快速问题,我有 500 个物联网设备连接到服务器并且正在使用普罗米修斯监控这些设备,我以这种方式配置警报规则以便在任何时候获得警报设备离线。到目前为止一切都很好,但是,当多个设备在不同时间离线时,警报管理器会发送当前离线的所有玩家的警报,而不是在特定时间显示特定玩家的警报。

ALERT IoT_online
  IF IoT_online == 0
  LABELS {severity="critical"}
  ANNOTATIONS {description="This device is offline  {{ $value }}.", summary="Instance {{ $labels.instance }} IoT device is offline"}

我想以这样的方式配置警报,即警报管理器应该只在特定时间发送特定设备警报的警报,而不是每次设备离线时发送所有离线设备的警报。谁能帮帮我?

提前致谢

这更像是一个 alertmanager 问题。

当警报组发送通知时,它将包括当前处于活动状态的每个警报,包括已经触发一段时间的警报。

您可以通过向 group_by 添加标签将警报组分成更小的组,但是这会增加您收到的通知量,并有可能向您发送垃圾邮件。

您还可以使用 group_interval.

限制由于组更改而发送警报的频率