警报优先级 - 100% 离线生产主机与环境警报(100% 的 cab 硬件过热)

Alert Prioritization - 100% Offline Production Host vs Environment Alert (100% of cab Hardware Overheating)

在标题中列出的两个警报中,您会优先修复哪个?

我认为环境警报更为重要,因为物理硬件的损失可能比暂时停止生产更具破坏性。生产主机 100% 离线也是一个主要问题。

我猜我很难确定这两个系统在大规模系统中每分钟的损失值。

如果两个警报都针对相同的环境,那么 "Production Down" 似乎是 "Hardware Overheating" 的结果。

因此,后者可能是需要首先解决的根本原因。

从逻辑上讲,如果硬件过热,运行 生产就没有任何余地了。除非您准备好异地 DR 系统。在这种情况下,不同的人可以同时对警报采取行动。也就是说,可能有一个团队负责生产正常运行时间,他们将更多地关注第一个警报,另一个负责硬件的团队将专注于第二个警报。因此,让最终用户可以配置优先级可能是值得的。