如何设置 GCP 云监控 (Stackdriver) 警报策略周期大于 24 小时?

How to set a GCP Cloud Monitoring (Stackdriver) alert policy period greater than 24 hours?

目前 24 小时是可以设置 Cloud Monitoring(以前的 Stackdriver)警报策略的时间限制。

但是,如果您有每日 activity,例如数据库备份,则每天可能会花费更多或更少的时间(例如 运行 in 1 hour 10min one day, 1 hour第二天 12 分钟)。在这种情况下,您可能要等到上一个指示器 24 小时 2 分钟后才能看到完成指示器。这将导致 Cloud Monitoring 发出警报(因为您超过警报 window 限制 +2 分钟)。

有没有办法更好地处理这些警报中的差异,例如 25 小时回顾期?

目前无法将周期时间增加到 24 小时以上。

但是,已经为此打开了一个功能请求。

你可以在这个publiclink[1]中关注它。

干杯,


[1] https://issuetracker.google.com/175703606

我找到了解决此问题的方法。

  1. 创建工作开始时间的指标(例如 started_metric
  2. 创建作业完成时间的指标(例如 completed_metric

现在创建一个由两部分组成的警报策略

  1. 要求每 24 小时 started_metric 发生一次
  2. 要求 completed_metric 每 24 小时发生一次
  3. 如果满足上述 (1) 和 (2) 则触发(例如均 > 24 小时)

这解决了 24 小时作业抖动问题,因为作业可能需要 > 24 小时才能完成,但它应该始终在 24 小时内启动(例如 cron 作业)。