时间序列中的差距使警报无法使用

gaps in time series renders alerting unusable

我正在尝试通过以下警报获得停止容器的通知:

alert: artifactory_down
expr: absent(container_memory_usage_bytes{name="artifactory"})
for: 1m
labels:
  severity: critical
annotations:
  description: Artifactory container is down for more than 60 seconds.
  summary: Artifactory down

不幸的是,时间序列中存在间隙,这会导致错误警报。容器仍然是运行。间隔在 1 到 5 分钟之间。

知道是什么导致了这个问题或如何进一步分析这个问题吗?

我猜您使用的是旧版本的 cAdvisor,请确保您的 运行 至少是 0.27.4 以修复我对标签一致性所做的修复。还要检查 cAdvisor 的刮擦是否通过 up 指标为 1.

成功