spring 批处理:如果作业在最后 xx 分钟内失败,则使用 grafana 和 prometheus 发出警报

spring batch: alert with grafana & prometheus if a job failed in the last xx minutes

我正在使用 spring 批处理 (4.2.2.RELEASE) 和 spring 执行器 (2.2.6 RELEASE)。从 4.2 版本开始,spring batch 提供了对基于 micrometer (https://docs.spring.io/spring-batch/docs/4.2.x/reference/html/monitoring-and-metrics.html) 的批量监控和指标的支持。

例如,我可以通过指标名称 spring_batch_job 查看作业的执行频率、状态和持续时间。

我想用 grafana 和 prometheus 监控这个指标,如果作业在最后 xx 分钟内失败,我会发出警报。

如果 spring 批处理应用程序作为服务运行,它似乎会汇总所有指标,直到服务停止。例如,如果某个作业在过去一小时内启动了 12 次,则指标输出可能如下所示:

spring_batch_job_seconds_count{name="mainJob",status="COMPLETED",} 10.0
spring_batch_job_seconds_sum{name="mainJob",status="COMPLETED",} 354.354538083
spring_batch_job_seconds_count{name="mainJob",status="FAILED",} 2.0
spring_batch_job_seconds_sum{name="mainJob",status="FAILED",} 0.880157862

所以 mainJob 的两个实例失败了。假设在接下来的一个小时内所有 12 个作业都将成功,指标输出将是:

spring_batch_job_seconds_count{name="mainJob",status="COMPLETED",} 22.0
spring_batch_job_seconds_sum{name="mainJob",status="COMPLETED",} 708.704538083
spring_batch_job_seconds_count{name="mainJob",status="FAILED",} 2.0
spring_batch_job_seconds_sum{name="mainJob",status="FAILED",} 0.880157862

我如何检查作业是否在最后 xx 分钟内失败?因为以下表达式仍然 return 两个失败的作业实例:spring_batch_job_seconds_count{status="FAILED"}[15m]

我不熟悉 Prometheus QL,但我会尽力提供帮助。

你可以做的是计算这个计数器在最后一个小时和之前一个小时之间的差异。如果您发现失败实例的数量有所增加,那么至少有一个实例失败了,您可以发出警报。否则,前一小时没有作业失败。

Prometheus 提供了专门为此设计的 increase 功能。因此,您应该能够在以下情况下回答您的问题并发出警报:

increase(spring_batch_job_seconds_count{name="mainJob",status="FAILED"}[15m]) > 0

正如我所说,我不是 Prometheus 的专家,所以我会让你检查语法。但这就是想法。