应用程序未通过 Marathon 健康检查的警报

Alerts for apps failing Marathon healthchecks

我一直在为我在 marathon 中的所有应用程序配置 http healthchecks,这些应用程序运行良好,问题是 marathon 将继续介入并重新启动容器,但它的健康检查失败,除非我碰巧正在寻找,否则我不知道在马拉松 UI.

有没有办法检索所有健康检查失败的应用程序,以便我可以发送电子邮件警报或类似信息?

Marathon 使用 event bus 公开有关失败的健康检查的信息,因此您可以编写一个简单的服务来使用 Marathons HealthChecks 事件 ("eventType": "instance_health_changed_event") 并将其转换为指标,提醒您命名。

作为参考,我可以推荐 allegro/appcop。这是缩减不健康应用程序的服务。它的代码可以很容易地改变来做你想做的事。