使用 Prometheus 监控 OOM

monitoring OOM with Prometheus

我想利用 Prometheus 来监控 Debian / Ubuntu 上系统 OOM 杀手的出现。特殊情况是,有时 Redis 由于 OOM 而被杀死,并且由于发生得太快而没有触发已经存在的可用内存不足警报。但我想让解决方案尽可能智能和通用,并且不想花太多时间在上面,所以让我们不要专注于 Redis 本身。目前我的想法:

想征求一下大家的建议和意见。谢谢!

节点导出器的 node_vmstat_oom_kill 指标会告诉您这一点。