在 OOM 之后,我如何检测导致它的 pod?

After an OOM how can I detect the pod that caused it?

我在集群上遇到了一些问题 运行 一些 pods,我想知道在抛出异常后检测哪个 pod(和 rc)在我的节点上导致 OOM 的方法。我无法访问该节点来检查日志,kubectl describe node 没有给我太多相关信息。

谢谢:)

你试过运行 kubectl get events --watch 监控 k8s 上的事件并监控 pod 以及 kubectl logs -f podname

我发现跟踪正在发生的事情的唯一方法是在 Web 上抛出 OOM 之前等待 UI link 并跟踪 pod 的内存使用情况(我有一个 1.75 GB 的节点和一个消耗 1.3GB 的 pod)。我试图用 kubectl describe node [nodename] 查看内存分配,但我看不到。