Prometheus (node_exporter) 从 GKE 1.15 更新到 1.16 时出现问题

Prometheus (node_exporter) issue when update from GKE 1.15 to 1.16

我已经在 Google GKE 中的 Kubernetes 上使用 Prometheus 和 Grafana 应用程序好几个月了。比如在Grafana上我曾经监控过container_cpu_usage_seconds_total.

但是自从我将 GKE 节点从 1.15 升级到 1.16 后，我丢失了 container_* 信息。

为了测试它，我创建了一个 1.15 版本的新集群。我从 Google Marketeplace 安装了 Prometheus，并逐步升级了 GKE，直到出现问题。同样，container_* 监控在版本 1.16 时停止。

Here you can see container_cpu_usage_seconds_total and it stopped when I upgrade the node. There are 3 nodes

只有我有这个问题吗？有人找到解决办法了吗？

感谢您的帮助:)

瓦伦丁

我发现出了什么问题。对于 docker 或 kubernetes，node-exporter 不要发送 pods 指标 ( container_* )。必须安装 Cadvisor（在 Google Marketeplace 中，Cadvisor 安装在 node-exporter 映像中）从 Kubernetes 1.16 开始，Cadvisor 的配置是错误的。您应该编辑配置以解决问题

所有信息都在这个 post : Prometheus not receiving metrics from cadvisor in GKE

Prometheus (node_exporter) 从 GKE 1.15 更新到 1.16 时出现问题

Prometheus (node_exporter) issue when update from GKE 1.15 to 1.16

kubernetes

google-kubernetes-engine

prometheus-node-exporter