Prometheus (node_exporter) 从 GKE 1.15 更新到 1.16 时出现问题
Prometheus (node_exporter) issue when update from GKE 1.15 to 1.16
我已经在 Google GKE 中的 Kubernetes 上使用 Prometheus 和 Grafana 应用程序好几个月了。比如在Grafana上我曾经监控过container_cpu_usage_seconds_total
.
但是自从我将 GKE 节点从 1.15 升级到 1.16 后,我丢失了 container_*
信息。
为了测试它,我创建了一个 1.15 版本的新集群。我从 Google Marketeplace 安装了 Prometheus,并逐步升级了 GKE,直到出现问题。同样,container_*
监控在版本 1.16 时停止。
Here you can see container_cpu_usage_seconds_total
and it stopped when I upgrade the node. There are 3 nodes
只有我有这个问题吗?有人找到解决办法了吗?
感谢您的帮助:)
瓦伦丁
我发现出了什么问题。
对于 docker 或 kubernetes,node-exporter 不要发送 pods 指标 ( container_*
)。
必须安装 Cadvisor(在 Google Marketeplace 中,Cadvisor 安装在 node-exporter 映像中)
从 Kubernetes 1.16 开始,Cadvisor 的配置是错误的。您应该编辑配置以解决问题
所有信息都在这个 post : Prometheus not receiving metrics from cadvisor in GKE
我已经在 Google GKE 中的 Kubernetes 上使用 Prometheus 和 Grafana 应用程序好几个月了。比如在Grafana上我曾经监控过container_cpu_usage_seconds_total
.
但是自从我将 GKE 节点从 1.15 升级到 1.16 后,我丢失了 container_*
信息。
为了测试它,我创建了一个 1.15 版本的新集群。我从 Google Marketeplace 安装了 Prometheus,并逐步升级了 GKE,直到出现问题。同样,container_*
监控在版本 1.16 时停止。
Here you can see container_cpu_usage_seconds_total
and it stopped when I upgrade the node. There are 3 nodes
只有我有这个问题吗?有人找到解决办法了吗?
感谢您的帮助:)
瓦伦丁
我发现出了什么问题。
对于 docker 或 kubernetes,node-exporter 不要发送 pods 指标 ( container_*
)。
必须安装 Cadvisor(在 Google Marketeplace 中,Cadvisor 安装在 node-exporter 映像中)
从 Kubernetes 1.16 开始,Cadvisor 的配置是错误的。您应该编辑配置以解决问题
所有信息都在这个 post : Prometheus not receiving metrics from cadvisor in GKE