是否有来自 Kubernetes 集群的指示器可以指示该集群是否已升级或在 infra/distro/layout 中发生了变化？

Is there an indicator from a Kubernetes Cluster that can indicate whether that cluster has been upgraded or has had a change in infra/distro/layout?

kubernetes

我正在尝试从集群中找到某种信号，表明 Kubernetes 集群发生了某种变化。我正在寻找任何可能导致该集群上的软件运行出现问题的更改，例如 Kubernetes 版本更改、infra/distro/layout 更改等

我能够找到的唯一信号是节点重启，但这可能由于多种原因而发生 - 我正在尝试找到比这更强的信号。我最好也在寻找与平台无关的东西。

从纯 Kubernetes 的角度来看，我认为您能做的最好的事情就是监视节点事件（例如耗尽、重启等），然后检查节点的版本是否实际发生了变化。您还可以查看 Node 资源并检查版本是否也发生了变化。

具体对于 GKE，您实际上可以设置 cluster notifications 然后订阅 UpgradeEvent and/or UpgradeAvailableEvent。

我相信 AKS 最近可能也引入了对事件的支持，尽管我认为它目前只支持类似于 UpgradeAvailableEvent 的东西。

除了观看 Node 事件（查看完整的事件列表 here), you can use Kubernetes' Node Problem Detector for monitoring and reporting about a node's health (link）。

There are tons of node problems that could possibly affect the pods running on the node, such as:

Infrastructure daemon issues: ntp service down;

Hardware issues: Bad CPU, memory or disk;

Kernel issues: Kernel deadlock, corrupted file system;

Container runtime issues: Unresponsive runtime daemon;

Node-problem-detector 从各种守护进程收集节点问题，并使它们对上游层可见。

Node-problem-detector 支持多个导出器：

Kubernetes exporter 向 Kubernetes API 服务器报告节点问题：临时问题被报告为事件，永久性问题被报告为节点条件。
普罗米修斯出口商。
Stackdriver 监控API。

另一个选项是 Prometheus Node Exporter (link)。它公开了各种硬件和 kernel-related 指标（OS 发布信息、'uname' 系统调用 提供的系统信息、内存统计信息、磁盘IO统计、NFS统计等）。

检查所有现有收集器和支持系统的列表here。

是否有来自 Kubernetes 集群的指示器可以指示该集群是否已升级或在 infra/distro/layout 中发生了变化？

Is there an indicator from a Kubernetes Cluster that can indicate whether that cluster has been upgraded or has had a change in infra/distro/layout?

kubernetes