是否有来自 Kubernetes 集群的指示器可以指示该集群是否已升级或在 infra/distro/layout 中发生了变化?
Is there an indicator from a Kubernetes Cluster that can indicate whether that cluster has been upgraded or has had a change in infra/distro/layout?
我正在尝试从集群中找到某种信号,表明 Kubernetes 集群发生了某种变化。我正在寻找任何可能导致该集群上的软件 运行 出现问题的更改,例如 Kubernetes 版本更改、infra/distro/layout 更改等
我能够找到的唯一信号是节点重启,但这可能由于多种原因而发生 - 我正在尝试找到比这更强的信号。我最好也在寻找与平台无关的东西。
从纯 Kubernetes 的角度来看,我认为您能做的最好的事情就是监视节点事件(例如耗尽、重启等),然后检查节点的版本是否实际发生了变化。您还可以查看 Node 资源并检查版本是否也发生了变化。
具体对于 GKE,您实际上可以设置 cluster notifications 然后订阅 UpgradeEvent and/or UpgradeAvailableEvent。
我相信 AKS 最近可能也引入了对事件的支持,尽管我认为它目前只支持类似于 UpgradeAvailableEvent 的东西。
除了观看 Node 事件(查看完整的事件列表 here), you can use Kubernetes' Node Problem Detector for monitoring and reporting about a node's health (link)。
There are tons of node problems that could possibly affect the pods running on the node, such as:
- Infrastructure daemon issues: ntp service down;
- Hardware issues: Bad CPU, memory or disk;
- Kernel issues: Kernel deadlock, corrupted file system;
- Container runtime issues: Unresponsive runtime daemon;
Node-problem-detector 从各种守护进程收集节点问题,并使它们对上游层可见。
Node-problem-detector 支持多个导出器:
- Kubernetes exporter 向 Kubernetes API 服务器报告节点问题:临时问题被报告为事件,永久性问题被报告为节点条件。
- 普罗米修斯出口商。
- Stackdriver 监控API。
另一个选项是 Prometheus Node Exporter (link)。它公开了各种硬件和 kernel-related 指标(OS 发布信息、'uname' 系统调用 提供的系统信息、内存统计信息、磁盘IO统计、NFS统计等)。
检查所有现有收集器和支持系统的列表here。
我正在尝试从集群中找到某种信号,表明 Kubernetes 集群发生了某种变化。我正在寻找任何可能导致该集群上的软件 运行 出现问题的更改,例如 Kubernetes 版本更改、infra/distro/layout 更改等
我能够找到的唯一信号是节点重启,但这可能由于多种原因而发生 - 我正在尝试找到比这更强的信号。我最好也在寻找与平台无关的东西。
从纯 Kubernetes 的角度来看,我认为您能做的最好的事情就是监视节点事件(例如耗尽、重启等),然后检查节点的版本是否实际发生了变化。您还可以查看 Node 资源并检查版本是否也发生了变化。
具体对于 GKE,您实际上可以设置 cluster notifications 然后订阅 UpgradeEvent and/or UpgradeAvailableEvent。
我相信 AKS 最近可能也引入了对事件的支持,尽管我认为它目前只支持类似于 UpgradeAvailableEvent 的东西。
除了观看 Node 事件(查看完整的事件列表 here), you can use Kubernetes' Node Problem Detector for monitoring and reporting about a node's health (link)。
There are tons of node problems that could possibly affect the pods running on the node, such as:
- Infrastructure daemon issues: ntp service down;
- Hardware issues: Bad CPU, memory or disk;
- Kernel issues: Kernel deadlock, corrupted file system;
- Container runtime issues: Unresponsive runtime daemon;
Node-problem-detector 从各种守护进程收集节点问题,并使它们对上游层可见。
Node-problem-detector 支持多个导出器:
- Kubernetes exporter 向 Kubernetes API 服务器报告节点问题:临时问题被报告为事件,永久性问题被报告为节点条件。
- 普罗米修斯出口商。
- Stackdriver 监控API。
另一个选项是 Prometheus Node Exporter (link)。它公开了各种硬件和 kernel-related 指标(OS 发布信息、'uname' 系统调用 提供的系统信息、内存统计信息、磁盘IO统计、NFS统计等)。
检查所有现有收集器和支持系统的列表here。