监控 - Kubernetes 集群

Monitoring - Kubernetes Cluster

假设我刚刚配置了一个 Kubernetes 集群,我想每隔一小时检查一次我的所有集群服务是否正常并且 运行 符合预期。

有没有framework/configuration支持测试kubernetes集群和服务的。准确的说是一个对集群和网络分区做周期性检查的监控系统。

冒烟测试不同于监控系统。请阅读 smoke testing.

的维基百科

你的需求是在Kubernetes集群中部署一个服务监控机制,通过Kubernetes提供的readiness and liveliness probe完成,可以用于滚动升级,服务高可用,documentation.

This 是另一篇管理服务生命周期的好文章。

测试 kubernetes 集群的范围很广,具体取决于您是否要检查集群上的应用程序 运行 是否需要测试或 cluster/pods 上的代码版本。假设您正在查看 pods 的状态(这是 kubernetes 中的计算能力),请尝试在每个 pods 上配置 liveness probe。例子如下

livenessProbe:
  httpGet:
    path: /healthz
    port: 8080
    httpHeaders:
    - name: Custom-Header
      value: Awesome

如果你想要一些东西放在外面,然后创建一个脚本来检查事件 下面的命令给出了所有命名空间和 greps 上的事件 fatal/warning

kubectl 获取事件 --all-namespaces | grep "Fatal\|Warning"

试用 prometheus。

您可以使用

安装prometheus
$ helm install [RELEASE_NAME] prometheus-community/prometheus

然后编辑 alertmanager.yml 文件,根据需要相应地设置指标和时间。