当 GKE 工作负载出现问题时在 Stackdriver 中创建事件和通知

Create an Incident and Notifications in Stackdriver when a GKE Workload has Issues

我有一个 gke 集群,其中的一些工作负载可能会出现启动问题。是否可以在工作负载遇到问题时创建堆栈驱动程序通知。

例如:在触发 CrashLoopBackOff 时创建一个事件,pods 不可调度或工作负载状态在 5 分钟内不正常。

您可以使用基于日志的指标来跟踪 pods 中的所有 CrashLoopBackOff 状态,使用以下高级查询:

https://cloud.google.com/logging/docs/view/advanced-queries

resource.type="k8s_pod"
resource.labels.location="us-central1-a"
resource.labels.cluster_name="standard-cluster-1"
"myproject"
jsonPayload.message="Back-off restarting failed container"
resource.labels.pod_name:"myproject"

Pods 不可调度的可能进入 crashloopbackoff 或未部署,这只能在 API 服务器上追踪。

我们需要考虑到要制作基于日志的指标,有必要根据监控版本(无论您有旧版还是非旧版)调整标签 - “非旧版”监控和指标用于这个例子

通过基于日志的指标创建指标,您将在 Monitoring 中找到它们 logging/user/xxxx

https://cloud.google.com/logging/docs/logs-based-metrics/

创建指标后,您可以创建警报策略以在问题发生时通知您。