通过 stackdriver 的 Kubernetes pod 重启警报

Question

我有一个基于 stackdriver 日志的指标跟踪 GKE pod 重启。

如果警报数量超过预定义的阈值，我想通过电子邮件发出警报。

我不确定我需要设置多少阈值才能通过 stackdriver 触发警报。我有三个 pods 通过已部署的服务。

Answer 1

您应该使用日志查看器并创建一个过滤器：

作为资源，您应该选择 GKE Cluster Operations 并添加过滤器。

过滤器可能如下所示：

resource.type="k8s_cluster"
resource.labels.cluster_name="<CLUSTER_NAME>"
resource.labels.location="<CLUSTR_LOCATION>"
jsonPayload.reason="Killing"

之后单击 Create metric 按钮创建自定义指标。

然后您可以 Create alert from metric 通过单击 Logs-based metrics 中创建的指标。

然后为触发器和条件以及阈值设置配置。

至于正确的阈值，我会取过去时间段的平均重启次数，并使其多一些以用于提醒。

Answer 2

GKE 已经向 Stackdriver 发送了一个名为：container/restart_count 的指标。您只需按照 Managing alerting policies. As per the official doc 中的说明创建警报策略，此指标公开：

Number of times the container has restarted. Sampled every 60 seconds.

Kubernetes pod restart alert via stackdriver