通过 stackdriver 的 Kubernetes pod 重启警报
Kubernetes pod restart alert via stackdriver
我有一个基于 stackdriver 日志的指标跟踪 GKE pod 重启。
如果警报数量超过预定义的阈值,我想通过电子邮件发出警报。
我不确定我需要设置多少阈值才能通过 stackdriver 触发警报。我有三个 pods 通过已部署的服务。
您应该使用日志查看器并创建一个过滤器:
作为资源,您应该选择 GKE Cluster Operations
并添加过滤器。
过滤器可能如下所示:
resource.type="k8s_cluster"
resource.labels.cluster_name="<CLUSTER_NAME>"
resource.labels.location="<CLUSTR_LOCATION>"
jsonPayload.reason="Killing"
之后单击 Create metric
按钮创建自定义指标。
然后您可以 Create alert from metric
通过单击 Logs-based metrics
中创建的指标。
然后为触发器和条件以及阈值设置配置。
至于正确的阈值,我会取过去时间段的平均重启次数,并使其多一些以用于提醒。
GKE 已经向 Stackdriver 发送了一个名为:container/restart_count
的指标。您只需按照 Managing alerting policies. As per the official doc 中的说明创建警报策略,此指标公开:
Number of times the container has restarted. Sampled every 60 seconds.
我有一个基于 stackdriver 日志的指标跟踪 GKE pod 重启。
如果警报数量超过预定义的阈值,我想通过电子邮件发出警报。
我不确定我需要设置多少阈值才能通过 stackdriver 触发警报。我有三个 pods 通过已部署的服务。
您应该使用日志查看器并创建一个过滤器:
作为资源,您应该选择 GKE Cluster Operations
并添加过滤器。
过滤器可能如下所示:
resource.type="k8s_cluster"
resource.labels.cluster_name="<CLUSTER_NAME>"
resource.labels.location="<CLUSTR_LOCATION>"
jsonPayload.reason="Killing"
之后单击 Create metric
按钮创建自定义指标。
然后您可以 Create alert from metric
通过单击 Logs-based metrics
中创建的指标。
然后为触发器和条件以及阈值设置配置。
至于正确的阈值,我会取过去时间段的平均重启次数,并使其多一些以用于提醒。
GKE 已经向 Stackdriver 发送了一个名为:container/restart_count
的指标。您只需按照 Managing alerting policies. As per the official doc 中的说明创建警报策略,此指标公开:
Number of times the container has restarted. Sampled every 60 seconds.