GCP 中的正常运行时间:测量可从_any_ 位置访问站点的正常运行时间百分比
Uptime in GCP: Measure the % uptime where site is available from _any_ location
我们的站点 运行 在 Google App Engine 上,我们已经设置了监控和正常运行时间警报。
我们希望能够以 % 的形式报告站点正常运行时间,如果可以从 6 个位置中的任何一个访问该站点,则该站点将被视为可用:
- 如果位置 A 无法访问站点,但位置 B、C、D、E 和 F 可以。网站上线了。
- 如果位置 A、B、C、D 和 E 无法访问该站点,但位置 F 可以。网站上线了。
- 如果位置 A、B、C、D、E 和 F 无法访问该站点。该站点已关闭。
当前百分比计算为:(1 - 失败检查总数)/(检查总数)。不幸的是,这意味着正常运行时间受到无法访问该站点的单个位置的影响。
是否可以计算出我们想要的正常运行时间?
您可以为此创建一个 uptime chart。
如果您按应用程序对数据进行分组,并将聚合器设置为 fraction true
,则只有当所有正常运行时间检查都失败时,图表才会达到零。
查询看起来像这样(这是针对 VM 实例的):
fetch gce_instance
| metric 'monitoring.googleapis.com/uptime_check/check_passed'
| filter (metric.check_id == 'uptime-1')
| group_by 1m, [value_check_passed_count_true: count_true(value.check_passed)]
| every 1m
我们的站点 运行 在 Google App Engine 上,我们已经设置了监控和正常运行时间警报。
我们希望能够以 % 的形式报告站点正常运行时间,如果可以从 6 个位置中的任何一个访问该站点,则该站点将被视为可用:
- 如果位置 A 无法访问站点,但位置 B、C、D、E 和 F 可以。网站上线了。
- 如果位置 A、B、C、D 和 E 无法访问该站点,但位置 F 可以。网站上线了。
- 如果位置 A、B、C、D、E 和 F 无法访问该站点。该站点已关闭。
当前百分比计算为:(1 - 失败检查总数)/(检查总数)。不幸的是,这意味着正常运行时间受到无法访问该站点的单个位置的影响。
是否可以计算出我们想要的正常运行时间?
您可以为此创建一个 uptime chart。
如果您按应用程序对数据进行分组,并将聚合器设置为 fraction true
,则只有当所有正常运行时间检查都失败时,图表才会达到零。
查询看起来像这样(这是针对 VM 实例的):
fetch gce_instance
| metric 'monitoring.googleapis.com/uptime_check/check_passed'
| filter (metric.check_id == 'uptime-1')
| group_by 1m, [value_check_passed_count_true: count_true(value.check_passed)]
| every 1m