如何使用 blackbox-exporter 指标计算 "SLAs"
How to calculate "SLAs" with blackbox-exporter metrics
我有一个检查某些 HTTP 端点的黑盒导出器。我注意到它没有(正确地)使用直方图,所以我想知道为每个端点计算 SLA 的最佳方法是什么?
例如,假设我检查 http://google.com,我想计算:
- 我收到有效回复的次数百分比 (probe_success)
- 在 X 毫秒内获取响应的次数百分比
我试过使用 avg_over_time:
avg_over_time(probe_success{target="https://google.com"}[30d]
并除以相同指标的计数,但我知道这是错误的并且缺少某些东西
avg_over_time(probe_success[1d])
会给你一个介于 0 (0%) 和 1 (100%) 之间的比率。所以如果你想从中得到一个百分比,乘以 100。或者在 Grafana 中设置它(我相信它叫做 "percent (0.0 - 1.0)" 或类似的东西。
如果 OTOH 你想要某个指标的百分位数,比如第 90 个百分位数的内存利用率,你会使用类似 quantile_over_time(0.9, memory_utilization[1d])
.
的东西
我有一个检查某些 HTTP 端点的黑盒导出器。我注意到它没有(正确地)使用直方图,所以我想知道为每个端点计算 SLA 的最佳方法是什么?
例如,假设我检查 http://google.com,我想计算: - 我收到有效回复的次数百分比 (probe_success) - 在 X 毫秒内获取响应的次数百分比
我试过使用 avg_over_time:
avg_over_time(probe_success{target="https://google.com"}[30d]
并除以相同指标的计数,但我知道这是错误的并且缺少某些东西
avg_over_time(probe_success[1d])
会给你一个介于 0 (0%) 和 1 (100%) 之间的比率。所以如果你想从中得到一个百分比,乘以 100。或者在 Grafana 中设置它(我相信它叫做 "percent (0.0 - 1.0)" 或类似的东西。
如果 OTOH 你想要某个指标的百分位数,比如第 90 个百分位数的内存利用率,你会使用类似 quantile_over_time(0.9, memory_utilization[1d])
.