我如何结合 datadog io 指标来识别磁盘瓶颈?

How can I combine datadog io metrics in order to identify disk bottlenecks?

我正在尝试在 DataDog 中创建一个警报,当磁盘性能降低我们的机器时,它会提醒我们。

作为业务需求,如果 IO 几乎饱和(超过 90%)超过 30 分钟,则应触发警报。

以下是当前记录的一组指标: sys.cpu.iowait system.io.avg_q_sz system.io.avg_rq_sz system.io.await system.io.r_await system.io.r_s system.io.rkb_s system.io.rrqm_s system.io.svctm system.io.util system.io.w_await system.io.w_s system.io.wkb_s system.io.wrqm_s

可以使用任何公式来组合这些值,包括 SUM 和 AVG 值。

这些 system.io 指标是从使用 iostatsystem agent check 报告的。

根据 iostat manpage 指标之一 %util(在 Datadog 中报告为 system.io.util)似乎可以完成这项工作:

%util: Percentage of CPU time during which I/O requests were issued to the device (bandwidth utilization for the device). Device saturation occurs when this value is close to 100%.

您可以创建一个监视器,作为 host/device 上的多重警报,当此指标在过去 30 分钟内平均超过 90 时,这是此类示例的当前屏幕截图:

当然也可以监控其他 iostat 指标以识别其他 I/O 性能故障模式。