我如何结合 datadog io 指标来识别磁盘瓶颈？

How can I combine datadog io metrics in order to identify disk bottlenecks?

datadog

我正在尝试在 DataDog 中创建一个警报，当磁盘性能降低我们的机器时，它会提醒我们。

作为业务需求，如果 IO 几乎饱和（超过 90%）超过 30 分钟，则应触发警报。

以下是当前记录的一组指标： sys.cpu.iowait system.io.avg_q_sz system.io.avg_rq_sz system.io.await system.io.r_await system.io.r_s system.io.rkb_s system.io.rrqm_s system.io.svctm system.io.util system.io.w_await system.io.w_s system.io.wkb_s system.io.wrqm_s

可以使用任何公式来组合这些值，包括 SUM 和 AVG 值。

这些 system.io 指标是从使用 iostat 的 system agent check 报告的。

根据 iostat manpage 指标之一 %util（在 Datadog 中报告为 system.io.util）似乎可以完成这项工作：

%util: Percentage of CPU time during which I/O requests were issued to the device (bandwidth utilization for the device). Device saturation occurs when this value is close to 100%.

您可以创建一个监视器，作为 host/device 上的多重警报，当此指标在过去 30 分钟内平均超过 90 时，这是此类示例的当前屏幕截图：

当然也可以监控其他 iostat 指标以识别其他 I/O 性能故障模式。