我如何结合 datadog io 指标来识别磁盘瓶颈?
How can I combine datadog io metrics in order to identify disk bottlenecks?
我正在尝试在 DataDog 中创建一个警报,当磁盘性能降低我们的机器时,它会提醒我们。
作为业务需求,如果 IO 几乎饱和(超过 90%)超过 30 分钟,则应触发警报。
以下是当前记录的一组指标:
sys.cpu.iowait
system.io.avg_q_sz
system.io.avg_rq_sz
system.io.await
system.io.r_await
system.io.r_s
system.io.rkb_s
system.io.rrqm_s
system.io.svctm
system.io.util
system.io.w_await
system.io.w_s
system.io.wkb_s
system.io.wrqm_s
可以使用任何公式来组合这些值,包括 SUM 和 AVG 值。
这些 system.io 指标是从使用 iostat
的 system agent check 报告的。
根据 iostat manpage 指标之一 %util
(在 Datadog 中报告为 system.io.util
)似乎可以完成这项工作:
%util: Percentage of CPU time during which I/O requests were issued to the device (bandwidth utilization for the device). Device saturation occurs when this value is close to 100%.
您可以创建一个监视器,作为 host/device 上的多重警报,当此指标在过去 30 分钟内平均超过 90 时,这是此类示例的当前屏幕截图:
当然也可以监控其他 iostat 指标以识别其他 I/O 性能故障模式。
我正在尝试在 DataDog 中创建一个警报,当磁盘性能降低我们的机器时,它会提醒我们。
作为业务需求,如果 IO 几乎饱和(超过 90%)超过 30 分钟,则应触发警报。
以下是当前记录的一组指标:
sys.cpu.iowait
system.io.avg_q_sz
system.io.avg_rq_sz
system.io.await
system.io.r_await
system.io.r_s
system.io.rkb_s
system.io.rrqm_s
system.io.svctm
system.io.util
system.io.w_await
system.io.w_s
system.io.wkb_s
system.io.wrqm_s
可以使用任何公式来组合这些值,包括 SUM 和 AVG 值。
这些 system.io 指标是从使用 iostat
的 system agent check 报告的。
根据 iostat manpage 指标之一 %util
(在 Datadog 中报告为 system.io.util
)似乎可以完成这项工作:
%util: Percentage of CPU time during which I/O requests were issued to the device (bandwidth utilization for the device). Device saturation occurs when this value is close to 100%.
您可以创建一个监视器,作为 host/device 上的多重警报,当此指标在过去 30 分钟内平均超过 90 时,这是此类示例的当前屏幕截图:
当然也可以监控其他 iostat 指标以识别其他 I/O 性能故障模式。