如何计算 Azure 机器学习平均 Cpu 利用率指标?

How is Azure Machine Learning's average GpuUtilization metric computed?

如何为 Azure 机器学习 (AML) 工作区计算“GpuUtilization”指标?输入是什么?用于计算 GpuUtilization 的方程式是什么?

A​​ML 门户网站中的“指标”选项卡显示指定时间段内的 GpuUtilization 图表,以及该时间段的平均 GpuUtilization。但是,我发现平均 GpuUtilization 似乎并不能准确反映我组织的某些 AML 工作区的图表中显示的数据。

例如,以下屏幕截图显示了 7 月 1 日至 31 日的 GpuUtilization,报告​​的平均 GpuUtilization 为 54.06。这显然比图表中显示的要高得多。当我从图表下载数据时(共享 -> 下载到 Excel),我计算出 Excel 中的平均 GpuUtilization 约为 11%。为什么会有这样的差异?

我也发现了其他 AML 工作区的类似差异。但是,8 月 1 日至 25 日期间的平均 GpuUtilization 似乎比 7 月 1 日至 31 日期间更准确。我希望更好地了解 AML 如何计算一段时间内的平均 GpuUtilization,以便我们可以准确地说明我的组织在每个工作区的基础上的 AML GPU 使用情况。

54.06 可能是分配 GPU VM 时随时间变化的平均值。如果 VM 被解除分配,Azure Monitor 将得不到任何数据。这些缺失值在图表上被插入为零。

为了更好地估计利用率,您可以检查 VM 何时停止,并从平均值中排除该时间间隔。