Google Cloud ML 引擎 GPU 利用率

Google Cloud ML Engine GPU Utilization

如果我在 Google Cloud ML Engine 作业中使用 --scale-tier BASIC GPU,我如何查看 GPU 利用率?我可以在 "job details" 选项卡上查看 CPU 利用率和内存利用率,但我想知道 GPU 的利用率。这仅包含在 CPU 使用情况中,还是有另一个选项卡可以查看 GPU 利用率?

此外,是否有任何方法可以查看哪些操作占用了大部分 CPU 使用量?我的 CPU 利用率非常高,我的内存非常低,我的输入生产者总是满的 (100%) 所以我试图更好地了解时间花在了哪里,以便我可以尝试优化我的模型性能。

目前无法查看 Cloud ML Engine 的 GPU 利用率。

TensorFlow 有一个称为时间线的功能,可用于获取配置文件数据。这里有一个 blog post 描述如何使用它。

watch -n 0.5 nvidia-smi 可以从命令行使用查看 NVIDIA GPU 使用情况。