检查 TPU workload/utilization
Check TPU workload/utilization
我正在训练一个模型,当我在 Google 云平台控制台中打开 TPU 时,它会显示 CPU 利用率(我想是在 TPU 上)。它真的非常低(比如 0.07%),所以也许是 VM CPU?我想知道训练是否真的合适,或者 TPU 是否真的那么强。
有没有其他方法可以查看TPU的使用情况?也许用 ctpu
命令?
如果您正在查看 GCP -> Compute Engine -> TPU,那么您找对地方了。如果您查看关联的 Compute Engine 实例的监控图,您会发现 CPU 图不同。
目前,似乎没有任何其他方法可以查找该信息,因为 none 这些选项提供了它:
gcloud compute tpus describe <tpu-name> --zone=<zone>
ctpu status --details
也不行
至于你的训练是否正确,不好说,你可以参考Using TPU and make sure you are following the guidelines there. Another useful resource would be Improving training speed。
我建议使用插入 TensorBoard 的 TPU 分析工具。可以找到安装和使用这些工具的好教程 here。
您将在 TPU 训练时 运行 分析器。它将向您的 TensorBoard 添加一个额外的选项卡,其中包含特定于 TPU 的分析信息。其中最有用的:
- 平均步数
- 主机空闲时间(CPU 空闲的时间)
- TPU 空闲时间
- TPU 矩阵单元的利用率
根据这些指标,探查器将建议开始优化模型以在 TPU 上进行良好训练的方法。您还可以深入研究更复杂的分析工具,例如跟踪查看器或最昂贵的图形操作列表。
有关性能调整的一些指南(除了那些 ch_mike 已经链接的),您可以查看 TPU performance guide。
(vm)$ capture_tpu_profile --tpu=$TPU_NAME --monitoring_level=2
设置monitoring_level=2显示更详细的信息:
TPU type: TPU v2
Number of TPU Cores: 8
TPU idle time (lower is better): 0.091%
Utilization of TPU Matrix Units is (higher is better): 10.7%
Step time: 1.95 kms (avg), 1.90kms (minute), 2.00 kms (max)
Infeed percentage: 87.5% (avg). 87.2% (min), 87.8 (max)
参考:https://cloud.google.com/tpu/docs/cloud-tpu-tools#monitor_job
我正在训练一个模型,当我在 Google 云平台控制台中打开 TPU 时,它会显示 CPU 利用率(我想是在 TPU 上)。它真的非常低(比如 0.07%),所以也许是 VM CPU?我想知道训练是否真的合适,或者 TPU 是否真的那么强。
有没有其他方法可以查看TPU的使用情况?也许用 ctpu
命令?
如果您正在查看 GCP -> Compute Engine -> TPU,那么您找对地方了。如果您查看关联的 Compute Engine 实例的监控图,您会发现 CPU 图不同。
目前,似乎没有任何其他方法可以查找该信息,因为 none 这些选项提供了它:
gcloud compute tpus describe <tpu-name> --zone=<zone>
ctpu status --details
也不行
至于你的训练是否正确,不好说,你可以参考Using TPU and make sure you are following the guidelines there. Another useful resource would be Improving training speed。
我建议使用插入 TensorBoard 的 TPU 分析工具。可以找到安装和使用这些工具的好教程 here。
您将在 TPU 训练时 运行 分析器。它将向您的 TensorBoard 添加一个额外的选项卡,其中包含特定于 TPU 的分析信息。其中最有用的:
- 平均步数
- 主机空闲时间(CPU 空闲的时间)
- TPU 空闲时间
- TPU 矩阵单元的利用率
根据这些指标,探查器将建议开始优化模型以在 TPU 上进行良好训练的方法。您还可以深入研究更复杂的分析工具,例如跟踪查看器或最昂贵的图形操作列表。
有关性能调整的一些指南(除了那些 ch_mike 已经链接的),您可以查看 TPU performance guide。
(vm)$ capture_tpu_profile --tpu=$TPU_NAME --monitoring_level=2
设置monitoring_level=2显示更详细的信息:
TPU type: TPU v2 Number of TPU Cores: 8 TPU idle time (lower is better): 0.091% Utilization of TPU Matrix Units is (higher is better): 10.7% Step time: 1.95 kms (avg), 1.90kms (minute), 2.00 kms (max) Infeed percentage: 87.5% (avg). 87.2% (min), 87.8 (max)
参考:https://cloud.google.com/tpu/docs/cloud-tpu-tools#monitor_job