在 Cloud ML Engine 上使用 TPU

Using TPU on Cloud ML Engine

我正在尝试在 Cloud ML Engine 上使用 TPU,但我不知道应该如何提供 TPUClusterResolver 期望的 tpu 参数。

这是我使用的环境:

--python-version 3.5 \
--runtime-version 1.12 \
--region us-central1 \
--scale-tier BASIC_TPU

作业崩溃:

ValueError: Please provide a TPU Name to connect to.

作为一个单独的问题 - ML 引擎似乎正在将 --master grpc://10.129.152.2:8470 自己添加到我的作业中,这也会使作业崩溃。作为解决方法,我只是在我的代码中添加了一个未使用的主标志。

这是运行时 1.11 和 1.12 的已知问题,现已修复。现在,该服务不会将 --master 附加到您的训练应用程序。您应该继续使用 TpuClusterResolver.