运行 在 TPU 上使用 Cloud ML Engine 的 TensorFlow 训练器产生 google.rpc.QuotaFailure

Running TensorFlow trainer with Cloud ML Engine on TPU produces google.rpc.QuotaFailure

我使用 scaleTier: BASIC 在 Cloud ML Engine 上开发了一个 TensorFlow 模型。

运行 它的训练器在 scaleTier: BASIC_GPU 的 GPU 上实验性地工作正常。但是在具有 scaleTier: BASIC_TPU 的 TPU 上尝试 运行 它会产生此错误消息:

type.googleapis.com/google.rpc.QuotaFailure
The request for 1 TPU_V2 accelerators exceeds the allowed maximum
of 30 K80, 30 P100.

这个限制是从哪里来的,可以取消吗?通过启用另一个 API 或增加我的初始预算?

我尝试了同样的事情并得到了同样的结果。文档暗示每个人都可以使用 TPU,但事实并非如此。据我所知,您必须 specially request TPU 访问权限(我填写了请求但没有收到回复)。

announced at Google Cloud Next '18, Cloud TPUs are now available to everyone,没有白名单。

要为 Cloud ML Engine 启用它们,请转到此处:

https://cloud.google.com/ml-engine/docs/tensorflow/using-tpus

...向下滚动到标题 "Authorize your Cloud TPU to access your project",然后按照那里的说明进行操作。简而言之,您需要向您创建的 TPU 提供资源的 IAM 访问权限。