自 3 月 4 日以来无法创建 TPU node/VM

Can't create a TPU node/VM since March 4

从 3 月 4 日左右开始,我突然无法创建 Cloud TPU 节点。

当我尝试通过 GUI 创建 TPU node/VM 时,它会在选择任何区域的 TPU 类型时崩溃。我在控制台中收到大量 JS 错误:

ERROR TypeError: Cannot read properties of undefined (reading 'CP-CLOUD-TPU-V3')
m=b:90 ERROR TypeError: Cannot read properties of undefined (reading 'CP-CLOUD-TPU-V3')
m=b:90 ERROR TypeError: Cannot read properties of undefined (reading 'CP-CLOUD-TPU-V3')
m=b:90 ERROR TypeError: Cannot read properties of undefined (reading 'CP-CLOUD-TPU-V3')
m=b:90 ERROR TypeError: Cannot read properties of undefined (reading 'CP-CLOUD-TPU-V3')

尝试从云端创建 TPU 虚拟机 Shell 导致错误代码 13 与任何区域或版本的组合:

gcloud alpha compute tpus tpu-vm create testnode --zone us-central1-a --accelerator-type='v3-8' --version='v2-alpha' --scopes='cloud-platform'
ERROR: (gcloud.alpha.compute.tpus.tpu-vm.create) {
  "code": 13,
  "message": "an internal error has occurred"
}

我测试的内容:

  1. 尝试对不同的项目执行相同的过程 - 相同 行为和错误。
  2. 尝试使用以前从未使用过 Cloud TPU 的新帐户执行相同的过程 - 相同的行为和错误。
  3. 通过移动网络使用 Android phone 中的 Chrome - 相同的行为和错误。
  4. 配额没问题。

我认为 google-cloud-tpu 1.3.2 已于 3 月 8 日发布,但我不确定这是否与我遇到的问题有关。

GCP 的其他部分,例如 VM 实例或云存储工作正常 - 只是 TPU 对我来说已经关闭。

我能够使用 --service-account 而不是 --scopes 通过 Cloud Console 创建 TPU VM。

GUI 仍然崩溃,但您可以通过重复单击可抢占复选框以某种方式创建节点。我认为可能的原因是他们从 TPU VM 中删除了范围,并且他们后端中的某些内容现在与当前的 GUI 代码不兼容。

你可以试试这个:

 gcloud alpha compute tpus tpu-vm create testnode 
   --zone us-central1-a --accelerator-type='v3-8' --version='v2-alpha' 
   --scopes=https://www.googleapis.com/auth/cloud-platform

tpus 不支持缩写形式 --scopes='cloud-platform'。