Google云资源耗尽,加速器不足

Google cloud resource exhausted, insufficient accelerators

我正在尝试 运行 在 gcloud 上进行 ML 训练,但不断收到此错误

ERROR: (gcloud.ml-engine.jobs.submit.training) RESOURCE_EXHAUSTED: Field: scale_tier Error: Insufficient accelerators are available in region US-EAST4 to schedule the job which requests 1 K80 accelerators. Please wait and try again or else try submitting your job to a different region.
    - '@type': type.googleapis.com/google.rpc.BadRequest
      fieldViolations:
      - description: Insufficient accelerators are available in region US-EAST4 to schedule
          the job which requests 1 K80 accelerators. Please wait and try again or else
          try submitting your job to a different region.
        field: scale_tier

等待切换regions/zones后,结果是一样的。是真的到处都有这么高的流量,还是我做错了什么?是否有任何 monitoring/resource 可用的工具来检查空闲插槽?

US-EAST4 没有 K80 加速器。这是一个 table 列出加速器及其可用区域的列表:

https://cloud.google.com/compute/docs/gpus/

我建议尝试 US-EAST1。您也可以尝试 US-CENTRAL。

我将使用我们的内部问题跟踪器来研究在这种情况下改进错误消息的可能性:在没有加速器的区域请求加速器与在有加速器的区域请求加速器是有区别的,但是都在用。