无法将 GPU 添加到 GCP AI 平台 Notebooks 实例

can't add GPU to GCP AI platform Notebooks instance

下午好。

我在尝试将 GPU(NVIDIA Tesla T4) 添加到 GCP AI 平台笔记本实例时遇到了一个问题。

我想做的是用GPU启动一个实例。但它不起作用,GCP 说

There are no GPUs available for the zone, framework and machine type of this instance.

当我启动一个实例时,它说

riiid: The zone 'projects/adept-rock-292801/zones/asia-northeast1-a' does not have enough resources available to fulfill the request. Try a different zone, or try again later.

Problem Occured


检查点 1

我检查了管理配额,这里是设置。我想这没有问题。

GPUs (all regions): limit 1
NVIDIA T4 GPUs - asia-northeast1: limit 1

检查点 2

到目前为止我只创建了一个实例。所以没有其他实例使用配额限制。


检查点 3

下面的 link 说 NVIDIA Tesla T4 在区域 asia-northeast1-a 可用,所以我猜可用区域不是这个问题的因素。

https://cloud.google.com/compute/docs/gpus/gpu-regions-zones


检查点 4

我的实例的机器类型现在是4 vCPUs, 15 GB RAM(* n1-standard-4)所以关于机器类型应该没有问题,根据以下link。

https://cloud.google.com/compute/docs/gpus


为什么在这种情况下 GPU 不可用?有没有人给我提示来解决这个问题?

谢谢。

此问题已通过 Public 问题跟踪器案例解决,here。由于您仍然遇到它,您可以在那里发表评论并描述您是如何遇到这个问题的。因此,案件将重新开庭。

但是,有一个解决方法。为了能够在创建 AI 平台 Notebook 实例后将 GPU 添加到它,请按照以下步骤操作:

  1. 创建实例 selecting Python 3 (CUDA Toolkit 11.0) 和选项 without GPU;
  2. 转到计算引擎并select您的虚拟机;
  3. 停止虚拟机并点击编辑;
  4. 机器配置下,转到GPU类型并添加所需的GPU类型;
  5. 保存更改并启动您的虚拟机;
  6. SSH 进入,系统会提示您安装 nvidia 驱动程序;
  7. 如果没有提示,请使用以下命令安装驱动程序:sudo /opt/deeplearning/install-driver.sh
  8. 使用 nvidia-smi;
  9. 确认驱动程序的安装

请注意以下注意事项:

  • 如果您有防火墙规则,端口 22 应该被列入白名单。您可以使用命令 gcloud compute firewall-rules create default-allow-ssh --allow tcp:22 来执行此操作。
  • 强烈建议将您的工作负载分散到多个区域,here
  • 目前,您似乎是在没有容量保证的情况下按需使用 GPU 实例,因为该区域可能会耗尽。出于这个原因,如果您想保证您的资源,您可以使用一个名为 Reservations 的功能,它确保资源在您需要时可用于您的工作负载;