无法将 GPU 添加到 GCP AI 平台 Notebooks 实例
can't add GPU to GCP AI platform Notebooks instance
下午好。
我在尝试将 GPU(NVIDIA Tesla T4) 添加到 GCP AI 平台笔记本实例时遇到了一个问题。
我想做的是用GPU启动一个实例。但它不起作用,GCP 说
There are no GPUs available for the zone, framework and machine type of this instance.
当我启动一个实例时,它说
riiid: The zone 'projects/adept-rock-292801/zones/asia-northeast1-a' does not have enough resources available to fulfill the request. Try a different zone, or try again later.
Problem Occured
检查点 1
我检查了管理配额,这里是设置。我想这没有问题。
GPUs (all regions): limit 1
NVIDIA T4 GPUs - asia-northeast1: limit 1
检查点 2
到目前为止我只创建了一个实例。所以没有其他实例使用配额限制。
检查点 3
下面的 link 说 NVIDIA Tesla T4 在区域 asia-northeast1-a
可用,所以我猜可用区域不是这个问题的因素。
https://cloud.google.com/compute/docs/gpus/gpu-regions-zones
检查点 4
我的实例的机器类型现在是4 vCPUs, 15 GB RAM(* n1-standard-4)
所以关于机器类型应该没有问题,根据以下link。
https://cloud.google.com/compute/docs/gpus
为什么在这种情况下 GPU 不可用?有没有人给我提示来解决这个问题?
谢谢。
此问题已通过 Public 问题跟踪器案例解决,here。由于您仍然遇到它,您可以在那里发表评论并描述您是如何遇到这个问题的。因此,案件将重新开庭。
但是,有一个解决方法。为了能够在创建 AI 平台 Notebook 实例后将 GPU 添加到它,请按照以下步骤操作:
- 创建实例 selecting
Python 3 (CUDA Toolkit 11.0)
和选项 without GPU
;
- 转到计算引擎并select您的虚拟机;
- 停止虚拟机并点击编辑;
- 在机器配置下,转到GPU类型并添加所需的GPU类型;
- 保存更改并启动您的虚拟机;
- SSH 进入,系统会提示您安装 nvidia 驱动程序;
- 如果没有提示,请使用以下命令安装驱动程序:
sudo /opt/deeplearning/install-driver.sh
;
- 使用
nvidia-smi
; 确认驱动程序的安装
请注意以下注意事项:
- 如果您有防火墙规则,端口 22 应该被列入白名单。您可以使用命令
gcloud compute firewall-rules create default-allow-ssh --allow tcp:22
来执行此操作。
- 强烈建议将您的工作负载分散到多个区域,here;
- 目前,您似乎是在没有容量保证的情况下按需使用 GPU 实例,因为该区域可能会耗尽。出于这个原因,如果您想保证您的资源,您可以使用一个名为 Reservations 的功能,它确保资源在您需要时可用于您的工作负载;
下午好。
我在尝试将 GPU(NVIDIA Tesla T4) 添加到 GCP AI 平台笔记本实例时遇到了一个问题。
我想做的是用GPU启动一个实例。但它不起作用,GCP 说
There are no GPUs available for the zone, framework and machine type of this instance.
当我启动一个实例时,它说
riiid: The zone 'projects/adept-rock-292801/zones/asia-northeast1-a' does not have enough resources available to fulfill the request. Try a different zone, or try again later.
Problem Occured
检查点 1
我检查了管理配额,这里是设置。我想这没有问题。
GPUs (all regions): limit 1
NVIDIA T4 GPUs - asia-northeast1: limit 1
检查点 2
到目前为止我只创建了一个实例。所以没有其他实例使用配额限制。
检查点 3
下面的 link 说 NVIDIA Tesla T4 在区域 asia-northeast1-a
可用,所以我猜可用区域不是这个问题的因素。
https://cloud.google.com/compute/docs/gpus/gpu-regions-zones
检查点 4
我的实例的机器类型现在是4 vCPUs, 15 GB RAM(* n1-standard-4)
所以关于机器类型应该没有问题,根据以下link。
https://cloud.google.com/compute/docs/gpus
为什么在这种情况下 GPU 不可用?有没有人给我提示来解决这个问题?
谢谢。
此问题已通过 Public 问题跟踪器案例解决,here。由于您仍然遇到它,您可以在那里发表评论并描述您是如何遇到这个问题的。因此,案件将重新开庭。
但是,有一个解决方法。为了能够在创建 AI 平台 Notebook 实例后将 GPU 添加到它,请按照以下步骤操作:
- 创建实例 selecting
Python 3 (CUDA Toolkit 11.0)
和选项without GPU
; - 转到计算引擎并select您的虚拟机;
- 停止虚拟机并点击编辑;
- 在机器配置下,转到GPU类型并添加所需的GPU类型;
- 保存更改并启动您的虚拟机;
- SSH 进入,系统会提示您安装 nvidia 驱动程序;
- 如果没有提示,请使用以下命令安装驱动程序:
sudo /opt/deeplearning/install-driver.sh
; - 使用
nvidia-smi
; 确认驱动程序的安装
请注意以下注意事项:
- 如果您有防火墙规则,端口 22 应该被列入白名单。您可以使用命令
gcloud compute firewall-rules create default-allow-ssh --allow tcp:22
来执行此操作。 - 强烈建议将您的工作负载分散到多个区域,here;
- 目前,您似乎是在没有容量保证的情况下按需使用 GPU 实例,因为该区域可能会耗尽。出于这个原因,如果您想保证您的资源,您可以使用一个名为 Reservations 的功能,它确保资源在您需要时可用于您的工作负载;