Google Linux 虚拟机上的云深度学习抛出未知 Cuda 错误

Google Cloud Deep Learning On Linux VM throws Unknown Cuda Error

我正在尝试在 Google 云上设置深度学习 VM,但我一直 运行 一遍又一遍地陷入同一个问题。

我将遵循所有步骤,设置一个 N1-highmem-8(8 个 vCPU,52gb 内存)实例,添加一个 T4 GPU 和 select Deep Learning Image: TensorFlow 2.4 m69 CUDA 110 图像。就是这样。

之后,我将通过 ssh 连接到 vm,运行 安装所有 NVIDIA 驱动程序的脚本以及...当我开始使用它时,只需 运行ning

from tensorflow.keras.layers import Input, Dense

i = Input((100,))
x = Dense(500)(i)

我不断收到 failed call to cuInit: CUDA_ERROR_UNKNOWN: unknown error。到那时我还没有安装任何东西,也没有做任何定制,只是来自 GCP 的香草图像。

更令人担心的是,即使我删除了虚拟机,然后使用相同的配置创建一个新的虚拟机,有时错误不会立即发生,有时它会立即出现。

有人遇到过这种情况吗?我用谷歌搜索了一下,看看是否有人遇到过这个问题,虽然我遇到了一些建议,但它们都是旧的,对我没有用。此外,NVIDIA 支持论坛上的建议告诉我重新安装所有东西,而我使用专门用于深度学习的预构建 GCP 映像的全部意义在于,这样我就不必进入安装和解决问题的地狱NVIDIA 驱动程序。

M74 图像的问题已解决,但您使用的是 M69。因此,请遵循 Google Cloud public forum.

中提供的两个修复程序之一

我们可以通过以下方式缓解此问题:

修复 #1: 在新的 VM 实例中使用最新的 DLVM 映像(M74 或更高版本):他们已经发布了 M74 中最新的 DLVM 映像的修复程序,因此您将不再受此问题影响。

修复 #2: 修补现有实例 运行 早于 M74 的图像。

Run the following via an SSH session on the affected instance:
gsutil cp gs://dl-platform-public-nvidia/b191551132/restart_patch.sh /tmp/restart_patch.sh
chmod +x /tmp/restart_patch.sh
sudo /tmp/restart_patch.sh
sudo service jupyter restart

这只需要执行一次,不需要在每次重启实例时都重新运行。