Google Linux 虚拟机上的云深度学习抛出未知 Cuda 错误

Question

我正在尝试在 Google 云上设置深度学习 VM，但我一直运行一遍又一遍地陷入同一个问题。

我将遵循所有步骤，设置一个 N1-highmem-8（8 个 vCPU，52gb 内存）实例，添加一个 T4 GPU 和 select Deep Learning Image: TensorFlow 2.4 m69 CUDA 110 图像。就是这样。

之后，我将通过 ssh 连接到 vm，运行安装所有 NVIDIA 驱动程序的脚本以及...当我开始使用它时，只需运行ning

from tensorflow.keras.layers import Input, Dense

i = Input((100,))
x = Dense(500)(i)

我不断收到 failed call to cuInit: CUDA_ERROR_UNKNOWN: unknown error。到那时我还没有安装任何东西，也没有做任何定制，只是来自 GCP 的香草图像。

更令人担心的是，即使我删除了虚拟机，然后使用相同的配置创建一个新的虚拟机，有时错误不会立即发生，有时它会立即出现。

有人遇到过这种情况吗？我用谷歌搜索了一下，看看是否有人遇到过这个问题，虽然我遇到了一些建议，但它们都是旧的，对我没有用。此外，NVIDIA 支持论坛上的建议告诉我重新安装所有东西，而我使用专门用于深度学习的预构建 GCP 映像的全部意义在于，这样我就不必进入安装和解决问题的地狱NVIDIA 驱动程序。

Answer 1

M74 图像的问题已解决，但您使用的是 M69。因此，请遵循 Google Cloud public forum.

中提供的两个修复程序之一

我们可以通过以下方式缓解此问题：

修复 #1： 在新的 VM 实例中使用最新的 DLVM 映像（M74 或更高版本）：他们已经发布了 M74 中最新的 DLVM 映像的修复程序，因此您将不再受此问题影响。

修复 #2： 修补现有实例运行早于 M74 的图像。

Run the following via an SSH session on the affected instance:
gsutil cp gs://dl-platform-public-nvidia/b191551132/restart_patch.sh /tmp/restart_patch.sh
chmod +x /tmp/restart_patch.sh
sudo /tmp/restart_patch.sh
sudo service jupyter restart

这只需要执行一次，不需要在每次重启实例时都重新运行。

Google Linux 虚拟机上的云深度学习抛出未知 Cuda 错误

Google Cloud Deep Learning On Linux VM throws Unknown Cuda Error

gpu

nvidia

google-cloud-platform

deep-learning

tensorflow