torch.cuda.is_avaiable returns 错误，nvidia-smi 不工作

Question

我正在尝试构建一个 docker 可以使用 GPUS 运行的图像，这是我的情况：

我有 python 3.6，我从图像 nvidia/cuda:10.0-cudnn7-devel 开始。 Torch 看不到我的 GPU。

nvidia-smi 也不起作用，返回错误：

> Failed to initialize NVML: Unknown Error
> The command '/bin/sh -c nvidia-smi' returned a non-zero code: 255

我用

安装了 nvidia 工具包和 nvidia-smi

 RUN apt install nvidia-cuda-toolkit -y
 RUN apt-get install nvidia-utils-410 -y

Answer 1

我发现问题是您不能在构建过程中使用 nvidia-smi (运行 nvidia-smi)。构建期间与 GPU 可用性相关的任何检查都将不起作用。

使用 CMD bin/bash 并输入命令 python3 -c 'import torch; print(torch.cuda.is_avaiable())'，我终于得到了 True。我也删除了

RUN apt install nvidia-cuda-toolkit -y
RUN apt-get install nvidia-utils-410 -y

根据@RobertCrovella 的建议

torch.cuda.is_avaiable returns False with nvidia-smi not working