nv-nsight-cu-cli 导致 Tensorflow 失败

nv-nsight-cu-cli caused Tensorflow to fail

我已经下载了最新的 Nsight Compute 分析工具,我想用它来对 Tensorflow 应用程序进行基准测试。我使用的代码是 here。当我执行它时它 运行 非常好,当我用 nvprof ./mnist.py 对它进行基准测试时它完全没有问题。但是,当我尝试使用命令 sudo ./nv-nsight-cu-cli [path to the file] 运行 时,出现以下错误:

ImportError: libcublas.so.9.0: cannot open shared object file: No such file or directory

我怀疑 nv-nsight-cu-cli 不知何故根本无法识别环境变量。有什么解决办法吗?

您需要在两种环境中搜索差异:

  • 环境变量
  • LD_LIBRARY_PATH
  • /etc/ld.so.conf
  • /etc/ld.so.conf.d/*
  • cuBLAS
    • 安装 complete/not 是否损坏?
    • 它是否安装在两台机器上的相同位置?
    • 版本
  • ...

您可以从两台机器上的 locate libcublas.so 开始,看看是否存在差异。或者,您可以 strace -f -e open 程序检查它尝试 libcublas.so 来自的位置。

您的错误(暂时)与 GPU 无关:libcublas.so.9.0 只是找不到。找到它,找到为什么Tensorflow找不到它,你的问题就迎刃而解了。

目前该工具似乎不支持 GP100。 找到答案here:

Nsight Compute only supports Pascal (other than GP100) and later GPUs.