nv-nsight-cu-cli 导致 Tensorflow 失败
nv-nsight-cu-cli caused Tensorflow to fail
我已经下载了最新的 Nsight Compute 分析工具,我想用它来对 Tensorflow 应用程序进行基准测试。我使用的代码是 here。当我执行它时它 运行 非常好,当我用 nvprof ./mnist.py
对它进行基准测试时它完全没有问题。但是,当我尝试使用命令 sudo ./nv-nsight-cu-cli [path to the file]
运行 时,出现以下错误:
ImportError: libcublas.so.9.0: cannot open shared object file: No such file or directory
我怀疑 nv-nsight-cu-cli
不知何故根本无法识别环境变量。有什么解决办法吗?
您需要在两种环境中搜索差异:
- 环境变量
LD_LIBRARY_PATH
/etc/ld.so.conf
/etc/ld.so.conf.d/*
- cuBLAS
- 安装 complete/not 是否损坏?
- 它是否安装在两台机器上的相同位置?
- 版本
- ...
您可以从两台机器上的 locate libcublas.so
开始,看看是否存在差异。或者,您可以 strace -f -e open
程序检查它尝试 libcublas.so
来自的位置。
您的错误(暂时)与 GPU 无关:libcublas.so.9.0
只是找不到。找到它,找到为什么Tensorflow找不到它,你的问题就迎刃而解了。
目前该工具似乎不支持 GP100。
找到答案here:
Nsight Compute only supports Pascal (other than GP100) and later GPUs.
我已经下载了最新的 Nsight Compute 分析工具,我想用它来对 Tensorflow 应用程序进行基准测试。我使用的代码是 here。当我执行它时它 运行 非常好,当我用 nvprof ./mnist.py
对它进行基准测试时它完全没有问题。但是,当我尝试使用命令 sudo ./nv-nsight-cu-cli [path to the file]
运行 时,出现以下错误:
ImportError: libcublas.so.9.0: cannot open shared object file: No such file or directory
我怀疑 nv-nsight-cu-cli
不知何故根本无法识别环境变量。有什么解决办法吗?
您需要在两种环境中搜索差异:
- 环境变量
LD_LIBRARY_PATH
/etc/ld.so.conf
/etc/ld.so.conf.d/*
- cuBLAS
- 安装 complete/not 是否损坏?
- 它是否安装在两台机器上的相同位置?
- 版本
- ...
您可以从两台机器上的 locate libcublas.so
开始,看看是否存在差异。或者,您可以 strace -f -e open
程序检查它尝试 libcublas.so
来自的位置。
您的错误(暂时)与 GPU 无关:libcublas.so.9.0
只是找不到。找到它,找到为什么Tensorflow找不到它,你的问题就迎刃而解了。
目前该工具似乎不支持 GP100。 找到答案here:
Nsight Compute only supports Pascal (other than GP100) and later GPUs.