NoModuleFoundError: No module named 'distributed'

NoModuleFoundError: No module named 'distributed'

我正在尝试在使用 SLURM 的集群上实施 dask。客户端已成功创建和缩放,但是在第

with joblib.parallel_backend('dask'):

操作出现工作超时错误,我从 slurm 作业中收到以下错误:

/usr/bin/python3: Error while finding module specification for 'distributed.cli.dask_worker' (ModuleNotFoundError: No module named 'distributed')

我已经检查以确保已在集群的节点上安装了 distributed,并且我能够毫无问题地将其导入 python。有谁知道为什么分布式会导致问题?

您没有安装 distributed 库。这通常有以下几个原因:

  1. 你做了 pip install dask 而不是 pip install dask[complete]conda install dask

  2. 您在计算机上安装了另一个 python 可执行文件 运行

    我看到您正在使用 /usr/bin/python3。为了更加安全,请尝试 /usr/bin/python3 -m pip dask[complete]

  3. 您的工作机器不与您的登录节点共享相同的文件系统

使用 dask[complete] 打造全新的 conda 环境似乎奏效了。