设置迷你 Dask 集群

Setting up mini Dask cluster

为了更好地理解 Dask,我决定建立一个小型 Dask 集群:两台服务器 32GB RAM 和一台 Mac。所有都是本地 LAN 的一部分,所有 运行 相同版本的 Python 3.5 + Dask 安装在虚拟环境下。 我在两台服务器上都安装了 sshfs 以在工作人员之间共享数据。我能够在 192.168.2.149 上启动 dask-scheduler 并在 192.168.2.26 上启动 4 个 dask-worker。

我需要帮助的是对拓扑的概念性理解,以充分受益于 dask 分布式架构: - 我 运行 在我的 Mac 上进行实验,它是 LAN 的一部分。我有一个 20 GB 的 csv,我需要加载到 Pandas 中,因此我在本地 运行 我的 py 代码。在我的代码中,我设置了一个 Dask 客户端来使用 dask_scheduler:

client = Client('192.168.2.149:8786')

然后我尝试像这样加载大型 csv:

df = dd.read_csv("exp3_raw_data.csv", sep="\t") 

csv 仅存在于我的 mac 中,因此 dask_workers 对 csv 一无所知。如果我将 csv 移动到通过 sshfs 共享的目录,那么我的 mac 将如何引用该 csv?

感谢任何帮助。

If I move the csv to the directory shared via sshfs, then how would my mac reference that csv?

您将必须找到一个对您的客户和所有 dask workers 统一可用的地址。 Dask 不会为您移动文件。它希望它们可以访问。

将 Dask 与所有工作人员都可以看到的网络文件系统一起使用更为常见。