设置迷你 Dask 集群

Question

为了更好地理解 Dask，我决定建立一个小型 Dask 集群：两台服务器 32GB RAM 和一台 Mac。所有都是本地 LAN 的一部分，所有运行相同版本的 Python 3.5 + Dask 安装在虚拟环境下。我在两台服务器上都安装了 sshfs 以在工作人员之间共享数据。我能够在 192.168.2.149 上启动 dask-scheduler 并在 192.168.2.26 上启动 4 个 dask-worker。

我需要帮助的是对拓扑的概念性理解，以充分受益于 dask 分布式架构： - 我运行在我的 Mac 上进行实验，它是 LAN 的一部分。我有一个 20 GB 的 csv，我需要加载到 Pandas 中，因此我在本地运行我的 py 代码。在我的代码中，我设置了一个 Dask 客户端来使用 dask_scheduler:

client = Client('192.168.2.149:8786')

然后我尝试像这样加载大型 csv：

df = dd.read_csv("exp3_raw_data.csv", sep="\t")

csv 仅存在于我的 mac 中，因此 dask_workers 对 csv 一无所知。如果我将 csv 移动到通过 sshfs 共享的目录，那么我的 mac 将如何引用该 csv？

感谢任何帮助。

Answer 1

If I move the csv to the directory shared via sshfs, then how would my mac reference that csv?

您将必须找到一个对您的客户和所有 dask workers 统一可用的地址。 Dask 不会为您移动文件。它希望它们可以访问。

将 Dask 与所有工作人员都可以看到的网络文件系统一起使用更为常见。

设置迷你 Dask 集群

Setting up mini Dask cluster

python

csv

dask

dask-delayed