配置任务分布式

Configuration Dask Distributed

我正在为我们的数据科学家建立一个工作环境。目前我们有一个安装了 Anaconda 和 Dask 的节点运行 Jupyterhub。（2 个插槽，6 个内核，每个内核 2 个线程，140 GB 内存）。当用户创建 LocalCluster 时，目前的默认设置是使用所有可用的内核和内存（据我所知）。这在明确完成时没问题，但我希望标准 LocalCluster 使用的少于此。因为我们所做的几乎所有事情都是

现在，当查看配置时，我没有看到处理 n_workers、n_threads_per_worker、n_cores 等的配置。对于内存，在 dask.config.get('distributed.worker') 中，我看到两个与内存相关的选项（memory 和 memory-limit）均指定此处列出的行为：https://distributed.dask.org/en/latest/worker.html。

我还查看了 jupyterlab dask 扩展，它可以让我完成所有这些工作。但是，我不能强迫人们使用 jupyterlab。

TL;DR 我希望在创建集群时能够设置以下标准配置：

n_workers
processes = False（我想？）
threads_per_worker
memory_limit 每个工作人员或集群。我知道这只能是一个软限制。

也非常欢迎任何配置建议。

截至 2019 年 9 月 20 日，这尚未实施。我建议在 https://github.com/dask/distributed/issues/new 提出功能请求，甚至提出拉取请求。

配置任务分布式

Configuration Dask Distributed

dask

dask-distributed