配置任务分布式

Configuration Dask Distributed

我正在为我们的数据科学家建立一个工作环境。目前我们有一个安装了 Anaconda 和 Dask 的节点 运行 Jupyterhub。 (2 个插槽,6 个内核,每个内核 2 个线程,140 GB 内存)。当用户创建 LocalCluster 时,目前的默认设置是使用所有可用的内核和内存(据我所知)。这在明确完成时没问题,但我希望标准 LocalCluster 使用的少于此。因为我们所做的几乎所有事情都是

现在,当查看配置时,我没有看到处理 n_workers、n_threads_per_worker、n_cores 等的配置。对于内存,在 dask.config.get('distributed.worker') 中,我看到两个与内存相关的选项(memorymemory-limit)均指定此处列出的行为:https://distributed.dask.org/en/latest/worker.html

我还查看了 jupyterlab dask 扩展,它可以让我完成所有这些工作。但是,我不能强迫人们使用 jupyterlab。

TL;DR 我希望在创建集群时能够设置以下标准配置:

  1. n_workers
  2. processes = False(我想?)
  3. threads_per_worker
  4. memory_limit 每个工作人员或集群。我知道这只能是一个软限制。

也非常欢迎任何配置建议。

截至 2019 年 9 月 20 日,这尚未实施。我建议在 https://github.com/dask/distributed/issues/new 提出功能请求,甚至提出拉取请求。