配置任务分布式
Configuration Dask Distributed
我正在为我们的数据科学家建立一个工作环境。目前我们有一个安装了 Anaconda 和 Dask 的节点 运行 Jupyterhub。 (2 个插槽,6 个内核,每个内核 2 个线程,140 GB 内存)。当用户创建 LocalCluster 时,目前的默认设置是使用所有可用的内核和内存(据我所知)。这在明确完成时没问题,但我希望标准 LocalCluster 使用的少于此。因为我们所做的几乎所有事情都是
现在,当查看配置时,我没有看到处理 n_workers、n_threads_per_worker、n_cores 等的配置。对于内存,在 dask.config.get('distributed.worker')
中,我看到两个与内存相关的选项(memory
和 memory-limit
)均指定此处列出的行为:https://distributed.dask.org/en/latest/worker.html。
我还查看了 jupyterlab dask 扩展,它可以让我完成所有这些工作。但是,我不能强迫人们使用 jupyterlab。
TL;DR 我希望在创建集群时能够设置以下标准配置:
- n_workers
- processes = False(我想?)
- threads_per_worker
- memory_limit 每个工作人员或集群。我知道这只能是一个软限制。
也非常欢迎任何配置建议。
截至 2019 年 9 月 20 日,这尚未实施。我建议在 https://github.com/dask/distributed/issues/new 提出功能请求,甚至提出拉取请求。
我正在为我们的数据科学家建立一个工作环境。目前我们有一个安装了 Anaconda 和 Dask 的节点 运行 Jupyterhub。 (2 个插槽,6 个内核,每个内核 2 个线程,140 GB 内存)。当用户创建 LocalCluster 时,目前的默认设置是使用所有可用的内核和内存(据我所知)。这在明确完成时没问题,但我希望标准 LocalCluster 使用的少于此。因为我们所做的几乎所有事情都是
现在,当查看配置时,我没有看到处理 n_workers、n_threads_per_worker、n_cores 等的配置。对于内存,在 dask.config.get('distributed.worker')
中,我看到两个与内存相关的选项(memory
和 memory-limit
)均指定此处列出的行为:https://distributed.dask.org/en/latest/worker.html。
我还查看了 jupyterlab dask 扩展,它可以让我完成所有这些工作。但是,我不能强迫人们使用 jupyterlab。
TL;DR 我希望在创建集群时能够设置以下标准配置:
- n_workers
- processes = False(我想?)
- threads_per_worker
- memory_limit 每个工作人员或集群。我知道这只能是一个软限制。
也非常欢迎任何配置建议。
截至 2019 年 9 月 20 日,这尚未实施。我建议在 https://github.com/dask/distributed/issues/new 提出功能请求,甚至提出拉取请求。