如何为默认的 dask 调度程序指定 threads/processes 的数量

How to specify the number of threads/processes for the default dask scheduler

有没有办法限制默认线程调度程序(使用 dask 数据帧时的默认值)使用的核心数?

使用compute,您可以使用以下方式指定它:

df.compute(get=dask.threaded.get, num_workers=20)

但我想知道是否有办法将其设置为默认值,这样您就不需要为每个 compute 调用指定它?

例如,在小型集群(例如 64 核)的情况下会很有趣,但与其他人共享(没有工作系统),我不想占用所有核心当用 dask 开始计算时。

您可以指定默认线程池

from multiprocessing.pool import ThreadPool
import dask
dask.config.set(pool=ThreadPool(20))