如何为默认的 dask 调度程序指定 threads/processes 的数量
How to specify the number of threads/processes for the default dask scheduler
有没有办法限制默认线程调度程序(使用 dask 数据帧时的默认值)使用的核心数?
使用compute
,您可以使用以下方式指定它:
df.compute(get=dask.threaded.get, num_workers=20)
但我想知道是否有办法将其设置为默认值,这样您就不需要为每个 compute
调用指定它?
例如,在小型集群(例如 64 核)的情况下会很有趣,但与其他人共享(没有工作系统),我不想占用所有核心当用 dask 开始计算时。
您可以指定默认线程池
from multiprocessing.pool import ThreadPool
import dask
dask.config.set(pool=ThreadPool(20))
有没有办法限制默认线程调度程序(使用 dask 数据帧时的默认值)使用的核心数?
使用compute
,您可以使用以下方式指定它:
df.compute(get=dask.threaded.get, num_workers=20)
但我想知道是否有办法将其设置为默认值,这样您就不需要为每个 compute
调用指定它?
例如,在小型集群(例如 64 核)的情况下会很有趣,但与其他人共享(没有工作系统),我不想占用所有核心当用 dask 开始计算时。
您可以指定默认线程池
from multiprocessing.pool import ThreadPool
import dask
dask.config.set(pool=ThreadPool(20))