vaex:如何限制 cores/threads/processes 的数量?

vaex: How to limit number of cores/threads/processes?

如何限制 vaex 使用的 cores/threads/processes 的数量?一些操作有一个布尔 parallel 开关,但我看不到有更细粒度控制的方法(这在较大的共享服务器上很重要)。

手边的代码片段:

vaex.open("/very/large/file.parquet/")\
   .sample(frac=0.01)\
   .export_parquet("/slightly/smaller/file.parquet", parallel=True)

关于线程数,可以使用一个名为VAEX_NUM_THREADS的环境变量,默认使用multiprocessing.cpu_count()

cf https://github.com/vaexio/vaex/blob/2418d56a1925a82557a8e86493f5e5d117c06049/packages/vaex-core/vaex/multithreading.py#L21