用dask对非常大的数据进行排序?

sort very large data with dask?

我需要对超过我正在使用的机器的物理内存大小的数据进行排序 table。 Pandas 无法处理,因为它需要将整个数据读入内存。 dask 可以处理吗?

谢谢!

是的,通过在您希望排序的列上调用 set_index。在一台机器上,它会智能地使用您的硬盘来处理多余的 space。