在 Dask 数据帧中的现有索引上设置分区

Set partitions on existing index in Dask dataframe

如果我有一个已经索引的 Dask 数据框

>>> A.divisions
(None, None)
>>> A.npartitions
1

我想设置分区,到目前为止我正在做

A.reset_index().set_index("index", divisions=sorted(divisions))

因为 A.repartition(divisions=sorted(divisions)) 抱怨 "left side of old and new divisions are different"。有没有更好的方法?

dask.__version__ == '0.16.0' 开始,如果您碰巧知道现有数据框的划分,您可以直接分配它们。

A.divisions = tuple(divisions)