在 Dask 数据帧中的现有索引上设置分区
Set partitions on existing index in Dask dataframe
如果我有一个已经索引的 Dask 数据框
>>> A.divisions
(None, None)
>>> A.npartitions
1
我想设置分区,到目前为止我正在做
A.reset_index().set_index("index", divisions=sorted(divisions))
因为 A.repartition(divisions=sorted(divisions))
抱怨 "left side of old and new divisions are different"。有没有更好的方法?
从 dask.__version__ == '0.16.0'
开始,如果您碰巧知道现有数据框的划分,您可以直接分配它们。
A.divisions = tuple(divisions)
如果我有一个已经索引的 Dask 数据框
>>> A.divisions
(None, None)
>>> A.npartitions
1
我想设置分区,到目前为止我正在做
A.reset_index().set_index("index", divisions=sorted(divisions))
因为 A.repartition(divisions=sorted(divisions))
抱怨 "left side of old and new divisions are different"。有没有更好的方法?
从 dask.__version__ == '0.16.0'
开始,如果您碰巧知道现有数据框的划分,您可以直接分配它们。
A.divisions = tuple(divisions)