为什么 dask 部门需要是唯一的?

Why do dask divisions need to be unique?

我想使用已知的划分为 dask 数据帧 (from_delayed) 设置索引。然而,dask 抱怨说这些部门必须是唯一的。这个限制给我带来了麻烦,因为分区的大小约为 5GB,这对我来说有点太多了。

有没有办法绕过这个限制或对某些操作放宽它?

您应该将分区视为一种​​优化,它允许 dask 知道哪些数据需要在哪个分区中进行某些操作(groupby、获取特定索引行等)。

如果您的数据没有按照索引上的分区唯一的方式组织,您有一个简单的选择:根本不提供分区。然后你会失去那些不适合你的情况的某些优化。或者,您可以决定在数据内或在将数据传递给 dask 之前重新组织数据。