在 Dask 中获取 PARTITION_ID 数据框

Get PARTITION_ID in Dask for Data Frame

拆分pandas DFs

后是否可以得到dask中的partition_id

例如:

import dask.dataframe as dd
import pandas as pd
df = pd.DataFrame(np.random.randn(10,2), columns=["A","B"])
df_parts = dd.from_pandas(df, npartitions=2)
part1 = df_parts.get_partition(0)

在2部分中,part1first_partition。那么是否可以做类似下面的事情:

part1.get_partition_id() => which will return 0 or 1

或者是否可以通过遍历 df_partsget the partition ID

不确定内置函数,但您可以使用 enumerate(df_parts.to_delayed()) 实现您想要的。

to_delayed 将生成一个延迟对象列表,每个分区一个,因此您可以遍历它们,使用 enumerate.

跟踪序号