在 Dask 中获取 PARTITION_ID 数据框
Get PARTITION_ID in Dask for Data Frame
拆分pandas DFs
后是否可以得到dask
中的partition_id
例如:
import dask.dataframe as dd
import pandas as pd
df = pd.DataFrame(np.random.randn(10,2), columns=["A","B"])
df_parts = dd.from_pandas(df, npartitions=2)
part1 = df_parts.get_partition(0)
在2部分中,part1
是first_partition
。那么是否可以做类似下面的事情:
part1.get_partition_id() => which will return 0 or 1
或者是否可以通过遍历 df_parts
来 get the partition ID
?
不确定内置函数,但您可以使用 enumerate(df_parts.to_delayed())
实现您想要的。
to_delayed
将生成一个延迟对象列表,每个分区一个,因此您可以遍历它们,使用 enumerate
.
跟踪序号
拆分pandas DFs
dask
中的partition_id
例如:
import dask.dataframe as dd
import pandas as pd
df = pd.DataFrame(np.random.randn(10,2), columns=["A","B"])
df_parts = dd.from_pandas(df, npartitions=2)
part1 = df_parts.get_partition(0)
在2部分中,part1
是first_partition
。那么是否可以做类似下面的事情:
part1.get_partition_id() => which will return 0 or 1
或者是否可以通过遍历 df_parts
来 get the partition ID
?
不确定内置函数,但您可以使用 enumerate(df_parts.to_delayed())
实现您想要的。
to_delayed
将生成一个延迟对象列表,每个分区一个,因此您可以遍历它们,使用 enumerate
.