替换 dask 数据框分区

Replace a dask dataframe partition

我可以用我单独创建的另一个具有相同行数和相同结构的 dask dataframe 分区替换 dask dataframe 分区吗? 如果是,如何?

是否可以使用不同的行数?

您可以使用 dd.concat 函数将分区添加到 Dask 数据帧的开头或结尾。

您可以通过切换到延迟对象,将延迟对象插入列表,然后切换回 dask 数据帧,在数据帧中的任何位置插入新分区

list_of_delayed = dask_df.to_delayed()
new_partition = dask.delayed(pd.read_csv)(filename)
list_of_delayed[i] = new_partition
new_dask_df = dd.from_delayed(list_of_delayed, meta=dask_df._meta)

行数可以不同,但​​列数和数据类型必须相同