如何 add/append 一行到 dask 数据帧中的特定分区?

How to add/append a row to a particular partition in the dask dataframe?

我想将一行附加到 dask 数据帧中的特定分区。我尝试了很多方法,但其中 none 是可行的。谁可以帮我这个事。提前致谢

我试过了-

first_partition = df.partitions[0]
new_dd = first_partiton.append(row)
df.partitions[0] = new_dd

这行不通

我什至尝试使用 map_partitions(),但即使这个函数也不能真正帮助获取分区的元数据来修改特定分区。

是否可以将数据帧保存为镶木地板并仅修改特定的镶木地板文件并将其保存回来? - 我试过了,即使这样似乎也行不通。

使用 map_partitions 您可以修改该特定分区。

然后通过切换到延迟对象替换数据帧中修改后的分区来创建一个新帧,将延迟对象替换到列表中,然后切换回 dask 数据帧。


def append_row_dict(df, row_dict):
    small_df = pd.DataFrame(row_dict)
    return df.append(small_df)
    
p_df = pd.DataFrame({'a':np.arange(0,10)})

dask_df = dd.from_pandas(p_df,npartitions=4)
part_to_change = 1

new_partion = dask_df.get_partition(part_to_change).map_partitions(append_row_dict,{'a':[-1]})
list_of_delayed = dask_df.to_delayed()

## we only have 1 delayed object for 1 partition
assert new_partion.npartitions==1
list_of_delayed[part_to_change]=new_partion.to_delayed()[0]

new_dask_df = dd.from_delayed(list_of_delayed, meta=dask_df._meta)
new_dask_df.get_partition(part_to_change).compute()
    a
3   3
4   4
5   5
0   -1