替换 dask 数据框分区
Replace a dask dataframe partition
我可以用我单独创建的另一个具有相同行数和相同结构的 dask dataframe 分区替换 dask dataframe 分区吗?
如果是,如何?
是否可以使用不同的行数?
您可以使用 dd.concat
函数将分区添加到 Dask 数据帧的开头或结尾。
您可以通过切换到延迟对象,将延迟对象插入列表,然后切换回 dask 数据帧,在数据帧中的任何位置插入新分区
list_of_delayed = dask_df.to_delayed()
new_partition = dask.delayed(pd.read_csv)(filename)
list_of_delayed[i] = new_partition
new_dask_df = dd.from_delayed(list_of_delayed, meta=dask_df._meta)
行数可以不同,但列数和数据类型必须相同
我可以用我单独创建的另一个具有相同行数和相同结构的 dask dataframe 分区替换 dask dataframe 分区吗? 如果是,如何?
是否可以使用不同的行数?
您可以使用 dd.concat
函数将分区添加到 Dask 数据帧的开头或结尾。
您可以通过切换到延迟对象,将延迟对象插入列表,然后切换回 dask 数据帧,在数据帧中的任何位置插入新分区
list_of_delayed = dask_df.to_delayed()
new_partition = dask.delayed(pd.read_csv)(filename)
list_of_delayed[i] = new_partition
new_dask_df = dd.from_delayed(list_of_delayed, meta=dask_df._meta)
行数可以不同,但列数和数据类型必须相同