使用 Dask 数据框删除列

Drop column using Dask dataframe

这应该有效:

raw_data.drop('some_great_column', axis=1).compute()

但是该列没有被删除。在 pandas 我使用:

raw_data.drop(['some_great_column'], axis=1, inplace=True)

但是Dask中不存在inplace。有什么想法吗?

你可以分成两个操作:

# dask operation
raw_data = raw_data.drop('some_great_column', axis=1)

# conversion to pandas
df = raw_data.compute()

然后将 Pandas 数据帧导出到 CSV 文件:

df.to_csv(r'out.csv', index=False)

我假设您想在 Dask DF 中保留“原始数据”。在这种情况下,以下将起到作用:

new_raw_df = raw_data.drop('some_great_column', axis=1).copy()

其中type(new_raw_df)dask.dataframe.core.DataFrame,您可以删除原来的DF。