python dask dataframe 将元组列拆分为两列
python dask dataframe splitting column of tuples into two columns
我正在使用 python 2.7 和 dask
我有一个包含一列元组的数据框,我是这样创建的:
table[col] = table.apply(lambda x: (x[col1],x[col2]), axis = 1, meta = pd.Dataframe)
我想将这个元组列重新转换成两个单独的列
在 pandas 我会这样做:
table[[col1,col2]] = table[col].apply(pd.Series)
这样做的目的是,dask dataframe 不支持多索引,我想根据多列使用 groupby,并希望创建一个元组列,给我一个包含所有值的索引我需要(请忽略效率与多索引,因为还没有完全支持这个 dask 数据框)
当我尝试使用以下代码用 dask 解压元组列时:
rxTable[["a","b"]] = rxTable["tup"].apply(lambda x: s(x), meta = pd.DataFrame, axis = 1)
我收到这个错误
AttributeError: 'Series' object has no attribute 'columns'
当我尝试时
rxTable[["a","b"]] = rxTable["tup"].apply(dd.Series, axis = 1, meta = pd.DataFrame)
我也一样
我怎样才能像在 Pandas 中那样将一列元组转换为两列而没有问题?
谢谢
我发现最好的是转换成 pandas 数据框,然后转换列,然后返回 dask
df1 = df.compute()
df1[["a","b"]] = df1["c"].apply(pd.Series)
df = dd.from_pandas(df1,npartitions=1)
这会很好用,如果 df 对内存来说太大,您可以:
1.compute只取想要的列,将其转换为两列,然后使用合并将拆分结果放入原始df
2.split df 成块,然后转换每个块并将其添加到一个 hd5 文件中,然后使用 dask 将整个 hd5 文件读取到 dask 数据帧中
我发现这种方法很有效,避免了将 Dask DataFrame 转换为 Pandas:
df['a'] = df['tup'].str.partition(sep)[0]
df['b'] = df['tup'].str.partition(sep)[2]
其中 sep
是您在列中用来分隔两个元素的分隔符。
我正在使用 python 2.7 和 dask
我有一个包含一列元组的数据框,我是这样创建的:
table[col] = table.apply(lambda x: (x[col1],x[col2]), axis = 1, meta = pd.Dataframe)
我想将这个元组列重新转换成两个单独的列 在 pandas 我会这样做:
table[[col1,col2]] = table[col].apply(pd.Series)
这样做的目的是,dask dataframe 不支持多索引,我想根据多列使用 groupby,并希望创建一个元组列,给我一个包含所有值的索引我需要(请忽略效率与多索引,因为还没有完全支持这个 dask 数据框)
当我尝试使用以下代码用 dask 解压元组列时:
rxTable[["a","b"]] = rxTable["tup"].apply(lambda x: s(x), meta = pd.DataFrame, axis = 1)
我收到这个错误
AttributeError: 'Series' object has no attribute 'columns'
当我尝试时
rxTable[["a","b"]] = rxTable["tup"].apply(dd.Series, axis = 1, meta = pd.DataFrame)
我也一样
我怎样才能像在 Pandas 中那样将一列元组转换为两列而没有问题?
谢谢
我发现最好的是转换成 pandas 数据框,然后转换列,然后返回 dask
df1 = df.compute()
df1[["a","b"]] = df1["c"].apply(pd.Series)
df = dd.from_pandas(df1,npartitions=1)
这会很好用,如果 df 对内存来说太大,您可以: 1.compute只取想要的列,将其转换为两列,然后使用合并将拆分结果放入原始df 2.split df 成块,然后转换每个块并将其添加到一个 hd5 文件中,然后使用 dask 将整个 hd5 文件读取到 dask 数据帧中
我发现这种方法很有效,避免了将 Dask DataFrame 转换为 Pandas:
df['a'] = df['tup'].str.partition(sep)[0]
df['b'] = df['tup'].str.partition(sep)[2]
其中 sep
是您在列中用来分隔两个元素的分隔符。