mutliindex dask 数据帧到 2d dask 数组

mutliindex dask dataframe to 2d dask array

我有 n 个格式相同的 CSV(相同 k 个特征)。我希望构建一个 2d dask 数组 n 示例 k 具有用于 PCA、模型构建等的 dask 数组

我使用 dd.read_csv("*_all_csvs.csv") 将它们读入一个 dask 数据帧,此时我的 dask 数据帧基本上只是 samplefeaturefeature_value。有没有一种有效的方法可以通过 k 特征将多索引数据帧转换为 n 样本的二维 dask 数组?

类似以下的方法可能有效:

df = dd.read_csv('*.csv')
df = df.categorize()
df = df.get_dummies()
x = df.values

不过这还没有经过测试,所以您可能 运行 会遇到问题。我建议先使用 Pandas 尝试此操作,并为以后的问题提供 mcve