mutliindex dask 数据帧到 2d dask 数组
mutliindex dask dataframe to 2d dask array
我有 n
个格式相同的 CSV(相同 k
个特征)。我希望构建一个 2d dask 数组 n
示例 k
具有用于 PCA、模型构建等的 dask 数组
我使用 dd.read_csv("*_all_csvs.csv") 将它们读入一个 dask 数据帧,此时我的 dask 数据帧基本上只是 sample
、feature
、 feature_value
。有没有一种有效的方法可以通过 k
特征将多索引数据帧转换为 n
样本的二维 dask 数组?
类似以下的方法可能有效:
df = dd.read_csv('*.csv')
df = df.categorize()
df = df.get_dummies()
x = df.values
不过这还没有经过测试,所以您可能 运行 会遇到问题。我建议先使用 Pandas 尝试此操作,并为以后的问题提供 mcve。
我有 n
个格式相同的 CSV(相同 k
个特征)。我希望构建一个 2d dask 数组 n
示例 k
具有用于 PCA、模型构建等的 dask 数组
我使用 dd.read_csv("*_all_csvs.csv") 将它们读入一个 dask 数据帧,此时我的 dask 数据帧基本上只是 sample
、feature
、 feature_value
。有没有一种有效的方法可以通过 k
特征将多索引数据帧转换为 n
样本的二维 dask 数组?
类似以下的方法可能有效:
df = dd.read_csv('*.csv')
df = df.categorize()
df = df.get_dummies()
x = df.values
不过这还没有经过测试,所以您可能 运行 会遇到问题。我建议先使用 Pandas 尝试此操作,并为以后的问题提供 mcve。