从 HDF5 文件列表创建一个 dask 数据框
Creating a dask dataframe from a list of HDF5 files
从 HDF5 文件列表创建 dask.dataframe 的正确方法是什么?我基本上想这样做,但是使用数据框
dsets = [h5py.File(fn)['/data'] for fn in sorted(glob('myfiles.*.hdf5')]
arrays = [da.from_array(dset, chunks=(1000, 1000)) for dset in dsets]
x = da.stack(arrays, axis=0)
简单地说,如果您的个人文件可以用 pd.read_hdf
读取,那么您可以用 dd.read_hdf
和 dd.concat
.
来读取
import dask.dataframe as dd
dfs = [dd.read_hdf(fn, '/data') for fn in sorted(glob('myfiles.*.hdf5')]
df = dd.concat(dfs)
但是直接在 dd.read_hdf
中支持这个习语会很有用(也很容易)。我为此创建了 an issue,并将在接下来的几天内尝试实现它。
从 HDF5 文件列表创建 dask.dataframe 的正确方法是什么?我基本上想这样做,但是使用数据框
dsets = [h5py.File(fn)['/data'] for fn in sorted(glob('myfiles.*.hdf5')]
arrays = [da.from_array(dset, chunks=(1000, 1000)) for dset in dsets]
x = da.stack(arrays, axis=0)
简单地说,如果您的个人文件可以用 pd.read_hdf
读取,那么您可以用 dd.read_hdf
和 dd.concat
.
import dask.dataframe as dd
dfs = [dd.read_hdf(fn, '/data') for fn in sorted(glob('myfiles.*.hdf5')]
df = dd.concat(dfs)
但是直接在 dd.read_hdf
中支持这个习语会很有用(也很容易)。我为此创建了 an issue,并将在接下来的几天内尝试实现它。