如何从 Apache Spark 写入 HDF5 文件?

How do I write HDF5 files from Apache Spark?

我找到了用于从 Spark 读取 HDF5 文件的工具,但没有用于写入它们的工具。可能吗?

我们有一个大小为 10-40TB 的数据集。我们目前将其写成大约 20,000 Python 个 pickle 文件。那不是很便携。此外,HDF5 提供压缩功能。

我们可以写parquet文件,一种方法是把parquet写出来,然后转成HDF5。但是,这种方法并不理想,因为 none 的转换工具是多线程的。

我们想使用 HDF5,因为它在科学界有广泛的接受度。它对 Matlab 和 Stata 等程序的支持明显优于 parquet。

经与 HDFGroup 协商,我们确定目前无法直接从 Spark 写入 HDF5 文件。它们可以使用 numpy 和 pandas 从 Dask 中编写,但不能从 Spark 中编写。