如何从 Apache Spark 写入 HDF5 文件？

How do I write HDF5 files from Apache Spark?

我找到了用于从 Spark 读取 HDF5 文件的工具，但没有用于写入它们的工具。可能吗？

我们有一个大小为 10-40TB 的数据集。我们目前将其写成大约 20,000 Python 个 pickle 文件。那不是很便携。此外，HDF5 提供压缩功能。

我们可以写parquet文件，一种方法是把parquet写出来，然后转成HDF5。但是，这种方法并不理想，因为 none 的转换工具是多线程的。

我们想使用 HDF5，因为它在科学界有广泛的接受度。它对 Matlab 和 Stata 等程序的支持明显优于 parquet。

经与 HDFGroup 协商，我们确定目前无法直接从 Spark 写入 HDF5 文件。它们可以使用 numpy 和 pandas 从 Dask 中编写，但不能从 Spark 中编写。