在 Julia 中将自定义元数据写入 Parquet 文件

Write custom metadata to Parquet file in Julia

我目前正在使用 Parquet.jl 将 Julia 模拟的输出(Julia 数据帧)存储在 Parquet 文件中。我还想将一些模拟参数(例如(字节)字符串列表)保存到同一个输出文件中。

最好,这些参数对于每一列都是不同的,因为每一列都是我的代码的不同起始条件的结果。但是,我也可以使用全局参数列表,然后通过索引解开它。

我使用 pyarrow

找到了 Python 的解决方案

https://mungingdata.com/pyarrow/arbitrary-metadata-parquet-table/.

你知道在 Julia 中如何做到这一点吗?

还没有完全完成,也没有注册,但是我重写了 Julia parquet 包,Parquet2.jl 确实支持自定义文件元数据和单个列元数据(关键字参数 metadatacolumn_metadataParquet2.writefile.

我还没有开始编写文档,但如果您喜欢冒险,可以试一试。我确实希望在接下来的几周内完成这个包并进行注册。我还没有编写单元测试,所以当然,如果你尝试它并遇到问题,请打开一个问题。

可能还值得一提的是,我为 parquet 推荐的主要用例是,如果您出于兼容性原因必须 使用 parquet。大多数时候,Julia 用户使用 Arrow.jl as the format has a number of advantages over parquet for most use cases, please see my FAQ answer on this 可能会更好。当然,我着手编写这个包的原因是因为 parquet 可以说是“大数据世界”中唯一普遍存在的二进制格式,因此迫切需要一个强大的编写器。