如何在 C++ 中使用 apache parquet 将文件范围的元数据写入 parquetfiles

How to write file-wide metadata into parquetfiles with apache parquet in C++

我使用 apache parquet 创建包含机器进程信息的 Parquet 表,我需要存储文件范围的元数据(机器 ID 和机器名称)。

据说 parquet 文件能够存储文件范围的元数据,但是我在文档中找不到任何相关信息。

说明了如何使用 pyarrow 完成它。就 post 而言,我需要某种键值对(可能是 map)并以某种方式将其添加到架构中。

我在 parquet 源代码中找到了一个名为 parquet::FileMetaData 的 class 可以用于此目的,但是文档中没有关于它的任何内容。

是否可以使用 c++ 存储文件范围的元数据?

目前我正在使用 stream_reader_writer example 编写 parquet 文件

您可以在调用parquet::ParquetFileWriter::Open时传递文件级元数据,参见source code here