如何在模式中使用 Parquet UUID 逻辑类型

How to use the Parquet UUID Logical Type in a schema

最近,parquet-format project added a UUID logical type. Specifically, this was added in revision 2.4 of the parquet format. I'm interested in using the parquet-mr 库在 Java 中创建了一些 parquet 文件,但我似乎无法弄清楚如何在 parquet 模式中使用 UUID 逻辑类型。像这样的简单模式似乎并没有像我希望的那样工作:

message SimpleSchema {
  required int32 value1;
  required fixed_len_byte_array(16) value2 ( UUID );
}

我已经尝试过此模式的许多变体,但到目前为止还没有设法使用 MessageTypeParser.parseMessageType 方法对其进行解析。这是 parquet-mr 库的错误或限制吗?或者我只是错误地格式化了我的模式?谢谢!

parquet-mr 库目前不支持 UUID 逻辑类型。跟踪此功能的实施进度存在问题 here

最近实施:
https://issues.apache.org/jira/browse/PARQUET-1827
但尚未包含在官方 1.11.1 版本中。
请使用 github 来源的 1.12.0-SNAPHOT 以利用最新功能:
https://github.com/apache/parquet-mr