使用 Java API 将 Parquet 格式写入 HDFS,而不使用 Avro 和 MR

Write Parquet format to HDFS using Java API with out using Avro and MR

Parquet Format写入HDFS的简单方法是什么(使用Java API) 直接创建 Pojo 的 Parquet Schema,而不使用 avroMR?

我发现的示例已过时并且使用了已弃用的方法也使用了 Avro、spark 或 MR 之一。

实际上,如果没有外部框架的帮助,reading/writing Apache parquet 文件可用的样本不多。

核心 parquet 库是 parquet-column,您可以在其中直接找到一些测试文件 reading/writing:https://github.com/apache/parquet-mr/blob/master/parquet-column/src/test/java/org/apache/parquet/io/TestColumnIO.java

然后您只需对 HDFS 文件使用相同的功能。您可以为此关注这个 SOW 问题:Accessing files in HDFS using Java

更新:回应 API 的弃用部分:AvroWriteSupport 应替换为 AvroParquetWriter,我检查了 ParquetWriter,它没有被弃用,可以安全使用。

此致,

洛伊克