使用 Java API 将 Parquet 格式写入 HDFS,而不使用 Avro 和 MR
Write Parquet format to HDFS using Java API with out using Avro and MR
将Parquet Format写入HDFS的简单方法是什么(使用Java API) 直接创建 Pojo 的 Parquet Schema,而不使用 avro 和 MR?
我发现的示例已过时并且使用了已弃用的方法也使用了 Avro、spark 或 MR 之一。
实际上,如果没有外部框架的帮助,reading/writing Apache parquet 文件可用的样本不多。
核心 parquet 库是 parquet-column,您可以在其中直接找到一些测试文件 reading/writing:https://github.com/apache/parquet-mr/blob/master/parquet-column/src/test/java/org/apache/parquet/io/TestColumnIO.java
然后您只需对 HDFS 文件使用相同的功能。您可以为此关注这个 SOW 问题:Accessing files in HDFS using Java
更新:回应 API 的弃用部分:AvroWriteSupport 应替换为 AvroParquetWriter,我检查了 ParquetWriter,它没有被弃用,可以安全使用。
此致,
洛伊克
将Parquet Format写入HDFS的简单方法是什么(使用Java API) 直接创建 Pojo 的 Parquet Schema,而不使用 avro 和 MR?
我发现的示例已过时并且使用了已弃用的方法也使用了 Avro、spark 或 MR 之一。
实际上,如果没有外部框架的帮助,reading/writing Apache parquet 文件可用的样本不多。
核心 parquet 库是 parquet-column,您可以在其中直接找到一些测试文件 reading/writing:https://github.com/apache/parquet-mr/blob/master/parquet-column/src/test/java/org/apache/parquet/io/TestColumnIO.java
然后您只需对 HDFS 文件使用相同的功能。您可以为此关注这个 SOW 问题:Accessing files in HDFS using Java
更新:回应 API 的弃用部分:AvroWriteSupport 应替换为 AvroParquetWriter,我检查了 ParquetWriter,它没有被弃用,可以安全使用。
此致,
洛伊克