如何使用 Java 在 HDFS 中创建和填充 Parquet 文件?

How to create and populate Parquet files in HDFS using Java?

在没有 Hive 或 Impala 库支持的情况下,使用 Java 在 HDFS 中创建和填充 Parquet 文件的最佳方法是什么?

我的目标是将一个简单的 csv 记录(字符串)写入位于 HDFS 中的 Parquet 文件。

之前问的questions/answers都是一头雾水。

似乎 parquet-mr is the way to go. They provide implementations for Thrift and Avro. Own implementations should be based on ParquetOutputFormat and might look similar to AvroParquetOutputFormat and AvroWriteSupport 进行实际转换。