如何使用 Java 在 HDFS 中创建和填充 Parquet 文件?
How to create and populate Parquet files in HDFS using Java?
在没有 Hive 或 Impala 库支持的情况下,使用 Java 在 HDFS 中创建和填充 Parquet 文件的最佳方法是什么?
我的目标是将一个简单的 csv 记录(字符串)写入位于 HDFS 中的 Parquet 文件。
之前问的questions/answers都是一头雾水。
似乎 parquet-mr is the way to go. They provide implementations for Thrift and Avro. Own implementations should be based on ParquetOutputFormat and might look similar to AvroParquetOutputFormat and AvroWriteSupport 进行实际转换。
在没有 Hive 或 Impala 库支持的情况下,使用 Java 在 HDFS 中创建和填充 Parquet 文件的最佳方法是什么?
我的目标是将一个简单的 csv 记录(字符串)写入位于 HDFS 中的 Parquet 文件。
之前问的questions/answers都是一头雾水。
似乎 parquet-mr is the way to go. They provide implementations for Thrift and Avro. Own implementations should be based on ParquetOutputFormat and might look similar to AvroParquetOutputFormat and AvroWriteSupport 进行实际转换。