在 HDFS 中合并两个镶木地板文件

Merge two parquet files in HDFS

我有一些 HDFS 格式的 parquet 文件。我想将这些文件合并成一个大文件。

我该怎么做?

除了文本文件,我已经做了类似下面的事情。

hadoop fs -cat /input_hdfs_dir/* | hadoop fs -put - /output_hdfs_file

但是在parquet格式下无法达到想要的效果。

我怎样才能达到我的要求?

无法使用 hdfs 命令合并 parquet 文件。

有一个parquet-tools library可以帮你实现mergingparquet个文件。命令应该是

java jar ./parquet-tools-<VERSION>.jar <command> <input-directory> <output-file>

可以使用相同的工具合并 Hadoop 中的多个文件,只需在 ./parquet-tools

之前使用 $hadoop jar 而不是 $java -jar