在 HDFS 中合并两个镶木地板文件
Merge two parquet files in HDFS
我有一些 HDFS
格式的 parquet
文件。我想将这些文件合并成一个大文件。
我该怎么做?
除了文本文件,我已经做了类似下面的事情。
hadoop fs -cat /input_hdfs_dir/* | hadoop fs -put - /output_hdfs_file
但是在parquet
格式下无法达到想要的效果。
我怎样才能达到我的要求?
无法使用 hdfs 命令合并 parquet
文件。
有一个parquet-tools library可以帮你实现merging
个parquet
个文件。命令应该是
java jar ./parquet-tools-<VERSION>.jar <command> <input-directory> <output-file>
可以使用相同的工具合并 Hadoop 中的多个文件,只需在 ./parquet-tools
之前使用 $hadoop jar 而不是 $java -jar
我有一些 HDFS
格式的 parquet
文件。我想将这些文件合并成一个大文件。
我该怎么做?
除了文本文件,我已经做了类似下面的事情。
hadoop fs -cat /input_hdfs_dir/* | hadoop fs -put - /output_hdfs_file
但是在parquet
格式下无法达到想要的效果。
我怎样才能达到我的要求?
无法使用 hdfs 命令合并 parquet
文件。
有一个parquet-tools library可以帮你实现merging
个parquet
个文件。命令应该是
java jar ./parquet-tools-<VERSION>.jar <command> <input-directory> <output-file>
可以使用相同的工具合并 Hadoop 中的多个文件,只需在 ./parquet-tools
之前使用 $hadoop jar 而不是 $java -jar