您如何在 hdfs 中查看文件的行组
How do you see the row groups of your files in hdfs
我在 jira 中遇到了这个 page,我想知道如何获得相同的行组视图。像这样:
hdfs 中是否有可以向我显示此内容的命令?
我猜它是 parquet-tools
的输出,经过 grep
筛选,例如
$ parquet-tools meta --debug <file-name> | grep "row group"
我报告了 JIRA。我用了
parquet-tools meta /path/to/file.parquet | grep "row group"
然后手动编辑输出以对齐数字。或者,您可以附加 | column -t
进行一些基本对齐。尽管在这种情况下数字将左对齐而不是右对齐,但至少它们会一个接一个地排成一行。
parquet-tools
本身是 parquet-mr 中未记录的辅助脚本 included。您可以调用
而不是使用它
hadoop jar /path/to/parquet-tools-<VERSION>.jar
在 Hadoop 集群上或
java -jar /path/to/parquet-tools-<VERSION>.jar
本地。对于后者,您必须使用本地配置文件构建 parquet,即
mvn package -Plocal
这在build instructions中有描述。
我在 jira 中遇到了这个 page,我想知道如何获得相同的行组视图。像这样:
hdfs 中是否有可以向我显示此内容的命令?
我猜它是 parquet-tools
的输出,经过 grep
筛选,例如
$ parquet-tools meta --debug <file-name> | grep "row group"
我报告了 JIRA。我用了
parquet-tools meta /path/to/file.parquet | grep "row group"
然后手动编辑输出以对齐数字。或者,您可以附加 | column -t
进行一些基本对齐。尽管在这种情况下数字将左对齐而不是右对齐,但至少它们会一个接一个地排成一行。
parquet-tools
本身是 parquet-mr 中未记录的辅助脚本 included。您可以调用
hadoop jar /path/to/parquet-tools-<VERSION>.jar
在 Hadoop 集群上或
java -jar /path/to/parquet-tools-<VERSION>.jar
本地。对于后者,您必须使用本地配置文件构建 parquet,即
mvn package -Plocal
这在build instructions中有描述。