展示 parquet 文件是如何复制和存储在 HDFS 上的

Question

以 parquet 格式存储的数据导致 HDFS 上的文件夹中有许多小文件。

有没有办法查看这些文件在 HDFS 中的复制方式（在哪些节点上）？

提前致谢。

Answer 1

如果我正确理解你的问题，你实际上想要跟踪哪个数据块在哪个数据节点上，而不是特定于 apache-spark。

您可以使用 hadoop fsck 命令如下：

hadoop fsck <path> -files -blocks -locations

这将打印出指定路径中每个块的位置。

Show how a parquet file is replicated and stored on HDFS