展示 parquet 文件是如何复制和存储在 HDFS 上的

Show how a parquet file is replicated and stored on HDFS

以 parquet 格式存储的数据导致 HDFS 上的文件夹中有许多小文件。

有没有办法查看这些文件在 HDFS 中的复制方式(在哪些节点上)?

提前致谢。

如果我正确理解你的问题,你实际上想要跟踪哪个数据块在哪个数据节点上,而不是特定于 apache-spark。

您可以使用 hadoop fsck 命令如下:

hadoop fsck <path> -files -blocks -locations    

这将打印出指定路径中每个块的位置。