展示 parquet 文件是如何复制和存储在 HDFS 上的
Show how a parquet file is replicated and stored on HDFS
以 parquet 格式存储的数据导致 HDFS 上的文件夹中有许多小文件。
有没有办法查看这些文件在 HDFS 中的复制方式(在哪些节点上)?
提前致谢。
如果我正确理解你的问题,你实际上想要跟踪哪个数据块在哪个数据节点上,而不是特定于 apache-spark。
您可以使用 hadoop fsck 命令如下:
hadoop fsck <path> -files -blocks -locations
这将打印出指定路径中每个块的位置。
以 parquet 格式存储的数据导致 HDFS 上的文件夹中有许多小文件。
有没有办法查看这些文件在 HDFS 中的复制方式(在哪些节点上)?
提前致谢。
如果我正确理解你的问题,你实际上想要跟踪哪个数据块在哪个数据节点上,而不是特定于 apache-spark。
您可以使用 hadoop fsck 命令如下:
hadoop fsck <path> -files -blocks -locations
这将打印出指定路径中每个块的位置。