如何将应用于不同文件/表的相同/共享分区的 HDFS 文件块放置在同一数据节点上

How to place HDFS file blocks with same / shared partitioning applied for different files / tables on same Data Node

我有两个按日期列分区的大表。它们在 hdfs 中保存为 parquet 文件。每个分区都被 64 MB 的块划分，并在集群机器上复制 3 次。为了优化连接操作，我想在同一台机器上放置相同的日期分区（任何连接键值仅放置在一个日期分区中）。

在 Spark 中有一个 Partitioner 对象，它可以帮助在集群中分配不同 RDD 的块。它与我的问题非常相似，但我担心保存这些 RDD 的文件块后可能会被 hdfs 机制洗牌。说明：RDD 是 Spark 实例，df 方法 saveAsTable(...) 调用（我想）一些选择数据节点并复制数据的低级函数。

任何人都可以帮助我知道我的表的块分布是否正确吗？

您的问题的答案是，就逻辑相关文件/表的分区而言，无法明确控制 "like / similar" 数据块的放置。 IE。您无法影响 HDFS 将数据块放置在哪些数据节点上。

这些分区/数据块可能巧合地驻留在相同的数据节点/工作节点上（由于 HDFS 的复制。

顺便说一句，对于 S3，这种方法在任何情况下都不起作用，因为不存在数据局部性优化的概念。

如何将应用于不同文件/表的相同/共享分区的 HDFS 文件块放置在同一数据节点上

How to place HDFS file blocks with same / shared partitioning applied for different files / tables on same Data Node

hadoop

hive

hdfs

apache-spark

hadoop2