HDFS 集群中的 HDFS 副本 + 和最小数据节点数

HDFS replica + and min data nodes number in the HDFS cluster

我们的 Hadoop 集群只有 2 个数据节点机器

HDFS配置中我们将Block replication定义为3

所以

Block replication=3

可以吗?定义 Block replication=3 ,当我们在集群中只有两个数据节点时

根据我的理解,当我们定义块 replication=3 时我们在 HDFS 集群中有 2 个数据节点机器,这意味着一台机器应该有 2 个副本,另一台机器应该有一个副本,我是对的吗在吗?

复制因子的全部目的是容错。例如复制因子是 3,如果我们从集群中丢失 hadoop datanode,我们可以在集群中复制 2 个副本的数据。因此,在您的情况下,如果数据节点的数量为 2,并且复制因子为 3,那么如果节点 a 将有 2 个副本而另一个节点 b 有 1 个副本(比如)。如果我们丢失了节点 a 或节点 b,我们将在其他节点中获得可用的数据以达到目的。 除了节点-a 将占用双倍 space 之外,这是不必要的,因为复制因子 2 本身已经满足容错目的。

同样,整个解释都是针对您的情况的。当在超过 2 个节点的集群中可视化时,整个概念将更有意义。

下面是hadoop文档的详细解释 https://hadoop.apache.org/docs/r1.2.1/hdfs_design.html#Data+Replication