HDFS 集群中的 HDFS 副本 + 和最小数据节点数

Question

我们的 Hadoop 集群只有 2 个数据节点机器

在HDFS配置中我们将Block replication定义为3

所以

Block replication=3

可以吗？定义 Block replication=3 ，当我们在集群中只有两个数据节点时

根据我的理解，当我们定义块 replication=3 时我们在 HDFS 集群中有 2 个数据节点机器，这意味着一台机器应该有 2 个副本，另一台机器应该有一个副本，我是对的吗在吗？

Answer 1

复制因子的全部目的是容错。例如复制因子是 3，如果我们从集群中丢失 hadoop datanode，我们可以在集群中复制 2 个副本的数据。因此，在您的情况下，如果数据节点的数量为 2，并且复制因子为 3，那么如果节点 a 将有 2 个副本而另一个节点 b 有 1 个副本（比如）。如果我们丢失了节点 a 或节点 b，我们将在其他节点中获得可用的数据以达到目的。除了节点-a 将占用双倍 space 之外，这是不必要的，因为复制因子 2 本身已经满足容错目的。

同样，整个解释都是针对您的情况的。当在超过 2 个节点的集群中可视化时，整个概念将更有意义。

下面是hadoop文档的详细解释 https://hadoop.apache.org/docs/r1.2.1/hdfs_design.html#Data+Replication

HDFS 集群中的 HDFS 副本 + 和最小数据节点数

HDFS replica + and min data nodes number in the HDFS cluster

hadoop

hdfs

datanode