u0X目录在Hadoop集群中的作用是什么？

Question

我是 Hadoop 的新手并且 Linux。我正在按照教程构建一个简单的 3 节点集群，在成功安装伪分布式集群后，我现在需要将其重新配置为完全分布式。

我已经到了需要为 fsimage 文件提供冗余的地步。所以根据教程，我需要以这种方式编辑 hdfs-site.xml：

当前设置（伪分布式）

<property>
   <name>dfs.namenode.name.dir</name>
   <value>file:/hadoop/hdfs/namenode</value>
</property>

更改为（完全分布式）

<property>
  <name>dfs.namenode.name.dir</name>
  <value>file:///u01/dfs/namenode,file:///u02/dfs/namenode</value>
</property>

这看起来很简单，但对于新的 linux 用户来说，它提出了一个问号。

u01和u02是什么意思？这些只是我需要创建的新目录吗？是否有任何与它们相关的隐式配置？该教程没有提供更多信息，所以我猜我缺少一些常识。我应该只创建目录，修改 xml 文件然后继续吗？

如能解释什么是 uXX 目录以及它与 Hadoop 集群的关系，我们将不胜感激。

Answer 1

属性 dfs.namenode.name.dir 确定在本地文件系统中，HDFS 名称节点必须存储持久性 HDFS 元数据（fsimage 和编辑）的位置。至少需要一个目录路径作为此属性的值。

如果您提供逗号分隔的目录路径列表，namenode 将尝试在所有这些路径中复制相同的元数据。它仅用于冗余。

目录路径可以是任何结构，前提是用户运行 namenode 进程可以访问它们。这里uXX纯粹是为了区分它们是不同的目录路径。

除了本地 FS 之外，属性还接受远程（如 NFS）文件系统目录路径。

What is the role of u0X directory in Hadoop clusters?