使用更大的硬盘驱动器将新磁盘添加到数据节点

Add new disks to datanode with bigger hard drivers

我是 运行 一个带有一些数据节点的 hdfs,每个数据节点有 8 x 1TB 硬盘驱动器。

我想为每个数据节点添加 2 x 2TB 硬盘驱动程序。我知道如何为数据节点添加新的硬盘驱动程序,但我混淆了新的硬盘驱动程序比旧的大,所以它可能在数据节点上的硬盘驱动程序之间分配数据时出现问题。

我认为最好在 2TB 硬盘驱动器上创建 2 个逻辑驱动程序 (1TB) 然后将其挂载到 OS 以便每个数据节点路径的体积相同。

我需要一些建议。感谢阅读!

如果数据节点中有混合大小的磁盘,一个常见的问题是较小的磁盘比最大的磁盘填充得更快。这是因为datanode默认的volume choice policy是round robin。基本上,datanode 会依次将新数据写入每个磁盘,而不考虑磁盘的大小或它们的空闲 space.

有一个替代卷选择策略,非常适合在具有混合大小磁盘的数据节点上使用,称为 AvailableSpaceVolumeChoosingPolicy - 我不确定您使用的是哪种 Hadoop 发行版,但 CDH 文档是:

https://www.cloudera.com/documentation/enterprise/5-5-x/topics/admin_dn_storage_balancing.html#concept_tws_bbg_2r

如果更改为该策略,则默认情况下 75% 的新写入将转到未充分使用的磁盘,直到它们赶上其他磁盘,然后它会回退到循环写入。